レイ・フロンティア株式会社 アルバイトの古川です。
今日はこちらで機械学習についての記事を書かせていただくことになりました。
突然ですが「統計学」と「機械学習」の関係についてどう考えているでしょうか。
「統計学と機械学習」は全く別のようですが、背景にある数学的な道具立ては「全く一緒」と言っても過言ではありません。
統計解析手法と機械学習手法を数学的に記述するやり方は「基本的に全く同じ」だそうです。機械学習を学ぶ上で、統計学を学ぶことは大きな意味があると思います。
知識は浅いですが、このブログを通して代表的なデータ分析手法を紹介していけたらと思います。
今回の分析手法は・・・アソシエーション分析
associationの直訳は提携,関連。アソシエーション分析とは「条件Aに当てはまるうち○○%が条件Bに当てはまる」という関連を分析する手法です。アソシエーション・ルールでは「Aという条件の時にBが起こる確率は○○」という表現をします。({A}⇒{B})。またアソシエーション・ルールは、必ずしも1項目どうしのルールに限らず{AかつB}⇒{C}というルールもあります。
二つ以上の事物の互いの関係を表す相関と似ていますが、アソシエーション分析の場合は「{A}⇒{B}」の場合と「{B}⇒{A}」の場合では、結果が異なります。(相関係数は同じになります。)
表記法:{A}⇒{B}
左辺:条件部(left-hand-side:LHS)
右辺:結論部(right-hand-side:RHS)
評価法:
支持度(support)
全データの中で{A}⇒{B}というルールが出現する割合です。この指標が大きいほど、全体の中でそのルールが出現する割合が高くなります。ネットショップのレコメンドで表示される商品は支持度(検索した商品⇒レコメンド商品) が高いと言えるでしょう。逆に小さいと、利用し難い指標となります。
計算方法
支持度({A}⇒{B})=条件部Aと結論部Bをともに含むデータ数/全データ数
確信度(confidence)
信頼度とも言います。条件部(A)の項目が出現する割合の中で、条件部(A)と結論部(B)が同時に出現する割合です。この指標が大きいほどA,Bの項目は関連が強いということになります。このため、相関係数に近い意味を持つ指標とも言えます。
計算方法
確信度(A⇒B)=条件部Aと結論部Bをともに含むデータ数/条件部Aを含むデータ数
A,Bという2つの項目の関連性は確信度で把握できますが、解釈には注意が必要です。「支持度」が低くても、「確信度」が高い場合は、条件Aの時は殆ど条件Bになります。条件Bが多い場合は、「確信度」も「支持度」も上がり、条件Aも条件Bも満たすことが多くなります。逆に、条件Bが少ない場合は、「確信度」が低下します。
リフト値(lift)
リフト値とは、条件A(前提部)を満たすうち条件B(結論部)を満たす割合が、全てのデータの中で条件B(結論部)を満たす割合よりどれだけ多いかを倍率で示したものです。
計算方法
リフト値=確信度(A⇒B)/(結論部Bを含むデータ数/全データ数)
リフト値が低ければ、条件Bを満たす割合は単独で大きく、条件Aとの関連性が少ないと考えられます。つまり、条件Aと条件Bの確信度が高くても、その関連性は少ないという解釈になります。一般的な目安として、リフト値が1より大きい場合は有効なルールとされています。
アソシエーション分析では抽出されたアソシエーション・ルールが全て有益な示唆になる訳ではなく、3つの指標を相互に確認しながら判断します。また、そのルールが分析の目的に合致しているか、現場で再現させることが可能かどうかも考慮して、最終的にいくつかのルールを採用します。
実用例としては「商品B の単独の売れ行きがあまり良くないが商品Aを買う人が高確率で商品Bを買うことがわかった時、商品Bを商品Aの隣に置く」というようなことです。主にマーケティングの手法として用いられることが多いようです。スーパーの商品陳列に統計学が利用されていて、消費者は統計通りにカゴに商品を入れていく・・・なんだか少し操られているようですね。
最後までお読みいただきありがとうございました。