2015年9月12日土曜日

データ分析とは「非独立性の分析」

Market Basket Analysis:再び『独立性と条件付き確率』」からの続き。

ここ最近、データの「独立性」について頻繁に考えている。そんな中、あることに気づいた。それは「データ分析の目的」。


知りたいのは独立性じゃない

「データ分析てなんだろう?」というテーマをずっと考えている。この点にはこれまでも何度か触れてきたが、前回の投稿を書きながら、「独立性とデータ分析」について思い当たったことがある。「今さら??」という感じもしないではないが、「当たり前のこと」をちゃんと考察したくなった。

データ分析は、分析の対象が「独立」の場合は、それほど難しいことではない。

こう書くと語弊があるが、データの関連性(相関関係)を探すことにこそデータ分析の意義があると考える。つまり、独立であればその発生確率に影響するものはなく、完全に偶然の産物で、その確率だけを考慮するだけでよい。つまり、不正のないサイコロなら各目の出る確率は常に 1/6、という具合に。

とはいえ「独立性」を検証することも重要なのは認める。それでも「1 - 独立である確率 = 独立でない確率」のように「独立でない確率」、すなわち「依存性」「相関性」を探す方がデータ分析の主な目的と考える。

例えば「何とか調査」といって、その割合だけが羅列されたレポートは「単に独立した数値」にしか見えないし、そこに意味を見いだすのは難しい。それは「データ分析」とは呼ばない、単なる「集計」だ。「なぜそういう数値になったのか」という相関関係や因果関係に踏み込まないと、そこに大した意義は生まれないと思う。

「薬の効果をプラシーボ効果と比較して有意な差があれば、その効果は期待できる」など、独立でない対象の分析例はいくらでも挙げられる。

とはいえ、「オムツとビール」で見つけたという「相関関係」はデータマイニングの一面を表しているが、それだけを「データ分析」とするには疑問がある。相関係数の高い関係だけで判断するのは、それも集計に過ぎない。


学んだのは独立性事象ばかり?

学校の授業で、データ分析の基礎になる「統計学」に初めて触れたのは、「確率・統計」の科目だった。当時は懸命に勉強したつもりだが、苦手意識は全く払拭できなかった。記憶は曖昧だが、その当時の問題は、サイコロなどの独立事象の確率問題ばかりだったように思う。

それが無駄だったとは言わないが、「独立でない事象」について理解が乏しく、それに伴い「独立性」の理解も浅かったように思う。

次の条件付き確率の関係
が感覚的に理解し難い原因を「独立事象の確率ばかりだったから」とするのは、安易なのは分かっている。

しかし世の中、「何かの事象が別の何かに影響する」ことの方が多いわけで、サイコロなどの独立事象はむしろ少ないと考える。社会に出ると、多くのことを因果関係で判断しなければならない。例えば、アイデアや分析をする際、因果関係を考慮しないと論理的なものとは到底言えない。

「ある条件を設定して勝率上げる」という行為は日常的なもので、これは正に「条件付き確率」であり、相関関係を見つける行為そのもの。「何かが何かに影響を与えることができる」と知っているからだ。


結局、何ともまとまりがなく、かつ「至極当たり前」のことを書いたように思う。とはいえ、ここで書いたことを見失うと、誤った分析結果を導くのは間違いない。データ分析とは「非独立性の分析」と題したが、それは「相関関係・因果関係の分析」であって、そこには「(データに埋もれた)真実を探す」ということも含まれている。

条件付き確率が理解しにくいのは、教え方の問題もあったかもしれないが、もしかして「誤りがちな人間の直感」にもあるのかもしれない。確率論やデータ分析は、そんな人間の誤りを正すという役割もある。「真実を歪曲する」のも、また「人間の行為」だから。

0 件のコメント:

コメントを投稿