過去に二度投稿した「Birthday Puzzle」は
23人が集まったある会合で二人の誕生日が同じ確率は?
のように確率を計算するものだった。先の投稿の「Cheryl's Birthday 問題」では、計算は一切ないが、データ分析には必要な考え方でしょう。
確かに確率の計算は重要だが、データ分析の全体から見れば、そんな計算は大して重要ではない。そもそも確立した計算方法を理解すれば、あとは統計ソフトウェア上のアルゴリズムに「適切な標本データを入れれば良い」だけなのだ。
他にデータ分析に大切な技術はあるけど、この「適切な標本」も簡単ではない。
Induction と Deduction
ところで「induction 帰納」と「deduction 演繹」がある。中学の数学で「帰納法」は習うのかな? 当時の私はすんなり理解したと思う。むしろ「おぉ、なるほど」と感心したのを覚えている。単純な計算より、文章題が好きだったからだろう。今度中学生になる姪っ子は「Cheryl's Birthday 問題」を解けないまでも、理解出るか興味津々だ。
そんな induction と deduction は、知ってはいるが、正直厳密に理解しているとは思えなかったので調べてみた。まずは辞書的な意味から。
induction
[uncountable] (specialist) a method of discovering general rules and principles from particular facts and examples
事実や事例から一般的な規則や原理を導く方法
deduction
[uncountable, countable] the process of using information you have in order to understand a particular situation or to find the answer to a problem
- He arrived at the solution by a simple process of deduction.
- If my deductions are correct, I can tell you who the killer was.
- We can examine the bones of dinosaurs and make deductions about how they lived.
以下の図を見て大体理解できました。ていうか、さすが英英辞典、たった一文の解説で概ね理解できました。
先の「Cheryl's Birthday 問題」はまさに「deduction 演繹」。データ分析は「induction 帰納」かもしれないが、先の「Birthday Puzzle」や「ロト6の勝率が50%を越える時」のように、確率が明確に求まるのは induction ではない気がする。むしろ deduction か?
実のところ、この辺の定義には、興味がありません。この辺が「私はアカデミック的になれない」所以かもしれない。ある意味適当?
私としては、状況に応じて「ベターな方法」を採るだけです。実践重視という感じですね。これまでも「今回は帰納法で」とか意識することなく使っている。手法を意識しすぎる、あるいは「思い込みすぎると」間違った分析をしてしまいそうだから。
ヒトがするデータ分析
「ベイズの基礎」と題して、日々「ベイジアン」の課題を取り組んでいる。具体的な計算が中心だが、常に論理的な思考も問われている。例えば「事前確率」の設定には常識的な知識が必要だし、無作為抽出する標本データは推定する母集団を反映するものでなければならない。
先日も「事前確率は恣意的じゃないでしょ」と書いたように、「人間の誤り、思い込み」に注意が必要だが、知識や経験をデータ分析に盛り込む必要性は、まだまだ重要視される。
この辺の「計算では測れない部分」が、実は「データ分析の醍醐味」のように思える。ビッグデータ分析、そして「AI や ロボット」にとっては、それが大きな壁でしょう。徐々に越えていくでしょうが、簡単ではない。だからこそ、人間が鍛える能力が自ずと見えてくる。
ところで、この「Sheryl's Birthday 問題」を最新のロボットが字句解析して回答を出せるのだろうか? Albert と Bernard の発言が理解できれば、コンマ数秒で出せるでしょうね。逆に、ロボットで「Sheryl's Birthday」のような問題を作れるか? 作れるような気がする...。


0 件のコメント:
コメントを投稿