ここで取り上げるのは「頻度主義者の統計学 vs ベイジアン」。
実は、次回の投稿の「Why Bayes?」で「Workshop Statistics: Discovery with Data, A Bayesian Approach (James H. Albert and Allan J. Rossman May 23, 2009)」の序文の全訳を予定している。そこでの話題も「頻度主義者の統計学 vs ベイジアン」なのだが、その前の序文として、私の知識の程度も含めて、少し書いておきたくなった。
「頻度主義者の統計学」て書くと、頻度主義者の方々に非難されそうだが、分かりやすい表記に配慮した結果。「ベイジアンの統計学」とも記すべきだったかも...。
とはいえ、「徒然なるままに」書いていたら長文になった。私なりにデータ分析の手法が見えてきたのと、再びベイジアンに帰ってきた喜びから色々思うところがあって長くなった。
私は学者でも一流のデータ分析者でもないので、真面目?な方は、多分これ以降は読まないと思う(「最初から読まない」てか?)。書いていることには、99.99%信念(0.01%は...?)を持ってますけどね...。そんな人たちや、データ分析や統計学に興味がない方は、ここでお別れですね、多分...。(^^)v
ただ、次の投稿の元にしたテキストは「中学生以上向け」です、四則演算しか使っていない。統計学ソフトも表計算ソフトも必要ない。本来は「最強の***」とかいう本よりも、こんな本質的に確率や統計学を語る本が日本に少ない(あるのかな?)が問題。
データ分析の根底にあるもの
統計学やデータ分析に興味がなければ、こんな話題は意味不明でしょう。けれども、「ビッグデータ」とか「人工知能」に関する話となれば、興味を抱いてもらえるかもしれない。そんな「ビッグデータ」「人工知能」にとって根幹にあるのは「統計学」。統計学を抜きにビッグデータも人工知能、ましてやデータ分析など語ることはできない。
そんな根幹の統計学を二分するような手法が「頻度主義者の統計学」と「ベイジアン」。歴史的な経緯は「異端の統計学 ベイズ」が詳しい。頻度主義者であっても読むべき本。
そんな二分する手法だが、上級のデータ分析者はきっと「信念」をもって、どちらかの手法、もしくは両方を採用していると推測する。憶測だけどね...(笑)
とはいえ、ここで言いたいのは、「統計学」や「データ分析」も「魔法の杖ではない」ということ。研究が進んだ将来は、ベイジアンが普通になるかもしれないし、「頻度主義の統計学」に画期的な方法が追加されてベイジアンを凌駕するかもしれない。今現在、そんなことは誰にも断定できない。
少なくとも、現在の統計学のトレンドを無視したり、ベイジアンや頻度主義の歴史を無視して「データ分析」は語れない。ハッキリしていることは、いずれの手法でも、未来のデータ分析の精度は向上するしかない。
先日からシリーズ化?した「ベイズの基礎」は、テキスト「Workshop Statistics: Discovery with Data, A Bayesian Approach」を読んだのがきっかけ。ただし事実とは前後して、課題の「ベイズの基礎:課題15-1 感染した確率」を投稿した。教科書的な流れだと、次回投稿予定の「Why Bayes?」から始めて、先の課題に取り組むのが筋だろう。実際、私もそうした流れで読んだ。
とはいえ、先に課題に面白く取組み過ぎたため、そちらを先に投稿した次第。実際面白いのは、こんな背景なんかより、課題を解決する実践なのも事実なので、これはこれで良いと勝手に思っている。
単に「統計ソフトで算出」はデータ分析にあらず
この「お題」、誰に対して発している訳ではございません。統計ソフト「R」を使い始めた当初から、自分自身の肝に命じていることです。
憶測ですが、少なからず「統計ソフトの結果を鵜呑み」の人たちって「頻度主義者」なのでは? 憶測だけどね...。
ビッグデータを使っても「因果関係を無視した相関関係」の是非に未だに悩んでいる私です。今の世代の人工知能が理解不能な因果関係を捨て去ることはできないのです。その結果、誤った結果を人間が導くのもの理解しています。その辺は、もう少し人工知能技術の発展と、私のデータ分析力の向上に期待するところ。
「p 値が」「95%の信頼区間で帰無仮説を棄却」とか普通の人にはやっぱり難しい。おまけに、モデルをいじくり倒しながら、データをRに入れてゴチャゴチャやっていれば、そのうち期待する結果を得られる。
それって「技術に溺れる」て奴だよね?「仏作って魂入れず」て感じだよね?
そんなの絶対ダメだ。VMグループの昨今の事件を思い出した。「ドイツ人が魂入れなかった」てか?(笑)
帰ってきたベイジアン
「ウルトラマン」的で良いのね、このタイトル。
「頻度主義者の統計学」を初めて学んだ時は訳が分からなかった(今でも納得感は高くない)。数度の挫折を経て、関数電卓の助けも借りて理解した鳥居泰彦著「はじめての統計学」も「頻度主義者の統計学」だった。この理解を弾みにして、統計分析ソフトウェア「R」に没頭して、「頻度主義者信仰まっしぐら」(信仰したつもりはないが...)という感じになっていた。
ところがその後、「運は数学にまかせなさい」を読んだのが運命だった(シャレちゃうよ...)。その本でベイズを取り上げた部分だけが理解できなかったのだ。もうモヤモヤ感満載だった。そしてJohn Kruschke著「Doing Bayesian Data Analysis」を読み始めてから、ベイジアンに突入した。
このベイジアン本はとても素晴らしかった。苦労しながらも半分以上は読み進められた。何度もベイジアンの例として取り上げた「診断は陽性の時、病気である確率」など、ベイジアンの威力に魅了される例を体験した。ただ、途中で本書を読むのを中断した。理由は単純で、その時点まで読んでもベイジアンを理解できた気にはなれなかったのだ。何故そうなったかの原因も明確で
基本的な確率論を理解していない
所謂「サイコロの目の出方」や「白玉黒玉の順列」だの「白玉黒玉の組合せ」の問題。悲しいかな、その事実を受け入れて、確率を根本から学び直した。高校生の頃に苦手中の苦手だった「確率・統計」に向き合うことにした。もう逃げるのを止めたのです。
「俺はバカなのか?」と何度も嫌になりながらも、多くの書籍を読んで課題に取り組んだ。とはいえ、気長に臨んだ。例えば、最近書いた「独立性と条件付確率」なんて一年越しでようやく理解した感じだ。英語のテキストしか使っていないので、この間に基礎的な数学を英語で学び直したのも助けになったのかもしれない。データ分析の基礎を学び直したのも、確率やサンプリングについての理解に繋がった。
そんな風に「条件付確率」に拘ったのは、それがベイジアンに直結すると知っていたから。「条件付確率の理解しにくさ」が「ベイジアンの理解しにくさ」と思ったから。
再び「頻度主義者の統計学」を仕事の都合でやりながらも、ベイジアン的な魅力を忘れられない葛藤があった。何度も取り上げた「モンティホール問題」も条件付確率が元のベイジアンで解決できる問題、「ロト6の勝率が 50%を越える時」なんていう「ギャンブル」の問題は基本的な確率論で算出できる。
ベイジアンについて、面白い逸話がある。今よりもっとデータ分析手法を模索している時期に、XJRさんに向けてツーリング先の宿で「データ分析プレゼン」した際、XJRさんの「ベイズ理論の確率の更新」への高い反応があった。客先と、その後の飲み屋のお姉さんへ「モンティホール問題」を紹介した際の盛り上がりなど、ベイジアンな手法は確率や統計学に疎い人たちも、納得するものだ気づいた。直感では誤る確率も、冷静に考えると納得するという感じだ。「確率論の底力」を痛感した出来事だった。
そんな彼らに、「頻度主義者の統計学」の代表ともいえる「有意水準」「信頼区間」「正規分布」などを、簡単に説明することは私にはできない。「何でそうなるの?」と尋ねられたら「そういうもんです」としか答えられない。「これ公式です、テストに出るから覚えてね」的な教え方で相手が納得するとは思えない。
そんな出来事の最中も「頻度主義者の統計学」を仕事でやりながら、「ベイジアン、最近ご無沙汰だな...」となっていた。多数ある回帰分析の手法を試しながら、そんなことを思っとりました(笑)
Frequentists vs. Bayesians
「Frequentists vs. Bayesians」とは「頻度主義者 vs ベイジアン」。「宗派の違い」並みに争っているとも聞く。今でも争っているのかは不明だが、少なくとも過去にかなり争った事実は「異端の統計学 ベイス」からも読み取れる。
「Frequentist」とは「Frequentist statistician(頻度主義者の統計学)」「Frequentist inference(頻度主義者の推定)」という統計学者や統計学の手法のこと。ベイジアンも統計学の手法だが、頻度主義者と重なる部分もあるが、基本的な部分で一致はしていない。結果、同じ標本データを使っても、この二つの手法で同じ結論になる場合もあるし、そうならない場合もある。
「どっちがどっちなの?」という疑問には、「通常、日本の学校で教えるのは頻度主義者の統計学」「日本の書籍で圧倒的に多いのも頻度主義者の統計学」ということ。統計学を少し学んだ方でも、「ベイズ」という言葉に記憶がなければ、その知識は間違いなく「頻度主義者の統計学」です。
さて、今の私はどちらを支持しているか? それは「ハッキリ言えません」です。今のところ「良いとこ取りで両方使う」というスタンスでいるが「ベイジアンかな...」という感じ。とはいえ、長いあいだ頻度主義者の統計学に触れているためと、ベイジアンを上手く使えないが故に、ハッキリしないのだ。
それでもベイジアンには時間を割いて学ぼうとしている。「Naked Statistics」と「Data Science and Business Strategy」でデータ分析の基本知識と共に、確率論を学び直しながら、徐々にベイジアンへの理解も深まってきた。そんな折り、「Doing Bayesian Data Analysis」を約1年振りに最初から読み直し始めた。そこで紹介されていたのが本テキストの「Workshop Statistics: Discovery with Data, A Bayesian Approach」。
これは統計学の初学者向けのテキストで、中学生以上が対象のようで、非常に分かりやすい。内容は「頻度主義者の統計学」から始まるが、最終的にはベイジアンを教えようとしている。私は「頻度主義者」な部分は飛ばして、終盤のベイジアンのトピックから読んでいる。そこにある「課題」が非常に有益。
「人工知能」、すなわち人間的な推論に近いのはベイジアンとは思っている。「過去の事実を織り込む」「経験から学ぶ」という意味で「人間的」としている。とはいえ「人間的な直感の誤り」は、確率論に基づく数学には入る余地はない。
「Why Bayes?」に続く。
0 件のコメント:
コメントを投稿