ダニエル・カーネマン
早川書房
売り上げランキング: 347
早川書房
売り上げランキング: 347
オッヅから確率へ
予想通り、本書「ファスト&スロー」にベイズ・ルールが登場した。
たとえばあなたは、大学院生の 3 %(基準率)がコンピュータ・サイエンス専攻だと考えているとしよう。そしてトム・Wの人物描写(= 証拠)を読んだ後に、コンピュータ・サイエンス専攻の可能性は他分野より 4 倍高いと考えたとする。するとベイズ・ルールにより、トム・Wがコンピュータ・サイエンス専攻の確率(事後確率)は 11 % になる。もし基準率が 80% なら、事後確率は 94.1% になる。P.273
この解説は「原注 P.34」にある。
ベイズ・ルールは、最も単純には、事後確率=事前確率×尤度比という形で表される。尤度比は、2つの相反する仮説が現実であるオッヅ(それぞれの確率の比)を意味する。原注P.34
私にとって馴染みのベイズ・ルールは P(A|B) = P(A)P(B|A) / P(B) で、P(A) は事前確率、P(B|A) が尤度。よって、本書の尤度比とは P(B|A)/P(B) のこと。
診断の問題で考えてみよう。あなたの友人が、ある深刻な病気の検査で陽性反応が出た。この病気はきわめてめずらしく、精密検査送りになった人が実際にその病気だった例は、600 件に 1 件にすぎない。検査自体の精度は高く、的中率は 25:1 である。すなわち陽性反応が出た人がその病気にかかっている確率は、偽の陽性反応が出た確率の 25倍である。陽性反応が出たのは悪い知らせだが、あなたの友人が病気であるオッヅは 1/600 から 25/600 になったにすぎない。確率としては 4% である。原注P.34
「なぜ、オッヅが 25/600 の確率が 4%」はこの説明だけでは分かりにくいかもしれない。これに続く次の問題で説明。
主観確率の 3% に対する事前確率は、0.03/0.97 = 0 .031 となる。尤度を 4 と仮定すれば(トム・Wがコンピュータ科学者である可能性は、そうでない可能性の 4 倍)事後確率オッヅは 4 × 0.031 =12.40.124となる。以上から、トム・Wがコンピュータ科学者である事後確率を計算すると、11% となる(12.4/112.4 = 0.11)。
注意:私が「事後確率」に取り消し線を入れた。これは事後確率でなくオッヅと思う。そのオッヅから事後確率を求める流れ。オッヅを「事後確率」とも呼ぶのかもしれないが、本来の求める「事後確率」とは別表記にしたほうが分かりやすい(「事後オッヅ」とすべきでは?)。他の箇所でも同様の記述があるので、その都度修正した。
この説明に補足すると、12.4/112.4 = 12.4/(100+12.4) = 0.11 、これは投稿済み「賭博と確率:オッヅ」の次式から。
よって、先の 4% の算出は (25/600)/(1+25/600) = 0.04 。
基準率(or 事前確率)が 80% の場合は
するとベイズ・ルールにより、トム・Wがコンピュータ・サイエンス専攻の確率(事後確率)は 11 % になる。もし基準率が 80% なら、事後確率は 94.1% になる。P.273> 0.8/0.2*4/(1+0.8/0.2*4)
[1] 0.941
本来のベイズと違う?
ここまででは理解した。ところが、長いことやっている「本来のベイズの定理」と比較したら値が異なった。例えば、ベイズの定理の実践:経験に学ぶ(数学の言葉で世界を見たら by 大栗博司) の乳がんの例。
P(乳がんあり)= 0.008
P(陽性 | 乳がんあり) = 0.9
P(陽性 | 乳がんなし) = 0.07
> odds<-0.008*(0.9/0.1)
> odds/(1+odds)
[1] 0.0672
本来は約 0.09 。長時間悩んだ挙句、おそらく尤度比の算出方法が違うのが原因だと思う。次の、「尤度比、オッズ」「Bayesの定理」の計算と解説 の尤度比の解説では、尤度比は次の定義から x / (1 - y) とのこと。
- 検査の感受性 (sensitivity):(有病者を検査して) 有病者が正しく陽性となる割合 x
- 検査の特異性 (specificity):(無病者を検査して) 無病者が正しく陰性となる割合 y
つまり、ここでの尤度比は
有病者が正しく陽性となる割合 / (1 - 無病者が正しく陰性となる割合)
P(陰性 | 乳がんなし)の情報が与えられていない。そこで P(陽性 | 乳がんなし) = 0.07 から P(陰性 | 乳がんなし) = 1 - P(陽性 | 乳がんなし) = 1 - 0.07 = 0.93 として求めた
> odds<-0.008*0.9/(1 - 0.93)
> odds/(1+odds)[1] 0.0933
尤度比は、2つの相反する仮説が現実であるオッヅ(それぞれの確率の比)を意味する。この乳がんの例では、「2つの相反する仮説」から尤度比は
有病者が正しく陽性となる割合 / 無病者が誤って陽性となる割合
0.9/(1-0.93) = 12.9
が正しいと(今のところ)認識した。次が最初に誤った?解釈による尤度比。
有病者が正しく陽性となる割合 / (1 - 有病者が正しく陽性となる割合)
0.9/(1-09)=9
12.9 と 9 の差は大きい。
要するに尤度比の「考え方」の違いという気がする(間違ってるかも)。もう少し突っ込んで調べればわかる気もするが、ここで止める。私の通常の分析では、事後オッヅから事後確率を求めることはしないから。よって、本書の解説に対して「本来のベイジアン」との比較はこれ以上はしない。
発見は驚き
次は本節の最後から。
「自分の見たものがすべて」に連想一貫性が重なると、自分がこしらえたストーリーを信じやすくなる。したがって、きちんとベイズ推定を行う基本は、次のように簡単にまとめることができる。
- 結果の確率を見積もるときは、妥当な基準率をアンカーにする。
- 証拠の診断結果を常に疑う。
P.274
アンカーは anchoring のことで、特定分野に Anchoring されない専門家 の投稿で取り上げたもの。その投稿は、本著者 Danny Kahneman とその「相棒」Amos Tversky を扱ったポッドキャストの番組を元にしたもの。
さらに、この引用に続く Danny の言葉は印象的。
じつに単純にして明快である。だが、この基本をどうやって実行したらいいのか、自分は一度も教わったことがない。しかもいまだに、よほど努力しないとこの基本を守れない。このことに気づいたとき、私は愕然としたものである。P.274
私が最初にベイズルールを理解した頃も同様の驚きをもった。そして、今でも驚かされることがある。こんな風に Danny のような愕然とする経験を踏んでいくこそが、新たな発見に繋がる。
青タクシーがひき逃げした確率
次は、第16章「原因と統計(驚くべき事実驚くべき事例)」から。
問題1:夜、一台のタクシーがひき逃げをしました。この市では、緑タクシーと青タクシーの二社が営業しています。事件とタクシー会社については、次の情報が与えられています。
では、ひき逃げをしたのが青タクシーである確率は何%でしょうか?
- 市内を走るタクシーの 85% は緑タクシーで、15% が青タクシーである。
- 目撃者は、タクシーが青だったと証言している。裁判所は、事件当夜と同じ状況で目撃者の信頼性をテストした結果、この目撃者は青か緑かを 80% の頻度で正しく識別し、20% の頻度で識別できなかった。
これは、先の解法と同様にして解ける、以下解説。
確率の形でベイズ・ルールを適用すると、事前確率とは、基準率から導いた青タクシーが犯人である確率である。尤度比は、証人が青タクシーを見て青と言った確率と緑を見て青と言った確率の比になる。事後確率オッヅは、(0.15/0.85)×(0.80/0.20) = 0.706 となる。事後確率オッヅは、犯人が青の確率と緑の確率の比である。犯人が青である確率を計算すると、0.706/1.706 = 0.41 となる。よって、青タクシーが犯人である確率は、41% である。原注P.35
目撃者がいなければ、ひき逃げをしたのが青タクシーである確率は 15% で、これが起こりうる結果の基準率となる。もし二社のタクシー会社が同等のシェアを持っていたら、基準率には意味がなくなり、あなたは目撃証言の信頼性だけを考えればよい。すると、青タクシーである確率は 80% になる。P.296
オッヅは (0.5/0.5) × (0.80/0.20) = 4 で、事後確率は 4/(1+4) = 0.8 。計算するまでもなく、タクシー数の比率が同じなら、考慮されるのは目撃者の信頼性 80% のみ。
たぶんあなたは、この問題をだされた大勢の人がやったのと同じことをするだろう。つまり、基準率を無視して証言だけに注目する。この場合、最も多い答えは「80%」になる。P.296
タクシーの比率が無視されがちなのは、低い罹患率が考慮されないのと同様。
統計的基準率と因果的基準率
では、同じ問題の別バージョンを考えてみよう。この問題では、基準率の表現方法だけを変えてある。
問題2:事件とタクシー会社については次の情報が与えられています。
- 二つのタクシー会社が走らせている車の台数は等しい。ただし、過去に起きた事故の 85% には緑タクシーが関与している。
- 目撃証言は最初の問題と同じ。
タクシー問題の二つのバージョンは、数学的には同じだが、心理学的にはまったく意味が違ってくる。P.297
「数学的には同じ」なので、青タクシーが犯人である確率も同じ。事故率 85% と 15% では 5 倍以上の差がある。はたしてこれを、タクシー台数の比率が 85 : 15 と同等にヒトは扱えるのか?という問題。
タクシー問題を見ると、基準率には二種類あることがわかる。一つは「統計的基準率」で、これは母集団に関する事実である。しかしこの数字は、個々の予測では無視されがちである。もう一つは「因果的基準率」で、こちらは個々の予測を変える効果がある。二種類の基準率情報は次のように扱われる。
- 統計的基準率はおおむね過小評価され、ときには完全に無視される。予測するケースに固有の情報が提供されているときは、とくにその傾向が強い。
- 因果的基準率はそのケース固有の情報として扱われ、他の固有情報と容易に関連づけられる。
P.298
基準率は「前提条件」と解釈しても良い。緑と青タクシーの台数の比率などが「統計的基準率」、「因果的基準率」は「事故率が 5 倍以上の差なら、そのタクシー会社の運転は荒っぽい」とか考えること。
この「因果的基準率」の扱いは意外と難しいと思う。本書はこの後で「ステレオタイプ」と関連させている。世の裁判官や弁護士、政治家など、犯罪を扱ったり法律を制定するヒトらが、本書を読んでいることを祈るばかり。そうでなくとも、本書が指摘する内容はすでに知ってほしい。
日本の政治家が、ベイズルールを駆使してる姿が、まったく想像できないが残念で悲しいよ。
Paul E. Meehl に続く。
0 件のコメント:
コメントを投稿