2015年11月2日月曜日

実習6.8 重要な「同意できる事前確率」

実習6.6-7 事後確率 Odds」からの続き。

このタイトルは、厳密には「同意できる」ではなく「同意させることができる」。「実習6.4-5 懐疑的な CEO の事前確率」同様に、ここでも事前確率の特徴が見れる。


実習 6.8 ある製薬会社が、男の子を妊娠する確率を上げる薬を開発した。本件に関する研究成果は何も公ではなく、この薬の効果は一般には不明とする。無作為抽出した 50 組の男女が一定期間この薬を飲んだ。結果的に全員が妊娠して、30 組が男の子であった。この薬の効果を分析する。

(a) 事前確率を決める。
(b) 決めた事前確率から事後確率を求め、薬を飲んだにもかかわらず、男を出産する確率が 50% である信頼性を示す。
(c) この製薬会社は強い確信で、薬の摂取で男を妊娠する確率は 60% としている。製薬会社の主張に懐疑的な人と、事後確率の違いはどの程度かを示す。


この実習の答えは一つとは限らない。「薬に効果があるか否か」には科学的な判断が必要で、答えは「Yes / No」と明確なものと思われがちだがそうではない。こういう分析こそが、コインの裏表の確率、宝くじの当選確率などと違って、よりデータ分析らしい。そしてベイジアンの特徴が良くわかる。


(a) 事前確率

実習6.4-5 懐疑的な CEO の事前確率」では、工場の製造品質に懐疑的な CEO が納得する事前確率を使った。ここでも同様に「聞き手が同意する事前確率」を設定する。したがって、聞き手によって採用する値は違う。

薬の効果に懐疑的なら、事前確率は「平均値 50% で小さい標準偏差の正規分布」とするのが自然。つまり「生まれるのが男であるのは高い確率で 50%」で「薬は効き目ゼロ」ということ。「多少は効き目があるのでは?」と思えば、確率分布のグラフの頂点は 50% より大きい方に偏る。

ここでは懐疑的な方の事前確率を採用して beta(θ; 5,5) とする。


(b) 事後確率

> post <- BernBeta(c(5,5),c(rep(1,30),rep(0,20)))

今回は離散型の BernGrid.R ではなく、連続型の BernBeta.R を使った。離散型でも同様の結果を出せるが、ここでは連続型の方が良い。

連続型を近似する離散型だが、事前確率に近似できる数学的な関数(ベータ関数等)があれば、そちらを使うべき。理由は簡単だから(参照「離散型分布て素晴らしい(数学的制約からの開放))。いちいち 1000 個とかの θ を用意して... 云々が、連続型では省けるのだ。


(c) 事後確率 odds

製薬会社の事前確率を beta(θ; 60, 40) 、製薬会社の主張に懐疑的な事前確率を beta(θ; 60, 40) とした事後確率が以下のグラフ。

二つの事後確率の p(D) から Bayes' Factor は

> 1.98e-15 / 1.01e-15
[1] 1.960396

この Bayes' Factor からは「60-40 の製薬会社の主張を評価」となるが、この値は前回とは異なり「事後確率の odds」ではない。先ずは「事前確率 odds」が必要(前回は事前確率 odds50:50 なので Bayes' Factor が即「事後確率 odds」)。ここでは p(60-40 prior)0.33, p(50-50 prior)0.67 とする。

事後確率 odds

 p(60-40 prior | D) / p(50-50 prior | D)

この式の変形前の式を示すと

 p(60-40 prior | D) = p(D | 60-40 prior) p(60-40 prior) / p(D | 60-40 prior)
 p(50-50 prior | D) = p(D | 50-50 prior) p(50-50 prior) / p(D | 50-50 prior)

この二式で割り算する

 p(60-40 prior | D) / p(50-50 prior | D)
 = [ p(D | 60-40 prior) / p(D | 50-50 prior) ]
   × [ p(60-40 prior) / p(50-50 prior) ]
   × [ p(D | 50-50 prior) / p(D | 60-40 prior) ]

それぞれの要素は

 [ p(D | 60-40 prior) / p(D | 50-50 prior) ] = 1.96 ... Bayes' Factor
 [ p(60-40 prior) / p(50-50 prior) ] = 0.33 / 0.67 ... 事前確率 odds
 [ p(D | 50-50 prior) / p(D | 60-40 prior) ] = 1

よって、事後確率 odds

> 1.96 * 0.33 / 0.67
[1] 0.9653731

0.971 にかなり近い。つまり、製薬会社と懐疑派の事後確率はほぼ同じということ。

先にも書いたが、今回のは一つのアプローチにすぎない。とはいえ、製薬会社の主張への反証の一つであることも間違いない。

0 件のコメント:

コメントを投稿