「モデル評価:evidence, Bayes' Factor」からの続き。
第5章の exercises(演習問題)をいつくか取り上げる。
Exercise 5.2 HDI で候補者の支持状況
(a) ある選挙で候補者A, B の支持状況は、無作為抽出した 100 人から 58 : 42 であった。この支持状況を知る前の候補者Aの予想は「一様分布」であったが、知った後では 95%HDI はどうなるか? また、その結果から支持状況が完全に二分されているといえるか?
> (post <- BernBeta(c(1,1),c(rep(1,58),rep(0,100-58))))
[1] 59 43
95%HDI は [0.483, 0.673] の区間。よって、θ = 0.5 がこの区間に入るため、支持状況は二分されていると考える。
(b) (a) の結果を更に確信するため、再度無作為に選んだ 100 人を調査して A : B = 57 : 100 の結果を得た。(a) の調査時と支持状況は変わらないと仮定して 95%HDI を示せ。また、その結果から支持状況が完全に二分されているといえるか?
(a) の事後確率を事前確率にして
> (post2 <- BernBeta(post,c(rep(1,57),rep(0,100-57))))
[1] 116 86
95%HDI は [0.506, 0.642] の区間。よって、θ = 0.5 がこの区間を大きい方に外れているため、支持状況は候補者Aが高いと考える。
Exercise 5.4 不正コインの事前確率
実習:不正と知っているコインだが、表と裏のどちらが出やすいのか不明の場合、ベータ分布で事前確率を示せ。また、このコインを 5 回投げて、4 回表が出た場合の事後確率を求めよ。
次の二つのグラフの左が実習の解答、右は比較の為に私が追加したもの。
> BernBeta(c(0.5,0.5),c(rep(1,4),rep(0,1)))
> BernBeta(c(1, 1),c(rep(1,4),rep(0,1)))
事前確率 beta(θ; 0.5,0.5) が目新しいが、これはコインがどちらかに偏っていることを示すもの、但しどちらに偏っているかは不明の状態。右は、一様分布の事前確率 beta(θ|1,1) に、左と同じ観測データを使ったもの。
95%HDI の区間は
左:[0.436, 0.998]
右:[0.409, 0.982]
右の方が狭い(高い信頼)、かつ p(D) 値も右が高い。しかし、次のように試行回数 10、表の回数 9 の場合は、95%HDI から左の方が信頼できる結果となっている(左の方が p(D) は低いのは、p(D) だけで判断できないことを示している)。
> BernBeta(c(0.5,0.5),c(rep(1,9),rep(0,1)))
> BernBeta(c(1,1),c(rep(1,9),rep(0,1)))
一様分布は「何も情報がない」であって、今回は偏っていることを事前に知っているので一様分布は不適切となる。
Exercise 5.6 不正の判別
実習:不正があるか定かではないコインを 20 回投げて 15 回表が出た。このコインは不正か公平か?
実習5.4 と同様に不正とするモデルを beta(θ; 0.5,0.5) 、公平とするモデルを beta(θ; 50,50) として、以下のように観測データから事後確率を算出。
> BernBeta(c(0.5,0.5),c(rep(1,15),rep(0,20-15)))
> BernBeta(c(50,50),c(rep(1,15),rep(0,20-15)))
evidence は不正モデルが p(D) = 2.29e-06 、公平モデルが p(D) = 1.33e-06 で、不正モデルの方が評価できる。
「実習5 Posterior Predictive Check(予測精度検査)」に続く。





0 件のコメント:
コメントを投稿