りんだろぐ rindalog: モデル比較：モデル比較の注意点

「Pseudo-Priors 階層型 MCMC」からの続き。

ここでは、"simple" と "complex" な特徴を持つ、2 つのコイン製造工場を例にする（10.5 Model complexity naturally accounted for）。次は各特徴、つまり 2 つの「モデル」の詳細

　simple ：must-be-fair モデル、ω_s = 0.5, k_s = 1,000
　　　　　多くが mode = 0.5 のコインを製造（0.5 付近で「狭く尖った」分布）

　complex：anything's-possible モデル、ω_c = 0.5, k_c = 2
　　　　　色々な偏りのコインを製造するが mode = 0.5 （なだらかで起伏の少ない分布）

本書では ω を bias 、 k を concentration と表現されていると気づいた（今頃...）。bias は「偏り度合」、concentration は「集中度合」という感じ。

以下のように、この 2 つモデル比較をした。

試行 20 回で表 15 回の場合

> pD <- function(z,N,a,b) { exp(lbeta(z+a, N-z+b) - lbeta(a,b)) }
> z<-15; N=20; pD(z,N,a=500,b=500)/pD(z,N,a=1,b=1)
[1] 0.3229023

anything's-possible モデルが must-be-fair に勝った。must-be-fair が「負けた」原因は、このデータが must-be-fair の「尖った」分布とは相容れないため。

試行 20 回で表 11 回の場合

> z<-11; N=20; pD(z,N,a=500,b=500)/pD(z,N,a=1,b=1)
[1] 3.337148

simple な must-be-fair モデルが勝っている。

以上の z = 15 と 11 の違いだけで結果の違いを説明するのは難しい。この例で「モデルの良し悪しの判断」はできない。

事後確率 odds = BF × 事前確率 odds

補足的な注意点だが、以下の式 10.5 から気づくのは

In other words, do not confuse the Bayes factor with the posterior odds.

事後確率 odds と Bayes factor を混同しないこと

事後確率 odds とは式 10.5 の左辺で、「Bayes Factor × 事前確率 odds」を指す。よって p(m) = 0（「あり得ない事前確率」）の場合、事後確率 odds も「あり得ない」となる。

prior 選択の重要性

「10.6 Extreme sensitivity to prior distribution」から。結論的には「モデル比較で prior の選択は大切」ということ。

先の anything's-possible モデルで β 事前確率の引数を a = 1, b = 1として、z = 65, N = 100 の場合で、must-be-fair モデルと比較

> z<-65; N=100; pD(z,N,a=500,b=500)/pD(z,N,a=1,b=1)
[1] 0.125287

anything's-possible モデルが勝っている。

「なぜ a = 1, b=1 なのか？」は、「anything's-possible から『情報なし』ということで、単に一様分布にした」という感じかもしれな。しかし、a particular mathematical criterion で推奨されるのは Haldane prior と呼ばれるもので、shape パラメータは a = b = 0.01 などの「ゼロにとても近い値」。

左は a = b = 1, と a = b = 0.01 の β 分布の形

> par(mfrow=c(2,1))
> curve(from=0,to=1,dbeta(x,1,1),xlab="θ",ylab="", main="a=1,b=1")
> curve(from=0,to=1,dbeta(x,0.01,0.01),xlab="θ",ylab="", main="a=0.01,b=0.01")

Haldane prior で再び Bayes Factor を求める

> z<-65; N=100; pD(z,N,a=500,b=500)/pD(z,N,a=0.01,b=0.01)
[1] 5.728066

今度は must-be-fair モデルが勝った。

We have established that seemingly innocuous changes in the vagueness of a vague prior can dramatically change a model's marginal likelihood, hence its Bayes factor in comparison with other models.

ここでやったのは、"vague" な prior の beta(θ|1,1) から、"vague" な prior の beta(θ|0.01,0.01) に変更しただけ。「なにが "vague" なんだ？」という疑問は「"vague" なまま」にしておく、「状況次第」という気がするから。

いずれにせよ、「モデル比較が prior に影響される」ことを示している。

あくまでもモデル比較の注意点

ここで述べたのは「Bayesian モデル比較」のことで、連続型パラメータの「Bayesian 見積り」ではこの限りではない。つまり

It does not matter if the prior is extremely vague or only a little vague (and yes, what I mean by "extremely vague" and "only a little vague" is vague, but the point is that it doesn't matter).

この引用文が的確（特にカッコ内のコメントが良い...^^）。

例えば、先の anything's-possible モデルの beta(θ | 1,1) と beta(θ | 0.01, 0.01) は共に "vague" な prior 。この事後確率を比較する。データ z = 65, N = 100 の事後確率はそれぞれ beta(θ | 66, 36), beta(θ | 65.01, 35.01) 、これらの 95%HDI を求める

> source(file = "DBDA2E-utilities.R")
> HDIofICDF(qbeta, shape1=66, shape2=36)
[1] 0.5542689 0.7382436
> HDIofICDF(qbeta, shape1=65.01, shape2=35.01)
[1] 0.5564379 0.7418328

ほぼ同じ結果。

つまりこの二つの vague は "it doesn't matter" なのだ。いずれのモデルも、must-be-fair である θ = 0.5 を外していることがポイント。

りんだろぐ rindalog

2015年12月13日日曜日

モデル比較：モデル比較の注意点

0 件のコメント:

コメントを投稿