りんだろぐ rindalog: モデル評価：evidence, Bayes' Factor

「HDI の役割：確率分布の要約、ROPE」からの続き。

分析モデルの評価、つまり「どちらが良いモデルか、どちらのモデルが予測精度が高いか」を図るのは容易ではない。本書でもモデル比較は今後の考察するテーマなので、ここでは evidence を使った評価、Bayes' Factor の紹介程度に止める。

evidence p(D) でモデル評価

以下は本書の Figure 4.2 で、コインの表が出る確率分布を求めたもの。左は θ（予測値）の数が 3 のシンプルなモデル、右は 63 ある複雑なモデル。事前確率はどちらも θ= 0.5 の正規分布を示している。観測データは「表 3 回、裏 6 回」を両モデルに適用した結果が3段目のグラフ。

モデルの優劣を3段目に表示の p(D) の大きさで判断すれば、0.000416 のシンプルモデルの方が好ましいと判断できる。

方や次の Figure 4-3 の観測データが「表 1 回、裏 10 回」では、p(D) 値が大きい「複雑モデル」の方が優れていると判断できる。

ここで重要な点は、p(D) の数値結果だけでモデルの良し悪しは判断できない（or すべきではない）ということ。単に優れたモデルの方が「他のモデルより悪くなかった」という判断にとどめること。

Bayes' Factor

ここで、モデルの優劣の判断に使った p(D) について解説。

左の (4.6) 式は、おなじみのベイズルールで、モデル M の事後確率を算出している。

左は (4.7) 式の "evidence" で、ベイズルールの分母。本書では "evidence" とする P(D|M) は、他の著者は "marginal likelihood", "prior predictive" と表される場合もある。

ここで2つのモデル M1, M2 を考える。それらのモデルをベイズルールで示すと、p(D) = Σ_i p(D|M_i) = p(M_i) の元で、p(M1|D) = p(D|M1)p(M1) / p(D) と p(M2|D) = p(D|M2)p(M2) / p(D)

以下の (4.8) 式は M1, M2 を割合として考えたもの。

式を言葉で表せば「二つのモデルの事後確率の割合は、evidence の割合に事前確率の割合を掛けたもの」となる。

「evidence の割合」と書いたが、p(D|M1) はベイズルール p(M1|D) = p(D|M1)p(M1) / p(D) では、evidence ではなく likelihood となる。ここは混乱する点だが、説明は原文を参考、ということで割愛する。ただし、以下の引用から、概ね p(D|M1) と Bayes' factor については理解できる。

The evidence for a model, p(D|M), is not particularly meaningful as an absolute magnitude for a single model. The evidence is most meaningful only in the context of the Bayes’ factor, p(D|M1) / p(D|M2), which is the relative evidence for two models, when considering an observed data set D.

あるモデルの evidence である p(D|M) は、たった一つのモデルにおいては大して重要ではない。evidence が最も重要になるのは Bayes' factor を考慮するときのみ。つまり、観測データ D の元で、二つのモデルの evidence の割合 p(D|M1) / p(D|M2) を考えるときのポイントとなる。

The Bayes’ factor, p(D|M1) / p(D|M2), is quite different than considering evidences of a single model for different candidate data sets. Specifically, p(D1|M) / p(D2|M) is not a Bayes’ factor and is not further discussed.

p(D|M1) / p(D|M2) は Bayes’ factor だが、p(D1|M) / p(D2|M) は Bayes’ factor ではない。

以下のグラフ（Figure 5.3）と「HDI の役割：確率分布の要約、ROPE」の Figure 5.3 を比較する。事前確率は同じで、観測データが異なるだけ。p(D) の値から、Figure 5.2 では左のモデルが優れていたが、Figure 5.3 では右のモデルの方が優れていることを示している。

> BernBeta(c(1,1),c(rep(1,7),rep(0,14-7)))
> BernBeta(c(100,100),c(rep(1,7),rep(0,14-7)))

「実習5 支持率状況、不正コインの Prior」に続く。

りんだろぐ rindalog

2015年10月26日月曜日

モデル評価：evidence, Bayes' Factor

0 件のコメント:

コメントを投稿