りんだろぐ rindalog: ベイズの基礎：課題17-3 β分布の決定方法

課題：ある特定の大学で、欧州の国に行ったことがある生徒の割合を想定する。

この求める割合が「事前確率」となる。それにマッチするベータ分布を、次の2ステップで求める。

20% 程度と予想
ある程度の数の学生に尋ねて、この予想の「確証性」を求める

ここで問題なのは「2」の「どれぐらいの確証」。

仮に「高い確証」ではなく「当てずっぽう (a wild guess)」の場合、「どんな感じの 20% か」を考えてみる。例えば

20% の予想は「5 人の学生に尋ねて、うち 1 人が欧州に行ったことがある」

方や「高い確証」の場合

20% の予想は「20 人の学生に尋ねて、うち 4 人が欧州に行ったことがある」

どちらも 20% なのだが、精度としては「高い確証」の方が高い。当たり前のことだが、単に「（算術）平均は 20%」と記して、内訳を示さないデータ分析のダメさが分かる。

この二つを用いて、以下の算出方法で、ベータ分布のパラメータ a, b を求める。

a = n × g, b = n × (1 − g)

g は guess（推測値）で今回は 20%、n は観測数で今回は 5 と 20、よって

　低い確証：a = 5 × 0.2 = 1, b = 5 × (1 - 0.2) = 4
　高い確証：a = 20 × 0.2 = 4, b = 20 × (1 - 0.2) = 16

ベータ分布でプロット：

par(mfrow=c(2,1))
curve(dbeta(x,1,4), from=0, to=1, n=101, xlab="p", ylab="")
text(0.6,3,"g=0.2, 4 observatinos")
curve(dbeta(x,4,16), from=0, to=1, n=101, xlab="p", ylab="")
text(0.6,3,"g=0.2, 20 observatinos")

下段の「高い確証」は 10%から30%で「あり得る確率」、上段の「低い確証」は 0%から40%で「あり得る確率」。範囲の狭い下段の方が「高い確証」を示している。

β分布による推定 に続く。

りんだろぐ rindalog

2015年10月14日水曜日

ベイズの基礎：課題17-3 β分布の決定方法

0 件のコメント:

コメントを投稿