2015年10月14日水曜日

ベイズの基礎:課題17-3 β分布の決定方法

課題17-2 β分布の描画, polygon関数 からの続き。

課題:ある特定の大学で、欧州の国に行ったことがある生徒の割合を想定する。

この求める割合が「事前確率」となる。それにマッチするベータ分布を、次の2ステップで求める。
  1. 20% 程度と予想
  2. ある程度の数の学生に尋ねて、この予想の「確証性」を求める

ここで問題なのは「2」の「どれぐらいの確証」。

仮に「高い確証」ではなく「当てずっぽう (a wild guess)」の場合、「どんな感じの 20% か」を考えてみる。例えば
20% の予想は「5 人の学生に尋ねて、うち 1 人が欧州に行ったことがある」

方や「高い確証」の場合
20% の予想は「20 人の学生に尋ねて、うち 4 人が欧州に行ったことがある」

どちらも 20% なのだが、精度としては「高い確証」の方が高い。当たり前のことだが、単に「(算術)平均は 20%」と記して、内訳を示さないデータ分析のダメさが分かる。

この二つを用いて、以下の算出方法で、ベータ分布のパラメータ a, b を求める。

a = n × g,  b = n × (1 − g)

gguess(推測値)で今回は 20%n は観測数で今回は 520、よって

 低い確証:a = 5 × 0.2 = 1, b = 5 × (1 - 0.2) = 4
 高い確証:a = 20 × 0.2 = 4, b = 20 × (1 - 0.2) = 16

ベータ分布でプロット:
par(mfrow=c(2,1))
curve(dbeta(x,1,4), from=0, to=1, n=101, xlab="p", ylab="")
text(0.6,3,"g=0.2, 4 observatinos")
curve(dbeta(x,4,16), from=0, to=1, n=101, xlab="p", ylab="")
text(0.6,3,"g=0.2, 20 observatinos")

下段の「高い確証」は 10%から30%で「あり得る確率」、上段の「低い確証」は 0%から40%で「あり得る確率」。範囲の狭い下段の方が「高い確証」を示している。

β分布による推定 に続く。

0 件のコメント:

コメントを投稿