課題:ある特定の大学で、欧州の国に行ったことがある生徒の割合を想定する。
この求める割合が「事前確率」となる。それにマッチするベータ分布を、次の2ステップで求める。
- 20% 程度と予想
- ある程度の数の学生に尋ねて、この予想の「確証性」を求める
ここで問題なのは「2」の「どれぐらいの確証」。
仮に「高い確証」ではなく「当てずっぽう (a wild guess)」の場合、「どんな感じの 20% か」を考えてみる。例えば
20% の予想は「5 人の学生に尋ねて、うち 1 人が欧州に行ったことがある」
方や「高い確証」の場合
20% の予想は「20 人の学生に尋ねて、うち 4 人が欧州に行ったことがある」
どちらも 20% なのだが、精度としては「高い確証」の方が高い。当たり前のことだが、単に「(算術)平均は 20%」と記して、内訳を示さないデータ分析のダメさが分かる。
この二つを用いて、以下の算出方法で、ベータ分布のパラメータ a, b を求める。
a = n × g, b = n × (1 − g)
低い確証:a = 5 × 0.2 = 1, b = 5 × (1 - 0.2) = 4
高い確証:a = 20 × 0.2 = 4, b = 20 × (1 - 0.2) = 16
ベータ分布でプロット:
par(mfrow=c(2,1))
curve(dbeta(x,1,4), from=0, to=1, n=101, xlab="p", ylab="")
text(0.6,3,"g=0.2, 4 observatinos")
curve(dbeta(x,4,16), from=0, to=1, n=101, xlab="p", ylab="")
text(0.6,3,"g=0.2, 20 observatinos")

0 件のコメント:
コメントを投稿