2015年10月16日金曜日

ベイズの基礎:正規分布は最初にあらず

課題17-4 β分布による推定 からの続き。

トピック18まできた。

Topic 18: Learning About a Mean Using Discrete Models

このタイトルのように「離散型」を扱う。そして「正規分布」。今回は課題ではなく、テキストに沿った正規分布の紹介。


正規分布は最初じゃないでしょ

あくまでも個人的な感想だが、このテキストのように、正規分布より先にベータ分布を教えるべきだと思う。気がつけば、私の中で「分布といえば正規分布」という刷り込みがなされていた。悪いことに、「世の中の多くは正規分布に従う」という誤った認識まで深く刷り込まれていた。その原因は、私が受けた授業や読んだ日本の参考書の影響であるのは明らか。

少なくとも、企業や大学で統計学を専門に扱う方は、正規分布を正しく理解していることだろう。しかし、基本的な知識のみを習った者が、しかも誤解した状態で学び直した際は悲劇的だ。刷り込みに気づくまでが長いし、それまでは誤解したままなのだ。

それが正に私だった。Why Bayes? に記した本テキスト序文の「科学的手法の利用」のように、ベイジアンを先に教えるのは理にかなっていると思う。

私が読んだ日本人が書いた統計学の本で、唯一正規分布が最初に登場しないのは久保拓弥著 データ解析のための統計モデリング入門:一般化線形モデル ・階層ベイズモデル・MCMC 。その本で最初に登場するのは「ポアソン分布」。かなりの良書で、もう一度読み返したい本。タイトルの通りベイズを扱っている。

そもそも、ベイズを学ぶ前には、ベータ分布やポアソン分布に触れる機会は少なかった。正規分布を先に紹介する本て「頻度主義者」の場合かもしれない。憶測だけどね(笑)


正規分布の使い方

使い方は数多くあるだろうが、基本的な点の紹介に留める。とはいえ、これだけ知っていれば、結構十分ではないかと思っている。

本テキストで "68-95-99.7 rule" と記されたルールとは
  • 68%のデータは   「M - h」  と「M + h」  の間にある
  • 95%のデータは   「M - 2h」と「M + 2h」の間にある
  • 99.7%のデータは「M - 3h」と「M + 3h」の間にある

は(算術)平均、h は標準偏差。この点は違った角度から Central Limit Theoremの例題 に記した。

米国アイオワ州の8月の気温は概ね正規分布に従い、M = 90 degrees, h=5 degrees であった場合、このルールを用いると

 90 - 2 × 5 = 80, 90 + 2 × 5 = 100

よって 95% の確率で、8月のアイオワ州の気温は 80100 degrees の間にある。言い換えれば、80 degrees より低い気温や、100 degrees より高い気温になる確率は、たかだか 5% ということ。

正規分布の苦い思い出とあるゲーム(厳密には「ギャンブル」)を体験したとき(今はもうしてない)、初めてこの「性質」のことを知った。その時は「68-95-99.7ルール」という呼び名は使ってなかったが、理屈は分かった。そして、そのルールを指標にしてゲームに臨んだが、結果は芳しくなかった。その原因は明らかで、そのゲームのデータ母集団が「正規分布ではなかった」から。

正規分布の形

本テキストにある、正規分布に近いとされる例は
  • 大学生男子の身長
  • 30才から40才の心拍数
  • 350mlの缶ジュースの正確な容量
  • 中学生が計測したバスケットボールの直径
  • 学生が推測した体育教師の年齢
  • 全国高校生学力テストの数学の成績

これらの値の分布を、以下のグラフ化した正規分布の形と合わせてイメージすると、「なんとなく正規分布っぽいかも」と思えるかもしれない。

次は M=70, h=5M=70, h=10 の正規分布。あるテストの成績と考えても良い。違いは標準偏差 h
curve(dnorm(x, 70, 5), from=40, to=100, ylab="",xlab="Score")
curve(dnorm(x, 70, 10), from=40, to=100, add=TRUE, col="red")
text(50, 0.07, "M=70, h=5")
text(50, 0.065, "M=70, h=10", col="red")

h=5 の場合は多くが 60 から 80 点だが、h=10 の場合は 40 から 100 点とバラツキが大きくなっている。成績としてどちらを評価すべきは一概には言えないが、少なくとも成績を予測する場合では、h=5 の方が予測がしやすいのは明らか。

正規分布の式は左の通り。M, h は平均、標準偏差、x はデータ(変数)。つまり、正規分布とは平均と標準偏差で決まるもの。

正規分布ではこの M, h がパラメータで、日本語では「母数」と訳される。これを「母集団」と誤っている話は 母数は parameter に記した。

R の dnorm関数ではなく、この式 x2 から 14 の整数を代入したのが左のグラフ。

M <- 8
h <- 2
z <- (x-M)/h
plot(x, exp(((-z^2)/2)), type="o", main = "Plotting Values of a Normal Curve")
text(3.5,0.8,"M=8, h=2")

正規分布による推定 に続く。

/**tex **/

0 件のコメント:

コメントを投稿