トピック18まできた。
Topic 18: Learning About a Mean Using Discrete Models
正規分布は最初じゃないでしょ
あくまでも個人的な感想だが、このテキストのように、正規分布より先にベータ分布を教えるべきだと思う。気がつけば、私の中で「分布といえば正規分布」という刷り込みがなされていた。悪いことに、「世の中の多くは正規分布に従う」という誤った認識まで深く刷り込まれていた。その原因は、私が受けた授業や読んだ日本の参考書の影響であるのは明らか。
少なくとも、企業や大学で統計学を専門に扱う方は、正規分布を正しく理解していることだろう。しかし、基本的な知識のみを習った者が、しかも誤解した状態で学び直した際は悲劇的だ。刷り込みに気づくまでが長いし、それまでは誤解したままなのだ。
それが正に私だった。Why Bayes? に記した本テキスト序文の「科学的手法の利用」のように、ベイジアンを先に教えるのは理にかなっていると思う。
私が読んだ日本人が書いた統計学の本で、唯一正規分布が最初に登場しないのは久保拓弥著 データ解析のための統計モデリング入門:一般化線形モデル ・階層ベイズモデル・MCMC 。その本で最初に登場するのは「ポアソン分布」。かなりの良書で、もう一度読み返したい本。タイトルの通りベイズを扱っている。
そもそも、ベイズを学ぶ前には、ベータ分布やポアソン分布に触れる機会は少なかった。正規分布を先に紹介する本て「頻度主義者」の場合かもしれない。憶測だけどね(笑)
正規分布の使い方
使い方は数多くあるだろうが、基本的な点の紹介に留める。とはいえ、これだけ知っていれば、結構十分ではないかと思っている。
本テキストで "68-95-99.7 rule" と記されたルールとは
- 68%のデータは 「M - h」 と「M + h」 の間にある
- 95%のデータは 「M - 2h」と「M + 2h」の間にある
- 99.7%のデータは「M - 3h」と「M + 3h」の間にある
M は(算術)平均、h は標準偏差。この点は違った角度から Central Limit Theoremの例題 に記した。
米国アイオワ州の8月の気温は概ね正規分布に従い、M = 90 degrees, h=5 degrees であった場合、このルールを用いると
90 - 2 × 5 = 80, 90 + 2 × 5 = 100
よって 95% の確率で、8月のアイオワ州の気温は 80 と 100 degrees の間にある。言い換えれば、80 degrees より低い気温や、100 degrees より高い気温になる確率は、たかだか 5% ということ。
正規分布の苦い思い出とあるゲーム(厳密には「ギャンブル」)を体験したとき(今はもうしてない)、初めてこの「性質」のことを知った。その時は「68-95-99.7ルール」という呼び名は使ってなかったが、理屈は分かった。そして、そのルールを指標にしてゲームに臨んだが、結果は芳しくなかった。その原因は明らかで、そのゲームのデータ母集団が「正規分布ではなかった」から。
正規分布の形
本テキストにある、正規分布に近いとされる例は
- 大学生男子の身長
- 30才から40才の心拍数
- 350mlの缶ジュースの正確な容量
- 中学生が計測したバスケットボールの直径
- 学生が推測した体育教師の年齢
- 全国高校生学力テストの数学の成績
これらの値の分布を、以下のグラフ化した正規分布の形と合わせてイメージすると、「なんとなく正規分布っぽいかも」と思えるかもしれない。
次は M=70, h=5 と M=70, h=10 の正規分布。あるテストの成績と考えても良い。違いは標準偏差 h。
curve(dnorm(x, 70, 5), from=40, to=100, ylab="",xlab="Score")
curve(dnorm(x, 70, 10), from=40, to=100, add=TRUE, col="red")
text(50, 0.07, "M=70, h=5")
text(50, 0.065, "M=70, h=10", col="red")
正規分布の式は左の通り。M, h は平均、標準偏差、x はデータ(変数)。つまり、正規分布とは平均と標準偏差で決まるもの。正規分布ではこの M, h がパラメータで、日本語では「母数」と訳される。これを「母集団」と誤っている話は 母数は parameter に記した。
R の dnorm関数ではなく、この式 x に 2 から 14 の整数を代入したのが左のグラフ。
M <- 8
h <- 2
z <- (x-M)/h
plot(x, exp(((-z^2)/2)), type="o", main = "Plotting Values of a Normal Curve")
text(3.5,0.8,"M=8, h=2")
正規分布による推定 に続く。
/**tex
**/


0 件のコメント:
コメントを投稿