2015年10月17日土曜日

ベイズの基礎:課題18-5,10 正規分布なの?

正規分布による推定 からの続き。

今回でトピック18 は終了。課題の多くは割愛したが、初学者であれば丁寧に解いてみるべきだと思います。良い問題です。

最初に取り上げる課題18-5 は「正規分布に従っているか」というもの。このように「正規分布なのか?」の疑問を常に持つことは大切。「正規分布ではない母集団」を「正規分布で推定」しても、誤った推定にしかならない。

「正規分布か否か」を調べる関数等はあるが、それと併せて「このデータは何だ?」とヒトの頭で考えなければならない。この辺をないがしろにしても良いことはない。少なくともデータ分析のセンスは磨かれないと思う。


Activity 18-5: Recognizing Normal Curve Data

蛇足ですが、「正規分布に従う」とは「厳密に従う」ではありません。本テキストでも approximately normal shaped と常に記載されています。「ぴったり正規分布に従う現象」てないと思います。あくまでも approximately です。

課題:以下のデータを、正規分布でモデル化できか否か検討せよ。
  1. 今年、あるガソリンスタンドで補充した 18 リットルの灯油ポリタンクの 50 回の重さ
  2. 20 試合連続で見た Michael Jordan が得点したポイント
  3. 不正のないコインを 100 回投げた結果
  4. 今月、あなたの住む地域で売れた 50 件の戸建て住宅の価格
  5. 80 人の大学生の年齢を調査、18歳以下は「1」、18歳より上は「2」と記録
  6. 学生 50 人を無作為抽出して調べた所有している音楽CDの枚数
  7. ある特定の夏の日、USJ(ユニバーサル・スタジオ・ジャパン)で 40 組の家族が使った金額

別の考え方もあると思うが、私なりの回答は以下の通り。
  1. 18 リットルを平均としてモデル化できる。
  2. モデル化できない。実際の Michael Jordan の得点結果を調べていないが、かなりのばらつきがあり、ピーク点が二つ以上ある可能性も考えられる。
  3. モデル化できない。裏、表の「一様分布」に近い。
  4. モデル化できる可能性が高い。経済的に同様の層の世帯が地域を構成すると考えられるので、平均価格を中心にした正規分布が想定される。
  5. モデル化できない。「2」が多いことは明らかで、右に偏っている。
  6. モデル化できる。テキストでは「50 randomly selected students」となっているが、大学生、中学生のように対象を限定すると更に正規性は高まると想定。
  7. モデル化できる。

Activity 18-10: What is a Typical Marriage Age of a Bride?

課題:ある地域の1993年6月と7月に婚姻届が出された夫婦の 24 組から、妻の年齢を標本データとした。妻の平均年齢について検討せよ。尚、標準偏差は 12 才とする。標本データは以下の通り。
x<-c(22,32,50,25,33,27,45,47,30,44,23,39,24,22,16,73,27,36,24,60,26,23,28,36)

標本データの概要:
> summary(x)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
  16.00   24.00   29.00   33.83   40.25   73.00

平均年齢が 33.83 、中央値が 29 、よって平均年齢モデルを 25 から 40 で検討する。
M <- c(seq(25,40,by=1))
z <- (sqrt(length(x))*(mean(x)-M))/12
like <- exp(-z^2/2)
prod <- like*(1/length(M))
post <- prod/sum(prod)
plot(post,type="h",xlab="x",ylab="prob",
     main="Post for Mean Ages of Brids")

平均が 30才を超える確率:約 91.45%
> post[7:length(post)]
 [1] 0.083687 0.123467 0.154192 0.163001 0.145860 0.110484 0.070840
 [8] 0.038448 0.017664 0.006869
> sum(post[7:length(post)])
[1] 0.9145

平均が 35才と40才の間の確率:約 39.02%
> post[11:length(post)]
[1] 0.145860 0.110484 0.070840 0.038448 0.017664 0.006869
> sum(post[11:length(post)])
[1] 0.3902

平均年齢の 90%の確率区間は:30才から38
> sum(post[7:13])
[1] 0.8515
> sum(post[6:14])
[1] 0.938

課題19-1 連続型なら塗りつぶし に続く。

0 件のコメント:

コメントを投稿