今回でトピック18 は終了。課題の多くは割愛したが、初学者であれば丁寧に解いてみるべきだと思います。良い問題です。
最初に取り上げる課題18-5 は「正規分布に従っているか」というもの。このように「正規分布なのか?」の疑問を常に持つことは大切。「正規分布ではない母集団」を「正規分布で推定」しても、誤った推定にしかならない。
「正規分布か否か」を調べる関数等はあるが、それと併せて「このデータは何だ?」とヒトの頭で考えなければならない。この辺をないがしろにしても良いことはない。少なくともデータ分析のセンスは磨かれないと思う。
Activity 18-5: Recognizing Normal Curve Data
蛇足ですが、「正規分布に従う」とは「厳密に従う」ではありません。本テキストでも approximately normal shaped と常に記載されています。「ぴったり正規分布に従う現象」てないと思います。あくまでも approximately です。
課題:以下のデータを、正規分布でモデル化できか否か検討せよ。
- 今年、あるガソリンスタンドで補充した 18 リットルの灯油ポリタンクの 50 回の重さ
- 20 試合連続で見た Michael Jordan が得点したポイント
- 不正のないコインを 100 回投げた結果
- 今月、あなたの住む地域で売れた 50 件の戸建て住宅の価格
- 80 人の大学生の年齢を調査、18歳以下は「1」、18歳より上は「2」と記録
- 学生 50 人を無作為抽出して調べた所有している音楽CDの枚数
- ある特定の夏の日、USJ(ユニバーサル・スタジオ・ジャパン)で 40 組の家族が使った金額
別の考え方もあると思うが、私なりの回答は以下の通り。
- 18 リットルを平均としてモデル化できる。
- モデル化できない。実際の Michael Jordan の得点結果を調べていないが、かなりのばらつきがあり、ピーク点が二つ以上ある可能性も考えられる。
- モデル化できない。裏、表の「一様分布」に近い。
- モデル化できる可能性が高い。経済的に同様の層の世帯が地域を構成すると考えられるので、平均価格を中心にした正規分布が想定される。
- モデル化できない。「2」が多いことは明らかで、右に偏っている。
- モデル化できる。テキストでは「50 randomly selected students」となっているが、大学生、中学生のように対象を限定すると更に正規性は高まると想定。
- モデル化できる。
Activity 18-10: What is a Typical Marriage Age of a Bride?
課題:ある地域の1993年6月と7月に婚姻届が出された夫婦の 24 組から、妻の年齢を標本データとした。妻の平均年齢について検討せよ。尚、標準偏差は 12 才とする。標本データは以下の通り。
x<-c(22,32,50,25,33,27,45,47,30,44,23,39,24,22,16,73,27,36,24,60,26,23,28,36)
標本データの概要:
> summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
16.00 24.00 29.00 33.83 40.25 73.00
平均年齢が 33.83 才、中央値が 29 才、よって平均年齢モデルを 25 から 40 才で検討する。
M <- c(seq(25,40,by=1))
z <- (sqrt(length(x))*(mean(x)-M))/12
like <- exp(-z^2/2)
prod <- like*(1/length(M))
post <- prod/sum(prod)
plot(post,type="h",xlab="x",ylab="prob",
main="Post for Mean Ages of Brids")
> post[7:length(post)]
[1] 0.083687 0.123467 0.154192 0.163001 0.145860 0.110484 0.070840
[8] 0.038448 0.017664 0.006869
> sum(post[7:length(post)])
[1] 0.9145
平均が 35才と40才の間の確率:約 39.02%
> post[11:length(post)]
[1] 0.145860 0.110484 0.070840 0.038448 0.017664 0.006869
> sum(post[11:length(post)])
[1] 0.3902
平均年齢の 90%の確率区間は:30才から38才
> sum(post[7:13])
[1] 0.8515
> sum(post[6:14])
[1] 0.938
課題19-1 連続型なら塗りつぶし に続く。

0 件のコメント:
コメントを投稿