課題16-8 広告だらけ? からの続き。

トピック15, 16 の課題を解いてきたが、それらはすべて「離散型確率分布」を想定していた。「離散型」の反対は「連続型」ということで、トピック17からは本命?の「連続型確率分布」。離散型と連続型については 確率密度を例える(潰したスポンジ) で取り上げたが、ここでも少し書いてみる。

課題16では「予測モデル」を 0.00, 0.01, 0.02, ..., 0.98, 0.99, 1.00 のように、101 個のモデルで分析した。ところが、これが 1,001, 10,001, ... 個と増えようと、どれも相変わらず「離散型」。0.5123456789 という予測モデルを作っても意味はない。

とはいえ、トピック16で示した「予測モデルの区間」は「連続型」の分析においても有効で、いきなり「確率密度」的な話をするより分かりやすいと思う。

なお、ここでは割愛したが、本テキストの「連続型」や「ベータ分布」の説明はとても分かりやすい。これまで読んだどの日本語の説明より優れてる。

注意:課題15, 16 では、ネットにある回答を確認した(ネットに回答がないものもある)。ところが今現在、トピック17からの課題の回答は未掲載。なのでこれ以降は、私なりの回答です。概ね大丈夫な自信はありますが、間違ってたらごめんなさい。


ベータ分布登場

登場といっても以前、細かく取り上げてる。ここではテキストに沿ってベータ分布を紹介する。

これがベータ関数
この関数自体より、a, b のパラメータを変化させたベータ分布の様子見る方が理解は進む。変数 p軸の値、a, b の変数の決め方で、分布の形が変わるのがポイント。「(稀な)正規正規分布さえも含む、ベータ分布に注目!!」てな感じ。
上図 "Many beta curves" を参照。左隅の BETA(1,1) は「一様分布」で、ここから右側2つの分布は、a = 1 で固定、b = 3, 6 と変化したもの。値(「頻度主義者」の 値じゃないよ、軸を見て下さい)が小さいほど、高い値( 軸の値)を示す。つまり「左に偏った」分布。

今度は左隅から、b = 1 で固定、a = 3, 6 と変化すると、値が大きほど高い値を示す。つまり「右に偏った」分布。

以前「ベータ分布て何だ?」と遮二無二取り組んだ頃と今とを比較して、ベータ分布の意義は格段に良く分かる。簡単に言えば、当時は「ベータ分布そのものを知ろうとしていた」のだが、今はベイズのルール、もしくは算出する「確率分布」という観点から、ベータ分布の見方は全く違ったものになる。「ベータ分布の分布の仕方だけに注目ね」と今では確信をもって言えます。「ベータ分布とは?」は数学者たちに任せます。その間に私は「ベータ分布じゃない他の分布に行きます」てな感じです。

こんなこと「今だから言えること」だけどね。来年の今頃は「ベータ分布て何?」に戻ってるかも(笑)

さて、「このベータ分布が何の役に立つのか」が次のステップ。


ベータ分布で確率を
課題:ある特定の大学の学生が、クレジットカードを持っている確率を調べたい。事前確率をどうやって決めるか?
注意:テキストの実際の課題とは異なります。

今までの課題では「情報がないから 101 個の予測モデルで、全部同じ 1/101 の事前確率」としていたが、これからは「離散型」の予測モデルなので、ここではダメ。

そこで、一般的な情報をヒントに検討する。例えば、インターネットで見つけた情報などを使う。それによれば、全国の大学生 1,200 人を対象にした調査で、24% がクレジットカードを持っていた。

「じゃ 24% で」は単純過ぎですよね?

なぜなら、この課題で推定する母集団は、全国の大学生ではなく「ある特定の大学」、例えば友人の知り合いが通う大学、なのだ。

とはいえ、この 24% という情報を使って事前確率を考える。


左が a = 3, b = 7 のベータ分布、これを課題の事前確率にする。

このベータ分布は、p = 30% 近辺でピークを描いている。p = 70% 以上は「ほぼない」としている。

現実的にも、こんな分布をしていると想像される。「1%, 2% じゃないし、90% 以上もありえそうにない」という風に、常識的な分布からスタートする訳です。


事前確率は恣意的じゃないでしょ

仮に、この事前確率が推定する母集団に近いなら、観測データでより正確になるだろうし、誤っていても観測データが補正する、という流れ。母集団に近いほど良いので、このようにして「常識」や、一般的な情報は推定に役立ちます。

ここでふと気付きました。「頻度主義者」の方々が「ベイジアン」を非難する一つに「事前確率の決め方が恣意的すぎないか?」というものがある。「恣意的」をもっと平たく言えば「テキトウ過ぎじゃね?」ということだろう。

確かに恣意的、もしくは主観的です。でも、先のネットで見つけた「全国の大規模な調査結果」とベータ関数を使えば、その「事前確率」もあながち「恣意的じゃない」となりませんか?

例えば「この予測はどうなるかわからないので、事前確率はすべて同じ確率で」ということ自体が稀なような気がしてきた。これだけデータが集まる現代、ある程度の予測から始めるのが普通だ。「地球外生物」の存在なんて、星の数を知れば「存在しない」とする方が不自然とも考えられる。観測データを得るのが難しいが、それでも先日「火星に水分の痕跡...」の発見は、有力な根拠になる。こうやって、事前確率は更新されていく。

「事前確率はすべて同じ確率で」とは「本当に分からないこと」で、その確率は「よく分からない」ので「一様分布」で良いと思う。だって分からないだもん(笑)

人間の「思い込み」に任せると、間違った「事前確率」を導くかもしれない。それこそ、データ分析を誤った結論に導く 最大の悪 と、何となく気付き始めた俺です。

あぁ、何となく俺って、やっぱ「ベイジアン」かも...


Rで {p,q}beta

本テキストの左の分布を、R の pbeta 関数で求める。

p ≦ 20% の確率
> pbeta(0.2,3,7)
[1] 0.2618

20% ≦ p ≦ 40% の確率
> pbeta(0.4,3,7) - pbeta(0.2,3,7)
[1] 0.5064

qbeta はクォンタイル関数で、先の pbeta の二つ結果から
> qbeta(c(0.2618, 0.7682),3,7)
[1] 0.2 0.4

要するに、90% の信頼区間を求めれば
> qbeta(c(0.05,0.95),3,7)
[1] 0.09774681 0.54964165

よって、a = 3, b = 7 のベータ分布では、「求める確率 p9.7%54.9% の間にある確率は 90%」となる。

うわぁっ! この投稿をしてからチマチマと追記してたら、結構な長さになってしまった。書き足した箇所は言わないけど、「ベータ分布」を含む「確率分布」をより理解してしまった喜びからだろう。qbeta 関数なんて「何だこれ?」と意味不明な期間は長かった。「なんでこんな遠回りしたかなぁ?」と自分のバカさ加減に嘆きながらも、ちょっと嬉しいよ(笑)「俺は天才でも才能豊かでもないのさ」と言うしかない。「スロースターター」なの私。ごめんね (^^;)

課題17-2 β分布の描画方法, polygon関数 に続く。

0

コメントを追加

読み込んでいます