2015年10月10日土曜日

ベイズの基礎:課題16-2 何割打者か?

課題16-1 機械は停止すべきか? からの続き。


Activity 16-2: How good is this hitter?

課題:野球のスカウトマンが注目しているバッターがいる。彼の試合を一試合見た結果から、スカウトするかの判断を検討する。その結果は「4打数2安打」であった。

この課題で面白いのは「事前確率」の決め方。

平均的なメジャーリーグの選手の打率は 0.2 から 0.35,  よって (0.2 + 0.35)/2 = 0.275 が平均値と考えられる。つまり、打率が 0.2 を下回ることや、0.4 を超えることは極めて稀。また、0.2 を下回る選手は大リーグに残れないともいえる。

これらの情報から、スカウトマンが注目する選手の「打率の事前確率」を、以下の手順で求める。
  1. 注目した選手の平均打率の候補(モデル)を挙げる
  2. 各候補の事前確率を求める

「手順1」で候補としたのは左の3つ「不可、平均、優」という感じ。これら3つが予測モデルとなる。

「手順2」は一概には決められない。候補の選手の実力にも依存するが、ここでは大リーグのデータを基準に求めた。

通常の平均打率が「0.2 から 0.3」として、大リーグの平均打率が 0.275 なので、0.2 より 0.3 を「平均的な打率」とする。ここからは恣意的な判断になるが、0.3 がより「有りがち」と判断して 60%0.2 は残りの 40% とする。4割打者である確率は稀なので 1% とみなして、先の 60% を 59% へ。

恣意的であっても、可能な限り「真実に近い」事前確率が望まれる。とはいえ、観察データ(事実)から事前確率は正しい方に更新されるので、あまり考え過ぎても意味はない。仮に正確な事前確率ができるのであれば(正確に物事を予測できるのであれば)、データの観察なんて必要ないし、ベイズのルールも不要なのだ。そんなことはあり得ない。

以降は、いつもの流れ。先の観察データ(安打の結果)から尤度を求め、事後確率を算出する。

先の課題で紹介したように、結果の集合 {H, H, O, O}(H:ヒット、O:アウト)から、各モデルの尤度を算出する。例えば「2割打者モデル」の場合は、以下のようにする。

 P({H, H, O, O}) = P(H) × P(H) × P(O) × P(O)
          = 0.2 * 0.2 * (1 - 0.2) * (1 - 0.2)
          = 0.0256

同様に「3割打者モデル」「4割打者モデル」で尤度を算出して、左のように事後確率が求まる。

3割打者以上である確率は

 0.706 + 0.016 = 0.722


課題16-3 コインが表の確率分布 に続く。

0 件のコメント:

コメントを投稿