2015年9月28日月曜日

ベイズの基礎:課題15-1 感染した確率

テキスト Workshop Statistics: Discovery with Data, A Bayesian Approach の Topic 15: Learning About Models Using Bayes’ Rule の課題を紹介する。課題の回答はネットに公開されているが、私的には不十分な内容だったので、考察も交えて紹介することにした。

Workshop Statistics: Discovery With Data, a Bayesian Approach (Workshop Statistics Series)
James H. Albert Allan J. Rossman
Key Curriculum Pr
売り上げランキング: 1,555,445

今後、全問を紹介するか決めていないが、どれも面白い課題であることは間違いない。いずれにせよ「ベイズの基礎」と題して、本テキストを元に色々書いてみたい。「基礎」としたのは、これまでモヤモヤしていた基礎的なことを中心にした「やり直しベイズ」としたい。

本テキストの背景等については別途取り上げるが(後日 Why Bayes? に記した)、対象読者を中学生にしたような内容は、非常に分かり易い。私は「ベイズの定理」からベイズを始めたが、本書は違う。シンプルな確率の考え方から始めて、分かり易い例に基づく解説に努めている。往々にして直感とは異なる結果を教えてくれる確率やベイズの定理なので、こういう説明はかなり有効。

本テキストで、「何でそうなるのか?」の理屈より先に、Bayesians を体感できると思う。Frequentist(頻度主義者)の統計学とは違う点も感じられる。


Activity 15-1: Do You Have a Rare Disease?

問題:感染率が 0.001(0.1%, 1,000人に一人)の病気の診断における False Positive, False Negative は共に 10%、この診断結果が陽性だった場合、本当に感染している確率は?

次は、各モデルの「事前確率」(Prior Probability)
各行が「モデル」で、ここでは have disease(病気)、don't have disease(健康)の二つのモデルを想定して、感染率 0.1% を示している。

この確率は、患者の情報を加味しない診断前のもので、一般的な感染率を採用している。病気によって年齢や性別で感染率が異なる場合、患者に応じた感染率(事前確率)が採用される。

次が「尤度」(Likelihood) の一覧。
各列は診断結果「+(陽性)」「ー(陰性)」、二つの「observations(観測値)」が考えられるので 2 列。この表のように「DATA」と評する場合もある、「情報」や「知識」も該当するだろう。つまり「観測された事実」といえる。

この「観測された事実」が、ここでは共に 10%False PositiveFalse Negative の事実が記されている。

この表の読み方
  • 一行目を「感染している場合、陽性と診断する確率は 90%」
  • 二行目を「感染していない場合、陰性と診断する確率は 90%」

「尤度」の意味「尤もらしさ(もっともらしさ)」を使って言い直すと
  • 感染している条件で、9 割陽性と診断されるのが尤もらしい
  • 感染していない条件で、9 割陰性と診断されるのが尤もらしい

「尤もらしい」は「道理にかなっている」とする方が、分かり易いと思う。私は統計学を学ぶ前は「尤度」なんて知らなかった、「ゆうど」とも読めなかった(何で「尤度」なんて言葉使ったのかな...?)。

とはいえ、この「**している条件で、**である確率」が「条件付き確率」である気づきは大切だ。条件付き確率とベイズの定理の繋がりだ。

次は、テキストで「Bayes' box」と記されている表。
10,000人の診断結果を仮定した場合、この表のように 10,000 が合計欄に入る。

そして、感染率が 0.1% なので合計列には 10, 9990 が入る。次は尤度を使って、病気と健康の各列の値を埋める。

その結果が左の表。求める確率は「陽性の場合に、病気である確率」なので、「陽性」の列に注目する。「病気:健康 = 9 : 999」がオッズで、求める確率は 9/1008 ≈ 0.0089, 0.89% となる。

つまり、感染率である事前確率 0.1% が、診断の結果「陽性」と出た場合に、本当に感染している確率(事後確率)が 0.89%、つまり、約 99%は「感染していない」と結論できる。

注意:以前も書いたが「1 %程度の確率なら感染していない」と、この診断結果を無視するのは健全ではない。診断前より約 9 倍感染している確率は高まったのだ。この結果に楽観も悲観もすることなく、二次検査を受けることをお勧めします。


別解(こちらが正論)

実はここでの「10,000人」は、事後確率の算出には関係ない100人にしたところで結果は同じ。これ以降の問題でもこの手法で説明されているが、単に具体的な数値の方が理解しやすい配慮から。

だが、私はこの「10,000人」が気になったので、別の解法で導いた。
カラム幅の関係で「事前確率」を「PRIOR」、「事後確率」を「POST」とした。

「積」とは「事前確率 × 尤度」で、求める事後確率は各積の値の全体に占める Proportion(割合)となる。

 0.0009/0.1008 = 0.0089
 0.0999/0.1008 = 0.9911

この時点ではテキスト未紹介のベイズの定理と、今回の課題をリンクさせてみる。
この式は「Bの条件でAである確率」という条件付き確率。

 A:感染している
 B:診断結果が陽性

として、「陽性と診断された条件で感染している確率」となる。

また、右辺の各確率の意味は

 P(A):事前確率(感染率)
 P(B):診断結果が陽性の確率
 P(B|A):尤度(感染している条件下で陽性と診断する確率、つまり「感染者を陽性と正しく診断する確率」)

この課題で Bayes' box を使った算出と、このベイズの定理の関係が見えて来る。「ベイズの定理」については、以降の課題を解きながら理解を深めていくことにする。

Why Bayes?の前に に続く。

0 件のコメント:

コメントを投稿