今回から Topic 20: Designing Experiments に入る。タイトルの通り「実験をデザインする」。
こうやって「ベイズの基礎」と題して投稿しているが、つくづく思うのはこのテキストの素晴らしさ。ベイジアンを「簡単に説明」などの日本の本の類とは比べものにならない。ベイジアンだけを語っても仕方がないのだ。つまり「データ分析の要」となる点を抜きに、ベイジアンの有効性は表現できないということ。
「頻度主義者の統計学」同様に、ベイジアンでも「意味のある考察、もしくは実験」でなければ、その結果に意味はない。つまり「ある実験の結果が導く結論が妥当ではない」場合は、その実験に意味はないということ。そんな例はいくらでもある、それらを本トピックで紹介する。
その前に、今回の課題にもある「a controlled experiment(コントロール実験)」という言葉について。Wikipedia 対照実験 に簡潔な記述を見つけたので、要点を引用する(それでも英語版の Scientific control の方が圧倒的に詳しい。学術系における日本語 Wikipedia の情報量の少なさには毎度呆れる)
薬の臨床試験であれば、効果のない偽薬と、新たに開発した薬剤とを投与する2つの実験群をおくが、偽薬を与えられた方が対照実験となる。対照実験の対象となるグループをコントロールグループ(統制群)と呼ぶ。
薬の効果を調べるのに、薬を投与したグループの症状の改善だけを見てはダメで、偽薬を登用されたグループ(コントロールグループ)との比較が必要ということ。
薬を投与したグループの結果だけではダメな理由は以下の通り。
薬剤の臨床試験の場合、偽薬効果を排除できるということがある。対照実験を行わない場合、被験者がその効果を期待することによって、本来の効果以上の変化が起きてしまう可能性がある。対照実験では偽薬を与えられた被験者も偽薬であることは知らないため、そのバイアスを取り除くことができる。
「この薬は効果がある」と信じれば、信じないよりも回復の可能性が上がるということ。バイリンガルニュースのマミのコラム「ポジティビティの魔法『ほめる』の大切さ」で知った「ピグマリオン効果」ということだろう。
Activity 20-1: SAT Coaching
課題:高校生向けの「学力テスト成績向上プログラム」がある。このプログラムに参加した生徒を無作為抽出して調査した。その結果、95% の生徒がプログラム参加前と比較して学力テストの成績が向上した。さらに、標本データの平均は 120 ポイント向上した。
- このブログラムが学力テストの成績を向上させたという主張は理にかなっていない。なぜか?
- この実験の「説明変数」と「被説明変数」を示せ。
- この実験は "an controlled experiment" か "an observational study" か?
「explanatory variable 説明変数」もしくは「independent variable 独立変数」に対して、「response variable 応答変数」もしくは「dependent variable 被独立変数」がある。この課題では explanatory variable は「プログラム参加の有無」で、response variable は「プログラム参加後の学力テストの成績」となる。
つまり「プログラム参加の有無」が「学力テストの成績」に影響を与えたか否か実験の目的。逆に「response variable は explanatory variable で説明できるか」ということ。
では、(a) の問いに関する、重要な点をテキストから引用
The SAT coaching study illustrates the need for a controlled experiment to allow one to draw meaningful conclusions about one variable causing another to respond in a certain way. The fundamental principle of experimental design is control.
つまり、このプログラムの実験には a controlled experiment が欠如しているので「成績向上の主張は理にかなっていない」としている。
The counterpart to a controlled experiment is an observational study in which one passively records information without actively intervening in the process.
a controlled experiment でない場合は "an observational study"(「観察調査」という訳が適切かは不明)、要するに「単に観察したデータを考察しただけ」ということ。
つまり、(c) の回答になるのだが、この「学力テスト実験」は an observational study ということ。
学力向上の主張を理にかなったものにするには、a controlled experiment が必要。冒頭の「偽薬を投与されたグループ」のように、コントロールグループとの比較が必要。この場合のコントロールグループは「プログラムに参加しなかった生徒の学力テストの成績」であり、その成績と「参加した生徒の成績」を比較することで a controlled experiment になる。
この課題でコントロールグループが必要な理由はいくつか考えられるが、その一つに、
そもそもプログラムに参加する生徒はやる気があり、プログラムに参加しなくても成績は向上した可能性がある。
当たり前の理屈ですよね。
俗的な批判
そんな製品を使わなくても、健康だったり、肌が綺麗だったり、スリムな体型だったり...。
むしろ、そんな人の方が多いのが現実だ。
「こんな高価な製品を使っているので、良くなるはず」という「プラシーボ効果」の方が期待できるのかもしれない。冗談みたいな話だが、十分にあり得る。「騙されている」という事実を知らない方が、幸せに暮らせる場合だってあるのだ(私は嫌だけどね...)。
文句ばかりではフェアじゃないので、一つ提案する。
そんな製品を、これまで「ベイズの基礎」で紹介した手法で a controlled experiment を行った結果を公表する。結果の良し悪しとは無関係に、その統計結果に「統計学者も分析結果に納得」という「統計学的認証マーク」付ける(「トクホ」マークみたいに、ただし「トクホ」の有効性を私は知らない)。統計結果と実験内容はネット上に公開して、第三者の検証が自由に行えるようにする。
こんな提案をしながら思い至ったのは、そんな民間企業の製品より、使われた税金の効果の検証の方が大切だということ。例えば、巨額の公共工事の収益、利用率、等で導入の効果を測る。公共工事は一概に採算性では測れないが、それを加味しても、導入の効果を数値化することは否定されない。すべきなのだ。
ダメだ、本来の「ベイズの基礎」の話題から逸脱しまいそうなのでこの辺で終わる。いずれにせよ a controlled experiment の重要性を深く理解できた。
Controlled Experiment の3原則 に続く。


0 件のコメント:
コメントを投稿