2016年9月16日金曜日

ベイズ的検定:「確かめる」ことは「違いの有無を見つける」こと

Bayes' ファクターとパラメータ推定(演習12.1」からの続き。


「何かを探す、確かめる」ということは、「違いの有無を見つける」ことと同じだと思う。「階層型モデル:守備毎打撃力」で、投手と捕手、捕手と一塁手で打撃力の違いを探したように。

「新たに発見した何か」は、既に発見されているものとは異なっていなければ「新しい」とはならない。こうやって言葉にすると、至極当たり前なのだが、科学的に違いを証明する方法は、意外と容易ではない。p 値が 5% 以下だから」は、ダメなのです。

Experiments often have different subjects in different treatment conditions.Observational studies often measure subjects from different classifications such as gender, location, etc. Researchers often want to ask the question, Are the groups different or not? 
「グループに違いはあるのか、ないのか?」

記憶力を弱める音楽

実験では、20 個の単語を記憶する際、流れている音楽の違いが影響するかを調べる。音楽は デスメタルバンド、Mozart, Bach, Beethoven4 曲。

単語の記憶力モデルをベルヌーイ分布として、θij は「i 番目の人で、j 番目の条件で i 番目の人の特性」。 θij が依存するのは、個々の条件にある特性 ωkj 。よって

θij ~ dbeta(ωj (kj - 2) + 1, (1 - ωj)(kj - 2) + 1)

4 つの条件での記憶した単語数の平均はそれぞれ 8.0, 10.0, 10.2, 10.4

本分析には、本書に明記はされていないが、Exercise 12.2 で指示されているスクリプト OneOddGroupModelComp2E.R を使った。以下、スクリプト中の定義

 npg = 20  # number of subjects per group
 ntrl = 20 # number of trials per subject
 condMeans = c(.40,.50,.51,.52)

conMeans が条件毎の平均で、8/20, 10.0/20, 10.2/20, 10.4/20 からきている。20 が被験者の人数。最上段の「モデル選択の層」を省くと、モデル階層は次の図 9.7 のような感じ。
参照
スクリプト実行例(図 12.5 に相当)は次の通り。
この上段からわかるのは

デスメタルバンドの特性 ω1 と他の条件との差の 95%HDI が、全てゼロを外している。それ以外の差では外していない。よって、クラシック曲よりもデスメタルバンドの曲が、記憶力に悪い影響を及ぼしたと結論づけられる。
ところで、もし、デスメタル曲が大好きな被験者ばかりだったら?という疑問がわくが、それでも結果は同じなのかもしれない。そもそもそんな偏った被験者で試す意味はないだろう(笑)

モデル比較の結論

スクリプトでは二つのモデルを選択させている。一つ目のモデルは、先ほど分析結果を見た、ωj を条件毎に用意するモデル。二つ目は、条件には共通の特性 ω0 (スクリプト中では omega0)だけをもつモデル。

 omega0 ~ dbeta( a0[mdlIdx] , b0[mdlIdx] )

要するに、二つ目のモデルは「条件に違いはない」を前提としたモデル。

この二つのモデルが選ばれる事前確率は 50/50 として、事後確率は上図の下段のように約 15% : 85% でモデル2の ω0 モデルが好まれた。

In other words, from the model comparison we might conclude that there is no difference in memory between the groups. Which analysis should we believe?
つまり、モデル比較からは、条件毎で記憶の 違いはない との結論になるかもしれない。先の結論とは逆の結論だが、どちらを信じるべきか?

つまり

モデル1のパラメータ推定の結論「デスメタルの条件は他の条件と異なる」を否定するのが、モデル比較の結論が示す「条件に違いはない」。

これは正しいのか?

Given the choice between one shared mode and four different group modes, the one-mode model is less improbable. But that does not mean that the one-mode model is the best possible model. 
共有されたモードが 1 つと異なる 4 つのモードの場合、1 つの方のモデルが「ありえなくはない」となった。しかし、これが「モードが 1 つモデル」が最も良いモデルとはならない。

つまり「正しくない」。


あり得ないモデル

「モードが 1 つのモデル」と別のモデルを比較する。例えば、ω1 と ω= ω= ω4 の「モードが 2 つのモデル」と比較すると「モードが 2 つのモデル」が好まれる。これは Execerise 12.2 (C) で実験する。

4 つの条件全ての組み合わせの数は 15

> sum(choose(4,1:4))
[1] 15

これら全てのモデル比較をしたとして、ω1 と ω= ω= ω4 の「モードが 2 つのモデル」が最も好まれた場合、「条件の 2, 3, 4 では違いがない」と判断して良いか?

We may still want to estimate the magnitude of those small differences, even if they are small. An explicit posterior estimate will reveal the magnitude and uncertainty of those estimates. Thus, unless we have a viable reason to believe that different group parameters may be literally identical, an estimation of distinct group parameters will tell us what we want to know, without model comparison. 
それでも、小さな違いであっても、個々の違いを推定したい。明確な事後確率の推定は、推定値の大きさや確からしさを明らかにする。したがって、異なるグループのパラメータが一致しているという現実的な理由がない限り、個々のグループのパラメータは我々の知りたいことを教えてくれる、モデル比較をすることなしに。

この結論を言い換える。

そもそも、この 4 つの条件でモードが一致すると前提にした ω0 は間違っている。つまり、あり得ないモデル。ついでに、ω= ω= ω4 とするモデルも非現実的。違いがわずかであっても、完全に一致する前提がなければ、個々のパラメータは推定して比較すべき、ということ。

「あり得ないモデルか否か考慮すること」を理解していれば、今回の検証は冗長。とはいえ、こうやって科学的に考えるのは大切。


あり得ないモデル(演習12.2)」に続く。

0 件のコメント:

コメントを投稿