りんだろぐ rindalog: NHST：隠れた意図に依存する仮説検定

本投稿は John Kruschke 著 Doing Bayesian Data Analysis の第 11 章 "Null Hypothesis Significance Testing" をもとにした。

Doing Bayesian Data Analysis, Second Edition: A Tutorial with R, JAGS, and Stan

John Kruschke

NHST とは Null Hypothesis Significance Testing の頭文字からの略称、日本語では「仮説検定」。そう例の「p 値」のお話。

未だに納得できない p 値

私は「頻度主義者 vs. Bayesian」の議論に深入りしたくはない。それでも、過去に仮説検定や p 値の理解に苦しんだ私には、本書の主張は興味深い。つまり、大いに同意してしまうのだ。

（頻度主義者の）統計学を学び始めた頃に「仮説検定て、よく分からん...（泣）」という（本当にモドカシイ）時期が長く続いた。ある程度は理解できた今でも、本書を読む直前は「仮説検定て何だったっけ？」という感じ...（笑）。今回も復習しながら、「あぁ、そうだった、そうだった」という始末。要するに、私は仮説検定に納得していないのだ、だから覚える気力も低い。

ここでは、p 値と仮説検定について。

p 値による仮説検定

左は図 11.3 、コイン表が出る確率の分析。右図が「θ = 0.5, 試行数 24」の二項分布（「二項分布の例題」を参照）。R による二項分布のグラフの描画方法は末尾に記した。

X 軸の 0.3 付近の「+」が 7/24 の地点。この地点から 0 までの確率が、0.025（有意水準を 95% にした場合の片側）以下であったら「帰無仮説の棄却」となる。つまり、θ = 0.5 の仮説は成立しないと判断。これが仮説検定。

今回の場合、図のように p 値は 0.032 なので棄却されない（3.2% は 2.5% より「珍しくない、起こり得る」という判断）。この p 値を R で求めると

> sum(dbinom(0:7,24,0.5))
[1] 0.03195733

もしくは

> pbinom(7,24,0.5)
[1] 0.03195733

確率分布の区間の扱いについては「ベイズの基礎：課題17-1 β 分布を事前確率に」を参照。

This total probability is referred to as "the p value."

この合計を「p 値」と呼ぶ。

よって、試行回数 24 で表が 7 回は「コインに偏りはない（θ = 0.5）」と判断する。

p 値の功罪

本書では、これ以上の詳細や p 値による判断の「おかしな点」が記されている。ここまで、詳細かつ明確に「p 値の奇妙さ」を記した日本の文献はあるだろうか？こうなると、私にとって大きな疑問は、大学以上の授業で「p 値はどう教えられているのか？」というもの。

さらに恐ろしいのは、過去の医学論文で「誤った p 値の使い方」で「歪曲された結論」の存在だ。「日の目を見ない」論文ならよいが、何らかの影響がある論文なら非常に問題だ。ジャーナリスト目線で、この辺を調査したら、ゴロゴロと「恥部」が現れそうだ。

医学論文だからといって、全てが正しいことはあり得ない。情報化がさらに進む現代において、「権威」という名を「ふりかざす」ことは益々難しくなっているのだ。

NHST の「想像上の確率群」

仮説検定を、本書の引用で簡潔に記すと

In NHST, the goal of inference is to decide whether a particular value of a parameter can be rejected.

仮説検定において、推定の目的は、パラメータ値が棄却されるか否かを決定すること。

結局のところ、私にとって NHST はデータ分析では利用できない。

Bayesian analysis, on the other hand, does not depend on the imaginary cloud of possibilities.

一方ベイジアン分析は、想像上の確率群に依存しない。

the imaginary cloud of possibilities を「想像上の確率群」と訳したが、それを図解したのが次の Figure 11.1 。

In summary, the NHST analysis and conclusion depend on the covert intentions of the experimenter, because those intentions define the probabilities over the space of all possible (unobserved) data.

上記引用で強調した文が、本投稿のタイトルに使った「実験者の隠れた意図に依存する仮説検定」。また、unobserved data という指摘も見逃せない。

これらの NHST への疑念の裏返しから、次の Bayesian 分析の「肝」を再認識する。

The Bayesian analysis operates only with the actual data obtained.

データが全てなのだ。

科学的な Bayesian

頻度主義者の Bayesian 非難の一つに「ベイジアンは事前確率を恣意的に決める」がある。こう非難する意図が今でも不明だ。頻度主義者は、「分析対象について、実験前に考察することを拒否しているのか？」とさえ思う。そして、そんな非難をする方々に「Bayesian の事前確率」の理解が不足しているのは間違いない。

The research will not get published if the reviewers and editors think that that prior is untenable.

校正者や編集者が、反論に立ち向かえないような事前確率は公表されない。

つまり、事前確率は「世間の反論に科学的に応えられるもの」なのです。

Science is a cumulative process, and new research is presented always in the context of previous research. A Bayesian analysis can incorporate this obvious fact.

「科学は積み重ねのプロセス」、これは「確率の更新」でもあり「Bayesian は科学的」という事実に納得する。まさに「ベイズの基礎：Why Bayesian?」で記した「科学的手法」なのだ。

Nevertheless, the priors are overt, public, cumulative, and overwhelmed as the amount of data increases. Bayesian analysis provides an intellectually coherent method for determining the degree to which beliefs should change.

この引用は、Bayesian の事前確率、データによる確率更新を簡潔に表している。

p 値や仮説検定が有効な分析もあるだろう。とはいえ「非科学的」な側面も少なからずある。頻度主義者の統計学を「非科学的」と全否定する情報を私は持ち合わせていないが、少なくとも統計学やデータ分析の初学者が理解するのは容易ではない。

統計学やデータ分析の基礎は、基本的な確率（独立性や条件付き確率、など）にしかない。その次の段階は、Bayesian への向かう方が、頻度主義者の統計学より圧倒的に自然、というのが私の主張だ（参照「Why Bayes? の前に」「Why Bayes?」）。

「停止条件と p 値」に続く。

R による二項分布の描画

> par(mfrow=c(2,1))
> plot(dbinom(0:24,24,0.5),type="h",main="θ=0.5",ylab="")
> plot(dbinom(0:24,24,0.8),type="h",main="θ=0.8",ylab="")

りんだろぐ rindalog

2015年12月18日金曜日

NHST：隠れた意図に依存する仮説検定

0 件のコメント:

コメントを投稿