2016年1月11日月曜日

GLMの基礎:やり直し「データ解析のための統計モデリング入門」

2 年前に買った久保拓也著「データ解析のための統計モデリング入門」は、読んですぐに「これまで読んだ、日本語のデータ分析本とは違う」と高評価だった。日本人による数少ない Baysian 本として手に取ったのだが、後半の Baysian に辿りつく前に挫折していた。「パラメータの最尤推定」までは理解できた...、という感じだ。

その後、確率や Baysian の基礎に関する本を読み漁った末、再び本書に戻ってきた。

戻ったきっかけは、"Doing Bayesian Data Analysis" の第 15 章 "Overview of the Generalized Linear Model" を読み始めたこと。すぐに本書のことを思い出し、第 6 章「GLM の応用範囲をひろげる」から始めたが、結局は第 1 章から読み直した。すでに何度か読んでいるので、短時間に読めた割には、以前よりずっと内容を理解できた。



ここでの投稿では「GLMの基礎」として、本書の第 章までを取り上げる予定。また、その他の興味深い話題も取り上げる。


二段階の情報消失

本書は生態学データの解析だが、一般的なデータ分析に不可欠な要素が満載。図1.1 の「自然科学における 2 段階の情報の消失」は、至極基本的なことだが、データ分析では忘れがち点だと思う。本書は電子書籍でないため、その図の引用は難しいので、内容だけを文字で記すと

【自然がもつ情報】→(#1情報消失)→【観測データ】→(#2情報消失)→【推定結果】

「#1情報消失」では野外調査、野外実験、室内実験の過程での消失、「#2情報消失」ではデータ解析、統計モデリングの過程での消失。

本書では扱わない「#1情報消失」は、ここでも再三取り上げている「ゴミデータ」のこと、Garbage In, Garbage Out 。この情報消失を防ぐことが重要なのは説明不能だろう。とはいえ、この時点で誤っている、つまり「#1情報消失が起こっている」データ分析が少なくないのも事実。

本書で扱うのは「#2情報消失」。つまり、最小限に情報消失を抑えた「情報操作」をすること。そんな「情報操作」をする理由は

データ化された自然ですら人間のアタマにはあつかいかねるほど複雑なので、何らかのかたちで要約・整理する必要がある。P.3

自然活動や人間活動を、100% 正確に把握することは不可能だが、80%90% 以上の確率で推定することは不可能ではない。推定から予測への展開で、「ノイズ 」「外れ値」を考慮すれば、100% のモデルは "overfitting" でしかないのだから。


ブラックボックス統計学?

「理解しないままソフトウェアを使う」作法を、仮にブラックボックス統計学と呼ぶことにしましょう。P.4
補足:この「ソフトウェア」とは、統計や数理計算のソフトウェアのことだろう。

Excel ではじめるデータ分析」の類の本では、こんな指摘はしないだろう。断言するが、単純な線形回帰分析や正規分布を表計算ソフトでごちゃごちゃやっても、実務では一切役に立たない。そんな本を手に取る人から、「基本から、だから...」との反論もあるかもしれないが、その最初の基本から間違っている気がする。

本書が挙げる「ブラックボックスな人たちの誤用」は「やっぱりな」という感じだ。その中から一つだけ引用。

論文中でデータを示すときは何でも検定して P 値をつける、P 値が小さいほど自分の主張は正しい P.5

ブラックボックスな人たちが、「ソフトウェアが出した結果だから...」と主張する姿が眼に浮かぶのは私だけだろうか。

私は、例えば「β 分布を数学的に理解できなければならない」の主張をしていない。「確率分布の意味」を概ね分かれば良いし、β 分布はその形を概ね理解できれば良いと思っている。つまり、「ピタゴラスの定理」を数学的に証明できなくても、その意味を正しく理解して使うことができるのが基本、そんな感じです。


本書の流れ

以下の図は、本書の大まかな流れを示している(引用元)。
最終的な「階層ベイズモデル」が最も興味深いのだが、それ加えて「線形モデル」から大きく発展しているのが素晴らしい。

そのような統計モデルは、線形モデル(linear model, LM)とよばれています。「正規分布が前提」の LM に対して、GLM は「何でもかんでも正規分布ってのはおかしいだろう」という方向への拡張であると考えてもよいでしょう。P.6
補足:「そのような統計モデル」とは「直線回帰、分散分析」など。

そんな「直線回帰、分散分析」の理解に四苦八苦していた私は、この引用文を読んで「メカラウロコがボロボロ落ちた」、本当です。「何でもかんでも正規分布ってのはおかしいだろう」と、漠然と感じていたことを代弁して頂いた感じで、感動すらおぼえた、本当に!

GLM は 一般化線形モデル(generalized linear model)で統計モデルの一つ。線形モデル(LM)は「確率分布を等分散正規分布とした GLM」で、GLM の一部。GLM の generalized の「一般化」とはそういうこと。

つまり、線形モデルだけのデータ分析とは、「ごく狭い分析能力で行った分析」となる。そりゃ「何でもかんでも正規分布」なら、すぐに限界に達しますよね。そんな分析結果が、果たしてどれだけ「正しい」のだろうか?

統計モデルとは」に続く。

0 件のコメント:

コメントを投稿