2016年1月12日火曜日

GLMの基礎:統計モデル(Statistical Model)とは

やり直し『データ解析のための統計モデリング入門』」からの続き。

「統計モデルて単に確率分布のことじゃね?」と(荒っぽく)理解しようとしたが、それではどうにも腑に落ちないので、この「統計モデル」という言葉を少し掘り下げてみる。

以下は、本書の「1.1 統計モデル:なぜ『統計』な『モデル』?」の冒頭からの引用。

なぜ統計モデル(statistical model)という考えかたがデータ解析に必要とされるのかを考えてみましょう。統計モデルは、
  • 観察によってデータ化された現象を説明するために作られる
  • 確率分布が基本的な部品であり、これはデータに見られるばらつきを表現する手段である
  • データとモデルを対応づける手つづきが準備されていて、モデルがデータにどれぐらい良くあてはまっているかを定量的に評価できる
といった特徴をもつ数理モデルです。

これで「統計モデル」は概ね理解はできる。「モデルを観測データにあてはめ、当てはまり具合を評価」という感じ。具体例として第 3 章の冒頭から

統計モデルを観測データにあてはめることをポアソン回帰(Poisson regression) 
同様の構造の統計モデルを総称して、一般化線形モデル(generalized linear model, GLM)

そして、長年の「回帰」という言葉との繋がりが腑に落ちた。

「統計モデルのあてはめ」が「回帰(regression)」P.40注釈1


Statistical Model

以下は、Statistical modelWikipedia から一部を引用。相変わらず日本語訳はないが、この分野を学んでいる方なら、一読をお勧めします。何事もちゃんと理解するには、しっかりと文章を読む必要があるから。

All statistical hypothesis tests and all statistical estimators are derived from statistical models. More generally, statistical models are part of the foundation of statistical inference.
より一般的には、統計モデルは推計統計学の基礎の一部である。

Formal definition
Note that we do not require that P contains the true distribution, and in practice that is rarely the case. Indeed, as Burnham & Anderson state, "A model is a simplification or approximation of reality and hence will not reflect all of reality"—whence the saying "all models are wrong".

強調した箇所から連想されるのは "overfitting" 、「当てはまり過ぎ」は「ダメモデル」なのだ。


General remarks
A statistical model is a special type of mathematical model. What distinguishes a statistical model from other mathematical models is that a statistical model is non-deterministic. Thus, in a statistical model specified via mathematical equations, some of the variables do not have specific values, but instead have probability distributions; i.e. some of the variables are stochastic. In the example above, ε is a stochastic variable; without that variable, the model would be deterministic.
Oxford 英英辞書になかった単語 stochastic は Wikitonary によれば
random, randomly determined
つまり、stochastic variables を含む統計モデルは non-deterministic であって、含まない数理モデル(mathematical models)は deterministic

統計モデルの 3 つ目的は
  • Predictions:予測
  • Extraction of information:情報の抽出
  • Description of stochastic structures:ランダム構造の記述
適切な日本語訳かどうか心もとないが、イメージはつかめるでしょう。


Comparing models

It is assumed that there is a "true" probability distribution that generates the observed data. The main goal of model selection is to make statements about which elements of P are most likely to adequately approximate the true distribution.
観測データを生成する、「真」の確率分布が存在すると仮定。モデル選択の主な目的は、真の分布に最も近似する P を記すこと。

「真の確率分布」など存在はしないのだが、近似するモデルは構築できる。その近似が「当てはまり具合」「モデル比較」となる。

Konishi & Kitagawa state: "The majority of the problems in statistical inference can be considered to be problems related to statistical modeling. They are typically formulated as comparisons of several statistical models."[6] Relatedly, Sir David Cox has said, "How [the] translation from subject-matter problem to statistical model is done is often the most critical part of an analysis". 
統計的推定における多くの問題が、統計的モデルの構築に関することだと考えられる。 
どうやって問題の本質を統計モデルへの変換するかが、分析の最重要なポイントになる。

正規分布、直接回帰の限界」に続く。

0 件のコメント:

コメントを投稿