2015年10月20日火曜日

HDI (Highest Density Interval)

本投稿は「Doing Bayesian Data Analysis」の「3.3.5 Highest density interval (HDI)」を元にした。

HDIHighest density interval の略だが、一般的な日本語訳が不明なので "HDI" と記す。

左は、上から順に正規分布、ベータ分布、ガンマ分布の "95%HDI" を示している。

簡単に言えば「x が 95%の確率で存在する範囲」、逆に言えば「5%の外れ区間ではない範囲」。左のグラフで言えば [-1.96, 1.96], [0.517, 0.932], [0.239, 23.686] の区間。

テキストでは左の曲線を「海に浮かぶ島」に例えている。つまり「島の質量の95%を占める海岸線(島の周囲海を取り囲む線 waterline)」とのこと。

数学的には

∫ x s.t. p(x)>W dx p(x) = 0.95


HDI の別表現

という HDI だが、既に「ベイズの基礎」で何度も登場している。そこでは「90%信頼区間」との書き方をしている。

本書の注釈にも HDI とは異なる呼び名があることを紹介している。以下にその引用と意訳を載せる。

Some authors refer to the HDI as the HDR, which stands for highest density region, because a region can refer to multiple dimensions, but an interval refers to a single dimension. Because we will almost always consider the HDI of one parameter at a time, I will use “HDI” in an effort to reduce confusion. Some authors refer to the HDI as the HPD, to stand for highest probability density, but which I prefer not to use because it takes more space to write “HPD interval” than “HDI”. Some authors refer to the HDI as the HPD, to stand for highest posterior density, but which I prefer not to use because prior distributions also have HDIs.
著者によって HDI は違う用語をあてられている。二つ紹介するがどれも良くない。 
HDR(Highest Density Region):多次元を意味するとして region なのだが、interval は一つの次元しか意味しない。通常一度に一つのパラメータのHDIを考えるので、混乱を避けるために HDI とした。 
HPD(Highest Probability Density):これも好ましくない、というのも HPD interval は HDI より語数が多いから。HPD を HDI として使っている著者もいるが、それが好ましくない理由は、事前確率分布にも HDI があるから。

方針として、本書を元にした投稿では HDI を使う。私が今後 HDI を使うかどうか分からないが、少なくとも上記の注釈は理にかなっていると思う。

この辺の用語の違いは、慣れれば何てことはないが、最初は戸惑う。ただ「尤度」とかの日本語訳の数学用語よりは、何故だか英語の方が分かりやすい。いずれにせよ、用語の違いよりも、用語が意味することを理解することが目的なのは言うまでもない。

HDI を日本語直訳してみる。「Highest Density Interval」なので「最高密度区間」となりそうだ。なんだかとてもイケてない ので、HDI で良くね?(^^)


HDI の役割:確率分布の要約、ROPE」に続く。

0 件のコメント:

コメントを投稿