これらは、ここ3日間の投稿で、最初の「オムツとビール」の時点で他の投稿もイメージしていた。とはいえ「モヤモヤ感」は満載で、それらを晴らすように時間をかけて書いた。おかげで、少なくとも私の中では、多面的に理解が深まったと喜んでいる。
実は、本投稿を先に書く予定だった。とはいえ、先の4つの投稿で細かい点を書いた後なので、余計に本内容の意義が沁みるようだ。
Can't I Keep Pushing the Analysis on Forever?
「データ分析の止めどころ」を知る必要がある。
データを長いことこねくり回して、恣意的な結論を導く事もできる(If you torture the data long enough, it will confess.)。Overfitting を無視した、大量の変数のモデル式を作る事もできる。しかし、これらは「データ分析」としては不適切なアプローチ。
終わりは何処だ?
永遠にデータ分析を続けられるのか?
原文を末尾に引用した。意訳で誤解を与えたくないで訳さない。また、何度も原文を思い出して理解を深めたいのので、その目的からも日本語訳はしない。
In principle, yes, but modeling always involves making some simplifying assumptions to keep the problem tractable. There will always be points in analytical engineering at which you should conclude:
- We can’t get data on this event,
- It would be too expensive to model this aspect accurately,
- This event is so improbable we’re just going to ignore it, or
- This formulation seems sufficient for the time being, and we should proceed with it.
Foster Provost Tom Fawcett
Oreilly & Associates Inc
売り上げランキング: 750
Oreilly & Associates Inc
売り上げランキング: 750


0 件のコメント:
コメントを投稿