2015年9月13日日曜日

永遠のデータ分析:Keep Pushing the Analysis on Forever

Market Basket Analysis」という言葉を知って「オムツとビール」の投稿、「データ分析は非独立性の分析」と思っていたら、再び「独立性事象の確率」に取り組んだ。

これらは、ここ3日間の投稿で、最初の「オムツとビール」の時点で他の投稿もイメージしていた。とはいえ「モヤモヤ感」は満載で、それらを晴らすように時間をかけて書いた。おかげで、少なくとも私の中では、多面的に理解が深まったと喜んでいる。

実は、本投稿を先に書く予定だった。とはいえ、先の4つの投稿で細かい点を書いた後なので、余計に本内容の意義が沁みるようだ。


Can't I Keep Pushing the Analysis on Forever?

「データ分析の止めどころ」を知る必要がある。

データを長いことこねくり回して、恣意的な結論を導く事もできる(If you torture the data long enough, it will confess.)。Overfitting を無視した、大量の変数のモデル式を作る事もできる。しかし、これらは「データ分析」としては不適切なアプローチ。


終わりは何処だ?
永遠にデータ分析を続けられるのか?

この疑問への答えは、Foster Provost, Tom Fawcett著「Data Science for Business」の第11章の Summary にある。これは「データ分析の止めどころ」のことでもあるし、「データ分析とは何か」を示唆している。

原文を末尾に引用した。意訳で誤解を与えたくないで訳さない。また、何度も原文を思い出して理解を深めたいのので、その目的からも日本語訳はしない。


In principle, yes, but modeling always involves making some simplifying assumptions to keep the problem tractable. There will always be points in analytical engineering at which you should conclude:
  • We can’t get data on this event,
  • It would be too expensive to model this aspect accurately,
  • This event is so improbable we’re just going to ignore it, or
  • This formulation seems sufficient for the time being, and we should proceed with it.
The point of analytical engineering is not to develop complex solutions by addressing every possible contingency. Rather, the point is to promote thinking about problems data analytically so that the role of data mining is clear, the business constraints, cost, and benefits are considered, and any simplifying assumptions are made consciously and explicitly. This increases the chance of project success and reduces the risk of being blindsided by problems during deployment.

Data Science for Business
Data Science for Business
posted with amazlet at 18.03.28
Foster Provost Tom Fawcett
Oreilly & Associates Inc
売り上げランキング: 750

0 件のコメント:

コメントを投稿