2016年10月1日土曜日

モデル構築、評価 & 判定:全体像

Nina Zumel, John Mount 著 "Practical Data Science with R" の第 5 章 "Choosing and evaluating models" をもとにする。

Practical Data Science With R
Practical Data Science With R
Nina Zumel John Mount

本章は、次の三段階で構成される、順番もこの通り。
  • Mapping business problems to machine learning tasks:ビジネス上の問題を機械学習のタスクに落とし込む
  • Evaluating model quality:モデルの質を評価
  • Validating model soundness:モデルの良さを判定する

次の図 5.1 は「モデル構築と評価」で、上記三段階のフローチャートでもある。

We define model evaluation as quantifying the performance of a model. To do this we must find a measure of model performance that’s appropriate to both the original business goal and the chosen modeling technique. 
モデルの性能を数値で評価する方法を定義する。そのためには、モデル性能を測る「モノサシ」を見つける必要がる。それは「ビジネス上の目的」と「選択したモデル化手法」の両方とって適切なものでなくてはならない。

例えば、焦げ付くローンを予測する場合、分類手法、そして適切な「モノサシ」として
precisionrecall がある。

The biggest cause of model validation failures is not having enough training data to represent the variety of what may later be encountered in production. 
モデル判定の失敗の最大の原因は、後の実践で起こる事象を表す、訓練用データの不足ではない。

例えば、「返済実績のあるローンの 100% は焦げ付かない」というモデルは、実践では使えない。それが、訓練用データで導かれたモデルであったとしても。

Validation techniques attempt to quantify this type of risk before you put a model into production. 
判定手法が試みるのは、モデルの実践投入の前に、このようなリスクを数値化すること。

モデル構築」に続く。

0 件のコメント:

コメントを投稿