左図のロジスティック回帰分析も、次の Figure 4-3 の回帰直線分析も、目的はどちらも「クラス分けモデル」であることは「ロジスティック回帰分析」で述べた。
左の Figure 4-1は「IG例:毒キノコ判定」でも取り上げた、決定木(classification tree, decision tree)も、上記2つのプロット同様に「クラス分けモデル」。
ただし、決定木と上記2つでは特徴的な違いがあるが、その点は本書の P.102 Example: Logistic Regression versus Tree Induction を参照して頂きたい。
実践的には、回帰分析よりも決定木の方がビジネス上の応用範囲は広いかもしれない。理由として、データ分析の知識が無くても、決定木の方がより理解できると考えられるから。
データ分析者であれば、ケースバイケースで分析法を選ぶ必要があるが、そこで気になるのは「データモデルの評価」方法。
左の表は乳がんの悪性の判定に使われた属性、サンプル数は569人(benign 357、malignant 212)。
ロジスティック回帰分析モデルでは、6人の誤り、つまり 98.9%の正解率。方や決定木モデルでは 99.1% であった(末尾に決定木モデルを添付、分岐が25、葉が13、よって13分類から悪性か否かを判定)。
さて、98.9% と 99.1% の差 0.2% をどう考えるか。高々一人ほど(569人 x 0.2%)の差であっても、正解率が高い方が優れた分析モデルと言えるのだろうか?
データ分析モデルの良し悪しの評価は容易ではない。しかし、先ずは陥りやすい誤り「overfitting(当てはまり過ぎ)」について理解すべきだろう。





0 件のコメント:
コメントを投稿