2015年8月28日金曜日

Lift Curve(リフト曲線)

ROC曲線」に続いて、今回はリフト曲線。Wikipedia の Lift(data mining) を元に要点をまとめた。

「リフト」については、次の説明が分かりやすい。

For example, suppose a population has an average response rate of 5%, but a certain model (or rule) has identified a segment with a response rate of 20%. Then that segment would have a lift of 4.0 (20%/5%). 
反応率が 5% の集団において、ある分析モデル(ルール)が応答率 20% のグループをその集団から抽出した。この場合の リフト値は 4.0 (20% / 5%)。

次に、極端に簡素化した例で リフト値を求める。

左の表では、Antecedent が変数で、Consequent が Antecedent を使って予測する値。ここから次の二つのルール(モデル)を導くと

ルール1:Aの場合は0と予測
ルール2:Bの場合は1と予測



この二つのルールの リフト値は左のように求める。例の値を代入すると

lift(A⇒0) = (3/4) / (4/7) ≈ 1.31
lift(B⇒0) = (2/3) / (3/7) ≈ 1.56

ルール1のリフト値の算出式を言葉にすると
Aである時に0である確率 P(0|A) と、無条件に 0 である確率 P(0) との比率

式のまんまなのだが、次のように独立性についてもこの式は示している。

If some rule had a lift of 1, it would imply that the probability of occurrence of the antecedent and that of the consequent are independent of each other. When two events are independent of each other, no rule can be drawn involving those two events.
lift値が1の場合、antecedent と consequent は互いに独立。二つの事象が互いに独立なら、その二つからルールは導けない。

互いに独立とは、お互いが無関係なので、片方からもう一方を導くルール(分析モデル)は作れない。当たり前のことだが、言葉で読むと深く納得する。

この例では、二つのルールともに「 > 1 」なので

If the lift is > 1, like it is here for Rules 1 and 2, that lets us know the degree to which those two occurrences are dependent on one another, and makes those rules potentially useful for predicting the consequent in future data sets.

この引用は、「データ分析モデルとは何か」を別の視点で語っているようだ。

そして、結局のところ

The lift curve can also be considered a variation on the receiver operating characteristic (ROC) curve, and is also known in econometrics as the Lorenz or power curve.

リフト曲線はROC曲線のバリエーション。そのことは、以下のグラフからも理解できる(「Data Science for Business」の「第8章 Visualizing Model Performance」から)。
ROC曲線と同様に「スコア上位何%ではどのモデルが有効なのか」を リフト曲線から判断できる。

ROC曲線とリフト曲線だけでモデル評価を完璧にできるわけではないが、明確な方法といえるだろう。更に、「分析モデル評価:Accuracy が正しくない時」に書いたように、Accuracyの高いモデルを安易に評価できないし、コストや利益の制約も加味しなければならない。

モデルの評価力を高めることは、良いモデルを判断できること同義なので、データ分析力を高めるには避けては通れない。

0 件のコメント:

コメントを投稿