2015年9月12日土曜日

Market Basket Analysis:再び「独立性と条件付き確率」

先日投稿した「オムツとビール」の嘘は、Foster Provost, Tom Fawcett著「Data Science for Business」第12章で「Market Basket Analysis」という言葉を読んだのがきっかけだった。ここでは、本書の「Example: Beer and Lottery Tickets」本書に沿って「ビールと宝くじ」が同時に買われる分析例を取り上げる。


P(A) × P(B) は独立の場合

あるコンビニの売上データをから以下の確率が得られた

 p(ビール)= 0.3:ビールが売れる確率
 p(宝くじ)= 0.4:宝くじが売れる確率
 p(ビール, 宝くじ) = 0.2:ビールと宝くじが同時に売れた確率

ここでのポイントは、p(ビール, 宝くじ) と p(ビール)p(宝くじ) = 0.3 * 0.4 = 0.12 が同じ確率にならないこと。この p(ビール)p(宝くじ) には、以下の前提がある

If these two items were completely unrelated (independent), the chance that they would be bought together would be the product of these two: p(beer) × p(lottery tickets)=0.12.

「独立事象」て分かりにくい表現だが、要はビールと宝くじが同時に売れる理由は全くの偶然である、という考え。逆に「独立ではない」と判断すれば、この二つの商品には関連性があり、販促方法を変えることで売り上げ向上を図れると考える。


Lift, Leverage

ビールと宝くじの条件付き確率の算出の前に、「Lift Curve(リフト曲線)」で紹介した Lift の値を算出する。

Lift(ビール, 宝くじ)
= p(ビール, 宝くじ)/ p(ビール)p(宝くじ)

よって 0.2 / 0.12 ≈ 1.67 がLift値。

Lift値が「1」の場合は、分母と分子が同じで、先述したように A, B は「独立事象」で無関係。

This means that buying lottery tickets and beer together is about 1 2/3 times more likely than one would expect by chance.

つまり、ビールと宝くじを同時に買うのが、偶然に起こるよりも(独立を前提にした場合よりも)1.67倍確率が向上しているとも考えられる。とはいえ、以下の考察は重要。

We might conclude that there is some relationship there, but much of the co-occurrence is due to the fact that these are each very popular items.

ビールと宝くじの購入に何らかの関係性があると考えられるが、単にお店の人気商品であり、因果関係はない可能性もある。これこそが「オムツとビール」で見落とされていた点でもある。

leverage は lift が割合に対して「量」で示しているだけ。

Leverage(ビール, 宝くじ)
= p(ビール, 宝くじ) - p(ビール)p(宝くじ)

よって 0.2 - 0.12 = 0.08 がLeverage値。


また間違った「独立性と条件付き確率」

以下の p(宝くじ | ビール) = 67% という意味が分からなかった。

There are two other significant statistics we should calculate too: the support and the strength. The support of the association is just the prevalence in the data of buying the two items together, p(lottery tickets, beer), which is 20%. The strength is the conditional probability, p(lottery tickets|beer), which is 67%.

何てことはない、以下のように求める

 p(宝くじ | ビール) = p(宝くじ, ビール)/p(ビール) 
            = 0.2/0.3 ≈ 0.67

p(宝くじ | ビール) とは「ビールが売れる条件の下で、宝くじが売れる確率」という条件付き確率。

何度も間違っているので、再び「独立性と条件付き確率」について。


再び「独立性と条件付き確率」

A, B の事象が独立の場合

P(A∩B) = P(A, B) = P(A)P(A)

条件付き確率は

P(A) = P(A|B), P(B) = P(B|A)

これはAの確率はBの事象に影響しないし、その逆も真ということ。

A, Bが「独立ではない」場合、投稿済み「独立性と条件付き確率」から

P(A, B) = P(A∩B) = P(A|B)P(B) = P(B∩A) = P(B, A) = P(B|A)P(A)

これを、別の式で表現し直すと

(1) は「条件付き確率」

(2) は「ベイズの定理」

(3) は、(1)(2) の分子の関係

(4) は (3)を変形

(1) と (4) から P(B|A) ≠ P(A|B) は納得する。

ここで再びA,B が「独立」という条件にすると

 (1) 式より P(B|A) = P(B) = P(A,B)/P(A)、よって P(A)P(B) = P(A,B)
 (4) 式より P(A|B) = P(A) = P(A,B)/P(B)、よって P(A)P(B) = P(A,B)


独立性や条件付き確率を、ここまでシツコク書いたのは理由がある。

データ分析とは『非独立性の分析』」に続く。

/*tex */

0 件のコメント:

コメントを投稿