P(A) × P(B) は独立の場合
あるコンビニの売上データをから以下の確率が得られた
p(ビール)= 0.3:ビールが売れる確率
p(宝くじ)= 0.4:宝くじが売れる確率
p(ビール, 宝くじ) = 0.2:ビールと宝くじが同時に売れた確率
ここでのポイントは、p(ビール, 宝くじ) と p(ビール)p(宝くじ) = 0.3 * 0.4 = 0.12 が同じ確率にならないこと。この p(ビール)p(宝くじ) には、以下の前提がある
If these two items were completely unrelated (independent), the chance that they would be bought together would be the product of these two: p(beer) × p(lottery tickets)=0.12.
「独立事象」て分かりにくい表現だが、要はビールと宝くじが同時に売れる理由は全くの偶然である、という考え。逆に「独立ではない」と判断すれば、この二つの商品には関連性があり、販促方法を変えることで売り上げ向上を図れると考える。
Lift, Leverage
ビールと宝くじの条件付き確率の算出の前に、「Lift Curve(リフト曲線)」で紹介した Lift の値を算出する。
Lift(ビール, 宝くじ)
= p(ビール, 宝くじ)/ p(ビール)p(宝くじ)
よって 0.2 / 0.12 ≈ 1.67 がLift値。
Lift値が「1」の場合は、分母と分子が同じで、先述したように A, B は「独立事象」で無関係。
This means that buying lottery tickets and beer together is about 1 2/3 times more likely than one would expect by chance.
つまり、ビールと宝くじを同時に買うのが、偶然に起こるよりも(独立を前提にした場合よりも)1.67倍確率が向上しているとも考えられる。とはいえ、以下の考察は重要。
We might conclude that there is some relationship there, but much of the co-occurrence is due to the fact that these are each very popular items.
ビールと宝くじの購入に何らかの関係性があると考えられるが、単にお店の人気商品であり、因果関係はない可能性もある。これこそが「オムツとビール」で見落とされていた点でもある。
leverage は lift が割合に対して「量」で示しているだけ。
Leverage(ビール, 宝くじ)
= p(ビール, 宝くじ) - p(ビール)p(宝くじ)
よって 0.2 - 0.12 = 0.08 がLeverage値。
また間違った「独立性と条件付き確率」
以下の p(宝くじ | ビール) = 67% という意味が分からなかった。
There are two other significant statistics we should calculate too: the support and the strength. The support of the association is just the prevalence in the data of buying the two items together, p(lottery tickets, beer), which is 20%. The strength is the conditional probability, p(lottery tickets|beer), which is 67%.
何てことはない、以下のように求める
p(宝くじ | ビール) = p(宝くじ, ビール)/p(ビール)
= 0.2/0.3 ≈ 0.67
p(宝くじ | ビール) とは「ビールが売れる条件の下で、宝くじが売れる確率」という条件付き確率。
何度も間違っているので、再び「独立性と条件付き確率」について。
再び「独立性と条件付き確率」
A, B の事象が独立の場合
P(A∩B) = P(A, B) = P(A)P(A)
条件付き確率は
P(A) = P(A|B), P(B) = P(B|A)
これはAの確率はBの事象に影響しないし、その逆も真ということ。
A, Bが「独立ではない」場合、投稿済み「独立性と条件付き確率」から
P(A, B) = P(A∩B) = P(A|B)P(B) = P(B∩A) = P(B, A) = P(B|A)P(A)
(1) は「条件付き確率」
(2) は「ベイズの定理」
(3) は、(1)(2) の分子の関係
(4) は (3)を変形
(1) と (4) から P(B|A) ≠ P(A|B) は納得する。
ここで再びA,B が「独立」という条件にすると
(1) 式より P(B|A) = P(B) = P(A,B)/P(A)、よって P(A)P(B) = P(A,B)
(4) 式より P(A|B) = P(A) = P(A,B)/P(B)、よって P(A)P(B) = P(A,B)
独立性や条件付き確率を、ここまでシツコク書いたのは理由がある。
「データ分析とは『非独立性の分析』」に続く。
/*tex
*/



0 件のコメント:
コメントを投稿