2015年9月11日金曜日

「オムツとビール」の嘘

以下は、日本語版Wikipedia「バスケット分析」からの引用

バスケット解析(バスケットかいせき)とは、マーケットバスケット解析 (Market Basket Analysis) とも呼ばれ、データマイニングで用いられる解析手法の一つで、"よく一緒に買われる商品" を見つけるためのデータ分析。

巨大スーパーマーケットチェーンで実際にあったと言われている例である。一定期間中の取り引きと購入された商品を詳細に解析した結果、"ビール"と"おむつ"はしばしば一緒に購入されるということが判明した。

この「ビールとオムツ」の話は、ビッグデータ前のデータマイニングの頃に耳にした。

その当時も「だから何??」と、この説明に不満だった。「ビールとオムツ」の例で、データマイニングを説明した気になっているように思えた。そんな「ビールとオムツの例」が未だにデータマイニングの例として、こうやって残っていることに違和感を抱いた。

さて、この日本語版「バスケット分析」の英語版へのリンクは「Market Basket Analysis」ではなく「Affinity analysis」(2015年9月11日現在)。「market basket」が具体的だが「affinity」の方が、個人的にはデータマイニングの本質を表していると思う。


都市伝説

その Affinity analysis のページにも「ビールとオムツ」の記述があった。

A common urban legend highlighting the unexpected insights that can be found involves a chain (often incorrectly given as Wal-Mart) discovering that beer and diapers were often purchased together, and responding to that by moving the beer closer to the diapers to drive sales; however, while the relationship seems to have been noted, it is unclear whether any action was taken to promote selling them together.

とはいえ「都市伝説」とちゃんと記されている。

ちなみに、日本で使われる「都市伝説」については興味はないが、Wikipedia によれば「都市伝説」の英語表現は urban legend, popular legend, urban myth, urban tale , contemporary legend のようで、要するに作り話と解釈すべきだろう。

この解説には「The parable of the beer and diapers」へのリンクがある。

It is easier to illustrate the difference between querying and data mining with a good example and, already firmly enshrined in BI mythology, is the "beer and diapers" story. 
データクエリとデータマイニングの違いを説明する良い例がある、それはBI(Business Intelligence)神話として強く認知されている「ビールとオムツ」の話だ。  
On Friday afternoons, young American males who buy diapers (nappies) also have a predisposition to buy beer. No one had predicted that result, so no one would ever have even asked the question in the first place. Hence, this is an excellent example of the difference between data mining and querying. 
金曜日の夜は、オムツを買う若いアメリカ人男性は、同時にビールを買う傾向にある。そんな分析をそれまで誰も考えなかった、そもそも誰もそんな疑問を持たないだろう。これは、データマイニングとクエリーの違いが分かる好例だ。

要するに、「因果関係」は抜きにデータマイニングで見つけた「関連性」から、後付けで「因果関係」を考える。この「オムツとビール」の後付け因果関係を本記事から引用

  • Young American males frequently indulge in ritualised carousing behaviour with friends of Friday nights.
  • Carousing usually involves the consumption of beer.
  • Most young American males only buy diapers after they have fathered offspring.
  • Offspring acquisition is a known carousing inhibitor.

一見すると納得しそうだが、一般化できるほどに説得力を感じない。

とはいえ、この記事のデータクエリとデータマイニングの違いの指摘は面白い。データクエリとは「人間がある条件でデータ絞り込む行為」で、データマイニングを所謂「ロボット検索」と解釈できる。ここには「因果関係と相関関係」という難しい課題があるが、ディープラーニング等で、その課題の捉え方も変わりつつあるのが昨今だ。

とはいえ「オムツとビール」の例は、20年ほど前に喧伝されたことなのだ。そんなに昔の出来事ではないが、この歴史からも学ぶ事は多い


 事の詳細

この「都市伝説」誕生の経緯など、DSSResources.comの 2002年11月10日の記事が詳しい。ここでは、その記事の終盤二節だけの引用に止める。

Tom Fawcett of HP Labs posted a note on the origin of the "diapers and beer" example at KDnuggets.com on Wednesday, June 14, 2000. Fawcett provides a third hand explanation of the origin of this example from Lounette Dyer via Ronny Kohavi. His posting claims Thom Blischok "dreamed up the 'diapers and beer' example. To the best of my knowledge it was never supported in any data that they analyzed."

「オムツとビール」の例は創作されたもので、私の知っている限り、どんなデータにおいても、その例を支持する分析は見当たらない。

以下の最後の一節は、当たり前だが大切。

So if someone asks you about the story of "data mining, beer and diapers" you now know the facts. The story most people tell is fiction and legend. You can continue telling the story, but remember no matter how you tell it, the story of "data mining, beer and diapers" is NOT a good example of the possiblities for decision support with current data mining technologies. 
この「ビールとオムツ」の話は、現在のデータマイニング技術による決定支援の可能性の例として不適切である。


誕生の背景

何故「この都市伝説は誕生したのか?」を私なりに考えてみた。

当時、DWH(データウェアハウス)システムやサービスが黎明期であった。そんなデータマイニングを広く世間に認知させるためにも、象徴的な事例が必要だった。そこで考え出されたのが「オムツとビール」の例。データマイニングの技術的な背景を説明するのは容易ではないが、「オムツとビール」の例は非常に明快で、DWHシステムを使えば誰もが「ビジネスチャンスを得られる」的なメッセージとして有効と考えた。

実際、日本でも「オムツとビール」の例は頻繁に使われて、一定のインパクトはあったように思う。ところが、やはりデータマイニングについての「技術的背景」に関するものは少なく、「因果関係と相関関係」の議論があったようには思えない。

何と言っても「オムツとビール」を裏付ける詳細なデータを見たことがなかった。例えば、不足している分析項目として

  • そもそもビールは、その店の売れ筋商品なのでは?
  • 若い男性とそれ以外の層で、ビールとオムツを買う人の割合の違いは?

など、いくらでも列挙できる。

ビッグデータ以前の「都市伝説」なのだ。現在では分析対象のデータ量は圧倒的に膨大になっている。ということは、現在のビッグデータ時代の「オムツとビール」的な分析結果は、信頼できるのだろうか?

期待を裏切る回答で申し訳ないが

ケースバイケースです

としか答えられない。

将来、「オムツとビール」の関係を適切にモデル化するケースが生まれるかもしれない。しかし、データが資産となり、その分析技術が武器になる現代において、そんなことを企業が公表するとは思えない。

現時点で、この「オムツとビールの嘘」の何が「嘘」かは多岐に渡る。将来「本当」となる要素があるのは間違いない。それを説明するのは容易ではないし、何と言っても「何が嘘」かはデータ分析者にとっては愚問だろう。「オムツとビール」を例にするデータ分析者のことは、信頼しない方が良いかもしれない(笑)

0 件のコメント:

コメントを投稿