啤酒與尿布的故事

這是一個很老但很有意思的故事

我們去沃爾瑪超市會發現一個很有趣的現象:貨架上啤酒與尿布竟然放在一起售賣,這看似兩者毫不相關的東西,為什麼會放在一起售賣呢?

原來,在美國,婦女們經常會囑咐她們的丈夫下班以後給孩子買一點尿布回來,而丈夫在買完尿布後,大都會順手買回一瓶自己愛喝的啤酒(由此看出美國人愛喝酒)。商家通過對一年多的原始交易記錄進行詳細的分析,發現了這對神奇的組合。於是就毫不猶豫地將尿布與啤酒擺放在一起售賣,通過它們的關聯性,互相促進銷售。「啤酒與尿布」的故事一度是營銷界的神話。

那麼問題來了,商家是如何發現啤酒與尿布兩者之間的關聯性呢?

這裡就用到了數據挖掘的技術,準確的說是數據挖掘中的關聯規則挖掘。大致意思就是從大量數據中找出某兩個對象(暫且稱為X, Y)的關聯性。

確定X, Y的關聯性,需要用兩個指標來衡量:

  • 支持度
  • 置信度

支持度

在資料庫中,同時包含X 和Y的百比,比如s%。

支持度定義了對象在整個資料庫中所佔的比例。

置信度

在包含X的情況下,包含Y的百分比,比如c%。

置信度定義了發現規則的強度。

關聯規則也就可以表示為X=>Y(s%, c%)。

如果不考慮關聯規則的支持度和置信度,那麼在資料庫中存在著無窮多的關聯規則。事實上,人們一般只對滿足一定的支持度和置信度的關聯規則感興趣。

因為對於支持度和置信度太低的關聯規則基本沒有什麼使用價值。

這裡就需要給定兩個閾值:

  • 最小支持度

它表示了一組物品集在統計意義上需要滿足的最低程度。

  • 最小可信度

它反映了關聯規則的最低可靠程度。

同時滿足最小可信度閾值和最小支持度閾值的關聯規則被稱為強關聯規則。比如啤酒與尿布。

回到啤酒與尿布的故事,在這裡我們假設支持度閾值為50%,可信度閾值為70%。那麼它就表示:同時購買尿布和啤酒的顧客佔全部顧客的50%;在購買尿布的顧客中,有70%的顧客同時會買啤酒。

因此,在商品擺放時。應該將啤酒和尿布放在一起。

晚安,各位。


推薦閱讀:

絕殺的那些事兒
知識分享 | 不超3分鐘看懂「PHM」!
天搜科技:多平台被質疑用大數據殺熟
分享給大家一個演算法大賽的專家直播預告,有空值得一看
吐槽《細思極恐|趙薇事件揭示:大數據控制權之爭暗流涌動》

TAG:數據挖掘 | 數據挖掘入門 | 大數據 |