除了啤酒和尿布,關聯規則分析究竟還有哪些實際應用?
關聯規則是反映一個事物與其他事物之間的相互依存性和關聯性,常用於實體商店或在線電商的推薦系統:通過對顧客的購買記錄資料庫進行關聯規則挖掘,最終目的是發現顧客群體的購買習慣的內在共性,例如購買產品A的同時也連帶購買產品B的概率,根據挖掘結果,調整貨架的布局陳列、設計促銷組合方案,實現銷量的提升,最經典的應用案例莫過於<啤酒和尿布>。
關聯規則分析中的關鍵概念包括:支持度(Support)、置信度(Confidence)與提升度(Lift)。首先,我們簡單溫故下這3個關鍵指標~
1、支持度 (Support):支持度是兩件商品(A∩B)在總銷售筆數(N)中出現的概率,即A與B同時被購買的概率。類似於中學學的交集,需要原始同時滿足條件。nn公式:
若一個收銀小票(銷售ID)有30種商品,則組合數達到435種。而且可視化層級上還需要展現集團下每個分公司、每個城市、每個門店、月度、季度或者年度時間的關聯規則分析,如果用傳統的工具來實現上述分析無異於大海撈針。
下面我們就來看看在BDP中如何實現Apriori演算法,實現關聯規則分析!在BDP中,不僅可以便捷地實現多維數據分析,還可以通過靈活強大的功能組合來進行更深層面的數據分析探索。
商品兩兩組合的初步想法是通過量化的思想對商品進行編碼,比方說可按照增序(從1開始),算出每筆銷售單最大值,求出兩者差值得到一組數組,通過數組行轉列形式實現2種商品兩兩組合。nn
(圖:EXCEL 上傳表)nn
操作①:【工作表】-【創建合表】-【SQL創建】
操作②:【工作表】-【創建合表】-【多表關聯】 用於創建表關聯 包括(LEFT/INNER/ FULL JOIN)
操作③:【工作表】-【創建合表】-【追加合併】合併訂單總數 ,A商品訂單數,B商品訂單數和A∩B商品連帶筆數
(圖:追加合併邏輯實現)
追加合併可以把相同欄位商品合併在一起,方便計算三個指標(支持度、置信度、提升度)有利於可視化展現。操作④: 可視化展現:【BDP】-【可視化儀錶盤】
製作三個圖表進行購物籃分析:
上圖反映季度連帶最高頻次商品,高聯帶商品意味著對客戶吸引力大商品粘性強,同時也可以查看不同分公司的TOP20連帶情況。根據結果我們可以合理設計促銷策略,例如買2送1等。
置信度高說明商品連帶緊密,說明客戶連帶意願強,同時關注支持度,支持度高說明是需求量大,如果支持度低,置信度高其實對市場作用是有限小的。
通過單價,支持度,置信度,提升度綜合指標來看待商品組合,發現高價值關聯商品,有助於提升客單價,同時也需要考慮提升度,提升度小於1,提升效果有限,可以把精力花在提升度大於1的商品組合。同樣地,我們是否可以實現三種商品的組合呢?答案是顯然的,只要我們深入理解以上過程,三種商品關聯也是可以實現的。
除了購物籃分析(零售、快消、電商等行業適用)這個典型應用,關聯規則分析還在金融行業、搜索引擎、智能推薦等領域大有所為,如銀行客戶交叉銷售分析、搜索詞推薦或者識別異常、基於興趣的實時新聞推薦等。
作者熊輝,6年數據分析師從業經驗,對數據挖掘與機器學習演算法有深入的研究!
推薦閱讀:
※Gradient Boosting
※機器學習實戰之決策樹(三)
※某熊周刊系列:一周推薦外文技術資料(2.5)
※機器是怎麼一步步看穿我們的
※機器學習基礎:邏輯回歸