標籤:

關聯規則筆記(理論)

今天學習關聯規則,做個筆記。先看後面的總結效果更佳。

假定某超市銷售的商品包括 bread, beer, cake, cream, milk, tea.

表1 超市交易資料庫D

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

交易號 TID 顧客購買商品 Items

──────────────────────────────────

T1 bread cream milk tea

T2 bread cream milk

T3 cake milk

T4 milk tea

T5 bread cake milk

T6 bread tea

T7 beer milk tea

T8 bread tea

T9 bread cream milk tea

T10 bread milk tea

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

【定義1】項目與項集

I ={ i_{1} , i_{2} , ..., i_{m} } 是 m 個不同項目的集合,每個 i_{k} (k =1, 2, ..., m) 稱為 一個項目。項目的集合 I 稱為項目集合,簡稱為項集,元素個數稱為項集的長度,長度為 k 的項集稱為 k-項集

I ={bread, beer, cake, cream, milk, tea}

【定義2】交♂易

每筆交易 T 是項集 I 上的一個子集,即 Tsubseteq I ,但通常 Tsubset I 。每個交易的唯一標識——交易號記作 TID。交易的全體構成了交易資料庫D ,簡稱交易集D 。交易集中交易的個數記為 |D|

表1所示交易集D 中包含10筆交易,則 |D| =10。 DT 的集合, T 是項目的集合。交易信息有唯一的標識 TID,對應同一筆交易。每筆交易中顧客購買的商品集合(即項集)是所有商品集合的子集。

【定義3】項集的支持度

對於項集X, Xsubset I ,設定count(Xsubseteq T) 為交易集D 中包含X 的交易的數量,|D| 為交易集D 中包含的所有交易的數量,則項集X 的支持度定義為

support(X)=frac{count(Xsubseteq T)}{|D|} ……………………………………(1)

項集X 的支持度 support(X) 就是項集 X 出現的概率,從而表述了X 的重要性。

【定義4】項集的最小支持度與頻繁集

發現關聯規則要求項集必須滿足最小閾值,最小閾值稱之為項集的最小支持度,記為sup_{min} 。從統計意義上講,它表示用戶關心的關聯規則必須滿足的最低出現概率。

支持度大於或等於sup_{min} 的項集稱為頻繁項集,簡稱頻繁集。通常k-項集如果滿足sup_{min} ,稱為k-頻繁集,記作L_{k}

【定義5】關聯規則

關聯規則可以表示為一個蘊含式

R: XRightarrow Y ………………………………………………………(2)

其中Xsubset I, Ysubset I ,且 Xcap Y=? 。它表示在某一次交易中,如果項集X 出現,則項集Y 也會按照一定概率出現。X 稱為規則的條件Y 稱為規則的結果

【定義6】關聯規則的支持度

對於關聯規則R: XRightarrow Y ,其中Xsubset I, Ysubset I ,且 Xcap Y=? ,規則R支持度是交易集中同時包含XY 的交易數與所有交易數之比,記為support(XRightarrow Y) ,即

support(XRightarrow Y)=frac{count(Xcup Y)}{|D|} ………………………………(3)

支持度反映了XY 中所含的商品在全部交易中同時出現的頻率。由於關聯規則必須由頻繁集產生,所以規則的支持度其實就是頻繁集的支持度,即

support(XRightarrow Y)=support(Xcup Y)=frac{count(Xcup Y)}{|D|}

【定義7】關聯規則的可信度

對於關聯規則R: XRightarrow Y ,其中Xsubset I, Ysubset I ,且 Xcap Y=? ,規則R可信度是指包含和XY 的交易數與包含X 的交易數之比,記為 confidence(XRightarrow Y) ,即

confidence(XRightarrow Y)=frac{support(Xcup Y)}{support(X)} ……………………………(4)

可信度反映了當交易中包含X 時,Y 同時出現的概率。

關聯規則的支持度和可信度分別反映了,當前規則在整個資料庫中的統計重要性和可靠程度。

【定義8】關聯規則的最小支持度和最小可信度

最小支持度記為sup_{min} ,它用于衡量規則需要滿足的最低重要性。規則的最小可信度記為conf_{min} ,它表示關聯規則需要滿足的最低可靠性。

【定義9】強關聯規則

如果關聯規則XRightarrow Y 滿足support(XRightarrow Y)geq sup_{min}confidence(XRightarrow Y)geq conf_{min} ,則稱規則XRightarrow Y強關聯規則,否則為弱關聯規則。

挖掘關聯規則時,產生的規則要經過sup_{min}conf_{min} 的衡量,篩選出來的強關聯規則才能用於指導商家的決策。


做個總結:

  1. 關聯規則挖掘的是商品之間的相關性,關係越緊密的商品越容易被挖掘出來,比如牙膏和牙刷,炒勺和鍋蓋。
  2. 規則挖掘的方法是,統計某組合在一段時間內全部銷售訂單中出現的概率,這個概率叫支持度;然後再統計在此段時間中,訂單中出現某一商品或組合的前提下又出現了另一商品或組合的概率,這個概率叫可信度。
  3. 支持度用來表示商品的組合狀態下的銷售量,可信度用來表示關聯程度。支持度越高則關聯性的統計結果越精準,可信度越高則關聯性越強。
  4. 商家只對強關聯規則感興趣。

附上Apriori演算法的挖掘過程:


推薦閱讀:

數據挖掘中的特徵工程-持續更新。。。。。
#給自己發個博士招生廣告#
學大數據之前要知道的事
數據挖掘中常見的特徵工程方法
用【指數加權平均】構造時間序列問題的特徵

TAG:數據挖掘 |