小白開始學習關聯規則

小白開始學習關聯規則

大家好,我是皮膚很黑的田小白,雖然從事醫療諮詢行業,但是我最近有些問題,因為想著是不是能夠根據病人的等一些因素能夠關聯出醫生的一些診斷和操作,當然我也不是描述很清楚,現在的想法也很亂,但是不妨礙我開始了解這個關聯規則。這部分我打算三步法學習。首先了解其中的概念和應用背景等,第二部分是對演算法的實現最了解和模擬,第三部分是實踐。

百度中的資料很多,於是我也耐心的整理了一遍,看了一遍寫了一遍我對定義和應用場景有了更形象或者說更具體的理解。

關聯規則介紹

關聯規則是反映一個事物與其他事物之間的關聯性。若兩個或者多個事物之間存在著關聯關係,那麼其中的一個事物就能通過其他事物預測到。關聯規則也是 數據挖掘中最活躍的研究方法之一,廣泛運用於購物籃數據、生物信息學、醫療診斷、網頁挖掘和科學數據分析中。由其所發現的關係可由關聯規則或者頻繁項集的 形式來表示。 關聯規則產生過程通過兩個重要的步驟實現:一是頻繁項集的生成,二是形成關聯規則。

關聯規則名詞解釋

關聯:association 是指把兩個或兩個以上在意義上,有密切聯繫的項組合在一起。

關聯規則(Association rules,AR):用於從大量數據中挖掘出有價值的數據項之間的相關關係:

即:兩個不想交的非空集合X,Y,如果有X->Y,即X為先決條件,Y為相應的關聯結果,X能推出Y,就說X->Y是一條關聯規則

關聯的強度如何:由二個概念-——支持度( support)、置信度(confidence)

效度:提升度(lift)

挖掘的的意義:

給定一個數據集,找出其中所欲支持度 support>=min_support 、置信度confidence>=min_confidence 的關聯規則。

最小支持度min_support 和最小置信度min_confidence

最小支持度是用戶或者專家定義的衡量吃出度的一個閾值,表示項目集在統計意義上的最低重要性,最小置信度是用戶或者專家定義的衡量置信度的一個閾值,表示關聯規則的最低可靠性,同時滿足最想支持度和最小置信度的規則稱作強規則。

支持度:Support(X->Y)=集合X與集合Y中的項在一條記錄中同時出現的次數/記錄的個數

例如:support({啤酒}->{尿布})=啤酒喝尿布同時出現的次數/記錄數=3/5=60%

交易ID 商品清單

T1 牛奶,麵包

T2 麵包,尿布,啤酒,雞蛋

T3 牛奶,尿布,啤酒,可樂

T4 麵包,牛奶,尿布,啤酒

T5 麵包,牛奶,尿布,可樂

置信度:confidence(X->Y)=集合X與集合Y中的項在一條記錄中同時出現的次數/集合X出現的次數:也就是說P(Y|X) X出現的情況下Y出現的概率(條件概率)

例如:confidence(啤酒->尿布)=啤酒與尿布同時出現的次數/啤酒出現的次數=3/3=100%

那麼confidence(尿布->啤酒)=3/4=75%

提升度:lift(A-B)=confidence(A-B)/support(B)

度量規則是否可用的指標,描述的是相對於不用規則,使用規則可以提高多少,提升度大於1,規則有效

例如:

lift(尿布-啤酒)

confidence(尿布->啤酒)/support(啤酒)

=0.75/0.6=1.25


推薦閱讀:

章建躍:論數學教學中的基礎與創新
標準D:數學在生活中實際應用
Excel函數學習8:SEARCH函數
快跟著華數學英語       錢江晚報

TAG:數據挖掘 | 數學 | R編程語言 |