決策樹與隨機森林學習筆記-1.信息熵
信息熵
熵(entropy)是表示隨機變數不確定性的度量。設有隨機變數X,則:
則隨機變數X的熵定義為:
熵只依賴X的分布,而與X的取值無關,所以也可將X的熵記為H(X)。
當隨機變數X只取(0,1)即服從Bernoulli Distribution 則X的分布為:
熵為:
設有隨機變數(X,Y)聯合分布概率為
條件熵
條件熵H(Y|X)表示在已知隨機變數X的條件下,隨機變數Y的不確定性,隨機變數X給定的條件下隨機變數Y 的條件熵(conditional entropy)H(Y|X),定義為X給定條件下Y的條件概率分布的熵對X的數學期望:
當熵和條件熵中的概率由數據估計(特別是極大似然估計)得到時,所對應的熵與條件熵分別稱為經驗熵(empirical entropy)和經驗條件熵(empirical conditional entropy)。此時如果有0概率,令 。
信息增益
信息增益(information gain)表示得知特徵X的信息而使得類Y的信息不確定性減少的程度,特徵A對訓練數據集D的信息增益定義為集合D的經驗熵與特徵A給定條件下D的經驗條件熵之差,即:
一般地,熵H(Y)與條件熵H(Y|X)之差稱為互信息(mutual information),決策樹學習中的信息增益等價於訓練數據集中類與特徵的互信息。
設訓練數據集為D,|D|表示其樣本容量,即樣本個數,設有K個類 ,
為屬於 的樣本個數, 。設特徵A有n個不同的取值, ,根據特徵A的取值將D劃分為n個子集, 。記子集Di中屬於類Ck的樣本的集合為 ,於是信息增益的演算法如下:
- 計算數據集D 的經驗熵
- 計算特徵A對數據集D的經驗條件熵
- 計算信息增益
信息增益比
信息增益比: 以信息增益作為劃分訓練數據集的特徵,存在偏向於選擇取值較多的特徵問題。使用信息增益比(information gain ration)可以對這一問題進行校正。這是特徵選擇的另一種準則。 特徵A對訓練數據集D的信息增益比 定義為其信息增益 與訓練數據集D關於特徵A的值的熵 之比。
基尼係數
基尼係數:分類問題中,假設有K個類,樣本點屬於第k類的概率為 ,則概率分布的基尼指數定義為:
對於二分類問題,若樣本點屬於第1個類的概率是p,則概率分布的基尼指數為:
對於給定的樣本集合D,其基尼指數為:
這裡, 是D中屬於第k類的樣本子集,K是類的個數。
表中為一個由15個樣本組成的貸款申請訓練數據,數據包括貸款申請人申請訓練數據, 數據包括貸款申請人的4個特徵:第一個特徵是年齡:青年,中年,中年;第二個特徵是有工作,是2個可能值:是,否;第三個特徵是有自己的房子,有2個可能值:是,否;第四個特徵是信貸情況,有3個可能值:非常好,好,一般。表的最後一類是類別(結局),是否同意貸款,取2個值:是,否。
希望通過所給的訓練數據學習一個貸款申請的決策樹,用以對未來的貸款申請進行分類,即當新的客戶提出貸款申請時,根據申請人的特徵利用決策樹決定是否批准貸款申請。根據表中數據分別計算四個特徵的信息增益,信息增益率。代入計算公式,得到:
統計學習方法-李航
推薦閱讀:
※Coursera Machine Learning疑惑與解答-第0篇-Week2 Assignments
※機器學習演算法系列--生成模型與判別模型
※第三章 線性模型
※<EYD與機器學習>一:The Machine Learning Landscape
※支持向量機