【西瓜書】周志華《機器學習》學習筆記與習題探討(三)②
【第3章 線性模型】
〖一、知識點歸納〗
三、對數幾率回歸
0、回顧
線性模型通過屬性的線性組合來進行預測。
【預測】:依靠機器學習得到的模型(如線性模型),對新示例進行結果判斷。
但是,我們預測的值有【連續值】和【離散值】兩種。
即對應【回歸任務】和【分類任務】。
如果說線性模型預測連續值,只需要讓預測值逼近真實標記 或其衍生物的話,當預測離散值的時候,如何讓線性模型的預測值(連續)和真實標記 (離散)聯繫起來呢?
說到聯繫,自然而然的想起上一節中的【聯繫函數】 。
其實,離散狀態的真實標記 ,未嘗不可以有一種連續狀態的衍生物 ,這樣通過某一種單調可微的聯繫函數,就可以讓連續的預測值聯繫到離散的真實標記。
1、單位階躍函數
在二分類任務中,輸出標記為 ,而線性回歸模型產生的預測值: 是實值。要將連續值 轉換為離散值0/1,最理想的是「單位階躍函數」。
如上圖右側,將預測值 作為自變數,真實標記 作為函數,畫出單位階躍函數的函數圖像。( 為零時任意判別)
2、對數幾率函數
單位階躍函數雖好,但是不可微,不是理想的聯繫函數 ,我們希望找到一個在形態上趨近於單位階躍函數的連續函數,於是我們找到了對數幾率函數 。
由圖可知,對數幾率函數的自變數 越趨近 和 , 越靠近0和1,而在靠近0處,則迅速的變化。
對數幾率函數是連續的,因而可以作為聯繫函數存在。
將 帶入可得 ,亦即 。
如果說將 看做樣本 作為正例的可能性,那麼 就是其成為反例的可能性。
兩者的比值稱為「幾率」,反映了樣本作為正例的相對可能性。
對幾率取對數就得到「對數幾率」,這便是「對數幾率函數」名稱的由來。
四、線性判別分析(LDA)
知道了用線性模型解決分類問題的方法,我們面臨的分類問題則大體分為兩種:二分類和多分類。
線性判別分析(LDA)就是一種經典的用於解決二分類問題的線性學習方法(也可推廣到多分類)。
1、二分類任務中的LDA
LDA大概分為三個步驟:
1.給定樣例;
2.尋找到一條滿足「同類近、異類遠」的投影直線;
3.新樣本的分類依靠投影后點的位置來確定;
第1步:
給定數據集 ,令 分別表示第 類示例的集合、均值向量、協方差矩陣。將數據投影到直線 上,這兩類樣本的樣本中心會在直線上分別投影為 和 (圖上的紅色圓形和紅色三角代表正例、負例的樣本中心),兩類樣本的協方差分別為 和 ,由於直線是一維空間,因此 、 、 、 均為實數。
順便一提,如上圖,橫縱軸分別為 和 ,代表樣本的兩個屬性。此圖代表屬性個數為2時張成的二維空間。但當屬性個數為n時,屬性空間也為n維,只不過無法在圖中體現了。
第2步:
如何尋找到這條直線呢?
就要參考「同類近、異類遠」的原則。
欲使得同類投影點儘可能接近,可以讓同類樣例投影點的協方差儘可能小,即 儘可能小;
欲使得異類投影點儘可能遠離,可以讓類中心之間的距離儘可能大,即 儘可能大。
故設廣義瑞利商 ,其分母越小、分子越大,值越大。
再通過定義類內散度矩陣:
和類間散度矩陣:
將其重寫為:
想求得廣義瑞利商,即確定此直線在n維空間中的位置,還是要想辦法確定 (這條直線即用 表示)。
但 的分子分母都是關於 的二次項,因此 的解與其長度無關,而與其方向有關。
故由拉格朗日乘子法,可列 ,又由於 方向恆為 ,令 ,帶入得 。
確定了,直線就確定了。
2、多分類中的LDA
LDA也可推廣到多分類任務中,多分類LDA將樣本投影到 維空間, 通常遠遠小於數據原有的屬性數 。
對不起,最近比較忙,斷了更新,近期會逐漸恢復,先把之前的存貨發上來,下一節再收尾和探討習題。
專欄:
安立桐亂談編程
西瓜書系列合集:
【西瓜書】周志華《機器學習》學習筆記與習題探討(一)
【西瓜書】周志華《機器學習》學習筆記與習題探討(一)續
【西瓜書】周志華《機器學習》學習筆記與習題探討(二)①
【西瓜書】周志華《機器學習》學習筆記與習題探討(二)②
【西瓜書】周志華《機器學習》學習筆記與習題探討(二)③
【西瓜書】周志華《機器學習》學習筆記與習題探討(二)④
【西瓜書】周志華《機器學習》學習筆記與習題探討(三)①
推薦閱讀:
※seq2seq中的beam search演算法過程
※A Neural Network Approach to Context-Sensitive Generation of Conversational Responses
※亞馬遜實體店,用深度學習和計算機視覺顛覆超市購物體驗
※Learn R | Association Rules of Data Mining(一)
※Python · 決策樹(一)· 準則