【西瓜書】周志華《機器學習》學習筆記與習題探討(三)②

【第3章 線性模型】

〖一、知識點歸納〗

三、對數幾率回歸

0、回顧

線性模型通過屬性的線性組合來進行預測。

【預測】:依靠機器學習得到的模型(如線性模型),對新示例進行結果判斷。

但是,我們預測的值有【連續值】和【離散值】兩種。

即對應【回歸任務】和【分類任務】。

如果說線性模型預測連續值,只需要讓預測值逼近真實標記 y 或其衍生物的話,當預測離散值的時候,如何讓線性模型的預測值(連續)和真實標記 y (離散)聯繫起來呢?

說到聯繫,自然而然的想起上一節中的【聯繫函數】 g(·)

其實,離散狀態的真實標記 y ,未嘗不可以有一種連續狀態的衍生物 z ,這樣通過某一種單調可微的聯繫函數,就可以讓連續的預測值聯繫到離散的真實標記。

1、單位階躍函數

在二分類任務中,輸出標記為 y={ 0,1} ,而線性回歸模型產生的預測值: z=oldsymbol omega^Toldsymbol x+b是實值。要將連續值 y 轉換為離散值0/1,最理想的是「單位階躍函數」。

如上圖右側,將預測值 z 作為自變數,真實標記 y 作為函數,畫出單位階躍函數的函數圖像。( z 為零時任意判別)

2、對數幾率函數

單位階躍函數雖好,但是不可微,不是理想的聯繫函數 g(·) ,我們希望找到一個在形態上趨近於單位階躍函數的連續函數,於是我們找到了對數幾率函數 y=frac{1}{1+e^{-z}}

由圖可知,對數幾率函數的自變數 z 越趨近 +infty-inftyy 越靠近0和1,而在靠近0處,則迅速的變化。

對數幾率函數是連續的,因而可以作為聯繫函數存在。

z=oldsymbol omega^Toldsymbol x+b 帶入可得 y=frac{1}{1+e^{-(oldsymbol omega^Toldsymbol x+b)}} ,亦即 lnfrac{y}{1-y}=oldsymbol omega^Toldsymbol x+b

如果說將 y 看做樣本 oldsymbol x 作為正例的可能性,那麼 1-y 就是其成為反例的可能性。

兩者的比值稱為「幾率」,反映了樣本作為正例的相對可能性。

幾率=frac{正例可能性}{反例可能性}=frac{y}{1-y}

對幾率取對數就得到「對數幾率」,這便是「對數幾率函數」名稱的由來。

對數幾率=ln{frac{y}{1-y}}

四、線性判別分析(LDA)

知道了用線性模型解決分類問題的方法,我們面臨的分類問題則大體分為兩種:二分類和多分類。

線性判別分析(LDA)就是一種經典的用於解決二分類問題的線性學習方法(也可推廣到多分類)。

1、二分類任務中的LDA

LDA大概分為三個步驟:

1.給定樣例;

2.尋找到一條滿足「同類近、異類遠」的投影直線;

3.新樣本的分類依靠投影后點的位置來確定;

第1步:

給定數據集 {D={(oldsymbol x_i, y_i) }_{i=1}^{m}},y_iin { 0,1} ,令 oldsymbol X_j 、oldsymbolmu_j 、oldsymbolSigma_j 分別表示第 jin{0,1} 類示例的集合、均值向量、協方差矩陣。將數據投影到直線 oldsymbol omega 上,這兩類樣本的樣本中心會在直線上分別投影為 oldsymbolomega^Toldsymbolmu_0oldsymbolomega^Toldsymbolmu_1 (圖上的紅色圓形和紅色三角代表正例、負例的樣本中心),兩類樣本的協方差分別為 oldsymbolomega^ToldsymbolSigma_0 oldsymbolomegaoldsymbolomega^ToldsymbolSigma_1 oldsymbolomega ,由於直線是一維空間,因此 oldsymbolomega^Toldsymbolmu_0oldsymbolomega^Toldsymbolmu_1oldsymbolomega^ToldsymbolSigma_0 oldsymbolomegaoldsymbolomega^ToldsymbolSigma_1 oldsymbolomega 均為實數。

順便一提,如上圖,橫縱軸分別為 x_1x_2 ,代表樣本的兩個屬性。此圖代表屬性個數為2時張成的二維空間。但當屬性個數為n時,屬性空間也為n維,只不過無法在圖中體現了。

第2步:

如何尋找到這條直線呢?

就要參考「同類近、異類遠」的原則。

欲使得同類投影點儘可能接近,可以讓同類樣例投影點的協方差儘可能小,即 oldsymbolomega^ToldsymbolSigma_0 oldsymbolomega+oldsymbolomega^ToldsymbolSigma_1 oldsymbolomega 儘可能小;

欲使得異類投影點儘可能遠離,可以讓類中心之間的距離儘可能大,即 ||oldsymbolomega^Toldsymbolmu_0-oldsymbolomega^Toldsymbolmu_1||^2_2 儘可能大。

故設廣義瑞利商 J=frac{||oldsymbolomega^Toldsymbolmu_0-oldsymbolomega^Toldsymbolmu_1||^2_2}{oldsymbolomega^ToldsymbolSigma_0 oldsymbolomega+oldsymbolomega^ToldsymbolSigma_1 oldsymbolomega} ,其分母越小、分子越大,值越大。

再通過定義類內散度矩陣:

和類間散度矩陣:

將其重寫為: J=frac{oldsymbolomega^Toldsymbol S_b oldsymbolomega}{oldsymbolomega^Toldsymbol S_omega oldsymbolomega}

想求得廣義瑞利商,即確定此直線在n維空間中的位置,還是要想辦法確定 oldsymbolomega (這條直線即用 oldsymbolomega 表示)。

J 的分子分母都是關於 oldsymbolomega 的二次項,因此 J 的解與其長度無關,而與其方向有關。

故由拉格朗日乘子法,可列 oldsymbol S_b oldsymbolomega=lambda oldsymbol S_omegaoldsymbolomega ,又由於 oldsymbol S_b oldsymbolomega 方向恆為 oldsymbolmu_0-oldsymbolmu_1 ,令 oldsymbol S_b oldsymbolomega=lambda(oldsymbolmu_0-oldsymbolmu_1) ,帶入得 oldsymbolomega=oldsymbol S^{-1}_omega(oldsymbolmu_0-oldsymbolmu_1)

oldsymbolomega 確定了,直線就確定了。

2、多分類中的LDA

LDA也可推廣到多分類任務中,多分類LDA將樣本投影到 d 維空間, d 通常遠遠小於數據原有的屬性數 d

對不起,最近比較忙,斷了更新,近期會逐漸恢復,先把之前的存貨發上來,下一節再收尾和探討習題。

專欄:

安立桐亂談編程

西瓜書系列合集:

【西瓜書】周志華《機器學習》學習筆記與習題探討(一)

【西瓜書】周志華《機器學習》學習筆記與習題探討(一)續

【西瓜書】周志華《機器學習》學習筆記與習題探討(二)①

【西瓜書】周志華《機器學習》學習筆記與習題探討(二)②

【西瓜書】周志華《機器學習》學習筆記與習題探討(二)③

【西瓜書】周志華《機器學習》學習筆記與習題探討(二)④

【西瓜書】周志華《機器學習》學習筆記與習題探討(三)①


推薦閱讀:

seq2seq中的beam search演算法過程
A Neural Network Approach to Context-Sensitive Generation of Conversational Responses
亞馬遜實體店,用深度學習和計算機視覺顛覆超市購物體驗
Learn R | Association Rules of Data Mining(一)
Python · 決策樹(一)· 準則

TAG:机器学习 | 周志华 | 计算机科学 |