EdX-Columbia機器學習課第8講筆記:線性分類器與感知機
05-11
線性分類器
這裡我們只討論二元分類的情況,即或。在這種情況下,假設我們使用貝葉斯分類器,而且對某個新數據判定其類別為1,則肯定有
假設對其期望密度共享同一個協方差矩陣,即,那麼代入前一講的概率密度函數,有其中不帶的是一個常數項,可以寫作,的係數可以寫作。得到的這個線性式子也稱作線性判別分析(LDA)因此該貝葉斯分類器的決策規律可以寫為一個線性函數,即
如果我們放寬之前的假設(即兩個類別各自是高斯分布,且共享協方差矩陣),可以得到一個更廣義的(二元)線性分類器其中。這個分類器要求樣本是(大致)線性可分的。的兩個子集被稱為是線性可分的,如果滿足以下條件這裡定義了一個仿射超平面為了理解仿射超平面的概念,先看一下超平面的概念。中的超平面是其維的線性子空間。作為線性子空間,超平面肯定會包含原點。任意超平面可以用向量來表示,即從幾何上講,在最簡單的情況下(二維空間),對於給定的向量,其超平面是有所有與其正交的點(從該點到原點能連出一個向量,這個向量與正交 )所組成的一條過原點的直線對於任一向量,可以計算它與的夾角。可知三角形的另外一邊為,那麼由余弦定理,有
即從到的距離是。而且只有當時,才有。因此在的哪邊是由其夾角餘弦值決定,即有將超平面平移標量,就得到了仿射超平面,決策平面也變成了。當時,將超平面往逆向的方向移動;當時,將超平面往向著的方向移動。與線性回歸類似,也可以通過將特徵組合成高維特徵的方法,將低維的線性不可分樣本集變為高維線性可分樣本集。另外,如果對兩個類別,其期望密度各自對應一個協方差矩陣,即,那麼與前面不同的是,有這裡第三項是一個關於的二次項,因此也稱作二次判別分析(不過權重是線性的)上的最小二乘
如何對諸如
- 令,其中是的類別標籤
- 往中加入一個全為1的特徵,構造矩陣
- 使用最小二乘法學出權重向量
- 對新的點,其標籤標記為
感知機
對線性分類器
感知機演算法試圖最小化的損失函數為因為對,有
通過最小化,我們試著總去預測出正確的標籤但是對沒有解析解,所以只能迭代求解。不過指出了沿著哪個方向可以增大。因此,對足夠小的,如果按照來更新,則有,即我們得到了更好的這種方法稱為梯度下降法,感知機用了隨機梯度下降的方法進行學習,步驟為1. 初始化權重向量2. 對 a. 找到所有錯分的樣本,即所有使得b. 如果這樣的樣本存在,隨機選擇一個進行更新
否則返回(即此時所有樣本均已被正確分類)感知機的缺點有兩點- 對於線性可分的情況,演算法在找到滿足條件的以後就會停止,不會找到最優分類器
- 對於線性不可分的情況,演算法不會收斂
推薦閱讀:
※Cousera deeplearning.ai筆記 — 淺層神經網路(Shallow neural network)
※比賽心路 駕駛行為預測駕駛風險(二)
※有關NLP的比賽
※機器學習基本套路
※機器學習-線性回歸
TAG:機器學習 |