標籤:

4 支持向量機-總結

接上文 支持向量機-線性可分(優化函數的求解)

我們在前面已經描述了如何建立一條劃分直線,但是根本沒有提及支持向量機是什麼?那麼本節將做一個總結。

對於線性可分數據,在二維空間,用一條直線對數據進行劃分。在三維平面,是平面。在多維空間是超平面。不管是二維還是多維,我們都可以用向量的方式來表達模型:

那麼支持向量機是什麼呢?請看下圖:

可以發現我標註了一個紅色的點和藍色點,這兩個點就是支持向量,那麼支持向量有什麼特點呢?它必然在支持直線line5和line6之上,正是支持向量決定了支持直線的位置。為什麼呢?請看我們前面講過的公式:

對於每xi,要求yi(w * xi +b)>=1, 那麼支持向量就剛好是滿足yi(w * xi +b)=1的點。

所以對該模型來講,除開支持向量以外的點,都不會對模型產生影響,存不存在都沒有關係。

同時該模型對雜訊比較敏感,如果雜訊成為了支持向量,那麼模型的泛化能力將受到很大的影響。

那麼如何降低雜訊對其影響?如何對於本可以線性可分的數據,由於雜訊的加入導致數據線性不可分的情況進行處理,請看下節。

推薦閱讀:

人性本惡,機器本善?
1-3 What is Machine Learning
【用Sklearn進行機器學習】第一篇 - 介紹Scikit-Learn
機器學習入門之邏輯回歸分類
Facebook如何運用機器學習進行億級用戶數據處理

TAG:機器學習 |