函數間隔、幾何間隔、最大間隔分類器
本來是昨天要寫的
架不住糖衣炮彈
沒把持住自己
叛變了革命
是我的錯
函數間隔
函數間隔:
就是人為設定的樣本的值(如:區分貓狗圖片,貓標定為「 」,狗為「 」)
的值就是二分類器的分類結果:
若 ,則
若 ,則
那麼函數間隔 就只會存在大於零或者小於零的情況,
若 ,說明 和 的值是同號的,那麼說明分類結果正確,反之錯誤。
這裡還要提一下, 的值如果越大(或者越小)說明樣本離分類平面越遠,分類確信度越高。
幾何間隔
因為和是可縮放的,「margin」是不是會跟著縮減,相應的「confidence」也就不確定了,這時候幾何間隔就登場了。
很明顯的可以看出幾何間隔 是幾何間隔 的 倍。
其實就是 向量 的二範數,即向量元素的平方和。
到這不禁有人會問,這是為什麼吶?
還記得中學的點到直線的距離公式吧,注意這裡是二維的,所以下面是 ,三維就是 ,再往上自行腦補)。
那幾何間隔就是分類樣本點到超平面的距離了唄~
就是那個超平面,降到二維是不是就是一條線, 也無非是乘了個 ,判定的是它分類到底對於否(大方向),那 不就是confidence的程度了嘛。
最大間隔分類器
知道了幾何間隔(函數間隔是可縮放的,所以不作為指標),我們就可以來優化了:函數間隔越大,confidence就越大,由此就引出了「maximum margin classifier」。
每個樣本都會有一個幾何間隔 ,那麼定義一個訓練集內所有樣本中最小的幾何間隔為 ,最大間隔分類器定義為: ,即使得 中的最小值最大化(有點暈?放心後面有更暈的...)。
沒了,吃驚嗎?
拉格朗日乘子法明天(或者後天、大後天···)寫
嗯,就是這樣了
bye呀~
推薦閱讀:
※A Diversity-Promoting Objective Function for Neural Conversation Models
※為什麼梯度下降法每次找到的都是下降最快的點?
※自然語言處理(NLP)基礎概念5:word2vec代價函數求梯度計算過程詳解