機器學習基石筆記11:邏輯斯蒂(Logistic)回歸 下
首先,總結一下之前討論過的三種線性模型(線性二元分類、線性回歸、邏輯斯蒂回歸)
- 共同點:需要一個得分函數:
- 得分與模型假設函數的關係如圖
- 損失函數一般分別為0/1錯誤、平方錯誤和交叉熵錯誤
- 將二元分類和線性分類模型的損失函數轉為關於y與得分s的函數,其中 :
- 損失函數圖像:
- 將ERRce換成log2,則圖像為:
隨機梯度演算法
在上一篇結尾總結中的計算梯度過程中,每次的梯度計算包含一個連加,是一個o(N)的時間複雜度,如果樣本量過大,幾乎是一個不可完成過程。如果是在線學習,訓練樣本無法一次給清,同樣無法代入上面公式。我們把1/N的連加換成一個隨機選擇點的過程,隨機梯度值可以看做真實的梯度值加上一個噪音,使用隨機梯度取代真實梯度做梯度下降的演算法稱作隨機梯度下降(stochastic gradient descent),簡稱SGD。這種替代的理論基礎是在迭代次數足夠多的情況下,平均的隨機梯度和平均的真實梯度相差不大。這裡,我們把n的那個點作為隨機梯度選擇的點。(去掉 )
我們比較一下隨機梯度的w更新和PLA演算法的w更新:
SGD是大錯大更新,小錯小更新(0~1之間的值);PLA是有錯就更新,無錯不更新;兩者其實是類似的。
最後,關於迭代次數和步長(學習速率)的選擇:因為無法真正確定梯度為0的地方,所以確定一個t很困難,通常做法是選擇一個足夠大的迭代次數t;步長的經驗演算法是0.1
邏輯斯蒂回歸實現多類別分類 【暫】
多類別分類有很多應用場景,特別是在識別(recognition)領域。
設計的演算法稱作一對多(One Versue All),簡稱為OVA,表示一個類別對其他所有類別。
二元分類實現多類別分類 【暫】
OVO
題圖:崇拜老虎,力量、輸出、爆發、敏捷、堅韌,六芒星的完全體。2017年11月6日16:44:35
推薦閱讀:
※為什麼sigmoid function可以表示分類問題的probability?
TAG:機器學習 | Logistic回歸 | logisticregression |