機器學習基石筆記11:邏輯斯蒂(Logistic)回歸 下

首先,總結一下之前討論過的三種線性模型(線性二元分類、線性回歸、邏輯斯蒂回歸)

  • 共同點:需要一個得分函數: s=w^Tx
  • 得分與模型假設函數的關係如圖

  • 損失函數一般分別為0/1錯誤、平方錯誤和交叉熵錯誤
  • 將二元分類和線性分類模型的損失函數轉為關於y與得分s的函數,其中 yin(+1,-1)

  • 損失函數圖像:

  • 將ERRce換成log2,則圖像為:

隨機梯度演算法

在上一篇結尾總結中的計算梯度過程中,每次的梯度計算包含一個連加,是一個o(N)的時間複雜度,如果樣本量過大,幾乎是一個不可完成過程。如果是在線學習,訓練樣本無法一次給清,同樣無法代入上面公式。我們把1/N的連加換成一個隨機選擇點的過程,隨機梯度值可以看做真實的梯度值加上一個噪音,使用隨機梯度取代真實梯度做梯度下降的演算法稱作隨機梯度下降(stochastic gradient descent),簡稱SGD。這種替代的理論基礎是在迭代次數足夠多的情況下,平均的隨機梯度和平均的真實梯度相差不大。這裡,我們把n的那個點作為隨機梯度選擇的點。(去掉 frac{1}{N}sum_{n=1}^{N}

我們比較一下隨機梯度的w更新和PLA演算法的w更新:

SGD是大錯大更新,小錯小更新(0~1之間的值);PLA是有錯就更新,無錯不更新;兩者其實是類似的。

最後,關於迭代次數和步長(學習速率)的選擇:因為無法真正確定梯度為0的地方,所以確定一個t很困難,通常做法是選擇一個足夠大的迭代次數t;步長的經驗演算法是0.1

邏輯斯蒂回歸實現多類別分類 【暫】

多類別分類有很多應用場景,特別是在識別(recognition)領域。

設計的演算法稱作一對多(One Versue All),簡稱為OVA,表示一個類別對其他所有類別。

二元分類實現多類別分類 【暫】

OVO

題圖:崇拜老虎,力量、輸出、爆發、敏捷、堅韌,六芒星的完全體。2017年11月6日16:44:35

推薦閱讀:

為什麼sigmoid function可以表示分類問題的probability?

TAG:機器學習 | Logistic回歸 | logisticregression |