標籤:

機器學習導論——Day2、3

第二章監督學習

2.1由實例學習類

將實例分為正例負例,類學習就是尋找一個涵蓋所有正例而不涵蓋任何反例的描述。

經驗誤差empirical error

泛化問題generalization

誘導類S(induced class )最小

最一般假設G (most general hypothesis) 涵蓋所有正例而不包含任何負例的最大矩陣

介於S/G之間的假設h,都與訓練集相容consistent,且共同組成解空間。

2.2vc維

vc維(vapnik-chervonenkis dimension)指可以被H散列(shatter)的點的最大數量N,用於度量假設類H的學習能力。

2.3效率近似正確學習

概率近似學習Probably Approximately Correct

2.4雜訊

雜訊noise是數據中有害的異常,它使得類的學習更為困難。並且使用簡單的假設可能做不到零誤差。

雜訊可能有以下解釋:

  • 記錄的輸入屬性不準確,導致數據點在輸入空間移動
  • 標記的數據點有誤,將正例標記為負。
  • 可能存在沒考慮的附加屬性。

對雜訊的處理方法:複雜模型or允許誤差

2.5學習多類

將k類分類問題視為k個兩類問題。

2.6回歸

當輸出是一個布爾值時,我們採用分類,當輸出是數值時,我們希望學習一個數值函數。在機器學習中,函數未知,樣本的訓練集已知。如果不存在雜訊,任務是插值interpolation。

在多項插值polynomial interpolation中,給定N個點,找出可以預測x的任意輸出的(N-1)階多項式。如果x落在訓練集的區域外稱為外插extrapolation。

2.7模型選擇與范化

在所有由數據樣本訓練的學習演算法中,存在以下三個因素的制衡:(triple trade-off 三元制衡)

  • 擬合數據假設的複雜度,即設類的能力;
  • 訓練數據的總量;
  • 在新樣本上的范化generalization

訓練集和驗證集的作用是為了測試模型的范化能力,通過交叉驗證cross-validation找出最準確的假設。

用來報告最佳模型的期望誤差,就不應該使用驗證誤差,引入檢驗集(test set),它包含訓練或驗證階段未使用的數據。

2.8監督機器學習演算法的維

獨立同分布independent and identically distribute,idd

演算法相關有3個重點:

  1. 模型model:g(x| 	heta ),其中g(*)是模型,x是輸入, 	heta 是參數。
  2. 損失函數loss function: L(*)計算期望輸出和給定參數 	heta 當前值的差值。近似誤差approximation error/損失loss是各個實例的損失之和
  3. 最優化過程optimization procedure:求解最小化總誤差的 	heta *。

為做好上述工作,要

  • g(*)的假設類要足夠大
  • 足夠的訓練數據
  • 良好的優化方法

2.9注釋

幾乎錯過:位於灰色地帶S與G之間的實例,影響邊緣。(重要)

主動學習active learning:學習演算法自己生成實例,並請求標記它們。

VC維

PAC模型

2.10習題

Robust Regression/Resistant Regression

機器學習和數據挖掘(7):VC維 - CSDN博客

機器學習基礎概念 VC維的來龍去脈 - CSDN博客


推薦閱讀:

感知機(PLA)
Facebook如何運用機器學習進行億級用戶數據處理
使用Tensorflow C++ API自定義操作
Hidden Markov Model(隱馬爾可夫模型(Discrete))
學Python,這10道題你一定得會

TAG:機器學習 |