機器學習導論——Day2、3
第二章監督學習
2.1由實例學習類
將實例分為正例負例,類學習就是尋找一個涵蓋所有正例而不涵蓋任何反例的描述。
經驗誤差empirical error
泛化問題generalization
誘導類S(induced class )最小
最一般假設G (most general hypothesis) 涵蓋所有正例而不包含任何負例的最大矩陣
介於S/G之間的假設h,都與訓練集相容consistent,且共同組成解空間。
2.2vc維
vc維(vapnik-chervonenkis dimension)指可以被H散列(shatter)的點的最大數量N,用於度量假設類H的學習能力。
2.3效率近似正確學習
概率近似學習Probably Approximately Correct
2.4雜訊
雜訊noise是數據中有害的異常,它使得類的學習更為困難。並且使用簡單的假設可能做不到零誤差。
雜訊可能有以下解釋:
- 記錄的輸入屬性不準確,導致數據點在輸入空間移動
- 標記的數據點有誤,將正例標記為負。
- 可能存在沒考慮的附加屬性。
對雜訊的處理方法:複雜模型or允許誤差
2.5學習多類
將k類分類問題視為k個兩類問題。
2.6回歸
當輸出是一個布爾值時,我們採用分類,當輸出是數值時,我們希望學習一個數值函數。在機器學習中,函數未知,樣本的訓練集已知。如果不存在雜訊,任務是插值interpolation。
在多項插值polynomial interpolation中,給定N個點,找出可以預測x的任意輸出的(N-1)階多項式。如果x落在訓練集的區域外稱為外插extrapolation。
2.7模型選擇與范化
在所有由數據樣本訓練的學習演算法中,存在以下三個因素的制衡:(triple trade-off 三元制衡)
- 擬合數據假設的複雜度,即設類的能力;
- 訓練數據的總量;
- 在新樣本上的范化generalization
訓練集和驗證集的作用是為了測試模型的范化能力,通過交叉驗證cross-validation找出最準確的假設。
用來報告最佳模型的期望誤差,就不應該使用驗證誤差,引入檢驗集(test set),它包含訓練或驗證階段未使用的數據。
2.8監督機器學習演算法的維
獨立同分布independent and identically distribute,idd
演算法相關有3個重點:
- 模型model:g(x| ),其中g(*)是模型,x是輸入, 是參數。
- 損失函數loss function: L(*)計算期望輸出和給定參數 當前值的差值。近似誤差approximation error/損失loss是各個實例的損失之和
- 最優化過程optimization procedure:求解最小化總誤差的 *。
為做好上述工作,要
- g(*)的假設類要足夠大
- 足夠的訓練數據
- 良好的優化方法
2.9注釋
幾乎錯過:位於灰色地帶S與G之間的實例,影響邊緣。(重要)
主動學習active learning:學習演算法自己生成實例,並請求標記它們。
VC維
PAC模型
2.10習題
Robust Regression/Resistant Regression
機器學習和數據挖掘(7):VC維 - CSDN博客
機器學習基礎概念 VC維的來龍去脈 - CSDN博客
推薦閱讀:
※感知機(PLA)
※Facebook如何運用機器學習進行億級用戶數據處理
※使用Tensorflow C++ API自定義操作
※Hidden Markov Model(隱馬爾可夫模型(Discrete))
※學Python,這10道題你一定得會
TAG:機器學習 |