機器學習導論——Day2、3

03-06

第二章監督學習

2.1由實例學習類

將實例分為正例負例，類學習就是尋找一個涵蓋所有正例而不涵蓋任何反例的描述。

經驗誤差empirical error

泛化問題generalization

誘導類S(induced class )最小

最一般假設G (most general hypothesis) 涵蓋所有正例而不包含任何負例的最大矩陣

介於S/G之間的假設h，都與訓練集相容consistent，且共同組成解空間。

2.2vc維

vc維（vapnik-chervonenkis dimension）指可以被H散列（shatter）的點的最大數量N，用於度量假設類H的學習能力。

2.3效率近似正確學習

概率近似學習Probably Approximately Correct

2.4雜訊

雜訊noise是數據中有害的異常，它使得類的學習更為困難。並且使用簡單的假設可能做不到零誤差。

雜訊可能有以下解釋：

對雜訊的處理方法：複雜模型or允許誤差

2.5學習多類

將k類分類問題視為k個兩類問題。

2.6回歸

當輸出是一個布爾值時，我們採用分類，當輸出是數值時，我們希望學習一個數值函數。在機器學習中，函數未知，樣本的訓練集已知。如果不存在雜訊，任務是插值interpolation。

在多項插值polynomial interpolation中，給定N個點，找出可以預測x的任意輸出的（N-1）階多項式。如果x落在訓練集的區域外稱為外插extrapolation。

2.7模型選擇與范化

在所有由數據樣本訓練的學習演算法中，存在以下三個因素的制衡：(triple trade-off 三元制衡）

訓練集和驗證集的作用是為了測試模型的范化能力，通過交叉驗證cross-validation找出最準確的假設。

用來報告最佳模型的期望誤差，就不應該使用驗證誤差，引入檢驗集（test set），它包含訓練或驗證階段未使用的數據。

2.8監督機器學習演算法的維

獨立同分布independent and identically distribute,idd

演算法相關有3個重點：

模型model：g(x| $heta$ )，其中g(*)是模型，x是輸入， $heta$ 是參數。
損失函數loss function： L(*)計算期望輸出和給定參數 $heta$ 當前值的差值。近似誤差approximation error/損失loss是各個實例的損失之和
最優化過程optimization procedure：求解最小化總誤差的 $heta$ *。

為做好上述工作，要

2.9注釋

幾乎錯過：位於灰色地帶S與G之間的實例，影響邊緣。（重要）

主動學習active learning：學習演算法自己生成實例，並請求標記它們。

VC維

PAC模型

2.10習題

Robust Regression/Resistant Regression

機器學習和數據挖掘（7）：VC維 - CSDN博客

機器學習基礎概念 VC維的來龍去脈 - CSDN博客