EdX-Columbia機器學習課第10講筆記:核方法與高斯過程
05-06
特徵擴展
當線性模型在原始特徵空間內效果不好時,可以把特徵映射到高維空間,然後在高維空間再進行線性建模。但是應該怎麼映射這都是case by case的,通常可以使用「kitchen sink」法,然後用正則化來進行特徵篩選
不過更簡單地,我們可以只考慮特徵展開的內積,稱之為核,記作核
以感知機為例,由前面的講解,可知感知機從數據中構建超平面的方法是將所有錯分樣本的標籤和數據的內積累加起來,即
Mercer定理:如果函數滿足了上述條件,則肯定存在一個映射使得
如果我們先定義,則肯定能得到。不過有時我們先定義,避免定義
最被廣泛使用的一種核稱為高斯核,也叫作徑向基函數 (radial basis function, RBF)RBF衡量了兩個點之間的距離。當兩個點重合時,函數取得最大值;當兩點無限遠時,函數取得最小值0。高斯核的映射能把原始數據映射到無限維空間另一種核:通過以下三種方法,可以從舊核構建新核##### 核感知機如果選擇徑向基函數()作為核,那麼核感知機的決策過程為考慮之前介紹的RBF的性質,上面的決策過程實際就是遍歷錯分點,判斷錯分點與新數據之間的距離。如果距離遠,函數值趨近於0,說明其標籤在最後總和里的權重小;否則則大。即RBF使得決策過程類似一個「軟投票」 (soft voting)過程。
訓練時也是找一個新的滿足,但是這時只需要把的索引加入到,而不需要計算核感知機的思想可以進一步推廣到核k-NN上。在這裡我們不止針對錯分的數據集,而是對所有數據進行求和,即由於將各求和項統一除以一個正數不會改變總和的符號(即不會改變最終決策的結果),因此可以統一除以記則最後的決策為可以看做是讓所有數據投票,但是我們為每個數據根據其與新數據的距離分配投票的權重。離新數據近的權重大,遠的權重小。這裡扮演了置信度的概念,我們可以調整使得對大部分有,使得我們只需要注意附近的點
##### 核回歸也稱Nadaraya-Watson模型。其思想與核KNN方法類似。對新的樣本,預測為其意義是找到離比較近的,計算它們對應的加權平均值高斯過程
假設有個樣本,響應值,特徵矩陣為,似然和先驗分別為
可知(= =)其邊緣分布為注意有,將用替換,則有,記為,所以有
稱為高斯過程定義:假設,且,定義為兩個點和之間的核,則是高斯過程,是對結果附加的雜訊過程,如果其中,是階方陣,且注意高斯過程本身是不帶雜訊的,但是觀測到的值會受到雜訊影響(即)。這裡雜訊都是服從i.i.d.的,而且是無限維的講義中高斯過程的生成:選取,然後將其分成1000份,每個區間抽一個點出來,然後構建,是一個的矩陣,使用高斯核貝葉斯線性回歸:假設我們有個樣本對,我們想根據預測,積掉,聯合分布為那麼有
類似地,高斯過程可以估計這一預測的分布:給定樣本數據集,對任何新的,都可以計算的分布來做預測令,是核矩陣,有對的後驗,只需要移去高斯過程可以擬合任何形狀的函數,求回歸推薦閱讀:
※快去註冊!吳恩達新書《機器學習思維》免費預定開啟
※Hands-On ML,CH2:房價預測
※相比於深度學習,傳統的機器學習演算法難道就此沒落了嗎,還有必要去學習嗎?
※AI優質乾貨 | 2018第二彈 | 03.05-03.10 | Github項目、課程、數據、報告……
TAG:機器學習 |