標籤:

機器學習技法筆記7:融合模型(Aggregation Models)

融合(Aggregation)

通俗的講,有很多的g,每個g有好有差,好的g給他更好的權值(投票),而權值根據不同條件又有不同的大小,對應數學模型有:

融合能將特徵轉換和正則化各自的優勢結合起來,好比把油門和剎車都控制得很好,從而得到不錯的預測模型。有兩種融合方法,blending和bagging。

Blending

  • Uniform Blending (一人一票)
  • Linear Blending(G(t)是g(t)的線性組合)
  • Any Blending(G(t)可以是g(t)的任何函數形式(非線性))

Bagging

bootstrapping思想就是從已有數據集D中模擬出其他類似的樣本Dt,不同的Dt就生成了不同的 g_t

假設有N筆資料,先從中選出一個樣本,再放回去,再選擇一個樣本,再放回去,共重複N次。這樣我們就得到了一個新的N筆資料,這個新的Dt?中可能包含原D里的重複樣本點,也可能沒有原D里的某些樣本,Dt?與D類似但又不完全相同。值得一提的是,抽取-放回的操作不一定非要是N,次數可以任意設定。例如原始樣本有10000個,我們可以抽取-放回3000次,得到包含3000個樣本的Dt?也是完全可以的。利用bootstrap進行aggragation的操作就被稱為bagging。

如上圖,先通過bootstrapping得到25個不同樣本集,再使用pocket演算法得到25個不同的gt,每個pocket演算法迭代1000次。最後,再利用blending,將所有的gt融合起來,得到最終的分類線,黑線所示。可以看出,雖然bootstrapping會得到差別很大的分類線(灰線),但是經過blending後,得到的分類線效果是不錯的,bagging通常能得到最佳的分類模型。

這一章更多的是論述和理解,數學理論證明推導並沒有多少。


推薦閱讀:

MLer必知的8個神經網路架構
AlphaGo之父談人工智慧:超越人類認知的極限
有bioinformatics, ML, 或者phd生涯問題的同學,可以私信我
技術站搬運工:來自BrianWang的技術站:PCA的一大數學基礎:求矩陣的特徵值特徵向量

TAG:機器學習 |