標籤:

《機器學習基石》課程學習總結(三)

作者:

原文鏈接:jianshu.com/p/6be6dd0e3

查看更多的專業文章、課程信息、產品信息,請移步至「人工智慧LeadAI」公眾號,或移步至全新打造的官網:www.leadai.org.

正文共1908個字,預計閱讀時間5分鐘。

前面兩篇文章要點回顧:

第一篇:機器學習的主要任務是用演算法A,利用數據集D從假設集H中挑出一個函數g,使得E_in(g)最小。

第二篇:可以證明,當假設集H的d_vc是有限值,數據集D中樣本數量N足夠大時,找到的函數g的E_in和E_out很大概率上是近似相等的,因此,E_in很小時可以認為E_out也會很小。也就是說,機器確實從數據中學習到了「知識」。

這篇文章是對第8課內容的總結,比較短,但是很重要。

1、如果數據中有noise

在前面兩篇文章中,討論機器學習時默認有一個前提是成立的,那就是數據集D中的x由某個分布獨立產生,y由f(x)產生。現實的數據集D往往不能滿足這個條件,而是可能摻雜著noise,以發放銀行信用卡為例,noise可能有三種形式:

  • 某個樣本點(x,y),x仍是由某個分布產生,但y卻與f(x)相反,也就是說,按照函數f計算x,應當發放信用卡,現實卻是沒有發放信用卡(f(x)=1,y=0),反之同理。
  • 同樣的x,不一樣的y,在數據集中,同樣的x,有的對應的y為1,有的對應的y為0。
  • x有誤。樣本點中的x不是與其他x產生自同一分布。即顧客個人信息有誤。

經過前面各種證明,好不容易得出了機器可以學習的結論,noise的存在,讓我們回到原點,我們不得不再次審視,面對有noise的數據集D,機器還可以學習嗎?更具體一點,之前推導出的vc bound還有效嗎?

所幸的是,儘管有noise的存在,vc bound還是有效的,也就是說,如果我們找出的函數小g,在有noise的數據集D上的E_in很小,那麼,它的E_out也有很大的概率是很小的。這裡的E_out使用的樣本也是同樣摻雜著noise的。

從條件概率來看noise,我們可以認為數據集D中的y不是來自f(x),而是來自一個條件分布P(y|x), 只不過P(y = f(x) | x) > P(y != f(x) | x)。此時,對於二元分類問題,我們將f(x)稱作ideal mini-target function。因為f(x)就是我們希望儘可能接近的目標函數,使用它做分類預測時,所犯的分類錯誤率是最小的。

在這種情況下學習到的函數小g也具有了概率的含義,也就是說,給定x,y等於g(x)是一個大概率事件,y不等於g(x)是一個小概率事件。此時的g仍然是在儘可能模仿f,但由於數據中noise不可避免,使得我們的函數小g只能模仿在noise下表現出來的f。

一句話總結:noise可以看成是條件分布P(y|x)。在二元分類問題中,f(x)就是對於給定的x,概率最大的y值,它是機器學習的新目標函數,稱為ideal mini-target function。

2、錯誤衡量err

觀察上面定義的ideal mini-target function,容易知道,只要我們能夠學習到一個函數小g,使它儘可能接近f(x),那麼,用小g做二元分類預測時,犯的錯誤將會最小。這裡有一個很容易被我們忽視的問題,那就是衡量小g犯的錯誤的大小。

在二元分類問題中,衡量小g犯的錯誤很簡單,假設對於x,對應的樣本值為y,小g的預測值為g(x),若g(x)==y,則所犯錯誤為0,若g(x)!=y,則所犯錯誤為1。這樣的錯誤衡量稱為「0/1 error」。

實際上,對於不同的問題,還有許多的錯誤衡量err,比如在回歸問題中常用的平方錯誤衡量:err(g(x),y)=(g(x)-y)^2

那麼,不同的錯誤衡量err對我們做機器學習有什麼不同的影響呢?

一句話概括就是:P(y|x)和err聯合在一起,會決定ideal mini-target function。

比如在二元分類問題中,假如P(y|x)已經確定,err採用「0/1 error」 ,那麼,ideal mini-target function 就是f(x),即對於給定的x,y為f(x)的概率最大。

在實際的機器學習問題中,P(y|x)是未知的。但是通過選用不同的err,可以隱含地決定ideal mini-target function,也就是我們的演算法學習的目標函數。課程視頻中有一個簡單的小例子來說明這個問題,可用來幫助理解,這裡不再贅述。

那麼問題來了,如何確定哪個err比較好?

答案是:看你要解決的具體問題,這是評價err好壞的根本標準,但僅僅考慮這一點也是不行的,因為不同的err,在實現演算法A時的難度也是不一樣的。最後選擇的err是在二者之間的一個trade-off。

3、加權分類

這部分內容比較簡單,簡述如下:

在樣本集中,不同的樣本(x_n,y_n)有不同的重要性,犯錯的代價是不一樣的,為了體現出這一點,可以採用「虛擬複製」技術,將其歸約為普通的0/1 error問題。


推薦閱讀:

機器學習基礎與實踐(一)----數據清洗
基於不平衡樣本的推薦演算法研究
Learning Explanatory Rules from Noisy Data 閱讀筆記1
譜聚類的consistency

TAG:機器學習 |