標籤:

機器學習基石筆記15-16:小結和雜談

前記:15章的驗證看過一遍,想寫筆記卻總覺得無從下手,故略過。

奧卡姆剃刀定律

如無必要,勿增實體,出自奧卡姆,為了紀念此人,將這句話叫做奧卡姆剃刀(Occams Razor)。將奧卡姆剃刀定律應用在機器學習上意思是使用的模型儘可能的簡單。

簡單意味著什麼:

  • 對於一個假設h,參數越小意味著越簡單
  • 對於一個假設空間H,有效的假設數量越少則意味著越簡單。
  • 哲學上的解釋:假設一個數據集的規律性很差,如輸入樣本的輸出標記都是隨便標記的,此種情況,很少有甚至沒有假設函數能使得該樣本的Ein等於0。如果一個數據集能被某模型分開,則該數據集的規律性不會特別差。在使用簡單模型將某數據集大致區分開時,則可以確定該數據集是具有某種規律性的;如果是用複雜模型將某數據集分開,則無法確定是數據集具有規律性還是模型足夠複雜恰巧將混亂的數據集分離。

因此,在運用模型時,先使用簡單的模型,一般使用最簡單的線性模型。

抽樣偏差

如果數據的抽樣出現偏差,則機器學習也會產生偏差,此種偏差稱為抽樣偏差(sampling bias)。

因此訓練樣本和測試樣本要都獨立同分布的來自於概率分布P。

數據窺探的危害

#todo 暫時不詳細討論。

小結

  • 三個理論保證:霍夫丁不等式(單一假設確認時使用)、多箱霍夫丁不等式(有限多個假設驗證時使用)和VC限制(無限多個假設訓練時使用)。
  • 三個模型:二元分類模型(包含PLA和pocket)、線性回歸和logistic回歸。
  • 三種重要工具:特徵轉換、正則化和驗證。
  • 三個原則:奧克姆剃刀、抽樣偏差和數據窺探。
  • 接下來的方向也分為三種:更多的轉換方式、更多的正則化和沒有標記的情況。

雜談

八月臨澤婚禮,九月如皋婚禮,前幾天剛把蘇州的最後一場答謝宴辦完,結婚的一系列活動終於完結了。我跟老婆說以後別人的婚宴我都要盡量趕過去,好好感受一下作為看客的心情,好好嬉笑一下主角的尷尬和窘迫。最近一段時間公司的售前(其實也是領導)實在不給力,導致項目組閑成狗,混混了幾天總覺得要做點什麼,畢竟正式結婚了,以後家裡的擔子我要扛起來了。十月中下的時候看過第一次基石視頻,奈何到10章就進行不下去了,趕進度的需求和越來越難的數學理論學習成為了不可調和的矛盾。於是決定放鬆心態,從頭再看一遍,認真的看同時把筆記記好,督促自己真實理解的同時又可以為後來溫習帶來保障,於是有了基石筆記的這一系列,順道也申請到了專欄,當個三流業餘寫手,啊哈。接下來開始投入到技法系列的筆記,暫不知難度如何,目測需要到11月底12月初才能完結,期待。

題圖:《雨霖鈴·寒蟬凄切》最喜歡的一首詞,記得高中那時太投入感情以至於黯然落淚傷神。昨夜基石完結,一時起興在pad上寫了一遍,既不逢時,也不應景,純屬矯情。2017年11月8日10:03:20

推薦閱讀:

線性支持向量機(soft-margin SVM)
十分種讀懂KNN
集智:負基礎就能學會的機器學習(二) 無需任何編程基礎
CS259D:數據挖掘與網路安全講義筆記
《機器學習基石》課程學習總結(三)

TAG:機器學習 |