7本書帶你掌握數據科學中的數學基礎(附下載)

作者:Ajit Jaokar

翻譯:李海明

本文約1500字,建議閱讀6分鐘

想要精通數據科學,學好數學功不可沒。

關鍵詞:書,數據科學,Ian Goodfellow,機器學習,數學, Robert Tibshirani, Vladimir Vapnik

想要精通數據科學,學好數學功不可沒。基於這一常識,現推薦7本好書。

很多人在學習數據科學的時候都非常重視編程的學習。然而,如若有意精通數據科學(亦或是機器學習)這一門類,我們絕不能忽視數據科學的數學背景。所以,接下來我會推薦我在學習數據科學的過程中非常享受的7本數學基礎方面的書。說「享受「可能不是特別準確,因為要非常非常努力才行!

那麼問題來了,為什麼你需要去學好數據科學中的數學基礎呢?

以下幾條原因一直激勵著我這樣去做:

人工智慧技術一直處於高速更迭中。良好的數學基礎有助於你理解人工智慧技術的進化,同時也能讓你更深入地去理解並使用人工智慧技術,而不是停留在AI技術的表面。另外,這樣做也可以幫助你更好地去看待AI知識產權的問題。最後,職業規劃方面,一旦你掌握了數據科學背後的數學基礎,便可去從事更高端的AI和數據科學方面的工作。

與這7本書打交道時,我還有另外兩個動因:

  • 首先,其內容可以作為我在牛津大學教授互聯網數據科學課程的一部分,另外我本人還教授AI應用課程,在這些課程中我都要涉獵一些基礎的數學方法。
  • 其次,我還在寫一本從數學角度簡化AI的書,目的是讓14到18歲年齡段的讀者也能看懂。理解數據科學和AI中的數學基礎,你需要知道4類知識:線性代數,概率論,多變數微積分以及優化。這些知識大多數(至少是一部分)都來自於高中課本,因此我正在嘗試通過強調數學建模的意義,將高中數學和AI、數據科學聯繫起來。也歡迎評論我的方法。

以下是書單以及我對這7本書的評價:

1. 《統計學習理論的本質》Vladimir Vapnik. 【有中、英文版】

沒有涵蓋這位偉大的俄羅斯數學家Vladimir Vapnik著作的數學推薦書單都是無稽之談。所以,我把Vladimir Vapnik的《統計學習理論的本質》放在首位。在我的書單中,他的書是最難找到的。我有一本較早前的印度版本。他是支持向量機的發明者,維基百科中涵蓋了很多關於他的成就的介紹。

2. 《Richard O Duda教你模式分類》(2007-12-24) Richard O Duda 【有英文版】

與Vapnik博士的書類似,Duda的書是另一個時代的經典力作。這本書最早發行於1973年,後改版了25次(至2000年),是一部有份量的數學學習資源。該書採用了模式識別方法,並提供了廣泛的演算法覆蓋。

3. 《機器學習:從演算法出發》第二版 (Chapman & Hall/Crc 機器學習與模式識別) Stephen Marsland 【有英文版】

Stephen Marsland的書已經有了第二版。Stephen Marsland的這本是同類書中我讀的最早的一批中的一本(我只有第一版)。兩個版本都非常好。我認為該書的第二版會有更多的python代碼。就像前兩本一樣,這本書非常強調演算法。

4. 《統計學習基礎:數據挖掘,推斷與預測》 第二版 Trevor Hastie, Robert Tibshirani, Jerome Friedman 【有英文版】

又是一本經典之作。我有的這本書是彩色列印的,非常精美,可以作為學習的一本參考書。

5. 《模式識別與機器學習》(信息科學與統計學) Christopher M. Bishop 【有英文版】

Christopher M. Bishop的力作《模式識別與機器學習》(信息科學與統計學)是一本深入淺出的學習參考書。

6. 《機器學習:數據門類中演算法的科學與藝術》Peter Flach 【有英文版】

雖然這本書在amazon上有評論說多文字而少代碼,但我喜歡Peter Flach的書,特別是演算法的分組(邏輯模型,線性模型,概率模型)以及其對主題的整體處理風格。

最後,是我最最推薦的一本:

7. 《深度學習》Goodfellow, Bengio and Corville 【有中文 draft版、英文版】

這是一本值得你從一字不落頭讀到尾的好書。該書既詳細又現代,涵蓋了你能想到的所有問題。

還有兩本也值得閱讀:

1. 《機器學習第一課》第二版 (機器學習與模式識別) Simon Rogers,Mark Girolami

這是我看的第一本AI和數據科學的書。他不太適合初學者,但是仍然是一本不錯的書(特別是第二版)

2.《機器學習:從概率出發》 Kevin Murphy

這本書評價頗高,但是我自己還沒有讀過(所以沒有列在7本書的範圍之內)

如果我錯過了一些好書,正好你又有其他推薦,也請讓我了解。

總結評論

1. 除了《深度學習》,我不建議大家通讀其他書籍。我更傾向於需要學習哪類知識就去讀哪本書。我還喜歡不同作者在書中舉的不同例子,比如Duda的魚分類;Hastie的廣告數據銷售電視與廣播;Flach假設空間概念與海洋動物的例子等等。

2. 我發現這些書還賦予了我一點點的謙卑,讓我們知道這個世界浩瀚無垠,錯綜複雜,而我們實在是知之甚少。

3. 這些書也不會過時。Vladimir已經81歲高齡了,Duda的這本書發佈於1973年,我希望50年後,整個行業仍然會去讀它們。就像老朋友能經得起時間的考驗一樣,令人欣慰。同時,這也顯示出數學方法的長壽與價值。

原文標題:

7 Books to Grasp Mathematical Foundations of Data Science and Machine Learning

原文鏈接:

kdnuggets.com/2018/04/7

推薦閱讀:

Paper Reading | 多角度講解自動駕駛中的激光雷達感知系統
機器學習篇-數據劃分
[機器學習入門] 李宏毅機器學習課程從這裡開始
機器學習篇:XGB為啥這麼萬能
機器學習基石筆記12:非線性轉換

TAG:數據科學 | 機器學習 | 數據挖掘 |