揭秘|行外人也能搞懂機器學習是什麼!

在電梯和樓梯間、辦公桌前和會議室、咖啡機旁和圖書館,優達學城 (Udacity) 的每一個人都在談論機器學習。為什麼?

機器學習是一個真正獨特的領域,因為它即複雜又簡單。例如,你可以比較一下這兩段描述:

「機器學習是計算機科學的一個分支,從人工智慧中的模式識別和計算學習理論研究發展而來。機器學習探索能夠學習和預測數據之演算法的研究與構建。」

「機器學習是讓計算機無需明確編程便可採取行動的科學。」

第一個來自 維基百科,第二個來自 斯坦福大學線上機器學習課程的描述 。完全是不同的風格,對吧?那麼,機器學習為何會如此既複雜又簡單呢?原因就在於它無所不在。

什麼是機器學習呢?

它從哪裡來,是什麼意思,以及它為什麼重要?從根本上來說,機器學習的目的是理解大量數據。注意,我們所說的「大量」是真正意義上的大量——數以百萬計的可計算、量化和分析信息:上百萬的患者、學生、交易、推文。僅就現代世界所產生的數據量來說,機器學習是非常必要及有可能實現的。

當然,統計 和 演算法 等領域一直以來就旨在總結數據,以助力決策和預測。而且,機器學習中使用的許多公式和技術是早在幾個世紀前的數學家開發出來的,唯一一個新方面是數量。計算能力的提高使我們能夠用幾小時的時間,完成手動需要幾個世紀的分析。

結果是:現在我們擁有比以前多十億倍的數據,而計算它們的能力也同樣提高了十億倍。這一切是怎麼發生的?答案就是機器學習!從字面上看,即機器從數據中「學習」概念。它的學習方式就和我們的日常學習一樣:查看經驗與以往觀察並識別有用的信息。不同之處在意,人類往往從幾十個經驗中學習,而機器學習可以從數以百萬計的經驗中學習,而這些經驗均使用嚴密的數值定義。

機器學習工程師的實際工作是什麼?

很簡單!機器學習工程師 建立程序,用來動態執行以前 數據科學家 手動執行的分析。那麼它的重要性何在?花一點時間思考一下數據發揮重要作用的領域。醫療、教育、天文學、金融、機器人學等。機器學習已經對所有這些行業產生了影響,事實上,幾乎沒有哪個領域不受機器學習的影響!

這是為什麼機器學習如此讓人著迷的一個關鍵原因,因為它無處不在。很多時候,我們甚至意識不到它在運行。你使用過 Google 翻譯嗎?Siri 呢?你的 Facebook 信息流呢?正是機器學習使它們全部變為可能!如果你對 優達學城 (Udacity) 有所了解,你應該知道我們的創始人兼總裁 @Sebastian Thrun 本人在這個領域擁有較長時間且非凡的歷史——他在卡耐基梅隆大學創立了一個碩士課程,後來演變成了機器學習博士課程;他是斯坦福大學 人工智慧 實驗室的主管;還是 Google 無人駕駛車 的領導者。

事實上,Google 翻譯可能是最著名的(和利用率最高!)的機器學習實踐例子,而 Google 對其工作原理的描述非常經典地闡釋了這個概念的應用:

機器翻譯是 Google 將前沿研究和世界級基礎設施相結合的一個很好例子。我們專註於研究開發能夠藉助獲得更多數據加以改進,並很好地推廣到新語言的統計翻譯技術。憑藉大規模計算基礎設施,我們能夠快速實驗在網路規模的數據上培訓的新模式,從而顯著提高翻譯質量。

這裡最重要的一句話是「藉助獲得更多數據加以改進」,這正是機器學習的本質所在。

在 2006 年,Tom Mitchell 發表了機器學習中的規則 (The Discipline of Machine Learning)。在這篇文章中,他提出這樣一個問題:

「我們如何構建能夠根據經驗自動改進的計算機系統?」

機器學習便是這個問題的答案,這就是為什麼我們推出了 機器學習工程師 納米學位課程!

---

▲ 本文作者:David Joyner ;由優達學城(Udacity)編譯。

David Joyner

David Joyner,General Course Manager at Udacity與喬治亞理工學院結緣已有 11 年之久,從上大學到取得博士學位,再到如今教授在線計算機科學碩士課程。他熱衷於使用 AI 打造個性化、可擴展的教育體驗,對學習新鮮事物樂此不疲。


推薦閱讀:

商湯研究院招個一兩個實習生
駕馭AI:好的數據集是成功的一半
微表情透視「愛樂之城」:10秒分手戲潛台詞知多少
【學術】針對閱讀理解的基於互動式層疊注意力模型
機器管家

TAG:人工智慧 | 機器學習 | 大數據 |