深度學習進化編年大事記（1943-2016）

01-29

安妮編譯自 http://Import.io官方博客

量子位出品 | 公眾號 QbitAI

本文作者Andrew Fogg，可視化網頁抓取網站http://Import.io的聯合創始人。這篇文章闡明了人工智慧、機器學習與深度學習的關係，進而講述深度學習成長史，帶你一文入門深度學習。

當你聽到「深度學習」時，可以想像一個巨大的深度神經網路。「深度」指的是層數，媒體經常採用這種說法。

——傑夫·迪恩

人工智慧、機器學習和深度學習這三個詞經常被互換，但它們的含義並不相同。我們用一張圖概括三者關係——

△ 人工智慧、機器學習與深度學習之間的關係

人工智慧的定義頗具爭議，一種說法就是「與人類思考方式相似的計算機程序」。根據應用範圍的大小，我們將它分為通用型和應用型（應用範圍窄）人工智慧。

Google Trends數據顯示，自2015年起，「機器學習」的搜索熱度超過人工智慧本身。機器學習是指在沒有提供明確程序的情況下，機器自學完成任務。決策樹、聚類、增強學習或貝葉斯網路等演算法幫助它理解輸入程序。

△ 2015年9月，谷歌搜索中機器學習的熱度超過人工智慧

深度學習是在人工神經網路（ANN）基礎上發展來的表示學習方法。它通過構建多層表示學習結構，組合原始數據中的簡單特徵，從而得到更高層、抽象的表示。

△ 深度學習趨勢圖

這是目前人工智慧領域最振奮人心的發展，我們一起看看它的發展軌跡。

1943年：首個神經網路的數學模型誕生

推進人：Walter Pitts和Warren McCulloch

顯然，想要解決機器與深度學習的問題，我們首先需要了解人類大腦的神經網路。

1943年，邏輯學家Walter Pitts和神經科學家McCulloch通過創造神經網路的數學模型解開了這個謎題。他們合著了《神經活動中固有的思維的邏輯運算》一書，書中提出將數學和演算法的結合，模仿人類思維活動。

電子書地址（英文）：

https://dl.acm.org/citation.cfm?id=104377

他們的模型被稱為McCulloch-Pitts神經元（M-P神經元），至今仍然是標準模型。

1950年：機器學習的預測

推進人：阿蘭·圖靈

圖靈是一名英國數學家，因在二戰中破解了德國的Enigma密碼出名，但他的成就沒有止步於此。

1947年，他預測出機器學習的發展趨勢。這個趨勢在70年後的今天看來，也頗具指導意義。

1950年，圖靈在他的論文《計算機器與智能》中精心設計了一場機器模仿人類的遊戲，據此判斷機器是否會「思考」，也就是著名的圖靈測試。

論文地址（英文）：

http://mpcrlab.com/2016/09/turing-alan-m-computing-machinery-and-intelligence-1950/

圖靈測試讓計算機通過文本方式與人類聊天5分鐘，若人類無法確定對方為機器還是人類則測試通過。不得不說，這個簡單的測試是機器學習史上濃墨重彩的一筆。

儘管這個測試的有效性還頗具爭議，但卻是60多年來研究人員的目標。

1957年：感知器神經網路模型問世

推進人：Frank Rosenblatt

1957年，心理學家Rosenblatt向康奈爾航空實驗所提交了一篇論文，題目為《感知器：感知和識別的自動機》。

△ Frank Rosenblatt

論文地址（英文）：

https://blogs.umass.edu/brain-wars/files/2016/03/rosenblatt-1957.pdf

在這篇論文中，Rosenblatt提出感知器（Perceptron）的概念。這是首個用演算法精確定義神經網路的數學模型，是後來很多神經網路模型的始祖。

他宣稱，自己將構建一個電子或電動機械系統來學習識別不同模式之間的相似之處，某種程度上說，這與生物大腦的感知過程非常相似。

1959年：發現簡單細胞和複雜細胞

推進人：David H. Hubel和Torsten Wiesel

1959年，諾貝爾生理學或醫學獎獲得者David H. Hubel與Torsten N. Wiesel合作，聯手發現初級視覺皮層的兩種類型的細胞：簡單細胞和複雜細胞。

這項研究展示了視覺系統是怎樣將簡單的視覺特徵在視皮層呈現出來的。此項研究不是深度學習的里程碑式的成果，但對該領域後續研究影響很大。

1960年：提出控制論

推進人：Henry J. Kelley

Kelley本是弗吉尼亞理工學院的航空航天和海洋工程專業的一名教授，1960年發表了論文《最佳飛行路徑的梯度理論》。

論文地址（英文)：

https://arc.aiaa.org/doi/10.2514/8.5282

他提出的很多控制理論已經被直接應用在AI和ANN中，比如輸入系統的行為，被反饋修正的過程等問題。它們是訓練神經網路的連續反向傳播模型(也就是錯誤的反向傳播)的基礎。

1965年：首個有效深度學習網路誕生

推進人：Alexey Ivakhnenko和V.G. Lapa

數學家Ivakhnenko和Lapa等同事在1965年創建了首個有效深度學習網路。這是一個針對監督深度前饋多層感知的通用、可行的學習演算法，首次將理論和想法應用到實踐上。

Ivakhnenko提出數據分組處理 (Group Method of Data Handling，簡稱GMDH)的核心技術：這是一種基於計算機數學模型的多參數數據集的歸納演算法，能夠自動建模並優化參數。這項技術可以被應用到神經網路上。

GMDH官方介紹（英文）：

http://www.gmdh.net/

出於這個原因，很多人認為Ivakhnenko是現代深度學習之父。

△ Alexey Ivakhnenko

他的演算法使用深層前饋多層感知器，逐層統計尋找最佳的特徵，並傳遞給系統。

在1971年，Ivakhnenko在當時計算條件的限制下，已經創造出了8層的深度網路，並成功演示了計算機識別系統Alpha的學習過程。

1970-80年：ANN學會識別視覺模式

推進人：Kunihiko Fukushima

日本的福島邦彥（Kunihiko Fukushima）於1980年提出「新認知機」（Neocognitron）的概念。

新認知機介紹（英文）：

http://www.scholarpedia.org/article/Neocognitron

這是一種學習如何識別視覺模式的人工神經網路。目前，這項技術已經被應用在手寫字元和其他模式識別、推薦系統甚至自然語言處理等任務中。

1982年：創造出Hopfield網路

推進人：John Hopfield

1982年，Hopfield創立並推廣了這個以他的名字命名的系統。

Hopfield網路是一種循環神經網路，也是一種綜合存儲系統。即使到了21世紀，它仍然是一種流行的深度學習實現工具。

什麼是Hopfiled?這裡有一份英文介紹：

http://www.scholarpedia.org/article/Hopfield_network

1985年：程序會讀英語單詞了

推進人：Terry Sejnowski

1985年，計算神經科學家Terry Sejnowski利用通過理解人類學習過程創建了NETtalk。

不妨聽作者自己講講什麼是NETtalk：

http://cs.union.edu/~rieffelj/classes/2009-10/csc320/readings/Sejnowski-speech-1987.pdf

該程序學習英語單詞的方法與人類孩童無異，程序文本轉換為語音的質量也隨著時間推移進步。

1986年：形狀識別和辭彙預測水平提高

推進人：David Rumelhart, Geoffrey Hinton, and Ronald J. Williams

1986年，Rumelhart、Hinton和Williams提出誤差反向傳播演算法（Error BackPropagation Algorithm)，也就是現在說的BP演算法。這項演算法至今仍被應用在形狀識別，辭彙預測等任務中。

論文鏈接（英文）：

https://www.researchgate.net/publication/229091480_Learning_Representations_by_Back_Propagating_Errors

Hinton是公認的「深度學習之父」，他對神經網路的其他貢獻包括分散表示、延時神經網路、專家混合系統和亥姆霍茲機等。目前Hinton任職於多倫多大學與Google。

1989年：機器讀取手寫數字

推進人：Yann LeCun

LeCun是深度學習領域中的另一個「搖滾明星」，他發現了如何在光學字元識別和計算機視覺上使用卷積神經網路 (CNN)，因此被稱為卷積網路之父。

1989年，他將卷積神經網路和反向傳播理論結合起來，創造出能「讀懂」手寫數字的學習方法。

1989年：Q-learning誕生

推進人：Christopher Watkins

Watkins在1989年發表的博士論文《延遲獎勵學習》中，提出Q-learning的概念，提高了強化學習的實用性和可行性。

論文地址（英文）：

http://www.cs.rhul.ac.uk/~chrisw/new_thesis.pdf

這種新演算法表明，可以直接學習最優控制，而不需要對馬爾可夫決策過程的轉移概率或預期回報進行建模。

1993年：解決了「很深度學習」的任務

推進人：Jürgen Schmidhuber

德國計算機科學家Schmidhuber在1993年解決了一個「很深度學習」的任務，允許循環神經網路中包含1000個層。

這是神經網路處理複雜性問題能力的巨大飛躍。

1995年：支持向量機

推進人：Corinna Cortes和Vladimir Vapnik

支持向量機（SVM）自20世紀60年代問世以來，經過了數十年的改進。

SVM英文介紹：

http://www.cs.rhul.ac.uk/~chrisw/new_thesis.pdf

目前的標準模型由Corinna Cortes和Vladimir在1993年設計出來，並於1995年提出的。

簡單來說，SVM是一種用於識別和映射類似數據的系統，可用於文本分類，手寫字元識別和圖像分類。

1997年：提出LSTM

推進人：JürgenSchmidhuber和Sepp Hochreiter

20年前，Schmidhuber和Hochreiter提出了一種循環神經網路框架，稱之為長短時瞬時記憶（LSTM）。

或許你需要這份資料（英文）：

https://colah.github.io/posts/2015-08-Understanding-LSTMs/

LSTM解決了長期依賴性問題，提高了循環神經網路的效率和實用性，也就是說它可以「記住」更長時間的信息。

隨著時間的推移，LSTM網路在深度學習圈中得到了廣泛應用。最近，谷歌還將其應用在Android智能手機的語音識別軟體中。

1998年：提出基於梯度的學習

推進人：Yann LeCun

1998年，Yann LeCun發表了開創性論文《基於梯度學習的文檔識別方法》，標誌著LeCun在深度學習領域取得了又一次進步。

論文地址：

http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf

隨機梯度下降演算法（又稱基於梯度的學習）與反向傳播演算法相結合，是目前常用的深度學習方法。

2009年：ImageNet創立

推進人：李飛飛

2009年，斯坦福大學人工智慧實驗室（SAIL）的負責人李飛飛啟動了ImageNet，也就如今全球最大的圖像識別資料庫。

ImageNet官網：

http://image-net.org/

這是一個免費的圖像資料庫，裡面涵蓋了超過1400萬張圖像，為研究人員、教育工作者和學生提供了有標籤的圖片。

這些圖片被打上標籤並通過英文辭彙資料庫Wordnet管理。

2011年：AlexNet問世

推進人：Alex Krizhevsky

AlexNet是2012年ImageNet競賽冠軍獲得者Alex Krizhevsky設計的，是卷積神經網路的一種。

AlexNet改進了LeNet5(早些年由Yann LeCun創建)。它最初只有8個層，包含5個卷積層和3個全連接層，並通過修正線性單元來加強速度和dropout。

自AlexNet被發現後，更多更深的神經網路也相繼出現，它甚至為後續的CNN甚至是R-CNN等其他網路都定下了基調。

2012年：關於貓的實驗

「貓的實驗」？

你一定在心裡畫上了個問號。這聽起來很可愛，好像也不重要，但它確實是深度學習向前邁進的一大步。

實驗介紹（英文）：

http://www.nytimes.com/2012/06/26/technology/in-a-big-network-of-computers-evidence-of-machine-learning.html

實驗團隊在數千台電腦上使用一個神經網路，將1千萬張沒有標記的YouTube視頻截圖上傳至系統，並運行。

當這種無監督學習完成時，程序已經學會了如何自己鑒定並識別貓咪，運行正確率約為70%，相對於其他辨認程序，這個結果要好很多。

但是它也並不完美。這個網路可以僅能識別出約15%的表示對象。也就是說，距離真正的智能，它也僅推進了一小步。

2014年：DeepFace誕生

推進人：Facebook團隊

Facebook團隊在2014年首次公布了DeepFace研究，通過神經網路將人臉識別正確率提升到97.35%。這是一項重大突破，準確率比之前提高了27%。

目前人臉識別已經無處不在，下圖為谷歌圖片中用到的類似的程序。

2014年：發現生成式對抗網路（GAN）

推進人：Ian Goodfellow

自從兩年前蒙特利爾大學的Ian Goodfellow等人提出GAN的概念以來，GAN呈現出井噴式發展。Yann LeCun也非常喜歡GAN——

「深度學習最近出現了很多有趣的進展。我認為最有意思的是生成式對抗網路。GAN和它的變體是機器學習領域最近十年最有趣的想法。」Yann LeCun說。

什麼是生成式對抗網路?

http://blog.aylien.com/introduction-generative-adversarial-networks-code-tensorflow/

看，提起GAN，連大牛都覺得有趣吧。

簡單來講，GAN里隱含了兩個互相對抗的網路：生成網路與判別網路。生成網路負責獲取樣例並嘗試創建能夠以假亂真的樣例，而判別模型則需要判斷每個數據點是真實的還是生成的。

量子位曾經介紹過GAN的誕生史：

2016年：各種強大的機器學習產品

2016年被稱為人工智慧的元年。在這一年裡，不僅有AlphaGo與李世石的圍棋對決這樣的大事件，還湧現出很多基於機器和深度學習的產品和解決方案。

Cray（克雷公司）在XC50超級計算機上使用微軟的神經網路軟體，和近千個英偉達Tesla P100 GPU，可以在幾個小時內處理過去幾天才能完成的深度學習任務。

總結

在過去的60年里，人類在AI、ML、DL領域有了不小的突破，我們可以將這些進展整理成一條粗略的時間線。

1960年：淺層神經網路

1960-70年：反向傳播出現

1974-80年：第一次人工智慧的冬天來臨

1980年：出現卷積的概念

1987-93年：第二次人工智慧冬天再次降臨

1990年：無監督學習問世

1990-2000年：監督深度學習重新流行

2006年-至今現代深度學習

現在，深度學習不經意間就會出現在我們的生活中——它是谷歌的聲音和圖像識別，是Netflix和亞馬遜的推薦引擎，是蘋果的Siri，是電子郵件和簡訊的自動回復，是智能聊天機器人……

深度學習的下一步發展還不能確定。對於如此複雜的學習，我們無法推測它的發展時間表。

唯一能夠肯定的是，未來是有趣的。

【完】

歡迎大家關注我們的專欄：量子位 - 知乎專欄

一則通知

量子位讀者5群開放申請，對人工智慧感興趣的朋友，可以添加量子位小助手的微信qbitbot2，申請入群，一起研討人工智慧。

另外，量子位大咖雲集的自動駕駛技術群，僅接納研究自動駕駛相關領域的在校學生或一線工程師。申請方式：添加qbitbot2為好友，備註「自動駕駛」申請加入~