研究人工智慧三十年，Facebook AI 負責人Yann LeCun到底有多牛？

01-25

作為Facebook人工智研究院院長、紐約大學終身教授、卷積神經網路之父，YannLeCun 教授已然成為了AI人心目中的男神。3月22日，他在清華大學做的一場名為《Deep Learning and theFuture of AI》的演講，真可謂是一座難求。今天，小編就帶你走進Facebook人工智慧大牛Yann LeCun的世界，一起看看大神是如何練成的吧？

Yann LeCun ——大牛到底有多牛?

YannLeCun是紐約大學終身教授，現任Facebook人工智慧實驗室負責人。他出生在法國，曾在多倫多大學跟隨深度學習鼻祖GeoffreyHinton進行博士後研究。在加盟Facebook之前，LeCun在貝爾實驗室工作了超過20年。

早在20世紀80年代末，Yann LeCun就作為貝爾實驗室的研究員提出了卷積網路技術，並展示如何使用它來大幅度提高手寫識別能力。

上世紀末本世紀初，當神經網路失寵時Yann LeCun是少數幾名一直堅持的科學家之一。現在，Yann LeCun引領著全球深度學習的發展，為了表彰他在深度學習領域裡的成就，2014年，IEEE計算機學會給他頒發了著名的「神經網路先鋒獎」（Neural Network Pioneer Award），後又分別在2015年和2016年將IEEE PAMI 傑出研究獎、Lovie 終身成就獎包攬。

Facebook為人工智慧做了什麼？

在距離Facebook門洛帕克總部近3000英里之外的曼哈頓中心，有一座古老的米色辦公樓，那裡有這樣一批員工正在研究著更像是出現在科幻小說中，而不是適用於社交網路的項目。

這個團隊是Facebook人工智慧（AI）研究團隊——「FAIR（Facebook Artificial IntelligenceResearch）」。該團隊專註於一個目標：創造與人類具有同等智商的計算機。儘管實現這一目標還有很遠的距離，但該團隊目前已經取得一些進展。

他們的人工智慧程序現在可以繪製出跟人類藝術家的畫作幾乎沒有差別的畫，還能完成一些主題限定於維基百科範圍內的小測試，甚至會玩《星際爭霸》之類的視頻遊戲。慢慢地，它們變得越來越智能。終有一天，他們可以將Facebook從促進朋友間交流的平台，變成可能成為你的朋友的東西。

FAIR不是你想像中的典型Facebook團隊，他們的終極目標可能需要幾十年的時間才能實現，也可能永遠都無法實現。該團隊的領頭人也不是你想像中的矽谷成功人士，而是一位曾經在人生中經歷過真正失敗後又成功回歸的56歲學者Yann LeCun。他關於人工智慧的理論曾被棄如敝履，而現在被認為屬於世界級水平。Facebook頒發給他的獎金就是最有力的證明。

LeCun在談到人工智慧可能意味著什麼時說道，「您與數字世界、手機、計算機的互動將會發生根本性的變化。」

FAIR正在提高計算機獨立看、聽以及溝通的能力，他們的發現正在滲透到Facebook的各個產品中，涉及從News Feed排序，到相機和照片濾鏡等所有內容。

此外，Facebook對人工智慧進行大規模投資，不僅僅是因為人工智慧是有趣的，而是因為它是必不可少的。在如今科技界的各個角落，企業都是在人工智慧的基礎上進行競爭。

Uber的智能自動駕駛汽車是其業務戰略的核心；谷歌的基於人工智慧的Google Home智能音箱可以回答用戶口述的問題；亞馬遜也正在通過人工智慧收銀員建造便利店，企圖進軍市場規模6740億美元的食品雜貨市場。

而在Facebook，處處都有人工智慧的影子。例如，它的人工智慧驅動的照片濾鏡正在幫助它擊敗Snapchat的挑戰。Facebook的人工智慧能夠識別照片里的東西，還能決定向你推送哪些內容，這為公司提供了有趣的用戶體驗，增加用戶回購率。而且類似的技術還被用於監控騷擾、恐怖和色情內容，並將這些內容標記下來再進行清除。

Facebook的應用機器學習（AML）團隊負責人Joaquin Candela表示：「人們使用Facebook全系列產品的體驗主要取決於人工智慧技術，如今，如果沒有人工智慧，Facebook就不可能存在。」

LeCun和他的「LeNets」

其實，在加盟Facebook之前，LeCun在貝爾實驗室工作了超過20年，那裡是全世界最著名的計算機研究實驗室，誕生過許多偉大的產品。LeCun在貝爾實驗室工作期間開發了一套能夠識別手寫數字的系統，並把它命名為LeNet。

LeCun的LeNets深度學習網路可以被廣泛應用在全球的ATM機和銀行之中，它可以理解支票上寫的是什麼。但仍然存在很多質疑，LeCun說道，「不知何故，似乎現在還是無法說服計算機視覺領域圈子，他們仍然覺得卷積神經網路沒什麼價值。」其中部分原因，可能是因為這項技術雖然強大，但是沒有人可以理解它為什麼如此強大，而且這項技術的內部工作方式仍然是個謎。

卷積神經網路受到了很多人的質疑，Vladinmir Vapnik就是其中之一，他是一名數學家，也是目前應用最廣的人工智慧模式之一的支持向量機之父。

1995年3月的一個下午，Vapnik和Larry Jackel（把LeCun招進貝爾實驗室的人）打了一個賭。Jackel認為到2000年，我們能夠明確了解人工神經網路能夠發揮多大作用。Vapnik不同意這個觀點，他認為就算到2005年，也沒有人能夠理解如何使用神經網路，與1995年的狀況相差無幾。他們的賭注是一頓奢華的晚餐，雙方在證人面前簽字畫押，而LeCun則是第三方簽名人，Bottou是非官方見證人。

Vapnik贏了一半，2000年，神經網路的內部工作原理基本上仍然被神秘所籠罩，甚至到現在也沒什麼改觀，研究人員無法精確地判斷出如何讓神經網路更好地應用在現實生活之中。但是Jackel也贏了一半，對於LeCun來說這一半勝利更為重要。在2005年，深度神經網路仍然應用在銀行和ATM機上，這完全得益於LeCun在上世紀80年代中後期和90年代初的工作成就。

人工智慧之視覺

LeCun從小就相信可以讓計算機擁有視覺。如今，面部識別和圖像檢測已經變得十分尋常，但是當20世紀80年代初，LeCun在巴黎上大學時，計算機實際上是瞎子，無法識別圖像中的東西，更不知道攝像機鏡頭裡有什麼。在大學期間，LeCun偶然發現了自60年代以來幾乎沒有人探索過的人工智慧的一種途徑。他認為，他的研究可以讓機器學會完成多種任務，包括感知。

這種途徑就叫做「人工神經網路」，它採用小型感測器互聯形成的系統把圖像等內容分解成非常細小的部分，然後識別出其中的模式，最後根據所有的輸入數據確定它們看到了什麼。在閱讀了反對神經網路的論據（即難以訓練，性能不夠強大）後，LeCun決定推動這項研究，儘管遇到了質疑，但他還是在攻讀博士學位期間專註研究人工神經網路。

人工智慧領域的艱難時期出現頻率和強度都很大，這樣的時期有一個專屬稱呼：「人工智慧寒冬」。這些時期主要出現在研究人員取得的成果無法達到最初設想之時，這讓人覺得該技術不可行，進而導致人們對人工智慧的投資和興趣枯竭，技術進步趨於停滯。

本世紀初，LeCun研究的神經網路也遭遇了「人工智慧寒冬」。其他學者甚至不允許他在學術會議上提交論文。神經網路先驅、谷歌的工程專家、多倫多大學教授Geoff Hinton表示：「計算機視覺圈子把他拒之門外。外界的看法是，他在從事在上世紀80年代看起來很有前景的研究，但現在他應該放棄這方面的研究。」

他繼續補充道，「現在沒有人再這麼認為了。」

當時，其他神經網路研究人員也遇到了類似問題。蒙特利爾大學教授、蒙特利爾學習演算法研究所所長Yoshua Bengio發現很難找到願意與他合作的研究生。他表示，「我不得不強迫學生從事這方面的研究，因為他們害怕在博士畢業後找不到工作。」

2003年，LeCun為自己的回歸奠定了基礎。那年，他成為紐約大學教授，並與Hinton和Bengio結成非正式的聯盟，共同合作研究神經網路。LeCun笑著稱：「我們開始了我一直說的『深度學習陰謀（Deep LearningConspiracy）』。」

「深度學習陰謀」在神經網路研究領域發揮了至關重要的作用。主要是因為他們堅持認為，不需要為每一類檢測對象開發專門的神經網路，可以使用同樣的模板開發一個神經網路，就可以檢測圖像、視頻和語音。因此，你不必為識別企鵝和貓分別開發一個神經網路，你可以建立一個能夠檢測兩者並能識別其差異的神經網路。這種新的神經網路也可以被修改用於其他任務，例如檢測聲波，識別語音模式等。

「深度學習陰謀」的研究受益於兩個重要的外因驅動：一是計算機性能大幅度提升，有助於神經網路的運行速度足夠實用。二是由於互聯網的普及，可用數據（圖片、文字等）實現了指數級增長，讓神經網路得到足夠的訓練，變得更加智能。

得益於LeCun及其同盟打下的基礎，計算機視覺在本世紀10年代初實現了爆炸式增長。計算機開始學會識別圖像內容，隨後又能識別視頻中的物體，最後能夠識別相機拍攝的實時畫面中的物體。現在，你可以把相機指向籃球，人工智慧可以知道攝像頭前方有什麼。

自此，LeCun迅速從人工智慧領域的邊緣人物變為行業領導者。他說，「一年之內，原來無人問津的領域受到了所有人的青睞。這真是瘋了，完全是瘋了。」

2013年12月，LeCun加入Facebook，這對於有意將人工智慧研究應用於圖像識別的科研人員來說是一個理想的環境。因為Facebook平台上有數十億張圖像，這給LeCun及其團隊提供了用於踐行新想法的豐富資源。FAIR團隊經常與AML團隊合作，在Facebook平台上將研究成果付諸實踐。

這兩個團隊構建了新的系統，使Facebook公司可以受益於技術的進步。AML團隊使用FAIR團隊的研究成果來識別用戶News Feed中的內容，或將Facebook中的內容翻譯成其他語言；他們還將其部署在Facebook相機中，讓相機根據用戶動作生成各種特效。

【FAIR推出的計算機視覺工具SharpMark】

人工智慧之思維

計算機的視覺能力是教會它們理解世界如何運作的基礎。人類了解世界如何運作，是因為我們反覆觀察相同的場景，進而了解這些場景將會如何展開。例如，當一輛汽車在道路上超速行駛，我們預計這輛汽車可能會撞上我們時就會緊急避讓。當天黑了，我們了解按一下電燈開關就會亮起來，所以我們這樣做了。

FAIR團隊正在嘗試使用類似的方法來教計算機像人類一樣來預測結果。LeCun解釋說，該團隊正在向人工智慧展示大量相關視頻，然後在某個點暫停視頻，並要求機器預測接下來會發生什麼。例如，如果你反覆向人工智慧系統展示水瓶在人的頭頂上倒過來的視頻，那麼它可能會預測這樣的動作會把人弄濕。

LeCun解釋說，「智能的本質在某種程度上是預測能力。如果你可以預測你的行為會造成什麼結果，那麼你就能夠做出計劃。你可以計劃一系列預計達到特定目標的行為。」

教會人工智慧預測能力是當前該領域面臨的最棘手的挑戰之一。主要是因為在許多情況下，多個預測結果在理論上都是正確的。

LeCun說，想像一下，在桌子上垂直地放上一支筆再放手。如果你問計算機，一秒鐘後這支筆將在何處，可以說沒有準確的回答。機器知道筆會掉下來，但它不能準確知道筆會掉在哪裡。所以，你需要告訴系統這個問題有多個正確的答案，事實上發生的結果只是多個可能中的一個。這就是在不確定性下學習預測可能遇到的問題。

幫助人工智慧理解並接受不確定性是人工智慧研究的一個分支——「無監督學習」，是機器學習的最前沿領域。當人工智慧觀察到足夠的知識後，它會知道世界如何運作並學會預測接下來會發生什麼，它可以開始像人類一樣思考，獲得一些常識。LeCun認為，這是使機器更加智能的關鍵。

LeCun及其研究團隊承認，人工智慧可能需要很多年才能完全掌握這種技能，但他們相信自己會實現這個目標。LeCun下屬的研究經理Larry Zitnick說：「一切都會實現的，但我會說這需要超過10年的時間。」

人工智慧之語音

去年12月，馬克·扎克伯格發布了一段關於「人工智慧管家」Jarvis（由扎克伯格自己編程打造）的視頻。Jarvis可以給他烤麵包，在識別出他父母的臉之後給他們開門，甚至還會教他的女兒說普通話。

【扎克伯格在使用智能管家Jarvis】

Jarvis看起來非常酷炫。但在LeCun看來，這沒什麼特別的。他說，「它主要是腳本化的，比較簡單，而且從某個角度看來，其智能程度很低。」

LeCun想要開發能夠真正聽懂你的話語的智能助手。他說，「它將能夠跟你進行對話，並且能夠實現提前做好的計劃，它們不會愚蠢到讓你煩惱。」

雖然毫無藍圖可依，但FAIR團隊正在研發構建部件。讓人工智慧對這個世界有初步的理解，並對其進行培訓來預測其中可能會發生的事情屬於其中的一個部件。利用神經網路教會它讀寫是另一個部件。對計算機來說，圖像是一組數字，但一個口語句子也可以用一組數字來表示，文本也可以。因此，像LeCun這樣的人可以使用神經網路架構來識別圖像中的對象、語音中的單詞或文本中的主題。

人工智慧仍然無法像理解圖像那樣理解文字，但LeCun已經看到未來的Jarvis會是什麼樣子。他理想的智能助手將具有常識判斷和與其他助手溝通的能力。例如，如果你想和朋友一起去演唱會，你可以告訴智能助手進行協調，它會根據你喜歡的音樂類型、日程安排和即將進行的演唱會向你提供切實可行的建議。

LeCun說：「機器必須考慮現實世界的情況。一個人不能同時在兩個地方，也不能在一定的時間內從紐約去到舊金山，需要考慮到出行成本。你必須知道很多事情才能組織好一個人的生活。」

Facebook目前正在嘗試一個名為「M」的簡單版本數字助手，由Messenger團隊運作並依賴FAIR團隊的一些研究成果。Facebook Messenger最近發布了「M suggestions」，讓M在其認為可以提供幫助的情況下進入對話。比如，當有人問「你在哪裡？」，M可以彈出對話，向你提供一個一鍵分享位置的按鈕。Facebook很可能會將該功能擴展到更高級的用途。

【FAIR團隊的SharpMark案例】

人工智慧之現實

炒作周期對人工智慧來說可能是危險的，而LeCun深知這一點。現在，我們似乎就處於這樣一個周期。2013年第一季度，只有6家公司在其財報電話會議上提到人工智慧。而據彭博社報道，2017年第一季度這一數字增長到了244個。

在討論人工智慧未來時，LeCun非常謹慎地表達了他的觀點，「人工智慧離我們想要實現的目標還很遠，還無法達到我們想要的效果」。事實上，正如LeCun警告的那樣，人工智慧還遠遠無法達到人類的智慧，或所謂的「通用人工智慧」。

不過，有時候LeCun也無法抑制自己的熱情。他對對抗性培訓感到尤為興奮，這是一種相對較新的人工智慧研究領域，可以幫助解決當前人工智慧領域面臨的預測和不確定性挑戰。

對抗性訓練讓兩個人工智慧系統相互對抗，試圖讓它們更了解現實世界。例如，在FAIR團隊的一個實驗中，研究人員讓一個人工智慧系統繪製圖片，試圖欺騙第二個人工智慧系統認為是人類繪製的。第一個人工智慧系統接著使用第二個人工智慧系統的反饋來學習將畫畫得更好。

在今年早些時候的一個會議上，LeCun展示了人工智慧更為先進的一面：第一個人工智慧試圖說服第二個人工智慧，它創建的一段視頻中幾幅畫面屬於第二個人工智慧已經看過的一個視頻中的一部分。LeCun表示，對抗性訓練「是機器學習領域過去10年或者20年來最好、最酷的想法。」

所以，LeCun將繼續研究對抗性訓練，再次把該領域推向新的巔峰。他早已從20年前那個無人問津的年輕研究員，成為了如今人人欽佩的人工智慧男神。

LeCun的貢獻

其實，LeCun的工作遠不止文中提及的神經網路。上世紀90年代末，他還開發了一套圖像壓縮系統，希望可以掃描文件，讓互聯網上的人都能閱讀。這項技術並沒有獲得成功，但是卻給一個年輕人帶來了啟發，他就是Larry Page。1998年，Page還是研究生的時候在斯坦福大學聽了LeCun的演講，最終成為了谷歌的聯合創始人。

LeCun還致力於機器人技術和人工智慧硬體。最近他在紐約大學創立了數字科學中心，並指導新一代人工智慧研究人員，其中就包括了最近被Twitter收購的圖像索引公司Madbits創始人Clement Fabaret。在LeCun的空閑時間，他還開發飛機模型。

扎克伯格當初力邀LeCun加盟一點都不奇怪，因為他希望讓公司掌握的海量數據發揮更大價值。Facebook公司進來一直在忙於收購，比如虛擬現實公司Oculus，太陽能無人飛行器製造公司Ascenta，還有WhatsApp。這些產品必將受益於LeCun的人工智慧技術。

大神的世界精彩無比，而人工智慧也總是為我們演繹不同的驚喜，未來的LeCun又將為我們續寫怎樣的傳奇，安在與您共同期待！