【演講】微軟AI首席科學家鄧力:圖文並茂回顧十年AI路

今天的觀眾有相當多的投資人士以及技術人士,從業界來的。所以我向大家介紹兩禮拜前《財富》雜誌的一篇文章,講了深度學習一部分的歷史。趁此機會也向大家介紹這篇雜誌文章裡面給的深度學習的定義。從技術的角度從科學的角度來講,我想再補充一些材料,使得大家對深度學習跟人工智慧的看法有一些更深入的了解。

這是《財富》雜誌所講的定義。

這個定義基本是準確的。比如說定義人工智慧,它包括一大串的技術,包括邏輯推理技術,包括機器學習技術,在機器學習的技術又包括深度學習的技術,在這裡面主要的一塊是機器學習。機器學習所解決的問題,是要用數據跟統計的方法或者神經網路的方法來解決現實生活中的任務(tasks)。在機器學習裡面最重要的一塊是深度學習,它也包括一大串的技術加上應用。雖然在這個文章裡面只講語音應用和圖像應用,實際上還有一大串自然語言處理的應用。在這個演講裡面,我把這些新的應用和新的技術向大家介紹一下。

剛才《財富》雜誌的文章講的深度學習還是從商業的方面來講,大家能夠看得懂。要是看Wikipedia,它講的深度學習的定義比剛才的文章更深一點。我向大家介紹一下Wikipedia的定義。

深度學習有三個要點:第一,這是一般的定義,不單單是神經網路,它包括各種各樣的其它方法。它的精髓——好幾個不同層次的非線性變換。第二,因為有好多層次,就出來了一個非常重要的問題——怎麼樣來優化這個多層次的系統。在淺層學習的模型裡面,這個優化問題不是那麼嚴重,因為比較容易優化。可一旦有了深層之後,這個優化就成為一個非常難的問題。這也是其中很大的一個原因,導致深度神經網路在1980和1990年代沒能產生很大的影響。當時數據不夠,計算能力也不夠,而且當時演算法也不夠。差不多十年之前端到端的優化學習問題開始得到了解決——並不是說理論上得到解決,我只是說在實際演算法上得到了解決。

第三,這點更重要,尤其在語音識別和圖像識別之外的更重要的認知領域的應用。在這種更高層次的應用情況下,深度學習更重要的是,因為它有不同層次的表達,它就能夠把抽象的概念進行層次化的表徵。在我下面講的應用中我想特別是把第三個要點向大家描述得更深刻一點。頭兩個特性一般是大家在深度學習上看得比較清楚的,而且很多的文獻講得比較多。第三點的抽象性確實是深度學習的最重要的精華。

關於深度學習十年的歷史,我從《財富》雜誌的文章抽取了一張表。理論上開創性的工作,神經網路的研究,可以追溯到好幾十年前。我只講講近期的歷史。1990年代第二次人工智慧浪潮,主要也是由神經網路突破引起的,當時的突破只是在概念上的突破,神經網路的一些演算法成為非常主流的演算法,一直延伸到現在。但是應用上的大規模突破只是到最近Yoshua Bengio教授講的前五年之前才開始。

這是一篇非常重要的文章,多倫多大學差不多20年前發表的文章「wake sleep」演算法。

怎麼讓神經網路做非監督的學習?1990年代中,第二次神經網路熱潮往下降,一直做不起來。大家往深層次的模式來想,那時候這種方法也沒有成功,但對我有了非常大的啟發。當時我在加拿大任教做時程上的深層次的神經網路研究,在1994年寫了這篇文章。我當時做語音識別做了相當長的時間,一直比不上統計概率的模型。我跟研究生和同事寫的這篇文章,做了非常強的分析,跟Yoshua Bengio一篇文章有點類似,當然,隨著你的網路層次變得非常深,學習的困難就變得越來越大。當時用到語音識別上面沒成功。但給我們很大的啟發,關於到底要往哪個方向走。這是20年前的事情。在這之後,因為大家都認識到神經網路成功的機會不是很大,更重要的原因是當時統計的模型發展得非常快,另外還有機器學習的模型在那時候實際應用的效果遠遠超過神經網路,於是神經網路就慢慢像剛才Yoshua Bengio教授講的那樣削弱了。

之後不久我從大學來到微軟公司,當時我的一個團隊做了深層的動態的貝葉斯網路,相對比較容易解釋。但是有一大串的問題。十年前在深度貝葉斯網路問題現在已慢慢得到解決。深層次模型的最早的一個突破,還得歸功於Geoffrey Hinton的一篇文章《A Fast Learning Algorithm For Deep Belief Nets》。這篇文章確實成為深度學習的開始之一:現在大部分的深度學習模型是一層一層網路不斷從下往上,而這篇文章正好相反,不是往上,更注重從上到下生成數據,有點像「做夢」,你做夢的時候可以產生一些夢想。做的「夢」產生一些數據,你在醒的時候就可以把你所看到的東西抽象出來、總結出來,成為你感知的對象。經過反覆的上下反覆的過程,就可以產生一種非常巧妙的模型,而且對這種模型來說這篇文章介紹了非常巧妙的學習方法。

我當時看到這個方法就在想這和我的深貝葉斯語音識別模型會有什麼關係,能不能結合起來。因為沒看很懂,就請他到我們的西雅圖共事一段時間。2009年底搞了一個NIPS講習會,將深度學習各種不同的方法在語音識別上的應用總結一下,那時已經有初步的結果出來,但結果不是特別好。所有的深度學習在語音識別上面都是聚集在非常小的數量上面,大概100萬的數據量,非常局限。當時大規模的神經網路威力還沒顯示出來,這之後我們在微軟花了大概一年多的時間發明了一些很有效的方法,使得深度神經網路加上隱馬爾可夫模型,這三個不同的技術整合到一起就成為這組架構。這種神經網路同時跟其它的機器學習、人工智慧方法聯合在一起,很快就讓深度神經網路在工業界上面的語音識別產生巨大的影響。這有點像AlphaGo,大概有三種不同的方法聯合在一起,再次表明,能把不同的人工智慧和機器學習方法同深度學習方法整合到一起確實是非常重要的。

當時我們在學術界(我所在的微軟研究院,也算學術界、工業界的一個混合單位)合寫了一篇文章,三年多前發表的,成為深度學習在語音識別方面的經典工作。80%的內容和方法在這個文章當中寫到的,現在工業界還一直在用。文章講了深度神經網路對語音識別產生的影響,以及怎麼把不同的機器學習方法包括深度神經網路的方法整合起來,使得大規模的語音識別得到進展。

當我們微軟公司把深度學慣用到語音識別取得大規模成功的時候,微軟研究院創始人Rick Rashid 2012年在天津舉行的一次學術會議上當場演示實時語音翻譯技術,第一次向世界宣布深度神經網路是一個非常強大的技術。他用深度學習做語音識別演示,幾乎沒什麼錯誤,因為他非常配合,幫我們採集了非常多的speaker-dependent的數據。大規模的場合演示語音識別幾乎沒任何錯誤。另外,用機器翻譯的方法,把識別出的英文文字翻譯成中文,再用語音合成的方法產生中文語音。他用英文講,他的中文聲音就出來了,而且中文合成的聲音跟自己的聲色非常相像,當時產生很大的影響。

之後我們寫了很多論文,2010年到2012年寫了不少,識別自然語音的錯誤率在1993年是幾乎每個字都會錯掉。那時候,美國的DARPA(Defense Advanced Research Projects Agency,美國國防部先進研究項目局,主要致力於美國國防高新技術的研究、開發和應用)第一次做這方面的研究,那時數據沒採集那麼多,1993年之後,DARPA每次投資語音識別的研究,基本上1/4到1/3的資源都是用來採集有標註的數據,之後語音的大數據就有了。這也是為什麼深度學習在語音識別上是第一個成功的例子。

2012-2014年這兩年,微軟花了很多的精力,特別是我們的同事和位於北京的微軟亞洲研究院的同事合作,把Rick在天津用深度學習做的演示完全產品化,大家用Skype Translator就可以直接使用實時語音翻譯技術。之前有媒體朋友用唐詩來試我們的系統,結果很有意思,每個字都翻譯得很對,但是整個句子翻起來詩意就沒了。語音識別字對字是好的,但是它不能夠真正達到人的智慧,還沒到有詩意的那個程度。

下面再講一下最近兩年之內深度學習的進展。首先是語音識別的錯誤率繼續下降,最近幾年的進展更使得去年ImageNet圖像識別的錯誤率降到低於人類的水平,這是微軟亞洲研究院今年年初做的,還有看圖說話也有很大的進展。

最近一兩年的AlphaGo,文章是在2016年發表,工作大部分是在2015年做的,最後產生最大的影響是在AlphaGo今年3月份打敗世界圍棋冠軍,這裡面很大的一個因素就是把神經網路和增強學習結合起來生成Deep Reinforcement Learning,用來加速Monte Carlo tree search,三者結合得到非常顯著的成果。

人工智慧對話機器人也取得成果。以下內容也是我從《財富》雜誌文章中截取出來的。

現在很多公司都在發展客服機器人,而且還有很多其它的應用。這種應用在20年前大家都有了,我在大學當教授的時候就有很多類似的項目。AT&T當時幫助客戶怎麼付帳,那是唯一一個很成功的例子,其它的影響並不是很大。去年到今年差不多兩年之內,大家看到AlphaGo的成功,而且看到深度學習在語音識別和圖像識別上面的成功,都感覺到時間已經到了,這個重要的應用時代已經到了,我不想展開太多,大家看文章可以看到更多的例子。

還有一個很大的應用:深度學習。大家看這篇文章後就可以感覺到深度學習現在從原來感知上面的人工智慧,語音識別和圖像識別已經進入到真正商業應用的領域裡面。從研究的角度來講,自然語言處理就是在一年之內得到飛速的進展。我昨天早上剛從煙台「中國計算語言學大會」回來,機器翻譯已經完全採用深度學習的方法,它的性能、精確度大大超過20多年發展起來的基於統計的學習方法。IBM20年前第一次把統計學習的方法用到機器翻譯,當深度學習在語音識別成功之後,2011年、2012年深度學習就開始用到機器翻譯上面。深度學習在閱讀理解、問答等等應用上的複雜性要比其它那些應用到語音識別的深度學習方法大得多,主要因為模型不太一樣,有新的alignment問題。一直到去年大家開始看到深度學習發展出一些非常巧妙的方法,已經戰勝了傳統20年發展的方法,當然它的錯誤率的降低和語音識別比起來還是沒那麼顯著,但是它的歷史也就兩三年時間。現在整個機器翻譯的領域已經完全轉向深度學習,這個信息特別在中國自然語言處理方面比美國更顯著。

前兩天煙台的「中國計算語言學大會」有許多演講,每個題目都跟深度學習相關——深度學習跟機器翻譯、深度學習跟問答、深度學習跟語法分析、深度學習跟情感分析,等等。我對中國的人工智慧的希望是非常之大的。現在有哪些新的技術?有sequence到sequence的學習,有注意力模型,一個禮拜之前在《Nature》上面剛發表了DNC方法,做研究的話可以往這邊看。

未來展望,關於人工智慧應用,在四五天前美國白宮出了個報告,聽(俄勒岡大學)Thomas Dietterich教授講,他也參與了這個報告的一些寫作,美國白宮政府發出這個報告,跟中國推廣的人工智慧方向是相符的。深度學習作為一個非常大的標題列出來,這一點,今天早上跟Thomas Dietterich談了一下,他承認對於很多做傳統的人工智慧的專家來講確實是出乎意料的。

關於Automated Science,把所有的物理科學材料用機器看一遍能不能得出牛頓定律?像以前伽利略用望遠鏡看到星星的運動,經過科學的研究,總結出來一些星球運行的定理,牛頓根據這些材料總結出牛頓定理,能不能用人工智慧做出來?這是很多人想的問題。

從研究和技術方面來講,為了讓大家看到將來的趨向或者將來有影響的研究和技術,我們要先看現在的深度學習和AI的方法有些什麼樣的局限性?要把局限性看懂以後,你們就可以知道用什麼方法來克服它們。很大的一個局限性是,現在幾乎所有成功的方法都需要有非常大量的數據,這種數據一定要輸入輸出全部匹配好,不匹配好的話,沒有任何方法能夠做得非常成功。下面還有一大串的局限,比如黑箱(black box),很多研究在破這個黑箱,走出現有神經網路的框架,要能夠把以前大家所做的深度貝葉斯的方法加上一大串其它的方法整合到一起,就有望解決黑箱的問題。黑箱問題對我很重要,雖然有的研究人員覺得黑箱問題不是那麼重要。同樣重要的一點是,神經網路現在非常難把知識自動擴大,就像小孩長大,他的知識會一步步擴大,但現在的人工智慧對這個能力幾乎還沒往這方面想。我跟很多研究人員交流,關於怎麼才能把基於神經計算的深度學習跟符號邏輯連在一起,你把邏輯關係搞清楚就能解釋所有的東西。

下面用一張圖解釋最近的想法和工作,怎麼才能把邏輯推理、70年代的人工智慧跟現在的深度學習、自動學習能力非常強的神經網路結合到一起。現在這裡有兩個結構,下面一個是輸入句子的句法樹狀結構。上面的樹狀結構是語義結構。用人工智慧的傳統方法來做,要寫很多規則,但是要用神經網路方法來做的話就可以學習。用於統一兩者的一個方法是建立一個等價關係,圖狀結構可以進入到神經網路,學習完了之後反向回到新的圖狀結構,能夠把樹狀結構(或者圖狀結構)還原出來,這過程中的推理邏輯就可以自動等價與在神經網路上面實現。

謝謝大家!

怎麼樣,是不是乾貨滿滿而又深入淺出?如果還有更多問題想提問專家,歡迎大家踴躍留言,歡迎提出更多想看的好選題,一起打造愉快的學習平台。

你也許還想看:

芮勇博士演講丨人工智慧60年,未來趨勢怎麼看?

微軟首席研究員劉鐵岩:深度學習的推力與阻礙

微軟人工智慧計劃背後的華人力量

微軟研究院AI頭條期待你的評論與投稿。

微軟小冰進駐微軟研究院微信啦!快去主頁和她聊聊天吧。
推薦閱讀:

微生物頂級期刊:科學家首次證實腸道微生物「綁架」神經系統影響情緒!
宇宙的外面到底是什麼?科學家給出的答案將顛覆你的三觀!
科學家找到了讓人細胞返老還童的方法 - 今日頭條(TouTiao.com)
科學家的這些八卦,比娛樂圈刺激100倍
科學家發現細胞在結構上「返老還童」的關鍵機制

TAG:科學家 | 科學 | 演講 | 十年 | 微軟 | 首席科學家 | 回顧 |