李飛飛加入谷歌后首次中國演講:我的選擇與機器認知進化

來源:GIF "17

【新智元導讀】昨天在極客公園 2017 創新大會(GIF 2017)上,加入谷歌雲的斯坦福大學人工智慧實驗室主任李飛飛首次面對媒體,公開自己進入產業界的原因——讓人工智慧造福更多的人。李飛飛強調她仍然保留斯坦福的教職和團隊。本文附李飛飛在會上的演講《機器如何看世界》全文。李飛飛在演講中介紹了她的最新工作——CLEVR,測試機器Language Vision在語義和推理方面的基準。

【人物簡介】李飛飛是斯坦福大學計算機系終身教授,斯坦福人工智慧實驗室和斯坦福視覺實驗室主任。使用神經網路模型等機器學習演算法,李飛飛帶領團隊創造了能夠自動生成圖說的軟體,創建了全球最大的圖像識別資料庫 ImageNet,每年一度的 ImageNet 競賽都牽動著整個業界的心弦。李飛飛關於神經網路和計算機視覺的研究大幅推動了人工智慧發展,可能為我們帶來更直觀的圖像搜索應用,以及能夠在不熟悉的情況下做出決策的自主機器人。

去年 11月,谷歌雲主管 Diane Greene 宣布穀歌雲成立新的小組,並發布了新的產品路線圖。其中,斯坦福大學AI實驗室的主任李飛飛加盟谷歌雲的消息在業內引起轟動。

昨天,GIF 2017 大會上, 在被問到為什麼選擇加入谷歌,從學術研究圈進入業界時,李飛飛說:

「首先我想借這個平台澄清一件事情,就是我從今年1月3號開始在Google雲擔任首席科學家,同時我也保持了斯坦福大學計算機系教授的職位,我的博士生、博士後也還在。(我)並沒有離開斯坦福。我希望看到越來越多的一種趨勢,就是產業界和學術界有比較密切的結合。你問到為什麼我會選擇加入Google,我想人工智慧帶來的一場革命已經沒有懸念,雖然才剛剛開始。所以,作為一個人工智慧的科技者,我特別的重視人工智慧的普世價值,因為它不是一個只應該給少數的有資源的人帶來好處的事情,它是整個人類科技進步的推動力。那麼在這個大前提下,經過一段時間的思考和面對的選擇,我覺得沒有比雲平台更大的平台能夠實現人工智慧的普世價值,因為我們各個業界,從金融到健康醫療,到電商、交通、製造業、農業,各個行業在大數據、人工智慧的推動下,它都需要雲平台。這是最能實現人工智慧的普世價值的平台,所以讓我做出了這個選擇。」

在被問到對AI發展趨勢的看法時,李飛飛說:「AI 將繼續地發展進步這是沒有懸念的,AI作為一個新興的領域,給我們帶來了很多的期待、很多的機會,也有很多的不確定性。有人說AI是不是有泡沫,我認為是有些泡沫的,有一部分泡沫是會破滅,但是泡沫之後這個行業絕對會給我們整個人類的生活帶來一些顛覆性的影響,這一點我是確信的。」

以下是新智元記者現場整理的李飛飛教授昨天在 GIF 2017 大會的演講:

機器如何看世界

我今天帶來的,是比較學術的演講。我想跟大家分享一下,站在我自己的實驗室工作的角度,人工智慧過去的發展的路徑,和我們最近在做的一些工作。

人工智慧到今天,已經帶來了一場革命的開始,不管是天上、地下、雲上、手機上,我們都會看到它給我們帶來的一些興奮的可能性。

其實,「智能」,「intelligence」這個問題,從人類文明的最初期,有了人,就有了這個問題。「我是誰?」,「什麼是智能?」。不知道大家是否認識這位法國的哲學家笛卡爾,他在17世紀就提出了「我思故我在」。其實在那個時候,包括在那之前,哲學家們就已經思考什麼叫「thinking」,什麼叫「existence」,什麼叫「being」。

人工智慧沒有那麼長的時間,人類的歷史有上千年,但人工智慧只有大概 60 年的歷史。人工智慧的早期,一個奠基性的人物是艾倫·圖靈,大家都知道圖靈是個數學家。大概在五六十年前,圖靈開始思考怎麼去創造一個 Thinking Machine。他說:「要建造一個智能的機器的話,可能最好的方法就是,把最好的感官來提供給它,讓它能夠學會並且使用人類的語言。」

圖靈認為一個「有智能的」Machine,它需要兩個特別重要的元素:

一是「感知」(sensing)。我們知道人最大的感知系統是視覺,人還有其他的感知系統,機器也可以有其它的感知系統,但視覺是一個最大的感知系統。

第二是對含義的理解和推斷。語言是人類最特別的一個能力,大多數人都會同意,動物是沒有這樣的能力的。

所以,圖靈他遠遠沒有建立起人工智慧這個領域。但是,他帶來了最起初的一些重要的思想元素:我們要做一個會思考的機器,裡面需要包括:視覺、語言。

圖靈之後,有這麼一位科學家,他是計算機界的一位泰斗,是跟馬文·明斯基在 MIT 第一批讀人工智慧的博士生,後來他到斯坦福做教授,他的名字叫 Terry Winograd。

Terry 是人工智慧界第一代把圖靈的思想貫穿下去的人。他也是在世的最偉大的計算機科學家之一,他不光在人工智慧領域做了最重要的工作,而且他後來轉行去做人機交互,也把這個領域重新帶動了起來。

Terry 和李飛飛,二人都是斯坦福教授,並且是鄰居

Terry 帶來了什麼?Terry 把人工智慧應用在了怎麼去建造一個思考的機器上。他說一個人,或者一個機器,要去理解世界,需要去感知。感知以後,需要做的第一件事是對這個世界的結構進行理解。

這叫 Syntax Understanding。Syntax 在自然語言處理領域叫語法,在計算機視覺這個領域可能叫三維結構。Terry 說,Syntax 以後,我們需要理解 Semantics(語義)。Semantis 做的事情就是 Understanding Meaning(了解含義),語言有語言的含義,視覺有物體、有動作,有視覺的含義。

最後,當我們把 Syntax 和 Semantics 解決以後,智能的機器或者是人,主要解決的問題就是 Inference,Inference 就是統計推導、統計推理這個過程。

所以在 Terry 看來 ,要實現人工智慧,需要有這 3 個要素:Syntax、Semantics、Inference。

有了這樣的思想框架做引導,Terry 寫了一篇在人工智慧歷史上非常重要的博士畢業論文。這個論文給了我們一個 System,我不知道在座有沒有同行們聽說過這個 SHRDLU,它是一個像積木一樣的世界,用積木搭建了一個世界,在這個世界裡,讓我們來完成 Syntax(語法)、Semantics(語義)、Inference(推導)這樣的 loop(循環)。所以比如說在 SHADLU 這個系統裡邊,人可以指令 SHADLU 這個系統,讓它拿起一個 red block,這個計算機系統就會把這個紅色的 block 上面的綠色的 block 先移走,然後把這個紅色的 block 拿起來。這個系統就不斷地這樣接受人的指令,然後完成任務。這個過程必須先把指令的語法理解了,然後再把它的語義理解了,然後來進行 inference。

這篇論文是 70 年代初寫的,從 70 年代初一直到 80 年代末 90 年代,其實,人工智慧貌似沒有太多的發展。為什麼呢?如果 70 年代就有一個計算機系統,可以理解人的指令,為什麼我們到 2016 年才關注到人工智慧?2016 年,亞馬遜的 Echo 和 Alexa,也好像做的事情跟這個 SHADLU 的系統區別不大。

為什麼 60 年代、70 年代、80 年代的人工智慧, 沒有我們預期的做得那麼好,問題出在它的 learning 的過程。

在機器學習這個領域崛起之前,人工智慧的系統都是 hand-design rules。這張幻燈片不是想讓你看這個 rule 是什麼,而是想說這個 rule 有多複雜,而且都完全是用手工,用科學家的聰明的腦袋想出來的 rule。

這些 rule,會有什麼樣的問題?其實 Terry 這樣絕頂聰明的人,他能建立這個系統,這個 rule 肯定已經是包羅萬象了,但是這些 rule 還是有 3 個比較大的致命問題:

Scalability(可擴展性)。你不可能把天下所有的 rule,都寫進一個程序。

Adaptability(可適應性)。當你給系統設計這個 rule 的時候,你很難把它轉換到另外一個 rule。比如說,英文的語法、語義,我可以設計很多 rule。可是,我要把它放進中文,它的語法就完全不一樣了,我就得重新設計一套 rule。

它是一個 Closed word。

所以說,Hand-design Rules 在 AI 這個領域發展的早期,給我們帶來了一些曙光,但是它並沒有把我們帶進真正的光明。到了 80 年代開始,一個重要的子領域在人工智慧領域開始發展,就是機器學習。

機器學習是什麼呢?機器學習和傳統的 programing 最大的區別,我在這裡給大家畫出來了。你可以想像,傳統的編程,是用人去設計這個程序,然後在把 input 給它,讓機器去做 inference,這就像 Terry 他們做的事情一樣。

但是,機器學習不一樣,機器學習是把 human programing 這一層給省掉了,放進了一個學習演算法,它可以直接把數據放進學習演算法,讓這個學習演算法去學習一個程序,這個程序可以 take input,然後 infer output。所以這是機器學習和傳統編程最大的、本質上思路上的差別。

在機器學習的發展過程中出現了很多的演算法種類,我今天沒法詳盡地跟大家一一介紹。但最近一個特別重要的演算法,就是所謂的 deep learning。 從 80 年代開始,它叫神經網路。神經網路有很長的歷史,50 年代 Rosenbatt 就提出了 perception 這個概念,這個概念就是把這些細胞怎麼連接起來,然後一層一層地輸入數據,然後輸出結果(take layers of input and make output)。

到了 60 年代初,一個重要的神經生物學的發現,又推動了這個思路,這就是 Huble 和 Wiesel,在通過對貓的腦子做實驗的時候發現,哺乳動物視覺的感知實際就有這種神經網路的概念,它是一層一層的細胞不斷的推進,從簡單的層面到複雜的層面。

到了 1980 年,70 年代末,一個重要的日本計算機科學家,叫 Fukushima,做出了第一個 Neocognitron 的神經網路,可以識別數字和字母。

到了 90 年代末,通過 Geoffrey Hinton、Yan LeCun 進一步的把學習的 rules 更優化了以後,就出現了今天大家比較熟悉的卷積神經網路。

最近,給我們帶來最大的一次神經網路,或者叫深度學習衝擊的 work,是 2012 年 Alex Krizhevsky 和他的導師 Geoffrey Hinton 一塊寫的 AlexNet。其實 AlexNet 和 1998 年的 Convolutional Neural Networks 區別不大。但是,為什麼在 2012 年這個大致的歷史時期,深度學習和神經網路發生了一次井噴式的成長和革命呢?是因為 3 個重要的因素:

這些演算法的不斷優化和成長。

互聯網給我們帶來的海量數據,這也是我和我的學生們在 9 年前做的一項工作 ,ImageNet。

硬體的發展。

所以很多人就說,Deep Learning 的三個 Ingredients : Algorithm(演算法)Data(數據)和 Computation(運算)。它給我們帶來了一次革命性的飛躍。

有了這個深度學習和機器學習的崛起,我們其實可以重新回到 Turing 和 Terry 給我們搭建的 AI 大的思路和框架里,重新解決一些在沒有機器學習時完全解決不了的問題。

比如說,計算機視覺裡面 Syntax 這個問題,這個問題實際上就是三維場景的結構,視覺世界的結構。這個問題在過去的二三十年有了長足的發展,用了很多機器學習的方法。今天,為什麼無人車可以開始產業化,在演算法方面很大的原因要感謝 3D 視覺這幾十年來的成就。這是其中一部分。

第二部分,我們說 Semantics 這個問題,在計算機視覺裡面它是物體分類、場景分類、物體切割這些。這個領域,也是在這幾年有蓬勃的發展,我們 ImageNet 團隊一直在主持一個國際上的競賽。從 2010 年開始,一直到 2015 年、2016 年,機器的進步,已經基本上達到了,甚至有時候超越了人的水平。

你現在看到的這幅圖是機器的錯誤率,2010 年第一界 ImageNet 的時候,錯誤率還在 28% 左右。到了 2015 年,這個錯誤率已經到了 3.6%,人也差不多就是這個水平。所以,這是一個非常長足的進步。

剛才我給大家分享的是兩個單獨的元素:Syntax 和 Semantics。其實,就像 Terry 提出的一樣,要真正做好 AI,要把這些元素全部結合起來。我們一步一步來看,下一步要結合的是 Syntax 和 Semantics,在計算機視覺裡面它就是場景結構和語義,或者物體含義,一塊的融合。

這項工作,也有不少人做,前段時間斯坦福的另外一位計算機視覺教授 Silvio Savarese 做了項比較重要的工作,就是把這個 3D 的建模和物體場景的識別結合起來了。

我們再往下推進一步,可以看出,我們現在在盡量完善這個圖片。我們現在把 Language 加進來,結合 Vision,這是圖靈給我們提出來的機器的智能終極目標之一。

所以,Language 和 Vision,是最近人工智慧界非常關注的點。

下面這個工作,主要結合的是 Syntax 和 Inference,它 skip 了 Semantics,這是我的實驗室最近和 Facebook 的一次合作。我們聯合推出了一個視覺問題的 Benchmark(基準),它的意義是什麼呢?我們跟 ImageNet 比較一下,ImageNet 主要在測試機器對 Semantics 的認知能力,就是物體分類。

這項工作,我們把它取名叫 CLEVR,它測試的是機器對 Language Vision 在 Syntax 和 Inference 方面能達到多好,它跟 ImageNet 基本上是反的。

具體是怎麼做呢?具體我們用了一個圖像引擎,去模仿很多很多的場景,又回到了更像積木一樣的世界。在這些場景裡面,我們又自動生成了很多問題。比如說,「這張圖裡有沒有和半球一樣大的積木?」這些問題是在挑戰這個計算機系統對場景結構的理解,這個結構裡面包括物體的大小,或者物體的材料,包括數字計算,也包括比較的能力,也包括空間關係,最後包括邏輯運算。所以,這在測試計算機好幾層的能力。

這個資料庫,組成了很多很多不同的場景,提出了很多不同的問題。然後,我們就可以通過用最好的深度學習模型來測試計算機做得怎麼樣。其中最好的,比如用 CNN 和 LSTM, 沒有聽過也沒有關係,這是一種深度學習的模型。然後我們就會發現,計算機現在遠遠達不到人類的水平,比如數數能力,或者現在對材料的分析還不夠好。而且,我們也遠遠達不到比較的能力,人是很容易比較出一個東西比另外一個東西大,計算機現在還遠遠沒有達到。

這項工作還告訴我們,在 Syntaxt 和 Inference 方面,人工智慧其實還任重道遠,CLEVR 這個 Benchmark,就給我們指出了一些比較明確的方向。

最後一點,我們怎麼把 language vision、Syntax 和 Semantics 一塊融合進來?這是最近我們做的一系列關於看圖說話的工作。看圖說話就是,一個圖片進來,我希望這個計算機講出一個故事,比如一句話「兩個男人在玩飛盤」。這個模型,我們是用了一個圖片的模型,再加上一個語言的模型。圖片的模型用的是卷積神經網路,語言的模型用的是一個 LSTM。

剛開始,這個計算機在還沒有足夠學習能力的時候,給出的語句是非常傻的,慢慢的它就開始學習這個圖片的內容了。到了最後,它可以說出其中的內容。最近我們把這個工作推進了,看圖說話不光可以說一句話,還可以說很多句話,因為每一幅圖裡面有很多很多的信息。我們可以讓計算機說出很多有關這幅圖的句子。

看圖說話它還可以說一段話。這是一個還沒有被發表的最新的工作,就是我們實驗室的兩個學生做的,它可以給計算機看一幅圖,然後說出一整段跟這個場景有關的話。

在我結束之前,跟大家分享一下,我們認為下一步計算機視覺和人工智慧,包括自然語言處理,還要往下怎麼走。

Terry 和 Turing 給我們指出了這個結合 Syntaxt,Inference 和 Semantics 的路徑,我們遠遠還沒有完成這個願景。比如說這幅圖,現在計算機視覺可以告訴我們,這個圖裡有一些人,甚至這幅圖的三維結構是什麼,或者給我們一句話或者給我們幾句話、N 句話,就像剛才我們看的。

但是,我們人看到的遠遠不止這些,我們人看到的是一個非常有意思的故事,我們知道這裡面的人是誰,我們知道他們的關係是什麼,我們知道他們的情緒是什麼,我們知道這幅圖的幽默點在哪裡。它可以給我們帶來很多很多信息,這是計算機現在遠遠沒有達到的。

謝謝!(完)


推薦閱讀:

演講稿——讓青春輕舞飛揚
演講技巧
韓雪TED演講《積極的悲觀者》影響之大,她為什麼這麼說?
跟著女王學英語,聽說讀寫全搞定之二
[轉載]駁議:格西索南在色須寺大祈願法會上的演講

TAG:中國 | 認知 | 進化 | 選擇 | 演講 | 機器 | 谷歌 |