認知智能的下一種可能

認知智能的下一種可能

來自專欄新智元8 人贊了文章

在認知智能領域,人工智慧技術如何才能取得進一步的突破?科大訊飛高級副總裁、研究院院長鬍國平在AI WORLD 2018世界人工智慧峰會上分享了關於認知智能最新進展及下一步方向的思考:若想在認知智能上走得更遠,不能只停留在文字層面,更需要關注的是語言之下智慧本質。

計算智能、感知智能和認知智能,是探索人工智慧道路上的三個台階。

在計算智能方面,機器早已遠遠超過人類。而在感知智能方面,機器也已達到可媲美人類的水平。科大訊飛在語音識別錯誤率上每年相對下降30%以上。在2018年CHiME-5國際多通道語音分離和識別大賽上,當面對大量雜訊干擾、語音交疊的更難語音識別任務時,科大訊飛再次獲得第一名。

基於語音識別、語音合成、語義理解、圖像識別等技術,深耕人工智慧19年的科大訊飛作為「中國智造」的影響力持續擴大。不僅首個認知智能國家重點實驗室已經在訊飛落戶,科大訊飛還在人工智慧+腦科學等諸多前瞻科研領域展開了探索。

9月20日,AI WORLD 2018世界人工智慧峰會重磅發布AI領域年度大獎——AI Era創新大獎,評選出2018年度對AI領域作出重大貢獻,切實推動AI進步和發展的人物、企業和產品。科大訊飛憑藉領先世界的智能語音技術成功登榜「中國AI領軍企業TOP10」,科大訊飛創始人、董事長劉慶峰也被評選為「華人AI人物TOP10」。

此外,本次峰會同時也頒發了「AI產品影響力TOP10」,訊飛翻譯機2.0成功入圍。目前,訊飛翻譯機2.0具備中文與33種語言即時互譯、離線翻譯、拍照翻譯、方言翻譯等功能,英文翻譯水準達到大學六級水平。

科大訊飛已經在感知智能以及認知智能領域中的自然語言處理技術上領先世界,科大訊飛高級副總裁、研究院院長鬍國平在AI WORLD 2018世界人工智慧峰會上說:「機器的自然語言理解能力已經超過人類的平均水平,這是認知智能的重大突破。」

然而當談到AI企業該如何徹底地邁上人工智慧的最高台階——認知智能時,胡國平表示:「在強調知識、推理能力的認知智能方面,機器與人類仍有差距。」自然語言處理技術的確是認知智能的重要技術基石,但即便是自然語言處理技術在特定領域已經超過人類,AI在認知智能層面依舊面臨艱巨挑戰。

「現在多數產業在認知智能上面的做法大多停留在純文字層面,然而語言只是人類智慧的載體和表層,如果只純粹在文字層面做認知智能,可能會有著極矮的天花板」,針對這一問題,胡國平在本次峰會上分享了認知智能下一步方向,「若想在認知智能路上走得更遠,需要關注的是語言之下智慧本質」。

下面是科大訊飛高級副總裁、研究院院長鬍國平在AI WORLD 2018世界人工智慧峰會上的演講。《認知智能最新進展及下一步思考》的主要內容:

胡國平:人工智慧現在大家都習慣把它分為三個台階,計算智能、感知智能和認知智能。計算智能方面,機器已經遠遠超過人類,而在感知智能方面,機器也可與人類媲美,而認知智能則強調知識、推理等相關的技能,能理解、會思考,這些方面機器與人之間依然存在差距。

全球首次通過國家執業醫師資格的機器人:自然語言理解能力強,分數趕超人類考生

關於感知智能,這裡有兩個例子。首先是語音識別,包括科大訊飛在內的很多公司都把語言識別做得非常厲害。在過去的六年里,科大訊飛語言識別每年錯誤率相對下降30%,換言之,語音識別率從2012年的85%左右一路飆升到現在的97-98%。

語音合成亦是如此,科大訊飛語音合成自然度現在已經超過一般自然人的說話水平,今年1月,語音合成技術已經在中央電視台《創新中國》紀錄片中正式上崗應用:將已故播音員李易老師的聲音合成之後再現熒屏。

而認知智能涉及到語義理解、知識表達、聯想推理、智能問答等問題,大部分技術專家都認為認知智能相比感知智能是更難的任務,而且是至關重要的任務。認知智能方面最典型的任務就是閱讀理解:目前機器的閱讀理解在精確匹配指標上已經超過人類的水平,機器的閱讀理解指標達到82.48,人類平均水平則是82.3,這也是認知智能重大的突破。

當機器具有閱讀能力後,科大訊飛訓練機器人閱讀醫學書籍,2017年,科大訊飛「智醫助理」機器人參加了國家臨床執業醫師綜合筆試測試,並以456的高分通過該考試,成為全球首台通過人類行業准入考試的人工智慧機器人。

此外,現在不僅認知智能國家重點實驗室已經在訊飛落戶,科大訊飛還在人工智慧+腦科學等諸多前瞻科研領域展開了探索。

如何在認知智能路上走得更遠?不能只停留在純文字方面,更要重視語言之下的智慧本質

人工智慧跟腦科學有非常多結合的地方,我下面要分享的內容則是關於認知智能下一步方向的思考。

先舉幾個例子,我們認為認知智能現在的做法屬於純文字層面,甚至是把文字當作符號的層面。我們看這些例子,例如父愛如山,我們知道父愛如山是指重的意思不是陡峭的意思。這裡就存在著一個我們認為很重要的概念——語言的Grounding的問題。

平頭哥——所有人知道雲棲大會上發布的平頭哥,如果你不了解這個辭彙肯定會去查,如果查到是這樣一段文字的描述,你可能無法真正形成對這樣一個辭彙的真實理解或者在大腦中的真實印象。於是你需要一張圖片,甚至可能會去看一下它跟毒蛇搏鬥的視頻,才能形成對平頭哥的概念、印象、知識。我們把這個叫作語言的Grounding,你必須要有這樣的能力才能理解這個世界。人類的智能是基於多模態的,不是純粹語言符號能夠閉環自洽的,我們認為語言只是人類智慧的載體和表層,如果只在文字元號層面做認知智能,可能會有著極矮的天花板。

再舉一個例子,蘋果大還是雞蛋大?你絕對不會去估算蘋果10公分的長度,雞蛋5公分的長度,蘋果比雞蛋大。而是在腦袋中蘋果有一個印象,雞蛋有一個印象,自然而然基於多模態甚至物理的印象就直接能夠判斷出來。我們認為語言只是智能的表層和載體,更多的智能在語言之下,這是對語言之下智慧本質的一些思考。

認知智能的挑戰:難以像人類做到基於物體與時空感知的序列記憶和預測

生活在城市中的烏鴉為了吃到堅果,懂得利用馬路上的汽車把堅果碾碎並在紅燈讓車停下來的時候,安全地吃到堅果,在這樣一個觀察和運用的過程中,烏鴉體現了自己的智慧,而這個過程中卻 沒有任何語言。我們認為語言之下智慧的本質還有一個通式,這個通式定義為對物體在三維空間加一維時間坐標下對序列的感知、記憶和預測的能力。在三維空間里,無論是人還是烏鴉,都在觀察的過程中掌握了物體移動或者變化的規律。

人類也是這樣的學習過程,在這個過程中實現了對物體、空間和時間的感知,並且把它們融合到一起,最終形成了智慧。

比如說一根火柴被點燃之後,也許沒有書上寫出這個火柴點燃之後是什麼樣,但是所有人都很清楚這根火柴點燃之後燃燒的形狀,因為在你的腦中已經有過對它的記憶。如果火柴點一張紙,紙會被點著,這是你在記憶上掌握的知識。人類在所有和環境互動的過程中其實都自然而然的產生了很多的記憶,這些記憶形成了智慧,我們在預測的時候使用了這些智慧,也就有了潛意識。

科技館有無源的自來水,懸空的水龍頭不停往下流水。孩子們一開始都會對這個現象感到很驚訝,因為他們在正常環境的訓練里已經認識到:水龍頭後面應該有根管子才對。這其實也是序列記憶和預測運用在人們實際生活中的例子。腦科學研究者認為,學習和記憶是大腦工作的基本機理。我們也認為,序列的記憶和相應的預測能力也是人類大腦工作很重要的模式。

未來展望:訓練AI機器多模態的建模和預測能力,從而獲取智慧本質的通式

我們有一個猜想:最複雜的人類大腦本身的智慧也存在大道至簡的通式,即多模態序列的記憶建模和預測的能力。這是有很大可能性的,雖然人類大腦中還有包括多巴胺、邏輯思考等更多的能力或功能,生活中很多的能力其實是靠多模態序列記憶和預測來實現知識積累和智慧應用的。

我們也在思考,如果讓我們的AI看了一億個視頻,視頻內容是車水馬龍的道路之後,它到底能不能預測下一秒的路面會是什麼情況?事實上,我並不清楚。這是驗證剛才所說的通式比較理想的任務。我們希望一個機器看了很多的視頻之後,能夠基於深度學習繼續不斷地預測下去。這類任務的好處是什麼?它一定程度上解決了有監督訓練數據的問題:在所有的序列預測任務里,答案一定程度上是現成的,基於之前時刻的路況去預測下一時刻的路面情況,其實它的標註答案絕大部分就在當前的畫面里。也許可以利用深度學習端到端的模式,加上一些抽象的能力,去實現這樣一個序列任務上的建模和預測。

在未來科大訊飛希望用更有效的方法去訓練機器的建模和預測能力,探尋智慧的本質,從而獲取智慧本質的通式。例如,讓機器擁有路況的預測能力,把攝像頭換成駕駛員視角的高拍儀或者行車記錄儀,也許我們在無人駕駛或者很多其它場合下的應用不止基於當前時刻的情況來做預測,而是基於一秒鐘甚至更長時段內的路況來預測,無人駕駛會因此變得更智能、更安全。

當「Thanks」這個詞出現在屏幕的時候,其實你的序列預測能夠判斷出來我的演講已經結束了、我會說謝謝;我會走下台階,在我的序列預測中,你們應該會鼓掌。

謝謝!


推薦閱讀:

TAG:人工智慧 | 科大訊飛 | 認知 |