谷歌人工智慧唇讀術完虐人類,僅憑5千小時電視節目!人類古老的技藝再次淪陷

編者註:人工智慧搶人類飯碗的趨勢越來越明顯了,最近,它又瞄準了一個新行業,而且一出手就比該行業專家們做的好。

主角還是 AI 大咖谷歌DeepMind,這次他們與英國牛津大學合作,通過機器學習大量的 BBC 節目,來學習一項全新的技能:唇讀術。可怕的是,人工智慧不僅學會了,而且讓唇讀專家們自愧不如。

唇讀是人類一項獨特的技藝,也是非常困難的一件事,它對於語言語境和知識理解的要求並不亞於視覺上的線索,然而 AI 又做到了。

AI 系統的學習對象是近 5000 小時的 BBC 各類節目,包括 Newsnight、BBC Breakfast、Question Time 等,所有視頻資料加起來約有 11.8 萬句話。

谷歌DeepMind 和牛津大學的聯合研究團隊使用了 2010 年 1 月至 2015 年 12 月間的電視節目素材對 AI 系統進行訓練,然後使用 2016 年 3 月- 9 月間播出的節目進行 AI 性能測試。

BBC節目資料庫。從左至右分別為:頻道、節目名稱、小時數、句數

通過觀察節目中說話者的唇形,AI 系統可以準確解讀出文字,比如下面這些比較「拗口」的句子:「我們知道也將有上百位記者會出席」(We know there will be hundreds of journalists here as well),以及「根據國家統計局的最新統計數據」(According to thelatest figures from the Office of National Statistics)。

DT 君試讀了以上英文語句,發現唇形變化其實並不明顯,而且電視節目中的語速是非常快的,難度可想而知。

BBC節目資料庫中無字幕原片

由谷歌DeepMind AI系統通過唇讀同步的字幕

AI能力再升級

測試結果的具體數據可能更能說明問題:在 2016 年 3 月-9 月的節目庫中隨機選取的 200 個說話場景唇讀對比測試中,人類專家的完全準確率為12.4%,而AI的完全準確率為46.8%

而且 AI 所犯錯誤中有很多其實無關緊要,比如在複數後面漏掉一個「s」之類。不過哪怕是這樣,AI 還是完虐了人類唇讀專家。

人工智慧業內專家稱,「這絕對是建構全自動唇讀系統的第一步!現有的各類龐大資料庫完全可以支持深度學習技術的發展。」

上方彩色圖片為BBC節目資料庫原始靜態圖片,下方黑白圖片為兩個不同的人說出「afternoon」(下午)這個單詞時的唇型

兩周前,牛津大學曾開發了一個類似的深度學習系統LipNet,這套系統當時就已93.4%對52.3%大比分擊敗了人類唇讀專家,但還不太說明問題,畢竟,LipNet和人類的競賽是基於GRID語料庫,這個資料庫只包含51個特殊辭彙

而DeepMind這次選取的BBC節目資料庫卻包含了驚人的17500個特殊辭彙,對人工智慧來說,這無疑是艱巨的挑戰。

GRID語料庫中的音視頻數據相對簡單得多

除此之外,BBC節目資料庫中包含了人類在正常說話時使用的各種語法,而GRID語料庫的33000個句子都採用相同表達,這使得句子很容易被預測,難度也相對低得多。

DeepMind和牛津大學的研究團隊將開放BBC節目資料庫供同行使用。來自LipNet的 Yannis Assael 表示將率先使用這一資料庫來訓練自己的唇讀AI系統。

把嘴唇排列起來

如果要通過 BBC 節目這一類的視頻資料庫來訓練自動唇讀系統,必須要讓機器預先學習每一個視頻片段。可問題是,節目中的視頻流與音頻流往往不是完全同步的,甚至會出現多達1秒左右的時間差。

簡單地說,這會讓機器徹底蒙圈,因為視頻里出現的唇形沒辦法和音頻完美貼合,機器就無法將某一特定唇形和其發音對號入座。這樣看來,AI 學習唇讀術好像是不可能的。

解決這一問題的方案是讓計算機先學會那些完全同步的音視頻流,掌握髮音與唇形間的關聯,然後自行推斷音視頻流中那些畫面是不同步的,再進行自動修正。DeepMind的 AI 系統自動處理的 5000 小時音視頻流就是採用的這種方法。如果完全使用人工來進行同步校準,工作量簡直大到不可想像。

DeepMind採用的「看、聽、嘗試、拼寫」架構。首先解碼出一個特徵yi及兩個向量,再通過向量去定位對應的輸入音頻視頻流序列

好了,問題來了,AI 唇讀本事這麼大,到底會被用來幹嘛?DT 君腦子裡首先出現的畫面就是:「天網」默默監視著全人類的談話,只要看看嘴型就知道你在說什麼……

雖然細思恐極,但專家說了,說到監聽這事兒,與其如此大動干戈,還不如超遠程監聽麥克風來得簡單直接效果好。所以,目前來看,沒什麼好害怕的。

相比之下,AI 唇讀技術更可能的應用方向是消費類電子設備,可以讓設備知道用戶想要說什麼,哪怕不發出聲音。「動動嘴皮子」這種事兒搞不好會成為未來人機交互的常態。

來自牛津大學 LipNet 研究團隊的Yannis Assael對此技術的評價是:「我們相信AI唇讀技術是一種非常實用的輔助性技術,比如更智能的助聽器、不便出聲的公共場合(Siri再也不用聽見你的聲音了),以及在嘈雜環境下精準的語音識別等。」


推薦閱讀:

TensorFlow 官方文檔譯者招募
保姆機器人被入侵變殺人機器?網路安全成共享經濟後的大風口!
如何評價udacity(優達學城)的人工智慧工程師課程(納米學位)?
機器學習原來這麼有趣!第三章:圖像識別【鳥or飛機】?深度學習與卷積神經網路
視覺計算-理論還是實踐?

TAG:谷歌Google | 人工智能 | 科技 |