當人工智慧學會「讀唇術」，究竟意味著什麼

02-04

去年10月2日，西甲賽場，皇家馬德里在主場被實力一般的埃瓦爾逼平，比賽結束後，主場球迷噓聲四起，夾雜謾罵，這惹惱了步進球員通道的當家球星C羅，他被媒體拍到小聲嘟囔著什麼，就當C羅默認只有他自己知道在抱怨什麼的時候，《阿斯報》請來的唇語專家告訴大家，C羅在說：「Qué poca calma!」，大致可以解釋為：「能不能安靜點！」

這並非「讀唇術」首次揭穿名人的唇語。另一個更著名的案例是，早在當年英國查爾斯王子迎娶卡米拉時，唇讀者就成功破解了伊麗莎白二世與兒子的低語，也讓女王糟糕的婆媳關係浮現在大眾眼前。所以公眾人物大概並不喜歡那些唇語專家（何況他們許多時候充斥著臆測成分）——但令C羅們遺憾的是，當人工智慧在各領域漸次開放，在唇語識別上，機器也已經做的比人類好了。

從技術路徑上，唇語識別是一項集機器視覺與自然語言處理於一體的複合型技術：系統通過機器視覺從圖像中連續識別出人臉，提取口型的連續變化特徵，隨即將連續變化的特徵輸入到識別模型中，識別出講話人口型對應的發音，從而計算出可能性最大的表達語句。

人類費盡心力開發AI，當然不是為了滿足自身的窺私慾。事實上，讓機器習得「讀唇術」，在公共安全，軍事情報，身份識別和社會公益等領域，都藏匿著頗為重要的應用場景。

嗯，在人工智慧即將大範圍落地的前夜，國內從業者扎堆湧入的，大多為語音識別，圖像識別，人臉識別，機器翻譯，無人駕駛，虛擬助手和個性化內容推薦等領域，相較這些聚光燈之下的落地場景，唇語識別相對冷僻。但常識是：人工智慧未來將會出現一個數萬億美元的巨大市場，在面對具體乃至細碎的應用場景時，人工智慧的細分程度，勢必如百年前的電力那般觸角龐雜。而廣袤的嫁接空間也意味著，從真實應用場景出發，人工智慧領域會出現不少藍海市場，被國內巨頭忽視的唇語識別就是其中之一。

唇語識別在國外早有先例（譬如谷歌，後面會談到），但成熟的唇語識別系統需要建立在大量人臉特徵樣本的基礎上，鑒於人種的生物特徵以及語言特徵區別，不能完全照搬國外系統。據悉目前這一技術在國內的領跑者是長期深耕於公安，交通，航空和軍工等領域的海雲數據——他們訓練了超過1萬小時新聞類節目，用來判斷嘴型的準確度和語言的準確性。

那麼問題是：相較於大眾更熟悉的其他生物特徵識別，教會人工智慧「讀唇術」，究竟意味著什麼？

nnnn

機器「讀唇術」

事實上，與人類天生擁有超強的面部識別能力不同（「臉盲」甚至被當做一種病），人類體內並無任何「唇讀」基因，任何人都需要枯燥的後天訓練，且很大程度上取決於對語境和語言本身的瞭若指掌。而如今，機器可以比唇語專家更精確地識別這個無聲的世界。

如你所知，更便宜的計算，更好的演算法，以及更大的數據量，讓六十年來不斷幻滅又重燃希望的人工智慧時代近在咫尺。其中最關鍵的變數就是數據量的井噴（許多深度學習基本模型在上世紀八九十年代就已出現，但數據的稀缺令這種偉大的基礎框架偃旗息鼓），海量數據是「餵養」多層神經網路的飼料，也得以讓深度學習以一種非常精鍊的演算法模型解決了過去複雜的輸出模式。

唇語「語料」也一樣，為識別系統輸入海量優質數據顯得尤為重要。這裡必須提及谷歌的人工智慧公司DeepMind——要知道，去年在AlphaGo擊敗人類之後，DeepMind就把與人類的下一個競賽場切換至讀唇術上：他們與牛津大學的研究者使用總長超過5000小時（2010 年 1 月至 2015 年 12 月間的電視節目素材，如BBC 各類節目，總語句超過118000的新聞視頻）完成了對人工智慧的訓練，然後使用 2016 年 3 月至9 月間播出的節目進行測試——結果發現，給予相同的視頻素材，專業唇語識別專家能達到12.4%的正確率，而AI系統識別正確率則是46.8%，高出了大概3倍。

再看國內這邊，截至目前海雲數據訓練新聞類節目時長是1萬小時（為什麼是新聞類節目？當然是因為播音員的唇語最標準……）。據媒體報道，目前他們在英文方面可以達到80%的準確度，中文方面則是71%。當然，考慮到語音識別和人臉識別的準確率幾乎都達到95%以上，唇語識別真正投入實戰還尚需時日。

值得一提的是，中文自身的發音特性或許可以縮短唇語識別投入實戰的時間。拿普通話來說，一共有1270個發音，不考慮聲調差別，有近400個不同的發音，每個發音都有對應口型，中文發音較英文為少，一字一音，規律清晰，只要使用正確方法，中文唇語識別其實更易獲得高準確率。

事實上，唇語識別並非這家曾被比爾蓋茨造訪，行事卻頗為低調的數據運營商首次觸及AI領域，作為中國大數據可視化的領跑者，海雲數據去年就已經通過「圖易大腦」觸及到了AI領域——要知道，大數據與AI本就是「魚水之歡」，可視分析底層就是計算機視覺，而計算機視覺在AI領域應用之一就是唇語識別。將AI與可視分析進行強捆綁，未來通過成熟的產品為客戶提供服務，勢必成為這家公司變現的催化器。另一方面，海雲在可視分析領域長期的積澱，以及在公安等領域的數據積累和服務體驗，對於其研發唇語識別也提供了重要的助力。

nnnn

唇語識別可以用來幹什麼

相比於唇語識別的技術路徑，人們更關心，它將用於何處。

不妨先說回那位讓女王糟糕的婆媳關係浮出水面的讀唇人，她叫傑西卡·里斯，是英國知名的「讀唇女王」，自幼失聰的她卻對唇語頗為敏感，就像偵探電影經常上演的那樣，傑西卡的「奇異功能」被官方所看重，英國皇家檢察院曾僱傭她成為英國唯一的「官方讀唇證人」，試圖通過她去解讀警方用監控攝像機拍下來的嫌犯錄像，從而提供關鍵證據。只可惜，傑西卡卻在後來遭遇了信譽危機，英國專家對其讀唇能力測試之後，證明她的讀唇其實經常出錯。

而如前所述，在唇語識別上，機器已遠超人類——並向95%以上的精準度狂奔而去，這意味著，傑西卡沒能做到的事，人們完全可以更加放心地交給機器。這也正是海雲數據正在布局的。要知道，公安系統中視頻信息量頗為龐大，且在安全態勢和案情分析中發揮巨大作用，但它們很多都以「默片」方式存在（畢竟人物活動地點離攝像頭都有一定距離），只看得清嘴型，卻不知說些什麼。針對於此，海雲數據通過在人的嘴巴上部署諸多識別位點，通過位點判斷嘴型，判斷視頻中人所講出來的關鍵性內容，這無疑能巨大釋放視頻圖像裡面的信息——換句話說，在人工智慧的加持之下，海雲的可視分析系統能夠從聲音，圖象，視頻，空間和地理信息等多重緯度，進行綜合態勢的判斷，可以大幅度豐富其現有的公共安全大數據一站式解決方案。

除了公共安全，在「私人」安全上，唇語識別技術也大有可為。你知道，當萬物互聯時代即將來臨，身份識別的下一篇章勢必由指紋，人臉，虹膜等生物識別技術替代，從而將人們與機器的信任關係提升一個安全係數。最直接的例子當然是安防。如今在上述常見的生物認證之外，「唇語密碼」也可作為重要方式：識別系統從嘴唇圖像列序中提取形狀，質地和動作等特徵，通過訓練建立模型並確定臨界值，最終決定接受或拒絕密碼。畢竟，唇語擁有非常高的不可複製性（兩個人說同一句話，嘴唇動作特徵完全不一樣），且不同於指紋和人臉這些靜態生物特徵被盜取後無法重置，人們可以隨意改變唇語密碼。

除此之外，唇語識別在很多領域都可以帶來巨大福祉，誠如牛津大學研究員Yannis Assael所言：「我們相信AI唇讀是一種非常實用的輔助性技術，比如更智能的助聽器，不便出聲的公共場合，以及在嘈雜環境下精準的語音識別等。」

嗯，就拿海雲數據來說，當其可視分析能力配之以人工智慧，無疑會大幅提高在公共安全，軍事情報和殘障教育等領域的競爭力。舉例而言：通過唇語識別，讓無法開口說話的殘障人士「開口說話」；讓聽力障礙者和不少老年人更清晰地聽懂他人；而在軍事情報領域，唇語識別讓遠距離獲取情報成為可能。

可以預見，在未來，當古老的讀唇術被人工智慧發揮到極致，希望世界會變得更好。

李北辰/文（知名科技自媒體，致力於用文字優雅的文章，為您提供談資與見識；微信公號：李北辰）