如何評價近期搜狗推出的「唇語識別」系統?「唇語識別」有哪些應用場景?


謝邀。

所謂的唇語識別,其實並不神秘。

早在古代,就有專門的唇語師存在。通過長期的訓練,他們具備了「觀察別人的嘴型,解讀其表達語句」的能力。在現代社會裡,一些聽力障礙者們也會使用這種技巧與他人進行交談,補充聽力器官的不足。

人類可以用眼睛來直接觀察,而機器則要複雜了許多。對於機器來說,唇語識別是一項集機器視覺與自然語言處理於一體的技術。通過視覺技術從圖像中連續識別出人臉,並提取此用戶連續的口型變化特徵,再將這種連續變化的特徵輸入到唇語識別模型中,即可識別出該用戶口型所一一對應的發音,進而計算出其講話時的語句。

雖然各家公司都有不同的稱呼,比如lipreading(唇讀)、speechreading(視話),visualhearing(視覺來聽),hearingbyeye(用眼來聽)等等,但技術的實現理念方向並沒有大的差別。都是需要機器從畫面、聲音(有時沒有)、語義理解等多個維度展開研究,讓人們只需要「動動嘴皮子」,電子設備便能理解我們的意圖,完成一個又一個人機交互的操作指令。

聽起來,像是科幻電影中的未來故事。

如今,它們已成現實。

近期,我們正式推出了人機交互新技術「唇語識別」,為業內首次公開演示的唇語識別系統,並在技術積累和實際效果兩個方面,取得了業界領先的優勢地位。

我們的唇語識別技術,目前主要聚焦於中文輸入領域,支持10w+詞的非特定人大辭彙量唇語識別系統。基於數千小時真實唇語數據,我們首創了複雜端到端深度神經網路技術進行中文唇語序列建模,同時在強大的自然語言處理技術的指導下,最終取得了業界領先的唇語識別效果;

根據在非特定人開放口語測試集上的測試表現,我們已經取得了準確率超過60%以上的成績,並且在垂直場景如車載、智能家居的場景里,可以達到90%的準確率。而目前業內最好的唇語系統,是谷歌去年發布的英文唇語識別技術,支持17500詞,在新聞測試集上準確率在50%以上。

可以說,在技術積累與實際效果兩個方面,搜狗的中文唇語識別系統都已經取得了一定的優勢。這一點,在12月14日的媒體溝通現場,我們已經做出了充分的展示,相信大家也是有目共睹。

大家可以看下我們的演示視頻:

說了這麼多,「唇語識別」究竟有什麼用處呢?

來自牛津大學 LipNet 研究團隊的Yannis Assael對此技術的評價是:「我們相信AI唇讀技術是一種非常實用的輔助性技術,比如更智能的助聽器、不便出聲的公共場合(Siri再也不用聽見你的聲音了),以及在嘈雜環境下精準的語音識別等。」而根據我們的判斷,唇語識別技術目前主要在兩個方向展開普及,進行商業化的推廣,產生出持續性的應用價值。

第一是複雜場景下音視覺混合的輸入。根據我們的大數據顯示,單純拼寫的文字輸入已是一種過去式,語音識別的比重逐漸提高,正在成為當下主流的自然交互方式。但是,語音識別依舊有其局限性,無法排除一切客觀上的干擾性因素。比如說充滿噪音的戶外馬路、在會議室里有他人說話的人聲爭執、車載場景下的發動機或空調雜訊等等,都會大大減少語音識別的準確率,用戶體驗出現鮮明落差。而藉助于于唇語識別,可以更好的規避掉音頻雜訊對用戶說話內容獲取的影響,確保輸入的準確率,保證人機交互時的穩定性。

雙重檢驗就是雙保險。語音+唇語的雙重識別,從聲音和畫面兩個維度保證了輸入時的準確率。在我們的測試環節里,駕駛員開車時完全不用觸碰手機,分心分身的進行打字輸入。無論環境里是否有噪音干擾,都可以一邊駕駛車輛一邊完成各種操作,顯著提高了駕駛時的安全性和樂趣性。

第二是攝像頭環境下用戶講話信息獲取。根據我們的調研結果顯示,受限於成本和技術,現在國內很多監控場景都只有單一的攝像頭,並沒有麥克風。電梯、馬路、商場等等公共場景下的監控攝像頭,僅僅能做到基本的用戶人臉圖像採集,而無法獲取用戶講話內容。而無法獲取用戶的講話內容,則不利於公共安全的警戒與保護工作,無形之中造成了許多工作量的浪費。如果唇語識別技術得到了廣泛的應用,就可以在不大幅度增加硬體開支的前提下,實現用戶講話信息的採集,為公共安全的建設提供有效支持,最大程度上保障民眾的利益不受侵犯。

唇語識別,是對語音識別的一個完善和補充,能夠幫助拓展更大的覆蓋群體,達到更加理想的識別效果。而更加「懂你」的語音識別方式,正是人工智慧時代的人機交互入口。如何把實驗室中的唇語識別技術進行產業落地,對於整個人工智慧戰略發展而言,意義十分重大。

最後,感謝大家的閱讀和關注。搜狗對於唇語識別技術也正處於探索階段,如果大家能夠提出一些中肯的意見和建議,幫助攻城獅們開一開腦洞,我們也是非常歡迎的。

利益相關:搜狗語音團隊


搜狗唇語識別技術的水平還有待驗證,現在流露出來的資料還比較少,如果能識別出這些大神說的什麼我就服(′???`)


先說場景的問題

無論是在開會,還是在上課;

無論是在上班工作,還是在地鐵公交;

無論是在跑步運動,還是在擼點什麼;

甚至,你是像我這樣不會拼音打字的原始人,

總之用手不方便時,你都會希望,通過語音或者其它方式,可以快速地發出或回復消息

但是,

那些在公眾場所大聲說話發消息的,太二啦,太二啦,太二啦

那些總喜歡用語音回復微信,尤其一下發很多條的,逼我放喇叭或戴耳機,也很二,很二,很二

所以,唇語識別非常有用,上述場景就是其應用場景。

你只需要壓低聲音輕輕說就可以了,就像我們開會時,悄悄接電話那樣。

圖片來自 鈦媒體,侵刪

再說產品

應該這麼講,作為一個自己從來不用搜狗系列產品的人,如果體驗後發現不錯,一定會改用。

如鈦媒體的結論:

目前這一黑科技通用場景的準確識別率還比較低、泛化性不足,技術落地還需時間。

(未完,待續)


記得之前谷歌發布過一次類似的唇語識別,當時說是把人類唇語師給比下去了。後來仔細看了看新聞,原來是先用機器學習了好幾年的BBC新聞報道,才開始雙方的PK。

與柯潔大戰阿爾法狗不同,其實這種人類與機器的對決是沒有什麼價值的,畢竟現實里不可能讓某一方在實際應用時提供大量的預習時間。更何況,谷歌放出來的只是一個視頻而已,並不能證明什麼「人類又被機器打敗了」的說法。

但是,搜狗這一次的發布會,有點不一樣了。

簡單說的話,搜狗的唇語識別目前是一個聚焦於中文環境、有語義理解能力的整合系統,不同於單純的炫技炒作,而是從一開始就有很明確的技術應用方向。從應用角度來看,我估計它的主要體現的方向有三個。一個是與搜狗自家的語音識別相結合,達到音頻與畫面的同步,提高識別準確率和應用範圍。另一個就是公共安全領域的推廣,與監控攝像頭配合,節省人力物力。再一個就是移動支付領域,使用手機人臉識別+說話的方式實現遠程支付,可以保證其安全性。

我們都知道,AI時代,得用戶數據者就能得天下。依靠著搜狗輸入法大量的用戶語料,搜狗的唇語識別有充足的數據積累,能夠幫助其機器不斷學習優化。而且搜狗的唇語識別系統敢於放在公眾視野里演示,進行公開檢驗,這需要對自家產品技術有很大的信心才行。搜狗畢竟也是國內數得上名號的科技公司,想來不會輕易砸自己的招牌,玩些弄虛作假的把戲。

總之,我對搜狗的唇語識別系統還是很看好的,希望能趕緊推出專門的產品功能,來讓我也試驗一把~


去年穀歌推出的DeepMind「唇語識別」,號稱能力已經超越人類。時隔一年,沒後文了。所以搜狗說要來做這個項目,我一直是保持懷疑態度的。第一,資金問題。每一項科研成果的出現都需要大量的資金流支持,2017年上半年搜狗凈利潤只有2.5億。,資金情況不樂觀。第二是技術,搜狗在語音市場的確有自己的一片天地,但是唇語識別是一個面向全國人口的技術,十幾億人,那麼多種方言,那麼多種語言習慣。不是每個人都能做到央視主播那樣的標準。第三是變現能力,用過搜狗產品的人應該都有一個體會,就是廣告太多,一個科技公司主要靠廣告盈利,說明他還沒有一個正確的盈利方式。倘若BAT中有一家要深耕唇語識別這個市場,那麼搜狗就會陷入危機。


嗯嗯,的確是雷聲大雨點小。訊飛輸入法有一個方言輸入功能,但據我了解它的準確率的確不高。就單純的方言識別都沒有做到一個比較成熟的狀態。唇語識別難度比方言識別更高,未來堪憂。站在一個曾經使用過搜狗輸入法的用戶角度,還是希望搜狗能夠重視用戶體驗,多學習百度輸入法是如何做的,搜狗輸入法問題太多了,廣告太多、內存太大、兼容性差、易閃退、詞庫舊、還會泄露私人信息。必須要改進。


語音就如同冰山一般,人們看到的只是一小部分,水下才是它的真容。。水下是對技術的高級需求。外在因素如人、環境,對唇語正確識別的影響超級大。搜狗號稱的90%的識別率是真是假,只有搜狗自己知道了,畢竟我是不會相信一家靠彈窗廣告生存的「科技」公司。。。。


不邀自來。

根據這幾十年來全球被打臉的經驗來看,中國人具有將一切高端大氣上檔次的高科技,玩成大白菜的能力。什麼iPhone獨家指紋識別,分分鐘變成國產千元機標配。什麼iPhone X的面部識別,國產現在哪個新機器沒有?

(雖然是2D識別,安全性稍微差了點,但是照樣能用啊!)

因此,我個人認為搜狗唇語識別技術很有價值,尤其是和面部識別結合起來,很可能會推動下一次人機交互的操作邏輯。反正iPhone的那個siri我是用不慣,感覺一個人在外面對著手機說話,講各種指令顯得傻乎乎的。有了搜狗這個唇語識別,感覺就會好很多啦~


現階段的唇語識別技術,依舊處於雷聲大雨點小的狀態。據說國外是谷歌在一直推動研發,折騰了很久也沒有什麼實際產品問世。而國內有一個用唇語做pr的海雲數據,也只是放一些視頻宣傳,沒有拿出實際的「乾貨」來證明自己。
所以,唇語識別技術目前還沒有一個真正意義上的「帶頭大哥」,大家都在嘗試摸索。搜狗這回要搞成了,說不定就真的上天了。畢竟咱們中文博大精深,各地方言層出不窮,谷歌那些高大上的科技系統搞搞英文或許還行,想把中文的唇語識別給玩明白,我也是呵呵了。


推薦閱讀:

中文環境的程序員使用什麼輸入法?
現在90後還有用五筆輸入法的嗎?
Windows 10 自帶輸入法如何快速切換簡繁體?
為什麼五筆輸入法比拼音輸入法打字速度快?
搜狗輸入法提供的片語太多了翻頁很累怎麼辦?

TAG:人工智慧 | 輸入法 | 人機交互 | 語音識別 | 搜狗 |