王小川在奇點大會演示的實時上屏技術是如何實現的?

搜狗CEO現場展示搜狗語音實時上屏
微博視頻


川總在極客公園奇點峰會上的語音實時聽寫服務主要是由我們團隊完成的,從6月初接到需求、項目立項到7月16日正式演示,前後一共40餘天,但是實際上整個會場語音實時聽寫的系統涵蓋了從模型到系統各個方面的技術,也集中體現了搜狗語音團隊成立4年多以來的技術積累,羅馬城真的不是一天建成的。


先談談項目立項後面臨的幾個問題,首先就是項目準備時間很短,可用的川總本人的語音數據基本上沒有,短期內錄製大量訓練數據的可能性不大,因此僅收集了少量川總語音(1000句左右)用於後續測試集進行性能評估。


其次就是目前我們支持的語音服務主要應用場景是搜狗手機輸入法上的語音聽寫(日均PV 1.4億次),但是語音輸入法上的請求是單次識別,每次請求時長一般10秒以內,線上架構並不支持長時連續語音識別服務,因此服務架構升級的需求也很緊迫。

此外就是川總演講的主題只有臨近大會開幕才能知道,同時川總是演講大牛,一般都是脫稿演講,演講內容涉及到科技、人文、歷史等多個方面,內容很不固定,完全使用PPT內容基本上很難覆蓋到演講的語言習慣,當然最大的壓力還是希望能夠做到滿意的現場識別正確率。


下面我來簡單梳理下在演示現場,語音是如何實時轉化為文字並且上屏的:麥克風實時採集的語音按照流式傳輸給後台識別服務,後台實時判斷語音的起始點後將有效語音送至部署的解碼器,解碼器則進行語音特徵提取,並在聲學模型、語言模型的指導下,基於語音特徵尋找最優的識別結果,當檢測到語音結束後,解碼器重置繼續接收後續的語音進行新的解碼,已解碼完成的識別結果則由後台發送至顯示設備完成上屏。


整個工作流程具體來看,與性能提升相關的兩個部分主要是聲學模型和語言模型,其中搜狗語音在聲學模型上的積累是國內領先的,作為國內最早一批使用DNN進行聲學建模的公司,我們也一直持續投入人力和資源進行基於深度神經網路聲學建模技術的研究,目前已具備了DNN、RNN、LSTM、LSTM-CTC等建模能力,同時語音輸入法積累了海量的數據更加便於我們進行模型的迭代和升級,本次演示我們使用了基於主流的LSTM-CTC的模型;而語言模型的技術則背靠了搜狗輸入法還有搜索強大的NLP技術以及數據,可以快速高效的輸出通用以及垂直類的語言模型,本次演示考慮到極客公園的演講背景,我們更多的去收集了科技類特別是人工智慧類別的文本數據進行了模型訓練,最後我們在已完成模型的基礎上進行進一步的細節優化,最終得到了不錯的識別效果。此外,在系統穩定性和效率方面,我們對語音識別服務進行了全面的升級,由之前線上語音輸入法僅支持有限時長的服務架構升級成了本次演示支持任意時長、連續輸入的架構,更好的推動了整個系統的快速完成。


本次演示整體來說,整個團隊的努力取得了令人滿意的效果,再次對支持和參與本次項目的各位同事表示感謝,今後搜狗語音團隊將會繼續深耕語音技術的研發工作,將更多精力投入到技術與產品的結合上來,期待後續能夠基於AI技術提供出更多真正解決用戶剛需、精彩的產品,謝謝!

利益相關:搜狗語音團隊


搜狗昨天的演講我們小圈子裡一直在討論。比較impressive的是其語音改寫技術,和眼前一亮的live demo。

語音識別技術本身就不是那麼高不可攀,自從13年微軟用深度學習拔高沉寂多年的語音識別之後,這幾年無論各大公司、實驗室都在這個領域貢獻很多,演算法方面都差不多。而且語音識別領域一直有很優秀的開源框架,以前如我們劍橋的HTK(基於GMM + HMM),到現在JHU的基於Kaldi語音框架(基於深度學習),基本已經不需要從頭開始造輪子了。所以從演算法上來講,語音技術能做到昨天Live Demo的效果也是情理之中,何況他們一定拿相關domain的數據去跟本次演講相關的語言模型呢,進一步保證相關專業領域的關鍵詞肯定不會識別錯誤 &>.&<

演算法上不算亮點,但是有幾點確實值得注意:

1、搜狗做了那麼多年的自然語言輸入法,在數據的積累上,應該不輸給業界老大訊飛的,後生可畏。昨天王小川的演講里提到說搜狗輸入法有7%的用戶會在輸入法中調用語音識別,語音日均調用量有1.4億 = = 這個數據真是令人吃驚,不過……畢竟搜狗輸入法是親爹……

2、搜狗一直說要做AI,這次亮相至少說明了他們已經組建了相當不錯的人工智慧團隊了。不僅是語音識別,AI的各個相關領域,比如圖像、語義、語音合成等,團隊有了應該都不是什麼難事。理論上不久的將來會有全套AI產品線,在輸入法、甚至地圖上面都有不小的想像空間。

昨天他們演示中有一個亮點「語音修改」,比如可以聽「將弓長張改為立早章」,這倒是頗為讓人興奮。不知道這一段是否是欽定的呢,換一句是不是就掛了?有裝了新版搜狗輸入法的朋友可以試試「不是雙木林,是王字旁加一個雙目林的琳」!如果這也能行那就牛逼大了

現在風口就是語音交互,國外有Google Now、Siri、Amazon Echo,而且據我從各種來源得知國內還有很多廠商,或多或少的都像趕一下這輪語音AI的風口,甚至很多公司還不像搜狗這樣有這麼多年在輸入法等相關AI領域的沉澱呢。從產品形態來講,未來更多的將傾向於可穿戴設備、智能硬體上,比如手錶(比如出門問問的Ticwatch)、智能音響(Amazon Echo、京東叮咚)、車載設備(思必馳的車蘿蔔)、甚至語音機器人。在這樣的場景下,語音識別成為不可缺少的甚至是唯一的交互方式,這很可能成為移動互聯網之後的下一個入口,這就從一定程度上來解釋大家扎堆做語音交互。

我個人對語音交互是持非常謹慎的態度。語音識別準確率,應該已經達到了相當可用的級別,比如昨天搜狗宣稱達到了97%。但是語義理解方面,尚未有一套令人驚艷的系統。現在的AI,仍然只能按照程序員預先定義好的指令來做,尚不具備學習能力。所以,人工智慧,有多少人工,才有多少智能。在理解用戶意圖上面,尚且只能支持一些有限的集合的命令,更別說複雜的多輪對話、用戶情感識別了!

這些技術上的問題不知道猴年馬月才能解決,不過我個人認為這並不妨礙做一款優秀的可用的語音交互產品。比如Amazon Echo,它專註人工智慧體驗非常好,在美帝賣超過百萬台。

作為一個AI技術從業者,我一直的觀點是,技術上的難點,我們一直在努力突破,死磕到底。但與此同時,在產品上的優化,是否是更值得投入的、更快能夠見效的low hanging fruit呢?比如,增加一個麥克風,就可以在嘈雜的環境下準確識別出說話人,增加語音識別準確率(Far-Field ASR);比如,增加打斷技術,可以讓人直接跳過繁雜的TTS,更快速的得到想要的答案;再比如昨天的搜狗語音搜索演示的語音改寫,即使真的只是用簡單規則寫的,如果真的能夠幫助80%的用戶糾正他們的語音識別結果,那就是一個偉大的創新。


訊飛的效果已經非常好了。
還有WP上的搜索鍵,幾乎無延遲的準確識別。


谷歌的這個技術今年也用在了蘋果的wwdc大會上,實時字幕

當然了,搜狗這個是國內專門做中文語言處理的


Google Now 和 Cortana 實現這東西好幾年了……

就兩點,1. 流傳輸(不像 Siri 那個說完再傳),2. 網速夠快。


科大訊飛早就運用了這樣一個語音轉換技術,別說我是怎麼知道的,因為我現在在需要文字的時候幾乎都是在說話,包括我寫的每一個字,包括我寫的故事寫的微信文章等等,都是通過科大訊飛的軟體進行語音轉換的,非常方便,也非常簡單,但是有一個缺點就是你在講的時候呢,你最好提前構思好,如果你公司不好一個停頓那麼呢,他可能就會停下來了啊,不像搜狗王小川,表現的那樣,長時間停頓,那麼他也可以繼續接的上,那麼這是科大訊飛現在面臨的一個非常大的問題,至於這個,科大訊飛好不好用?你們看一下我的這個回答就可以了…

本人,國家普通話測試員。


王小川演示的實時上屏確實很高大上,這種語音實時轉化成文字有著強大的實用功能,比如我參加一場TEDx演講,需要將演講者講訴的內容,以文字的形式實時記錄下來,這種實時上屏,就能發揮它的作用。

同樣是語音轉化成文字,微信的轉換效果就不太令人滿意了。我有一個朋友,特別喜歡發語音,雖然他談吐較為清晰,但錄入語音時間較長的話,我將這段語音轉化成文字,失真率就很高了,每次看到轉換結果,我都是??????

但我還是十分看好語音轉文字這種錄入方式。

  1. 有廣泛的應用場景。每一種文字錄入方式如果想要發展壯大,必將要有其應用的場景,語音轉文字的應用場景可以各種會議、演講、課堂、日常聊天。就像你在大學課堂上面,想要將導師的授課內容,以文字的形式記錄下來,精準的語音轉文字技術,將是你不錯的選擇,畢竟,將語音轉化成文字,能有效降低今後的複習成本,因為語音不能標註重點,而文字卻輕而易舉。
  2. 能使信息得到更廣闊的傳播。試想,如果你遇到一個十分喜歡和你發語音的同事,但他的語音又必須轉化成文字,才能轉發給你的其他同事,或者上級,因此,一種精準的語音轉文字技術,就顯得尤為重要了。轉化成文字後,你還能進行各種編輯以及分享,相對於單調的語音,文字更能使信息無縫地傳播。
  3. 實時的語音轉文字,還能降低用戶的糾錯成本。微信、SIRI的語音轉文字技術,都不是實時的,用戶只有把整段語音給錄入之後,才能看到整段文字結果,不僅沒有實時性,且轉化效果不是特別好,而精準實時的語音轉文字技術,可以提升用戶的使用體驗,不會讓客戶看到結果時,出現一臉懵逼.jpg。

但實時的語音轉文字技術,對語音的錄入標準化較高,一般只支持普通話和一些使用人數較多的方言,但由於國內人口眾多,方言更是數不勝數,如何支持更多的方言錄入乃至外語錄入,是搜狗公司和其他互聯網公司需要面對的難題。


通過搜狗語音技術實現的實時上屏,讓我們看到精準的語音轉文字技術,不再是高高在上的逼格之物,而是可以實實在在提高生產力、方便人們日常生活的信息錄入方式。當然,如何提高語音轉文字的準確率,減少信息失真,不讓用戶懵逼,是互聯網公司所要努力的方向。


只要識別速度夠快就有這種效果,不過這個有實時糾錯的情況,比較牛逼,不知道怎麼實現的。微信感覺應該給搜狗合作啊,語音發的人爽,收的人太鬱悶了,特別是那種一大段一大段的。


這玩意訊飛已經在賣了啊,答主有興趣可以搜索下訊飛聽見。

利益相關:前科大訊飛打雜,前訊飛聽見團隊人員。


PPT的分屏放映模式就可以實現把修改內容實時顯示到投影屏幕上。


先通過多次識別練習,讓搜狗CEO此段的語音識別率提升到接近100%,然後在現場顯示的相應位置單獨設置一個文字輸入區域用於顯示識別結果。


一直用訊飛,不為別的,筆畫輸入的時候可以直接手寫,不用切換。


科大訊飛,智能語音之王。沒有之一


以前用訊飛輸入法的時候,常用的語音轉文字功能啊。。。並沒有感覺搜狗做的更好。。。


這個技術,科大訊飛已經很成熟了。一年內一定會普及開的。


難道你們沒看過youtube么,實時字幕~~


大話西遊手游版,早就有這功能了,比微信都准,而且快很多。


王小川演示的時候,就在峰會現場。從現場表現來看,響應速度以及準確率方面都還是可以的。

  1. 其實做語音識別,主要有兩個方面,一個是技術,也就是建模以及建網的能力,一個是語料,高質量大規模音頻和文本。技術方面,聲學上搜狗已經具備了LSTM等深度模型的建模能力,語言上主流的NGram+RNN也不是什麼難事(RNN受訓練速度影響可能跟新速度以及規模上不會太大)。語料上,搜狗有輸入法以及搜索,語料,應該不缺。
  2. 另外說說兩個比較impressive的地方,第一個是任意時長解碼,第二個是語音修改。說到語音修改,現場演示的時候感覺不是很順,網路不好加上實際操作的那個女生也不是很熟練(這也說明產品體驗上還有待提高),導致語音修改不是很順利。當然,從當時王小川的比較篤定的語氣以及敢於現場讓人上來體驗來看,說明對那個語音修改功能還是蠻有信心的。
  3. 最後說說自己對語音產品方面的一點感觸,技術如果不能落實到產品上,就沒有了一個可以承載的對象,也就沒有了利潤以及用戶反饋來迭代產品,產品為王,這一點在出門問問CEO李志飛的演講中也有體現。說句實際一點的話,90%和92%的正確率從技術上來說WER有20%的提升,但是到用戶這裡,有可能都沒有一個漂亮的皮膚來的重要,而且搜狗輸入法中那個語音輸入藏得實在太深了,找都找不到!!!。從技術過度到產品,可以集成到現有的產品中,比如輸入法、搜索;可以軟硬結合,比如聊天機器人、智能家居、語音遙控器。當然如果說最賺錢的,還是教育這一塊了。識別、合成、評測,在教育中的發揮空間太大了,而且教育市場有著兩個最重要的優勢:體量大,消費者願意買單。做語音的,如果想賺錢,教育和智能家居是現有的最好的兩個方向,其他的,更多的是語料的收集以及產品技術的迭代。

PPT做的比百度好!


想問一下搜狗作為流氓軟體的領軍品牌(之一)對自己未來的發展有什麼看法


推薦閱讀:

以色列的科技創新氛圍如何?為何會吸引很多互聯網巨頭?
如果古代人有手機的話,世界歷史將會發生怎樣的改變?
有哪些聽起來高大上實際上很普通的東西?
如果800個小時後發生世界大戰,你最想怎麼做?
如何評價馬雲的無人超市?

TAG:互聯網 | 人工智慧 | 科技 | 語音識別 | 中文語音識別 |