搜狗的語音交互引擎「知音」技術水平如何?

搜狗發布語音交互引擎「知音」 支持實時糾錯_DoNews-互聯網

「據搜狗語音交互技術中心負責人王硯峰介紹,搜狗語音交互引擎「知音」具有四大功能:一、基於端到端技術的語音識別能力;二、利用自然語言交互的語音糾錯能力;三、基於知識圖譜技術的行業知識整合能力;四、基於多輪對話技術的複雜語義理解能力。

在語音識別方面,「知音」引擎的語音識別速度提升3倍,錯誤率相對下降30%以上。搜狗CTO楊洪濤現場演示了搜狗語音交互引擎「知音」」,一邊發表演講,現場的大屏幕一遍用文字顯示出演講內容,從現場可以看到,語音識別速度很快,識別程度很高,效果非常驚艷。

在語音糾錯方面,據悉,搜狗的「知音」的語音糾錯有3萬多的詞庫,修改的準確率達到80%。實現了完全不依靠雙手通過自然語音對文字進行修改,極大體現出語音的便利性。例如,用戶可以說把「張」改為立早「章」。

此外,搜狗語音交互引擎「知音」支持多輪對話,比如用戶說我要去首都機場,搜狗語音交互引擎「知音」會問是T1航站樓還是T2航站樓,當航站樓確定後,還問詢問是出發還是接人。搜狗語音交互技術中心負責人王硯峰認為,多輪對話的人機交互技術更加自然,用戶更容易理解和接受,從而提供更加人性化的服務。

搜狗方面的數據顯示,搜狗搜索日均語音搜索次數增長超過4倍,搜狗手機輸入法日均語音輸入超過14億次,目前是國內語音輸入功能使用量最大的移動產品。搜狗方面還表示,在語音輸入上的準確性上,與科大訊飛大致持平,但領先百度。」

這些技術難度如何?真的領先百度能做到與訊飛持平嗎?


謝謝邀請

僅僅個人觀點,供參考

  1. 基於端到端技術的語音識別能力:「知音」引擎的語音識別速度提升3倍,錯誤率相對下降30%以上
    1. 單就語音識別來看,根據最新的關於LSTM等論文顯示,LSTM一般比DNN相對提升10%左右,端到端的能力,如 LSTM-CTC 架構,百度 早就開放了源代碼,也就是說這個技術,一般語音公司都會實現,每家公司都會有自己的一套tricks,不過聽說大多都是來源於Google的研究;錯誤率相對下降30%,這個不敢恭維,速度提升3倍,不知是怎麼比較的,是FPGA與GPU對比嗎?
  2. 利用自然語言交互的語音糾錯能力
    1. 用戶可以說把「張」改為立早「章」,這個一聽就知道用戶體驗肯定做不上去,因為你需要把所有的badcase收集起來,並且把用戶可能的糾錯說話都覆蓋到,這個可能嗎?
  3. 基於知識圖譜技術的行業知識整合能力
    1. 這個知識圖譜,據我所知大部分基於RDF搞的,如百度的知心,搜狗的知立方,還有國外的WordNet, Freebase,NELL等,效果一直比較雞肋。以前我知道一個部門搞知識圖譜,可是最後因為沒有找到適合的業務結合點,或是效果不好,很多靠人工,最後被砍掉了。
  4. 基於多輪對話技術的複雜語義理解能力。

    1. 語義理解,我一直悲觀的認為,在100年以內,機器都沒法像人一樣理解人說的話那麼容易,目前很多種技術的出現,都是解決某某特定領域,或特定場合的問題,根本解決不了隨意說的那種!因為人與人對話的規律太難尋覓了,太難以用模型來精確模擬!
  5. 搜狗搜索日均語音搜索次數增長超過4倍,搜狗手機輸入法日均語音輸入超過14億次,目前是國內語音輸入功能使用量最大的移動產品。搜狗方面還表示,在語音輸入上的準確性上,與科大訊飛大致持平,但領先百度。

    1. 這點僅僅聽聽而已吧


謝邀。不方便回答。


試了一下 tfboys和巴啦啦小魔仙全識別錯了。基本上可以gg了。

又試了一些典型case,用戶體驗真的差十萬八千里了


推薦閱讀:

建立語音評價系統需要學習哪些知識?
語音識別技術為何涉及心理學?

TAG:語音識別 | 搜狗 | 語義識別 | 搜狗知音 |