語音喚醒技術的原理是什麼?

網路和書本介紹了很多語音識別的技術,但是關於語音特定詞喚醒技術的解釋卻非常少,所以想請教有關語音喚醒技術的原理和細節。

謝答!


  • 一般語音喚醒的方案有2類,主要區別是在解碼的過程是否採用語言模型Language Model

  • 不採用LM的情況下,在解碼的過程中,需要用到聲學模型,以及喚醒詞(產品定義)的發音,解碼出來的是音素序列,然後在與喚醒詞音素序列匹配,若匹配上,那麼將設備喚醒,若匹配不上,那麼端點檢測模塊(VAD)繼續檢測下一次語音交互,其中VAD對降低功耗起著至關重要的作用
  • 採用LM的情況下,在解碼的過程中,不僅僅需要用到聲學模型,還需要用到LM,以及LM裡面用到的詞的發音詞典,這樣解碼出來的是漢字,後面與喚醒詞本身做匹配
  • 具體可以參考 https://www.google.com.hk/url?sa=trct=jq=esrc=ssource=webcd=2cad=rjauact=8ved=0ahUKEwjusretw5fNAhVNOlIKHWOsD34QFggkMAEurl=%68%74%74%70%3a%2f%2f%77%77%77%2e%73%70%72%69%6e%67%65%72%2e%63%6f%6d%2f%63%64%61%2f%63%6f%6e%74%65%6e%74%2f%64%6f%63%75%6d%65%6e%74%2f%63%64%61%5f%64%6f%77%6e%6c%6f%61%64%64%6f%63%75%6d%65%6e%74%2f%39%37%38%31%34%36%31%34%36%34%38%38%34%2d%63%31%2e%70%64%66%3f%53%47%57%49%44%3d%30%2d%30%2d%34%35%2d%31%34%34%36%30%32%32%2d%70%31%37%34%38%34%37%38%35%36usg=AFQjCNEpJYh7nTIfXCNVs3ueoXAyVz8Syg


核心是一個辭彙量只有1的孤立詞語音識別系統。

這樣系統中,只需要一個鏈狀的HMM,HMM的狀態可以任意劃分,甚至不需要對應於音素。

如 @追夢憶影 所說,這個語音識別系統是需要一直在後台運行的,所以會費電。

因此,怎樣用儘可能小的功耗維持系統運行,就是一個值得研究的課題。


通用語聊訓練一個基線模型,喚醒詞錄音訓練一個命令詞模型,喚醒就是拿錄音數據計算兩者的匹配度,如果跟訓練的命令詞模型達到閾值,就喚醒啦!


語音喚醒可以歸類為limited resource keyword-spotting問題。

一般構建keyword-filler解碼網路,建模方式可以是GMM,BN,DNN or LSTM


以前在沒有低功耗處理晶元的設備上實現過這個功能

多的不扯

過濾監聽 語音識別


目前低功耗的喚醒,主要有兩個技術路線:

1. 基於HMM-GMM的keyword/filler模式

2. 基於深度神經網路

一般低功耗的喚醒,都是不帶LM的,拼的就是聲學模型的準確程度,以及後端分類器等等


moto x第一代支持 hello,google now來喚醒手機,她的原理是cpu內部有個低功率的感測器在一直運行檢測語音,當匹配到hello,google now時對設備進行喚醒操作。


推薦閱讀:

聲音識別的 ImageNet 誕生了,大家想用它做什麼呢?
現在的大數據、AI 這麼火,會不會像曾經的 Android 和 iOS 一樣,五年後也回歸平淡?
語音識別和圖像識別的區別?
如何看待科技部公布的首批國家新一代人工智慧開放創新平台?
如何調戲微軟小娜?

TAG:人工智慧 | 自然語言處理 | 語音識別 |