聽得懂，才智能！語音喚醒技術入門課程來啦

05-25

對於智能產品的用戶來說，喚醒就是語音交互的第一入口，喚醒效果的好壞直接影響到用戶的第一體驗~

科大訊飛研究院吳國兵老師前幾天就語音喚醒技術給大家開課啦！

1、什麼是語音喚醒？

語音喚醒在學術上被稱為keyword spotting(簡稱KWS)，吳老師給它做了一個定義：在連續語流中實時檢測出說話人特定片段。

這裡要注意，檢測的「實時性」是一個關鍵點，語音喚醒的目的就是將設備從休眠狀態激活至運行狀態，所以喚醒詞說出之後，能立刻被檢測出來，用戶的體驗才會更好。

那麼，該怎樣評價語音喚醒的效果呢？通行的指標有四個方面，即喚醒率、誤喚醒、響應時間和功耗水平：

?喚醒率，指用戶交互的成功率，專業術語為召回率，即recall。

?誤喚醒，用戶未進行交互而設備被喚醒的概率，一般按天計算，如最多一天一次。

?響應時間，指從用戶說完喚醒詞後，到設備給出反饋的時間差。

?功耗水平，即喚醒系統的耗電情況。很多智能設備是通過電池供電，需要滿足長時續航，對功耗水平就比較在意。

經過長時間的發展，語音喚醒的技術路線大致可歸納為三代，特點如下：

第一代：基於模板匹配的KWS

訓練和測試的步驟比較簡單，訓練就是依據註冊語音或者說模板語音進行特徵提取，構建模板。測試時，通過特徵提取生成特徵序列，計算測試的特徵序列和模板序列的距離，基於此判斷是否喚醒。

第二代：基於HMM-GMM的KWS

將喚醒任務轉換為兩類的識別任務，識別結果為keyword和non-keyword。

第三代：基於神經網路的方案

神經網路方案又可細分為幾類，第一類是基於HMM的KWS，同第二代喚醒方案不同之處在於，聲學模型建模從GMM轉換為神經網路模型。第二類融入神經網路的模板匹配，採用神經網路作為特徵提取器。第三類是基於端到端的方案，輸入語音，輸出為各喚醒的概率，一個模型解決。

語音喚醒的難點，主要是低功耗要求和高效果需求之間的矛盾。

一方面，目前很多智能設備採用的都是低端晶元，同時採用電池供電，這就要求喚醒所消耗的能源要儘可能的少。

另一方面，用戶對體驗效果的追求越來越高。目前語音喚醒主要應用於C端，用戶群體廣泛，且要進行大量遠場交互，對喚醒能力提出了很高要求。

要解決兩者之間的矛盾，對於低功耗需求，我們採用模型深度壓縮策略，減少模型大小並保證效果下降幅度可控；而對於高效果需求，一般是通過模型閉環優化來實現。先提供一個效果可用的啟動模型，隨著用戶的使用，進行閉環迭代更新，整個過程完成自動化，無需人工參與。

語音喚醒的應用領域十分廣泛，主要是C端產品，比如機器人、音箱、汽車等。比較有代表性的應用模式有如下幾種：

?傳統語音交互：先喚醒設備，等設備反饋後（提示音或亮燈），用戶認為設備被喚醒了，再發出語音控制命令，缺點在於交互時間長。

?One-shot：直接將喚醒詞和工作命令一同說出，如「叮咚叮咚，我想聽周杰倫的歌」，客戶端會在喚醒後直接啟動識別以及語義理解等服務，縮短交互時間。

?Zero-shot：將常用用戶指定設置為喚醒詞，達到用戶無感知喚醒，例如直接對車機說「導航到科大訊飛」，這裡將一些高頻前綴的說法設置成喚醒詞。

?多喚醒：主要滿足用戶個性化的需求，給設備起多個名字。

?所見即所說：新型的AIUI交互方式，例如用戶對車機發出「導航到海底撈」指令後，車機上會顯示「之心城海底撈」「銀泰城海底撈」等選項，用戶只需說「之心城」或「銀泰城」即可發出指令。

好啦，關於「語音喚醒」今天就先介紹這麼多，想要仔細學習課程的同學，可以掃描下方二維碼，關注「訊飛AI大學」查看更多課程哦~

http://weixin.qq.com/r/nzoAGIjEHNVjrcx792_N (二維碼自動識別)