什麼是語音分離技術?它有哪些最新進展?


語音分離是指將目標語音從背景中分離出來的任務類型。傳統上語音分離被當作一個信號處理問題,最近出現一種新方法把語音分離作為監督學習問題處理,從訓練數據中提取語音,說話人以及背景噪音的模式。過去十年內已經有很多監督分離演算法被提出,特別是,最近提出的基於深度學習的監督語音分離有很多進步之處,在分離任務中的表現有很大的提高。這篇論文提供了最近幾年內基於深度學習的監督語音分離的研究的全面概述。然後我們將討論監督分離中的三個主要組成部分:學習機器,訓練目標以及語音特徵。概覽的一大部分著眼於分離演算法,我們將在其中回顧一下單聲道方法,包括語音增強(語音-非語音分離),說話人分離(多人談話分離),語音反混響,以及傳聲器陣列技術。概覽中還著重討論了關於監督學習的部分。這篇概覽為我們提供了相關技術如何發展的歷史視角。此外我們還討論了很多概念上的東西,比如目標源的構成。

語音分離的目標是把目標語音從背景干擾中分離出來。在信號處理中,語音分離屬於很基本的任務類型,具有廣泛的應用,包括聽覺假體,移動通信,魯棒的自動語音以及說話人識別。人類聽覺系統能輕易的將一個人的聲音和另一個人分離出來。即使在一個雞尾酒會那樣的聲音環境中,我們似乎也能毫不費力的在其他人和環境噪音的包圍中跟隨一個人的談話。因此語音分離問題通常也被叫做「雞尾酒會問題」,由 Cherry 在他 1953 年那篇著名論文中提出這個術語。

人類最重要的交流方式就是語言,對我們來說,從背景干擾中分離語言是至關重要的。感興趣或者目標所需的談話經常被其它來源的多餘噪音和表面反射的迴音所干擾。雖然人類能輕易的分離語音,但事實證明,在這項基本任務中,構建一個自動化系統匹配人類的聽覺系統是很有挑戰性的。在 Cherry 的 1953 年出版的書 [23] 中,他觀察到:「目前為止沒有任何機器能解決『雞尾酒會問題』。」很不幸的是,雖然在這篇文章中提到的最近的工作進展已經開始解決這個問題,在我們這個領域中,他的結論也一直保持了超過 60 年的正確性。

鑒於問題的重要性,語音分離已經在信號處理領域被研究了幾十年。以感測器或者傳聲器的數量,可以將分離方法分成單聲道方法(單個傳聲器)和陣列方法(多個傳聲器)。單聲道分離的兩個傳統方法是語音增強 [95] 和聽覺情景計算機分析(CASA)[140]。語音增強方法,經過帶噪語音的雜訊估計中的清晰語音估計之後,分析語音和雜訊的一般統計行為 [32][95]。最簡單以及應用最廣泛的增強方法是頻譜扣除法 [10],其中估計的雜訊的功率譜會在帶噪語音中被扣除。為了估計背景雜訊,語音增強技術一般假定背景噪音是穩定的,也就是說,其頻譜特性不會隨時間變化,至少要比語音要穩定得多。CASA 建立在聽覺情景分析的感知理論基礎上 [12],利用分類線索比如 pitch 和 onset 這兩個詞,例如,

由兩個或更多的傳聲器組成的陣列使用不同的語音分離理論。波束成形,或者說空間濾波器,將經過恰當的陣列結構的從特定方向到達的信號增強,因此能將來自其它方向的干擾衰減 [134][11][7][74]。最簡單的波束成形是一種延遲-疊加技術,能將來自目標方向的多個傳聲器的信號以相同的相位相加,並根據相差將來自其它方向的信號衰減。雜訊的衰減量取決於陣列的間隔,尺寸以及結構-通常隨著傳聲器的數量和陣列長度增加,衰減程度也會增加。顯然,當目標和干擾源被共置,或者很靠近的時候,空間濾波器是無法應用的。此外,在回聲場景中,波束成形的效用大幅降低,對聲源方向的判定變得模糊不清。

一種最近提出的方法將語音分離當做一個監督學習問題。監督語音分離的基本形式由 CASA 中隱藏的時間-頻率(T-F)的概念所啟發 [98][140][138]。CASA 的主要目標是完美二進位掩蓋(ideal binary mask,IBM)[63],意味著無論目標信號是否在混合信號的時間-頻率表示中控制著一個 T-F 單元。聽力研究中顯示了完美二進位掩蓋,能顯著提高正常聽力者(NH)和聽力受損者(HI)在嘈雜環境中的語音理解能力 [13][1][91][141]。以 IBM 作為計算能力的目標,語音分離變成了二進位分類問題,這正是監督學習的基本形式。在這個例子中,IBM 被當做訓練中的目標信號,或者目標函數。在測試中,作為監督語音分離的第一訓練目標,學習機器的目的就是估計 IBM(參見 Sect.III)。

由於語音分離的形式已經變成了分類問題,數據驅動的方法在語音處理領域得到了廣泛的研究。在過去的十年內,通過運用大型訓練數據並增加運算資源,監督語音分離的表現基本上達到了最先進的技術水平 [17]。監督分離從深度學習的發展中受益良多-看看這篇概覽的標題。監督語音分離演算法可以大體上分離成以下幾部分:學習機器,訓練目標以及語音特徵。在這篇文章中,我們首先回顧這三個部分。然後轉向表示演算法的描述,其中分別包括了單聲道方法和陣列方式演算法。泛化能力作為監督語音分離的特有議題,將會在概覽中討論。

我們需要理清在這篇概覽中幾個相關術語的使用以避免可能存在的混淆。我們提到語音分離(speech separation)或者說分隔是從背景噪音(可能包括非語音噪音,干擾語音,或者都有,以及空間回聲)中分離目標語音的一般任務。此外,我們將語音分離和「雞尾酒會問題」同等看待,雖然它超出了 Cherry 將兩個語音發音分離的問題的範疇 [22]。通過語音增強(或者去噪),我們對語音和非語音噪音的分離取平均。如果是限制在多聲道的分離問題,我們使用術語說話人分離(speaker separation)。

這篇概覽的結構組織如下:首先回顧監督語音分離的三個主要方面,即學習機器,訓練目標和特徵(分別在 Sections II, III, and IV)。Section V 講述單聲道分離演算法,Section VI 講述陣列方式演算法。Section VII 通過幾個議題對概覽進行總結,比如什麼樣的信號才能視為目標信號,以及雞尾酒會問題的解答究竟會是什麼樣子。

圖 1. 混合 5dB 工廠噪音的 TIMIT 言論的使用不同訓練目標圖示

圖 2. 使用不同訓練目標的訓練結果比較。(a)STOL 標準(b)PESQ 標準。分別用清晰語音混合信噪比為-5dB,0dB,5dB 的工廠噪音。使用語音增強演算法(SPEH)和 NMF 方法的不同訓練目標的 0dB 混合的結果在圖中突出顯示。可從 http://web.cse.ohio-state.edu/pnl/DNN_toolbox/. (http://web.cse.ohio-state.edu/pnl/DNN_toolbox/.Matlab) 的 Matlab toolbox 中獲取這張圖的結果和數據。

表 1.HIT-FA(in%)標準的 6 種-5dB 噪音混合的語音特徵分類表現的列表展示,其中 FA 值已經在小括弧中標出(來自 [19])。粗體字表示最高分數。

表 2. 測試噪音的基於 STOI 標準的特徵平均的改善(in%)的列表(來自 [27])。「Sim.」和「Rec.」分別表示模擬和記錄的空間反射響應。粗體字表示每種條件的最佳表現。在同頻道(兩個對話人)的案例中,分別展示了男性目標對話人在女性干擾者和男性干擾者的條件下的表現(括弧中標出)。

圖 3.DNN 的特徵學習的網路結構圖示,然後學習到的特徵經過 SVM 線性變換後,進行 IBM 值估計(來自 [147])。

圖 4. 兩態語音分離 DNN 的簡要示意圖。

圖 5. 基於 DNN 的譜分析語音增強方法的結構圖示(來自 [161])。特徵提取模塊和波形重構模塊將進一步詳細說明。

圖 6. 配置自動編碼器以進行無監督調試的語音增強 DNN 的網路結構(來自 [182])。AE 堆疊在 DNN 的頂部作為純度檢測器估計來自 DNN 底部的清晰語音。S(1)表示語音信號的頻譜,S(2)表示噪音信號的頻譜。

表 3.STOI 標準的-2dB 噪音混合的語音增強的結果。

圖 7. 基於 LSTM 的語音分離系統的結構展示(來自 [16])。

圖 8. 前饋 DNN 和基於 LSTM 的 RNN 的 STOI 改進。(a)信噪比為-5dB 的經訓練說話人的結果。(b)信噪比為-5dB 的未訓練說話人的結果。

圖 9. 語音反混響的基於光譜測圖的 DNN 的結構展示(來自 [45])。

圖 10. 語音反混響的回聲響應時間的 DNN 的結構展示(由 [156] 重畫)。

圖 11. 基於 DNN 的兩個說話人分離方法圖示。

圖 12. 聽力正常者和聽力受損者的執行傾聽混合干擾語句的目標語句,並將目標語句從中分離出來的測試的理解得分和標準偏差值(來自 [151])。圖中展示了四種不同目標-干擾比率的正確率百分比結果。

圖 13. 用交換不變數進行兩個說話人分離的圖示(來自 [165])。

圖 14. 雙聲道分離演算法的結構圖示(來自 [171])。

圖 15. 單聲道掩蓋估計的 MVDR 波束合成器(來自 [34])。


推薦閱讀:

訊飛輸入法和搜狗輸入法哪個語音輸入更好使?
在不久的將來五筆輸入法會不會退出輸入法界,畢竟身邊的人現在漸漸的改用了語音輸入?
移動設備上的離線語音識別需要哪些技術支持,具體如何實現?
詞尾輔音是否不利於語音識別?
為什麼 Deep Learning 最先在語音識別和圖像處理領域取得突破?

TAG:語音識別 | 深度學習 | 人工智慧 | 科技 |