標籤:

語音基礎知識

語音識別原理:

語音識別的最終目的是讓機器聽懂人的語言。

語音信號通過麥克風采集,經過採樣和 A/D 轉換後由模擬信號轉變為數字信號。然後對語音的數字信號進行預加重,分幀,加窗,端點檢測和濾波等處理。 預處理過後的語音信號將按照特定的特徵 取方法 取出最能夠表現這段語 音信號特徵的參數,這些特徵參數按時間序列構成了這段語音信號的特徵序列。 在訓練過程中,獲得的特徵參數通過不同的訓練方法獲得模型,而後存入模板庫;在解碼過程中,新採集的語音信號經過處理獲得特徵參數後,與模板庫中的模型進行模式匹配,並結合一些專家知識得出識別結果。

採樣和量化

麥克風將聲音從物理狀態轉化為模擬的電信號,把連續的模擬信號轉化為時間上離散、但幅值上仍連續的離散模擬信號,這一過程就是採樣

通常在 PC 機上的採樣頻率為 16kHz,嵌入式設備上為 8kHz。

為了便於計算機計算、傳輸和存儲,採樣後的信號還要轉化為能夠用二進位表示的離散值,這一過程就稱為 A/D 轉換。保證 A/D 轉換具有足夠的轉換精度。通常採用的方法是均勻量化和脈衝編碼調製(PCM,Pulse Code Modulation),當前語音識別中常用 16bit 量化。

預加重,分幀和加窗:

高頻部分在 800Hz 以上會有-6dB/倍頻程的跌落,預加重的目的就是提升語音信號的高頻部分,使頻譜平滑。一般預加重通過一個一階高通濾波器實現。 在對語音信號進行分析前,需要對其進行分幀,通常將語音信號的每幀長度設為 20ms,相鄰兩幀之間有 10ms 的重疊。為了實現分幀步驟,我們要對語音信號進行加窗操作。不同的窗口選擇對語音信號分析的結果會產生影響。 通常我們選擇的窗函數為漢明窗

語音信號分析:

時域分析:

由於對信號的平方運算人為增加了高頻信號和低頻信號的差距,因此在某些場合可能會造成更大的誤差。為了解決這個問題,最簡單的方法是用短時平均幅值的變化來表示能量的變化。短時平均過零率(ZCR,Zero Crossing Rate)是指短時間內信號通過零值的次數,具體於連續信號即其波形通過 x 軸的次數,離散信號即採樣符號變化的次數。短時過零率在一定程度上能夠反映頻率的高低,濁音的過零率較低,清音的過零率相對較高,因此可以用來初步分析清、濁音。短時過零率容易受到低頻的干擾,通常我們在處理中還會加入門限值,即將波形穿過零點的次數改為越過門限值的次數,以此來增強抗干擾能力。在語音信號處理中,常將短時平均能量和短時平均過零率結合起來進行語音段起始點的檢測,即端點檢測。當背景雜訊較小時,用短時平均能量的方法比較準確,

頻域分析:

在語音信號分析中,常用的頻域分析方法有濾波器組和傅里葉變換的方法。

當採用寬頻帶通濾波器時,頻率解析度較低,其與加窗處理中窗口較短時的處理結果相近;採用窄帶帶通濾波器時,頻率解析度較高,與窗口較長時的處理結果相近。通常用一組濾波器組對語音輸入信號進行濾波處理,分離出輸入信號中不同中心頻率的分量,再進行各種分析和處理。

通常用離散傅里葉變換代替連續傅里葉變換。但是隨著技術的發展,傅里葉變換的一些局限性也漸漸體現出來:首先,傅里葉變換的時間解析度為零,不能反映信號在時域上的信息;其次,傅里葉變換是基於信號是平穩的這個假設,而在實際生活中,很多聲音信號是非平穩的;最後,傅里葉變換在整個頻段內的解析度都是相同的,不能反映信號在某一頻段的某種變化。同時,將聲音信號進行頻率分析,計算量較大,在對實時性要求高而計算資源又受限的嵌入式設備上也是一個難題。

聲學特徵:

通常我們將聲學特徵分為兩大類,一類為基於人類發聲機理的特徵,另一類為基於人耳聽覺感知的特徵,而這兩類具有代表性的特徵分別是線性預測倒譜係數(LPCC,Linear Prediction Cepstrum Coefficient)和 Mel 頻率倒譜係數(MFCC,Mel Frequency Cepstrum Coefficient)。 MFCC[11]特徵是一種基於人類聽覺感知特性的特徵,模擬了人耳對不同頻率的感知程度,其對中低頻語音信號較敏感,對高頻信息的區分度不大,因而能夠從信號的中低頻段 取更多語音信息。 提取一組 MFCC 特徵主要有以下幾個步驟:1.首先對輸入的語音信號進行預處理,得到分幀和加窗後的時域信號;2.對時域信號進行快速傅里葉變換(FFT,Fast Fourier Transform),得到語音信號的頻率表達;3.將得到的線性頻率轉換為 Mel 頻率4.在 Mel 頻率軸上構造 M 個三角帶通濾波器組,這 M 個三角濾波器在 Mel 頻率尺度上是平均分布的。以 MFCC 為特徵的語音識別系統並不會受到輸入語音的音調不同而有所影響;二是降低了信息量。5.離散餘弦變換(DCT,Discrete Cosine Transform)。對每一個濾波器的輸出計算其對數能量 Em ,並做 DCT 變換。

聲學模型

主要有基於矢量量化(VQ,Vector Quantization)的識別技術,

基於動態時間規整(DTW,Dynamic Time Warping)的識別技術,

基於高斯混合模型(GMM,GaussianMixture Model)的技術和

基於隱馬爾可夫模型(HMM,Hidden Markov Model)的技術

馬爾可夫鏈是馬爾可夫隨機過程的特殊情況,其狀態參數和時間參數都是離散的。而在實際中,觀察到的事件與狀態並不一一對應,其對應關係通過一組概率分布來 述,這就是 HMM 模型。HMM 是對語音信號的時間序列建立的統計模型,由兩個相互關聯的隨即過程共同 述語音信號的統計特性:一個是用具有有限狀態數的馬爾可夫鏈來模擬語音信號統計特性變化的隨機過程,描述狀態的轉移,另一個隨機過程描述狀態和觀察值之間的統計關係。因此觀察者只能看到觀測值,不能直接看到狀態,而是通過一個隨機過程感知狀態的存在,因此這條鏈為一條「隱」鏈,而整個模型也稱之為「隱」馬爾可夫模型

其特點是:1.這種模型結構的狀態轉移矩陣 A 被限制為上三角,因此其狀態轉移被加以適當的限制;2.這種模型的拓撲結構包含了時間信息,因為前面狀態的輸出觀察值必定在後面狀態的輸出觀察值之前,於是使得模型能適應語音的時序性;3.該模型的初始狀態始終在第一個狀態,並且認為多套訓練樣本是相互獨立的,因此稍加修改即可得到訓練演算法。實驗表明,狀態數目超過 5 對識別率沒有改善,很多實驗也認為 5~6 個狀態的 HMM 足夠滿足孤立詞識別的需要,而對音素或聲、韻母,一般 2~3 個狀態就比較合適了。

HMM演算法實現:

在 HMM 實現的過程中,還會遇到幾個問題:1.初始模型的選取。在用 Baum-Welch 演算法訓練 HMM 參數時,選取一個好的初始模型會使最後求得的局部極大值接近全局最大值,因此,對不同形式的 HMM 通常會採用不同的初值選取方法。典型的 HMM 參數估計過程如圖 所示。

2.多個觀察序列的訓練。在實際對 HMM 訓練的過程中,常常用到多個觀察序列,此時就要對 Baum-Welch 演算法的重估公式進行修正。3.數據下溢問題。在 Baum-Welch 演算法中有對前向變數和後向變數的遞推計算,其值小於 1,因此在遞推過程中,這兩個變數都將迅速趨近於零,這就是數據下溢問題。通常加入比例係數對演算法進行修正。4.模型的選取。

語言模型:

當若干片語成的一個序列合乎語法時,這個序列才能算是一個句子,因此,人們在語音識別中引入了語言模型來實現這種約束。當前的語言模型主要有基於句法的語言模型和基於統計的語言模型兩大類。

句法語言模型(Syntactic Language Model),也稱確定性語言模型(Deterministic Language Model)或形式語言模型(Formal Language Model),是人工對人類語言的內在規律總結出一套形式上可以推理和擴展的文法,對識別結果中不符合文法的結果進行排除。這種方法在某些識別任務中能夠獲得很好的效果。基於統計的語言模型對大量文本中的詞的出現頻率及其出現條件進行統計。通常我們將統計語言模型與聲學模型結合起來完成識別任務,這可以降低因為聲學模型的不合理帶來的拒識率。目前在大辭彙量連續語音識別中常用的是 N-Gram 語言模型[23],對中文而言,我們稱之為漢語語言模型(CLM,Chinese Language Model)[24]。對一個句序列

當複雜度越低,說明語言模型對當前詞的預測確定程度越高。因此對語言模型的訓練一般把訓練語句的複雜度最小化作為目標。而實現這個目標,先要對訓練語句中的詞頻進行統計,以此計算出語言模型的參數。而在詞表很大而訓練的數據不是充分多的時候,就會發生有些詞的序列的概率很小或者沒有出現過的情況(oov)。為了解決這些問題,就需要用到 discouting和 back-off等一些技術。具體思路之後筆記中會介紹。

雜訊魯棒性技術:

音識別技術的廣泛應用的一個重大障礙就是實際環境中各種雜訊的干擾,這些干擾包括各種環境的背景雜訊、語音信號的採集和傳輸過程中的信道雜訊,還有因為說話人的情緒變化所引起的發音變異問題。雜訊與信噪比:通常在語音信號處理中,我們將雜訊分為加性雜訊(Additive Noise)和信道雜訊(Channel Noise)兩大類。加性雜訊:雜訊與信號的關係是相加的,即不管有沒有信號,雜訊都存在。

信道雜訊:又稱為卷積雜訊或乘性雜訊,其隨著信號的存在而存在,當信號消失後,信道雜訊也隨著消失。通過同態變換,信道雜訊可以變換為加性雜訊。為了度量語音信號受到噪音污染的程度,我們引入了信噪比(SNR,Signal toNoise Ratio)。

信噪比越高表明它產生的雜音越少。一般來說,信噪比越大,說明混在信號里的雜訊越小,聲音回放的音質量越高,否則相反。信號空間的去噪技術一般又稱為語音增強,這部分處理是在時域空間上,發生在特徵提取前。特徵空間的雜訊魯棒技術應用在特徵提取之後,其目的主要是降低識別系統的識別錯誤率,因而很少考慮到人耳聽覺系統對某些語音信號畸變的自動糾正。


推薦閱讀:

TAG:語音識別 |