怎樣用神經網路來語音識別?

神經網路在語音識別過程中的哪些地方用得到?用它來幹什麼?怎麼用?


可以說到處都可以用。比如:

1. 聲學模型

聲學模型中神經網路有兩種用法。一種稱為hybrid,即用DNN代替原來的GMM來求每一幀屬於各個音素的概率,然後用HMM + Viterbi演算法解碼出音素序列。另一種稱為tandem,也是用DNN來對幀進行分類,不過並不使用DNN的輸出,而是拿出DNN中間比較窄的一層(稱為bottleneck層)的值作為特徵,再使用傳統的GMM + HMM來建模。

2. 語言模型

語言模型說白了就是一個條件概率分布:給定前面的所有詞(稱為「歷史」),求下一個詞的概率分布。一般的n-gram只考慮「歷史」中最近的若干個詞。如果使用神經網路,則不僅可以編碼最近的幾個詞,還可以把歷史中的各種信息(比如有沒有出現某類詞,某類詞出現過幾次)都作為輸入特徵。由於歷史是一個序列,所以還可以用RNN來建立語言模型。


就個人了解的部分說一下

1.可以用來給信號降噪

原理就是訓練一個autoencoder,輸入是噪音信號,輸出是乾淨信號

2.用來構建聲學模型

原理就是訓練一個nn,或者其變種(rnn,lstm。。。)輸入是聲學特徵,輸出是各個音素的概率。再配合hmm模型進行狀態的判定。這個是最基本的一種情況,這些年出來很多新花樣,比如sequence training什馬的

3.可以用來構建語言模型

這個我不太了解具體做法,期待大牛來回答


推薦閱讀:

如何看待 @通信女超人 和 @奧卡姆剃刀 這種通信大v ?
古人是怎麼通過信鴿通信的?
新推出的「雲殼「 name.im 發展前景怎麼樣?
鐵塔公司投入運營之後運營商的角色會如何調整?
通信類專業需要哪些數學知識?

TAG:語音識別 | 通信 | 神經網路 | 神經網路語言模型 |