怎樣用神經網路來語音識別？

01-08

神經網路在語音識別過程中的哪些地方用得到？用它來幹什麼？怎麼用？

可以說到處都可以用。比如：

1. 聲學模型

聲學模型中神經網路有兩種用法。一種稱為hybrid，即用DNN代替原來的GMM來求每一幀屬於各個音素的概率，然後用HMM + Viterbi演算法解碼出音素序列。另一種稱為tandem，也是用DNN來對幀進行分類，不過並不使用DNN的輸出，而是拿出DNN中間比較窄的一層（稱為bottleneck層）的值作為特徵，再使用傳統的GMM + HMM來建模。

2. 語言模型

語言模型說白了就是一個條件概率分布：給定前面的所有詞（稱為「歷史」），求下一個詞的概率分布。一般的n-gram只考慮「歷史」中最近的若干個詞。如果使用神經網路，則不僅可以編碼最近的幾個詞，還可以把歷史中的各種信息（比如有沒有出現某類詞，某類詞出現過幾次）都作為輸入特徵。由於歷史是一個序列，所以還可以用RNN來建立語言模型。

就個人了解的部分說一下

1.可以用來給信號降噪

原理就是訓練一個autoencoder，輸入是噪音信號，輸出是乾淨信號

2.用來構建聲學模型

原理就是訓練一個nn，或者其變種（rnn，lstm。。。）輸入是聲學特徵，輸出是各個音素的概率。再配合hmm模型進行狀態的判定。這個是最基本的一種情況，這些年出來很多新花樣，比如sequence training什馬的

3.可以用來構建語言模型

這個我不太了解具體做法,期待大牛來回答