Language Model 在語音識別方面有哪些應用?

重點是語音啊。。。

最近在研究語音語種識別

網上找到的關於Language Model與LID(Language Identification)的相關內容全都是文本的語種識別。。。。想要做語音的語種識別。。。不知道從哪裡入手啊……


題主說的Language Model應該是指語言層面的模型,刻畫詞序列的出現概率。常用的方法有語法規則、n-gram、RNN等,這些方法是通用的,可以用於對詞序列建模,也能用來對音素序列建模,只要是離散的符號序列就行。

我是做ASR方向的,沒做過語種識別,只是在微軟STC實習時了解過一點Language Identification的知識,在這裡和題主探討一下吧 :)

在語種識別當中,通常用到以下知識源:

Acoustic Phonetics -- 音素知識,包括音素集合phone set和每個phone怎麼發音,這部分知識和語音識別中的聲學模型相似,對於罕見語種,可以採用ups映射的方式共享音素模型

Phonotactics -- 音位知識,音素之間搭配的信息,比如漢語的「聲母-韻母」結構,不允許"k-s"這樣的組合,這部分可以自己寫語法規則,也可用n-gram等統計模型,先用lexicon把文本展開成音素序列,再用srilm等工具訓練音素模型

Prosodics -- 韻律知識,比如基音軌跡,能夠刻畫漢語聲調,對於帶調語種來說,韻律知識是非常有效的

Vocabulary -- 語言知識,包括辭彙集合和語言模型兩部分,語言模型給出了詞和詞之間的轉移概率,一般來說,辭彙集合對於LID幫助較大,語言模型用得較少

語種識別的基本框架是先提取不同層次的特徵,然後送到分類器里做判決,常用的方案有GMM-UBM、並行音素識別等,PA. Torres-Carrasquillo寫過一些經典的綜述,看完就能弄明白了。一般來說,不同語種的語料並不均衡,發音的方式也各具特色。語種識別的難點在於對小語種訓練準確的音素模型,並根據各個語言的特點,採用最具有鑒別信息的特徵進行判決,比如漢語的聲調,法語的「法式小舌音」。

國內做得比較好的單位有中科大、聲學所和清華大學,可以從這些單位的論文入門,研究前沿推薦看NIST語種識別評測的結果,winner們用的方法是這個領域的風向標。

祝順利~


語種識別的套路和說話人識別比較類似,一般的語言模型用不到。


語音識別里,可以用來預測下一個詞是什麼。

語種識別,我覺得可以現在不同語種的訓練集里進行語音識別,然後用不同語種的語言模型計算不同識別結果的後驗概率,概率高的語種即是結果。-----這麼做好像會有點兒慢。。。


我覺得,語音的語種識別,最多的信息還是來自於語音而不是文本。

首先,不同的語言具有的音素就有很大的不同。

其次,即使是相同的音素,在不同語言中音素的排列方式也有不同。

所以,最簡單的語種識別,是對於每種目標語言做一個音素識別器(phone recognizer),哪種語言的音素識別器給出的似然值最大,就判斷為哪種語言。

在音素識別器內部,則需要一個acoustic model(每個音素的發音模型)和音素級別的language model(什麼樣的音素可以與什麼樣的音素連接)。至於單詞級別的language model,用處不大。


感覺lm在這裡並不會被用到,你可以google一下看看


推薦閱讀:

交通銀行機器人是如何做到如此智能的?
李開復在 CMU Sphinx 項目到底是什麼地位?
Siri 通過語音識別提供智能助手服務,這樣一個產品的技術挑戰在哪裡?
什麼是語音分離技術?它有哪些最新進展?
訊飛輸入法和搜狗輸入法哪個語音輸入更好使?

TAG:人工智慧 | 機器學習 | 語音識別 |