一文讀懂語言識別技術原理 | 新課速遞
4 人贊了文章
語音識別是十年來發展最快的技術之一,隨著AI的不斷發展,深度學習讓語音識別技術得到了質的飛躍,開始從實驗室走向市場,並逐步走到人們的生活中。
我們現在所用的語音輸入法,以及以語音為智能交互入口的智能家居,背後都涉及到語音識別技術。
今天晚上,我們就來學習下本周的新課程 《語音識別技術》,有請今天的主講嘉賓:科大訊飛研究院潘嘉老師,掌聲歡迎~
01 語音識別技術的發展歷程
語音識別技術是指機器自動將人的語音的內容轉成文字,又稱 Automatic Speech Recognition,即ASR技術。
語音識別是一門交叉的、非常複雜的學科,需要具備生理學、聲學、信號處理、計算機科學、模式識別、語言學、心理學等相關學科的知識。
語音識別的研究是個漫長而且艱難的過程,它的發展可以追溯到20世紀50年代,1952年貝爾實驗室首次實現Audrey英文數字識別系統,這個系統當時可以識別單個數字0~9的發音,並且對熟人的準確度高達90%以上
在同時期,MIT、普林斯頓相繼推出少量詞的獨立詞識別系統。
1971年美國國防部研究所(DARPA)贊助了五年期限的語音理解研究項目,推動了語音識別的一次大發展。DARPA在整個科技的發展過程中扮演了非常重要的角色,它專門給高科技研究項目提供資金支持,包括無人機、衛星等等。
在DARPA的支持下,IBM、卡內基梅隆大學(CMU)、斯坦福等學術界和工業界非常頂級的研究機構也都加入到語音識別的研究中去。
其中,卡耐基梅隆大學研發出harpy語音識別系統,該系統能夠識別1011個單詞,在這個時期大辭彙量的孤立詞識別取得實質性進展。
到了1980年,語音識別技術已經從從孤立詞識別發展到連續詞識別,當時出現了兩項非常重要的技術:隱馬爾科夫模型( HMM )、N-gram語言模型。
1990年,大辭彙量連續詞識別持續進步,提出了區分性的模型訓練方法MCE和MMI,使得語音識別的精確度日益提高,尤其適用於長句子的情況下,與此同時,還提出了模型自適應方法MAP和MLLR。
在工業方面,劍橋推出首個開源的語音識別訓練工具HTK,在商業方面,Nuance發布了首個消費級產品Dragon Dictate。
到了21世紀,隨著深度學習的不斷發展,神經網路之父Hinton提出深度置信網路( DBN ),2009年, Hinton和學生Mohamed將深度神經網路應用於語音識別,在小辭彙量連續語音識別任務TIMIT上獲得成功。
02 語音識別的技術原理
從20世紀80年代開始,現在語音識別採用模式識別的基本框架,分為數據準備、特徵提取、模型訓練、測試應用這4個步驟,在這裡我們主要來講解下模型訓練和測試應用。
模型經過訓練之後,一段待測的語音需要經過信號處理和特徵提取,然後利用訓練好的聲學模型和語言模型,分別求得聲學模型和語言模型得分,然後綜合這2個得分,進行候選的搜索,最後得出語言識別的結果。
接下來我們來看下語言模型,語言模型的物理意義反映字詞出現的先驗概率,比如「郝」和「好」,這兩個字發音相同,但「郝」相對於「好」來說,出現的概率較低,一般都會出現在姓氏里。
除此之外,語言模型的物理意義還在於反映詞順序是否符合語言習慣和反映詞的語義信息。
了解了語言模型的物理意義,我們來看下語言模型的建模,傳統語言模型採用N-gram的做法,語言模型是對文本序列的先驗概率進行建模,用以下公式表示:
??(??)=??(??1 ??2 …w?? )=??(??1 )??(??2│??1 )…??(???? |??(1:???1))
我們按照全概率空間展開,可以表示為第一個詞出現的概率??(??1)乘以第一個詞出現之後,第二個詞的概率??(??2│??1 ),以此類推一直到第n個詞。
對於這樣一個全概率空間,我們對它進行N-階馬爾科夫假設,即每個詞出現的概率只和最近的N個歷史詞有關,根據這樣一個假設,上面表示先驗概率中的每一項都可以做這樣一個近似:
比如我們需要求1-階馬爾科夫假設,用以下公式即可很方便的算出結果:
這樣一種看似很簡單的非參數的計算方法,卻從20世紀的80年代一直沿用到今天。
在深度學習出現之後,逐漸出現了另一種語言模型——RNNLM。
RNNLM語言模型的流程,之前我們提到過先驗概率可以按照全概率空間進行展開,我們對公式中間的每一項都採用同一種深度學習模型來建模,就可以表達成如下結構:
說完了語言模型建模,接下來我們來說下聲學模型建模,給定了相應的文本序列之後,生成相應的語音,這是語音識別技術中最核心的也是最複雜的部分。
為了減少同音詞的數據共享問題,首先我們會將文本序列轉化成它的發音序列,做這一步的目的就是加強建模單元的共享性。
在我們對每一個發音單元,比如「xue」裡面的韻母做建模的時候,我們的語音具有不定長的特性,我們說的快和說的慢的時候,語音幀的時長是不一樣的,對於這種不定長的語音建模,這個時候就需要引入HMM模型。
HMM模型每一個語音幀讓我們的每一個語音幀都對應到HMM模型中的每一個狀態,不論多長的語音都能夠表達為HMM模型的一個狀態序列。
最後只要將HMM模型中的序列和我們語音中的每一幀進行一一對應。再將這個對應關係,用一個概率來表達就可以了。
我們知道語音其實是非常複雜多變的,不同的人在說同樣的句子的時候,會表現出非常大的差異性。
1980年代的時候,由於計算條件的限制,業內一般採用GMM聲學模型,到了2010年深度學習技術興起,DNN聲學建模開始取代GMM聲學建模。
03 語音識別技術的典型應用
語音識別技術早期的應用主要是語音聽寫,用戶說一句,機器識別一句。後來發展成語音轉寫,隨著AI的發展,語音識別開始作為智能交互應用中的一環。
下面我們就來一一介紹這些應用:
首先我們來看下語音聽寫,語音聽寫中最為典型的案例就是訊飛輸入法,除此之外,語音聽寫的應用還有語音病例系統。
醫生佩戴上訊飛定製的麥克風,在給病人診斷時,會將病情、用藥、需要注意事項等信息說出來,機器將醫生說的話自動識別出來,生成病例。
關於語音轉寫的應用,我們也舉兩個產品的例子,一是訊飛語記,另一個是訊飛聽見。
訊飛語記是一款APP,它能夠將我們所說的語音記錄成文字,訊飛聽見會議系統能夠實時的根據演講者所說的內容準確識別出來,並且實時投影在我們的大屏幕上。
關於語音交互的產品有很多,比如訊飛推出的訊飛翻譯機、能夠和小朋友進行互動的阿法蛋、以及可以進行聊天交流的叮咚音箱等。
推薦閱讀:
※胖·師說|戊戌新年,三類小工具助力智慧學習
※首發 | web平台重磅上線,讓小程序更智能!
※訊飛聽見出APP版了?!快把錄音整理神器裝進口袋裡!
※現在你也可以擁有一台亞洲論壇指定的翻譯機,環遊世界說走就走
※一早,姑媽給我發來個視頻......