語音識別領域的最新進展目前是什麼樣的水準?

題主本身是做深度學習圖像方面的,因為自己本身在聽力上有損失,覺得自己還算是比較幸運的,後來在知乎也接觸了不少在聽力上比我難度更大的一些朋友。這些事情也讓我對做技術有了重新的認識,不光要做自己喜歡的東西,還總是要改變些什麼吧!於是就萌發了各種想用自己學到的技術來解決現實生活中殘疾人遇到的問題的想法。之前關注的時候也和實驗室的師哥聊了一下他做的內容,感覺還是收穫不是很深。所以想在這個平台上再來了解一下,比如針對於語音,對聽力有障礙的人來說,輔助解決的將聲音用文字的方式進行程序是一個比較好的方式。所以題主想了解一下目前在語音識別這一塊,實時且準確的將語音轉化成相對應的文本已經達到了什麼樣的水準?主要存在的問題在哪些方面?深度學習在這一領域目前的進展怎麼樣?請各位專業人士來對我這個戰五渣普及一下語音領域目前的水準,還望大家順帶能夠推薦一些讓我去參考的開源project和paper吧!謝謝大家

本題已收錄至知乎圓桌:人工智慧 · 機器感知,更多「人工智慧」相關話題歡迎關注討論


安靜環境、發音標準情況下的語音識別已經完全可以實用了。

嘈雜環境、帶口音、不連貫等情況下的語音依然是萬年的老大難問題,而且專門針對這些問題的解決方法並不多。

目前的突破主要是在模型方面,神經網路先是逐步代替了原來的GMM-HMM語音模型,在最近出現的「端到端」模型[1]中,更是把詞典和語言模型也都「吃」掉了。

「端到端」模型最近也開始用上了注意力機制[2][3],一方面解決了輸入輸出長度懸殊的問題,另一方面又模擬了人腦在每個時刻只注意局部語音的特點。

[1] Miao, Yajie, Mohammad Gowayyed, and Florian Metze. "EESEN: End-to-end speech recognition using deep RNN models and WFST-based decoding." 2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU). IEEE, 2015.

[2] Bahdanau, Dzmitry, et al. "End-to-end attention-based large vocabulary speech recognition." 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016.

[3] Chan, William, et al. "Listen, attend and spell: A neural network for large vocabulary conversational speech recognition." 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2016.


前兩天的節奏是 MSR 宣布超越超越人類,馬上fb上被A. Ng酸了一把 after one year MS also get there... Harry 很有風度的表示感謝... Xuedong 忍不住說我們的switchboard 比較難啊!

From DNN to LSTM,deep learning已經把speech的門檻降到上手兩星期就是ASR專家,而且,卧槽,結果還是state of the art!誰還care GMM-HMM那一套!學了幾年還搞不太清在玩什麼... 基本上data 加機器已然決定勝負,當然這個勝負只是最後那個數字。現在工業界追求宣傳力度追求到你IBM6.9%,我微軟就得6.3%,然後不夠過癮就還得使勁繼續搞起,CNN RNN TDNN 甭管什麼NN 統統都來ensemble,不到5.9%就沒有超越人類啊,怎麼做大新聞!遺憾的是Google沒有加入戰團,不然怎麼也得把training data augment 到上萬小時來個super super human.

CTC終於讓Alex Graves揚眉吐氣,忍了好多年了,早就看不慣HMM了!今天proposal答辯 我的committee chair,member of NAE,說HMM都不要了,是不是該退休了?當然他是說笑,他的big picture 不是我能看到的。我非常敬仰那些在deep learning時代沉的住氣的人,也敬仰那些在NN冬天堅守的人,雖然很多就這麼沉下去一直沒起來,雖然我自己已經在跟風中跟到跟不上了,但真正的發展靠的是這些, 真·基石

多說一句,感興趣的可以試試念一念我這令人討厭的中英夾雜,來試試各大助手/輸入法的識別情況。


語音識別非常成熟了。但當要識別的聲音本身就不對時(噪音,重複,打斷等),依然頭疼。口音屬於variations,是深層神經網路善於解決的。數據夠的話問題不大。換句話說語音理解才是問題。

看到題主說自己有聽力障礙時,恰巧我的研究就是多信號語音識別。比如光信號(圖像),電信號(神經活動)等。這是另一個解決方向。

聲音是口腔內部各個發聲器官協作運動產生的結果,而發聲器官又是神經信號控制的。這三者越往後越可靠,但越無法觀察。再加上本身都可以運動但不發聲,所以都是結合聲音一起使用。

比如說用口型數據和聲音數據結合來識別,直接降幾乎一半的錯誤率,甚至去掉語言模型依然很準確。但由於不可觀察,所以目前這方面研究的方向都是在訓練時利用多信號,而識別時只用聲音信號。利用的方法就有:

[聲音—&>口型]生成模型 + 雙信號模型。

口型作為隱式變數來建模。

口型作為特權信息來調整語音識別模型的參數。

雖說不如真實的口型數據,但基本上可以獲取真實口型數據帶來提升的50%左右。這樣的方法可以用在所有語音建模技術上並提高識別率。

雖然可以靠[聲音—&>口型]生成模型來獲得數據用於其他資料庫的訓練,但由於兩個信號的採集必須同時進行,最初的資料庫會很貴。比如用超聲,X-ray,MRI來採集口型信息。


同意 @王贇 Maigo 的說法。安靜背景,標準口音,常見辭彙上的語音識別已經完全到了可用狀態了。效果不會比輸入法自動聯想差多少。

口音不標準,和新詞這兩個的主要問題是訓練數據不夠。

這就得靠工業界的實際產品來發力了。目前微軟,谷歌和國內的百度,搜狗各自在語音識別上都有了大的突破(這顯而易見的是深度學習神經網路煉丹師的功勞)。

比如說剛去看了一下搜狗這個季度新的財報,今年第三個季度營收(Revenue)11.1億(十一個小目標達成),搜狗語音輸入法每天被人使用了快兩億次!!!同志們,這可是兩億條數據啊!這麼多數據,能跑多深的神經網路啊!這麼大的數據量,很多常見口音,比如我們駐馬斯特丹的荷蘭話,想必完全不用在意的,直接放到神經網路里一通train,直接就能給解決了。。。

最近搜狗CEO王小川網紅老闆說他們的語音識別能做到超過97%。準確率已經超過了人類。

我覺得這個數字可能還是略微保守了,應該是因為測試集裡面有很多不是那麼乾淨的真是數據造成的,日常簡單應用應該和搜狗輸入法的準確度差不多。也就是說在語音信號清晰地情況下,問題已經不再是從語音信號到文本的轉換,而是自然語言語言處理部分的語言模型在拖後腿了。

不過啊,現在的媒體啊,一弄就想搞什麼大新聞,調庫跑跑deep
learning就能取代人類了?作為資深 神經網路煉丹師,我可是不信。真的能夠那麼好?百度的語音識別都是發新聞稿,搜狗的輸入法可是直接有語音輸入的, 是騾子是馬拿出來溜溜唄:

簡單的,常見詩歌:

英語居然也可以,看來Chinglish的數據搜狗也是很多啊,笑:

(iPhone版本還不能選擇語言... 只好暴露我的真名和頭像了)

常見的人名:

人名里的多音字是個問題,這涉及到實體消歧,沒有上下文的話就只能靠蒙最常見的了。

話說我其實也分不清是哪個lol

好下面來找一下bad
case:

新時代的中英混搭表述方法居然也可以。。。

生氣了,找一個難一點的,口活不好的我說的繞口令:

「八百」識別成了「800」算是錯么。。。

看來常規武器已經難不住神經網路了。。。只能上Papi醬的台灣人東北話了:

...這確實已經超越我的語音識別能力了…
這台灣人的東北腔我不看字幕也聽不到那麼多…

何止是超越了我的語音識別能力,也超過了我的語音輸出能力了…
這種兩種口音的mixture
model我是肯定generate不出來…擊敗神經網路的重任就交給Papi醬了…

--------------------------------利益相關-----------------------------------------------------

當然,更重要的是,@王小川老闆說到做到真的給學術界共享數據了!

如何評價搜狗在清華建立的「天工研究院」? - 熊辰炎的回答

我最近在幫國內和原來MSRA的老師們一起組織NTCIR評測的網頁搜索比賽,就真的是z在用搜狗的數據來做了!NTCIR WWW 這可是真的中文互聯網的搜索引擎索引和真實的海量用戶行為數據啊!我的天哪,Can
you believe it!搞搜索的同學們,還等什麼呢,趕快來參加吧!這都是Paper啊!畢業有望了!

順帶廣告下,搜狗明醫搜狗明醫 - 上網從搜狗開始 。不掙不該掙的錢,企業長期發展才會更好。現在移動端越來越重要 。搜狗輸入法現在在移動端排名第三,緊隨微信與QQ。已經超過了某個不知道移動端在幹嘛的搜索公司的應用。有輸入法這個入口引流,往後移動端的搜索市場什麼樣子還真的不好說呢。有時候我還是相信「民心所向」的。


其實語音識別在發音規範且背景噪音可以得到合理控制的情況下,很多年前就已經可以勉強實用了,很多尖端系統在工程水平很高的情況下甚至可以做的更好,比如早期的Siri,以及DARPA項目語音識別評測中的各種參賽系統。當時前沿研究的困難和今天差不多,一方面是複雜條件下(自然發音、口音、複雜雜訊等等)識別率顯著下降的問題;另一方面是語音的訓練和測試用數據的匹配問題(比如用朗讀人民日報的語音做的模型很難用來準確識別電話對話語音)。傳統上解決第一個問題,除了高超的工程技巧外,還會使用聲學模型自適應等方式;而第二個問題則有不同的解決思路,比如偏向研究,想要對語音本質有更深入理解的方式

C.-H. Lee, "From knowledge-ignorant to knowledge-rich modeling: A new speech research paradigm for next-generation automatic speech recognition"

另外就是更計算機科學家的方式,即收集更多更多的數據來改進統計模型。代表性的工作我認為應該是2015年過世的方棣棠老師和他夫人李樹青老師的論文:

方棣棠,李樹青,"漢語語音識別產品走向實用的途徑"

方老師提出要收集百萬個說話人的電話撥號或命令詞控制語音,來完成一個在實際應用中足夠魯棒的簡單語音識別器,可惜因為學術界的條件限制,在當時的條件下很難達成。事實上,這種數據量的限制在學術界一直長期存在,學術界語音識別研究使用的所謂大數據量多年來也不過只是一兩千小時語音的規模,再不斷增加數據量,不但人力、存儲、運算等代價顯著增加,同時識別器性能提升的收益也在下降(其實這個問題今天也依然存在)。進一步說,數據量的限制對學術界的影響很普遍,比如計算機視覺研究的數據量傳統上其實比語音識別的更小,還比如Deep Learning剛開始興起的時候,Hinton等幾位教授的研究組其實關注的都是小數據量的學習問題,甚至是無監督或弱監督的學習。

語音識別產品普遍的性能提升應該是從深度學習在(基於HMM的)語音識別器中應用開始的,當時領先的工作出自與Hinton教授合作的微軟、IBM、Google等公司,最代表性的工作包括

G.E. Hinton et. al, "Deep Neural Networks for Acoustic Modeling in Speech Recognition"
G. Dahl et. al, "Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition"
F. Seide et. al, "Conversational speech transcription using context-dependent deep neural networks"

當時DNN使用在語音識別中主要的三個顯著的作用。一是可以顯著提高識別器的性能,這樣即使沒有高超的工程技巧也可以做出實用效果很好的語音識別器;而是性能提升很穩定,即使當時效果最好的識別器,在把GMM換成DNN之後也普遍有10%左右的提升;三是方便了大數據的使用。因為神經網路大量使用矩陣和向量運算進行計算,並且神經網路的結構很容易進行擴展從而可以更好的配合大數據的使用。很多傑出的高性能計算領域人才的介入直接讓語音識別等方向可以更高效率的使用規模大的多的數據(比如十萬小時語音等)。在DNN和大數據量的條件下,很多複雜工程技巧的作用下降了,甚至說話人自適應等方式也都不再同樣重要,這又極大的降低了語音識別產品的研發門檻,並且提高了在諸如語音輸入法、語音搜索等產品中的實用性。

之後語音識別的研究逐漸越來越多的受到深度學習研究的影響。DNN之後,包括RNN和TDNN的復興,CNN、LSTM、CLDNN等更複雜模型的應用。之所以叫做復興是因為RNN最早的大規模應用就在語音識別中,而TDNN則根本就是在語音識別中提出的,並且啟發了CNN的研究,論文見:

A. Robinson and F. Fallside, "The utility driven dynamic error propagation network"
A. Waibel et. al, "Phoneme recognition using time-delay neural networks"

同時,神經網路的訓練方式也在向著傳統語音識別中更常用的序列化區分性準則發展,比如

A. Graves and N. Jaitly, "Towards end-to-end speech recognition with recurrent neural networks"
D. Povey et. al. "Purely sequence-trained neural networks for ASR based on lattice-free MMI"

之所以沒把CTC列入是因為包括A. Graves自己都證實了傳統語音識別中考慮所有可能候選的訓練準則效果更好,並且CTC在小數據等一些情況下的效果還有爭議。另外類似CTC的工作其實在早期語音識別研究中可以找到不少(但確實A. Graves的工作最完整,並且得到了Google的大力推動)。

基於以上很多技術,在某些特定的應用場景中,一定限定條件下(比如特定數據集上的電話對話語音識別),語音識別器已經初步達到或者接近人類的識別能力,見

G. Saon et. al, "The IBM 2016 English conversational telephone speech recognition system"
W. Xiong et. al. "The Microsoft 2016 conversational speech recognition system"

但這並不意味著語音識別器就真正完全達到/超過人類的識別能力。首先人類語音識別能力的魯棒性相當好,而對於機器語音識別,當更換使用場景(比如不同麥克風、背景雜訊、說話人口音、談話內容等)時,語音識別器的性能就會有顯著下降。另一方面,當機器使用海量數據(比如幾十萬、幾百萬小時語音)試圖改善魯棒性問題時,人類卻並不需要這麼多語音就可習得更好的語音識別的能力。本質上的原因仍然是我們對人類語音識別的機理缺乏足夠的認知。不過近年來有許多認知科學的相關研究都取得了一定進展,比如將深度學習與人腦關聯對認知機理進行的探索:

D. Yamins et. al, "Predicting IT and V4 Neural Responses With Performance-Optimized Neural Networks"
B. Devereux et. al, "Using neural network models of conceptual representation to understand the stages of visual object processing in the ventral stream"
C. Wingfield et. al, "Multi-level representations in speech processing in brain and machine: evidence from EMEG and RSA"

需要注意的是即使在使用同樣深度學習方法時,高超的工程技巧仍然可以帶來語音識別器性能的顯著差別,這在近年來一系列的國際評測已經有足夠的體現。正像微軟公司的黃學東院士所說的:『達到人類水平的對話語音識別,與其說是演算法的勝利,不如說是『工程的奇蹟』』。

另外隨著深度學習對語音識別領域影響的加深,不同於傳統HMM框架的語音識別器也正在發展。CTC雖然不依賴HMM,但基本可以基於HMM類似實現,並且類似的純神經網路語音識別器也早就存在,比如前面引用的RNN和TDNN的文獻。更有意思的應該是近年來在NLP等方向中受到追捧的encoder-decoder的端到端方法。這種方法聯合學習語音和語言的所有信息,並沒有顯式的馬爾科夫性假設,從而極大的降低搜索解碼以及數據資源收集的難度。但這種方法在語音識別中還面臨很多問題。具體來說,包括模型記憶長度的問題、語音數據和語言聯合學習導致的嚴重的資源限制、應用中靈活性的限制、缺乏lattice生成演算法等導致的對系統融合等後處理的困難等等。所以實用系統中目前最理想的還是傳統的統計語音識別框架(基於HMM的,或者類似的CTC等等)。不過這種encoder-decoder方法目前是非常好的研究平台,有很多開創性的工作可以做。另外,多語言、小數據量、無監督或弱監督學習仍然是語音識別的研究長期以來的熱點和難點。

最後要提到的是語音識別工具包對語音識別技術和產業發展帶來的巨大推進,比如Sphinx、HTK、Kaldi等。基於這些工具包演化出了主流的語音技術、極大的降低了研發的門檻,使得更多人和機構可以免除長年的技術積累而通過使用和逆向分析工具包快速進入語音識別領域。


謝邀。

時隔三個月再次回到這個問題,我們非常希望和大家分享微軟在語音識別領域取得的又一項重大突破:微軟語音和對話研究團隊負責人黃學東宣布,微軟語音識別系統錯誤率從一年前的5.8%進一步降低到5.1%,準確率已經超過專業速記員。

在微軟轉錄系統達到5.9%的錯誤率之後,其他研究人員在此基礎上分別進行研究,採用了更多參與的多轉錄程序,成功在語音識別準確性道路上更進一步。

這兩次研究轉錄的都是Switchboard語料庫中的錄音,Switchboard是一個電話通話錄音語料庫,自上世紀90年代以來一直被研究人員作為測試語音識別系統的樣本。語音識別測試任務包括對陌生人對話交流中的不同話題,比如體育和政治方面的討論,進行從語音到文字的轉錄。

研究人員通過改進微軟語音識別系統中基於神經網路的聽覺和語言模型,在去年基礎上降低了大約12%的出錯率,同時引入了CNN-BLSTM(convolutional neural network combined with bidirectional long-short-term memory,帶有雙向LSTM的卷積神經網路)模型,用於提升語音建模的效果。並且,系統中以前就在使用的從多個語音模型進行綜合預測的方法,如今在幀/句音級別和單詞級別下都可以發揮效果。

除此以外,研究人員還對整個對話過程進行歷史記錄分析,預測接下來可能會發生的事情,進一步加強識別器的語言模型,使其能夠有效適應對話話題和語境的快速轉變。

微軟認知工具包Microsoft Cognitive Toolkit 2.1(CNTK)在研究過程中表現突出,研究人員充分利用CNTK探索模型架構和優化模型的超參數。此外,微軟對雲計算基礎設施(特別是Azure GPU)的投資,也幫助提升了訓練模型、測試新想法的效果和速度。

實現識別準確率上的「人類對等」是語音識別領域過去25年來一直奮力追求的研究目標,微軟始終堅持深耕語音識別,并力爭將新技術最快、最好地運用到Cortana、Presentation Translator、Microsoft Cognitive Services等微軟產品和服務中,讓用戶能夠親身體驗新技術的魅力。微軟的研究團隊非常高興可以看到每天有數百萬的用戶在使用這些產品,未來將更加努力,創造出更具突破性的工作成果。

在語音識別領域,業界和學術界有許多研究團隊都有重大進展,微軟研究團隊在行業的整體發展下同樣獲益良多。儘管目前在Switchboard 語音識別任務中實現了5.1%的低錯誤率,事實上語音研究領域仍然挑戰重重,例如嘈雜環境、錄音距離較遠場景下的語音識別,方言識別,有限訓練數據條件下的語音識別或較少人使用的語言的語音識別,這些距離達到人類相近水平還相差甚遠。而且,計算機學會將語音轉換為文字並非語音識別的終點,讓計算機能夠理解其中的含義和目的才是道阻且長。從語音識別到話語理解,將會是語音相關技術的下一個重要前沿。

以上回答摘選自微軟研究院AI頭條,了解完整內容,請移步:語音識別技術里程碑:錯誤率降至5.1%,超過專業速記員

————這裡是往屆回答的分界線 (2017.05.04)———

關於這個問題,我們想採用微軟首席語音科學家黃學東博士在清華大學的講座——微軟是如何利用人工智慧技術做好語音識別的,回答這個問題。講座中,黃學東博士為大家回顧了語音識別領域的發展歷程,並分享了微軟在這一領域取得的一些最新突破。

以下為演講全文:

今天我想給大家分享一下微軟在人工智慧領域取得的一些最新突破,也分享一下我們在20多年的歷程中,是怎樣持之以恆取得這些突破的。

先看看今年《經濟學人雜誌》的封面故事——我們終於可以和機器講話了。裡面有一個很有名的圖表總結了整個領域從1954年IBM科學家第一次進行機器翻譯的探索,到2016年微軟第一次在會話語音識別上達到人類水平的歷史性突破。

在幾十年的歷程中,有非常多優秀的公司在語音和語言領域進行了不懈地探索,終於在今天,達到了和人一樣精準的語音識別,這是非常了不起的歷史性突破。

1982年我在清華做碩士論文時,做的就是語音識別。碩士畢業讀博士時,我在計算機系方棣棠先生的帶領下,繼續做這方面的研究。很難想像在我的有生之年,我們能讓計算機語音識別可以達到如此精準的水平。所以想跟大家分享一下,我們是怎樣追求這個夢想,持之以恆,通過不懈的努力達到歷史性突破的。

近兩年人工智慧受到熱議,其實人工智慧包括了兩個主要的類別以及三個主要的因素:

  • 第一,平台。比如我要到清華演講,一定會有個場地,有一個舞台,而這個舞台就相當於計算。今天的計算通過英特爾、英偉達等公司的不懈努力和1982年我們在蘋果、IBM PC/XT上面做的語音識別是有天壤之別的。當時我們在IBM PC/XT上用了德州儀器公司的TMS320,我還用彙編語言在上面寫了第一個開發程序。如今,要做先進的語音識別訓練也需要GPU,這和當年的TMS320有異曲同工之妙。這是第一,要有一個平台。
  • 第二,數據。我在這裡講話要有氧氣。人工智慧和語音識別也是一樣的,要有大數據才能把演算法做得精準。
  • 第三,演算法。演算法很重要,要有內容。

這三點,缺一不可。

再來人工智慧包括感知和認知這兩大塊。可以毫無疑問地說,在感知這個領域,人工智慧已經幾乎達到人類同樣的水平,但這當然是在特定任務的情況下。在認知領域,包括自然語音理解、推理、知識學習等,我覺得還差的很遠。所以大家在說人工智慧達到了前所未有的高度時,一定要搞清楚,說的是在認知領域還是在感知領域。

2015年,微軟亞洲研究院率先在計算機視覺領域有了很大的突破。研究員們在當年的ImageNet圖像識別挑戰賽中使用了神經網路有152層的深度學習,這是非常了不起的突破。而去年微軟在語音識別的Switchboard上再次取得重大突破,使得計算機的語音識別能力超過世界上絕大多數人,與人類專業高手持平。

語言是人類特有的交流工具。今天,計算機可以在假定有足夠計算資源的情況下,非常準確地識別你和我講的每一個字,這是一個非常大的歷史性突破,也是人工智慧在感知上的一個重大里程碑。

所以,我想簡單回顧一下語音識別的發展歷程。幾年前我和James Baker,Raj Reddy合寫了一篇文章。Raj Reddy是圖靈獎得主,James Baker是第一個用馬爾可夫模型做語音識別的人,當年創建了Dragon公司並一直擔任CEO,我最年輕。所以文章可以說表達了我們三代人在語音領域過去40年里的一些追求。雖然文章發表在兩年前,但現在看裡面講的很多東西已經過時了,因此可以看出這個領域的進展有多麼神速。

再看看Switchboard,這是整個工業界常用的一個測試數據集。很多新的領域或新的方法錯誤率基本都在20%左右徘徊。大規模標杆性的進展是IBM Watson,他們的錯誤率在5%到6%之間,而人的水平基本上也在5%到6%之間。過去20年,在這個標杆的數據集上,有很多公司都在不懈努力,如今的成果其實並不是一家公司所做的工作,而是整個業界一起努力的結果。

各種各樣的神經網路學習方法其實都大同小異,基本上是通過梯度下降法(Gradient Descent)找到最佳的參數,通過深度學習表達出最優的模型,以及大量的GPU、足夠的計算資源來調整參數。所以神經網路對計算機語音識別的貢獻不可低估。早在90年代初期就有很多語音識別的研究是利用神經網路在做,但效果並不好。因為,第一,數據資源不夠多;第二,訓練層數少。而由於沒有計算資源、數據有限,所以神經網路一直被隱馬爾可夫模型(Hidden Markov Model)壓制著,無法翻身。

深度學習翻身的最主要原因就是層數的增加,並且和隱馬爾可夫模型結合。在這方面微軟研究院也走在業界的前端。深度學習還有一個特別好的方法,就是特別適合把不同的特徵整合起來,就是特徵融合(Feature Fusion)

如果在噪音很高的情況下可以把特徵參數增強,再加上與環境噪音有關的東西,通過深度學習就可以學出很好的結果。如果是遠長的語音識別,有很多不同的迴音,那也沒關係,把迴音作為特徵可以增強特徵。如果要訓練一個模型來識別所有人的語音,那也沒有關係,可以加上與說話人有關的特徵。所以神經網路厲害的地方在於,不需要懂具體是怎麼回事,只要有足夠的計算資源、數據,都能學出來。

我們的神經網路系統目前有好幾種不同的類型,最常見的是借用計算機視覺CNN(Convolution Neural Net,卷積神經網路)可以把不同變化位置的東西變得更加魯棒。你可以把計算機視覺整套方法用到語音上,把語音看成圖像,頻譜從時間和頻率走,通過CNN你可以做得非常優秀。另外一個是RNN(Recurrent Neural Networks,遞歸神經網路), 它可以為時間變化特徵建模,也就是說你可以將隱藏層反饋回來做為輸入送回去。這兩種神經網路的模型結合起來,造就了微軟歷史性的突破。

微軟語音識別的總結基本上可以用下圖來表示。

這是2017年ICASSP剛剛發表的一篇文章。我先給大家簡單介紹一下。

第一,Switchboard和人類比較的時候,很多人做過不同的實驗。1997年Lippman就做了大量的實驗,人的錯誤率大約在4%左右,當時的語音識別系統錯誤率在80%左右,從80%到4%這是遙不可及的,那時是90年代中期。

當然,測試數據也在不斷變化,後來微軟把測試數據送給人工標註專家進行測試,但並不告訴他們這是要測的,而是把這些數據當成是普通數據標註的一部分。我們得到的人工標註專家的錯誤率是5.9%。後來IBM又請澳大利亞最優秀的專家反覆聽,用4個團隊標註,它的錯誤率在5.1%左右。我相信如果讓我們這些普通大眾來標註,錯誤率都將超過6%。

上圖是業界在過去幾十年裡面錯誤率下降的指標,可以看到5.8%是微軟在去年達到的水平,今年進一步下降至5.1%。Switchboard的錯誤率從80%左右一直到5.1%左右,是用了什麼方法呢?我們是怎麼達到這個目標呢?

大家知道語音識別有兩個主要的部分,一個是語音模型,一個是語言模型

語音模型我們基本上用了6個不同的神經網路,並行的同時識別。很有效的一個方法是微軟亞洲研究院在計算機視覺方面發明的ResNet(殘差網路),它是CNN的一個變種。當然,我們也用了RNN。可以看出,這6個不同的神經網路在並行工作,隨後我們再把它們有機地結合起來。在此基礎之上再用4個神經網路做語言模型,然後重新整合。所以基本上是10個神經網路在同時工作,這就造就了我們歷史性的突破

另外,微軟的研究使得語音識別在Switchboard達到了很高的水平,但是跨領域的語音識別performance還是一個問題,所以微軟提供了一個可以量身定製的語音識別系統。微軟的自定義語音服務(Custom Speech Service)在每個人的應用場景里都可以完全量身定製語音識別系統。這是微軟把人工智慧普及化的最好案例之一。

————這裡是回答結束的分割線————

以上回答摘選自黃學東博士的演講,了解完整演講內容,請移步:講堂|黃學東:微軟是如何利用人工智慧技術做好語音識別的

感謝大家的閱讀。

本賬號為微軟亞洲研究院的官方知乎賬號。本賬號立足於計算機領域,特別是人工智慧相關的前沿研究,旨在為人工智慧的相關研究提供範例,從專業的角度促進公眾對人工智慧的理解,並為研究人員提供討論和參與的開放平台,從而共建計算機領域的未來。

微軟亞洲研究院的每一位專家都是我們的智囊團,你在這個賬號可以閱讀到來自計算機科學領域各個不同方向的專家們的見解。請大家不要吝惜手裡的「邀請」,讓我們在分享中共同進步。

也歡迎大家關注我們的微博和微信賬號,了解更多我們研究。

http://weixin.qq.com/r/PUliejrEzWeyrX4Z9xwv (二維碼自動識別)


感謝邀請!

從2006年深度學習興起,到2009年深度學習首次在語音識別任務取得成功以來,基於深度學習的語音識別取得了很大的突破。而在相關的技術方面的發展,從最初的前饋全連接神經網路(Feedforward fully-connected neural networks, FNN),到後來的遞歸神經網路(Recurrent neural networks, RNN)特別是長短時記憶模型(Long short term memory, LSTM),以及目前包含數十層的深層全卷積神經網路(Deep fully convolutional neural networks, DFCNN),網路結構越來越複雜,也越來越能對語音的特性進行建模,相應的效果也越來越好。目前基於深度學習的語音識別系統通過海量的用戶數據訓練得到的一個通用的識別系統在日常場合已經達到了實用化的水平。

例如在語音識別Switchboard任務上,最新IBM已經可以將錯誤率降低到5.5%,而有經驗的轉寫人員在這個任務最好可以達到4.0%。所以在這種安靜環境下的語音識別系統已經接近了人類的水平。目前也有很多實際的應用,例如手機端的訊飛輸入法的語音輸入功能,以及訊飛聽見實時轉寫系統等,當然語音識別還是一個沒有完全解決的問題,目前的語音識別系統在強雜訊干擾情況下還很難達到實用化要求。但是對於人類的聽覺系統則有一種「雞尾酒會效應」,我們在具有背景雜訊干擾的情況下,可以將注意力集中在某一個人的談話之中。關於人類聽覺系統的這種功能目前語音識別系統還很難實現。

同時遠場識別也依然是一個具有挑戰性的問題,目前遠場識別的錯誤率是近場的兩倍左右。所以解決遠場以及強雜訊干擾情況下的語音識別是目前的一個有待進一步研究的問題。這方面目前的主要做法是將語音識別和麥克風陣列相結合。通過陣列信號處理技術,將多通道語音進行增強,然後後端再利用深度學習的方法進行聲學建模。顯然這種方案有待進一步優化,如:如何將陣列信號處理技術和深度學習方法相結合,利用陣列信號處理的知識指導深度神經網路的結構設計,從而直接從多通道語音信號中學習多通道語音增強方法然後和後端聲學模型聯合優化。

此外目前的語音識別大多是一個通用的系統,但是每個人發音以及用詞習慣都存在差異性,所以如何使得語音識別更加智能化也是一個問題。目前訊飛輸入法已經可以支持很多方言的識別了,而且也針對性的提出了用戶的個性化識別策略,使得語音識別系統更加接近人類聽覺機理。


對於漢語,去年baidu的工作應該是業界最高水平了,識別率可以達到97%

【百度賈磊】漢語語音識別技術重大突破:LSTM+CTC詳解(22PPT) -- 楊靜lillian -- 傳送門

目前語音識別主要問題還是複雜環境下的語音識別問題,比如遠場語音識別,帶雜訊語音識別等。

深度學習主要應用在聲學模型建模方面。

開源的project 可以看HTK和Kaldi

語音識別系統的基本結構可以看看我這篇博文語音識別系統結構——鳥瞰

也歡迎各位大神給我指出錯誤:)


以前了解過一些訊飛的產品,在中文識別方面做的很牛,識別精確率很高,而且針對不同方言選擇不用模式,能夠很好的適應,並識別。同時其還推出了麥克風陣列產品,拾音效果很好,據說在汽車中嘈雜環境,依然有很強勁的表現。

除了語音識別,他還有語音播報,有專門的晶元級解決方案,也有聯網用的,之前用過晶元級的,離線的,支持中英文連讀及不同人聲。大家熟知的高德導航林志玲聲音背後技術支持就是訊飛,鎚子手機中的語音部分技術支持也是訊飛公司。

手機碼字,沒有具體數字佐證,可以去其官網了解。

看完你就贊一個


最近用的訊飛語音輸入法,題主可以試試就知道了,感覺進步算是比較明顯了~


看了鎚子M1的發布會,老羅在現場秀了一段語音識別

當時就發現——我靠,訊飛太牛逼了

在用塞班系統的時候就開始使用訊飛了

這麼多年沒用,原來轉戰語音識別市場了

老羅用正常語速說上百字的一段話

訊飛直接就識別了

令我詫異的是,tm標點符號也切入的如此和諧。。。

看完老羅的發布會,我決定給我的手機下載一個訊飛App

訊飛輸入法官網

後來我就根據語音識別搜索了一系列的App

又讓我發現了一款挺好玩兒的

顏拍

喊個口令就能變身

特意試了一下,河南話居然也能。。。

先看一下觸發語音識別的口令

我想問問范冰冰今晚約不約

於是拿著手機對著范冰冰的照片

就這張

問她:「今晚約么?」

看她給我這個表情,估計願意約我,猴開森~~~

顏拍 - 音波萌顏特效視頻相機

我想語音識別目前的進展應該就是這樣了吧


測試了訊飛,百度,雲知聲,siri,google 微軟,商業場景沒有一家真的能用起來,還屬於玩具級別。


IBM T. J Watson研究院開發的中文語音識別系統連續三年在美國DARPA主辦的競賽中名列第一,該系統用於識別央視《新聞聯播》節目的錯誤率遠小於 5%,用於其他內容時……


現在已經有很多公司發聲說自己的語音識別率已經達到了97%甚至說是98%,但個人來看,在實際應用當中並沒有那麼大的精準識別,例如嘈雜環境,不標準的普通話,特別是帶有方言特性的語音,等等,這些都很大程度影響著語音識別的準確度。更遑論國語中相同音標的兩個辭彙了。按照目前的發展技術來看,隨著麥克風陣列等硬體技術的升級,語音數據的收集,語音識別的準確流程還能提升,但也只能無限接近於100%,但絕不可能做到完全準確。不過如果交互方面做得更好的話,也是可以完全商用甚至軍用了。例如咪咕靈犀,siri這些語音助手,使用語音後肯定能更好的幫助我們的生活,把人們從繁瑣中解脫出來。


如果不藉助手機處理器,語音識別的效果會怎樣?


目前市場上做語音識別的,就訊飛一家牛逼嗎?怎麼看不到bat的動靜!我們也在做啊,看我簡介,一起來聊一聊


我要吐個槽,作為帝都土著天生就有一種感覺自己說的就是普通話的執拗(其實說的是北京話,大部分發音還是和普通話有挺大區別的)。無論是公司還是平時的生活圈有挺多都是外地人的,因為各地方言都有差異性,所以導致與對方溝通的時候會有誤。例如當我說墩布的時候,有些人不知道是什麼,因為他們會管這個叫拖把。更有時候他們所說的話具有地域性,例如「長得乖,該我歪」。作為普通話我是無法理解這句話的意思,因為雖然說你是一句話,但幾個字加起來完不知道是什麼意思。

-------接下來就是問題了------

如果,一句話在方言中可以被日常使用,但是作為普通話為主的人群卻無法從發音和看字中分析出究竟是哪幾個字或者這句話的意思,人都聽不懂,語音軟體又怎麼能正確到每個字呢。更何況我說出來方言打出來能直接轉換成普通話讓你看懂了。你可能會說「只要演算法和資料庫足夠強大,基礎數據採集的夠多就可以。」

然而,我的那個剛畢業的碩士論文跟機器語言什麼什麼的之類的男朋友卻跟我說。我說的那種功能其實只要在語音打字中加入翻譯就可以了。

所以說啊,siri剛加入上海話的識別了,但是真正將方言融會貫通還是任重而道遠的。


比人聲辨別能力強,模擬人聲連你媽都聽不出來。

這個結論是我7月份參加APEC時某大佬說的。


都很完備了, 差距全在數據量上了


推薦閱讀:

當前人工智慧特別是深度學習最前沿的研究方向是什麼?
有沒有可能讓機器讀遍github上的開源代碼,然後學會編程?
梯度下降法的神經網路容易收斂到局部最優,為什麼應用廣泛?
深度學習晶元?
有沒有介紹神經網路、蟻群、遺傳、退火、魚群等等演算法的書籍?

TAG:機器學習 | 自然語言處理 | 語音識別 | 模式識別 | 深度學習DeepLearning |