IBM宣布語音識別錯誤率接近人類水平
據IBM官網報道,人們在說話時,對方每聽20個單詞都會漏掉或聽錯1-2個單詞。在5分鐘的對話中,可能會聽錯80個單詞。但我們多數人在聽懂說話上沒有問題。然而,電腦就不一樣了。
去年,IBM宣布在自然對話環境中的語音識別上取得重大成就:開發出單詞錯誤率為6.9%的系統。此後,該公司不斷取得進步。現在IBM宣布創造新的業界紀錄:5.5%的錯誤率。這是對非常困難的語音識別任務:紀錄人與人之間日常對話如「買汽車」,計算出來的結果。這種紀錄的語料庫被稱為「SWITCHBOARD」,20多年來一直用於檢驗語音識別系統。
IBM研究人員在實現這個突破時,專註於應用深度學習技術,將LSTM(長短期記憶)和WaveNet語言模型與三個強大的聲學模型結合起來。在被使用的3個聲學模型中,前2個為雙向6層LSTM,其中一個為多特徵輸入,另一個有對話多任務學習能力。最後一個模型有個獨特的地方,其不僅能從積極的例子中學習,也能利用消極的例子,因此會變得越來越聰明,在重複出現類似說話風格時表現更好。
實現人類同等水準——錯誤率與2個人說話相當——長期以來都是行業的終極目標。行業里的其他人也在努力追趕IBM的紀錄,一些人最近聲稱達到5.9%。在達到今天的成就過程中,IBM發現人類同等水準應該是錯誤率為5.1%。在確定這個數字上,IBM與合作夥伴Appen合作再現人類水平的結果。雖然IBM實現了5.5%的錯誤率是一次大的突破,但發現人類同等水準是5.1%證明科技要達到與人類相同水平還有一段距離。
在研究中,IBM聯繫了不同的行業專家,讓他們對此事發表意見。蒙特利爾大學MILA實驗室的主任Yoshua Bengio認同IBM還有很多工作要做才能實現人類同等水準。IBM意識到,發現人類同等水準的標準比原先想像更複雜。除了SWITCHBOARD外,還有另一個行業語料庫CallHome,提供了不同的可測試的語音數據集。
推薦閱讀:
※<Question Answering over Freebase via Attentive RNN with Similarity Matrix based CNN>閱讀筆記
※TextGAN 代碼閱讀筆記
※信息量與信息熵
※關於語音交互的不得不知的技術知識
※2018.4.9論文推薦
TAG:語音識別 | 自然語言處理 | 深度學習DeepLearning |