語音識別數十年發展，量變累積，質變飛躍，未來值得期待

04-30

經，語音識別作為一個新興時髦辭彙，出現在人們的視野當中。但如今，智能語音識別系統不再是新鮮事物，它已經真正走進了人們的生活，並且，人們對語音識別的依賴性也越來越強。智能語音的發展如今究竟到了何種境地？對語音識別的研究經過數十年發展，又取得了哪些了不起的成果？讓我們一起來探究一下。

語音識別的發展初期——力量儲備期

早在上世紀五六十年代，人們對語音識別已經開始產生興趣，很多走在科技前沿的公司也一直試圖構建某些語音識別系統。儘管由於技術不成熟、演算法不夠精準、設備不夠先進等種種原因，語音識別系統的構建以失敗而告終。但這些早期的研究者為語音識別後來的發展打下了一定的基礎。雖然語音識別領域許多難以解決的實際問題在這個階段並沒有得到解決，但大量的研究數據和原始實驗還是為語音識別的飛躍作好了力量儲備。

更重要的是，對於語音識別的研究使更多的人這一新興事物產生了興趣，發現了語音識別的優越性和不可替代性。所以，儘管困難重重，業界仍對語音識別未來的發展前景持樂觀態度。

語音識別的發展中期——直線上升期

如果說語音識別此前的發展都是在進行量變的累積，那麼2011年的一個重大發現為語音識別帶來的就是跨越式的質變。而經過這一質變之後的幾年，語音識別迎來了直線上升期。

這個2011年作出的語音識別領域重大研究突破是將深度學習運用到語音識別系統當中。微軟的幾個研究人員組成的研究小組研製出了首個基於深度學習的語音識別系統。

深度學習其實是機器學習研究領域中屬於人工神經網路的一個概念，它的原理是通過組合低層特徵形成更加抽象的高層表示屬性類別或特徵，以發現數據的分散式特徵表示。深度學習這個概念在2006年就已經被提出，但直到2011年，才運用到語音識別領域。深度學習的根本目的是模擬人腦分析、學習的能力，通過建立神經網路來模仿人腦機制，也就是所謂的「機器感知」。而運用到語音識別領域，就是讓機器模擬人腦分析、學習語音數據，從而達到更敏銳、準確地機器聽覺感知。

這一發現之後，語音識別的發展迎來了新天地。用深度學習來提高訓練性能使語音識別變得更準確，解決了此前識別不準的最大難題。研究小組的實驗將相對錯誤率降低了25%以上，使準確率比上一階段提高了近77%，此後的研究更是不斷的提高了識別準確率。這為語音識別的普及打開了道路，畢竟，如果識別不準，難以應用，也就沒有多少公司敢把語音識別系統作為產品推出。

這一時期，蘋果（Siri）、亞馬遜 (Alexa) 和谷歌等大公司的語音識別產品如雨後春筍般冒出。語音識別迎來了它的春天。

語音識別的發展後期——蓬勃期

從2014年底到現在，深度學習與語音識別的結合更密切，並且，遞歸神經網路、注意力模型以及記憶網路等其他綜合性技術，開始融入到語音識別當中。這為語音識別的蓬勃發展奠定了基礎，使語音識別真正走進了千家萬戶。

君林科技是語音識別第三次浪潮當中冒氣的佼佼者。2016年，君林科技宣布進入語音識別深度學習大軍之中。實際上，這是此前的十幾年技術累積的回報，它所研製的語音識別最新演算法和解決方案為語音識別技術生產領域的發展作出了很大貢獻。它採用的神經模型也讓語音識別在降噪、位準等具體技術上獲得了提升。

語音識別未來前景——第二次質變可期

語音識別的終極目的是構建能夠理解人類語言的人工智慧，要實現這一目標，語音識別還有很長的路要走。

深度學習與語音識別的結合帶來的CPU過載和資料庫單一等問題不容小覷。我們需要更靈活、更低成本的語音識別系統，構建真正經濟高效的解決方案。而要進一步提升語音識別的準確率，除了在模式和系統上想辦法，識別過程中的技術難題也是很重要的一部分。語音識別在完成語音轉換成文字任務的過程中，噪音是影響識別準確率的一個重要原因。所以，降噪就成了非常重要的一個語音識別技術環節。如何最大程度降低噪音在語音識別過程中的干擾，今後仍然是需要解決和研究的難題。

2014年至今的蓬勃發展，是語音識別的第二次量變累積；經過多方技術改善與持續進步，相信語音識別的第二次質變距離我們不會太遙遠。語音識別的未來必將更加令人驚喜！

北京君林科技股份有限公司，專業的電聲企業，打造人工智慧時代的金耳朵。面向全球，提供最領先的音頻領域解決方案和專業服務，基於聲學推動人工智慧技術產品落地。

公司以打造人工智慧領域的音頻硬體平台及系統平台，使君林技術成為人工智慧音頻領域不可或缺的環節為發展目標。並以此為基礎，全面覆蓋聲學技術-固件演算法-智能硬體-系統驅動-雲服務-大數據-Ai技術等技術鏈。

君林科技擁有一整套完整的聲音處理系統解決方案。用戶可以使用已有或者定製的音頻數據採集方案，通過君林科技聲紋REST API上傳至雲端，由人工智慧演算法進行建模，識別與認證，有效為企業創造最大價值。

公司自2016年成立以來，發展迅速已集結了國內外相關行業領先技術人才，核心團隊成員來自亞馬遜、摩托羅拉、華為、樂視等知名企業。同年，公司在加拿大設有聲學大數據及人工智慧研究中心，與國內知名大學聯合建立聲學實驗室，打造行業最前端的音頻技術。