李開復在大學裡的語音識別系統已經達到96%準確率,為什麼市面上的語音識別系統都遠沒有達到?
01-08
語音識別系統的準確率與語音數據本身的特點有很大關係。如果是在安靜環境中錄製的、照著底稿朗讀的語音,準確率確實可以達到96%。
但如果是在嘈雜環境中錄製的、自由發揮的語音(可能帶有口音、猶豫、反覆等現象),準確率就慘不忍睹了,可能只有30%~40%。
李開復那個年代研究目標是單詞 短句識別 而且是安靜環境如今研究目標是大規模文本識別+噪音回聲+各種方言這明顯不是一個難度級別的,別說機器 就是人也會在複雜環境下聽不清對方說什麼
謝邀。
我本科呆的那個組,做的準確率應該已經接近100%。當然咯,其實是給定語料庫進行針對訓練的,不過這個也在某些情況下很合理。暫時還沒有上市,估計快了。
邀請了個大神來回答。做實驗的數據和現實中的真實數據是沒法比的。
Andrew Ng剛加入百度後不是出來宣傳說百度的語音識別(不記得是不是語音了)已經遠超Google和蘋果了。
還給出了結果對比,但其實是拿自己學術數據的的結果和人家商業數據下的結果比。一時被傳為笑談,被稱為學術界前無古人的對比方法…
在實驗室里,讓輸入和運行環境可控是比較容易的,所以能得出一個相對理想的結果。但如果要商業化量產化,則會有相當多的限制。
語音技術的指標除了正確率之外,還有一個更重要的指標就是識別速度,除了演算法本身,此指標直接依賴於計算機硬體(CPU運算速度、內存容量)。而商業環境中硬體條件往往有限制,手機、嵌入式系統的CPU和內存都無法和伺服器相比,為了達到能夠接受的識別速度,只能放棄一部分識別率。嵌入式版的演算法、音庫、語法庫等都是縮減過的,就是因為在這些應用中識別速度的重要性高過識別率。而且大部分商業應用中,語音應用並不是一個主要功能(通常是個花哨的噱頭,比如siri),能分給語音模塊的系統資源並不多。
另外就是輸入,像其他答案說的,實驗室基本在安靜環境、單一測試者的情況下測試,得到好的結果並不奇怪。但到了實際使用情況下就不一樣了,話筒質量、網路丟包、發聲人的語速、口音、環境雜音等等都會影響正確率。所以各種商業版產品的識別率比實驗室的數據差的很遠。推薦閱讀:
※李開復老師不是說要建大學嗎?為什麼沒有消息?
※《喬布斯傳:神一樣的傳奇》這本書怎麼樣?
※青年是否真的需要這樣的李開復這種「青年導師」?
※方舟子在知乎形象這麼負面,是否跟知乎的投資背景(李開復創新工場)有關?
※同樣是青年導師,老羅和李開復,誰更靠譜,為什麼?