李開復在大學裡的語音識別系統已經達到96%準確率，為什麼市面上的語音識別系統都遠沒有達到？

01-08

語音識別系統的準確率與語音數據本身的特點有很大關係。

如果是在安靜環境中錄製的、照著底稿朗讀的語音，準確率確實可以達到96%。

但如果是在嘈雜環境中錄製的、自由發揮的語音（可能帶有口音、猶豫、反覆等現象），準確率就慘不忍睹了，可能只有30%~40%。

李開復那個年代研究目標是單詞短句識別而且是安靜環境

如今研究目標是大規模文本識別+噪音回聲+各種方言

這明顯不是一個難度級別的，別說機器就是人也會在複雜環境下聽不清對方說什麼

謝邀。

我本科呆的那個組，做的準確率應該已經接近100%。當然咯，其實是給定語料庫進行針對訓練的，不過這個也在某些情況下很合理。暫時還沒有上市，估計快了。

邀請了個大神來回答。

做實驗的數據和現實中的真實數據是沒法比的。

Andrew Ng剛加入百度後不是出來宣傳說百度的語音識別（不記得是不是語音了）已經遠超Google和蘋果了。

還給出了結果對比，但其實是拿自己學術數據的的結果和人家商業數據下的結果比。一時被傳為笑談，被稱為學術界前無古人的對比方法…

在實驗室里，讓輸入和運行環境可控是比較容易的，所以能得出一個相對理想的結果。但如果要商業化量產化，則會有相當多的限制。

語音技術的指標除了正確率之外，還有一個更重要的指標就是識別速度，除了演算法本身，此指標直接依賴於計算機硬體（CPU運算速度、內存容量）。而商業環境中硬體條件往往有限制，手機、嵌入式系統的CPU和內存都無法和伺服器相比，為了達到能夠接受的識別速度，只能放棄一部分識別率。嵌入式版的演算法、音庫、語法庫等都是縮減過的，就是因為在這些應用中識別速度的重要性高過識別率。而且大部分商業應用中，語音應用並不是一個主要功能（通常是個花哨的噱頭，比如siri），能分給語音模塊的系統資源並不多。

另外就是輸入，像其他答案說的，實驗室基本在安靜環境、單一測試者的情況下測試，得到好的結果並不奇怪。但到了實際使用情況下就不一樣了，話筒質量、網路丟包、發聲人的語速、口音、環境雜音等等都會影響正確率。所以各種商業版產品的識別率比實驗室的數據差的很遠。