當下流行的語音識別技術是不是發展錯了方向?

01-08

任何複雜技術的發展都有可能誤入歧途，雖然現在的隱馬爾可夫模型和深度學習演算法可以一定程度解決語音識別準確率的問題，但是距離機器能聽懂聲音這一目標來說卻越來越遙遠（注意這裡是指自然聲音，並非特指人類語音）～現在完全是資料庫匹配的方法，我們人類怎麼可能是這樣理解語音的？

謝謝邀請。我對樓主問題的理解是『使用語音識別方法進行一般的聲音識別或者理解語音內容』，這涉及到人類的語音識別、一般的『聲音事件』的識別（也許我的用詞不夠準確）、以及對語音和聲音事件的認知。我覺得我遠不具有足夠的資格回答這樣的問題，不過我很願意分享我個人的觀點共同討論。我一定程度上贊同樓上張悶財的回答。我的理解大概是很難說現在的方向不正確。

為了清晰，以下我只用語音識別和理解作為進行討論，對於一般的聲音事件的認知，我覺得情況可以謹慎的推廣。我覺得樓主的問題可以分成兩個層次：第一，把語音識別分解成語音到文字和文字內容的理解分別研究是否合理；第二，使用數學模型進行統計語音識別和理解的研究方法是否合理。

第一，我同意樓主的看法，語音的識別和理解當然有著千絲萬縷的聯繫，目前的研究方式大概在語音識別過程中很少考慮語義的理解，在語義的理解中很少考慮語音所蘊含的更豐富的信息，這當然不能說是最理想的方法。但是如果不進行這樣的分解，恐怕連問題的定義都會變得很困難。直觀上，語音到文字的轉換，以及對閱讀到的文字內涵進行理解本身是兩個非常明確的問題，也是我們人成長中反覆分別鍛煉的技能（比如小孩的咿咿學語和學生進行的閱讀訓練），拆開研究也有其合理性，何況語音識別和自然語言理解在研究和應用中通常都是不分家的。

第二，對於目前主流的語音識別方法，我首先要糾正樓主的用詞，目前的主流方法並不是模板匹配方法。對語音進行識別的主要思路是通過某種量化方法將每個語音幀都轉換為高維空間中的一個點，假設對應不同語音內容（比如不同聲韻母）的幀具有一定的空間結構分布，通過大量的已知數據來學得不同聲韻母對應的空間劃分，於是對未知的語音幀就可以根據它所在的位置來判斷它的內容，這樣的方法很難稱之為『匹配』。另外現在做自然語言理解，也很常用類似的方法。這樣的過程當然跟人的機制有很大差別，但我們也很難證明它就一定錯誤。如果證偽，我們需要證明能夠合理劃分語音內容的空間是不存在的，而我們目前的能力甚至是連在不那麼高維的空間中求得已知分布的最優解都做不到的。所以即使不遠的未來我們對人腦的機理有了更深入的認識，也不能就因此否定目前的研究思路，更何況認知科學的進展完全可以用語改進我們現在對語音識別器設計。模擬人的大腦需要提出不超出圖靈機能力的計算模型，而這種計算模型最後數學上也許完全等效於我們用現有方法可以得到的模型。

記得以前聽過一位院士的講座，其中提過這樣一個故事：一位古波斯哲人晚上丟了鑰匙，他在路燈下尋找，路過的人也幫他一起找了很久也沒找到。路人問哲人是否確定鑰匙是掉在路燈下的，哲人回答說他很確定不是，鑰匙是掉在旁邊漆黑的樹林里，他只是因為樹林里太黑才在路燈下找找看的。這個故事與你共勉。

說點題外話：其實計算機學科作為工程學科，很多時候目標就是儘可能的解決問題，未必一定是探索自然界存在的原理。所以鳥能飛，但人未必一定要造翅膀，也可以造飛機。

謝邀。

我覺得樓主理解這個問題存在某些誤區。

一個是目前對語音識別的技術已經不限於基於HMM-DNN框架了，比如新的多層混合LSTM-CNN-CTC框架，就是直接對發音單元進行建模，並且直接可以識別發音單元。因此，在語音識別技術領域，已經出現了不同的技術應用場景不同的情況。

另外就是理解。對語音的理解和對語音的識別是不同的。理解是明白語音中的內容，以及說話人要表達的意圖。不單單是從語音中得到內容的文字。這就好比是一個剛上小學2-3年級的小學生，可以認識很多字了，但是仍然不能讀懂尼採的哲學或者中國古代的《道德經》。而事實上，對於機器來說，能夠理解句法、詞法、語義甚至篇章要做很多工作。而人類理解這些語言要素的策略以及全部的機理目前尚不清楚，所以，暫時無法復現理解的原理，也就無法做到像人類這樣很準確的理解語音。而做到理解語音的第一步必然是識別語音，也就是要聽清楚到底說了些什麼，一字不差的復現出語音中的內容。這樣才能在一個角度上——即內容角度上，從聽到的結果上再做分析。人類實現理解的角度常常是多方面的，比如你可以通過某些語氣去理解對方的意圖，也可以通過聲音節奏的變化甚至聲音大小去理解意圖。而人類表達意圖的方式又很多很多，這些都為目前單純依靠尚不十分準確的語音識別進行語音理解造成了極大地困難。因此，要想理解語音，要做的工作還非常多。

最後，目前識別語音還不是靠著資料庫模板匹配，至於具體理論方法，樓主可以隨便找一本語音識別的書都有。

先寫這些。

語音識別是將聲音轉換成文本的過程，而機器怎麼理解，這是自然語言理解的範疇。

所以我都不想去糾正答主現在說的隱馬模型是多久以前的技術，也先不介紹Asr當前的最新技術。

答主的問題就類似於……雖然中國乒乓球很厲害了，但是乒乓球運動員是不是努力錯了方向，因為足球還是不強啊……

謝邀。

簡言之，因為我們的知識和技術完全不夠造人耳+大腦這麼複雜的系統。

關於聽覺系統感知聲音和大腦處理語音的研究很多。我讀過一些論文，也去開過會，覺得那個研究領域完全是另一個天地，我記得有一個雞的聽力的活體試驗(PД`q。)

我舉一個不很恰當的例子。我感覺探索人類識別原理的研究者像是構想幾千光年外黑洞的物理學家，而寫語音識別程序的研究者像是努力往火星（距地球不到千分之一光年）發射小車兒的工程師。一個是探索，一個是建造，實際的工作內容很不一樣。

我建議你先把自己的想法寫下來（越詳細越好），寫的同時自己分析。然後多讀一讀論文，有時候我們初學者自己覺得屌炸天的想法，幾十年前就有人想到了。

謝邀

剖卻學術上的研不談，現在的研究更加偏向基礎運用領域，我想樓主有這樣的憂慮是正常。很多公司目前最基本的目的是實現產品可應用化，雖然如此，但不代表研究已經偏離了方向。而是目前的研究並不是革命性。

看我的簡介，有興趣的話，加入進來，一起交!

人對世界的理解就是完全基於數據的模糊匹配