語言學研究對機器的語音識別或者語音輸出有實質性的幫助嗎?

最近在學語言學,看到語音學那一部分很感興趣,我想知道,國內現在的現代漢語研究成果是否能直接應用到語音識別技術中,另外,如果不能,是因為研究本身沒有重大突破還是把研究成果應用到技術上遇到了瓶頸


其實題目提得有點寬泛。

首先語音識別和語義識別是不同的,並且語言學和語音學也是不同的。

狹義的語音識別,僅僅是將聲音信號轉化為音調信號(比如拼音)。

而語義識別才是將音調信號轉化為文字信號。

狹義的講,語音識別中基本沒有用到語言學的知識。

但是語音識別對語音學的知識的依賴程度是很大的。

首先,語音識別雖然基本基於統計,但是並沒有完全拋棄規則,有一些基本的規則還是需要被遵守的。

舉個簡單的例子,普通話的一個音節以聲母開始,韻母結束,一個音節可以沒有聲母但是一定不能沒有韻母。所以我們就可以把"f+f","g+k"之類聲母連在一起的識別結果直接排除了。

另外,語音識別演算法,或者說統計模型一開始並不知道哪個音是「a」,哪個音是「o」,需要由人事先把已經注好音的聲音特徵文件作為教師數據輸入到識別系統中,告訴識別系統,這是「a」,那是「o」,系統才可以做識別。

顯然,對於機器來說「a」也好,「o」也好,都是由人定義的,於是這涉及到一個本質的問題,到底什麼才是「a」?如果是「hao」這樣的音節,在實際的聲音信號中,「h」,「a」,「o」的分界線到底在哪裡?

這些,都是語音學才能告訴我們的東西。

更變態的如「xi-i-yang」一類,iiy三個類似的母音連在一起的時候,分界線問題是十分棘手的,而這類聲音也是現在的語音識別系統最容易出錯的地方。

更高級一些的,語音學還會告訴你,「zhi」「chi」「shi」里的「i」和「li」,「mi」里的「i」其實並不是同一個音。儘管現在建立語音模型時還會考慮一個音的前後音節,但是如果你想要精益求精,那麼最好把這兩種「i」分開建立模型。

在語音識別演算法同質化嚴重的現在,在訓練數據量差不多的情況下,更精準的教師數據,更高精度的對聲音的標註,是提高最終識別率的重要因素。

我相信,語音學的研究成果,只會在語音識別系統中發揮越來越重要的作用。

至於語義識別和語言學的關聯關係,不是個人專業,就不發表意見了。


以前AI一直是有兩派,規則派和統計派。開始時期規則派佔優,隨著計算能力的提升、數據量的增加和越來越複雜的統計方法的應用,統計派開始體現優勢。而且,從目前來看,統計派的優勢越來越明顯。

中間有一段時間,有一些領域專家希望能把兩者(規則+統計)結合起來,形成一套通用的框架。但是,幾乎20年來都沒有實現這一目標。

相反,統計的方法越來越有優勢,可以說規則所佔的比重在不斷退縮。舉個最簡單的例子就是語音識別裡面的CTC建模,統計模型直接從語音映射到字元。詞典都不需要了,語言學知識幾乎沒有了(當然還是要知道這種語言的文字有哪些)。而且,這種end-to-end(端到端)的建模方法已經覆蓋了越來越多的AI領域——圖像識別、機器翻譯、語音合成等等。

一個可能的原因是,規則的方法本身就有致命的弱點。現實世界是十分十分十分複雜的,不可能有一套簡單人工定義的規則的東西將其全部涵蓋。我們可以通過規則的東西輔助人們理解一些通用的原則和一些例外。但實際情況是,到處都有例外,例外之外還有例外,例外之上還要複合上其他的例外。結果就是完全不可掌控。

就像科學研究本身,我們必須對真實世界進行各種簡化,簡化再簡化(想想奧卡姆剃刀原理),提出各種假設,然後進行驗證。否則的話,這個世界真的是實在難以理解。語言學的研究可以提供一些方便人類理解的規範,探索一些語音現象的原因,但是,語言學研究本身永遠都不可能等價於語言本身。類似於禪宗公案里的「手指指月」。月亮代表佛性,手指代表佛經。語言學也只是指向語言本身的一根手指。

再舉個人類的例子。小孩子學習語言,在上學之前,不需要認識文字,了解語法,只需要學習大量的實例樣本,可能再加上一套(可能是千萬年來人類基因流傳下來的某種奇妙的內在的)學習方法,照樣可以有很高的識別和理解水平。現在的AI領域的科學家也正在努力向著這一過程設計AI。

總結一下,目前語言學研究對於語音識別來說,越來越沒有實質性的幫助了。

但是,就像我們上小學以後開始學習語言學之後,我們的語音識別能力也能夠有快速的提升。也許將來,AI也能用同樣的方式,將語言學知識加以利用。那樣,對數據量的需求也許就不用現在要求的那麼那麼多了。

所以,之所以語言學研究越來越沒用的原因,可能還是我們沒找到一套很好的方法用起來而已。

原創作品,轉載需告知。


謝邀。

賈里尼克是語音識別領域的奠基人之一,他說:「我每開除一名語言學家,我的語音識別系統錯誤率就降低一個百分點。」

這話儘管有點偏頗,但在目前以統計方法為主要手段的語音識別框架下,語言學知識的確用處不大。


答案是不能。

你說的原因都存在。

最重要的母音是研究不夠充分。既然不充分,又么能夠實際應用。造成研究不充分的原因主要是有以下幾個方面:

1) 漢語語言學研究本身並不重視應用這一塊,大多數研究集中在語言本體,即語言的共時描寫,和歷時音變的研究。不太注重語言學知識是否能夠被應用,所以可以看到目前的語言學大多數文章的內容的是:「論中古漢語在XX方言中的演變」、「漢語XX結構研究」之類。

2)漢語實驗語音學的起步還算是比較晚的,也就是這幾年開始國內各所高校在國家社科基金的指導下(我真的沒有諷刺的意思),開始引用各種實驗器材。之前出去開個會,用實驗語音學方法做研究的還算是少數,但這幾年越來越多,但是可以看出,方法都沒有太到位,大部分認為語音學的方法只是一種工具,用來應徵早期的語言本體研究。

3)人才問題吧。漢語語言學研究人才大多都是文科出身,語言學研究雖然容易上手,但是後期數據的處理顯然是需要一些統計、編程的知識,顯然對於文科生學習起來有一定的難度。

4)理念問題。之前看到有國內的語言學家吐槽說語言學家做的語音學是語言學領域的語音學;而計算領域的語音學是計算語音學,關係不大(orz... 我囧囧囧)方法是上確實有很大的不同。例如,普通話中的上聲變調,語言學就一個規則,213+213 -&> 35+ 213。但是在計算機顯然沒有這麼easy。

以上是拙見,沒有用請摺疊...


雖然沒有被邀請,也不是這方面的專業家,但還是就自己目前所知補充一下。以前涉獵過這類知識,可惜沒有記準確文章的標題和出處。

通常我們所說的「識別」,都帶有理解、辨別出來的意思,很智能,其實目前實用的電腦識別演算法,根本就不是仿人類思考方式的,對識別的問題談不上「理解」,本質就是一個數學計算題。用統計的方式去「識別「的。對於同音字,根據前後語境,哪種搭配的概率是最高的呢?」shui long tou「,這個「long」,可能是「龍」,也可能是「籠」或「隆」,同理「shui」、「tou」也有同音字,但是根據已有資料的統計,同音的哪些字的組合出現概率最高呢?「誰隆投」一起出現的概率明顯低於「水龍頭」,就把組合出現概率最高的作為答案給出。這些演算法的根基是數學統計。

文字識別也是同理,對於單個字的識別,並沒有從我們通常認為的筆畫、偏旁部首的角度的拆分理解一個字,而是拿輸入和各個「字模」對比統計相似度,給出相似度最高的作為答案。

看過一個報道,說國外某某科學家,覺得目前的語音識別、文字識別、電腦下象棋等等,根本不是人工智慧,覺得摸透人是怎麼思考的,並在計算機實現才是人工智慧,但這條路很曲折……走這條路的嘗試已經有,而去最早是從這個思路出發去做識別的,但是,後來基於統計的演算法,結果的準確率具有壓倒性優勢。

如有不對,請指出。


在吳軍博士的書《數學之美》里第二章有詳細解釋。


我覺得模仿大腦來設計電腦才能夠實現智能


推薦閱讀:

在對時間序列進行分類時,隱馬爾科夫模型、人工神經網路和支持向量機這三種模型哪種更合適,為什麼?
如何編寫易被複用的,高質量的機器學習演算法代碼?有哪些這樣的代碼示例?請舉例:代碼,原文,你發表的文獻。
隱馬爾可夫模型是如何應用於語音識別?
AI產品,科學家和程序員分別做什麼,是怎麼分工的?

TAG:人工智慧 | 機器學習 | 自然語言處理 | 語音識別 | 中文語音識別 |