語言學研究在現階段對機器翻譯有實質性的幫助嗎?

本題已收錄至知乎圓桌:機器之能 X 語言之美,更多「人工智慧」相關話題歡迎關注討論。


語言學研究對機器翻譯的核心演算法(特別是神經網路機器翻譯)並沒有太多的直接幫助。很多情況下將機器翻譯看作相對簡單的序列到序列問題會得到更好的結果。集成語言學知識的研究也在開展但是目前看來並沒有突破性的(或者說值得集成的)結果。

一個完整的機器翻譯系統還包括數據獲取,數據預處理,結果後處理,性能評測等部件。在這些方面語言學還是大有用武之地的。例如在機器翻譯結果自動評測上,許多語言學特徵都得到應用。針對特定語言的數據預處理和後處理也都需要語言學的研究。


貌似不大,反倒是機器翻譯模型發現了很多語言學規律^_^


瀉藥

沒啥幫助吧,早期有人嘗試過,沒啥用就沒管語言學了。不過上個月谷歌不是搞了個語義解析器sling,不過看起來也就是框架,還沒下文了

尤其漢語這塊,完全就是兩票不同的人在搞,老死不相往來。


1:現階段語言學研究對於機器翻譯沒有什麼實質性幫助.

當今的自然語言處理的主流趨勢是統計自然語言處理,而統計自然語言處理的基本目的就是結合語料庫中的一些數據對於某些未知的數據進行處理,從而根據這些數據分布得到一些推論,大家想一想,我們在語料庫里發現」你」和」吃飯了么」這兩個詞總是存在著一些附著關係,是不是我們就有預測在一些未知的文章中也會有這樣附著關係?

2:未來如果機器翻譯能夠和語言學結合起來,一定會很有趣.之前在沒有使用神經網路翻譯那一會,就有人嘗試過,但是因為語法是在太多過於複雜,最後不了了之,希望以後會有人去解決這個問題.


謝邀。

您邀請我回答兩個問題,我合併成一個來說一下吧。

這個問題問的非常好,其他答案我已經認真看過了,說的都不錯,確實真的沒有什麼幫助,幫助最大的不是語言學而是統計學。這一情況從上個世紀就已經如此了,請別驚訝。

然而,大家回答還比較表面,「實質性」三個字實際是你的一種追問,拋開現狀看本質:為什麼專門研究語言的學問,在翻譯上還干不過統計呢?我說你這個問題是個好問題,原因就在這裡。因為對這個原因的深入剖析可以窺探未來。

首先,語言學長期以來處於小樣本和研究特異現象中,好比心理學和醫學,越是少見的情況越是具有較高的研究價值,比如:少數民族的XX問題,申請項目批錢,命中率非常高。為何如此呢,因為普通人的日常語言非常離散,語言學家缺乏軟體開發能力又做不了大活。另一方面,日常語言確實有某些「模式」,而這些模式可以在大樣本中浮現出來。因此,統計學不可一世,有其深刻的歷史原因。

其次,概率模型對翻譯水準的提升(包含各種神經網路和強化學習方法)已經到達頂點,長期來看已經無法做更大的改進。原因很簡單,能微微進步,是因為語料的增多;無法躍升一個層次,是因為技術的天花板已到。缺乏理解的概率模型,一定存在一個最高點,到達這個頂點之後,無論如何增加語料,都不可能在提升。好吧,如果有人說全樣本就能到100%準確,那麼我這個數學不好的人只能回答:現實生活,語言是開放系統,是活的,是不斷演化的。對開放系統做全樣本?你想得美,你的數學是語文老師教的吧,概率計算成立是不是有個前提?現在的這些模型是不是已經違反了這些前提?

最後,隆重介紹一下我們的計劃:基於通用人工智慧(AGI)的機器翻譯系統,真正基於理解的翻譯,完全和概率模型一絲關係都沒有。因為NARS系統是一個類腦系統,有情感,能思考,有自我意識,所以我們像教小孩說話一樣訓練NARS系統。看起來很Easy,實際上比較Hard,因為涉及其他一些問題(如常識問題),我就不多說廢話了。補充一句,語言學對我們來講,非常重要,非常重要,真的非常重要,而且人腦中並不是基於語言進行認知加工的,不是的,不是的,真的不是的。

希望我的答案能幫助到你。


設想一下,基於神經網路的機器翻譯演算法,在經過數據訓練後,在訓練的結果輸出前,增加一個「語言學檢測」,檢測到可能翻譯異常的情況就做個備註和提醒(並不去自動改正),然後研究人員根據反饋改進演算法或調整相關參數或添加標註來使翻譯結果更加完美。

這種翻譯產品在投入市場後,隨著使用量的增加,翻譯的準確性也會越來越高。

不知道這算不算是「實質性的幫助」?

有幫助請關注,筆者最近將要開設人工智慧相關live


互相幫助都不大,語言規律的應用過程是需要「思考」來協助的,機器目前的思考水平還不高,基本只是「計算」而已,所以除了字典程序對特定的詞語進行解釋做的不錯之外,隨機語句的翻譯能說出讓人理解的就算不錯了


現階段機器翻譯的成果主要基於End-to-End(原始數據輸入,翻譯結果輸出)的deep learning成果。也就是不需要語言學或者其他知識背景。所以答案是恐怕現在沒有。不過未來更好的機器翻譯(比如理解代詞指代的含義,他和她的區別之類)肯定需要。


目前機器翻譯應該主要依賴於AI,而AI更多的是靠數據訓練系統。由於AI工程師對語言學的理解比較膚淺,語言學家又不太懂AI,所以目前應該是AI連目前的語言學成果都沒有充分利用,所以語言學的研究在現階段應該是幫助不大。

不過,未來機器翻譯大的突破,肯定有賴於對語言學的非AI意義的深度理解和語言學與AI有關的重大突破。語言學有很多分支,其中語法學語義學數理語言學還有喬姆斯基的傳統等方面貌似會更相關一些。


推薦閱讀:

機器同傳會取代同傳嗎?為什麼機器同傳的準確度不高?
機器翻譯的流程(原理)是怎麼樣的?
如何理解谷歌團隊的機器翻譯新作《Attention is all you need》?
電腦通過什麼的編程方式翻譯英語的?

TAG:人工智慧 | 自然語言處理 | 谷歌Google | Google翻譯 | 機器翻譯 |