在人工智慧機器翻譯幾十年的發展歷程中,語言學所發揮的作用發生了哪些變化?
本題已收錄至知乎圓桌:機器之能 X 語言之美,更多「人工智慧」相關話題歡迎關注討論。
二戰後,美國、蘇聯和日本都開始有機器翻譯方面的研究和應用。那個時候計算機的運算能力還無法和現在相比。機器翻譯很大的動力是軍事方面的應用:截獲情報之後如何快速翻譯成目標語言(也涉及到解密手段)。喬姆斯基轉換生成語言學的發展其實是受到了美國國防部的很大支持的,當時也號稱要搞機器翻譯。
即使到現在,理論語言學家對句法規則的描寫仍不夠全面。所以可以想像的是,即使在上個世紀中葉,這些機器翻譯所藉助的規則也是不夠完善的。但由於那個時候沒辦法搞大數據,所以基於規則的機器翻譯是唯一的途徑。
後來計算機計算速度上來了,成本降下來了。數字化和新的存儲媒介不斷湧現,因而基於統計和大數據的機器翻譯也就漸漸成了主流。
於此同時,理論語言學和實踐應用之間也越來越脫節。理論越是抽象,追求的解釋力越強,越難以應用。在生成語言學內部,一直堅持理論和實踐相結合的有辭彙功能語法(Lexical-Functional Grammar)和中心語驅動短語結構語法(HPSG),它們都是斯坦福大學研發出來的。HPSG和LFG現在在歐洲影響力比較大,有很多基於這兩種語法的機器翻譯項目,一般也都兼顧了規則和數據。但是由於增加規則反而降低了工作效率,所以商業化應用還是很有限的。
從美國軍方資助喬姆斯基開發機器翻譯,到喬姆斯基和幾位弟子(包括LFG和HPSG的創始人)徹底鬧僵,LFG和HPSG的研究中心轉到歐洲,這是一個理論發展脈絡。
另一個理論發展脈絡要從蘇聯數學家Колмогоров說起。
蘇聯數學家Колмогоров(柯爾莫格洛夫)有一位瑞典學生,叫Martin-L?f(馬丁-洛夫)。馬丁-洛夫提出的直覺主義類型論是理論計算機的重要基礎理論。馬丁-洛夫學派對自然語言感興趣的,最有名的要數Aarne Ranta和Zhaohui Luo。
Aarne Ranta在上個世紀90年代中期開始將類型論應用到自然語言句法研究中,現在已經發展成了比較成熟的語法框架(Grammatical framework)。Ranta現在的身份除了是哥德堡大學計算機系教授之外,還是Digital Grammars 公司創始人和CEO。他把嚴格的抽象數學理論(類型論)和大數據結合起來,走出了一條既基於規則也基於數據的路子。
Luo對自然語言語義學的研究起步於上個世紀90年代,但在最近10年內有了突破性進展,這源自他獲得的一個Leverhulme Trust 資助,招到了一位研究出身於Dynamic Syntax的語義學博士(Dynamic syntax是起源於英國愛丁堡大學的句法語義框架,Luo本人也畢業於愛丁堡大學)。Luo目前的側重點不在機器翻譯,但他所考慮的東西更為深刻一些,將來是有可能對機器翻譯的優化產生起到一定的幫助的。
除了Ranta和Luo之外,Колмогоров在俄羅斯的徒弟和徒孫們也有對自然語言感興趣的。他們在計算形態學、機器翻譯方面也有一些成就。
除此之外,還有在計算語言學中影響比較大的TAG和依存語法。
可以說,在最近60多年裡,理論語言學是穩步發展的,基於規則的機器翻譯研究也一直沒有斷過。但在不同年代它們在實際應用中作起到的作用有所波動,主要是因為計算機硬體的發展。理論往往會超前於硬體的發展。在現階段,基於HPSG的句法分析的耗時遠大於基於大數據的句法分析的耗時。
但是硬體的發展也會推動理論研究的轉向,即使是主要規則的語法框架(無論是句法還是語義),現在很多也都容納了統計和概率進去。以前之所以理論語言學很少涉及到概率,也是因為缺乏計算工具。畢竟,完全基於規則的語言學理論,也是不符合人類語言習得的實際情況的。
機器翻譯是自然語言處理任務,從誕生起,當然就會與語言學緊密聯繫。語言學和機器翻譯很多情況下是共同發展的,人類對語言的認識也是逐漸深入,今天的語言學與60年前也大不相同。五十年代的機器翻譯大躍進和盲目樂觀與當年語言學對機器翻譯難度的認識缺乏也有很大關係。由於第一波成功的機器翻譯系統大多是基於語言學規則的系統(例如Systran系統),而後來出現統計機器翻譯和神經網路機器翻譯中,語言學在核心系統中被採用得越來越少,使得人們對語言學在機器翻譯中的地位有兩極分化的態度。一部分人認為機器翻譯可以完全拋棄語言學,另一部分人則認為機器翻譯之所以無法完美,是因為對語言學認識的不夠。這裡不準備討論這兩個爭論,只是需要指出語料語言學也是語言學。
然而從近30年的機器翻譯發展來說,傳統的語言學逐漸被移出機器翻譯的核心演算法,但是仍然扮演重要的角色,特別是在數據不足的情況下。在統計機器翻譯時代,一些公司從語言學角度出發,在基於規則的方法上添加統計。而另一些公司則完全採用統計方法。從語言學出發的方法往往能在數據量小的情況下接近純統計方法,然而當數據量大到一定程度,純統計方法就快速佔據上風。
在神經網路機器翻譯時代,目前來看語法、語義等信息還沒有較好的應用,雖然研究人員也在嘗試,但是目前看來大多是incremental的小進展。
然而,我們不能僅僅考慮語言學在機器翻譯核心演算法中的應用。一個完整的機器翻譯系統還包括數據獲取,數據預處理,結果後處理,性能評測等部件。在這些方面語言學還是大有用武之地的。也許強行將人類對語言的理解放入核心演算法中並不是在機器翻譯中融合語言學的最佳方式,這也有待時間來證明。
推薦閱讀: