人工智慧機器翻譯的發展經歷了哪幾個重要階段?

本題已收錄至知乎圓桌:機器之能 X 語言之美,更多「人工智慧」相關話題歡迎關注討論。

關鍵的時刻有哪些?


「機器翻譯」是一個相對模糊的概念,大體上所有利用機器幫助人類進行翻譯活動的技術和服務都可以歸類為機器翻譯。例如在線詞典、翻譯套件等,在廣義上也可以稱為機器翻譯。現在絕大多數情況下,機器翻譯指的是利用機器(電腦)進行完整的句子或篇章翻譯的系統。在線詞典等在這種定義下都被排除在外。大體上,機器翻譯的發展可以分為一下幾個階段:早期探索時期(1933-1956);第一次熱潮時期(1956-1966);商用的基於規則時期(1967-2007);統計機器學習時期(1993-2016);神經網路機器翻譯時期,2013至今。

從機器翻譯(Machine Translation)這個名詞我們就可以看出這項技術有著悠久的歷史——至少比電腦 (Computer)出現還要早。雖然人類很早就開始提出利用機器提供翻譯服務,早期的提議大多停留在類似「文曲星」詞典的快速詞典查找設備上。直到1933年,俄羅斯人特洛伊斯基 (Peter Petrovich Troyanskii) 第一次提出了機器翻譯模型,並在1937年展示了一個機器翻譯系統。這個機器能夠自動地找到句子中每個詞的翻譯——使用的是一種紙帶存儲設備。(題外:此君參與了蘇聯大百科全書的編輯,深感翻譯不便的他全心投入翻譯機器的設計,當然最後並沒有成功)。

從這個時候開始,直到1949年機器翻譯並沒有太多的進展,特洛伊斯基的工作和大多數蘇聯的工作一樣並不為西方世界所知。直到電子計算機的出現,機器翻譯的可能性才為人們所重視。特別是Warren Weaver 的雄文《翻譯》——是的,這份備忘錄的名字就叫Translation。此文現在可以在http://www.mt-archive.info/Weaver-1949.pdf 看到。這篇文章並沒有實現任何技術,但是極具里程碑意義地提出了讓機器翻譯超越簡單的詞到詞翻譯的四種可能方法,其中包含了許多今天仍然很有意義的概念,例如通用語,文法轉寫,破譯密碼的「解碼器」等。機器翻譯的研究迅速鋪開,並在1956年後開始了為期10年的第一個熱潮。

從《翻譯》發表之後,整個機器翻譯領域就分為兩個流派:姑且稱為語言學學派和資訊理論學派。在半個多世紀中,兩個門派既有競爭也有合作,直到今日。大體上,語言學學派相信機器翻譯需要通過對源語言和目標語言的語法分析,解析其意義,再進行翻譯。而資訊理論學派則從資訊理論角度出發,認為翻譯是一個破解密碼的過程——假設我們看到的中文是經過某種加密方法加密後的英文,我們的任務就是通過對大量數據的分析,找出破解密碼的方法。早期由於計算機處理能力和數據量的限制,統計方法並不佔優。在1954年,Georgetown University和IBM 一起展示了能夠翻譯49個俄語句子的系統。其實該系統只能翻譯250個詞,總共就只有6個轉寫規則…… 然而就是這樣一個系統,引發了1956年-1966年期間的巨大的機器翻譯泡沫,學者們紛紛開始預測機器翻譯很快會得到徹底的解決(是不是有點熟悉的氣息?)。

機器翻譯的第一個黃金10年如白駒過隙,其中最成功的系統還是前文所訴的GAT系統。經過10年的發展,其系統已經變得相當複雜,包括了複雜的語法分析。當時大部分的機器翻譯研究都是由政府資助的(這一情況一直持續到筆者開始機器翻譯研究的前五六年),因此在1964年政府成立了一個自動語言處理顧問委員會Automatic Language Processing Advisory Committee (ALPAC)。經過兩年的調查,ALPAC發表了其著名的機器翻譯研究現狀報告,其結論是機器翻譯進展緩慢,質量糟糕,價格昂貴,且看不到未來。這一報告刺破了第一次機器翻譯泡沫(甚至連帶著刺破了第一次人工智慧泡沫),使得機器翻譯陷入了長達十年的寒冬。在這個寒冬中,失去政府資助的機器翻譯研究人員只好轉向定製商用系統,基於轉寫文法(或稱為基於規則的方法,Rule-based)的方法往往對特定的定製領域有較好的效果,因此統計方法幾乎被拋棄。1967年直到1992年,各種轉寫文法研究都取得了很大的進展,其基本方法是手寫大量的語法解析規則對源語言進行解析,而後用語法轉寫規則生成目標語言文法,再通過生成規則產生最終文本。這一方法的影響仍然深遠,筆者在2007年仍然上過基於語法轉寫實現機器翻譯的課。我們可以將這個時代的機器翻譯稱作「人工智慧」,但是並非「機器學習」,還是處於有多少人工就有多少智能的階段。

隨著電子化的文本語料越來越多,基於語料的機器翻譯逐漸佔據主流。1993年,IBM的 Brown et al. 發表了The mathematics of statistical machine translation: Parameter estimation。這篇文章奠定了此後20年機器翻譯的基礎。這篇文章將機器翻譯描述為一個信道模型(事實上Weaver在《翻譯》中就提出了類似想法),並提出了可行的詞到詞的翻譯模型。這一模型的開源實現GIZA在1999年發表,並在2003年為效率大為提高的GIZA++所取代。筆者在2007年開發的MGIZA++和PGIZA++為GIZA++的並行化版本。這些工具的出現,使得處理大規模的數據成為可能。然而,在詞到詞模型出現的前10年,並沒有獲得很大的成功。其原因主要是翻譯單元粒度太小,利用上下文的能力過弱。

統計機器翻譯的真正崛起,始於Franz Och在2003年的兩篇文章Statistical phrase-based translationMinimum error rate training in statistical machine translation。這篇文章提出了基於短語的翻譯模型和最小錯誤率訓練方法。此後直到2015,2016年,這兩種方法都是機器翻譯的主流方法。2004年,Franz Och加入谷歌,並領導了谷歌翻譯的開發。2006年,谷歌翻譯作為一個免費服務正式發布,並帶來了統計機器翻譯研究的一大波熱潮。截止2015年,谷歌翻譯已經支持了超過100種語言。這個時代的機器翻譯質量較以往的方法有了極大的提高,但是仍然有翻譯不準確不流暢的問題。隨著數據量的增加,系統性能的提高逐漸變得困難。在2012年之後,統計機器翻譯逐漸進入了平台期。2013年,在Seattle舉行的EMNLP邀請了Brown進行演講(Brown早已離開機器翻譯領域,在金融界取得巨大成功)——當一項技術開始回憶的時候,它就真的老了。2014年,Franz Och離開了谷歌。與此同時,深度學習技術開始興起,並帶來了神經網路機器翻譯技術的誕生。

神經網路機器翻譯技術仍然是一種基於文本語料的翻譯技術,但是採用了完全不同的模型。在神經網路機器翻譯技術中,詞被映射到高維向量空間的矢量,並通過神經網路映射到目標語言。這種方法解決了傳統方法的許多問題,例如調序模型的長度限制等,其流暢性比起以往的方法有極大的提高。2016年,百度,谷歌等公司先後將線上機器翻譯系統升級到了神經網路機器翻譯系統。由於其質量普遍被認為已經跨過許多應用的實用性門檻,也引發了機器翻譯的第二股熱潮。這也是我們現在正處於的時代。神經網路機器翻譯在許多特定的應用領域終於跨越了實用性門檻。


在人工智慧發展進程中艾倫·麥席森·圖靈,這位英國著名的數學家和邏輯學家最早提出了機器人是否會思考的概念,圖靈也被譽為現代計算機科學之父和人工智慧之父!

艾倫·麥席森·圖靈(1912年6月23日-1954年6月7日)

人工智慧(Artificial Intelligence)簡稱AI,AI能根據大量的歷史資料和實時觀察(real-time observation)找出對於未來預測性的洞察(predictive insights)。

我們把時間推回到半個多世紀的某個夏天,此時麥卡錫、明斯基等眾科學家們正在舉辦一場Party,在這次聚會上探討和共同研究了用機器模擬智能的問題,也是在那時,「人工智慧(AI)」的理念正式被提出!

如今人工智慧商業化正在快速推進中,比如我們所知道和了解的人像識別、圖像識別技術、語音識別、自然語言理解、用戶畫像等,現在我們所討論的機器翻譯也是AI一大主要戰場!

現在我們再把焦點放回到機器翻譯上,現階段機器翻譯也被主流的稱之為:統計翻譯

機器翻譯的基本原理是:從語料庫大量的翻譯實例中自動學習翻譯知識,然後利用這些翻譯知識自動翻譯其他句子。

這件事聽起來似乎很簡單,但是實際上難度超過了我們的想像!

不同語言的語序不一樣,即使是同一個句子,它也可能有很多種正確的但不同的翻譯方法,而且縱使是同一個句子,在不同語境下的內涵和意義也不盡相同,如果再考慮到文化、宗教、政治、信仰等等複雜原因的影響呢!

大體上來看機器翻譯的幾大障礙包括:一詞多義、理解上的歧義、結構不同造成的歧義、詞性多解、文化因素不同,等等都是制約和影響翻譯質量的因素。

機器翻譯涵蓋人工智慧、數學、語言學、計算語言學、語音識別及語音合成等多種學科及技術,顯然機器翻譯本身很不簡單,是一個複雜、龐大、意義重大的系統工程!

縱觀機器翻譯發展的進程,可以把其劃分為下面五個重要階段:

1.機器翻譯正式拉開序幕

1947年

美國人Weaver提出的把翻譯看成是一種解碼的過程

1949年

Warren Weaver發表《翻譯備忘錄》,正式提出機器翻譯的思想

1954年

美國喬治敦大學首次用IBM-701計算機進行英俄翻譯,通過這次機器翻譯的公開演示,算是正式拉開了機器翻譯研究的序幕

IBM-701計算機的英俄翻譯

2.機器翻譯陷入低潮期

1966年

1964年,美國科學院成立了語言自動處理諮詢委員會(Automatic Language Processing Advisory Committee),委員會經過2年的研究,於1966年公布了一份名為《語言與機器》的報告。

該報告全面否定了機器翻譯的可行性,並宣稱「在近期或可以預見的未來,開發出實用的機器翻譯系統是沒有指望的」。

機器翻譯開始陷入低谷和空前的蕭條中!

3.機器翻譯進入復甦期

1970年

轉換生成語法理論取得重大進展及AI技術的進步,機器翻譯進入復甦期

4.機器翻譯走向繁榮期

1976年

加拿大蒙特利爾大學與加拿大聯邦政府翻譯局聯合開發的TAUM-METEO系統,是機器翻譯發展史上的一個里程碑,標誌著機器翻譯由復甦走向繁榮

5.機器翻譯持續發展期

1985年

日本著名機器翻譯專家長尾真(MakotoNagao)在《TranslationbyAnalogy》中首次提出基於實例的機器翻譯思想

其基本思想是:不通過深層的分析,僅通過已有的經驗知識,通過類比原理進行翻譯

1993年

IBM的Brown和Della Pietra等人提出的基於詞對齊的翻譯模型,標誌著現代統計機器翻譯方法的誕生

1994年

Robert Frederking提出多引擎機器翻譯方法

其基本思想是:

1.多個翻譯引擎同時對輸入的句子進行翻譯,不僅對整句進行,同時對句中任何一個片段也給出對應的譯文,並對這些譯文片段給出一個評分

2.各個翻譯引擎共享一個類似chart的數據結構,根據其源文片段所處的位置,將這些譯文片段放在這個公共的chart結構中

3.對各個引擎給出的片段評分進行一致化處理,使之具有可比較性

4.採用一個動態規劃演算法(chartwalk演算法)選擇一組剛好能覆蓋整個源文輸入句子,同時又具有最高總分的譯文片段作為輸出

2003年

愛丁堡大學的Koehn提出短語翻譯模型,使機器翻譯效果顯著提升,藉助同時期Franz Och提出的對數線性模型及其權重訓練方法,短語翻譯模型在工業界開始廣泛採用

2005年

David Chang提出了層次短語模型,同時還有多個大學和研究所在基於語法樹的翻譯模型方面研究也取得了長足的進步

人工智慧機器翻譯的春天和蜜月期是不是真的已經到來?

回到當下,人工智慧機器翻譯尚不能做到無障礙的溝通和順暢無礙的進行語義上的理解和交流。

顯然距離我們最終想要機器翻譯達到的效果,還有很長的路要走!

未來,我們拭目以待更多更亮眼產品的出現!


搬運Thang Luong在ACL 2016上的tutorial和他自己的PhD thesis

摘自[1]

[1] Luong, Minh-Thang. 「Neural Machine Translation.」 Stanford University, 2016.


其他的回復,從「開創 - 低谷 - 復甦 -發展」這個思路來解讀,大體是沒錯的,可能爭議在於節點的判斷有所區別。

從機器翻譯技術的角度,小編認為,機器翻譯技術經歷了兩個時代:

  • 基於規則的機器翻譯
  • 基於統計模型的機器翻譯,即根據語料庫自動學習、翻譯,標誌是 1993 年 IBM 提出的基於詞對齊的翻譯模型(就是 Thang Luong 那張圖上的)。

統計翻譯包括傳統的統計翻譯模型,以及當前基於深度學習的統計翻譯模型,後者又有兩種路線:

  1. 完全基於深度學習的方法
  2. 深度學習與傳統模型融合的方法

兩種方法目前各家都有探索,谷歌微軟百度華為網易等都在神經網路機器翻譯上有很多令人側目的成果,但不管採用哪種技術流派,語言設計本身的問題,始終在影響翻譯準確率。


推薦閱讀:

目前(2017年)機器閱讀技術發展得如何?能達到什麼水平?有哪些應用?
你所在研究領域(MLCVNLP等AI子領域)在解決什麼問題,最新進展是什麼,有哪些重要文章?
語音識別中如何提高同音異形字的識別準確率?

TAG:互聯網 | 人工智慧 | 自然語言處理 | Google翻譯 | 機器翻譯 |