人工智慧在語言翻譯上又獲重大突破！人類文明的「巴別塔」將被新興技術撕裂還是重建？

02-01

編者註：Facebook又爆出了大新聞：他們基於卷積神經網路（CNN）開發出的語言翻譯模型比現有基於循環神經網路（RNN）的方法快出9倍！而且能以更接近人類的方式進行精準翻譯。

人工智慧技術在近年來的飛速發展無疑為人們展現了一幅前所未有的未來圖景，人們在歡呼雀躍的同時，也開始擔心被科技加持的主流文化會逐漸拉大與其他人類文化的差距。「科技霸權」不單存在於經濟領域，也在逐漸向諸如語言、藝術創作等人文領域滲透。而一旦脫離主流技術發展體系，這些小眾人類文化所面臨的結局很可能是逐漸消亡。

以 AI 為代表的新興技術會將重建人類文明的「巴別塔」，還是加速其崩塌？

圖丨《聖經》中的巴別塔

人類目前使用大約6900種不同的語言。但使用漢語、英語、北印度語、西班牙語和俄語這5種語言的人佔了全球人口的一半以上。事實上，95％的人只使用100多種語言進行交流。

另外一個不為人知的事實是，根據語言學家估計，世界上約有三分之一的語言僅由不到1000人使用，而且在未來一個世紀這些語言面臨失傳的危險。這些小眾語言所體現的獨特的文化遺產，像傳統故事、短語、笑話、傳統草藥，甚至獨特的情感也會隨著語言的失傳而消失。

圖丨世界語言樹

在這個處處連接的互聯網世界裡，人與人之間的溝通和交流變得無比的方便快捷。但現在的問題是，語言的差異仍然像是一道深不可測的鴻溝擺在擁有不同文化背景的人們面前。

作為全球最大的社交巨頭，Facebook自誕生起就在血脈深處蘊藏著開放和連接的基因，他們的使命就是打破藩籬、重構起互通互聯的「巴別塔」，使每個人都可以以最準確、最快速的方式接觸到全球範圍內的信息。

而要實現這一目標，第一步就是解決不同語言之間的轉換問題。人工翻譯已經遠遠不可能滿足當今世界所產生的海量信息流，那麼，是否能有一種快速而準確的技術決絕方案，能替代人類去完成不同語言間的轉換？

就在今天，Facebook人工智慧研究中心（FAIR）發布了使用全新的卷積神經網路（CNN）進行語言翻譯的研究結果。據悉，這種新方法能夠以現有的循環神經網路系統9倍的速度進行翻譯，而且翻譯的準確性還會得到大幅的提高。

卷積神經網路（CNN）最早是由深度學習領域的權威人物Yann LeCun在幾十年前所發明的，在以圖像處理為代表的的機器學習應用中表現的非常成功。但在語言翻譯方面，由於對準確性的追求，往往會將循環神經網路（RNN）作為首選的技術。

圖丨Facebook人工智慧研究院院長、紐約大學終身教授Yann LeCun

但儘管如此，RNN在設計上所固有的局限性還是制約了它在語言翻譯和文本處理上的進一步應用。

舉例來講，計算機在進行文本翻譯的時候，通常是根據一種語言的句子來判斷在另一種語言里同義單詞的排列順序。但循環神經網路只能以從左到右（或從右到左）的順序逐字進行翻譯，這就和深度學習中多GPU並行的計算模式十分不契合，必須要等到上一個詞翻譯完之後，下一個詞才可以繼續，實際上也就相當於造成了神經網路計算能力的浪費。

與之對比，CNN就表現出很大的優勢，它可以充分利用多GPU並行計算的能力，同時處理多個語言片段，顯然效率會得到大大提升。除此以外，CNN的另一個優勢就是其所具備的信息分層處理能力，這對於海量信息中的複雜關係歸納匯總十分有利。

圖丨CNN與RNN區別簡明圖示

在以往的研究中，CNN在翻譯上的應用並沒有引起Facebook的重視。不過，FAIR團隊意識到了這一技術的潛力，他們通過搭建翻譯模型驗證了CNN極佳的翻譯表現，如果在未來這一能力可以得到釋放的話，那麼精準、高效翻譯全球6900餘種語言將不再是夢想，人類文化的「巴別塔」將在技術的基石之上重建。

Facebook的全新翻譯系統到底表現如何？

在由機器翻譯大會（WMT）提供的公開標準數據包上的測試表現來看，Facebook全新的翻譯系統的性能要遠超RNNs2。尤其是在CNN模式下的WMT 2014 英語-法語測試中，要比之前的最佳紀錄提高了1.5個BLEU值。BLEU（Bilingual Evaluation Understudy）是運用最廣泛的機器翻譯準確度評判標準，系統認為，機器翻譯結果越接近人工翻譯，那麼翻譯質量就越高。

圖丨機器翻譯評判標準之一的BLEU

此外，Facebook全新的翻譯系統在WMT 2014 英語-德語測試中，將此前的紀錄提高了0.5個BLEU值，在WMT 英語-羅馬尼亞語測試中，也將最好成績提高了1.8個BLEU值。

神經網路在機器翻譯這種實際應用中表現的衡量標準還包括，系統接收到一個句子後，會花多長時間翻譯出來。Facebook全新的CNN模型擁有非常高效的計算能力，比已經很強大的RNN系統還要快9倍。Facebook的研究團隊主要將精力放在了通過量化權重和蒸餾等方法來加速神經網路，這些方法其實潛力極大，在未來還將進一步大幅提高CNN模型的速度。

Facebook全新架構中的一個顯著特徵在於multi-hop注意力機制。這種機制類似於人類在從事翻譯工作時，會將句子進行分解，而不是一次將句子看完，然後頭也不回的直接進行翻譯。這個神經網路也會在翻譯過程中不斷的回頭看句子，並選擇接下來要翻譯的詞語。

這一點與人類在翻譯過程中會經常回顧句中的關鍵詞的行為非常類似，比如，首次回顧關注的是動詞，那麼第二次回顧時就會關注相關的助動詞。

圖丨One-Hop與Multi-Hop對比

該系統的另一個重點是「門控」（Gating），它控制神經網路中的信息的具體流向，給它們指定最佳的處理單元，從而得到最好的翻譯結果。打個比方，如果說神經網路會要做的是搜集所有已經完成的翻譯結果，那麼門控要做的就是進行精確地篩選，使它最適合當前的語境。

但是，也開始有越來越多的人擔憂，經常使用機器去翻譯某些常用的特定語言，會使得那些不常使用的語言被進一步邊緣化。這就是為什麼機器翻譯其實有可能會加速瀕危語言、甚至文化的消亡。

語言學家們舉了一個通俗的例子，比如衛星電視服務，那些經常被電視台使用的語言會逐漸變得更流行更受歡迎，而不經常出現的語言則會漸漸被人們遺忘。

技術的進步是否會進一步加速小眾語言、甚至文化的消亡？

Google、Facebook等科技巨頭們正在研發的機器學習技術將極大加快不同主流語種間的轉換效率，這個已經沒有疑問了，但它是否能成為保護小眾語言的利器？

圖丨語言學家Sebastian Drude 在研究巴西的印第安語言Awetí

這是一個很有遠見的設想，但問題是機器翻譯依賴於大量被標記的數據。這些數據集是由人工翻譯的各種語言的大量書籍、文章和網站組成。機器學習演算法就像羅塞達石碑（石碑上用希臘文字、古埃及文字和當時的通俗體文字刻了同樣的內容）一樣，數據集越大，學習效果越好。

然而對於大多數語言來說，這種龐大的數據集根本不存在。這就是為什麼目前機器翻譯只能夠翻譯最常見的幾種語言。例如，Google翻譯只能處理90種語言。

圖丨谷歌翻譯

因此語言學家面臨的一個重要挑戰就是需要找到一種方法，可以自動分析那些小眾語言，以便讓計算機更好地理解它們。

最近，德國慕尼黑大學的Ehsaneddin Asgari和Hinrich Schutze表示他們已經在這方面取得了關鍵性突破。他們展示的新方法揭示了幾乎適用於任何語言的重要元素，這些元素可以很好地幫助機器翻譯。

這個新技術是基於一個已被翻譯成至少2000種不同的語言的單一文本：《聖經》，語言學家早已認識到它的重要性。

因此，他們創建了一個名為「平行《聖經》語料庫」的資料庫，這其中包含了用1169種語言翻譯的《新約》。然而這個數據集還不足以用於Google和其他商用機器翻譯系統。所以，Asgari和Schutze提出了另一種方法：分析不同語言中，各種時態的表達方式。

大多數語言都會使用特定的單詞或字母組合來表示時態。所以這個新方法的小技巧是利用人工去識別一些語言中時態出現的信號，然後採用數據挖掘來搜索其他語言，找到扮演相同角色的單詞或字元串。

例如，在英文中，進行時是用「is」來表示，將來時態用「will」，而過去時用「was」。當然這些詞也有其他含義。

Asgari和Schutze的想法是在《聖經》的英文翻譯中找到所有這些詞，以及其他語言中相對應的例子。然後查找在其他語言中扮演相同角色的單詞或字母串。例如，字母「-ed」在英語中也表示過去時態。

值得注意的是，Asgari和Schutze不是以英語作為一開始的基準。因為英語是一種比較古老的語言，有許多例外的情況，這會使得機器很難學習。

圖丨古英語寫成的文章

相反，他們從根據其他語言混合發展而成的克里奧爾語系（Creole Language）開始。因為這種語言出現得較晚，它還沒有足夠長的時間來發展出豐富的語言特質。這意味著它們通常包含更明顯的語言特徵標記，譬如時態。

兩位德國學者表示：「我們的依據是，克里奧爾語比其他語言更為規範，因為這個語系很年輕，並沒有積累那些容易讓計算分析更複雜的『歷史包袱』。」

圖丨克里奧爾語於17-18世紀出現於北美和加勒比海地區，用於歐洲殖民者與奴隸的交流

這其中之一是塞席爾（Seychelles）克里奧爾語，它使用「ti」這個詞來表示過去時。例如，「mon travay」是指「I work」，而「mon ti travay」意味著「I worked」，「mon ti pe travay」意思是「I was working」。所以對於判斷過去時來說，「ti」是一個很好的指示符列表。

Asgari和Schutze編譯了10種其他語言的過去時態指示符列表，然後在「平行《聖經》語料庫」中，把用於執行相同功能的其他語言的單詞和字元串挖掘出來。對於現在進行時和一般將來時他們也採用了相同的方法。

實驗的結果非常有趣，這項技術揭示了與一般常用語言有關的語言學結構，並創建一張關聯圖，顯示使用相似時態結構的語言是如何聯繫的（如下圖）。

圖丨上圖顯示了100種語言的過去時態指示符是如何聚類在一起的

Asgari和Schutze開發的機器學習演算法可用來分析人們在超過1000種語言中使用過去、現在和未來時態的方式。這是迄今為止最大的跨語言計算研究，所涉及的語言數量比其他類型的研究甚至大一個數量級。這項工作有很重要的應用價值。語言時態關聯圖允許研究人員快速找出不同語言之間的關係以及它們是如何聯繫的，這可以用來更好地理解語言的進化與演變。Asgari和Schutze表示：「我們所需的只是幾千種語言的語言特徵，而不是要求這幾千種語言被完全標記。」

機器學習在語言學領域的應用，對我們理解語言本身、世界變化的方式，以及「機器如何理解語言」將產生深遠的影響。這個新興的學科使得許多語言能夠直接以文字和語音的形式翻譯成其他語言。

事實上，這個新興學科的目的就是通過人工智慧技術，來實現機器的即時翻譯，最終勝過人類的同聲傳譯，甚至更進一步幫助全球各種語言使用者們實現無障礙交流。