【AI里程碑】機器翻譯系統提前7年達到人類專業翻譯水平！

04-22

【新智元導讀】微軟今天宣布其研發的機器翻譯系統首次在通用新聞翻譯的漢譯英達到了人類專業水平，超越業餘譯者，實現了自然語言處理里程碑突破。

由微軟亞洲研究院與雷德蒙研究院的研究人員組成的團隊今天宣布，其研發的機器翻譯系統在通用新聞報道的中譯英測試集上，達到了人類專業譯者水平。這是首個在新聞報道的翻譯質量和準確率上媲美專業譯者的翻譯系統。

微軟技術院士，負責微軟語音、自然語言和機器翻譯工作的黃學東博士表示，這是自然語言處理領域的一項里程碑式的成就。「這是我們的情懷，是非常有意義的工作，」黃學東告訴新智元：「消除語言障礙，讓人們能更好地溝通，非常有意義，值得我們多年來不斷為此付出努力。」

微軟技術院士黃學東

黃學東驕傲地說，2015 年微軟率先在圖像識別上在 ImageNet 數據集達到人類水平，2016 年在 Switchboard 對話語義識別達到人類水平，2017 在斯坦福問答數據集 SQuAD 上達到人類水平，今天又在機器翻譯上達到人類水平，一路走來，微軟的進步激動人心，「這是我們共同的成就，我們是站在同行的肩膀上往上走」。

黃學東表示，微軟語音和 NLP 組在成立時，便立下了要在兩年後將機器翻譯做到人類專業水平的目標。如今，這一目標提前實現，「除了計算力的大幅提高，深度學習方法的提高，我們還結合了以前在 Switchboard 上取得的經驗，數據也做了很多整理，比如去除低質量的訓練數據，等等。」黃學東說。

「這既是技術上的突破，也是工程上的突破，是技術和工程的完美結合，只有把過程中的每一件事情都做好，才能得到這樣的結果。」

里程碑式突破：首個媲美人類專業水平的機器翻譯系統

這次微軟的翻譯系統是在數據集 WMT-17 的新聞數據集 newstest2017 上取得了上述成果。WMT 是機器翻譯領域的國際頂級評測比賽之一。WMT 數據集也是機器翻譯領域一個公認的主流數據集。其中，newstest2017 新聞報道測試集由產業界和學術界的合作夥伴共同開發，包括來自新聞評論語料庫的約 332K 個句子對，來自聯合國平行語料庫的 15.8M 個句子對，以及來自 CWMT 語料庫的 9M 個句子對。

雖然研究人員只進行了漢譯英的測試，但黃學東表示，英譯漢結果也應該並無不同。「從技術上說，漢譯英和英譯漢是相同的，只要有足夠的數據。」

為了確保翻譯結果準確且達到人類的翻譯水平，微軟研究團隊還邀請了雙語語言顧問，將微軟的翻譯結果與兩個獨立的人工翻譯結果進行了比較評估（全部盲測）。黃學東告訴新智元：「當機器翻譯質量很差的時候，使用 BLEU 評分還行，但是當機器翻譯質量提高以後，就需要靠人類來評價。」

具體說，當 100 分是標準滿分時，微軟的系統得分 69.9，專業譯者 68.6，而眾包翻譯得分為 67.6。

完整評估結果

機器翻譯提前 7 年超越業餘譯者，人工智慧再下一城

機器翻譯是科研人員攻堅了數十年的研究領域，曾經很多人都認為機器翻譯根本不可能達到人類翻譯的水平。

2017年中旬，牛津大學面向機器學習研究人員做了一次大規模調查，調查的內容是他們對 AI 進展的看法。這些研究人員預測，未來10年，AI 將在許多活動中超過人類，具體預測見下表：

微軟的這次突破，將機器翻譯超越人類業餘譯者的時間，提前了整整 7 年，大大超出了 ML 研究人員的預想。

雖然此次突破意義非凡，但研究人員也提醒大家，這並不代表人類已經完全解決了機器翻譯的問題，只能說明我們離終極目標又更近了一步。微軟亞洲研究院副院長、自然語言計算組負責人周明表示，在 WMT17 測試集上的翻譯結果達到人類水平很鼓舞人心，但仍有很多挑戰需要我們解決，比如在實時的新聞報道上測試系統等。

微軟機器翻譯團隊研究經理 Arul Menezes 表示，團隊想要證明的是：當一種語言對（比如中 - 英）擁有較多的訓練數據，且測試集中包含的是常見的大眾類新聞辭彙時，那麼在人工智慧技術的加持下機器翻譯系統的表現可以與人類媲美。

突破當前NMT範式局限，新聞漢英翻譯性能再上一個數量級

在這篇有 24 位作者的論文《機器翻譯：中英新聞翻譯方面達到與人類媲美的水平》（Achieving Human Parity on Automatic Chinese to English News Translation ）中，作者描述了他們為新聞漢英翻譯任務在規模數據集上實現人類水平所作的努力，表示他們解決了當前NMT 範式的一些限制。

本研究的主要貢獻是：

我們利用翻譯問題的對偶性（duality），使模型能夠從源語言到目標語言（Source to Target）和從目標語言到源語言（Target to Source）這兩個方向的翻譯中學習。同時，這允許我們同時從有監督和無監督的源數據和目標數據中學習。具體而言，我們利用通用的對偶學習（dual learning）方法，並引入聯合訓練（Joint Training）演算法，通過在一個統一的框架中反覆提高從源語言到目標語言翻譯和從目標語言到源語言翻譯的模型，從而增強單語源和目標數據的效果。
NMT 系統從左到右自動回歸解碼，這意味著在按順序生成輸出期間，之前的錯誤將被放大，並可能誤導後續生成的結果。這隻能部分通過波束搜索（beam search）進行補救。我們提出了兩種方法來緩解這個問題：推敲網路（Deliberation Networks）是一種基於雙路解碼來優化翻譯的方法；以及在兩個 Kullback-Leibler（KL）散度正則化項上的新訓練目標，鼓勵從左到右和從右到左的解碼結果變得一致。
由於 NMT 非常容易受到嘈雜訓練數據、數據中的罕見事件以及總體訓練數據質量的影響，論文還討論了數據選擇和過濾的方法，包括跨語言句子表示。
最後，我們發現我們的系統是完全互補的，因此可以從系統組合中獲益很多，最終實現了機器翻譯達到人類水平的目標。

在這個工作中，我們 source-to-target 和（Zh→En）來表示中翻英; target-to-source 和（En→Zh）來表示英翻中。

四大技術加持，神經機器翻譯將成今後機器翻譯的絕對主流

雖然學術界和產業界的科研人員致力於機器翻譯研究很多年，但近兩年深度神經網路的使用讓機器翻譯的表現取得了很多實質性突破，翻譯結果相較於以往的統計機器翻譯結果更加自然流暢。為了能夠取得中 - 英翻譯的里程碑式突破，來自微軟亞洲研究院和雷德蒙研究院的三個研究組，進行了跨越中美時區、跨越研究領域的聯合創新。

其中，微軟亞洲研究院機器學習組將他們的最新研究成果——對偶學習（Dual Learning）和推敲網路（Deliberation Networks）應用在了此次取得突破的機器翻譯系統中。其中，對偶學習利用的是人工智慧任務的天然對稱性。當我們把訓練集中的一個中文句子翻譯成英文之後，系統會將相應的英文結果再翻譯回中文，並與原始的中文句子進行比對，進而從這個比對結果中學習有用的反饋信息，對機器翻譯模型進行修正。

而推敲網路則類似於人們寫文章時不斷推敲、修改的過程。通過多輪翻譯，不斷地檢查、完善翻譯的結果，從而使翻譯的質量得到大幅提升。「我們在深度學習和自然語言這兩者中間找到了一個平衡點，我們想通過對機器翻譯的研究，從自然語言的角度對機器學習做進一步的理解，找到一些直覺，再通過這個直覺反過來影響機器學習研究的路線，走出盲目嘗試的狀態。」微軟亞洲研究院副院長、機器學習組負責人劉鐵岩說。

那研究人員從推敲網路中獲得的直覺是什麼呢？他們發現，人在做翻譯的時候，在看見或聽完源語言後，腦子裡會形成一個觀點，這其實就是編碼的過程。但是，我們真正把這句話當成目標語言講出來，實際上是三思而後行的。我們不會一個字一個字往出蹦，我們會先醞釀一下要怎麼講，如果是文字翻譯，還可能不斷地修改，讓語句更加通順或者優美。

「我們常常說，人會做推敲的事情，是『僧敲月下門』還是『僧推月下門』，要琢磨琢磨，上下文關係用哪個字更好，如何在一個機器學習的模型中將這種推敲過程體現出來，就是推敲網路所要去嘗試的一個點。」劉鐵岩告訴新智元。

推敲，也就是在解碼器，或者說在文本生成的過程多做點文章，把人的一些直覺放進去。「在我們的 DeliberationNet 裡面，解碼器是有多層的，解碼器先做一遍，可能翻譯得不太好，但從頭到尾翻譯完了，這句翻譯會再扔給下一個解碼器再做一遍，這個過程可以不斷反覆，不停地去修改之前翻譯的完整結果，這其實就在做推敲。我們發現，這樣推敲後的結果比只過一次要好很多，多過一次時間代價會增多，但是結果會更好。」

微軟亞洲研究院副院長、機器學習組負責人劉鐵岩

周明帶領的自然語言計算組多年來一直致力於攻克機器翻譯，這一自然語言處理領域最具挑戰性的研究任務。周明表示，「由於翻譯沒有唯一的標準答案，它更像是一種藝術，因此需要更加複雜的演算法和系統去應對。」

自然語言計算組基於之前的研究積累，在此次的系統模型中增加了另外兩項新技術：聯合訓練（Joint Training）和一致性規範（Agreement Regularization），以提高翻譯的準確性。聯合訓練可以理解為用迭代的方式去改進翻譯系統，用中英翻譯的句子對去補充反向翻譯系統的訓練數據集，同樣的過程也可以反向進行。一致性規範則讓翻譯可以從左到右進行，也可以從右到左進行，最終讓兩個過程生成一致的翻譯結果。

微軟亞洲研究院副院長、自然語言計算組負責人周明

這次使用的技術，從對偶學習（Dual Learning）、推敲網路（Deliberation Network）到一致性規範（Agreement Regularization），都屬於神經機器翻譯（NMT）方法。而黃學東也認為，今後的機器翻譯領域，NMT 也將成為絕對主流。「相比統計機器翻譯，神經機器翻譯有一個很大的提高，而這次我們新的系統，相比普通的神經機器翻譯，又有一個很大的提高。」

黃學東說：「我們這次的系統是把很多不同的機器翻譯系統組合到一起，這些系統每一個都能獨立工作，輸出結果，最終，我們再將這些結果綜合起來，輸出一個最好的結果。」

沒有「正確的」翻譯結果，深度學習 NLP 掌握著實現強人工智慧的鑰匙

對於語音識別等其它人工智慧任務來說，判斷系統的表現是否可與人類媲美相當簡單，因為理想結果對人和機器來說完全相同，研究人員也將這種任務稱為模式識別任務。

然而，機器翻譯卻是另一種類型的人工智慧任務，即使是兩位專業的翻譯人員對於完全相同的句子也會有略微不同的翻譯，而且兩個人的翻譯都不是錯的。那是因為表達同一個句子的「正確的」方法不止一種。周明表示：「這也是為什麼機器翻譯比純粹的模式識別任務複雜得多，人們可能用不同的詞語來表達完全相同的意思，但未必能準確判斷哪一個更好。」

複雜性讓機器翻譯成為一個極有挑戰性的問題，但也是一個極有意義的問題。劉鐵岩認為，我們不知道哪一天機器翻譯系統才能在翻譯任何語言、任何類型的文本時，都能在「信、達、雅」等多個維度上達到專業翻譯人員的水準。不過，他對技術的進展表示樂觀，因為每年微軟的研究團隊以及整個學術界都會發明大量的新技術、新模型和新演算法，「我們可以預測的是，新技術的應用一定會讓機器翻譯的結果日臻完善。」

研究團隊還表示，此次技術突破將被應用到微軟的商用多語言翻譯系統產品中，從而幫助其它語言或辭彙更複雜、更專業的文本實現更準確、更地道的翻譯。此外，這些新技術還可以被應用在機器翻譯之外的其他領域，催生更多人工智慧技術和應用的突破。

黃學東認為，深度學習最激動人心的地方在於，它能夠學會自然語言內部的 embedded feature，把語言的結構，語義結構和語義的表示學習出來，再反饋到系統，從而實現自然語言理解的突破。

「機器學習需要很多數據，NLP 沒有很多標註的數據，把表示學習出來，還能推廣到到其他系統。」黃學東說：「NLP 掌握著今後實現強人工智慧的鑰匙。」

延伸閱讀：

對偶學習（Dual Learning）：對偶學習的發現是由於現實中有意義、有實用價值的人工智慧任務往往會成對出現，兩個任務可以互相反饋，從而訓練出更好的深度學習模型。例如，在翻譯領域，我們關心從英文翻譯到中文，也同樣關心從中文翻譯回英文；在語音領域，我們既關心語音識別的問題，也關心語音合成的問題；在圖像領域，圖像識別與圖像生成也是成對出現。此外，在對話引擎、搜索引擎等場景中都有對偶任務。

一方面，由於存在特殊的對偶結構，兩個任務可以互相提供反饋信息，而這些反饋信息可以用來訓練深度學習模型。也就是說，即便沒有人為標註的數據，有了對偶結構也可以做深度學習。另一方面，兩個對偶任務可以互相充當對方的環境，這樣就不必與真實的環境做交互，兩個對偶任務之間的交互就可以產生有效的反饋信號。因此，充分地利用對偶結構，就有望解決深度學習和增強學習的瓶頸——訓練數據從哪裡來、與環境的交互怎麼持續進行等問題。

論文地址：https://papers.nips.cc/paper/6469-dual-learning-for-machine-translation.pdf

對偶無監督學習框架

推敲網路（Deliberation Networks）：「推敲」二字可以認為是來源於人類閱讀、寫文章以及做其他任務時候的一種行為方式，即任務完成之後，並不當即終止，而是會反覆推敲。微軟亞洲研究院機器學習組將這個過程沿用到了機器學習中。推敲網路具有兩段解碼器，其中第一階段解碼器用於解碼生成原始序列，第二階段解碼器通過推敲的過程打磨和潤色原始語句。後者了解全局信息，在機器翻譯中看，它可以基於第一階段生成的語句，產生更好的翻譯結果。

論文地址：https://www.microsoft.com/en-us/research/publication/deliberation-networks-sequence-generation-beyond-one-pass-decoding/

推敲網路的解碼過程

聯合訓練（Joint Training）：這個方法可以認為是從源語言到目標語言翻譯（Source to Target）的學習與從目標語言到源語言翻譯（Target to Source）的學習的結合。中英翻譯和英中翻譯都使用初始並行數據來訓練，在每次訓練的迭代過程中，中英翻譯系統將中文句子翻譯成英文句子，從而獲得新的句對，而該句對又可以反過來補充到英中翻譯系統的數據集中。同理，這個過程也可以反向進行。這樣雙向融合不僅使得兩個系統的訓練數據集大大增加，而且準確率也大幅提高。

論文地址：https://arxiv.org/pdf/1803.00353.pdf

聯合訓練：從源語言到目標語言翻譯（Source to Target）P(y|x) 與從目標語言到源語言翻譯（Target to Source）P(x|y)

一致性規範（Agreement Regularization）：翻譯結果可以從左到右按順序產生，也可以從右到左進行生成。該規範對從左到右和從右到左的翻譯結果進行約束。如果這兩個過程生成的翻譯結果一樣，一般而言比結果不一樣的翻譯更加可信。這個約束，應用於神經機器翻譯訓練過程中，以鼓勵系統基於這兩個相反的過程生成一致的翻譯結果。

一致性規範：從左到右

和從右到左

相關資料：

閱讀研究論文：《機器翻譯：中英新聞翻譯方面達到與人類媲美的水平》
試用該系統
試用微軟翻譯工具（Microsoft Translator）
微軟推出Presentation Translator演講實時翻譯字幕功能
微軟推出中文學習AI助手Microsoft Learn Chinese