Facebook用CNN做機器翻譯

陳樺 編譯整理

量子位 報道 | 公眾號 QbitAI

翻譯一直是Facebook人工智慧研究中最重要的應用之一。畢竟,Facebook的總目標是「讓世界更開放、更互聯」。對於這種目標的實現,多種多樣的語言是一個明顯的障礙。為了跨越這一障礙,Facebook本周公布了一種創新的機器學習翻譯方法,據稱速度比競爭對手快9倍。

目前,這項工作仍停留在研究階段,Facebook公開了論文,並在GitHub上開源了相關代碼。

但該技術尚未被集成至Facebook的產品,Facebook人工智慧實驗室的研究人員Michael Auli和David Grangier等人在接受科技媒體TheVerge採訪時表示,未來Facebook將會把這項技術應用於產品。目前,Facebook已經使用人工智慧去自動翻譯用戶的狀態更新。不過,新技術從實驗室階段走到實際應用總是需要花一定時間。

「我們正在與產品團隊溝通,希望將這項成果用於Facebook的環境。」Grangier表示,「對語言來說,從研究數據轉移至真實環境將帶來不同。研究數據用的是新聞風格的語言,而Facebook上的會話則更口語化。」Facebook此前表示,該公司正在建設俚語辭彙表,讓這樣的翻譯更簡單。

這一項目的研究人員們在Facebook官方博客發表的文章稱,通常情況下,人工智慧翻譯依靠遞歸神經網路,即RNN,而這種新技術利用了卷積神經網路,即CNN。

RNN以線性方式分析數據,對於一個句子將從左至右進行閱讀,並逐個單詞地翻譯。與此不同,CNN同時關注數據的不同方面,這樣的計算方式更適合GPU硬體,而GPU是用於訓練當代神經網路的主要工具。

因此,使用CNN模型進行翻譯意味著更多地從整體著眼,可以分析更高層次的句子結構。Auli表示:「在文字的基礎上,CNN建立起了邏輯結構,有些類似於語言學分析。」

Facebook的CNN機器翻譯包括兩個步驟:系統讀取一個法語短語(編碼器),然後輸出一個英語翻譯(解碼器)。也就是說,首先,編碼器用CNN同時為每個法語詞創建一個向量,然後,解碼器逐個生成英語詞。每一步,網路的注意力(attention)都會關注整個法語短語,來決定在生成下一個英語詞的過程中,哪些法語詞是最相關的。

博客文章中用一張動圖簡單展示了這個系統的工作原理:

解碼器有兩層,上圖展示了注意力在其上如何運行。綠色線條的深度表示每個詞的相關程度。

關於這項技術為何沒有被更廣泛地應用,Grangier指出,人工智慧研究者已經在RNN翻譯模型方面投入了大量精力,因此更喜歡在此基礎上進行改進。他表示:「簡單來說,這是因為人們沒有在這項技術中投入太多時間。我們取得了一些新進展,讓這項技術變得更好。」

相關資源

FB官方博客介紹:code.facebook.com/posts

論文:fb.me/convolutional-s2s

代碼:facebookresearch/fairseq

(完)

==========

One More Thing…

今天AI界還有哪些事值得關注?在量子位(QbitAI)公眾號對話界面回復「今天」,看我們全網搜羅的AI行業和研究動態。筆芯~


推薦閱讀:

模型匯總17 基於Depthwise Separable Convolutions的Seq2Seq模型_SliceNet原理解析
DeepL Translator | 人工智慧輔助翻譯
戰勝棋手只是開始,AI 下一步要挑戰「翻譯官」
《Unsupervised Machine Translation Using Monolingual Corpora Only》閱讀筆記
怎樣「訓練」地表最強機譯系統?

TAG:Facebook | 机器翻译 | 卷积神经网络CNN |