「嘿,機器,你是怎麼做好翻譯的呀?」 「來,我畫給你看!」 | 論文訪談間 #01

「論文訪談間」是由 PaperWeekly 和中國中文信息學會青工委聯合發起的論文報道欄目,旨在讓國內優質論文得到更多關注和認可。

這是第 1 期「論文訪談間」

論文作者 | 丁延卓、劉洋、欒煥博、孫茂松(清華大學)

特約記者 | 吳酈軍(中山大學)

如果有一個功能神奇的「黑箱子」,你想不想打開它,好好研究一番?神經機器翻譯就是這麼一個「黑盒」,只要給它一句中文,就能將對應的英文順利地翻譯出來,如何才能一探其中的究竟呢?清華大學的丁延卓同學、劉洋老師、欒煥博老師和孫茂松老師在今年 ACL2017 上的工作就將這其中的奧秘「畫給你看」。

近年來,深度學習快速發展,神經機器翻譯(Neural Machine Translation)方法已經取得了比傳統的統計機器翻譯(Statistical Machine Translation)更為準確的翻譯結果。可是,深度學習這樣的複雜而又龐大的網路模型,就像一個摸不清的「黑箱子」,網路中只有浮點數的傳遞,到底背後包含著怎樣的語義、邏輯,一直困擾著研究人員對於神經機器翻譯的深入理解和分析。因此,如果能夠將網路可視化,找到網路中神經元之間的相關關係,將極大幫助人們探究神經機器翻譯中出現的各類錯誤,同時也能幫助指導如何調試更好的模型。

而就在今年的 ACL2017 上,清華大學的丁延卓同學、劉洋老師、欒煥博老師和孫茂松老師發表了論文「Visualizing and Understanding Neural Machine Translation」,借鑒視覺領域中的研究,首次將計算機視覺中 layer-wise relevance propagation(LRP)的方法引入到神經機器翻譯中,為注意力機制(attention mechanism)的編碼-解碼(encoder-decoder)神經機器翻譯模型提供了可視化以及可解釋性的可能。通過分析層與層之間的相關性,將這些關係「畫」了出來。「據我們所知,目前還沒有工作是在神經機器翻譯模型的可視化上。」作者告訴我們,現有的注意力機制被限制在只能證明源語言(source language)和目標語言(target language)之間存在關係,卻不能提供更多的信息來幫助了解目標語言的詞語是如何一步一步生成的;而相關性分析則能夠幫助理解這個過程,並且能夠分析任意神經元之間的關係。

Layer-wise relevance propagation(LRP)的方法到底是什麼呢?其實就是一個計算相關性,並將相關性逐層向後傳播的過程。首先將網路模型看成一個拓撲圖結構,在計算一個節點 a 和輸入的節點之間的相關性時,將 a 點的數值作為相關性,並且計算與 a 點相連的上一層節點在生成 a 點時所佔的權重,將 a 的相關性逐層向後傳播,直到輸入層。作者用下圖的例子告訴了我們:

▲ 圖1:Layer-wise Relevance Propagation 示例

如果要計算 v1 和 u1 之間的相關性,首先計算 v1 和 z1, z2 之間的相關性,再將 v1 和z1, z2 的相關性傳遞到 u1, 從而求得 v1 和 u1 之間的相關性。

通過這樣的計算,我們最終能「畫」出怎樣的相關性呢?讓我們來幾個例子(顏色越深表示相關性越強):

▲ 圖2:目標語言單詞"visit"對應的隱變數可視化圖

▲ 圖3:錯誤分析:不相關詞語"forge"與源句子完全不相關

圖 2 是在翻譯「我參拜是為了祈求」時中間的隱層 c2, s2 以及輸出層 y2 和輸入句子詞語之間的相關性,可以看到「visit」這個詞語正確的和「參拜」以及「my」的相關性更為強烈,因而正確的翻譯出了詞語「visit」;而圖 3 則表明「forge」(鍛造)這個詞語的隱層 c9, s9 和輸入的詞語都沒有正確的相關性並且跳躍,而在生成時 y9 也沒有和輸入有正確的相關性。

「通過對翻譯中出現的不同錯誤的相關性的可視化的觀察,我們的方法能夠幫助模型進行改造和更好的調試。」作者告訴我們,在將 LRP 的方法引入時其實也遇到了一些難點,比如圖像領域只是輸入圖像像素點,而機器翻譯中則是一串詞語,每個詞語都對應著一個長度或百或千的向量,對於計算相關性造成了困難;同時模型複雜,包含各種不同的計算運算元。而通過仔細地設計計算方法以及 GPU 的利用,也將困難一個個克服了。

「未來,我們希望將方法用於更多不同的神經機器翻譯模型中,另外也希望構建基於相關性分析的更好的神經機器翻譯模型。」對於未來的研究工作,他們也更為期待。

歡迎閱讀本篇論文:

Visualizing and Understanding Neural Machine Translation

關於中國中文信息學會青工委

中國中文信息學會青年工作委員會是中國中文信息學會的下屬學術組織,專門面向全國中文信息處理領域的青年學者和學生開展工作。

關於PaperWeekly

PaperWeekly是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平台。如果你研究或從事AI領域,歡迎在公眾號後台點擊「交流群」,小助手將把你帶入PaperWeekly的交流群里。

微信公眾號:PaperWeekly

新浪微博:@PaperWeekly


推薦閱讀:

GNMT(Google's Neural Machine Translation System) 閱讀筆記
AI 時代的媒體會是什麼樣
<模型匯總_3>深度學習中最貪玩的模型dual-learning NMT
神經機器翻譯工具——OpenNMT

TAG:深度学习DeepLearning | 自然语言处理 | 机器翻译 |