目前,主流的人工智慧機器翻譯團隊在近一年內主要突破和攻關的技術方向是?

本題已收錄至知乎圓桌:機器之能 X 語言之美,更多「人工智慧」相關話題歡迎關注討論。


基本上大家對神經網路機器翻譯的工業化不再有任何疑問。在這一年裡幾乎所有的主流機器翻譯團隊都拋棄了早期的統計機器反映方法,全面投入神經網路機器翻譯研究。大體上這一年的成果可以分為兩部分:基礎研究和應用研究。在基礎研究上,最令人興奮的是突破了RNN的限制,在模型結構上取得了很大的突破。例如Facebook的 Convolutional Sequence to Sequence Learning,採用了CNN而不是RNN架構,而谷歌的Attention is All You Need 則完全採用注意力模型來實現機器翻譯。另外值得一提的是MIT CSAIL利用Quasi-RNN 提高基於RNN的模型的訓練速度的工作Training RNNs as Fast as CNNs。這些方法都帶來了訓練速度的極大提升,因為其模型結構可以更有效地並行化。當然其翻譯質量在大多數情況下都是漸進式的進步,並沒有帶來質量的大飛躍。由於模型參數的數量不同,訓練方法不同,現在對於各種模型結構的評測在很多情況下是不太好比較的。但是模型結構的發展為機器翻譯帶來了眾多可能性。更有效的並行化意味著可以更加高效地利用高度並行化的加速硬體如GPU/TPU,訓練更大的模型,處理更多數據,其意義是不容低估的。

同時,推理階段(Inference)的加速也是研究熱點之一,來自Cho 的 Trainable Greedy Decoding for Neural Machine Translation 是一個典型代表。我們知道Beam Search是神經網路機器翻譯推理過程的一大命門,不但因為Beam的大小直接決定了計算量,Beam Search的邏輯判斷運算使得GPU/TPU加速性能幾句下降,因此過去一年及今後一段時間,很多團隊都會努力去殺死Beam Search。

應用研究就豐富得多,從數據獲取,數據清理,多語言模型,Zero-Shot,完全無監督學習等。難以一一列舉。在這裡總結地說一下:許多主流團隊都已經做了很久的統計機器翻譯,並且擁有了自己的數據流水線。然而這些數據流水線往往都是針對統計機器翻譯優化的。神經網路機器翻譯出現以後大家往往都是直接拿著現有數據流水線直接上。當模型結構基本固定之後,再回頭審視數據獲取和預處理方法往往並不是最優的。重新研究針對神經網路機器翻譯的數據獲取也是一個重要方向。例如DeepL,從一家主要做數據的公司,在短短半年時間裡成為機器翻譯技術領先的公司之一,可見重新審視數據獲取的重要性。

最後,也有一些希望將語言學知識融合到機器翻譯中的方法,例如改進常用的Byte Pair Encoding (BPE),採用Dependency Tree或Constituency Tree做輸入或者輸出。個人認為這些工作在實際應用中效果有限(特別是對需要支持大量語言的情況)。


2017年是屬於人工智慧 AI 的一年,在 2018年 AI 必將會進一步深入影響各行各業。某種程度上 AI 也是一個必然會被過度消費的詞。在本地化行業,這種情況有點像十年前的"眾包",或者更早前當翻譯記憶庫剛剛出現的時候。還有SGML, 雖然後來 SGML 很快就被 XML 甚至 HTML 取代,但是當年在語言行業它也曾像今天的 AI 一樣風頭一時無兩。對於一個新技術,我們也許無法準確評估它的短期影響和長期影響,但是它絕對是一個大大小小的 LSP 都必須面對的話題。

Google 在2017年推出了自己的開源神經網路機器翻譯框架 tf-seq2seq,Facebook 和 Amazon 也推出了類似的開源神經網路機器翻譯工具 fairseq 和 Sockeye。 這意味著,任何規模的公司都可以利用這些開源資源在神經網路機器翻譯領域進行嘗試、試驗。這正是一個需要「協同」能力的工作。這也應驗了我們之前所說的:語言本地化行業對人才和技術的需求都在與時俱進。


個人愚見:要想知道突破口,還是得回到問題的起點,我們真正要實現人工智慧翻譯僅僅是為了現在叫的熱鬧好玩還是為了要解決問題,是為了僅僅輔助人類翻譯還是為了代替人類實現自主。如果是輔助,那人類的必然優勢在於情感的傳遞和知識的積累。那機器的輔助功能自然明確。如果是為了代替人類實現自主,那就解決怎麼讓機器明白什麼叫背景,什麼叫積累……


突破沒有,方向迷茫


人工智慧應用在翻譯上,準確率還有待進一步提升,難在哪些方面?www.zhihu.com圖標

跨越局限的問題,人工智慧不是單一科技,不能以單一學科去建造出來。

如果把人類的所有功能動作都用程序編寫出來,要多少容量?www.zhihu.com圖標

如果方向不正確,走錯了路,就會浪費資源。所以現時必需先重新審視團隊的架構。

目標不是某項或多項技術的攻關,而是如打遊戲BOSS一樣,我們是否已經清楚對方的行動模式?

如果不是,怎麼制定策略去攻關?

如果翻譯團隊的目標是要建造一個能取代人類的翻譯工具,首先要理解語言與人類的關係。

人工智慧技術的突破在於懂得參考生物大腦,抄襲大自然工程師的設計,也應該抄得準確一點。


謝邀。問題中的「技術方向」我真回答不了……但作為非人工智慧技術人才,從用戶體驗的角度講講還是可以的。

我在譯言網工作,有一大業務是做人工翻譯,所以對機器翻譯產品也一直保持關注,基本全部都測試過,可以肯定的是從去年下半年開始,機翻的水平進步非常顯著。

但粗略看,還是有些問題:

  1. 複雜句語法分析錯誤;
  2. 斷詞錯誤,漏掉關鍵字、詞、定狀補語等;
  3. 看翻譯結果是不錯的,但放在工作環境中,機翻並沒有特別顯著地提高翻譯效率。

個人看法,現在機器能做到初翻,比如翻譯標題、簡介、新聞內容框架等,非常了不起。在能預見的幾年,人機協同,不斷通過優質的人工翻譯數據優化機器翻譯,是必須的。

未來,不好說……祈禱機器需要我們吧……


推薦閱讀:

本科數學,想從事人工智慧或大數據方面的工作,該怎麼規劃?
國際象棋和圍棋都已經進行過「人機大戰」了,之後還有什麼遊戲值得人工智慧挑戰嗎?
身為程序員, 2017年你有什麼一定想實現的願望?
你覺得Alpha Go 對李世石會幾比幾贏?
機器學習中如何處理缺失數據?

TAG:人工智慧 | 谷歌Google | 翻譯 | 機器翻譯 | 神經機器翻譯NMT |