全網多領域機器翻譯首上線——新譯智能翻譯更新上線

2014年到2018年,機器翻譯領域可以說是翻天覆地。這期間發生的大事,是以神經網路作為基礎的神經網路機器翻譯(NMT),開始在全面超越此前以統計模型為基礎的統計機器翻譯(SMT),並快速成為在線翻譯系統的主流標配。

NMT的基本思想,是以每一個句子作為獨立的神經元,從而打破傳統基於短語的翻譯障礙。此外,NMT跳過傳統基於短語的機器翻譯中間各種子NLP步驟(分詞、詞性標註、句法分析等),用深層的網路結構去直接學習擬合源語言到目標語言的概率,可以實現監督訓練,不必完全依賴固定數據,這可以在專業領域等資料稀少的環節,獲得更好的翻譯結果 。

圖1:人工智慧能技術圖譜

新譯科技專註人工智慧文本領域(自然語言理解),自2014年成立以來一直致力於機器翻譯質量的不斷提升和改進,不斷為B端G端用戶提供強有力的支撐服務。新譯科技深圳公司機器翻譯技術團隊,歷經四個月再次更新完善一版,該版本不論訓練效率還是解碼速度和質量都較前一版有較大提升,從技術工程層面看,該次系統較2016年6月和2015版本有如下改變:

支持GPU多卡訓練

該次升級主要對原有神經網路演算法的工程改進以及全部底層語言代碼的統一,事實上,近年來深度學習取得的許多進展都源於模型容量的增加和計算力的相應提升。模型容量增大,通常會涉及使用更大、更深的網路,而這些網路又需要複雜的超參數設置和調整。因此,不斷增大的模型和超參數數量也大大增加了訓練時間。快速的訓練是增量學習能夠實用的一個前提保證,所以儘可能的縮短訓練時間也是這次更新的重點。通過技術人員的測試,該次更新也支持了多卡訓練,讓單GPU訓練速度接近1.5-2倍的速度快於開源框架Theano, Tensorflow, Torch的訓練時間。我們以每秒鐘能夠處理的單詞數(中文為分詞後詞語)為評測標準,圖2中展示了多卡訓練的效果,在NVIDIA GTX 1080 TI的訓練中,我們發現隨著GPU卡數的增多,能夠每秒處理的單詞數不斷增多。現實測試發現,訓練效果比較明顯的是4卡同時訓練,增加到6卡的時候,提升幅度降低,但是仍然有所提高,能夠從單卡每秒4000到每秒15000單詞的效果,這樣可以大大提升我們的更新線上語言對的速度。當前在分散式集群訓練環境下,只需要3-5天的時間就可以訓練一個千萬句對的雙語數據。

圖2:多GPU卡訓練效率評測

支持CPU和GPU多卡解碼

同時本次系統也同時支持CPU和GPU解碼。在真實的B端和G端業務中,我們發現用戶對CPU和GPU均有需求,由於各種原因,部分用戶對GPU伺服器的採購是限制的,所以能夠在現有CPU伺服器上進行解碼實用就變得越來越重要。該次更新中,我們增加了對CPU和GPU同時支持,並且響應速度大幅提升。

  • 在CPU解碼中:
    • 第一版的統計機器翻譯(435詞/秒)解碼速度大約是統計神經網路混合模型(37詞/秒)的12倍。
    • 16線程解碼速度中,純神經網路機器翻譯(170詞/秒)是混合解碼速度( 37詞/秒)的4倍,是純統計模型的1/3;
    • 第二版純神經網路解碼速度(235詞/秒)是第一版速度的1.5倍( 170詞/秒);
  • 在GPU解碼中:
    • 第二版純神經網路單卡單線程解碼速度(830詞/秒)是第一版解碼速度( 235詞/秒)的3倍;
    • 第二版解碼中在BLEU大致相同的情況下,解碼空間從15降為8,速度最高為1128詞/秒;

圖4:新老版本CPU、GPU解碼速度評測

多領域翻譯支持

當前有一個共識就是垂直領域的機器翻譯要比通用的效果好。這次更新中,我們對公司現存的5.7億句中英雙語數據進行歸類整理,劃分出了25個領域(圖5)。最終選擇了,新聞、計算機、專利、生物醫學、法律合同、金融財經、旅遊口語、機械電子八個領域作為首批上線領域。

之所以優先選擇這幾類領域,是因為機器翻譯擅長是敘述性文本的表述和傳達,對於創作性內容(詩歌,散文)並不完美。而這幾個領域正好符合表述相對固定,容易被機器理解。不過有一點可以確定,雖然機器翻譯出來的結果並不能保證100%正確,但是有一部分句子翻譯的還是可以的,只需要翻譯人員和用戶稍作修改即可滿足所需。

圖5:25個中英平行語料庫領域劃分

效果評測

為了檢驗本次更新的效果,我們也使用公開的聯合國領域內數據(United Nations Parallel Corpus v1.0)(lrec-conf.org/proceedin )以及UM-Corpus(nlp2ct.cis.umac.mo/um-c )做了評測。其中公開的United Nations Parallel Corpus v1.0為1990年到2014年的數據,我們選擇了所有的外語到中文的雙語數據(英中、法中、西班牙中、阿拉伯語中、俄語中文),另外補充了2015-2016年的聯合國雙語數據每個語言對大約30萬句以及UM-Corpus的210萬句英中雙語數據。測試集合選擇United Nations Parallel Corpus v1.0中的公開測試集合開發集。圖6給出了以BELU值作為評測指標的對比圖。

圖6:新老版本NMT引擎對比

從圖6中的評測中可以看出,新版系統翻譯質量較上一版本提升效果明顯,基本都達到了2個BLEU值的提升(BLEU為機器翻譯中常用的自動評測方法,具體的內容新譯大講堂會陸續講解),最高能提升9個百分點。當然,自動評測雖然能從一定程度上能反應出同樣測試集,在不同系統中的性能,但是在實際的過程中,人工翻譯同樣也是一個很重要的指標。這裡劇透下我們合作機構的評測結果,專業的譯員對300句法律領域評測中顯示,有261句可以達到直接稍微修改即可使用的程度,其中有23句的漏譯(原文中某些短語片段不翻譯)和9句的過譯(某個短語片段會重複翻譯)問題,有7句需要大的修改,屬於機器翻譯錯誤。更多的測試,這裡我們留給廣大的用戶來評測和反饋。

此外,該次測試數據中,我們完善了UM-CORPUS中原有的數據,更正去除了其中的亂碼和錯誤的地方,並且補充了100萬句通用領域的雙語句對,供研究者學習使用。訓練數據我們將十一過後,隨著上線更多的語言通知中一起提供。

還是先來體驗下新譯新版機翻: fanyi.newtranx.com/


推薦閱讀:

Endowment - 永久性資助
翻譯質檢書:葉渭渠譯《雪國》(144)
【我譯網講座聽課筆記】擊破翻譯腔的乾貨,都在這裡了
【翻碩練習】:困境(譯文)
乾貨| 擁有4年翻譯經驗人的5點深刻體會

TAG:機器翻譯 | 翻譯 | 互聯網 |