怎樣「訓練」地表最強機譯系統？

02-04

看過我先前的專欄文章的朋友，應該對我說的「TM（翻譯記憶庫）+MT（機器翻譯）」結合的混合翻譯模式有印象。

雖然我的MT引擎是「地球上最好的機器翻譯系統」——谷歌神經網路機器翻譯系統（GNMT），但這個系統仍時常會犯錯。比較典型的錯誤，除了漏譯，就要屬無法準確翻譯專有名詞了。

例如：Shenwan Hongyuan（申萬宏源）會翻譯成「盛灣宏遠」或其他錯誤版本（當然現在網頁版譯文又有改進，這裡僅為舉例）。

一開始，我都是在Trados里載入GoogleTranslate的API，用GNMT跑一遍原文，譯後編輯時再用查找/替換功能統一修正GNMT的專有名詞翻譯錯誤。但時間一長就發現：GNMT常「不長記性」，經常需要查找/替換，費時費力。

這時我往往就萌生出「要是能訓練GNMT像TM那樣記住改正後正確譯文就好了」的想法。

感謝朋友的推薦，我的這個想法部分成為了現實。在淘寶上有個賣家（聲明：我與該賣家沒有任何關係），出售一種TRADOS 谷歌機器翻譯插件。該插件有個很牛的功能——「原文提交前和提交後編輯」（點擊鏈接了解詳情）。

簡言之，這個文字表達相當啰嗦的功能可讓你能「訓練」GNMT。不再有每次用GNMT刷原文後還需修改專有名詞翻譯的苦差事（實例參見下面截屏）。

而且這個功能支持導入txt（中文建議改成UTF8編碼，否則會有亂碼）和csv術語表。