怎樣「訓練」地表最強機譯系統?
02-04
看過我先前的專欄文章的朋友,應該對我說的「TM(翻譯記憶庫)+MT(機器翻譯)」結合的混合翻譯模式有印象。
推薦閱讀:
雖然我的MT引擎是「地球上最好的機器翻譯系統」——谷歌神經網路機器翻譯系統(GNMT),但這個系統仍時常會犯錯。比較典型的錯誤,除了漏譯,就要屬無法準確翻譯專有名詞了。
例如:Shenwan Hongyuan(申萬宏源) 會翻譯成「盛灣宏遠」或其他錯誤版本(當然現在網頁版譯文又有改進,這裡僅為舉例)。
一開始,我都是在Trados里載入GoogleTranslate的API,用GNMT跑一遍原文,譯後編輯時再用查找/替換功能統一修正GNMT的專有名詞翻譯錯誤。但時間一長就發現:GNMT常「不長記性」,經常需要查找/替換,費時費力。
這時我往往就萌生出「要是能訓練GNMT像TM那樣記住改正後正確譯文就好了」的想法。
感謝朋友的推薦,我的這個想法部分成為了現實。在淘寶上有個賣家(聲明:我與該賣家沒有任何關係),出售一種TRADOS 谷歌機器翻譯插件。該插件有個很牛的功能——「原文提交前和提交後編輯」(點擊鏈接了解詳情)。
簡言之,這個文字表達相當啰嗦的功能可讓你能「訓練」GNMT。不再有每次用GNMT刷原文後還需修改專有名詞翻譯的苦差事(實例參見下面截屏)。
而且這個功能支持導入txt(中文建議改成UTF8編碼,否則會有亂碼)和csv術語表。
推薦閱讀:
※怎麼去掉 Chrome 新標籤頁的縮略圖?
※Alt School 這個學校怎麼樣?是否適合中國學生?
※用 TensorFlow 可以做什麼有意思的事情?
※Google 衛星地圖和街景拍攝中出現過哪些有趣的事件?