谷歌翻譯雖迅猛 人工翻譯莫慌張 一群翻譯在
前不久,谷歌發布了谷歌的神經機器翻譯系統(GNMT),不久就從事傳統翻譯的人們對機器翻譯是否會對人工翻譯造成衝擊進行了激烈的討論,接下來我們大家一起來了解一下谷歌神經機器翻譯系統。
Google Translate發展歷程:
在2006 年Google團隊改進了統計機器翻譯(statistical machine translation),並宣布上線Google Translate翻譯功能。
其中,Google Translate的核心技術 「統計機器翻譯」其基本思想是通過對大量平行語料進行統計分析、構建統計翻譯模型、進而使用此模型進行翻譯。簡單來說,Google Translate 在生成譯文時,會在大量人工翻譯的文檔中查找各種模型,進行合理的猜測,從而得到恰當的翻譯。
當時之所以採用「統計翻譯模型」的一個重要原因就是 Google 的雲計算架構。機器翻譯需要海量的數據存儲空間以及高效的運算能力,而 Google 擁有 GoogleMapReduce(分散式計算系統)和 BigTable(分散式存儲系統),恰好滿足了這兩方面需求。
幾年前,Google開始使用循環神經網路來直接學習一個輸入序列(如一種語言的一個句子)到一個輸出序列(另一種語言的同一個句子)的映射。
其中基於短語的機器學習(PBMT)將輸入句子分解成詞和短語,然後對它們的大部分進行獨立翻譯,而神經網路機器翻譯(NMT)則將整個輸入句子視作翻譯的基本單元。
其優點是:相比之前的基於短語的翻譯系統,這種方法所需的調整更少。
首先,該網路將這句中文的詞編碼成一個向量列表,其中每個向量都表示了到目前為止所有被讀取到的詞的含義(編碼器「Encoder」)。一旦讀取完整個句子,解碼器就開始工作——一次生成英語句子的一個詞(解碼器「Decoder」)。為了在每一步都生成翻譯正確的詞,解碼器重點注意了與生成英語詞最相關編碼的中文向量的權重分布(注意「Attention」;藍色連線的透明度表示解碼器對一個被編碼的詞的注意程度)。
通過維基百科和新聞網站的例句測定發現:在多個樣本的翻譯中,神經網路機器翻譯系統將誤差降低了 55%-85%甚至以上。
實際效果:
目前Google Translate已在中英翻譯系統中上線,在實際使用過程中比傳統的機翻體驗好上不少。但是我們有注意到這個情況,加上語助詞之後,原本的翻譯效果大打折扣。
專家觀點:
針對上面的例子, NMT在用平行句對訓練的時候,把輸入的源語言句子用向量進行描述,通過一個編碼用的神經網路轉成隱層的向量表示,然後對這個隱層用另外一個神經網路進行解碼,得到目標語言的向量表示。這個過程純粹是一個擬合函數的過程,即使源語言句子語義一樣,而如果字面有所差異的話,通過這個「擬合函數」映射過去得到的目標語言差異也會很大,所以會出現明明意思沒變,但是加了幾個無關緊要的字或者詞,翻譯過去的句子意思就會變化很大。
如果用基於短語對齊的翻譯模型,在對齊的時候通過引入一些基本的語言特性,或者詞語重要性識別方法,就可以避免這個問題,這也是NMT的缺陷所在,不能很好地引入語言本身的一些特性,如構詞和句法等。
筆者看過一些試驗數據,基於短語的統計機器翻譯我比較熟悉和完全基於NMT的效果沒有特別大的差距。同樣語料訓練的話基於NMT的有所提升,但不很顯著。
人工翻譯:
英國愛丁堡大學教授菲利普·科恩提出,一些機器翻譯問題與人工智慧研究的核心問題有關,在明確這些問題的解決途徑之前,很難想像機器翻譯能達到與人工翻譯同等甚至更優的水準。因此,在可預見的未來,機器翻譯不會導致人類譯者集體失業。錢多秀認為,機器翻譯最能大有作為的領域是服務業實用翻譯和科學技術翻譯,因為其語料重合度高、規律性強。也就是說,機器翻譯善於處理的材料均有一定之規,而人類富有創造性,自然語言充滿了個性化、可意會難言傳的元素,機器基本不可能對此完全理解並翻譯出來。目前來看,將大數據與深度學習方法結合,利用海量樣本訓練機器在翻譯過程中自我學習、自我更新,或是機器翻譯的一個前進方向。
宗成慶表示,翻譯達到「信、達、雅」,這對專業的人類譯者而言都絕非易事,更不必說機器翻譯。機器翻譯現在還在「信」的階段掙扎,無法保證對原文的理解無誤;對於形態多樣、不拘一格的文學作品或需要嚴謹精準表述的政治性文稿、法律條文等,不可能全靠機器翻譯完成。就翻譯行業而言,人與計算機之間的關係應該是共存互助的,人類譯者藉助機器翻譯減輕負擔、改善翻譯質量,機器翻譯系統可以在人機交互中改進性能,給人類提供更多幫助,這將推動翻譯行業的發展。
概括總結:
對於Google最新發布的神經機器翻譯(GNMT)系統,我們要充分肯定其在機器翻譯上的進步。在同等語料的情況下,相較於基於短語的統計機器翻譯,神經機器翻譯(GNMT)系統能在更少工程量的基礎上實現相同的效果。但是其純粹把輸入的句子當做一個序列(理論上任意符號序列都可以),不考慮這個句子本身作為語言的特性,生成的內容可能會比較奇怪,難以控制,錯誤的結果也難以解釋,因此谷歌翻譯雖然發展很迅猛,其功能也有很多的改進,但相比創意和準確率,並且加之中國文化博大精神,至少在翻譯中文的同時谷歌翻譯就沒有那麼智能和準確。
推薦閱讀:
※不孕都是女性問題?了解男性不孕因素 攜手面對不孕治療
※什麼是人工授精?什麼是試管嬰兒?它們的區別是什麼?
※受精卵(細胞)分裂的速度很快嗎?