機翻要革命?哦我的老夥計,你是認真的?
原文標題:Google』s Transformer solves a tricky problem in machine translation
原文作者:Devin Coldewey
翻譯:集智
原文首發自 TechCrunch
機器學習現在可以在很多領域大展拳腳,尤其是翻譯工作。但世事無絕對,機器學習構建的翻譯模型在幹活時會傾向於逐字逐句地翻譯,這樣的話就會帶來很多問題。
到底是誰的媽?
佐菲把它ban了
不僅翻譯成中文時鬧笑話
中譯英也是很值得玩味的
細思恐極
Google剛剛發表了一篇很有意思的博文,其中就指出了這個問題的根源,以及解決這類問題的辦法。
來自Google自然語言處理部門的Jakob Uszkoreit給出了一個很好的例子,來看看下面的兩個句子:
I arrived at the bank after crossing the street.
I arrived at the bank after crossing the river.
顯然,這裡的「bank」在每個句子中的意思是不一樣的,但是只會咬文嚼字的翻譯演算法很容易地就會判斷成錯誤的意思——因為它只有閱讀到句子末尾時才能知道這裡的「bank」究竟是什麼意思。而只要我們稍微留心一下,我們就會發現這樣的存在歧義的句子無處不在。
(程序員笑話里不乏這樣的歧義梗)
作為我而言,為了避免這種歧義我會試著改寫一下句子的形式,但是毫無疑問,對於翻譯系統來說這並不是個辦法。當然我們也可以嘗試讓神經網路首先去試著翻譯整個句子來看看有沒有奇怪的語義,然後再決定是否重新翻譯,但這種做法太沒效率了。
Google帶來的解決方案可以稱之為「注意機制」,這種機制被包含在一個叫做「變形金剛(Transformer)」的系統中。在這種系統中,我們會將所有句子中的詞語兩兩比較來檢查是否有兩個詞語在某種環境下會相互影響語義——比如說,我們要檢查一個人是「他」還是「她」,或者說「bank」這樣一個詞語究竟指什麼東西。
當句子被翻譯完成的時候,注意機制同樣就會對新句子中的每個詞語進行檢查,來看看詞語之間是否存在關聯。下方的這個動畫大致可以展現出這個過程。
這個過程也許聽起來很熟悉,這大概是因為你已經了解到一個翻譯界的黑馬公司——DeepL也採用了注意機制。這家公司的聯合創始人也指出了這個讓他們耗費了很多精力的問題,他們甚至還援引了Google博文中所使用的一篇論文(Attention is all you need)——雖然很顯然的,這家公司同樣有其獨到之處。實際上,他們的研究成果很有效率,甚至比Google的方案還要好一點。
Google的方案中另外一個有意思的點是他們為翻譯系統的邏輯過程提供了一個新的介面。因為「變形金剛」在翻譯中會給每個詞打分,而打分的依據是這個詞與其他所有詞之間的關聯情況,所以我們可以看出翻譯系統會認為那些詞具有強關聯性,或是具有潛在關聯性。
看上去很有意思不是么?反正我是覺得很有趣,因為這裡出現了一種新的歧義,也就是說「it」這個詞既與「street」關聯也與「animal」關聯,而最後出現的詞會確定它的存在。我們人類可以自行發覺這些問題,但機器尚且需要長期的學習過程。
譯者後言
這裡提出的很多案例很有意義,這些具有歧義的句子某種程度上也顯示出了機器學習相對於人類學習過程而存在的一些劣勢——對於某些出現次數較少、模稜兩可的句子,純粹基於數據訓練的機器學習系統往往很難給出正確的判斷。漢語中也有類似的歧義句子比如說「我昨晚開車開到深夜,累死我了」。這些句子對於翻譯系統確實是很大的挑戰。針對這些問題,歡迎大家繼續討論。
更多業內大新聞,盡在集智(https://jizhi.im)
推薦閱讀:
TAG:集智sjizhiim | 景略集智 | 机器翻译 |