什麼原因導致現在(2014年5月)的Google翻譯連如此簡單的句式都能翻譯的這麼離譜?


機器翻譯主流方法目前包括基於短語(一般指連續詞塊而非語言學意義上的短語)的統計機器翻譯(Statistical machine translation)和近日隨深度學習大火而大火的神經機器翻譯(Neural machine translation)。如有充足的語料,後者在譯文整體流暢度、長句局部調序等較前者而言具有明顯優勢。但神經機器翻譯最大的缺點是:它本身就是一個難以真正理解作用機理、錯了也不知道哪裡錯的黑箱。其基本架構是「端到端」的序列到序列「編碼器-解碼器」遞推神經網路框架,運作過程可參見此鏈接裡面那個動圖: google/seq2seq 。整個處理過程不涉及任何語言學子模塊處理,全程原文進、譯文出。好處是可以避免子模塊間錯誤傳播,同時模型參數極其豐富適合擬合大規模平行訓練語料,遞推神經網路在對長句的流暢度建模方面也被認為優於經典語言模型架構;壞處就是一旦出了幺蛾子並不容易知道為何忽忽悠悠就瘸了,更難去談治本的解決方案……

p.s.

1. 前面有答主認為百度翻譯基於規則,這個說法不對。且不談早前的統計機器翻譯,百度現在的神經機器翻譯其實上線比谷歌早得多,實際線上系統設計也已經吸收了若干統計機器翻譯的優點(例如在特定情況下回退到從短語表中取出局部翻譯結果),在中英互譯上表現相對更成熟;

2. 記得之前谷歌最初上線神經機器翻譯只有目標語言為英文的情形。這裡介紹一種判定是哪種系統的簡單方法:將滑鼠指針移動到譯文上,如果在原文處提供了相應辭彙或短語的對齊信息,則說明譯文由基於短語的統計機器翻譯產生;如果游標覆蓋整句話,說明譯文由神經機器翻譯系統產生。

3. 有機器翻譯行當的基友在搜狗干過,題主不妨也去調戲一下他們上線的神經機器翻譯系統看看: 搜狗翻譯 - 上網從搜狗開始 。


題主故意瞎編結果來黑谷歌真的沒問題?

&" dw="1080" dh="1920" class="origin_image zh-lightbox-thumb lazy" w="1080" data-original="https://pic3.zhimg.com/v2-7cf4df0fdae7b2ac6ef0da4367eaaa67_r.jpg" data-actualsrc="//i1.wp.com/pic3.zhimg.com/50/v2-7cf4df0fdae7b2ac6ef0da4367eaaa67_hd.jpg">

&" dw="1080" dh="1920" class="origin_image zh-lightbox-thumb lazy" w="1080" data-original="https://pic2.zhimg.com/v2-dcfa2fd85e1ad8f76ec592f1feb8d0b2_r.jpg" data-actualsrc="//i1.wp.com/pic2.zhimg.com/50/v2-dcfa2fd85e1ad8f76ec592f1feb8d0b2_hd.jpg">

還有最後一個,題主不反思一下自己的語法歧義?

&" dw="1080" dh="1920" class="origin_image zh-lightbox-thumb lazy" w="1080" data-original="https://pic3.zhimg.com/v2-b6950225e4489a5e2e1bcb64fd426272_r.jpg" data-actualsrc="//i1.wp.com/pic3.zhimg.com/50/v2-b6950225e4489a5e2e1bcb64fd426272_hd.jpg">


推薦閱讀:

語言學研究在現階段對機器翻譯有實質性的幫助嗎?
機器同傳會取代同傳嗎?為什麼機器同傳的準確度不高?
機器翻譯的流程(原理)是怎麼樣的?
如何理解谷歌團隊的機器翻譯新作《Attention is all you need》?

TAG:微軟Microsoft | 英語 | 谷歌Google | 翻譯 | 機器翻譯 |