現在的Google翻譯能取代人嗎?
問題提起
最近吹谷歌翻譯牛逼的人很多,
弄得我等學習語言的人很是不安。
於是便測試了一下看看。
原文:
歴史はスポーツとならんで、青豆が愛好するもののひとつだった。小説を読むことはあまりないが、歴史に関連した書物ならいくらでも読めた。歴史について彼女が気に入っているのは、すべての事実が基本的に特定の年號と場所に結びついているところだった。歴史の年號を記憶するのは、彼女にとってそれほどむずかしいことではない。數字を丸暗記しなくても、いろんな出來事の前後左右の関係性をつかんでしまえば、年號は自動的に浮かび上がってくる。中學と高校では、青豆は歴史の試験では常にクラスで最高點をとった。歴史の年號を覚えるのが苦手だという人を目にするたびに、青豆は不思議に思った。どうしてそんな簡単なことができないのだろう?
——取自村上春樹小說《1Q84》第一章的某段。
谷歌翻譯結果:
除了體育運動外,歷史是綠豆熱愛的事情之一。 我不太看小說,但我可以儘可能多地閱讀與歷史有關的書籍。 關於她的歷史她所喜歡的一切基本上都是事實與特定年份和地點相關聯的地方。 記住歷史的一年並不難。 即使你不記住數字,如果你在各種事件之前和之後掌握了關係,那麼這一年會自動出現。 在初中和高中,藍豆歷史考試中總得分最高。 每當我看到一個不善於記憶歷史的人時,我都覺得綠豆很好奇。 你為什麼不能做這麼簡單的事情?
翻譯品鑒
很抱歉,這文章我實在打不出合格分。
以下我們仔細評價以下該翻譯的質量。
================================
歴史はスポーツとならんで、青豆が愛好するもののひとつだった。
除了體育運動外,歷史是綠豆熱愛的事情之一。
這句話中文稍顯不通順,「歷史」改為「歷史也」更為合適。
另,「青豆」是人名,不能譯作「綠豆」。
根據上下文的反覆出現,應當作出正確判斷才對。
小説を読むことはあまりないが、歴史に関連した書物ならいくらでも読めた。
我不太看小說,但我可以儘可能多地閱讀與歷史有關的書籍。
「いくらでも~」的理解出現的嚴重問題。
原句的意思是「只要是有關歷史的,給我再多書我也能讀下去」。
歴史の年號を記憶するのは、彼女にとってそれほどむずかしいことではない。
記住歷史的一年並不難。
漏譯了「彼女にとって」
「年號」應當譯作年份、年號。
數字を丸暗記しなくても、いろんな出來事の前後左右の関係性をつかんでしまえば、年號は自動的に浮かび上がってくる。
即使你不記住數字,如果你在各種事件之前和之後掌握了關係,那麼這一年會自動出現。
「丸暗記」意為死記硬背。翻譯並不準確。
「前後左右の関係性」指事件的前後關聯。嚴重翻譯錯誤。
「年號」應當譯作年份、年號。
「浮かび上がる」意為想起,記起。
中學と高校では、青豆は歴史の試験では常にクラスで最高點をとった。
在初中和高中,藍豆歷史考試中總得分最高。
前面「青豆」翻譯成「綠豆」我也忍了,現在變「藍豆」了?
翻譯的一致性都做不到,不知道採取的是什麼演算法……
「總得分」引起歧義,應當作「總是」
「クラス」漏譯。
歴史の年號を覚えるのが苦手だという人を目にするたびに、青豆は不思議に思った。
每當我看到一個不善於記憶歷史的人時,我都覺得綠豆很好奇。
主語在最後的「青豆」,而非「我」。
而且後半句怎麼都變回「綠豆」了?
後半句的主語識別失誤導致整個句子朝很奇怪的方向發展了……
其實單看後半句,翻譯並不能說錯。
但是和前文一起看,顯然翻譯有嚴重問題。
どうしてそんな簡単なことができないのだろう?
你為什麼不能做這麼簡單的事情?
主語被演算法補齊,但是沒能兼顧上下文,補錯了……
應當是「他們為什麼……」
「不能做」雖不算大錯,但譯作「~都做不到?」更佳。
待解決問題
綜上,發現現有google翻譯有以下問題待解決:
1,篇章聯繫不能有效發現。
估計在演算法層面直接在句末標點處斷開進行獨立處理,
導致句和句之間的聯繫沒能顧及。
如人名「青豆」,最後兩句的語義關聯等。
2,翻譯一致性欠佳。
一會兒「藍豆」,一會兒「綠豆」,
不知道到底怎麼考慮的。
3,中文生成過於僵硬。
下面這樣的句子顯然並不通順合理。
你為什麼不能做這麼簡單的事情?
4,固定句式的資料庫還不夠。
下面的句子沒能進行整體理解,
導致翻譯出現嚴重問題。
いくらでも読める
5,從語義層面定位句子成分能力不足。
以下句為例
歴史の年號を覚えるのが苦手だという人を目にするたびに、青豆は不思議に思った。
「は」可以取代「が」格,也可取代「を」格。
但顯然此處是前者。這是從語義層面可以輕易判定的。
但是顯然對google來說還太過勉強。
6,從語義層面原則詞義能力不足。
數字を丸暗記しなくても、いろんな出來事の前後左右の関係性をつかんでしまえば、年號は自動的に浮かび上がってくる。
「浮かび上がる」原意是出現,
但是前文有「暗記」這樣的提示,故此處必定作「想起」解。
顯然,機器翻譯時未能發現這一關聯。
7,莫名漏譯
クラスで最高點
這句話翻譯成「全班第一」,N5的水平而已,
不知道為什麼,「クラス」漏譯……
(難道翻譯成「級別」了?)
==============================
後記
google翻譯還有很多工作要做。
說實話,google現在的表現讓我還是頗為失望的。
畢竟這次的測試文本很簡單,
本以為至少有一半的句子能保證最低質量(信息齊全)地翻譯出來,
沒想到每一句話都不合格。
機器翻譯,仍舊任重道遠。
另,有興趣的可以試著翻譯下那段話,回復在下方~
===============================
其他機器翻譯
谷歌翻譯
正確的句子:0
除了體育運動外,歷史是綠豆熱愛的事情之一。 我不太看小說,但我可以儘可能多地閱讀與歷史有關的書籍。 關於她的歷史她所喜歡的一切基本上都是事實與特定年份和地點相關聯的地方。 記住歷史的一年並不難。 即使你不記住數字,如果你在各種事件之前和之後掌握了關係,那麼這一年會自動出現。 在初中和高中,藍豆歷史考試中總得分最高。 每當我看到一個不善於記憶歷史的人時,我都覺得綠豆很好奇。 你為什麼不能做這麼簡單的事情?
百度翻譯
正確地句子:2
歷史作為體育運動,是青豆的愛好之一。雖然不太讀小說,但如果是與歷史相關的書籍,多少都能讀出來。關於歷史,她喜歡的是所有事實基本上與特定的年號和場所相結合的地方。記憶歷史的年號對她來說不是那麼難的事。即使不把數字死記硬背,只要抓住各種各樣的事情前後左右的關係性,年號就會自動浮現出來。在中學和高中,青豆在歷史上經常在班上取得了最高分數。每當看到不擅長記憶歷史的年號的人時,青豆覺得不可思議。為什麼不會那麼簡單呢?
有道翻譯
正確的句子:4
歷史是與體育相媲美的青豆愛好者之一。雖然不會讀小說,但如果是有關歷史的書籍,就會一一閱讀。對於歷史,她所喜歡的是所有事實基本上都與特定的年號和場所相結合。記住歷史的年號對她來說並不是那麼難的事情。即使不把數字背下來,也要抓住各種事情前後左右的關係,就會自動浮現出年號。在初中和高中,青豆在歷史考試中總是在班級中取得最高分數。每當看到不擅長記住歷史的年號的人,青豆就覺得不可思議。為什麼會這麼
簡單呢?
微信翻譯
正確的句子:5
歷史與運動相提並論,是青豆喜愛的東西之一。雖然很少看小說,但是和歷史相關的書籍多少都能看懂。她之所以喜歡歷史,是因為所有的事實基本上都與特定的年號和地點聯繫在一起。要記住歷史的年號,對她來說並不那麼難。即使不把數字全部背下來,只要抓住各種事情的前後關係,年號就會自動浮出水面。在初中和高中,青豆在歷史考試中經常取得班級最高分。每當看到不擅長記住歷史年號的人,青豆就覺得不可思議。為什麼不能那麼簡單呢?
excite(日本)
正確的句子:1
歷史是與體育並列,毛豆雖然愛好,但是一個。讀小說的過分的要是與帶刺外殼,歷史有關的書用多少也能讀了。關於歷史她中意,全部的事實正在結合在(到)基本的在(到)特定的年號和地方。記歷史的年號,對她來說並不是那麼是難事。即使不背誦數字,如果抓住各種各樣的事情前後左右的關係性,年號自動地也浮起來。在初中和高中,毛豆歷史的考試經常在級選擇了最高分。對看記歷史的年號難對付這樣的人的每次,毛豆不可思議地想。不能怎麼那樣的簡單事吧?
bing翻譯
正確的句子:0
歷史是豆子喜愛的運動之一。 這本與歷史有關的書雖然不經常讀這本小說, 卻能讀得很清楚。 她對歷史的喜愛在於, 所有的事實基本上都與某個特定的時代和地點聯繫在一起。 對她來說, 記住歷史的時代並不難。 如果你不死記硬背數字, 並且你掌握了各種事件左右的關係, 這個時代就會自動出現。 在初中和高中, 豆子在歷史考試中總是得到全班最高分。 每當我看到一個人在回憶歷史的年代時都很窮, 豆子就納悶。 為什麼不能這麼簡單的事情呢?
我原先這幾家的排序是根據我內心好感度從高到低排的,
結果事實打了我的臉,和我的預測完全相反。
微信的表現簡直令人驚喜!幾乎每一句話都能優秀地翻譯過來。
有道次之,但也非常優秀!
百度和谷歌就是菜鳥互啄。
人生中第一次感覺到了騰訊的技術實力。
完了,真的要失業了……
============================
測試文字是微信翻譯的練習文本?
有人提出,這段文字的微信翻譯表現實在太過優異,
極有可能是微信工程師作為練習材料的文本。
那驗證辦法很簡單,換一段文字就是了
原文本:2018/2/21天聲人語,朝日新聞(昨天的新聞稿)
個人的な話で恐縮だが、大學時代、立て看板をひとりで作ったことがある。音楽サークルの仲間を募ると書いて、ギターを弾く男の絵を添えた。看板の前に椅子を置き、ずっと座っていた。サークルといっても本當は自分だけだった。何日も待つと、話しかけてくる男がいた。「何人くらいいるんですか」「いや、いまは俺1人なんだけど……。誰の歌が好き?」。そんなふうに仲間が増えていった。タテカンのおかげで。
Google翻譯
正確的句子:3
我擔心這是個人故事,但我曾在大學做過招牌。 我招募了音樂圈的朋友,並陪同彈吉他的人的照片。 我在標誌前放了一把椅子,並一直坐在它上面。 即使我叫了一個圈,我只是我自己。 等待幾天後,有一個男人要談話。 「有多少人?」「不,現在我是唯一一個......你喜歡誰的歌?」 朋友的數量繼續這樣下去。 感謝Tatekan。
微信翻譯
正確的句子:7
就我個人而言,雖然很不好意思,但是大學時代,我曾經獨自製作過招牌。寫了募集音樂社團的夥伴,添加了彈吉他的男人的畫。把椅子放在招牌前,一直坐著。雖說是社團,其實只有自己。等了好幾天,有個男人來搭話。「有多少人啊?」不,現在只有我一個人。。。。你喜歡誰的歌?「。這樣一來,夥伴們就增多了。托他的福。
這段文字有幾個難點,但是微信的處理顯然高出Google不止一個檔次。
微信的錯誤如下:
就我個人而言→這是我個人的故事
沒有上下文的話,微信的翻譯也不算錯。)
托他的福→托招牌的福
「タテカン」是非正式縮略語,未能被識別
感覺稍微改改就能交稿的感覺。
機器翻譯真是進步神速……
推薦閱讀:
※鼻濁音即將從日語里消失?!悼念(學習)美麗的鼻濁音
※這些日語單詞竟然是這個意思!
※論微軟自帶日語字體下平假名與片假名的「へ」之間的差異
※這六個童話小孩不能看!只有大人才能拆的六一禮物!