《集異璧》作者侯世達瘋狂吐槽谷歌翻譯,AI讓譯者失業?還早著呢!

作者:DOUGLAS HOFSTADTER

某個周日,在我們每周一次的莎莎舞會上(salsa sessions),我的朋友弗蘭克帶了一個丹麥朋友來。我知道弗蘭克的丹麥語講得很好,因為他的母親是丹麥人,他小時候曾在丹麥生活過。而他帶來的那個朋友,跟所有斯堪的納維亞人一樣,能講一口流利的英語。然而,令我驚訝的是,在晚上閑聊的過程中,他們居然習慣性地用「谷歌翻譯」交換信息。弗蘭克用英文寫下文字,然後用「谷歌翻譯」轉譯成丹麥語;而他的朋友則用丹麥語寫下文字,然後用「谷歌翻譯」轉譯成英語。這太奇怪了!為什麼會講對方語言的兩個聰明人要用這種方式溝通呢?我對機器翻譯的體驗總是讓我對它不夠信任。但這兩個朋友顯然沒有我的那種疑慮。實際上,很多受過良好教育的人對於機器翻譯都抱有相當大的熱情,很少對它產生質疑。這讓我頗感困惑。

作為一個語言愛好者和翻譯熱愛者,作為一個認知科學家和一個人類精妙心智的終身敬畏者,幾十年來我一直在關注機器翻譯的進展。當我最初在1970年代對它產生興趣時,我讀過一封信,是數學家、機器翻譯早期倡議者沃倫·韋弗(Warren Weaver)於1947年寫給控制論專家諾伯特·維納(Norbert Wiener)的。在信中,韋弗寫了一句很有意思的話,今天仍為眾人所熟知:

當我閱讀用俄羅斯語寫的文章時,我會對自己說,「這篇文章實際上是用英語寫的,只不過被編碼成了一些奇怪的符號。現在,我要把這些符號解碼回來。」

幾年後,他表達了不同的看法:「沒有一個理性的人會認為,機器翻譯能夠做到『信、雅、達』。普希金不需要為此感到擔憂。」 哈!我曾用了我人生中整整一年的時間,將亞歷山大·普希金的著名詩體小說《葉甫蓋尼·奧涅金》翻譯成我的母語(也即是,把這一偉大的俄羅斯文學作品重新翻譯成英文詩體小說),這真是一段令我難忘的經歷。我發現維納的新觀點揭示了語言樸素的本質,更接近於語言的真相。儘管如此,他在1947年提出的「翻譯即解碼」的觀點還是成為了機器翻譯領域的一種信仰。

從那以後,「翻譯機器」逐漸有了發展。直到最近,對所謂「深度神經網路」的使用,讓有些觀察家(參見紀德·劉易斯-克勞斯(Gideon Lewis-Kraus)在《紐約時報雜誌》上發表的《The Great AI Awakening》,以及雷恩·格林(Lane Greene)在《經濟學人》上發表的《Machine Translation: Beyond Babel》)宣稱,人類譯者將成為瀕危物種。照此發展下去,用不了幾年,人類譯者要做的事情就不是創造新的文本了,而是對文本進行修修補補和質量控制。

果真如此的話,這將對我的精神生活造成巨大的衝擊。雖然我完全理解人們對機器翻譯的痴迷,但我肯定屬於最不希望人類譯者被無情的機器所取代的那類人。事實上,機器翻譯令我感到恐懼和厭惡。在我看來,翻譯是一種難以置信的精妙藝術,它需要譯者有豐富的人生閱歷和創造性的想像力。如果真有那麼一天,人類譯者成了歷史的遺迹,我對人類心智的敬畏就會受到動搖,這種動搖會讓我陷入可怕的困擾和無盡的悲傷之中。

每當我讀到文章宣稱,人類譯者作為一個群體將很快向新技術的快刀利劍俯首稱臣時,我總有一種想要親自檢驗這種判斷的衝動,這一方面是因為,我感到技術替代的魔魘可能近在眼前;另一方面是因為,我由衷希望自己能夠確證,危險並非迫在眉睫;最後,出於我一貫的信念,我想要挑戰那些誇大其詞的人工智慧威脅論。

人工神經網路並不是一項新奇的技術。最近,在谷歌內部被稱為「谷歌大腦」(Google Brain)的部門採用了這項技術,同時,又用「深度學習」增強了它的能力。我閱讀了相關文獻,了解了被稱為革命性翻譯機器的軟體機理,然後,我決定親自測試最新版本的「谷歌翻譯」。它真的是一個顛覆者嗎,就像「深藍」和「AlphaGo」之於象棋和圍棋那樣?

我發現,雖然「谷歌翻譯」的老版本可以處理多種語言,但新的深度學習版本目前只能處理9種語言。(最新情況是,它可以處理96種了。)其中,我只打算測試英語、法語、德語和中文。

在展現測試結果之前,我應當指出,「深度」這一形容詞的含義是模糊不清的。當人們聽說谷歌買了一家名叫DeepMind的公司,其產品使用了用「深度學習」技術增強的「深度神經網路」時,下意識中會將「深度」一詞理解為「深刻」,進而理解為「強大」、「穎悟」、「聰明」。然而,這裡的「深度」僅僅是指這樣一個事實:新的神經網路比老的神經網路擁有更多的層次,比如說,前者有12層,後者只有2、3層。那麼,這種層級數量的差異是否意味著,神經網路必然會更聰明呢?並非如此,這不過是語義上的誤解。

「谷歌翻譯」的宣傳聲勢浩大,但我對它卻持有謹慎態度。儘管對它並無好感,但我也意識到它的確帶來了一些驚喜。它對地球上的每個人都是免費的,能夠將差不多100種語言轉譯成任何一種其他語言。這真是一件了不起的成就。如果我可以驕傲地稱自己是「三種全會」(pi-lingual)的話(如果有人問我「你會說幾種語言」,我會很愉快地回答,大概會3種語言),那麼「谷歌翻譯」得有多驕傲啊,畢竟,它可以把自己稱為「百種全會」(bai-lingual)(「百」在中文裡是指數字「100」)。對於只會3種語言的人來講,會100種語言簡直難以想像。並且,如果我將一張語言A的文字複製粘貼,放進「谷歌翻譯」,不消幾秒鐘,它就能被翻譯成語言B。在數種語言之間自由轉換,這種效果在任何地方任何屏幕上都能實現。

「谷歌翻譯」和相關技術的實用性是毋庸置疑的,總體而言也是很好的工具。但它在技術方法上還是極度欠缺一種東西,一言以蔽之:理解力。機器翻譯絕對做不到理解語言。相反,它的方法只是試圖去「解碼」——而不去考慮究竟什麼是理解和意義。那麼,是否不需要理解就能做好翻譯呢?某種事物——人類或機器——能在完全不理解語言的情況下拿出高品質的翻譯作品嗎?為了回答這個問題,現在我要談及我所做過的幾個實驗。


我的實驗最先是從小處著手的。我使用了下面這段簡短的話,人類的心智能夠對它產生清晰的畫面感:

In their house, everything comes in pairs. There』s his car and her car, his towels and her towels, and his library and hers.

在他們的房間里,每樣東西都是成對出現的。有他的車,就有她的車;有他的毛巾,就有她的毛巾;有他的書房,就有她的書房。

這段話翻起來似乎是很容易的,然而在法語中(以及在其他拉丁語系中),「他」和「她」這樣的性別辭彙不是由事物的所有者來界定的,而是由事物本身來界定的。於是,「谷歌翻譯」呈現給我們的結果就是:

Dans leur maison, tout vient en paires. Il y a sa voiture et sa voiture, ses serviettes et ses serviettes, sa bibliothèque et les siennes.

在他們的房間里,每樣東西都是成對出現的。有他的車,就有他的車;有她的毛巾,就有她的毛巾;有他的書房,就有他們。

這樣的結果在我預料之中。它沒能意識到,我的這段話描述的是一對夫妻,強調了丈夫(他)擁有的每一樣東西,他的妻子(她)也擁有。例如,深度學習引擎用了「sa」(他的)這個詞來表示「他的車」和「她的車」,因此,你無法知道車主的性別。類似地,它還用了無性別的複數詞「ses」來表示「他的毛巾」和「她的毛巾」。至於最後提到的兩個書房(他的和她的),它則乾脆省掉了「hers」中的「s」,認為「s」在這裡表示複數,意指「他們」(「les siennes」)。可以說,在翻成法文的時候,「谷歌翻譯」完全領會錯了意思。然而,每一個人類讀者都能正確理解這段話的言外之意。

接下來,我自己把這段話翻成了法文,正確表達了全部意思。以下是我的法文版本:

Chez eux, ils ont tout en double. Il y a sa voiture à elle et sa voiture à lui, ses serviettes à elle et ses serviettes à lui, sa bibliothèque à elle et sa bibliothèque à lui.

「sa voiture à elle」表示「她的車」,而「sa voiture à lui」只能被理解為「他的車」。這時,我猜想「谷歌翻譯」應該很容易把我的法文版本準確翻回到英文,但我完全想錯了。下面是它呈現給我的結果:

At home, they have everything in double. There is his own car and his own car, his own towels and his own towels, his own library and his own library.

在家裡,他們的每樣東西都有兩個。有他自己的車和他自己的車,他自己的毛巾和他自己的毛巾,他自己的書房和他自己的書房。

這都什麼鬼啊?!即便輸入的語句專門強調了物主的性別,翻譯機器還是忽略了這一點,把所有性別都翻成了男性。為什麼它會丟掉如此重要的信息呢?

我們人類都知道,什麼是夫妻、房屋、個人物品、驕傲、競爭、嫉妒、隱私,以及很多其他似乎難以理解的怪癖,比如,結了婚的夫妻,各自的毛巾也要分別刺上「他的」和「她的」字樣。而「谷歌翻譯」卻不明就裡,或者準確地說,它暫時還不明就裡。它只熟悉由字母所組成的字元串,只知道以超快的速度處理一段段文字,而不知道如何思考、想像、記憶和理解這些文字。它甚至不知道文字指涉了事物。我可以毫不猶豫地說,理論上講,計算機程序本可以理解語言的用途,可以擁有思想、記憶和經驗,可以應用它們。然而,「谷歌翻譯」卻不是為了這些目的而設計的,設計人員甚至根本沒有這樣的野心。

好吧,我對它的這些糟糕表現竊喜不已,並感到一絲寬慰,畢竟,人類譯者還不會很快被機器所取代。但我還是認為,我應該更深入地了解這部機器,畢竟,一口水,不解渴(one swallow does not thirst quench)。

事實上,「one swallow does not thirst quench」(也意指「一燕不成夏」(one swallow does not a summer make))這句話是我生造的,我忍不住想要試試,「谷歌翻譯」會怎麼翻呢?反饋給我的結果如下:「Une hirondelle n』aspire pas la soif.」這是一個符合語法的法文句子,但它的意思很費解。首先,它提到了一種鳥(「une hirondelle」——一種燕子),然後,它又說這種鳥不能吸氣,或者不能吮吸(「n』aspire pas」),最終的意思就是說,這種既不吸氣又不吮吸的東西口渴了(la soif)。顯然,「谷歌翻譯」沒有理解我的意思,它只是生成了一堆胡言亂語。「Il sortait simplement avec un tas de taureau.」「He just went out with a pile of bulls.」(他只是說了一堆胡話。)「Il vient de sortir avec un tas de taureaux.」要麼我的法語水平有限,要麼「谷歌翻譯」生成的文字就是偽法語。


現在,讓我們從法語的「油鍋」跳到德語的「火坑」。最近,我迷上了奧地利數學家卡爾·西格蒙德(Karl Sigmund)寫的《Sie nannten sich der Wiener Kreis》(人們把他們稱為「維也納學派」)一書。它講述了維也納的一群理想主義知識分子在1920年代和1930年代的故事,這群人對20世紀的哲學和科學產生了巨大影響。我選擇了書中的一小段文字來考驗「谷歌翻譯」。我將先呈現德語原文,然後給出我自己的翻譯版本,最後給出「谷歌翻譯」的版本。(順便提一句,有兩個母語是德語的人核對了我的翻譯,包括卡爾·西格蒙德,因此,我認為你大可相信我的翻譯是準確的。)

西格蒙德:

Nach dem verlorenen Krieg sahen es viele deutschnationale Professoren, inzwischen die Mehrheit in der Fakult?t, gewisserma?en als ihre Pflicht an, die Hochschulen vor den 「Ungeraden」 zu bewahren; am schutzlosesten waren junge Wissenschaftler vor ihrer Habilitation. Und Wissenschaftlerinnen kamen sowieso nicht in frage; über wenig war man sich einiger.

侯世達:

After the defeat, many professors with Pan-Germanistic leanings, who by that time constituted the majority of the faculty, considered it pretty much their duty to protect the institutions of higher learning from 「undesirables.」 The most likely to be dismissed were young scholars who had not yet earned the right to teach university classes. As for female scholars, well, they had no place in the system at all; nothing was clearer than that.

戰敗之後,泛德國主義在當時的教職員工中是主流傾向,很多持有這種傾向的教授認為,自己完全有責任讓高等教育機構免受「政治上不受歡迎的人」的影響。最有可能被開除的是青年學者,他們還沒有獲得在大學授課的教職。對於女性學者而言,她們在大學裡更是沒有立足之地,這是再明顯不過的事實了。

谷歌翻譯:

After the lost war, many German-National professors, meanwhile the majority in the faculty, saw themselves as their duty to keep the universities from the 「odd」; Young scientists were most vulnerable before their habilitation. And scientists did not question anyway; There were few of them.

戰敗之後,很多德國籍的教授,同時也是教職員工中的多數派,認為自己有責任讓大學避免「奇數」;在獲得資格之前,青年科學家是最容易受到影響的。總之,科學家沒有產生質疑,幾乎沒有了。

「谷歌翻譯」呈現的都是英文辭彙(然而,不清楚是什麼原因,有兩個大寫字母沒用對地方)。除此之外,似乎還過得去。然而,很快你就會發現不對勁了,越往下讀,問題越大。

首先,我注意到了「odd」這個詞。它對應了德文中的「die 『ungeraden』」,意思是「政治上不受歡迎的人」。然而,「谷歌翻譯」有理由——出於非常簡單的統計學上的理由——選擇「odd」這個詞。也即是說,在其上百種語言的資料庫中,「ungerade」這個詞總是被譯作「奇數」(odd)。儘管機器本身並不知道為什麼會這麼翻,但我可以告訴你原因何在。這是因為「ungerade」的意思——字面意思是「不平的」或「不均勻的」——幾乎總是意指「不能被2除盡」。而我的翻譯版本有意選擇了「undesirables」一詞,從而使得對「Ungeraden」一詞的翻譯與統計概率無關,而是來自於我對語境的理解——來自於我注意到文字中沒有被清晰表達出來的含義,而且「ungerade」的這種含義絕不可能在我自己的德語詞典中找到。

讓我們再來看看「Habilitation」這個德語辭彙,它意指大學的教職,相當於終身教授。英文里也有同樣詞根的詞「habilitation」,不過它很少被使用,自然也不會讓人聯想到終身教授或者類似的事物。所以,我需要簡單解釋而不只是引用這個含義模糊的詞。機器翻譯不可能真正理解以英文為母語的讀者,「谷歌翻譯」當然也做不到這一點,因為它不能模仿讀者的知識。

不過,最後兩句話才真正表明了,為什麼理解對於翻譯而言至關重要。德語名詞「Wissenschaftler」由15個字母組成,意思是「科學家」或「學者」。(我選擇了後者,因為在文中的語境下,它意指一般意義上的知識分子,而「谷歌翻譯」則沒能理解這一細微之處。)另一個與此相關的詞「Wissenschaftlerin」由17個字母組成,我們可以在最後一句話中看到其複數形式「Wissenschaftlerinnen」,它是一個指代了性別的德語名詞。單數名詞在語法上指代男性,意指男性學者,複數名詞指代女性,只適用於女性學者。我自己的翻譯版本用了「女性學者」(female scholar)來理解這層意思。而「谷歌翻譯」並沒有理解增加了「in」這個後綴的陰性詞是最後這句話的核心意義所在。由於它沒能意識到「女性」這層意思,就只能再次使用「科學家」這個詞,因此沒有理解整句話的意思。就像前面的法語例子一樣,「谷歌翻譯」完全不理解,這段德文的中心意思是要比較男性學者和女性學者的不同境況。

除開這個錯誤,最後一句話的餘下部分也是翻得一塌糊塗。先看前半部分。「總之,科學家沒有產生質疑」(scientists did not question anyway)是對「對於女性學者而言,她們在大學裡更是沒有立足之地」(Wissenschaftlerinnen kamen sowieso nicht in frage)的正確翻譯嗎?顯然,它沒能呈現出原文的意思——甚至完全挨不上邊。它只是隨意地將德語辭彙翻成了英語辭彙。這樣的結果可以被貼上「翻譯」的標籤嗎?

這個句子的後半部分同樣是錯譯的。最後6個德語辭彙的字面意思是,「沒有更多的共識了」,或者更直白一點,「這就是人們達成的最大共識了」。然而,「谷歌翻譯」卻將這句意思很明確的話翻成了「幾乎沒有了」。作為人類的我們可能會問「幾乎沒有什麼了?」但翻譯機器是不會關心這個問題的。「谷歌翻譯」對於語境完全不理解,因此它甚至不能回答看上去很簡單的問題。翻譯引擎不能想像數量的大小或者事物的數量。它只是把數字翻出來,並沒有意識到這些數字象徵了某些事物。


人類有著豐富的人生閱歷,也能賦予語言以意義,因此很難察覺到「谷歌翻譯」呈現在屏幕上的文字是漏洞百出的。人們幾乎會不假思索地認為,一款能如此流暢地翻譯語言的軟體一定能夠理解文字的含義。這種典型的幻覺與人工智慧有關,被稱為「伊莉莎效應」(ELIZA effect),它迷幻了人們的雙眼,讓人們誤以為機器可以理解英語。時光回到1960年代,研究人員設計了一個被稱為「伊莉莎」的虛假的語言機器人,並把它假扮成了一個精神治療師。「伊莉莎」讓每一個與它打過交道的人產生了一種奇怪的感覺:它能夠深刻理解人們心靈深處的感受。

幾十年來,頗有見識的人們——甚至一些人工智慧的研究人員——也陷入了「伊莉莎效應」。為了確保我的讀者避開這一陷阱,讓我從前面的段落中引用一些片語——也即是,「『谷歌翻譯』沒有理解能力」,「它不能意識到」,「『谷歌翻譯』沒有最起碼的想法」。然而悖論之處在於,這些片語一直在說「谷歌翻譯」欠缺理解力,而這同時又意味著,它至少在有些時候應該具備理解一個單詞、一個片語或一句話的含義或所指事物的能力。但事實並非如此。「谷歌翻譯」繞開或迴避了對語言的理解。

對我而言,「翻譯」這個詞散發著神秘而振奮的光芒。它代表了一種深刻的人類藝術形式,能夠優雅地將用語言A表達的清晰思想轉化成用語言B表達的清晰思想。而這種轉化的橋樑不僅僅要確保清晰性,還要呈現出原作者的品味、癖好和寫作風格。當我在做翻譯的時候,我首先會仔細閱讀原文,儘可能準確理解文中的內容,讓它們在我腦海中來回醞釀。這不是說讓原文中的詞句來回醞釀,而是讓原文中的思想激蕩起其他相關的思想,從而在我腦海中創造出與這些場景相關的美妙光環。不消說,這些光環大多是無意識的。只有當這種光環在我腦海中被成功激發出來時,我才會試圖去用另一種語言將它表達出來——讓它「噴薄而出」。我希望能用語言B將那種光環表達出來。

簡而言之,我並不是簡單地將語言A中的單詞和片語轉化成語言B中的單詞和片語,而是要在無意識中將圖像、場景、思想呈現出來,發掘出我自己的人生經歷(或者讀過的書籍、看過的電影、朋友的教誨),只有當這些非語言的、想像的、體驗的、心靈的「光環」被感受到的時候——只有當晦暗不明的意義泡沫漂浮在我腦海中時——我才會開始用另一種語言來書寫辭彙和語句,然後,修改,修改,再修改。這一通過理解語言來實現的過程似乎顯得過於笨拙。事實上,跟「谷歌翻譯」2、3秒就能翻出一個頁面的速度相比,情況的確如此——但這正是嚴肅的人類譯者應該做的事情。每當我聽到那個令人亢奮的術語「深度心智」(deep mind)時,我所想到的正是上述場景。


現在,我要轉向對中文翻譯的測試,這對深度學習軟體的挑戰比前兩種歐洲語言要大得多。我的測試材料來自令人溫暖的回憶錄《我們仨》,作者是中國劇作家和翻譯家楊絳,她剛去世沒幾年,享年104歲。該書講述了她、她的丈夫錢鍾書(也是一個小說家和翻譯家)和她女兒跌宕起伏的人生。這本書的文字並不晦澀,但中文用語很規範。我選擇了其中一小段,讓「谷歌翻譯」來完成。以下是翻譯結果和我自己的翻譯(已經過母語為中文的人的審校):

楊絳:

鍾書到清華工作一年後,調任毛選翻譯委員會的工作,住在城裡,周末回校。他仍兼管研究生。

毛選翻譯委員會的領導是徐永煐同志。介紹鍾書做這份工作的是清華同學喬冠華同志。

事定之日,晚飯後,有一位舊友特雇黃包車從城裡趕來祝賀。客去後,鍾書惶恐地對我說:

他以為我要做「南書房行走」了。這件事不是好做的,不求有功,但求無過。

侯世達:

After Zhongshu had worked at Tsinghua University for a year, he was transferred to the committee that was translating selected works of Chairman Mao. He lived in the city, but each weekend he would return to school. He also was still supervising his graduate students.

The leader of the translation committee of Mao』s works was Comrade Xu Yongying, and the person who had arranged for Zhongshu to do this work was his old Tsinghua schoolmate, Comrade Qiao Guanhua.

On the day this appointment was decided, after dinner, an old friend specially hired a rickshaw and came all the way from the city just to congratulate Zhongshu. After our guest had left, Zhongshu turned to me uneasily and said:

「He thought I was going to become a 『South Study special aide.』 This kind of work is not easy. You can』t hope for glory; all you can hope for is to do it without errors.」

谷歌翻譯:

After a year of work at Tsinghua, he was transferred to the Mao Translating Committee to live in the city and back to school on weekends. He is still a graduate student.

The leadership of the Mao Tse Translation Committee is Comrade Xu Yongjian. Introduction to the book to do this work is Tsinghua students Qiao Guanhua comrades.

On the day of the event, after dinner, an old friend hired a rickshaw from the city to congratulate. Guest to go, the book of fear in the book said to me:

He thought I had to do 「South study walking.」 This is not a good thing to do, not for meritorious service, but for nothing.

我將簡要指出一些謬誤之處。首先,「谷歌翻譯」完全沒有提到「鍾書」這個名字,而它在原文中出現過3次。翻譯機器首先用了代詞「他」,然後又用了「這本書」(the book),接著又說「惶恐的書在書中」(the book of fear in the book)。你就去猜是什麼意思吧!

第二處謬誤是,第一段文字說得很清楚,鍾書仍然兼管研究生,而「谷歌翻譯」卻把鍾書翻成了研究生。

第三處謬誤是關於「毛選翻譯委員會」,毛澤東主席的「東」字被省掉了。

第四處謬誤是,「永煐」這個名字被譯成了「Yongjian」。

第五處謬誤是,「客去後」被翻成了「客要走」。

第六處謬誤是,最後一句話完全不知所云。

好吧,這六處錯誤已經能讓「谷歌翻譯」夠喝一壺的了,不過我們完全可以不用在意這些錯誤。現在,我將集中探討一個令人費解的片語——最後一段話中由5個單片語成的、用引號標註的片語(「南書房行走」)。如果逐字翻譯,這個片語可以被譯作「south book room go walk」,但這種大雜燴顯然是難以理解的,尤其是考慮到文中的語境,它肯定是一個名詞。「谷歌翻譯」給出的結果是「South study walking」,但仍然詞不達意。

我得承認,剛開始我也不知道這個中文片語是什麼意思。儘管從字面上看它的意思似乎是,在某棟建築的南邊學習的時候移動自己的腳步。我知道,這種理解肯定是錯的,不符合語境。為了翻譯它,我不得不去了解我並不太熟悉的中國文化。我該尋求誰的幫助呢?谷歌啊!(但不是「谷歌翻譯」。)我將這幾個中文單詞連同引號輸入谷歌搜索框,然後讓引擎自己去搜索。很快,一堆中文網頁跳了出來,我痛苦地在前兩個網頁呈現的中文語句中搜尋,想要搞明白這個片語究竟是什麼意思。

我發現,這個詞要追溯到清朝(1644-1911),專指輔助皇帝的知識分子,他們的責任是幫助皇帝(在皇宮的南書房)起草漂亮的官方文件。「行走」這個詞實際上意指「輔助」。因此,根據谷歌搜索提供的信息,我把這個片語翻譯成了「South Study special aide」。

顯然,「谷歌翻譯」沒能像我一樣好好利用谷歌搜索,這真是太糟糕不過了,不是嗎?儘管「谷歌翻譯」能在瞬間翻出這個片語,但它不能理解網頁里的中文內容。我把我查看的中文網頁信息輸入「谷歌翻譯」,它很快就呈現了如下結果:

「South study walking」 is not an official position, before the Qing era this is just a 「messenger,」 generally by the then imperial intellectuals Hanlin to serve as. South study in the Hanlin officials in the 「select chencai only goods and excellent」 into the value, called 「South study walking.」 Because of the close to the emperor, the emperor』s decision to have a certain influence. Yongzheng later set up 「military aircraft,」 the Minister of the military machine, full-time, although the study is still Hanlin into the value, but has no participation in government affairs. Scholars in the Qing Dynasty into the value of the South study proud. Many scholars and scholars in the early Qing Dynasty into the south through the study.

這難道不是英文翻譯嗎?我們當然都知道,這段話是由英文單片語成的(至少絕大部分是如此),但這是否意味著它是一篇英語文章呢?在我看來,上面這段翻譯不知所云,因此它不能算是英語文章,只是由英文單詞拼湊而成的大雜燴——隨機的辭彙拼盤,毫無邏輯的亂燉。

為了滿足你的好奇心,我自己對這段文字做了翻譯(花了我好幾個小時):

The nan-shufang-xingzou (「South Study special aide」) was not an official position, but in the early Qing Dynasty it was a special role generally filled by whoever was the emperor』s current intellectual academician. The group of academicians who worked in the imperial palace』s south study would choose, among themselves, someone of great talent and good character to serve as ghostwriter for the emperor, and always to be at the emperor』s beck and call; that is why this role was called 「South Study special aide.」 The South Study aide, being so close to the emperor, was clearly in a position to influence the latter』s policy decisions. However, after Emperor Yongzheng established an official military ministry with a minister and various lower positions, the South Study aide, despite still being in the service of the emperor, no longer played a major role in governmental decision-making. Nonetheless, Qing Dynasty scholars were eager for the glory of working in the emperor』s south study, and during the early part of that dynasty, quite a few famous scholars served the emperor as South Study special aides.

有些讀者可能會懷疑,我是為了貶損「谷歌翻譯」才有意選取那些難翻的文字的,而實際上「谷歌翻譯」在大多數情況下的表現要好得多。這聽起來有些道理,但事實上卻並非如此。我從自己最近讀的任意一本書中隨機選取一段文字讓它翻譯,都會出現各種各樣的錯誤,包括出現前面所提到的不知所云和無法理解的片語。

當然,我承認,「谷歌翻譯」有時會翻出一些看上去還不賴的句子(儘管與原文的意思仍有偏差或者完全誤解了原文)。一兩段翻得不錯的完整語句可能會讓人產生幻覺:「谷歌翻譯」知道自己在做什麼,能夠理解它所「閱讀」的文字。在這種情況下,它似乎給人留下了深刻的印象——它幾乎能達到人類的水平!這樣的讚美當然要歸功於它的發明者和他們艱苦的工作。但與此同時,不要忘了,「谷歌翻譯」是如何翻譯前面那兩段中文內容的,以及更前面的法語和德語段落的。要理解它為什麼是失敗的項目,人們需要牢記「伊莉莎效應」。百種語言引擎並沒有在閱讀任何東西——至少不是人類意義上「閱讀」。它只是在機械處理文字。它所處理的符號與我們對這個世界的體驗無關。它沒有記憶可供提取,它能夠快速處理文字,但這些文字對它而言沒有圖像、沒有理解、沒有意義。


一個朋友問我,「谷歌翻譯」的局限是否只是大數據資源不足造成的。他認為,如果你能大幅增加數據資源,比如,數百萬或數十億個資料庫,最終它就能滿足你所有的翻譯需求,並且還能翻得很完美。但我不這麼認為。擁有更多的「大數據」不會讓你更接近於獲得理解力,因為理解力涉及到擁有思想,缺乏思想是今天機器學習面臨的最根本的問題。因此,我敢說,更大的資料庫——甚至巨大的資料庫——也不能解決這個問題。

自然,這又引出了另一個問題:「谷歌翻譯」對神經網路——一種試圖模擬大腦的技術——的使用能讓機器對語言產生理解嗎?初看起來,似乎是可行的。但「谷歌翻譯」對語言的處理仍然沒能超越單詞和片語這樣的初級層面。在龐大資料庫中,所有類型的統計數據都可以被用於神經網路,但這些統計數據只是用某些詞語去聯接另一些詞語,而不是去聯接思想。它沒有試圖創造一種內部結構,這種結構可以被視作思想、圖像、記憶、體驗。這些縹緲的心智內容仍然難以用演算法來創生,因此,作為一種替代品,谷歌使用了成熟而具有效率的語詞聚類統計演算法。然而,這種技術的效果無法等同於思想,而思想是人們在閱讀、理解、創造、修改、評判作品的過程中產生的。

儘管我的看法是偏負面的,但人們對於「谷歌翻譯」提供的服務還是給予了很高評價:它雖然不能很準確地把語言A翻成語言B,但的確可以在交流過程中發揮應急作用。只要被翻成語言B的文字大體上可以被理解,很多人就會對它十分滿意。如果人們能明白一段外語的「基本意思」,他們就會覺得很開心。然而,在我看來,這顯然不是「翻譯」這個詞的本義,但對有些人來說,「谷歌翻譯」無疑是一個偉大的產品,它所做的工作就是翻譯。好吧,我明白這些人的需求,也理解他們的那種開心。對他們而言,這的確是一種幸運。

最近,我看到有技術狂熱分子製作了柱狀圖,號稱可以比較人工翻譯和機器翻譯的「質量」,這些圖形表明,最新版本的翻譯引擎已經很接近人工翻譯水平了。但是,在我看來,這是一種對無法量化的事物進行量化的偽科學,或者,你也可以認為,是一群技術獃子試圖將無形的、微妙的、藝術的事物進行量化。在我眼裡,今天的「谷歌翻譯」,其水準既有優秀的一面,也有搞笑的一面,而我是無法把我對它的感受進行量化的。回想一下前面提到的第一個翻譯例子吧,裡面涉及到「他的」和「她的」物品,沒有理解能力的翻譯機器幾乎把這些物品都翻對了。儘管取得了這樣小小的成功,但它還是沒能理解整段話的意思。在這種情況下,人們應該如何量化它的工作質量呢?用看上去很科學的圖表去證明翻譯質量,不過是對科學方法的濫用而已。

讓我回到人類譯者的悲觀圖景:他們很快將被機器超越和淘汰,逐漸變得無所事事,從而成為翻譯質量的檢驗者和文字的修補者。這種看法充其量只適用於平庸的譯者。一個嚴肅藝術家的工作絕不是從對低俗破爛作品的修修補補開始的,這些破爛不可能被打造成高雅藝術。藝術不是這個樣子,而翻譯無疑是一門藝術。

在我多年的寫作生涯中,我一直堅持認為,人類的大腦是一部機器——非常複雜的機器——我完全反對有些人的說法,說機器天然就不可能理解意義。甚至有一派哲學家聲稱,計算機絕不可能「理解語義」,因為它們是由「錯誤的材料」(硅)組成的。在我看來,這種觀點是草率的胡說八道。我不想在這裡深入討論這個問題,但我也不想讓讀者對我留下這樣一種印象:我相信計算機永遠不可能擁有智力和理解力。如果我的這篇文章傳遞了這樣一種意思,那是因為我提到的技術沒有觸及到人類智力的核心之處,前面所舉的那些例子很清晰地表明了機器翻譯的局限性。

在我看來,沒有根本的理由認為,原則上機器不會在某一天學會思考、創造、搞怪、懷舊、興奮、恐懼、高興、沉默、期盼。進而言之,機器可以真正學會在不同語言之間進行翻譯。沒有根本的理由認為,機器不會在某一天成功翻譯笑話、雙關語、劇本、小說、詩歌,當然,還有像本文這樣的文章。但是,所有這一切只有在機器擁有了類似人類的思想、情緒和體驗的基礎上才能實現,而這絕非近在咫尺的事情。實際上,我相信我們還有相當長的路要走。至少,這是一個一輩子對人類心智之深邃充滿敬畏的人所熱切希望的。

如果有一天翻譯機器能翻出用詩一般的英文寫出的文藝小說,並準確呈現出其中的押韻、賦格、節律、智慧、悲傷和聲韻,那麼我知道,是時候摘下我的帽子,向它致敬了。

封面:Dan Page翻譯:王培原文:The Shallowness of Google Translate

推薦閱讀:

虛構語言Fictional Languages
失傳千年的楚語或許找到了!
【體育與語言3】外語人名音譯轉寫的規範化討論——總論
【體育與語言3】外語人名音譯轉寫的規範化討論——輔音篇

TAG:Google翻譯 | 機器學習 | 語言學 |