如何評價Google神經機器翻譯(GNMT)系統?

來自@Google黑板報的微博:

Google機器翻譯實現重大突破!Google神經機器翻譯(GNMT:Google Neural Machine Translation)系統面世,該系統克服在大型數據集上工作的挑戰,不再將句子分解為詞和短語獨立翻譯,而是翻譯完整的句子,使得誤差降低了 55%-85% 以上。目前這項技術已運用於GoogleTranslate的漢英翻譯。

相關報道:

Google神經網路機器翻譯系統發布,實現機器翻譯重大突破_Google黑板報


    搬運自下面這個問題,不過感覺其實更適合答在這裡:

    如何評價「谷歌用神經機器系統把漢語翻譯成英語,錯誤率最高下降85%」? - 王贇 Maigo 的回答

  1. 谷歌的神經網路翻譯(GNMT)的性能與傳統的基於片語的翻譯(PBMT)相比,的確有了顯著的提高。在不同的語言對上,GNMT把PBMT與人工翻譯的鴻溝縮小了 58% ~ 87%,在某些語言對上可以說接近了人工翻譯的水平。
  2. 但是,說GNMT將取代人工翻譯,還為時尚早。GNMT仍然時不時地會犯一些很傻的錯誤,論文的最後一頁列舉了一些,機智的網友們也發現了不少。實際場合的翻譯,尤其是書面翻譯,對這樣的錯誤容忍度很低。
  3. GNMT的貢獻主要還是在不為用戶所了解的技術方面。神經網路翻譯與PBMT相比,模型「清爽」了許多,一個神經網路搞定一切,只是一直以來在性能和速度方面比不上PBMT。GNMT把神經網路翻譯在性能和速度方面的潛力發揮了出來,我覺得神經網路翻譯在不久的將來將成為主流。


很好,但是還不夠好。

1)基本的翻譯功能的確是實現了,比上一版好多了,但是仍然有錯譯、漏譯的情況,所以暫時應該還是很難以替代人工翻譯。

2)考慮到機器翻譯的用途(網頁翻譯、輔助翻譯等),Google Translate就更不可能替代人工翻譯了。將來很有可能是,機器翻譯用於輔助及低端的場合,人工翻譯用於高端的場合,兩者是互助而不是替代的關係,所以 @黃大師 說「作為翻譯,看到這個新聞的此時此刻,我理解了18世紀紡織工人看到蒸汽機時的憂慮與恐懼」是不必要的。

我找了三類文本來測試,分別是日常翻譯、技術翻譯和文學翻譯,詳細情況如下。從翻譯本身的角度來說:

1)漢譯英比英譯漢略優秀一些,大多數時候英文都能做到語法基本通順,但是漢語則更容易出錯。

2)詞、片語的翻譯往往沒有問題,但是如果原文句式略微複雜一點,就容易判斷出錯。

3)日常語言翻譯基本堪用,技術翻譯問題略大,文學翻譯基本上用不了。

第一類:日常翻譯

來源:【冰】日常英語口語900句

註:下面的每個例子中的第一個原文(英)和第二個原文(漢)是原文檔中的對應翻譯。

1

I』ve never heard that piece before. Who wrote it?

我從來沒有聽說過的那件。誰寫的?

【評】「that piece」沒有上下文的確很難判斷是「那件」還是「那首曲子」,但是聯繫句內上下文「heard that piece」,基本上還是可以判斷為「聽過那首曲子」,而不是「聽說過那件」——「聽說過」一般應是「hear about」。

我從沒有聽過這一段,是誰寫的?

I have never heard of this paragraph, who wrote it?

【評】沒有上下文,「這一段」翻譯為「this paragraph」也不算錯。

2

Have you ever thought about becoming a professional musician?

你有沒有想過要成為一名職業音樂家?

【評】沒錯。

你有沒有想過成為一名專業的音樂家。

Have you ever thought of becoming a professional musician?

【評】沒錯。

3

Who is the author of this novel?

誰是這本小說的作者嗎?

【評】沒錯。

這部小說的作者是誰?

Who is the author of this novel?

【評】沒錯。

4

This writer uses vivid descriptions in his writings.

這位作家在他的作品中採用了生動的描述。

【評】沒錯。

這位作家在他的作品中運用了生動的手筆。

The writer used a lively handwriting in his work.

【評】沒錯。

5

How much do you know about the works of Henry Wadsworth Longfellow?

多少錢你知道朗費羅的作品?

【評】「How much」翻譯嚴重錯誤。「Henry Wadsworth Longfellow」翻譯過度簡化。

你對亨利·沃茲沃思·朗費羅的作品了解多少?

How much do you know about Henry Wadsworth Longfellow?

【評】 「的作品」漏譯。

第二類:技術翻譯

例子1:英譯漢

來源:http://www.3gpp.org/technologies/keywords-acronyms/97-lte-advanced

In LTE-Advanced, the possibility for efficient heterogeneous network planning – i.e. a mix of large and small cells - is increased by introduction of Relay Nodes (RNs). The Relay Nodes are low power base stations that will provide enhanced coverage and capacity at cell edges, and hot-spot areas and it can also be used to connect to remote areas without fibre connection. The Relay Node is connected to the Donor eNB (DeNB) via a radio interface, Un, which is a modification of the E-UTRAN air interface Uu. Hence in the Donor cell the radio resources are shared between UEs served directly by the DeNB and the Relay Nodes. When the Uu and Un use different frequencies the Relay Node is referred to as a Type 1a RN, for Type 1 RN Uu and Un utilize the same frequencies, see figure 7. In the latter case there is a high risk for self interference in the Relay Node, when receiving on Uu and transmitting on Un at the same time (or vice versa). This can be avoided through time sharing between Uu and Un, or having different locations of the transmitter and receiver. The RN will to a large extent support the same functionalities as the eNB – however the DeNB will be responsible for MME selection.

在高級LTE,高效異構網路規劃的可能性 - 即大型和小型細胞的混合 - 增加通過導入中繼節點(RNS)的。中繼節點是低功率基站,這將在小區邊緣提供增強的覆蓋和容量,以及熱點地區,它也可用於連接到遠程地區沒有光纖連接。中繼節點被連接到經由無線電介面,元,它是在E-UTRAN無線介面支原體的變形例的供給方eNB(DENB)。因此,在施主小區的無線資源是共享的之間的UE直接服務由DENB和中繼節點。當Uu和聯合國使用不同的頻率的中繼節點被稱為一個Ia型RN,對於類型1RN Uu和聯合國利用相同的頻率,參見圖7.在後一種情況下,存在於自干擾的高風險中繼節點上的Uu接收,並在同一時間(或反之亦然)上未發送時。這可以通過Uu和聯合國,或具有發射器和接收器的不同位置之間的時間共享來避免。在RN將在很大程度上支持相同的功能作為所述eNB - 然而DENB將負責的MME的選擇。

【評】「 cells」錯譯,「LTE-Advanced」不算錯,但是專有名詞處理不當,第一句話語法不通。第二句句式不通。後續錯誤類似,總之錯誤不少,基本上通不過基本的翻譯檢查。

例子2:漢譯英

來源:歡迎訪問上汽通用汽車

1.5L DVVT發動機最大功率83kW,最大扭矩141Nm;直到四缸,雙頂置式凸輪軸,十六氣門,可變進氣長度進氣歧管,多點順序燃油電控噴射和獨立點火模塊,雙可變正時系統,在動力性能提升10%-20%的同時,百公里綜合油耗達到5.4L。目前賽歐3搭載此款發動機,且全系車型可享受3000元國家節能惠民補貼。

1.5L DVVT engine maximum power 83kW, maximum torque 141Nm; until the four-cylinder, double overhead camshaft, sixteen valves, variable intake length intake manifold, multi-point sequential fuel injection and independent ignition module, Variable timing system, the dynamic performance of 10% -20% increase at the same time, 100 km comprehensive fuel consumption to 5.4L. Sail 3 is currently equipped with this engine, and the entire line models can enjoy 3,000 yuan national energy-saving subsidies.

【評】第一個分句沒有謂語動詞。「直到四缸」錯譯,整句只是名詞羅列,沒有整合成英文句子。最後一句翻譯的比較好。

第三類:文學翻譯

例子1:英譯漢

來源:The Picture of Dorian Gray

The studio was filled with the rich odour of roses, and when the light summer wind stirred amidst the trees of the garden, there came through the open door the heavy scent of the lilac, or the more delicate perfume of the pink-flowering thorn.

工作室里瀰漫著玫瑰的濃郁的香氣,當煙雨園裡的樹木攪拌光夏風,還有通過開著的門來到丁香沉重的氣味,或粉紅色花刺的更加細膩的香水。

【評】「and when the light summer wind stirred amidst the trees of the garden」翻譯為「當煙雨園裡的樹木攪拌光夏風」不通順。「 came」的主被動沒有處理好,「 perfume」錯譯。

From the corner of the divan of Persian saddle-bags on which he was lying, smoking, as was his custom, innumerable cigarettes, Lord Henry Wotton could just catch the gleam of the honey-sweet and honey-coloured blossoms of a laburnum, whose tremulous branches seemed hardly able to bear the burden of a beauty so flamelike as theirs; and now and then the fantastic shadows of birds in flight flitted across the long tussore-silk curtains that were stretched in front of the huge window, producing a kind of momentary Japanese effect, and making him think of those pallid, jade-faced painters of Tokyo who, through the medium of an art that is necessarily immobile, seek to convey the sense of swiftness and motion. The sullen murmur of the bees shouldering their way through the long unmown grass, or circling with monotonous insistence round the dusty gilt horns of the straggling woodbine, seemed to make the stillness more oppressive. The dim roar of London was like the bourdon note of a distant organ.

從波斯馬鞍袋上,他是在撒謊,吸煙沙發的一角,因為是他的習慣,無數的香煙,亨利勛爵沃頓可能只是搭上了金鏈花,他的蜂蜜香甜的蜂蜜色的花朵的光芒顫抖的分支似乎很難能夠承受美的負擔,flamelike像他們的;現在再在飛行中的鳥類橫跨在巨大的櫥窗前被拉長,長期tussore,絲綢窗帘閃過的夢幻般的陰影,產生一種瞬間的日本的影響,並讓他想起那些蒼白,玉石面畫家東京誰,通過一門藝術,必然是不動的介質,力求傳達迅捷和運動感。蜜蜂肩負自己的方式度過漫長unmown草,或單調的堅持下一輪零零落落的Woodbine的塵土飛揚的鎏金牛角盤旋的慍怒的雜音,似乎讓寂靜更加壓抑。倫敦在朦朧的轟鳴聲就像波登注意到遠處器官。

【評】「 lying」錯譯,「 catch」錯譯,第一句句子根本不通。後面類似的錯誤不少。顯然過不了基本的翻譯檢查。

例子2:漢譯英

來源:《白鹿原》

白嘉軒後來引以豪壯的是一生里娶過七房女人。

Bai Jiaxuan later cited the heroic life is married seven room woman.

【評】英文句子語法是錯誤的,「七房女人」直接錯譯。

娶頭房媳婦時他剛剛過十六歲生日。那是西原上鞏家村大戶鞏增榮的頭生女,比他大兩歲。他在完全無知慌亂中度過了新婚之夜,留下了永遠羞於向人道及的可笑的傻樣,而自己卻永生難以忘記。一年後,這個女人死於難產。

He had just passed his 16th birthday when he was married to his first wife. It is the former Nongyuan Gongjiacun large Gongzeng Rong"s first daughter, two years older than him. He spent the night in the completely ignorant panic, leaving a humiliation of humiliation and humiliation forever, while he himself is hard to forget. A year later, the woman died of dystocia.

【評】第一句翻譯的很好,「he was married to」用被動尤其好(但是我懷疑Google Translate有此文學鑒賞能力)。「西原上」直接錯譯,"鞏增榮"寫法錯誤,整句時態錯誤(說明Google Translate並不具備自行聯繫上下文的能力)。「a humiliation of humiliation and humiliation」不知所謂。

第二房娶的是南原龐家村殷實人家龐修瑞的奶乾女兒。這女子又正好 比他小兩歲,模樣俊秀眼睛忽靈兒。她完全不知道嫁人是怎麼回事,而他此 時已諳熟男女之間所有的隱秘。他看著她的羞怯慌亂而想到自己第一次的傻 樣反倒覺得更富刺激。當他哄唆著把躲躲閃閃而又不敢違坳他的小媳婦裹入 身下的時候,他聽到了她的不是歡樂而是痛苦的一聲哭叫。當他疲憊地歇息 下來,才發覺肩膀內側疼痛鑽心,她把他咬爛了。他撫傷惜痛的時候,心裡 就潮起了對這個嬌慣得有點任性的奶乾女兒的惱火。正欲發作,她卻扳過他 的肩膀暗示他再來一次。一當經過男女間的第一次交歡,她就變得沒有節制 的任性。這個女人從下轎頂著紅綢蓋巾進入白家門樓到躺進一具薄板棺材抬 出這個門樓,時間尚不足一年,是害癆病死的。

The second room to marry is the original Pang Village, South Pang Xunrui people dry milk daughter. This woman is just two years younger than him, looks handsome eyes Linger. She did not know how to get married, and he has been familiar with all the secrets between men and women at this time. He looked at her shyness and panic and think of their first silly hand feel more stimulating. When he coaxed to dodge and not dare to violate Au his daughter-in-law into the body when he heard her not a joy but a cry of pain. When he tired to rest down, only to find medial pain in the shoulders, she bitten him rotten. He relieved the pain when the heart on the tide from the spoiled on the spoiled daughter of the wayward little angry. Was about to attack, she was over his shoulder and hinted that he once again. Once the first intercourse between men and women, she becomes unruly wayward. The woman from the sedan wore red silk covered towel into the white house floor to lie down into a thin coffin carried out of the gatehouse, the time is less than a year, is the death of tuberculosis.

【評】「房」繼續錯譯,「南原」錯譯,「殷實人家」人家錯譯,「奶乾女兒」女兒,整句說不通——碰到這種文化特色的詞語,翻譯不通我想是正常的。其他的錯誤類似。


妹子說翻得不行,於是我拿百年孤獨開頭做了個試驗

雖然我贊同妹子的觀點, 但其實上面一開始那個才是我用google翻譯的...現在再告訴她會不會太殘忍了...(哈哈她嘲諷的語氣是故意噠,我們平時就互相嘲諷習慣了)


這個是基於Yoshua Bengio團隊兩年前的研究做出的成果。目前從中文翻譯到英文,線上系統已經使用了文章中所述的系統,大家可以實際體驗一下,但其他的語言還沒有。參見原文:「The Google Translate mobile and web apps are now using GNMT for 100% of machine translations from Chinese to English」

我實際體驗了一下這個系統,明顯超出我的預期,非常牛!以下是我的一個測試例子。

中文(原文):

「我們寫這篇文章的主要目的是為了解釋微服務的主要思想和原則。當我們投入時間去做這件事的時候,我們明確地認識到微服務架構風格是一個重要的想法——值得我們認真地考慮用在企業應用上。我們最近用這種風格構建了幾個系統,同時我們也知道有一些其他團隊使用並且喜歡上了這種風格。

我們所了解的在積極嘗試這種架構風格的公司包括亞馬遜,Netflix,The Guardian,UK Government Digital Service,realestate.com.au,Forward,以及http://comparethemarket.com。2013年的行業會議圈子充滿了轉向微服務的公司案例,雖然具體形式不同,但都可以划到微服務這個大類,包括Travis CI。另外,還有很多公司很長時間以來一直在實踐著目前我們稱為微服務的架構,但卻沒有使用這個名字。(可能用的是SOA這個名字——儘管我們說過,SOA這個名字充滿了各種不同的解釋)

儘管有這些正面的經驗,我們並不是在說我們很確定微服務是軟體架構的未來方向。雖然目前為止相比於單體應用而言我們在微服務上的體驗總體正面,我們還是認為要得出一個全面的判斷需要經過更長的時間。」

英文(翻譯結果):

「The main purpose of this article is to explain the main ideas and principles of micro-services. When we put the time to do this, we clearly recognize the micro-service architecture style is an important idea - worthy of our serious consideration in the enterprise applications. We have recently built several systems in this style, and we know that some other teams have used and liked this style.

Companies we know are actively trying out this architectural style, including Amazon, Netflix, The Guardian, UK Government Digital Service, realestate.com.au, Forward, and comparethemarket.com. The industry meeting circle in 2013 is filled with examples of companies moving to micro-services, although in specific forms, but can be categorized into micro services categories, including Travis CI. In addition, there are many companies for a long time has been practicing what we call the micro-service architecture, but did not use the name. (Possibly using the name SOA - although we have said that the name SOA is full of different interpretations)

Despite these positive experiences, we are not saying that we are certain that micro services are the future direction of software architecture. Although the overall experience of micro-services is generally positive compared to single-use applications, we still believe that it takes more time to arrive at a comprehensive judgment.」

譯文基本沒有太大的語法問題,唯一確定有問題的是"單體應用"這個詞,對應英文是monolithic application,被翻譯成了single-use application。不過這個問題可以理解,因為單體應用本身是個專有名詞,是從英文翻譯過來的詞,而且並沒有標準的翻譯。 翻譯錯了可以理解。在實際使用當中,這種錯誤也比較容易發現和處理。

從這一次的體驗看,谷歌向徹底解決翻譯問題邁進了一大步!

補充:"2013年的行業會議圈子充滿了..."這一句,翻譯的結果是現在時("is filled ..."),應該用過去時("was filled ...")。這個錯誤很有代表性,意味著谷歌翻譯還沒辦法推斷出2013年是過去。推斷出這個需要的不是語法,而是一點點常識。意味著谷歌翻譯還沒有常識。當然,這也是我們預期的結果。不過,就如同Geoffrey Hinton所相信的那樣,神經網路終將學會「常識」。這一天估計會在20年之內到來。


以下角度大概沒有人注意過:Google翻譯的最大突破在歐洲語言的詩歌互譯。

測試樣本選了一首里爾克極為優美的逸詩,它在詩人生前未正式出版,其內容是杜伊諾第一哀歌中『命運』母題的預演。

Du im Voraus

verlorne Geliebte, Nimmergekommene,

nicht wei? ich, welche T?ne dir lieb sind.

Nicht mehr versuch ich, dich, wenn das Kommende wogt,

zu erkennen. Alle die gro?en

Bilder in mir, im Fernen erfahrene Landschaft,

St?dte und Türme und Brücken und un-

vermutete Wendung der Wege

und das Gewaltige jener von G?ttern

einst durchwachsenen L?nder:

steigt zur Bedeutung in mir

deiner, Entgehende, an.

Ach, die G?rten bist du,

ach, ich sah sie mit solcher

Hoffnung. Ein offenes Fenster

im Landhaus - , und du tratest beinahe

mir nachdenklich heran. Gassen fand ich, -

du warst sie gerade gegangen,

und die Spiegel manchmal der L?den der H?ndler

waren noch schwindlich von dir und gaben erschrocken

mein zu pl?tzliches Bild. - Wer wei?, ob derselbe

Vogel nicht hinklang durch uns

gestern, einzeln, im Abend?

Aus: Die Gedichte 1910 bis 1922 (Paris, Winter 1913/14)

以下是J.B. Leishman的英譯本,有轉譯,撥開些迷卻添了些霧:

再看 google translate的譯文:

You in advance

Lost lover,

I do not know what sounds are dear to you.

I no longer try to keep you,

To recognize. All the great

Pictures in me, in the distance experienced landscape,

Cities and towers and bridges and un-

Presumed turn of the ways

And the mighty of those of gods

Once-grown countries:

Rises to meaning in me

Of yours.

Oh, the gardens are you,

Ah, I saw them with such

Hope. An open window

In the country house - and you almost fell

I approached thoughtfully. Lanes I found,

You were just gone,

And the mirrors sometimes the stores of the traders

Were still dwindling from you, and they were terrified

My too sudden picture. - Who knows whether it is

Bird does not go through us

Yesterday, individually, in the evening?

From: The Poems 1910 to 1922 (Paris, Winter 1913/14)

——可謂是中規中矩的翻譯,沒有任何轉譯,德文英文幾乎一一對應,而且英文措辭工整典雅,初看令人難以相信是機器翻譯的結果,雖然錯譯也有,但有在此稿本基礎上進一步修改的價值。

德譯中如何呢?抱歉,目前還幼稚可笑。谷歌首先要攻克的顯然是歐洲語言,就像深藍先要統治國際象棋;至於中文或圍棋?Master已經在去往烏鎮的路上。

———————

又發現Stephen Mitchell的英譯非常好,補充在這兒:

You Who Never Arrived

You who never arrived

in my arms, Beloved, who were lost

from the start,

I don"t even know what songs

would please you. I have given up trying

to recognize you in the surging wave of

the next moment. All the immense

images in me -- the far-off, deeply-felt landscape,

cities, towers, and bridges, and un-

suspected turns in the path,

and those powerful lands that were once

pulsing with the life of the gods--

all rise within me to mean

you, who forever elude me.

You, Beloved, who are all

the gardens I have ever gazed at,

longing. An open window

in a country house-- , and you almost

stepped out, pensive, to meet me. Streets that I chanced

upon,--

you had just walked down them and vanished.

And sometimes, in a shop, the mirrors

were still dizzy with your presence and, startled, gave back

my too-sudden image. Who knows? Perhaps the same

bird echoed through both of us

yesterday, separate, in the evening...


去年年底Google神經網路機器翻譯出來的時候, 本人有感於突破之快, 把當年的討論的部分收穫寫到了 「概率估值的光滑(Smoothing)」裡面。

今天有時間和大家一起討論下下, 深度神經網路機器翻譯。

前言

2016年年底, Google公布了神經網路機器翻譯(GNMT), 從此宣告, 機器翻譯經過27年左右, 正式從1989年的IBM機器翻譯模型(PBMT,基於短語的機器翻譯),過渡到了神經網路機器翻譯模型。已經極大接近了普通人的翻譯了。

而從基於短語的翻譯到神經網路翻譯, 相對提升可以達到60%以上, 因此一下子引起了歡呼和驚嘆。 而這背後的大功臣,就是sequence to sequence (seq2seq)的端到端的模型。

而這個seq2seq模型,除了機器翻譯,還極大改變了整個自然語言處理相關應用。 包括基本的NLP功能:Parsing, NER等; 傳統的NLP應用:Summarization, QA, Conversation等; 還有多模的世界:圖像和文字, 語音和文字等。

譬如, Google除了GNMT以外還有基於seq2seq的TTS系統Tacotron

基於seq2seq的問答系統

基於seq2seq的概要提取系統

接下來, 我們按如下順序介紹seq2seq模型:

  1. Seq2Seq的簡史
  2. PBMT 時代的基石和問題
  3. 端到端模型的出現
  4. 神經網路語言模型的出現
  5. RNN-LM的出現
  6. RNN的發展
  7. Seq2Seq的出現
  8. Seq2Seq的發展

一. Seq2Seq的簡史

目前seq2seq的突破,離不開:

a. Attention機制: 現在Attention機制幾乎將IBM模型中alignment對齊機制發揮出新的境界。

b. RNN模型升級: RNN出現了雙向RNN,堆棧RNN,和殘差RNN。在GNMT裡面把這些技術統統用上了。使得RNN模型的學習能力達到空前高度。

c. RNN-LM模型: RNN的使用開啟解決長距離依賴的問題, 也引發記憶計算在語言模型的新思考。

d. NNLM模型突破:NNLM模型的發展使得非線性的投影和Softmax的近似計算得到突破。

e. 端到端的編解碼模型:端到端的早期突破使得多模融合成為可能。

2015年,兩個小組: Tim Rocktaschel為代表的倫敦大學院、牛津大學、還有DeepMind的小組(Reasoning about Entailment with Neural Attention), 和愛丁堡大學的Jianpeng Cheng (Long Short-Term Memory-Networks for Machine Reading),發表了基於Attention的對齊機制細分和相關的可視化的分析。 尤其Jianpeng Cheng對Shallow Attention Fusion 和 Deep Attention Fusion的區分,代表了Attention機制在NLP裡面的成熟。

2014年 - 2015年,斯坦福計算機系Manning組的 Minh-Thang Luong 的論文 Effective Approaches to Attention-based Neural Machine Translation 正式基於高斯分布推導了Local Attention,比較了Global Align Attention和Local Align Attention, 和視頻處理裡面 Soft Attention 和 Hard Attention建立了聯繫。

2015年 Bengio的團隊中來自德國的Dzmitry Bahdanau (NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE),將Attention機制引入到機器翻譯中,正式開啟了Attention作為Alignment的大門!

2014年 兩個人, Bengio團隊的Kyunghyun Cho (Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation) 和 Google的 Ilya Sutskever (Sequence to Sequence Learning with Neural Networks) 正式將RNN Encoder-Decoder搬上神經網路機器翻譯NMT的歷史舞台, 並且命名為Seq2Seq模型!

從上面, 我們看到從Seq2Seq簡單模型到有Attention模型的Seq2Seq的經歷。

二. PBMT 時代的基石和問題

首先基於短語的機器翻譯,從IBM模型一路發展而來, 已經相當成熟。 並且開源系統也很多,極大促進了機器翻譯的研究和應用。

最重要的是完成機器翻譯的功能模塊的分解: 雙語對齊, 語言模型,翻譯模型, 解碼器, 測試。

這個使得, 神經網路語言模型誕生後,可以進行獨立測試, 逐步發展替代。

其中n-gram語言模型,基於全概率公式和馬爾可夫假設,

但是問題也出現在這個n-gram模型, 主要的3大問題

1. 通過頻率計算概率, 存在數據稀疏,概率為0的情況難以輕易搞定

雖然,眾多概率光滑的演算法(尤其 Modified Kneser-Ney 演算法)紛紛出現, 依然對人為先驗設計要求太高。

2. 長距離依賴的問題難以解決(短語N-Gram中N的局限性)

3. 線性模型學習的局限性

如何解決基於頻率的概率估算問題, 解決長距離依賴, 解決線性模型的問題在基於短語的機器翻譯PBMT框架下難以徹底截距。

其實, 還有兩個神器在PBMT時代已經廣泛應用了:

1. Log-Linear模型的提出

在「概率分布の三奧義」 裡面,我們就提出了, 概率估計發展, 從基於頻率, 到基於經驗,再到基於最大熵。 需要的數據越來越少。 而Log-Linear就是基於最大熵的概率模型(細節參考「「66天寫的邏輯回歸」 引」) 如果想深入了解的, 簡單說來Log-Linear和最大交互熵之間的關係就是著名的Donsker-Varadhan定理:

Log-Linear表現為Softmax輸出

2. 束查詢 Beam Search

當把翻譯的詞拼成句子的時候, 要求整個句子的似然概率最大, 這時候Beam Search是介於貪心和動態規劃(譬如 Viterbi Algorithm)之間個一種均衡了效果和計算量的選擇。

三. 端到端模型的出現

端到端模型很早就出現了, Brandeis 的Jordan Pollack早在89年左右就思考如何基於encoder-decoder開始做機器翻譯。 不過,那時候叫dual-ported RAAM (recursive auto associate memory)。

大家都知道encoder-decoder的功能是重建對應的元素, 如果x和f(x),存在同樣的內在分布表達, 那麼可以先訓練x重建, 再訓練f(x), 甚至可以訓練多個f(x)。 如果把f(x)看成是翻譯, 這就可以基於多模的翻譯, 也可以是多語言的翻譯。

不僅僅如此, 還引入了分布表達映射的思想, 增強模型的表達能力。

這是早期的基於神經網路的端到端的機器翻譯, 但是局限於當時的演算法和計算,效果並不突出。

四. 神經網路語言模型NNLM的出現

PBMT時代後期, Log-Linear的出現和應用, 基本上奠定了NNLM神經網路語言模型的基礎了。 本質上NNLM就是Log-Linear 保留了Softmax層, 替代了線性映射變成非線性映射tahn。 這樣, 引入了非線性映射。

Log-Linear對應的是線性Softmax網路

NNLM: 非線性(tanh)的Softmax網路

這裡使用的是tanh,某種意義就是截斷的對稱線性的光滑近似。

其實,直接在Log-Linear基礎上,引入非線性存在個兩個問題

1. 需要的網路參數太多, 訓練困難

2. Softmax網路的計算量很大, 而且不穩定, 雜訊的影響太大。

對於這兩個問題,Bengio建議可以嘗試RNN來減少參數, 同時提出了Hierarchy Softmax方式減少計算量,但是依然不夠穩定。

雖然NNLM引入了非線性, 也使用softmax計算概率問題(等價於最大熵估算概率), 但是並沒有解決長距離依賴問題。

五. RNN-LM的出現

Mikolov追隨Bengio的建議, 2010年引入了RNN, 雖然引入RNN有利於簡化參數, 但是同時引入了深度網路, 使得訓練和收斂變得困難。 為了簡化計算, 沒有採用tanh計算, 使用了sigmoid函數, 同時採用了分組計算softmax。

2年後, Mikolov在提出word2vec之前差不多搞定了Negative Sampling, 進一步提出了提高了Softmax的訓練的速度和穩定性。Negative Sampling可以看成2010年 Gutmann and Hyv?rinen 提出的 Noise Contrastive Estimation的一種近似。 現在NEG和NCE已經成為訓練softmax的主流。

有人說, RNN-LM好像就是把NNLM的NN網路換成了RNN網路, 但是訓練難度的增加,的確阻礙了好多人的實驗成功, 有興趣可以看一下 Bengio和Mikolov聯合在2012年發表的大作 On the difficulty of training Recurrent Neural Networks。

RNN的成功引入, 解決了長距離依賴的問題, 而且引入了上下文和記憶的概念。

RNN-LM 背後的翻譯能力的挖掘,還需要回歸到早期Encoder-Decoder的表達映射。

六. RNN的發展

RNN自身學習能力也在不停的發展, 譬如堆棧RNN,粗細的表達能力也開始分層次。 構建起一個時間和空間的縱橫網路。

在語言模型裡面, 就要看雙向網路了, 正向網路, 好比我的老家溧陽, 那麼你遇到溧字,後面只有兩個選擇溧陽和溧水,但是反過來陽和水前面可以跟的詞就多了。 反向網路, 好比New York, 正向看New 後面不一定跟York,但是反過來看York前面一般跟New。

再根據訓練收斂的快慢和梯度消失的影響, 引入殘差網路的機制, 就得到了殘差堆棧RNN。

合併到一起,就是GNMT裡面的雙向堆棧殘差RNN網路了。

除了結構的疊加, 也有人開始改進 RNN本身結構, 譬如增強記憶功能的增強RNN:

七. Seq2Seq的出現

有RNN作為語言模型, 再加上早期的Encoder-Decoder框架作為翻譯, 於是誕生了RNN Encoder-Decoder模型。

如果把這個模型水平展開,就不很像encoder-decoder了, 於是命名成Seq2Seq模型了。

再加上詞嵌入的發展和t-SNE可視化的發展, 剛出生的Seq2Seq翻譯的效果和影響力已經不是dual-ported RAAM可以比擬的啦。

從此端到端的翻譯重新回到歷史的舞台!

八. Seq2Seq的發展

隨著前面簡史裡面介紹的Attention機制的引入, Seq2Seq的效果一飛衝天。Attention本質上也是一個Softmax的權重計算網路。

但是它很好的構建了注意力權重、上下文向量,注意力向量等模塊。

有了這樣的模塊化, 再加上合理的計算流程, 我們就可以得到基於Attention的候選詞計算了。 而Attention機制很好的替代了在PBMT裡面的對齊機制。

如果再回到PBMT裡面的幾大模塊: 雙語對齊, 語言模型,翻譯模型, 解碼器, 測試。 發現可以對應到Attention,RNN-LM,Encoder-Decoder, Beam.

似乎除了Beam之外,全部可以利用神經網路搞定了。 現在為Seq2Seq量身定做Beam Search也是一個研究熱點, 最近基於剪枝的演算法又開始出現了,希望找到計算量和效果的新的平衡點.

這樣,基於概率的剪枝, 是不是和AlphaGo接近了。 這或許就是未來使用AlphaGo做機器翻譯的開始。 有興趣大家可以看看IBM Watson研究院 Markus Freitag 的論文 Beam Search Strategies for Neural Machine Translation.

小結

通過逐層說明的方式,對比了從PBMT到NMT的進化實現, 通過問題解答的方式, 闡明了深度神經網路機器翻譯是怎麼發展起來的。

相關話題:

概率估值的光滑(Smoothing)

  • 機器學習經典人物關係[全]
  • 人工智慧深度學習人物關係[全]


我什麼都不說,這是墜吼的


百度在1年半前就已經上線了基於attention機制的神經網路機器翻譯,和google一樣都是基於Yoshua Bengio組2015年的這個paper做的改進 (ICLR-2015-Neural Machine Translation by Jointly Learning to Align and Translate),目前包含中日韓英4個方向的互譯 。。。訊飛似乎今年也上線了類似的系統,不知道為什麼到google現在應用的時候,才在國內外引起這麼大關注。也許是google這個詞的宣傳buff加成,或者是國外的月亮比較圓?

Google論文的方法看起來基本是這幾年學術界paper的組合,包括converage,subword,residual多層等等,並沒有特別明顯的創新。不過google機器翻譯組的迭代實驗能力真心很強,這個不能不服。而且有足夠多的gpu機器把8層神經網路的模型線上化,也充分體現了google有多麼的土豪。

ps:google現在還沒有上線英中方向的nmt模型,韓日似乎也沒有。一個簡單的判斷方法,是看滑鼠移到翻譯結果的時候,有沒有詞對齊高亮。有的話,說明是傳統pbmt模型,沒有說明是神經網路機器翻譯 。這裡順便解釋一下,為什麼可以用這種方式判斷:1. 理論上,nmt模型可以輸出源語言的對齊概率,但是這個對齊沒有傳統模型對的好。只看對齊最大的概率,經常是錯的。如果你展示給用戶,就鬧笑話了。但是nmt因為是雙向lstm,所以概率錯了,不一定會影響翻譯結果。從產品角度,輸出對齊不僅會增加開發成本,而且有可能降低用戶體驗。

2. nmt模型可以直接輸出整句的nbest候選,這個不僅非常自然,而且對用戶的幫助更大。可以理解為一個句子的好幾種說法。而且輸出整句候選和詞候選兩種方式,從產品交互上是衝突的。硬要結合在一起,會帶來產品交互上的複雜,得不償失。

所以無論從哪個方面考慮,baidu和google目前的nmt模型,在產品上都是直接輸出整句的n-best候選,而不在輸出詞對齊候選。


作為翻譯,看到這個新聞的此時此刻,我理解了18世紀紡織工人看到蒸汽機時的憂慮與恐懼。


原文↓

百度不行↓

必應可以↓

海詞不行↓

金山詞霸不行↓

有道可以↓

谷歌嘛

有對有錯,不愧是神經機器翻譯系統


按照一樓的說明證明是NMT模型。結果相差不大,但注意語法結構的細節。

上面說百度上線早卻不如外來的和尚會念經,支持的語言多不如Google集新研究成果關注大,我想說你怎麼不提百度坐擁N千萬中文用戶,每天現成多少語料呢……


有了谷歌神經MT,翻譯效率大大提高,目測至少提高30%。有時感覺就像在做校對一樣。

目前而言,大多數情況下,谷歌NMT比較好,有些情況下,百度NMT比較好。

因此,同時調用2個MT的譯文非常有必要。



據我昨天和今天的體驗評價,確實進步不少。另外英譯中已經能用了。希望大家也能夠進行評測。


新聞描述的「神經網路翻譯」之原理,我不得不說似懂非懂;其效果,我不得不說沒有辦法驗證(「真不巧,網頁走丟了」is all I can get;如果沒記錯,從2012還是2013年我就沒見過活的谷歌翻譯了,翻了牆都不行)。

雖然不太懂,也不知道這新聞多大程度上是噱頭,我還是要說,這是大大的好事。個人認為Google的這個研究方向(雖然不甚明了)是對的,但是尚待成熟。

以下胡侃一番:

翻譯有純人工翻譯,還有藉助電腦的機器輔助翻譯(CAT,computer assisted/aided translation),還有傳統的機器翻譯(MT,machine translation)。

傳統的機器翻譯據說源於上世紀五六十年代的美國,為了破解蘇聯的大量俄語文件而研製。它的原理是辭彙間的一一對應,可以想見,產出的譯文肯定是不通的,或許只能大體看出原文在探討的主題。這樣的翻譯模式或者思路,在翻譯天氣預報這種語彙固定的文本上有一定用處。據說加拿大魁北克地區曾用這種方式播報雙語天氣預報。

機器輔助翻譯是指利用Trados或者wordfast這種工具,它的核心原理在於translation memory,即翻譯記憶語料庫。軟體工具把之前翻譯過的或者集中導入的雙語語料儲存起來,遇到相似程度高的原文時,自動調出之前的譯文,譯者在其基礎上修改,完成最終的譯文。其翻譯單位為句子。

以上介紹的基於語彙一一對應的機器翻譯和基於翻譯記憶資料庫的CAT,其實代表了實現人工智慧的兩個思路。我自己只是搞翻譯的,對於人工智慧不太懂,但機器/電腦翻譯屬於人工智慧的範疇。人工智慧的關鍵在於教會機器你想讓它認知的東西,對於如何教,有兩個思路。

舉一個我在TED演講中聽過的一個例子。

演講者從事的是圖像識別軟體的開發。一開始採取的套路是通過描述畫面來教會機器識別事物。比如給「貓」設置「圓臉、尖耳朵、長尾巴」等參數,但是效果很差,機器識別了站立著的貓,就識別不了坐著的貓。

後來研發者換了一個思路,模擬人類孩童是如何認識貓的——見的多了,就知道這樣的是貓了(孩子並不會去分析原來圓臉、尖耳朵、長尾巴的才是貓)。於是將大量貓咪的圖片存入機器,並告訴它這是「貓」,後來機器遇到類似的圖片,就能識別出是貓。已有資料庫越大,機器識別得就越準確。

個人認為質量較高的機器/電腦翻譯的實現,也要採取這後一種思路,即基於大量雙語語料的記憶和學習——讓機器記住什麼樣的話是什麼意思,而不是將語句分解為單個辭彙再去找它們在另一個語言中的對應。

根源還是語言的複雜性,無論是哪兩種語言之間,都不像二進位和十進位之間那樣可以實現一一對應,所以第一種思路的發展前途已經很局限。而第二個思路或許就是以後的方向,互聯網實現的大量語料共享也為它的發展提供了可能。

------------------------------------

關於如何看待機器/線上翻譯的進步:

雖然我自己是個翻譯匠,而且厭惡把線上翻譯隨便改改交差的譯員,但是對機器/電腦/線上翻譯本身心存親切——它畢竟不是人,不要笑話它。

它對於譯者也有用處,對於某些語彙(不是整句整段),它給的譯文由於基於大量現有語料,往往確實是業內人士用的比較多的說法。

所以大家不要看到機器翻譯產生可笑譯文就拿來調侃,該被調侃的是那些敢用這些譯文的人。

而且,沒有必要恐慌自己會被取代(前提是你的水平遠高於機器);機器差的還比較遠——如果你知道語言可以美到、精到、妙到什麼程度,如果你明白很多時候它就是人的靈光一現的、獨一無二的、偶然的產物,就不會懷疑這一點。


我大概講講這個系統都優缺點。一些朋友也發了不少例子,可能大家也發現,長句,大段書面文字,效果大部分很好,然而短句效果卻較差。這其實很正常。LSTM和Attention的最大好處就是可以利用長距離的信息。傳統的基於短語的翻譯模型,其問題都是翻譯模型,調序模型,語言模型都是本地的,長程調序,長程依賴基本是無解的,因為調序都要限制距離,否則的話複雜度太高。Dependency Treelet模型在長程調序上其實要好很多,這也是為啥微軟能夠以比谷歌小得多的資源,緊咬住谷歌這麼多年的原因。但是現在NMT模型可以無限距離調序,你會發現句子詞序自然了很多。但是在短句上,優勢並不明顯,有的時候還不如傳統的翻譯模型。這個也無需諱言。

我想如果大家關注各個主要的翻譯廠子(微軟,谷歌,百度),你會發現大家對於解決機器翻譯問題都有非常清晰的路線,那就是NMT+眾包。基本的思路是:短語、典故、口語特殊用法是有限的,可窮舉的,時效性強的。這些內容通過眾包收集最直接的翻譯,其實是一個最好最高效的選擇。谷歌的翻譯社區就是為此而開發的。NMT則主要面對其他句子。當然,和任何機器學習系統類似,這個系統也會被玩壞,但是玩壞短句其實說明不了什麼問題.

最後客觀評價一下這個工作。這次發布的系統,說實在的並沒有太多理論上的突破。但可以說是工程上的勝利。


谷歌翻譯的截圖是2016年9月28日的,次日貌似修復了這個bug。

看了評論後補上必應翻譯的結果。




說明了Google這個牌子確實很響。


推薦閱讀:

為什麼「pro」在 Google 翻譯中被翻譯成「親」?

TAG:人工智慧 | 谷歌Google | 翻譯 | Google翻譯 | 機器輔翻譯系統CAT |