阿里巴巴陳博興:單天翻譯詞量超過千億的秘密

摘要:大家可能熟悉的機器翻譯工具有很多,如Google的機器翻譯,Bing的翻譯甚至Youdao翻譯,但是大家對阿里的機器翻譯了解多少呢?在《雲棲大講堂第三期|未來人機交互技術沙龍》上阿里巴巴集團機器智能技術實驗室的資深演算法專家陳博興介紹了阿里翻譯團隊在跨境電商領域內遇到的挑戰以及相應採取的措施,即數據的搜集選擇,機器翻譯模型,以及阿里翻譯團隊相關的創新性工作。

演講嘉賓簡介:

陳博興,阿里巴巴集團機器智能技術實驗室的資深演算法專家。他的研究方向是機器翻譯,自然語言處理和機器學習。在加入阿里之前,他是加拿大國家研究委員會(NRC)的研究員(2009-2017),再之前先後是法國格勒諾布爾大學和義大利FBK-IRST的博士後,新加坡信息與通信研究所的研究員。他1998年本科畢業於北京大學,2003年博士畢業於中科院聲學所。他和同事合作先後發表了50來篇會議和期刊論文,並且擔任過NLP領域所有頂級會議和期刊的審稿人或程序委員會成員。他領導的團隊先後在各種機器翻譯評測中取得優異成績,比如獲得了2017年WMT俄語到英語第一名,NIST2012機器翻譯中文到英文第一名,2007和2005年IWSLT口語機器翻譯比賽第一名等等。

本場技術沙龍回顧鏈接:神經網路翻譯的進展與翻譯

以下內容根據演講嘉賓視頻分享以及PPT整理而成。

本次的分享主要圍繞以下五個方面:

一、簡介 Who are we?

二、阿里機器翻譯場景及業務夥伴

三、電商場景內機器翻譯遇到的挑戰

四、阿里機器翻譯採取的策略

五、總結

一、簡介 Who are we?

大家可能了解熟悉的機器翻譯工具有很多,如Google的機器翻譯,Bing的翻譯甚至Youdao翻譯,但是對阿里的機器翻譯不是很熟悉。每年雙十一期間,俄羅斯物流系統就會崩潰!因為俄羅斯人民通過AliExpress從中國買了太多的東西,那麼是如何實現的?俄羅斯人民看不懂中文,中國的賣家也不懂俄羅斯語。所以,這顯然得益於阿里巴巴翻譯系統!

相信大家對阿里的業務已經非常熟悉。總體來說,阿里是一個跨國的,互聯網跟人工智慧技術公司,阿里的使命是讓天下沒有難度的生意,其業務核心是買家與賣家建立聯繫,所以阿里有一系列的電商平台,包括飛豬,天貓,淘寶,AliExpress,Alibaba.com,聚划算,東南亞的LAZADA;以及為這些電商服務的擴展平台,比如金融,物流,廣告等等。那麼在買家與賣家說同一種語言,則沒有問題,但是買家與賣家說不同的語言,則需要機器翻譯來介入。

阿里在2016年的11月份成立了達摩院。首先,達摩院有個顧問委員會,分別會在亞洲,美洲和歐洲成立分院。然後,阿里集團內部會有四大實驗室,其中第一個實驗室是機器智能技術實驗室(MIT Lab),後續還有成立三個實驗室。除此之外,在外面,達摩院還會與各個大學和科研院所合作成立聯合實驗室。比如,與浙江大學聯合成立的前沿科學聯合實驗室,與每個伯克利大學成立的RISE實驗室,與中科院成立的量子計量實驗室,與清華大學成立的金融科技實驗室,以及跟新加坡南洋理工大學成立的人工智慧實驗室。

我們是在其中的機器智能技術實驗室(MIT Lab),MIT實驗室的前身是iDST, 成立於2014年,目前已經有400多個科學家和工程師。實驗室人員分布在杭州,北京,西雅圖,矽谷,新加坡和莫斯科等地。MIT實驗室主要是做人工智慧領域內的基礎方面的研究。MIT實驗室主要有四個團隊,第一個是語音技術團隊(Speech Technologies);機器翻譯是來自自然語言處理團隊(Natural Language Processing),其中還包括問答,情感分析等小團隊;另外兩個團隊分別是圖像與視頻技術以及深度學習與優化技術。

我們是阿里巴巴的機器翻譯團隊,如之前所說,在杭州,北京和西雅圖都有成員,大概有40名工程師和研究員。同時技術團隊與業務團隊緊密合作,業務團隊是主要負責分解並轉交阿里內部的機器翻譯需求。比如AliExpress, AliExpress的人員不會直接與技術團隊溝通,而是找到做業務的同學,提出要求,那麼做業務的同學會根據要求將需求進行技術層度的分解,然後交給不同的技術團隊,比如圖像識別,機器翻譯等團隊。如此,有利於技術團隊可以更加專註於技術。整個機器翻譯團隊還會分為不同的小組,比如像創新技術小組,翻譯系統構建小組,數據小組,還有工程架構小組以及人工翻譯平台小組等等。

如阿里巴巴的使命是讓天下沒有難做的生意,那麼阿里翻譯平台的使命便是讓天下的生意沒有語言障礙。

二、阿里機器翻譯場景及業務夥伴

翻譯在電商領域都有哪些應用的場景或者都有哪些可以帶來價值的地方?首先是流量的引導,站內的搜索,預訂和購買,以及買賣雙方的溝通等場景需要帶來價值。做過機器翻譯的可能知道在評價翻譯質量好壞時,可能會用到BLEU Score這樣一個衡量標準,做人工翻譯時可能會評價忠實度,流利度。但在業務上,有一些指標評價,比如,使用翻譯之後是否提高了用戶的訪問量,是否提高了商品的轉換率等等業務指標來評價機器翻譯是否真正給商品帶來價值。

下圖為阿里的生態圈,目前機器翻譯平台支持很多阿里內部的合作夥伴,包括支付寶,天貓,淘寶網,LAZADA,AliExpress,Alibaba.com等等業務方。所以說,機器翻譯平台已經支持了阿里相當多的業務。

下圖為阿里機器翻譯平台的能力數據展示。假設翻譯線下的中文網站,比如淘寶網,機器翻譯可以達到每天翻譯出幾十億量級的產品信息,每天的線上翻譯請求到達數億次,在雙11時每秒鐘的翻譯請求大概有幾萬次,然後每天翻譯的詞語個數超過2000億。2000多億的是什麼概念?比如Google的翻譯是有好幾百個語言對向全球所有人開放,2016年披露的數據表明它每天翻譯的詞語個數大概是1400多億,而阿里單個公司,而且絕大部分普通用戶沒用過阿里翻譯的情況下,翻譯的詞語已經達到上千億級別,其他平台是很難到達這個級別的。所以說在阿里是有機器翻譯的,且用到的地方非常之多,業務量也非常大。

下面進一步了解一下阿里翻譯的業務生態。首先數據部分,從網上獲得了很多平行語料數據。然後阿里有自己的機器翻譯平台和人工翻譯平台。人工翻譯平台實際上是阿里通過眾包翻譯平台將需求放上去,外面的譯員通過平台進行翻譯,並獲得一定的報酬。通過這種方法,一方面阿里可以收集通用領域內的數據,同時阿里也通過在眾包平台上放一些領域內的數據或者電商領域的數據。通過領域內的數據來提高機器翻譯的性能,同時改善的機器翻譯也能夠提高人工翻譯的效率。阿里通過機器翻譯以下類型數據,比如產品標題,產品的描述,產品類別信息,產品評論,消息等等,然後支持不同的業務平台。

阿里從2012年初和學術界有一些合作,剛開始有一些機器翻譯的同學在做,到2014年阿里機器翻譯團隊正式成立。通過這幾年經驗的積累,阿里也提出了改善機器翻譯性能的閉環。首先部署一版機器翻譯系統,上線,大量用戶使用機器翻譯,阿里通過收集用戶偏好的數據準備語料(不管是網上的語料還是眾包平台),之後優化引擎,做一些自動的和人工的評測判斷出哪些改進的地方。但是目前只是從翻譯角度判斷完成了改進,那麼從用戶角度,則需要進行將兩個版本系統(A/B test)進行對比,證實了改進之後,再上線。

三、電商場景內機器翻譯遇到的挑戰

在電商領域,做機器翻譯其實存在很多挑戰的,可能跟通用領域有些不一樣。首先,翻譯到的目標語言對文本的可讀性要求很高或者流暢度很高,如果翻譯的磕磕絆絆,用戶會對沒有耐心看完該產品的相關信息,便查看另外的商品。如今得益於神經網路機器翻譯的出現,使得翻譯的流暢度得到飛躍式的提升,所以目標語言可讀性高這項要求基本達到了滿足。第二項,關鍵信息翻譯必須準確。如產品名,購買數量及數字等信息都非常重要。如果品牌名翻譯錯誤,便會得到商家投訴,如果商品數量錯誤,也會造成買家與賣家的糾紛。前段時間有一則相關新聞,挪威體育代表團想買15個雞蛋,但是商家送來了15000個雞蛋,造成了全球性的娛樂事件。阿里翻譯需要對數字,品牌進行極其精確的翻譯。另外阿里翻譯需要有及時的干預機制,對於暴力,色情的信息做處理。以上是對翻譯質量上的挑戰。

另外,阿里翻譯也存在速度上的挑戰。首先,由於商品數量很多,阿里翻譯也必須在訓練速度上加快。比如在高峰期,雙11時期流量非常龐大,阿里翻譯要求20-30詞語的句子的翻譯時間不能超過100毫秒的級別。假設,翻譯速度達不到要求,2秒鐘才出來翻譯結果,買家會沒有耐心等到結果出來,可能看一條同樣類型的商品。導致的結果就是即使翻譯準確,但是翻譯還是無法給商家帶來價值。

除了翻譯質量和翻譯速度上的要求,還有服務質量上的要求。可用性要高,靈活,可用性的界面(手機,ipad,PC端等凡是可以購物的地方都需要提供界面),還有能夠翻譯多種語言,以及可以快速部署和更新。

四、阿里機器翻譯採取的策略

針對以上這些挑戰,阿里翻譯採取了相應的策略。分別從數據,模型以及特徵等方面採取了不同的策略。

1.阿里機器翻譯的數據

首先,阿里翻譯會通過互聯網爬取數據,這是通用的數據主要來源。另外,阿里翻譯也會從一些學術機構單位,做翻譯的單位購買和交換一些數據。還有就是從眾包平台搜集數據。可以說,阿里翻譯在搜集數據這一塊花了大量的時間和金錢。而且阿里搜集到了大量的電商領域的數據,在機器翻譯圈中,在數據上面建立了強大的壁壘。目前,阿里翻譯已經搜集了20多項語言對,在主要的語言對上,中英文已經達到了幾個億的級別。其他很多語言對已經到了幾千萬的級別,比如中法文。另外,一些小語種語言對大概到了幾百萬的級別。因為LANADA是目前阿里收購的很重要的東南亞電商平台,主要對印度尼西亞,泰國等國家提供大量的服務。所以阿里翻譯正在對於東南亞語言對這方面花很大的精力提供支持。

數據搜集光有數量是不夠的,還需要有質量,尤其是神經網路系統需要訓練數據的質量要求還是很高的。阿里翻譯採取學術界通用的方法,如IBM model,以及基於神經網路的循環神經網路的force decoding等方法對數據進行打分。然後在不同的運用場景下,使用不同的質量數據。另外還需要保證數據領域相關性,如果是通用領域的數據,在電商領域的翻譯效果不會很高,甚至同樣在電商領域,不同產品之間也是需要進行區分。比如apple指的是蘋果的手機還是說蘋果這個水果。所以,必須選擇跟領域相關的數據進行翻譯,因為所有翻譯是從數據中學習出來的。阿里翻譯同樣也在使用學術界目前使用的數據挑選方法,包括來自數據源的信息,基於主題模型挑選方法,基於語音模型的數據挑選方法以及基於卷積神經網路的數據挑選方法。

因為阿里翻譯需要精確翻譯商品品牌名,數量等信息,所以需要建立多語言的知識圖譜。阿里翻譯基於阿里的知識圖譜(目前大概有100億的詞條),正在進行多語言化,主要是電商領域的信息翻譯成中文,英語,俄語等。這項工作正在進行過程中,還沒有完全運用到系統當中。

2.阿里機器翻譯模型

1)基於規則的機器翻譯模型(RBMT)

從整個機器翻譯的發展歷史來看,有基於規則的機器翻譯時代(大概有20-30年的歷史),接著是統計機器翻譯的年代(90年代-2014),然後2014開始有了神經網路機器翻譯。如果參加學術界會議,現在很難看到基於規則或統計機器翻譯的文章,那是否這兩種模型真的已經過時了?阿里翻譯認為,在不同場景下,這些模型還是有自己的優勢的。比如基於規則的模型雖然很多年不再被使用,但是在翻譯數字,翻譯日期,翻譯地址以及翻譯商品相關信息時,使用簡單的規則加上cover的詞典,翻譯的結果非常好且準確度很高。所以,阿里的翻譯系統有一塊是基於規則的翻譯模塊。

2)統計機器翻譯模型(SMT)

阿里機器翻譯也有統計機器翻譯系統。雖然神經網路機器翻譯的流暢度很高,但是在不同場景,統計機器翻譯也非常有優勢。比如產品的標題都是一個一個欄位拼在一起的短語,各個短語之間沒有語序,也不存在邏輯性。這時使用統計機器翻譯系統,就可以翻譯的非常好。另外,用戶在搜索產品時,也是輸入一兩個詞語,這個時候基於短語的統計機器翻譯系統(學術界常用的統計機器翻譯系統)翻譯的效果也很好。

3)神經網路機器翻譯模型(NMT)

當然,阿里翻譯也有神經網路機器翻譯系統,並且實現了基於循環神經網路的seq-seq模型(RNN-based seq-seq model),以及2017年剛剛推出的Transformer模型。NMT model優勢在於流暢高,翻譯語序很好,邏輯性強。比如英文翻譯為中文,不會存在英文語序結構,可以使用在20-30詞語的句子的場景翻譯,像產品描述,消息(買家與賣家的交流),買家的評論。那具體使用哪一NMT系統,阿里翻譯會同時使用兩套系統進行PK,雖然Transformer性能通常更優,但是不同場景下RNN-based seq-seq model也可以同樣優秀,最終選擇都以實驗結果和人工評測為準。

3.阿里機器翻譯創新性工作

除了上面的現有的機器翻譯系統,因為我們是達摩院下的機器翻譯實驗室,包括很多碩士,博士,研究員等,所以也做了很多機器學習方面的創新性工作,下面進行簡單介紹。

1)詞尾預測(Neural Inflection Prediction)

第一個,詞尾預測。中文當中沒有單複數變化,沒有時態變化,但是英文里有。英語的詞法還相對簡單,俄羅斯語則不然,語法相當相當複雜,同一個名詞,開頭的詞幹不變,後面的詞綴可以有幾十種變化。這時,從中文或英文翻譯成俄語,因為源語言詞語沒有這些詞綴變化,翻譯的結果同樣沒辦法生成這些詞綴變化。那俄羅斯人經常從阿里平台買東西,中文-俄語,英文-俄語的翻譯需求非常大。為了解決這個問題,阿里翻譯做了詞尾預測這個工作,就是將俄語做詞法分析,切分成詞幹和詞尾。源語言有一個Seq,目標語言有兩個Seq,預測完詞幹(下圖模型左邊),再預測詞尾,這時會利用三個信息,首先是源語言的信息,然後是當前詞語的詞幹信息,以及前面詞語的詞尾信息,這樣就可以提高詞尾預測的信息率。該項工作已經在2018年的AAAI上面發表了文章。

2)機器翻譯的干預(Translation Intervention)

另一個工作是機器翻譯的干預,前面提到機器翻譯對於關鍵信息翻譯準確。但是在神經網路做干預非常難,因為它不是按每個詞翻譯,而是將這句讀下來,理解之後在用目標語言複述一遍,這時有些信息會翻譯不到,因為這項技術還是有些弊端。阿里翻譯將一句話的關鍵信息提取出來翻譯,之後在目標語言中copy。Copy這項操作很簡單有效,但只能解決80%的問題,而在電商領域需要解決99%的問題,甚至更高。目前阿里翻譯通過與外面的大學的科研機構合作,大概解決了95%的問題,希望繼續做研究,干預成功率達到99%以上。

3)分散式模型平均訓練(Distributed Training with Model Average)

在上面提到過,訓練語料已經達到十億的級別,如果單用一個GPU訓練無法高效地完成。這時需要使用多機多卡,將數據切分為多個塊,每個GPU單獨訓練完得到一個模型,然後給模型做平均,再繼續訓練。如此,利用多機多卡就可以將訓練速度得到提高。

4)解碼速度優化(Inference Optimization)

阿里翻譯的要求是達到(20-30詞語的句子)百毫秒級別,則目前很多開源平台可能需要1到2秒的時間。與Google類似,因為阿里翻譯使用的是TensorFlow,有Python代碼和TensorFlow代碼,前者計算在CPU中,後者在GPU中計算,阿里的策略比較簡單粗暴,是將代碼全部在GPU中進行計算,雖然降低了GPU使用效率,但是提高了解碼速度。

5)內存優化(Memory Optimization)

還有一些內存優化工作,主要是工程方面的策略。

6)知識庫介面(Knowledge Base Enhanced NMT)

另外,前面提高利用知識庫進行翻譯,所以在系統中給知識庫留了一個介面。因為知識庫還在建設當中,目前主要用到的是術語表和雙語詞典等信息。這項工作是跟中科院的自動化研究團隊合作的項目,如果後續有進一步的改進,會通過下面的結果加入到系統中。

7)多模態的機器翻譯(Multi-Modal Translation)

然後,阿里翻譯也做了多模態的機器翻譯,當然現在主要的需求還是文本的翻譯。在2018年的CES會議上阿里翻譯展示了語音翻譯的demo,在不久的將來,會推出阿里語音翻譯系統。目前正在做基於圖片的翻譯,需要與內部的其他團隊進行合作。

五、總結

當然,機器翻譯還遠遠不夠完美,還無法達到人類專業譯員的水平。一個技術不夠完美是否可以使用?需要視場景而定,可能還不可以應用到正式的法律文書的翻譯。但是跨境電商領域是一個非常好的場景,可能人們在瀏覽商品信息時,對某些信息不是那麼在意,用戶可以容忍。使用機器翻譯為跨境電商提供有效服務,可以幫助阿里帶來不少的價值。第二點,跨境電商場景下,機器翻譯依然存在特定的困難,需要進一步的研究探索。第三點,基於規則的機器翻譯,統計機器翻譯和神經網路機器翻譯在不同場景下各有各的優勢。最後,質量,靈活性和穩定性等關鍵因素都是需要考慮的因素。

本文由雲棲志願小組董黎明整理,編輯程弢

原文鏈接

更多技術乾貨敬請關注云棲社區知乎機構號:阿里云云棲社區 - 知乎

推薦閱讀:

生成對抗網路
深度學習中雜訊標籤的影響和識別
我的人工智慧學習筆記(一)
SVD個人心得
[貝葉斯二]之貝葉斯決策理論

TAG:機器翻譯 | 機器學習 |