中國AI軍團稱霸全球口語翻譯大賽!搜狗奪冠,訊飛阿里二三

雷剛 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

中國AI,再次稱雄全球機器翻譯大賽。

在剛剛落幕的IWSLT(International Workshop on Spoken Language Translation)國際頂級口語機器翻譯評測大賽上,中國公司搜狗,一舉奪魁。

同場競技的,還有科大訊飛、阿里巴巴、 APPTEK(美國應用科技公司)、AFRL(美國空軍研究實驗室)以及KIT(德國卡爾斯魯厄理工學院)等眾多國內外高手。

△ IWSLT官方公布結果

這也是搜狗WMT2017機器翻譯頂級評測大賽奪冠後,拿下的又一項機器翻譯領域的技術冠軍。

而且值得注意的是,這一次還是主流口語翻譯領域的冠軍,搜狗技術進展之快。

口語機器翻譯「華山論劍」

IWSLT,全稱:International Workshop on Spoken Language Translation,是全球最具影響力的口語機器翻譯評測比賽。

從2004年開始已經舉辦了15屆。每屆比賽都吸引了世界各地機器翻譯領域的知名企業和研究機構參與,也是口語機器翻譯領域的「華山論劍」。

本屆比賽比拼中,吸引了愛爾蘭ADAPT中心、美國約翰霍普金斯大學、德國卡爾斯魯厄理工學院、芬蘭赫爾辛基大學、英國愛丁堡大學,美國AppTek公司等國際豪強,還有阿里巴巴、科大訊飛等中國大廠。

具體到本屆,IWSLT 2018的口語機器翻譯任務主要評測,基於指定數據集從英語到德語的語音翻譯能力。

所以對於中英翻譯場景為主的中國公司,更考驗技術實力。

2大賽道比拼

本次比拼共分2大賽道:

一是Baseline Model(基線模型賽道),主要評測語音翻譯的流水線方案,輸入語音先通過語音識別系統得到語音識別結果,之後將結果送入機器翻譯系統獲得譯文。

這也是業內最主流、效果最好的語音翻譯解決方案,市場上商用機器同傳、翻譯機等語音翻譯類產品幾乎都採用了類似的方法。

另一賽道是End-to-End(端到端賽道),為本屆嘗試而新增設賽道,主要鼓勵參賽方探索基於神經網路的端到端語音翻譯解決方案,希望能夠輸入語音,基於深度神經網路模型直接輸出譯文。

這種方法目前仍處於早期研究階段,受制於語音-文本平行語料難以大規模採集、演算法研究不成熟等因素的限制,距離商用仍存在較大距離。

不過,兩大賽道雖有主次輕重之分,但評測考核結果一樣。

都是看BLEU——機器翻譯質量評價指標,值越大代表翻譯質量越好。

而本次評測中,在訓練集、測試集相同的情況下:

Baseline Model賽道最好的系統取得了28.09的BLEU;

而End-to-End賽道最好的系統僅取得了19.4的BLEU。

較Baseline Model賽道相差8.69個BLEU,差距較為明顯。

也證明了Baseline Model賽道評測的演算法仍是目前最可行和實用的解決方案。

搜狗奪冠

而本次搜狗奪冠的,正是Baseline Model賽道的評測。

評測任務面向TED演講和大會學術報告場景,測試集包括來自英國、歐洲、印度等各個國家的英語演講者,存在雜訊、口音、自由表達等複雜語音現象。

同時語言中存在大量領域專有名詞和口語化的表達(如:大量語氣詞、錯誤語法表達等),具有極強的實戰意義和挑戰性。

最終,中國軍團成為大賽最大贏家。

搜狗第一,訊飛第二,阿里巴巴第三。

其中,搜狗提交的系統BLEU值達到28.09,領先排名第二的科大訊飛1.6個BLEU,領先第三名的阿里巴巴5.73個BLEU。

也算是對搜狗口語機器翻譯實力的展示和獎勵吧~

押注AI翻譯的搜狗

搜狗的AI翻譯,現已眾所周知。

在搜狗的AI戰略之中,語言是最核心的重頭戲。

並以「自然交互+知識計算」為AI核心方向,並持續深耕技術,推動技術向產品的快速轉化。

2016年,搜狗發布了自有人機交互解決方案——知音引擎。

而且因為擁有充足真實語料數據優勢,搜狗將語音識別與機器翻譯技術相結合,進而在2016年世界互聯網大會上推出了全球首款商用AI同傳系統-搜狗同傳,帶動了語音翻譯技術的普及與應用。

其後通過數百場的國際會議「實戰」,搜狗同傳成為當下炙手可熱的「AI字幕君」。

與此同時,搜狗也開始在AI智能硬體上施展拳腳,推出了一系列的智能硬體,將語音翻譯技術應用到了更廣闊的場景之中,讓更多消費者用戶可以直觀使用,並解決跨國交流的問題。

2018年3月,搜狗推出了搜狗旅行翻譯寶,具備離線翻譯功能與拍照翻譯功能,讓馬化騰都為之心動,在朋友圈裡大打廣告。

其時,作為首款智能翻譯硬體,搜狗旅行翻譯寶支持42種語言對話翻譯,解決了旅遊場景中用戶聽不懂、看不懂、不會說等真實痛點。

該項產品在京東平台首發當日即告售罄,首日銷售額破千萬。

一發擊中後,搜狗還推出了錄音翻譯筆,提供錄音轉寫、對話翻譯、同聲傳譯等功能,把AI同傳落地到了消費級產品之中,打通語音翻譯的新航道。

現在,IWSLT比賽奪魁,不僅是搜狗AI硬實力的展示,也是中國AI實力在國際競技場中的輸出。

希望搜狗依然能快速將最新技術商業化、場景化落地,讓更多用戶享受到AI福利。

傳送門:

IWSTL 2018比賽結果

workshop2018.iwslt.org/

歡迎大家關注我們的專欄:量子位 - 知乎專欄

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

量子位 QbitAI· 頭條號簽約作者

?? ? 追蹤AI技術和產品新動態


推薦閱讀:

TAG:搜狗 | 自然語言處理 | 科技 |