AI翻譯離無障礙交流有多遠
AI翻譯服務通過硬體、軟體連接千千萬萬個應用場景,會打破語言不通的尷尬局面嗎?會是人工翻譯的終結者嗎?
世界這麼大,我想去看看!十一長假臨近,夢想中的你背起行囊,自由行走在異國的大街小巷。然而現實的畫風很有可能是這樣的:走出國門沒幾天,你就發現期待已久的旅行,因為看不懂聽不懂,而身在囧途。此時的你捶胸頓足地感慨道:世界上最遙遠的距離,不是天涯海角,是你站在我面前,我卻不知道你在說什麼。
9月21日,百度智能翻譯機在日本發布。名古屋有哪些好玩的景點?怎麼乘車最便捷?翻譯機流暢精準的中日互譯令人驚嘆不已。AI翻譯服務通過硬體、軟體連接千千萬萬個應用場景,將會打破語言不通的尷尬局面。甚至有人認為,AI翻譯是人工翻譯的終結者。現實真的如此嗎?
現狀:產品雖多,準確率有待提高
2017年可謂是AI大行其道的一年,作為現代科技的流行趨勢,不管是谷歌、蘋果,還是百度、阿里,都在相繼發布自己的人工智慧產品,向智能行業進軍。而AI翻譯,幾乎是所有互聯網巨頭都想涉足的領域。
機器翻譯已出現了70年,但過去一年裡湧現出的AI翻譯軟硬體產品,已超過最近30年的總和。
在國外,微軟發布了翻譯工具Microsoft Translator,可以實現9種語言實時語音轉為文本翻譯。國內的互聯網巨頭也不甘示弱。百度技術委員會聯席主席、自然語言處理部技術負責人吳華表示,百度翻譯支持全球28種語言互譯、756個翻譯方向,每日響應過億次的翻譯請求。除百度外,科大訊飛也走在語音交互前列,推出了訊飛聽見升級版產品,加入多語種翻譯功能,五種語言同步翻譯成漢語,還發布了智能翻譯產品「曉譯翻譯機」。就連網路遊戲開發大戶騰訊公司,也悄然上線了一款實時語音翻譯APP「翻譯君」,這款以AI內核驅動的翻譯產品,運用了語音識別+NMT(神經網路機器翻譯)等技術,可以實現「同聲傳譯」功能,對著屏幕說話時,邊說邊翻,就像身邊帶了一位私人翻譯官。此外,電商大咖京東也開始涉足AI翻譯,推出了一個可以進行多國語言實時翻譯的人工智慧翻譯機——準兒翻譯機的眾籌項目,目前已經有5008名支持者,輕鬆籌得320萬元的項目基金。
儘管AI翻譯進步神速,卻不被傳統的翻譯行業所看好。傳神語聯網路科技股份有限公司董事長何恩培表示:「無論是翻譯機還是APP,中文翻譯成英文或其他語種時準確率還可以,但外國人說英文或其他語言時,翻譯成中文的準確率就很低,在實際交流時幾乎沒法用。」
今年2月,谷歌全新NMT系統在韓國世宗大學與人類譯員進行的翻譯對戰就是一例佐證。在規定的50分鐘內,人類和機器同時翻譯兩段隨機文本。結果,人類以巨大優勢戰勝了機器。賽後,評委表示,NMT系統翻譯出的文本90%都有語法問題。
難點:數據有限,且語言規則不規律
全球範圍內,服務於各大跨國會議、發布會等的30多種翻譯機能幫人們解決一些場景中語言交流的問題,但目前的現狀就如科大訊飛聲明的那樣:雖然機器翻譯已經取得非常大的進步,但距離高水平翻譯所講究的「信、達、雅」還存在很大差距。
以「千山鳥飛絕,萬徑人蹤滅」這句人們耳熟能詳的詩為例,國際翻譯界最高獎項之一「北極光」傑出文學翻譯獎得主許淵沖教授將其譯為「from hill to hill no bird in flight,from path to path no man in sight.」這不僅符合近代著名翻譯家嚴復提出的「信、達、雅」翻譯原則,而且其中的意境與精髓只有熟習漢語的人才能領會。
「文學藝術翻譯要體現情感、色彩、語調、溫度、韻致、字裡行間的意味等種種幽微之處。要傳達出這些,譯者的水準、敏感、境界和心靈力量尤為重要。」中國社會科學院外國文學研究所編審高興說。
緣何能稱霸棋壇的人工智慧AlphaGo,卻在翻譯領域不盡完美?何恩培告訴記者:「機器翻譯一直被公認為人工智慧領域最難的課題之一。而且語言和圍棋不同,語言背後的多元文化和複雜社會屬性,註定了語言規則不可能規律化。」「文學作品,以及有引申含義或邏輯關係複雜的句子,AI翻譯很難搞定,因為翻譯它們不僅是基於理解,而且要使某種意義上待翻譯的語言和目標語言對齊。」華為諾亞方舟實驗室資深研究員、自然語言處理專家呂正東說。
此外,AI翻譯要想達到「信、達、雅」的高度,還需克服口語化的兩大難題。一方面要聽得清,能準確判斷出指令發出者的語音、停頓,並在極短時間內進行「語音斷句」。另一方面要克服口語交談中的語法問題,以及句子不連貫、沒有明確句子邊界等問題。
機器靠什麼解決上述問題?在清華大學計算機系副研究員劉洋看來,AI機器翻譯的難點其實也是整個人工智慧的難點——如何讓機器真正像人一樣有智能行為。他認為,機器翻譯採用數據驅動的方法,其準確程度取決於給計算機提供哪些數據。目前提供最多的翻譯數據來自於政府文檔,比如聯合國有多種官方語言,基本每份文件都有多語種版本,但基本沒有體育、娛樂等領域的數據。再加上各國的口語中都存在較多隨意性口語或網路用語,生活化氣息濃厚,多為非正式的語體材料,因此智能翻譯需要龐大的基礎辭彙庫支撐。「其實所有上述問題,理論上來說都可以靠更多的數據來彌補,但是我們數據是有限的。」 呂正東說。
展望:前路漫漫,發展需數據推動
近兩年,神經網路機器翻譯(Neural Machine Translation, NMT)技術異軍突起使翻譯應用進一步革新。
NMT模仿人腦的神經思考模式,產出媲美人工翻譯的高質量譯文,並將誤差降低了55%—85%。目前,谷歌公司己將該技術應用於網頁翻譯與手機應用,譯文質量明顯提升。此外,騰訊、百度、阿里巴巴等國內互聯網公司也將深度學習理念應用到機器翻譯。同時,語言處理、語音交互等技術的進步又加速了翻譯產品的場景升級,促使機器輔助翻譯」(CAT,Computer Aided Translation)過渡到「人工智慧交互翻譯」(AI Interactive Translation)。
http://www.cmdmingling.com/post/659.html
推薦閱讀: