google翻譯技術是怎麼實現的?
google翻譯技術是怎麼實現的,可以做成離線的產品嗎,或者做個離線的app或者嵌入式產品?
用google翻譯在世界各地旅遊,能多大程度上降低語言不相通的障礙,會不會基本上不存在溝通障礙?
Inside Google Translate視頻
Google Translate是一個能夠幫助你立刻翻譯句子、文件甚至整個網站的免費工具。但是它究竟是怎樣工作的呢?雖然看起來似乎有一屋子的雙語小精靈在為我們 工作,但事實上我們所有的翻譯結果都來自電腦。這些電腦使用了一個名為「統計機器翻譯」的程序,這只不過是一個好聽的說法,意思是電腦是基於在大量語篇中 找到的各種模式來得到翻譯結果的。但是,我們退後一步講。如果你想教會別人一種新的語言,你可能會首先教會他辭彙和用以解釋如何構造句子的語法規則。電腦 也是通過同樣的方式—通過參考辭彙和一系列的規則—來學會一門外語的。但是語言極其複雜,而且正如每個語言學習所能告訴你的那樣,所有規則都有例外。當你 試圖在一個電腦程序中包含所有的特例以及特例中的特例時,翻譯結果的質量就開始下滑了。Google Translate採取了一種不同的方法。我們並不教給電腦所有的語言規則,而是讓電腦自己去發現這些規則。電腦通過分析經過人工翻譯的數以千萬計的文件 來發現其中的規則。這些翻譯結果源自圖書、各種機構(如聯合國)以及世界各地的網站。我們的電腦會掃描這些語篇,從中尋找在統計學上非常重要的模式——即 翻譯結果和原文之間並非偶然產生的模式。一旦電腦找到了這些模式,今後它就能使用這些模式來翻譯其它類似的語篇。當你數十億次重複使用這個過程時,你就會 得出數十億種模式以及一個異常聰明的電腦程序。但是對於某些語言來說,我們能夠使用到的已翻譯完成的語篇非常少,因此我們的軟體所探測到的模式就相對很 少。這就是為什麼我們的翻譯質量會因語言對的不同而不同。我們知道,我們的翻譯結果並不總是完美的,但是通過不斷向電腦提供新的翻譯語篇,我們就能讓電腦 更加聰明,翻譯結果更加準確。所以,當你下一次使用Google Translate來翻譯一個句子或一個網頁時,可以想像一下那些最終幫助你獲得翻譯結果的數以百萬計的文件和數以億計的模式——而且所有的這一切都發生 在眨眼的一瞬。非常酷,不是嗎?現在就去http://translate.google.com去嘗試一下吧!
http://translate.google.cn/about/intl/zh-CN_ALL/
一些簡史
「打破語言的隔閡」——這是一篇 Och 發表在 Google Translate 官方博客一篇文章的標題,文章介紹了一些 Google Translate 的發展史。
Google Translate 項目緣起 2001 年,當時僅提供 9 種語音互譯的服務。儘管它採用了當時世界領先的機器翻譯(Machine-Translation),但它翻譯「質量不高,幾年來也沒有什麼提高。」2003 年 Och 加入的時候,團隊決心改變這一糟糕的境況。他們發現了一種數據驅動的方法——通過收集大量網路語言資源進行輔助。但起初系統運行非常慢,1000 個句子的翻譯需要 40 個小時和 1000 台電腦才能完成。隨後團隊開始攻克速度問題。2006 年,Google Translate 改進了「統計機器翻譯」(statistical machine translation)。此後六年,團隊一直集中於核心翻譯質量和語言覆蓋。原理Google Translate 的核心技術在於「統計機器翻譯」,基本思想是通過對大量平行語料進行統計分析,構建統計翻譯模型,進而使用此模型進行翻譯。簡單來說,Google Translate 在生成譯文時,會在大量人工翻譯的文檔中查找各種模型,進行合理的猜測,從而得到恰當的翻譯。之所以採用「統計翻譯模型」的一個重要原因就是 Google 的雲計算架構。機器翻譯需要海量的數據存儲空間以及高效的運算能力,而 Google 擁有 GoogleMapReduce(分散式計算系統)和 BigTable(分散式存儲系統),恰好滿足了這兩方面需求。由於機器操作,Google Translate 對某種特定語言可供分析的人工翻譯文檔越多,譯文的質量就越高。這也解釋了為何翻譯的精準度會因語言的不同而有所差異。Google Translate 通常會提供備選翻譯,當用戶點擊它時,Google 會記下反饋。此外,用戶還可以「提交一個更好的翻譯」。通過這種「眾包」的方式,Google Translate 不斷改進該語境的翻譯質量。當然,這種方式的缺點也是顯而易見的:當足夠多的人惡意糾正正確的翻譯時,它就會起到反效果。語言即界面ReadWriteWeb 在一篇文章中提到這樣一個觀點——「語言即界面」。與圖形化窗口、按鈕沒有不同,語言是計算機界面的基礎部分。當然另一方面,不同的語言即不同的界面也構 成了交互的障礙。有數據表明,世界上超過 99% 的人們日常溝通都要靠母語,但在互聯網上,英文信息佔了80% ,在剩下的 20% 中,法語占其中的大約 5%,中文等其他語言信息所佔比例甚微,至於其中的精華信息,更是少之又少。當人們有條件將不同的語言翻譯成他們的母語時,他們就能夠接觸他們未及的世 界。
Google 提供免費翻譯服務的價值是顯而易見的:它翻譯的數據越多,翻譯質量就越高,進而吸引更多用戶,Google 賺的錢也就越多。模糊語言的界限當然,Google Translate 並不完美,很低級搞笑的翻譯紕漏時有出現。但這並不能阻止 Google Translate 試圖「統一界面」打造一個語言大同的夢想。在今年 2 月份,Google Translate 加入了對「世界語」(Esperanto)的支持,這是一門由波蘭籍猶太人柴門霍夫博士(L.L.Zamenhof)於 1887 年在印歐語系的基礎上創立的一種國際輔助語,旨在消除國際交往中的語言障礙,被譽為「國際普通話」。儘管時至今日,該語使用者寥寥無幾。Google Translate 此舉顯然是在傳遞更多的象徵意義——兩者都是基於為語言不通的人搭建溝通的橋樑,聯通這個世界。美國發明家、未來學家 Ray Kurzweil 最近在接受《赫芬頓郵報》的採訪時預言,到 2029 年機器翻譯的質量將達到人工翻譯的水平。儘管對這一論斷還存有爭議,但不妨礙我們暢想一個語言界限被模糊的理想化世界。Google Translate 試圖扮演整合語言信息的角色,這正是 Google 始終秉持的信條,也是它的產品戰略。「我們暢想著,在未來世界上每個人都可以互相分享信息,無論你在哪裡,說什麼語言。」Och 如是說。http://down.lusongsong.com/info/a/253.html
Google Translate已經有了App::
For iPhone: http://itunes.apple.com/cn/app/id414706506?mt=8For Android: https://play.google.com/store/apps/details?id=com.google.android.apps.translatefeature=search_result#?t=W251bGwsMSwxLDEsImNvbS5nb29nbGUuYW5kcm9pZC5hcHBzLnRyYW5zbGF0ZSJd
根據以上原理,應該是不能做成離線APP的,否則Google早就做了,你說是吧?樓上引的文章挺好,只想補充一下,谷歌翻譯有離線語言包:安卓版Google翻譯更新 支持50種語言離線翻譯 當然了,受手機的運算能力和存儲空間的限制,離線翻譯的質量肯定比在線翻譯差一些。
在線翻譯的質量主要取決於兩件事:(1)網路上人工翻譯的文檔數量(又叫作平行語料);(2)語言之間的相似程度。英語與西班牙語、德語、法語等歐洲大國語言之間,平行語料的數量多,語言之間又比較相似,因此質量最高;日語、俄語等與英語差別較大,翻譯就困難一些;至於像蒙古語之類的語料又少、區別又大的語言,翻譯質量就堪憂了。
所以如果你英語好的話,最好通過英文來使用谷歌翻譯,質量肯定比翻譯成中文好。
-----------------下面是一些機器翻譯方面的參考資料,如果想投身這領域的話可以看看。都是英文的,順序為從短到長,從沒數學到有數學。[1] 維基百科:Statistical machine translation (中文版本公式太多,不推薦)[2] Moses 手冊:http://www.statmt.org/moses/manual/manual.pdf只看第 6 章 Background 就行。裡面用較短篇幅介紹了機器翻譯領域的若干子問題,不需要都看懂,大概感受一下就行。當然如果有興趣,也可以跟著手冊搭建一個自己的翻譯系統玩玩。[3] Michael Collins 的講義:
. Language models. IBM Models 1 and 2 for machine translation. Phrase-based translation models[4] Philipp Koehn 的教材:. Statistical Machine Translation (豆瓣). 統計機器翻譯 (豆瓣)總以為,那個一路陪著的人不會走,那雙一直牽著的手不會松。誰曾想,再見只是一句脫口而出的話語,訣別只是一個簡單隨意的轉身。有很多人,慢慢地就散了,有很多事,漸漸地就淡了。有些路段,只能你一個人寂靜地走;有些辛酸,只有我一個人無奈地嘗。人生苦短,但願有人,給我一世縱容。
推薦閱讀:
※谷歌服務框架內都有哪些應用?
※為什麼谷歌不能用谷歌翻譯卻可以?
※谷歌翻譯這幾個月的進化速度突然加快是什麼原因?
※如何評價Google神經機器翻譯(GNMT)系統?
※為什麼「pro」在 Google 翻譯中被翻譯成「親」?
TAG:Google翻譯 |