目前,機器翻譯準確率已經提高到 85% 左右,再進一步提升的主要難點在哪?

本題已收錄至知乎圓桌:人工智慧 · 語言智能,更多「人工智慧」相關話題歡迎關注討論


首先,機器翻譯領域一般用BLEU這個指標,很少見準確率的。而現在BLEU在大部分語言上,一般也就0.2-0.4左右,遠遠沒有到0.8。

目前在通用領域的短句上,效果已經很不錯了,但是複雜結構的長句、需要結合知識常識和上下文判斷的歧義句以及特定領域的翻譯上,效果還遠不能讓人滿意。這些不僅僅是機器翻譯的難點,也是NLP研究的難點。

之前的專家系統解決不了這個問題,現在淺層統計方法潛力也快榨乾了,而深度學習不是靈丹妙藥,它也是基於統計的機器學習方法,能不能徹底解決這些問題也很難說,機器翻譯乃至NLP的研究仍然任重而道遠。


  1. 一詞多義
  2. 語法不合

需要建立全專業雙語語料庫,通過機器學習獲取海量參數,才有希望解決領域知識(Domain knowledge)不合的問題。


BLEU score還遠遠沒有超過0.4,不知道題主說的85%從何而來,不要見得風就是雨,機器翻譯領域幾乎每篇頂會的論文都說自己把BLUE 提高了幾個點,那麼問題來了,這麼多年了,為何BLEU還沒有超0.5


謝邀,進一步提升就是便捷,便宜,和普及,如果全世界都在用你們家產品的時候,你就知道對手公司的特點,長處在哪了,這些就又成了新的目標


Excuse me 85%? 在我看來,翻譯的準確率只有0和100的差別,除此之外就是準確基礎上的達和雅了。希望能等到X大訊飛解決所有難點,解放全體譯員的那天。


排除自身擁有龐大語料庫的條件,85%這個數據有點天方夜譚了……我們譯員還都還活著呢……

我贊成蕭瑟兄的觀點,機器翻譯目前只在通用領域的短句上效果不錯,複雜結構的長句、需要結合知識常識和上下文判斷的歧義句以及特定領域的翻譯上,效果還遠不能讓人滿意。(難點!!)

神經網路和NLP都是著手點。不過,對於這個難點,利用龐大的高質量的語料庫,專註於各個垂直領域的機器翻譯,我覺得會是一個很好的辦法,也有公司在實踐了。

機器翻譯肯定會進一步提升,但是要達到85%這個目標,還是挺難的。寫到這裡,作為譯員的我感受到了危險的氣息,還是滾去學習吧。


未基於理解的nlp也就這點準確率了。


85%什麼時候的事,引證文獻在哪裡?


二義性,語音,圖像識別效率


85怎麼算的?


邏輯思維和人文學科欠缺


咋算的?

前幾天逛個推特,想用一下翻譯,百度,谷歌,必應,有道,稍微翻譯長點日文到中文就跟胡說八道一樣。

ヽ(ー_ー )ノ


推薦閱讀:

罰函數法和拉格朗日乘子法的區別?
為什麼基於貝葉斯優化的自動調參沒有大範圍使用?
為什麼梯度下降能找到最小值?
如果要學習並使用深度學習,應該學哪些預備知識?
MPI 在大規模機器學習領域的前景如何?

TAG:機器學習 | 自然語言處理 | 機器翻譯 | 深度學習DeepLearning |