機器同傳會取代同傳嗎？為什麼機器同傳的準確度不高？

01-10

本題已收錄至知乎圓桌：機器之能 X 語言之美，更多「人工智慧」相關話題歡迎關注討論。

AI的發展的確讓人瞠目。AlphaGo戰勝人類，開始大家都以為是不可能。然而，結局明確在哪裡擺著。

翻譯，很多人都說是一個體力活。出現翻譯的原因，就是通天塔。上帝怕人類掌握了統一的語言知識，從而具備強大的力量，就分化了人類語言讓他們互相聽不懂。這就給翻譯創造了一份工作。（這段神話故事您就看看而已，別信）

從數學的枚舉來說，圍棋很繁瑣，但這是一個可以窮舉的案例。無論多麼複雜，有一個局限性在。長寬各多少個點，每個點有多少種可能性。

圍棋和語言的區別在於，圍棋的路數是固定的，雖然那個數字很大，但是那是一個確定的而且不再發展的數字，即361的階乘。（1437923258884890654832362511499863354754907538644755876127282765299227795534389618856841908003141196071413794434890585968383968233304321607713808837056557879669192486182709780035899021100579450107333050792627771722750412268086775281368850575265418120435021506234663026434426736326270927646433025577722695595343233942204301825548143785112222186834487969871267194205609533306413935710635197200721473378733826980308535104317420365367377988721756551345004129106165050615449626558110282424142840662705458556231015637528928999248573883166476871652120015362189137337137682618614562954409007743375894907714439917299937133680728459000034496420337066440853337001284286412654394495050773954560000000000000000000000000000000000000000000000000000000000000000000000000000000000000000，具體就是這個數字）

語言呢？用英漢兩種語言做例子。英語幾十萬辭彙，漢字幾十萬辭彙。然而，經常出現非常規辭彙，各種應景辭彙，各種切合當時場景但和本來意思有很大不同的辭彙，以及各種適應時代發展而產生的辭彙。這個學習過程，對於AI來說，是很難的，因為這種語言的發展是無限的。

所以，短期內，看不到機器同傳會取代人工的可能性。長期內，有可能。技術的發展遠超人類的預料呢。

至於機器同傳的準確度為什麼不高，就是因為以上原因。

末尾舉個例子。人工和機器翻譯競賽上，人類評委出了一道題，漢譯英：

冬天到了，姑娘們能穿多少就穿多少。夏天到了，姑娘們能穿多少就穿多少。

那塊大石頭掉下來了，差點兒沒把人嚇死。

那塊大石頭掉下來了，差點兒把人嚇死。

機器：.............

1）早晚會吧，但尚需時日。

2）絕大部分人以為自己說的話（自己的母語）沒有什麼問題。其實，絕大部分人的話都錯誤滿篇。人在翻譯時，其實是一邊糾錯，一邊翻譯的。諸多累述的無用詞是需要過濾的。我相信機器在提前拿到嘉賓講稿的情況下，也許能逼近同樣提前拿到講稿的同傳譯員，畢竟講話稿是相對工整的（雖然也會充斥著大量語病）。但一旦進入自由討論環節，嘉賓們的隨機口語表達，目前對機器還說還是太難了。這也許需要機器有朝一日能像人一樣理解了自然語言才行，或者需要人們可以「體貼的」用自己語言的標準語法來講話，同時也要避免邏輯問題和複雜長句，力求給機器一份簡潔、明確的原文。

終有一天會的。

但不是現在。

首先下個定義，語言可以由數學模型來替代。

但是這個數學模型是怎麼樣的，目前頭緒全無。

其實我們可以想像這樣一個理論上的數學模型。

即語言所包含的各類信息，都能在這個模型上展現，比如語境，語意，時序。

即先把語言轉換成一種，可以用數學來描述數字信息。

按照我上次在某篇論文看到的設想，一個單詞應在一個立體的坐標繫上得以體現，然後在轉換的過程前，就已存有源語言的語境，語意，時序等信息。

然後把自然語言輸出到目標語言。

源語言→自然語言→目標語言。

當然這個只是一個理論模型，但是我還是堅信，這個世界上任何東西都可以用數學模型來表示，語言只不過更複雜，更繁瑣而已，但我們終究還是能攻克的。

目前機器同傳與人工同傳的對比其實是很不公平的，因為許多同傳任務其實是大體有稿，做過準備的。很多會議同傳，在開始前都要先進行一些準備工作，試想如果一個對會議背景一無所知的翻譯直接進行同傳，肯定要鬧笑話。

那麼機器同傳的水平如何呢？一個例子是微軟的PPT同傳：這個同傳看起來很神奇，其實略有「作弊」（說實話是很聰明的方法）。事實上它應該是用到了PPT的備註來做語音自適應(據Will Lewis介紹)，其效果立刻會好很多。PPT是一個極端的例子，因為背景知識甚至全部腳本都是可以獲取的。其他同傳往往只能有個大概的範圍，如何讓機器自己去找出需要自適應的數據是一個大問題。但是從技術角度來看，特定領域的同傳其實並不比通用領域的翻譯來得困難。

在2016年3月，AlphaGo完勝李世石之前，我是不會相信機器翻譯可以取代人類的。畢竟，我是一個英語專業畢業的圍棋愛好者么[捂臉~~]

圍棋這件事情，已經沒什麼好討論了，AlphaZero或許可以讓柯潔2子了吧……

同傳么，只是時間問題吧。反正Youtube的自動字幕翻譯水平已經讓我跪了。

孫正義說「奇點」也就未來30~50年內必然會發生。到時候，AI如果願意，給PG one戴綠帽子恐怕也不是問題

因為人類的口語會不斷隨著新鮮事件發生變化，很多只可意會，難以言傳。同傳都很難的情況下，就別太難為機器了。畢竟連很多不上網的普通人都不懂：「就是一堆翔」的梗。

我覺得不可能。

因為機器的話無法把人的情感或者那種聲音的強弱變化給反映出來。至少我是這麼認為的。也許你不認同。現在不是ar啊，不是被炒的很火啊。如果什麼都能機器乾的話，那還需要人幹嘛？

從翻譯的角度來說一下，大概有兩點:

1.精力分配。同傳難在精力分配(基本翻譯能力具備的情況下)，具體可參考吉爾(Daniel Gile)的精力分配模式。但機器不存在精力分配的問題，這點是人類永遠都比不了的。

2.尖端領域辭彙。人類幾乎不可能同時記住所有尖端領域的辭彙，而機器可以，人的時間和精力都是有限的，但機器可以在瞬間掌握大量的尖端領域辭彙。

所以我甚至覺得，同傳說不定會在交傳之前被機器取代(這裡僅回答問題，不對人工翻譯與機器翻譯孰優孰劣做更多討論，畢竟這能寫篇論文)。