微軟推出同步翻譯有何重大意義？

01-12

http://www.cnbeta.com/articles/213260.htm

我對樓上的某些吐槽完全無法認同。演示這技術和喬布斯死沒死有什麼關係？微軟研究院每年都會做新技術的演示和推廣活動，並不是從喬布斯死了才開始做的。

微軟研究院的研究是著眼5到10年後，並不會立即拿來商用。但是我看到技術進化到這個程度，還是很興奮的。沒錯，視頻中的Speech to text部分還有錯誤，但對於某些應用場景，這樣的錯誤率是完全可以接受的。

舉個例子，我以前接到過一些用戶需求，是自動記錄meeting minutes。用戶的想法是，老闆們開會的時候，不需要一個秘書或速記員在旁邊記錄meeting minutes，而是通過speech to text的系統，自動記錄。這樣既可以節省人力，又可以避免某些會議泄密的問題。我們試了市場上現有的很多方案和技術，沒有一家的錯誤率能夠達到可以接受的範圍，記錄下的東西仍然需要大量人工修改。最終，這樣的用戶需求我們沒法滿足。如果有了視頻中演示的技術，它的錯誤率我認為記meeting minutes完全夠用了。

視頻中所展示的同步翻譯並不是突破點，但也可以稱之為突破點。

作為一個已經成為計算機外行的計算機本科生，我覺得這個系統無非就是Google Now+Google Translate的語音發音系統的結合。

就自己來講，我並不認為這個東西在政治和商務談判上會有重大突破，因為這裡面牽扯到翻譯質量和翻譯錯誤或者信息竊取所帶來的法律責任問題，即便在這個翻譯系統達到公認的翻譯質量之後，我也不認為它能夠在政治和商務上有重大突破因為在政治和商務環境下，一些同樣的語句搭配不同的表情，不同的語言速度，不同的上下文，都可能會出現不同的語義傾向。

作為走向實用，也就是我們認為走入民用，我認為這個實時翻譯系統：

第一必須具有極度便攜性，也就是Google Glass類似的穿戴式產品。

第二是具有定向麥克風技術或者是非常良好的智能降噪技術，能夠保證設備在正常交流距離（比如0.5米，1米，5米等）能夠具有良好的定向語音採樣能力。

第三是真正做到多語言互相交流能力。就推出的視頻來看，這個東西目前只能流暢的輸入英文，翻譯成中文並且附帶發音，能否保證馬上站出一個中國人上來，對著說中文，讓這套系統給你流暢的輸出英文？作為一個款由美國人主導或者講是美國公司主導開發的翻譯系統，世界上還有這麼多不同的語言，能不能迅速做到翻譯質量對等，甚至是願不願意在政策上就秉著翻譯質量對等去開發產品，這也是我們應該關心的問題。

目前只想到這麼多

要說重大意義，不就是消除人類語言障礙麽。

相同技術的演示在今年3月TechFest 2012上看過，當時還是以微軟研究院 Speech Platform 新進展的技術細節為主（微軟研究院的技術定位是未來10年的使用，09年的幾部 2019 未來願景值得一看）。

再扯遠一點：

實時翻譯只是 Speech Platform 的一種應用場景，是中間處理環節的過程，翻譯也可以換成問答，就成了 Siri。

蘋果Siri的出現再次證明微軟是一家「有技術實力，但不會推廣」的公司。說到微軟的 Speech Platform，微軟 93年就開始了語音研究，陸續幾年收購了幾家公司比如Entropic、Tellme，後者大家可能見得比較多。微軟的這些技術在車載系統、Windows Phone、Xbox+Kinect、Bing、企業產品中都有相當多的積累，目的都是「讓軟體與服務因語音界面而更自然、更易於使用」。

長期來說，微軟正試圖解決的正是這個問題：「何時才能達到理解人類對話級別的語音系統？」微軟首席語音科學家 Larry Heck 在 2010 年回答了三點解決該問題的驅動力：1）數據及相關機器自學習機制；2）計算平台，如 Azure 和 Tellme 網路後端平台；3）搜索。

兩年下來，微軟突破不少。

更遠一點：

微軟翻譯(Microsoft Translator)使用很廣，微軟Lync、Windows Phone、Facebook、Twitter、eBay、Trip Advisor、 Yahoo! Babel Fish 已經用 MS Translator。

另外推薦關注微軟的 Translator Hub，一項機器自動習得的機器翻譯系統，像人類那樣習得新的語言或術語，甚至可以用來保存瀕臨滅絕的語種，比如從 11 年底開始的苗族語言項目。 http://livesino.net/archives/4265.live

這項技術的最重要的意義在於展示微軟在語音識別技術（即聲音到文本）方面取得的突破性進展，能夠為我們帶來什麼樣的實際應用價值，特別是不同於Siri的應用。我猜微軟在想如何推廣他們的語音識別技術時，肯定特意避開了Siri。注意重點是語音識別，而不是翻譯。我剛重新看了一遍那個視頻，原來屏幕上一直都有顯示自動識別出的英文文本在滾動。

同聲翻譯的需要多種技術的結合，包括語音識別，文本翻譯和語音合成，所以任何一個環節如果出現了短板，那麼就無法做好同聲翻譯。特別是第一步，語音識別。如果第一步的準確率很低，那後面做得再好也沒用。所以，這恰好是體現微軟在語音識別方面的優勢的一個很好的應用。

再直白點說，把英文語音轉換成英文文本的高準確率，才是微軟的同聲翻譯技術的核心亮點。微軟實際上是為了告訴世人：「看吧，我的語音識別準確率那麼高，連同聲翻譯也能做。」就這樣。對同聲翻譯的產業來說，不會有很大衝擊，因為連我都能看出視頻中的翻譯的明顯錯誤。

不過，理解大意沒什麼問題。所以，你旅遊的時候找老外問個路，吃個飯，買個東西可能沒什麼問題了。我覺得，雖然翻譯質量不高，但在一些對只求語言大意的場合，應用價值還是非常大的。當然，前提是微軟能推出個便攜的設備。現在微軟只是展示了一下這個技術，要真推出產品來，在不動核心技術的前提下，再等兩三年看看吧。

還有，雖然微軟聲稱自己的語音識別技術降低了30%的錯詞率，但那是用一個龐大的資料庫測試得到的結果，用戶才不管你是30%還是10%呢。如果微軟推出了一個類Siri的應用或者只是更簡單的像科大訊飛做過的語音寫簡訊那樣的應用，用戶會覺得，這東西早就玩過了，沒啥特別的。所以，微軟還是要為他們的語音識別技術找一個不同的應用場景來做推廣，即便他們的識別準確率比別人要高。

看了視頻，很有趣，但我想這項技術真正投入民用和商用，還得好多好多年吧。

技術方面我不懂，僅憑常識推斷，語音到語音的翻譯，應該比文本到文本的翻譯要難，比如要根據不同的語境來處理同音字詞，要處理重音和感情色彩，甚至弦外之音，這在人腦不是難事，但電腦能準確完成么？現階段的文本機器翻譯離「可以接受」的標準還有很遠，幾種相近的西方語言之間互譯有時還不錯，我經常會用google的西班牙到英語翻譯，或類似的語言組合之間互譯。但東西方語言之間的互譯效果就差很多了，日文和中文之間互譯甚至不如日文和英文。

這個視頻中的演示還限於日常用語的層面，這是比較容易的，一是單詞量和句型本來就簡單，二是樣本量大。一旦進入某個專業領域，我估計它就沒戲了。

至於音色、音質的模仿，應該不是關鍵和難點。

但無論如何，很期待這項技術能儘快完善，能夠用到的地方太多了，替代外語電影的字幕或配音倒有些過於遙遠。首先，不知@cindySSS 是否會有失業的擔憂？

感謝邀請，我是光晶哥，對語言溝通有障礙的人有挺大幫助的吧，但是有些它是翻譯不出來的，軟體處理人聲遠遠落後於大腦，對於一些辭彙的翻譯也落後，也無法聯繫歷史等，比如諺語和雙關，軟體就不能處理。現在的iphone 的siri和安卓平台上的語音軟體可以看成翻譯的原型，但是走的路還很久。

這是一種早就被研究界關注的系統speech to speech系統。完整的系統從技術角度說主要包括三部分：speech to text, machine translation, text to speech，也就是語音識別、機器翻譯、語音合成。整套系統的目標是將一種語言的語音自動翻譯成別一種語言，並以目標語言翻放出來。這套系統並不是SIRI,區別在於中間環節，SIRI的中間環節是基於語義理解的自動問答技術。

這個系統中最關鍵的兩項技術是前兩個，即語音識別和機器翻譯，語音合成技術已經比較成熟，沒有太大問題。

語音識別技術是整個系統的基礎，因為它處於系統的最前端，其識別率直接影響到了後面的準確率。語音識別技術被蘋果的SIRI炒熱之後，目前在工業界非常火，而且無論從實際的用戶體驗還是研究結果來看，已經達到了可以進入工業界的程度。但只是剛入門，還有很多工作要作。

機器翻譯技術相比之下還是一種處於研究領域的技術，目前並不適合進入工業界。而且該技術的難度要遠大於語音識別技術。

微軟這次的演示其實重點就在展示語音識別技術，但由於在語音識別上進入過晚，而且也不夠強，為了達到話題效果，加入了機器翻譯。但其實還是在說它自己的語音識別。

演示效果的話，從技術角度來看一般，因為有一些明顯的錯誤，表明其語音識別技術還有待提高；從目標角度來看，還不錯，因為達到了預期的媒體效果。

其實微軟在語音技術上並不強，在該領域的強者是Nuance,訊飛。國內的一些公司也在跟進，譬如百度、騰訊、盛大。微軟在語音技術上也處於同一陣營，微軟真正的優勢其實是圖像技術。

技術是厚積薄發的，我不記得我小時候吃的那些飯都是什麼，但毫無疑問，它們的一部分成為了我的骨頭和肉

首先我覺得不靠譜，特別是中文的同步翻譯。中文的複雜性不用強調，同一句話好幾個意思，甚至是相反的意思。這必須考慮聲調語境甚至環境。資料庫收錄對照搜索需要識別的信息太多，對目前的計算機處理能力表示懷疑。如果計算機技術出現質的突破，這個問題才可以考慮。

如果機器能真正實現人一樣的翻譯，那就是人工智慧了，因為那樣的機器已經會主動進行複雜的思考。那是非常可怕的，目前靠邏輯思維運行的程序還做不到！