基於深度學習的實時翻譯，它搶在Google前做了

07-24

　　上周，Google宣布神經網路機器翻譯系統（GNMT：谷歌 Neural Machine Translation），正式被應用到谷歌翻譯中，這意味著利用人工智慧和機器學習技術能「翻新」不少已有的互聯網產品。

　　很快，一家國內公司就展示了這種「升級術」，並搶在Google之前，將基於人工智慧和機器學習的語音識別和機器翻譯結合起來，發布了搜狗知音引擎的重磅功能——「搜狗語音實時翻譯技術」。

　　共同的技術：神經網路的深度學習演算法

　　谷歌翻譯所用的神經網路機器翻譯系統（GNMT：谷歌 Neural Machine Translation），已經逐漸被人知曉，但神經網路不只有谷歌獨有，比如微軟也在近期宣布其語音翻譯應用使用神經網路技術，也並非只能應用於機器翻譯產品，比如搜狗的語音識別。

　　按照科學家的看法，人腦的認知過程是一個深度多層複雜的過程，每深入一層就多一層抽象。而人類大腦處理語音的過程，則毫無疑問是最為複雜的認知過程之一。神經網路中的多層感知機就試圖模擬人類大腦神經多層傳遞處理問題的過程，但通常多層感知機一般也不過3層而已。2006年，Geoffrey Hinton提出了神經網路的深度學習演算法，使得至少具有7層的神經網路的訓練成為可能，這就是所謂的DNN。DNN正是由於能夠比較好地模擬人腦神經元多層深度傳遞的過程，因而它在解決一些複雜問題的時候有著非常明顯的突破性的表現。尤其是圖形計算器（GPU）能力的突飛猛進使得DNN令人生畏的計算複雜度不再成為問題，所以一些走的比較快的語音廠商已經急不可待將DNN作為其提高語音服務質量的殺手鐧了。

　　據悉，搜狗自2012年開始投入研究基於人工智慧和深度學習的神經網路技術，因其超過5億的用戶每天提供大量的訓練素材，在這個「網路」中注入大量的知識，使它擁有極強的辨識能力，搜狗輸入法每天的語音輸入請求量達到1.9億，使得搜狗語音技術平台成為全國最大的語音識別服務平台，以此為基礎，搜狗識別技術經過「刻苦」學習，擁有了更強的技術實力，而今年8月搜狗發布了語音交互引擎——知音，其不僅帶來了語音識別準確率和速度的大幅提升，還可以與用戶更加自然的交互，支持多輪對話，處理更複雜的用戶交互邏輯等等。據某評測報告顯示，搜狗語音識別的準確率高達97%，支持最快400字每秒的高速聽寫，語音輸入日頻次較一年前增長一倍以上。

　　在語音識別領域有一則廣為人知的軼事，曾經提出基於統計的語音識別框架的賈里尼克教授在IBM工作時說：我們每開除一個語言學家，我們的語音識別系統識別率就上升一點。而隨著神經網路的發展，機器學習和統計模型的高下立分，神經網路應用於語音識別取得顯著成績，基本取代了基於統計的方法。相類似，又成了機器翻譯界的「座上賓」，「從技術原理上來說，機器翻譯、語音識別和圖像識別都能使用神經網路。」搜狗語音交互中心負責人王硯峰表示。

　　搜狗機器翻譯融合了業界領先的端到端神經機器翻譯技術以及基於實例的翻譯技術，使用的端到端神經網路翻譯模型通過編碼端獲取源端句子的分散式表示，利用注意力模型聚焦源端，使用循環神經網路生成翻譯結果，翻譯的結果比傳統機器翻譯更加流暢，效果更好。近期人工評測中，搜狗機器翻譯在演講、旅遊、閑聊、日常口語等領域，採用五分制人工評分能達到4.4分，走向實用化。

　　為什麼搜狗第一個將語音識別+機器翻譯的實時翻譯做成了呢？「如果從無到有做神經網路，可能花的周期非常長，如果我們沒有語音識別、基於神經網路和機器翻譯的積累，我們也很難快速把這個事情做起來。」搜狗語音交互中心技術負責人陳偉說。

　　取代同傳：識別、斷句、翻譯「三部曲」

　　「搜索的未來就是人工智慧時代的皇冠」，當搜狗CEO王小川在烏鎮舉行的世界互聯網大會現場說出這句話時，屏幕上實時顯示出了「In the future, search will be the Crown of the AI Era」，這是搜狗語音實時翻譯技術的首秀，王小川的中文講話內容被實時識別為文字並翻譯為英文在屏幕上顯示，這也是全球首次基於神經網路的實時機器翻譯技術在大型活動上的展示，引起巨大轟動。

　　事實上，王小川關於人工智慧專業領域的報告要進行機器同傳，是通過語音識別、文本斷句、機器翻譯三個步驟最終完成實現，而且當王小川說到時，機器還能隨著語句的逐漸完整，根據語義自動修改調整之前識別的內容。「8月3號發布搜狗知音引擎的時候，我們提出一個口號『更自然的語音交互』，希望提供從說到聽到理解的三個過程，就涵蓋了語音識別，相當於語音轉成文字，基於識別後的文本對語言的理解，最後給出反饋，語音合成是把結果輸出來。在識別這塊，目標是在人機使用語音進行交互的過程中，更加自然，更像人和人交互的方式靠近。希望我們的引擎更多理解人的語言上的需求，這就包括多語言轉化的需求。」陳偉說，搜狗語音實時翻譯技術從系統框架來看，包括以下步驟：

　　但是從機器翻譯這一步來看，細節上更加複雜。從數據上看，全世界一共有5000多種語言，使用人數超1000萬的語言有81種。以前的機器翻譯方法更多是把整個的翻譯切分成單詞、短語，例如在中英文翻譯中，把中文、英文短語之間的影射關係建立起來，解決的是對齊的問題，會有一些對應的關係，對應的關係建立起來以後，使用語言模型把中文翻譯成英文以後的各種小短語，這是基於短語的機器翻譯技術。

　　當機器翻譯逐漸遷移到了基於神經網路的技術，應用的是一個端到端的映射。比如輸入文本：「我喜歡運動」，就進入到一個編碼器，這個編碼器會把「我喜歡運動」進行整句上面的翻譯，或者每一個單詞建立一個詞向量，就具備了語譯的能力，進行進一步的特徵提取，就會得到編碼器的解釋。

　　然後是進入對齊環節，此時交給模型去做。「模型告訴你哪些詞和哪些詞可以對應在一起，是機器自己學習出來的。當把這些詞語的特徵貢獻到解碼端以後就會出來文本，起到一個端到端的影射作用。」陳偉說。更加詳細的結構第一部是編碼端的技術，最後是Decoder。「準確率上我們實際評測來看，GRU的結構會更輕便，而且運算的速度更快，目前的同傳技術裡面，我們用到的是GRU結構，使用雙向的GRU技術，共同構建編碼端的結構。解碼端共同抽象以後接入到Softmax裡面輸出結果。」

　　翻譯解決的問題是對齊的問題，再簡單分析這句話：搜索的未來就是人工智慧時代的皇冠。這個文本對應出的英文，是模型學習出來的對應權重，這些權重會使得端到端的機器翻譯技術更加準確，同時，也可以看到其實有很大的一個問題——真正的模型是需要與數據緊密結合的，只有擁有了大的數據才能學習出複雜的模型。

　　目前，就機器翻譯而言，搜索公司在語料上面的積累是有助於機器翻譯的不斷完善的，搜狗也將在很多場景上完全使用機器翻譯，比如實時翻譯技術將很快在搜狗輸入法手機版上線，深度網路在大數據的「訓練」下，會不斷進化為更為「精密」的系統，而替代同聲傳譯的一天也將不再遙遠。