從搜狗的語音技術發展史中，我們來看平台技術是如何落地的

01-27

提起智能語音，大家或多或少會想到蘋果的 Siri，畢竟整個行業由它牽頭帶動的，包括後來亞馬遜的 Alexa，微軟 Cortana，Google Assistant 等，各個巨頭將智能語音視為了一塊必爭之地，業界更是將語音定義為下一個人機交互的新形式。

在國內，除了百度、科大訊飛以及一些初創公司，我們似乎很少會提起搜狗這家同樣專註於人工智慧語音的公司，甚至有人認為智能語音是搜狗向 AI 轉型的一大戰略。為此，搜狗 CEO 王小川曾強調，搜狗雖然以搜索起家，但事實上它就是一家 AI 公司，並一直致力於讓搜索引擎變得更聰明，其中就包括語音技術。

搜狗的語音技術研究始於 2012 年，曾推出語音助手應用

從 2012 年開始，搜狗就著手語音技術的研究，並在一年多之後完成深度學習技術的研發和上線，經過一段時間的測試、準確率對比後，最終在 2013 年 6 月，接入搜狗包括輸入法、地圖在內的全線產品，代替原本所採用第三方公司的技術。

同時在這個過程中，搜狗於推出了搜狗語音助手，得益於多年來積累的搜索能力，搜狗語音助手的技術在短時間內做到了中文業內的領先。但它也面臨著與 Siri 等語音助手相類似的窘境，在手機端上提供的交互體驗並不能讓用戶產生足夠的依賴性，最終導致產品的使用率並不高。

此後，搜狗語音團隊則沒有對手機語音助手做繼續的研發和推進，但對智能語音的研究依舊持續著，並將目標聚焦在老本行——搜索上。他們思考著如何利用智能語音讓搜索變得更有效率、且往「更智能化」的方向走。到目前為止，搜狗語音團隊每年都會將自家的技術拿到業界中進行對比測評，以了解自身在行業中所處的實際位置。

基於前期技術的積累，敲定搜狗人工智慧未來的方向：自然交互 + 知識計算

2016 年 8 月，沉寂許久的搜狗在智能語音中再次有了新動作，除了實現將語音轉化成文字的功能，還發布了語音交互引擎「知音」。同時，搜狗 CTO 楊洪濤在發布會中首次公布搜狗人工智慧未來 8 年工作的主要方向：自然交互 + 知識計算，其中，自然交互指的是讓機器能夠在交互中更懂人，知識計算即將網路中的海量信息提取出來，並做進一步的運算、推理，輔助用戶做更好的決策。

這套由語音識別、語義理解、知識圖譜等技術梳理成一套成體系的「知音」交互引擎，主要是在加固此前搜狗在這方面的技術、產品積累，並讓其朝高效、更智能化的方向走。

基於深度學習平台搭建識別引擎，提高語音識別效率、實現實時翻譯功能

發布「知音搜索」後，搜狗則開始基於已有的深度學習平台搭建自己的識別引擎，一方面依據人類說話的生物特徵將每一個音節分為獨立的幀，提高對靜音的識別，進一步提高語音識別（將語音轉化為文本）的效率；另一方面，在語音識別的框架下建立聲學模型，根據人在發音時聲音信號和錄音信號波形的對比，實現錄音和文字之間的映射。

其中，在語音實時翻譯技術上，搜狗採用基於神經網路的機器翻譯技術，以文本斷句為橋樑，做到用戶在一直說話的同時，系統將輸入的語音進行區分、翻譯，將中、英文短語之間的映射關係建立起來，利用語音模型將詞序或語序進行調整，實現語音翻譯同傳。

搜狗 CEO 王小川在演講現場中展示搜狗語音的實時翻譯功能

除了技術框架的搭建，大量的訓練數據是確保語音識別準確率的基礎，因率先在中文手機輸入法中搶佔先機，以及大量搜索用戶的基礎，讓搜狗的語音識別取得了良好的效果，也成為語音實時翻譯的重要基礎。據搜狗團隊的介紹，搜狗語音識別的準確率已達到 97% 。而在當時，單是搜狗語音輸入法每日的請求次數就已經超過 1.8 億次，也就是大約 16 萬小時的語料規模。

推進語音技術在產品中的落地，並非做簡單的技術提供商

隨著人工智慧技術得到一定的進展，搜狗也逐漸考慮實現技術在產品中落地的事情。在這一戰略過程中，搜狗並不打算做一個純粹的技術出售商，遊離於產品之外做技術的整合和貢獻，而是將產品與技術緊密聯繫在一起，既做技術又做產品，或者在與他人合作時，依靠自己的人工智慧演算法和別人的數據去對接。

對此，搜狗 CTO 楊洪濤曾表示，「如果只是開放 SDK 介面供開發者嵌入和使用，這樣雙方就不能進行良好的互動，最終的產品體驗一定不會好，而好的產品體驗需要兩個團隊共同的緊密結合。」

在去年 12 月份，搜狗宣布與四維圖新、飛歌展開合作，三方共同研發智能車聯網軟硬體解決方案，推出飛歌最新的 G8Ⅱ 後裝智能車機。其中，搜狗語音提供的車載語音系統已在車載場景下做了專項優化，是基於搜狗語音交互引擎「知音」面向車載方向的升級。同時，其與搜狗語音地圖進行整合後，用戶可通過自然語音交互的方式嚮導航系統輸入目的地。

在今年 3 月份的小米新品發布會上，小米發布了與搜狗語音深度結合的智能語音電視——小米電視 4A，依靠搜狗的語義理解技術及其在小米 4A 使用場景下的優化，用戶能夠在向電視提出複合指令時得到精準的反饋結果。另外，搜狗語音和小米還一起建立了同步上線機制，在小米電視內容上線更新的同時，搜狗語音都將快速跟進優化，為用戶提供良好的交互體驗。

小米智能語音電視發布會

前不久，會議平板廠商視源股份發布首款智能語音平板 MAXHUB，其中就整合了搜狗的語音技術。在使用這款會議平板的過程中，用戶用自然的語音指令即可調動語音助手執行相應的任務，提高辦公及會議效率。

語音交互的剛需在於駕車、客廳、戶外這幾個方向，產品本身也必須是「剛需」

就跟當初放棄搜狗語音助手應用一樣的道理，搜狗語音負責人王硯峰認為，技術應該用在能夠真正解決用戶實際問題的方向上，躺在手機上的語音助手並不能幫人們解決實際的需求。在物聯網和車聯網時代，更自然的人機交互方式已成為一個趨勢，而語音助手則需要找到它真正的用武之地。

王硯峰進一步表示，語音交互的剛需存在於駕車、客廳、戶外等不方便使用鍵盤打字的場景中，另外，產品自身也應該是剛需。如目前的機器人並不足以解決用戶的實際需求，因此搜狗也沒有把它作為一個跟進的方向，而是希望繼續在以上三個場景中將語音交互的體驗做得更好、更深，給用戶帶來實際價值。

目前，搜狗一方面通過產品將語音技術更多的落地到用戶端，另一方面則深耕技術，投入到對前沿技術的研發中，如與清華大學聯合成立「清華大學天工智能計算研究院」。

從以上來看，我們沒有在搜狗語音身上看到「大雜燴」形式的產業布局，而是聚焦在垂直領域，尋找並切入剛需市場，對技術進行深化以及貼近產品式的研究，方向是如此的堅決且明朗。

活動預告：
語見 · 語音智能峰會 | WARE 2017

4 月 15 日（本周六），深圳灣（公眾號 ID：shenzhenware）將舉辦「語見語音智能峰會 | WARE 2017」，本屆峰會，將聚焦語音智能，邀請行業領軍企業、以及行業意見領袖，分享關於語音智能的相關平台技術和應用案例，通過會議的交流互動，以及會議主題的傳播，幫助人們更好的預見未來。

屆時，搜狗公司桌面事業部高級總監，桌面研究部和語音交互技術中心負責人王硯峰將出席本次峰會，發表『從語音到語言』的主題演講。

點擊此處，進入峰會報名頁面，可了解峰會詳情。

● ● ●

深圳灣（微信公眾號 ID：shenzhenware）長期挖掘物聯網、人工智慧、機器人、無人機、智能駕駛、智能家居等領域的新銳產品和初創團隊，歡迎聯繫我們。微信私人客服：小炫（ID：warexx）。

轉載、約稿、投稿、團隊報道請聯繫微信公眾號：shenzhenware（回復關鍵字）
推薦閱讀：

※在《一站到底》這種答題節目中，機器有可能戰勝人類嗎？
※在搜狗IPO敲鐘儀式上，為什麼王小川流淚了？
※chrome啟動頁被搜狗劫持，親測N種方法還是無法改回？
※這幾個網站應該可以看看關係圖譜了，思維導圖的感覺
※你怎麼看當前中文語音識別技術在國內的應用？

TAG:搜狗 | 语音识别 |