從搜狗的語音技術發展史中,我們來看平台技術是如何落地的

提起智能語音,大家或多或少會想到蘋果的 Siri,畢竟整個行業由它牽頭帶動的,包括後來亞馬遜的 Alexa,微軟 Cortana,Google Assistant 等,各個巨頭將智能語音視為了一塊必爭之地,業界更是將語音定義為下一個人機交互的新形式。

在國內,除了百度、科大訊飛以及一些初創公司,我們似乎很少會提起搜狗這家同樣專註於人工智慧語音的公司,甚至有人認為智能語音是搜狗向 AI 轉型的一大戰略。為此,搜狗 CEO 王小川曾強調,搜狗雖然以搜索起家,但事實上它就是一家 AI 公司,並一直致力於讓搜索引擎變得更聰明,其中就包括語音技術。

搜狗的語音技術研究始於 2012 年,曾推出語音助手應用

從 2012 年開始,搜狗就著手語音技術的研究,並在一年多之後完成深度學習技術的研發和上線,經過一段時間的測試、準確率對比後,最終在 2013 年 6 月,接入搜狗包括輸入法、地圖在內的全線產品,代替原本所採用第三方公司的技術。

同時在這個過程中,搜狗於推出了搜狗語音助手,得益於多年來積累的搜索能力,搜狗語音助手的技術在短時間內做到了中文業內的領先。但它也面臨著與 Siri 等語音助手相類似的窘境,在手機端上提供的交互體驗並不能讓用戶產生足夠的依賴性,最終導致產品的使用率並不高。

此後,搜狗語音團隊則沒有對手機語音助手做繼續的研發和推進,但對智能語音的研究依舊持續著,並將目標聚焦在老本行——搜索上。他們思考著如何利用智能語音讓搜索變得更有效率、且往「更智能化」的方向走。到目前為止,搜狗語音團隊每年都會將自家的技術拿到業界中進行對比測評,以了解自身在行業中所處的實際位置。

基於前期技術的積累,敲定搜狗人工智慧未來的方向:自然交互 + 知識計算

2016 年 8 月,沉寂許久的搜狗在智能語音中再次有了新動作,除了實現將語音轉化成文字的功能,還發布了語音交互引擎「知音」。同時,搜狗 CTO 楊洪濤在發布會中首次公布搜狗人工智慧未來 8 年工作的主要方向:自然交互 + 知識計算,其中,自然交互指的是讓機器能夠在交互中更懂人,知識計算即將網路中的海量信息提取出來,並做進一步的運算、推理,輔助用戶做更好的決策。

這套由語音識別、語義理解、知識圖譜等技術梳理成一套成體系的「知音」交互引擎,主要是在加固此前搜狗在這方面的技術、產品積累,並讓其朝高效、更智能化的方向走

基於深度學習平台搭建識別引擎,提高語音識別效率、實現實時翻譯功能

發布「知音搜索」後,搜狗則開始基於已有的深度學習平台搭建自己的識別引擎,一方面依據人類說話的生物特徵將每一個音節分為獨立的幀,提高對靜音的識別,進一步提高語音識別(將語音轉化為文本)的效率;另一方面,在語音識別的框架下建立聲學模型,根據人在發音時聲音信號和錄音信號波形的對比,實現錄音和文字之間的映射

其中,在語音實時翻譯技術上,搜狗採用基於神經網路的機器翻譯技術,以文本斷句為橋樑,做到用戶在一直說話的同時,系統將輸入的語音進行區分、翻譯,將中、英文短語之間的映射關係建立起來,利用語音模型將詞序或語序進行調整,實現語音翻譯同傳。

搜狗 CEO 王小川在演講現場中展示搜狗語音的實時翻譯功能

除了技術框架的搭建,大量的訓練數據是確保語音識別準確率的基礎,因率先在中文手機輸入法中搶佔先機,以及大量搜索用戶的基礎,讓搜狗的語音識別取得了良好的效果,也成為語音實時翻譯的重要基礎。據搜狗團隊的介紹,搜狗語音識別的準確率已達到 97% 。而在當時,單是搜狗語音輸入法每日的請求次數就已經超過 1.8 億次,也就是大約 16 萬小時的語料規模。

推進語音技術在產品中的落地,並非做簡單的技術提供商

隨著人工智慧技術得到一定的進展,搜狗也逐漸考慮實現技術在產品中落地的事情。在這一戰略過程中,搜狗並不打算做一個純粹的技術出售商,遊離於產品之外做技術的整合和貢獻,而是將產品與技術緊密聯繫在一起,既做技術又做產品,或者在與他人合作時,依靠自己的人工智慧演算法和別人的數據去對接

對此,搜狗 CTO 楊洪濤曾表示,「如果只是開放 SDK 介面供開發者嵌入和使用,這樣雙方就不能進行良好的互動,最終的產品體驗一定不會好,而好的產品體驗需要兩個團隊共同的緊密結合。」

在去年 12 月份,搜狗宣布與四維圖新、飛歌展開合作,三方共同研發智能車聯網軟硬體解決方案,推出飛歌最新的 G8Ⅱ 後裝智能車機。其中,搜狗語音提供的車載語音系統已在車載場景下做了專項優化,是基於搜狗語音交互引擎「知音」面向車載方向的升級。同時,其與搜狗語音地圖進行整合後,用戶可通過自然語音交互的方式嚮導航系統輸入目的地。

在今年 3 月份的小米新品發布會上,小米發布了與搜狗語音深度結合的智能語音電視——小米電視 4A,依靠搜狗的語義理解技術及其在小米 4A 使用場景下的優化,用戶能夠在向電視提出複合指令時得到精準的反饋結果。另外,搜狗語音和小米還一起建立了同步上線機制,在小米電視內容上線更新的同時,搜狗語音都將快速跟進優化,為用戶提供良好的交互體驗。

小米智能語音電視發布會

前不久,會議平板廠商視源股份發布首款智能語音平板 MAXHUB,其中就整合了搜狗的語音技術。在使用這款會議平板的過程中,用戶用自然的語音指令即可調動語音助手執行相應的任務,提高辦公及會議效率。

語音交互的剛需在於駕車、客廳、戶外這幾個方向,產品本身也必須是「剛需」

就跟當初放棄搜狗語音助手應用一樣的道理,搜狗語音負責人王硯峰認為,技術應該用在能夠真正解決用戶實際問題的方向上,躺在手機上的語音助手並不能幫人們解決實際的需求。在物聯網和車聯網時代,更自然的人機交互方式已成為一個趨勢,而語音助手則需要找到它真正的用武之地。

王硯峰進一步表示,語音交互的剛需存在於駕車、客廳、戶外等不方便使用鍵盤打字的場景中,另外,產品自身也應該是剛需。如目前的機器人並不足以解決用戶的實際需求,因此搜狗也沒有把它作為一個跟進的方向,而是希望繼續在以上三個場景中將語音交互的體驗做得更好、更深,給用戶帶來實際價值。

目前,搜狗一方面通過產品將語音技術更多的落地到用戶端,另一方面則深耕技術,投入到對前沿技術的研發中,如與清華大學聯合成立「清華大學天工智能計算研究院」。

從以上來看,我們沒有在搜狗語音身上看到「大雜燴」形式的產業布局,而是聚焦在垂直領域,尋找並切入剛需市場,對技術進行深化以及貼近產品式的研究,方向是如此的堅決且明朗

活動預告:

語見 · 語音智能峰會 | WARE 2017

4 月 15 日(本周六),深圳灣(公眾號 ID:shenzhenware)將舉辦「語見 語音智能峰會 | WARE 2017」,本屆峰會,將聚焦語音智能,邀請行業領軍企業、以及行業意見領袖,分享關於語音智能的相關平台技術和應用案例,通過會議的交流互動,以及會議主題的傳播,幫助人們更好的預見未來。

屆時,搜狗公司桌面事業部高級總監,桌面研究部和語音交互技術中心負責人王硯峰將出席本次峰會,發表『從語音到語言』的主題演講。

點擊此處,進入峰會報名頁面,可了解峰會詳情。

● ● ●

深圳灣(微信公眾號 ID:shenzhenware)長期挖掘物聯網、人工智慧、機器人、無人機、智能駕駛、智能家居等領域的新銳產品和初創團隊,歡迎聯繫我們。微信私人客服:小炫(ID:warexx)。

版權聲明:本文系深圳灣編輯創作發布,轉載請註明來自深圳灣,並標明網站地址 shenzhenware.com

轉載、約稿、投稿、團隊報道請聯繫微信公眾號:shenzhenware(回復關鍵字)
推薦閱讀:

在《一站到底》這種答題節目中,機器有可能戰勝人類嗎?
在搜狗IPO敲鐘儀式上,為什麼王小川流淚了?
chrome啟動頁被搜狗劫持,親測N種方法還是無法改回?
這幾個網站應該可以看看關係圖譜了,思維導圖的感覺
你怎麼看當前中文語音識別技術在國內的應用?

TAG:搜狗 | 语音识别 |