從搜狗語音的進化，看未來智能語音時代如何開啟？

02-01

文|李東樓

　　又到年末，回顧一年來人工智慧的發展，語音識別技術正處於快速發展階段。正如在之前由國際知名科技期刊《麻省理工科技評論》(MIT Technology Review)評選出的「2016年十大突破技術」，語音介面技術位列其中，該技術可將語音識別和自然語言理解相結合，為全球互聯網市場創造切實可用的語音介面。

　　在東樓看來，隨著場景聲音辨識技術的加速完善，語音識別技術有望迎來真正的拐點，未來發展空間將進一步擴大。而國外的谷歌、蘋果，以及國內的科大訊飛、搜狗等公司都是這一領域的大玩家。

　　從智能語音識別、語義理解到如今最熱的實時翻譯，搜狗語音並不是一開始就有如此優秀的表現，而是經過了數年的產品演進和技術進化才達到今天這樣的水平。而回顧搜狗在智能語音技術方面的進化歷史，甚至還能夠看到未來的智能語音技術發展的方向和前景。

智能語音的進化史

　　首先讓時間回到移動互聯網的爆發初期的2012年，當時由於蘋果Siri功能推出，語音助手軟體曾經風行一時。不僅包括搜狗、百度等搜索引擎公司基於自身的搜索引擎的基因，紛紛推出了獨立的語音助手應用，還有一些創業公司也希望能夠從語音搜索入手，期望成為下一代搜索引擎入口。不過，與Siri一樣，這些語音助手產品不僅語音識別率低，而且還經常答非所問，且只能提供一些簡單的詢問天氣、介紹餐廳等初級功能，無法進行複雜的多輪交互對話，因此在經過了短暫的市場預熱之後迅速進入低潮，而這些語音助手們也紛紛沉寂，甚至停止了更新。

　　在此之後，包括搜狗在內的這些提供智能語音服務的公司紛紛轉入技術積累的低調期，並陸續推出了基於雲服務推出語音雲開放平台，希望能夠開放自己的語音識別、語義理解等語音技術能力，吸引更多的第三方合作夥伴，一起搭建生活服務入口。不過，儘管搜狗在智能語音的技術一直在向前演進，語音識別率越來越高，但是由於更多將服務轉向了b端，因此並不被普通用戶熟悉。直到羅永浩在對鎚子手機功能的演示時提及，才使得人們第一次意識到原來智能語音技術已經演進到了現在這個地步。

　　實際上，第一次引爆智能語音技術並讓其受到追捧的人並不是羅永浩，而是搜狗CEO王小川。就在今年7月，搜狗CEO王小川在參加極客公園「奇點·創新者峰會」上已經完成進化的搜狗語音來了一次」首秀「。利用搜狗公司的語音識別技術，王小川的演講內容在現場實時生成了滾動字幕顯示，目測準確率高達95%以上。同步的字幕引起了現場觀眾極大的興趣，紛紛起立拍照。不僅如此，王小川甚至還現場邀請了一位觀眾上台體驗了搜狗輸入法的新功能「語音修改」。用戶對著手機說出一段文字後，再通過自然語言的方式將語音識別錯誤的地方進行修正，贏得了現場熱烈的掌聲。

　　緊接著，搜狗馬不停蹄的在今年8月初發布了語音交互引擎「知音」，繼續展示其在智能語音技術方面取得的重大突破，不僅在語音識別率方面達到業界領先的97%，而且還能進行快速糾錯，更解決了此前一直困擾業界的複雜多輪交互的問題。簡單的說，就是不僅要實現「能聽會說」，還要求具有「能理解會思考」的能力，這使得智能語音的應用場景被大大延伸。而搜狗還宣布，已經將智能語音技術應用到了包括搜狗搜索、搜狗輸入法、搜狗地圖等全線產品當中。至此，搜狗的語音技術完成再次進化，在智能語音方面的能力已經到達了國內領先的水平。

　　而在11月烏鎮舉行的第三屆世界互聯網大會上，王小川在分論壇演講現場更是發布了搜狗人工智慧新產品——機器同傳，展示了實時機器翻譯技術，將演講嘉賓的中文講話實時語音識別並同步翻譯為英文上屏顯示，引起轟動。這也是全球首次基於神經網路的實時機器翻譯技術在大型活動上的展示，效果可靠、準確率已接近人類同傳翻譯結果。

　　基於大數據和深度學習，搜狗語音實時翻譯涵蓋了搜狗自主研發的語音識別、機器翻譯兩項重要技術，代表著這兩大技術在實時性和實用性上邁出了較大的一步，並且高效的結合了起來。

未來，智能語音技術該如何演進？

　　另一方面，前面提到，目前搜狗在語音識別率方面已經達到97%，並能夠進行快速糾錯和處理複雜的多輪交互對話，而且已經應用到搜狗的全線產品當中。那麼，接下來，智能語音技術還會向那些方面演進呢？我認為主要有以下三個突破點：

首先，需要繼續提升智能語音的識別率，突破最後的3%。實際上，目前搜狗使用新開發的語音修改功能，通過自然語言交互的形式修改所輸入的文字，比「將弓長張改為立早章」等，已經在一定程度上解決了語音識別準確率最後3%的差距，達到了解放用戶雙手和提高用戶輸入效率的目的。而搜狗之所以能夠在智能語音技術方面率先取得突破，一方面與其多年來的深耕積累密不可分，另一方面也與其搜索引擎公司基因密不可分。按照王小川的話說，搜狗本身就是一家人工智慧公司，作為搜索引擎公司之所以能夠向用戶提供精準的搜索結果，其技術原理就是不斷的進行數據積累和機器學習，從而使得其能夠準確理解用戶輸入文字背後的真實意圖，從而給出最為精準的答案，而智能語音的原理與此類似，因此與搜狗輸入法一樣，搜狗有先天優勢能讓其在智能語音技術方面能夠率先獲得突破，達到領先行業的高識別率。

其次，複雜多輪交互能力的提升依然是智能語音技術的突破點。實際上，在眾多關於人工智慧的科幻電影當中，對於人類與機器的交互描述的最理想狀態就是讓機器能夠理解自然語言，實現完全無障礙的複雜的多輪交互對話，而只有做到這一點才真正能夠觸發「奇點來臨」，人工智慧時代才算真正開啟。因此，在解決最後的3%的語音識別率的同時，在語義理解方面繼續提升機器對人類自然語言的理解能力，以及對於不同語境下的複雜對話的處理能力也非常重要，而這些技術等突破甚至還需要情感識別技術的應用，將是更難的技術突破點。

　　而在這方面，搜狗依然具有優勢，因為像語義理解這樣的人工智慧技術的提升，同樣是一個數據積累和機器學習的過程，而這意味著具有龐大的用戶量和數據量能夠提供為機器學習更多的機會。首先，與其它沒有搜索引擎基因公司相比，搜狗搜索是一家國內排名前三的搜索引擎廠商，擁有足夠多的用戶和足夠大的數據量，這是其擁有讓人工智慧技術成長的「土壤」，而搜狗搜索語音搜索次數增長超過4倍也恰好印證了這一點；而與其它搜索引擎公司相比，搜狗還有國內用戶量最大的搜狗輸入法作為搜狗語音的「訓練師」，其不僅擁有海量詞庫，日均語音輸入更是超過1.9億次。因此，這兩大優勢相加，使得搜狗基本上可以「跑贏」目前市面上所有的智能語音產品。

最後，智能語音的技術必須更加通用化和行業化。也難怪人們此前對於智能語音能夠達到97%的識別率的「驚訝」，因為除非是記者、作家等文字工作者有語音轉文字這樣的需求，大部分人在日常的交流當中，極少情況下會有語音轉文字的需求，因此儘管智能語音的技術不斷進步，但人們卻絲毫沒有感覺到。因此，在下一階段的發展過程中，智能語音技術必須走下「神壇」，不能再是普通人不需要的「黑科技」，而是應該成為企業和個人都能因此受益的通用技術和解決方案。

　　目前來看，搜狗已經率先展開了對於智能語音技術在行業應用中的探索。就在不久前，魅族召開發布會發布了其首款電視智能盒子--魅族盒子，其中就內置了搜狗智能語音技術，用戶通過魅族盒子的智能遙控器，用戶只要說出自己想看的內容，視頻、歌曲、學習、健身等內容就會一呼即應。與此同時，搜狗智能語音技術

　　在車載導航的應用方面也有動作，最近國內車載導航的領先企業飛歌推出飛的歌黃金G8Ⅱ智能車機產品，該車機就載了搜狗車載語音解決方案的趣駕行車助手，並將語音與服務進行深度整合，實現了以輕應用的形式將搜狗智能語音技術在飛歌黃金G8Ⅱ上呈現，邁出了向車聯網探索的第一步。除此之外，搜狗還正在醞釀與VR、智能電視等第三方在智能語音技術方面展開合作。因此，可以預見的是，智能語音技術在家居、汽車、教育、醫療等領域的應用不斷深入，用戶將能夠在更多的場景下，享受到智能語音技術發展所帶來的優秀體驗和服務。

　　總的來看，智能語音技術不僅僅需要在語音識別準確率、多輪複雜交互能力方面繼續提升，還需要真正能夠轉化成為企業和用戶都需要的服務，這樣才能夠真正體現出價值，也才能夠迎來一個真正屬於智能語音時代的到來。