語音交互爆發前夜，新一輪變革由誰引領？

01-31

在漫長的5000年人類文明史中，有4000多年人類的交互行為只在人與人、人與自然物品之間進行。直到1946年，馮諾伊曼在賓夕法尼亞大學研製出世界上第一台現代計算機EDVAC，這才改變了人類交互的歷史。而時至今日，人類社會正在經歷著另一次交互變革——智能語音交互。

巨頭紛紛秀肌肉，行業正迎來爆發期

　　智能語音交互是一個站在風口且具備足夠想像力的領域，對科技巨頭來說，這已經成為兵家必爭的一塊巨大市場。

　　根據Research and Markets 發布的調查數據顯示，到2020年，全球智能語音市場規模預計將達到191.7億美元。而中國工信部的調查報告則指出，2016年全球智能語音產業規模將接近九十億美元，近五年間複合增長率高達35.1%。

　　事實上國內外諸多科技巨頭早已看到了語音交互行業的潛力，並紛紛在這一領域大展拳腳。

　　亞馬遜兩年前推出了家庭智能語音交互產品Amazon Echo，其成為了語音交互和AI領域的代表產品，這項新產品帶來的遠大前景也成為了亞馬遜的未來核心業務。

　　而蘋果的Siri更被視為史上首個語音交互產品，Siri以問答交互形式開啟了語音交互新世界的大門，這是智能手機終端的一次重大突破，也引發了智能助理機器人行業變革。

　　除此之外，微軟旗下定位於商務助理的Cortana也是語音交互領域的代表產品之一。Cortana作為一款個人智能助理，可以讓設備像人一樣與你交流，能理解自然語言並做出回應。微軟希望Cortana能比單純檢索信息做更多的事情，並最終能處理通信、管理日曆、滿足各種需求。

　　當然這個領域的參與者遠遠不止這三家公司，谷歌、Facebook等巨頭都在進行著探索，而在大洋彼岸的國內，也有著不少玩家在語音交互領域大展拳腳，其中的佼佼者則有科大訊飛、搜狗和百度。伴隨著巨頭的紛紛布局，語音交互技術誕生至今，很顯然已經到了爆發的臨界點。

國內市場多強爭霸，殊途同歸卻重心不同

　　語音交互領域中國市場不缺參與者，科大訊飛和搜狗兩家公司則是其中的佼佼者。從最終目的來看，這兩家公司很顯然都希望能夠引領人機交互的革命，但兩者的發展路徑卻呈現出很大的不同。

　　作為智能語音交互領跑企業科大訊飛並不是一家互聯網公司，其主要業務是企業級應用。其在C端消費者市場雖然也有科大訊飛輸入法，但對科大訊飛來說如何服務好企業用戶，才是其首先思考的事情。發力語音交互很大程度上則是因為企業用戶需求的上升以及對更智能的交互方式的探索。

　　在語音交互領域，當然也有其他重要公司，BAT三巨頭也在探索如何將語音交互技術運用到他們龐大的業務線中。而相比科大訊飛，具有濃厚技術基因的搜狗顯得相對低調，但我們同樣不應該忽視。事實上，搜狗在探索人工智慧和語音交互等新興技術領域的布局同樣非常值得關注。

　　近兩年間在搜狗人工智慧的投入不可小覷，目前搜狗在AI領域的研發已經全面展開，僅2015年搜狗就投入了年收入的22%用作研發，今年6月更捐贈1.8億給清華大學並聯合成立研究院，致力於人工智慧技術的研發。

　　與其他友商不同，相較訊飛走的大而全的企業服務方向，搜狗在語音交互領域的發展路徑則顯得更為從容。基於多年在輸入法和搜索引擎領域沉積，搜狗發現了一個簡單的事實：通過輸入一個關鍵詞得到十數條答案的搜索反饋並不能稱之為讓人滿意的交互，人們真正需要的是輸入一個問題得到一個精準的答案。

　　而正是基於這種思考，搜狗探索的方向更多是整合旗下新聞、地圖等領域資源做出適用於垂直語音交互場景的產品。一個簡單的例子是搜狗車載語音系統和生活服務進行了整合，能夠提供車內場景全套智能解決方案，比如天氣、股票行情、導航信息、新聞推薦、聊天小助手等功能。

　　時至今日，搜狗已經交出了一份優秀的答卷，最近一年力搜狗搜索日均語音搜索次數增長超過4倍，手機輸入法日均語音輸入超過1.9億次，已經成為了國內語音輸入功能使用量最大的移動手機產品。

誰將引領變革？更自然的交互或許會是未來

　　語音交互技術發展至今，成果無疑是喜人的，但整個行業仍然存在諸多不足之處。僅以國內市場為例子，目前，國內的一些語音產品則存在說話速度快則無法識別或識別出現無意義錯詞的問題，這與語音識別的準確度有著直接關係，而這嚴重影響了消費者們對智能語音產品的接受程度。試想若機器回復用戶的第一句話就錯字連篇詞不達意，用戶如果進行繼續對話交互？

　　我們知道語言在5000年文明裡已經紮根人類基因，因此諸多語音產品遠遜人類的響應速度難言用戶體驗。所以只有更自然的語音交互，才能解決語音交互叫好不叫座的窘境，這導致的結果就是用戶的使用頻次變高，語音交互也就成為了新的交互入口。很明顯，市場需要的是一種更準確更自然的語音識別技術。

　　而隨著人工智慧浪潮的來臨，以及物聯網場景下應用需求的不斷擴大，智能語音產業越來越受到市場的青睞。搜狗早已確定了自然交互和知識計算作為其在人工智慧領域的兩大戰略方向。如今搜狗在智能語音領域已經取得了重大突破，而「知音」引擎正是搜狗在自然交互方面的重要成果。

　　事實上，相較其他友商，搜狗語音產品知音引擎已經在一定程度上解決了不夠自然的問題。搜狗語音擁有超過97%的識別率和每分鐘可輸入400字以上的領先技術水準，加上語音修改功能，更精準這一特性幫助其解決了語速快無法識別和識別出現錯字的問題。

　　此外搜狗語音還實現了低於0.5秒的響應時間，並支持男女多音色個性定製。在業內，一秒的語音回復速度被認定為人與人之間的自然交互。搜狗語音還同時支持在和識別率超過98%的離線語音識別，這更令用戶能感受到人機對話交互的自然流暢，大大提升了使用搜狗語音的用戶體驗。

　　在實現更自然的語音交互之後，使用場景隨之變得尤為重要，而這幾乎決定了這項新技術未來能夠走多遠。搜狗的車載語音通過數據閉環、智能推薦和精準搜索能力的整合，實現了理解用戶場景和消費歷史理解用戶語音請求背後的意圖，並做進一步的智能推薦服務。

　　而這只是語音交互技術高速發展歷程中的一個縮影而已，語音交互顯然會給人類社會的發展帶來翻天覆地的變化，這會是一個值得期許的未來。