語音成巨頭布局AI關鍵棋子,中國玩家的思路是怎樣的?

語音並不是一個新鮮事物,2011年,Siri被內置在iPhone 4s之中橫空出世時,曾掀起一波語音技術和討論熱潮和語音助手的創業熱潮。時隔五年之後,Google AlphaGo人機大戰將AI(人工智慧)從實驗室技術變成坊間熱議的話題,人工智慧成為國內外科技巨頭的爭奪焦點,語音則成為巨頭進軍AI的必經之路。

? Google I/O大會上,最重要的項目便是Google Assistant(谷歌助理)和Google Home(類似於Amazon Echo的智能家庭音箱助手),Google Home的基礎則是語音。

? 蘋果WWDC開發者大會上,5歲的Siri終於兼容了Mac,並向開發者開放,能完成更多任務。

? Amazon Echo成為Amazon 最成功的硬體產品,這款產品銷量已達到400萬,家庭智能語音音箱,被視作是智能手機之後的又一個爆款品類。

KPCB合伙人、享有「互聯網女皇」稱號的瑪麗·米克爾在今年的互聯網趨勢報告中,將超過十分之一的篇幅給了「語音」二字,在其看來,「觸摸屏+麥克風」正在取代「鍵盤+滑鼠」的交互方式。

如此重要的技術革命,中國巨頭自然不會缺席。截止目前,中國市場還沒有與Amazon Echo媲美的中國版智能語音音箱,但在軟體層面互聯網公司卻一直在想方設法入局。Siri發布的第二年,搜狗便發布了語音助手,搜狗也是中國最積極投資語音的互聯網巨頭之一,阿里、騰訊、網易、京東等巨頭在語音上雖然偶爾有零星動作,但並未將之視作重點,要麼是第三方合作,要麼是蜻蜓點水。搜狗是搜索引擎,均崇尚技術,這是其押注語音的原因所在。

輸入成中國玩家進軍語音的亮點

輸入是語音最典型的應用場景,戶外、家裡、走路、開車,人們有許多時候都不便於打字,或者說懶得打字,抑或打字效率不夠高,語音就成為一種選擇。隨著語音技術的發展,識別準確率、方言兼容度、噪音抗干擾諸多難題都已得到解決,語音識別率已達到實用水平。

在語音輸入法上,搜狗輸入法、訊飛輸入法和百度輸入法是最主要的三個玩家。科大訊飛憑藉著語音技術切入輸入法領域,宣稱用戶數已過億;百度輸入法也將語音當做亮點,其宣稱藉助於DeepSpeech技術解決了噪音問題。語音輸入量工具最大的則是搜狗輸入法,其7%的用戶會用到語音識別功能,這一功能每天會有超過1.4億次的語音轉化量。

搜狗輸入法做語音則有5年歷史,與訊飛語音輸入法強調識別率不同,搜狗輸入法更強調智能輸入。識別率再高,語音輸入依然會有錯字現象,手工更改成痛點——用語音輸入就是因為不想動手。搜狗輸入法的解決方案是智能交互,比如用戶說「航天一院」很可能被識別為「航天醫院」,用戶就可再說「一二三四的一」,搜狗輸入法就會將「醫」改為「一」。這樣的交互能實現,關鍵不在於識別率,而是語義理解,如果沒有語義理解技術,就會直接將「一二三四的一」轉化為文字。好的語義理解,需要應用深度學習為基礎的人工智慧技術,這是互聯網公司尤其是搜索公司擅長的地方。

語音輸入法成為中國互聯網巨頭做語音的一大亮點,美國用戶並不需要「輸入法」,系統自帶功能就可滿足,因此美國並沒有類似於搜狗這樣的輸入法巨頭。當然,英文會需要語音輸入,不過這並沒有成為Siri的重點,未來或許會出現英文版的語音輸入法。

汽車成中國巨頭最親睞的場景

在語音使用場景方面,美國科技巨頭更親睞「家」,Amazon Echo、Google Home均是面向家庭這一場景。家是封閉空間,相對更安靜,並且干擾他人和被他人干擾的問題更小,還能與智能家居打通,是非常適合的語音場景。不過,由於做硬體需要較強的「硬實力」,與智能家居打通則需要大量的產業整合,不是一時半會能實現的,因此中國互聯網巨頭均對這個場景望而卻步,阿里、京東有嘗試與第三方合作推出與Echo類似的產品,市場表現卻很平淡。

與「家」同等重要的語音場景非汽車莫屬:車主在駕駛時雙眼和雙手都被佔用,語音成為最佳輸入方式。過去汽車內的語音輸入存在許多痛點,自帶語音功能只支持少數英文命令,並且還要給更多錢買「豪華版」才會配置。汽車內的語音交互充滿著互聯網巨頭最嚮往的顛覆機會。

搜狗針對汽車發布了智能語音導航App,可實現駕駛之外的常規車內交互,包括打電話、發簡訊、查天氣、歌曲播放等等,這款產品可運行在智能手機上,還可通過車機互聯協議使之運行於汽車屏幕,如果汽車廠商與搜狗進行前裝合作則可獨立運行於汽車的OS上。不久前,YunOS與上汽合作的國內首款互聯網汽車,語音交互被當做一個賣點:阿里巴巴CEO張勇展示了用語音打開天窗這樣的操作。在未來,汽車內的語音交互將成為標配。

智能技術確保語音能夠聽得懂

Siri才五年歷史,但語音卻有十分悠久的歷史:科大訊飛在1999年就已成立,現在是A股市場上市值400億元的語音巨頭。不過,語音走向大眾,徹底改變人機交互方式,卻是近幾年才發生的事情。從國內外科技巨頭的動作來看,智能技術和雲端服務已成為語音的兩大支柱。

語音技術過去是基於「規則」而不是「統計」,基於一定規則,對海量的語料庫進行處理之後就能不斷提高識別準確率。深度學習為基礎的人工智慧技術加入之後,語音技術就變成通過機器集群去學習海量語料數據,並尋找到各種規律,進而進行準確的語音識別和語義理解。

不論是語音輸入的智能糾錯,還是語音搜索對用戶請求的準確理解,抑或Siri響應用戶諸如「幫我設置一個提醒,明天9:00取快遞」這樣的複雜命令,底層均是人工智慧技術,AlphaGo掀起的AI啟蒙運動則將會成為語音普及的助力。

搜狗與清華大學聯合成立「天工智能實驗室」,正在人工智慧技術這個「根」上布局,以求贏在起跑線上。藉助於人工智慧技術,搜狗宣稱語音識別準確率高於97%,識別速度高達每分鐘400字以上,在語音修改方面,支持替換、插入、刪除等幾百種改錯操作 ,修改成功率達到90%以上,處於行業領先水平。

雲端服務則決定語音能夠做什麼

智能技術確保了人與機器能夠順暢地對話和交互。雲端服務整合能力,則決定機器在聽懂人話之後能做什麼。

Siri相比Google Now的劣勢是,許多Siri無法回答的問題,Google Now可通過搜索解決。Amazon Echo之所以有很大價值,在於其能夠去Amazon網站下單購物。這些均體現了雲端的服務整合能力,正是意識到這一點的重要性,今年的WWDC上蘋果決定開放Siri給開發者,讓開發者來豐富Siri的服務。

雲端服務上,搜狗擁有搜狗地圖、搜狗搜索、搜狗號碼通、搜狗問問、搜狗百科等產品,未來搜狗語音還可整合其夥伴如京東、知乎、騰訊的諸多服務,比如QQ音樂、騰訊視頻、京東購物等等,甚至用語音給微信好友點個贊。相對來說,互聯網巨頭雲端服務整合能力更強,搜索引擎憑藉著強大的內容整合和服務連接能力表現又更突出。

僅僅是整合「在線服務」並不足夠,互聯網巨頭要做語音,下一步重點將是努力去與實體世界服務實現整合,比如讓用戶能夠通過語音訂外賣,可以通過語音打開門禁,通過語音來打開車窗……整合方式有兩種方向:一種是手機App與各種服務連接起來;還有一種是語音inside各種硬體之中,例如機器人,汽車等等。總之,整合實體世界服務之後,語音就不會只是回答用戶的問題,而是要幫助用戶完成任務,成為全能助理。

語音市場在AlphaGo掀起人工智慧熱潮之後又迎來新的發展契機,語音正在徹底顛覆人與機器的交互方式,百度和搜狗為代表的中國科技巨頭正在輸入、汽車等場景上尋求突破,在智能技術和雲端服務上進行雙重布局。不過,要讓麥克風取代鍵盤,科技巨頭還有很長的路要走,可謂任重道遠。

微博@互聯網阿超 微信 羅超(luochaotmt)


推薦閱讀:

搜狗IPO在即,馬化騰笑了,但搜狐才是最大贏家
在這個行業首次聚焦語音智能的主題峰會上,我們思考語音技術對智能硬體提出的新挑戰 | WARE 2017
從搜狗的語音技術發展史中,我們來看平台技術是如何落地的
在《一站到底》這種答題節目中,機器有可能戰勝人類嗎?
在搜狗IPO敲鐘儀式上,為什麼王小川流淚了?

TAG:语音 | 搜狗 | 人工智能 |