語音平台之爭打響,Skill 開發能否成為 APP 後的下一個掘金地丨語音智能特稿

按照媒體慣用的命名方式,2017 年應該算得上是「語音智能元年」,特別下半年以來,國內的互聯網巨頭紛紛加大了在語音智能領域的布局力度。

而語音技能作為配合語音這一新型人機交互形式而使用的第三方應用,是語音智能中關鍵的一環。

在深圳灣的這第四篇語音智能特稿中,我們採訪了 7 位行業人士(包括語音平台商、個人開發者等),從不同角度對語音技能開發的現狀以及行業背後的思考進行了深度分析。

▎Skill 因何而生?

近兩年來,人工智慧的概念滲透到科技、生活的方方面面,包括機器視覺、語音語義、機器自主移動等。可以說,這些領域都一定程度上得益於深度學習、神經網路等所取得的突破性進展,而各領域也正處於萌芽階段。

而從今年上半年開始,局勢似乎開始發生了重大變化。在去年底獲得卓越銷量成績的亞馬遜 Echo 將智能語音捧為了最熱門的風口,除了層出不窮的智能音箱產品,智能語音還在智能家居、車載、可穿戴等設備上承擔起「賦能」的重要任務。

從 PC 到移動互聯網再到物聯網,語音智能的崛起讓人不禁猜測到,喬布斯開啟的觸控(GUI)人機交互時代將被改寫,轉向觸控+語音(VUI)或純語音交互的時代。

與手機、平板等觸控設備所基於的 iOS、Android 系統相類似,語音交互設備也有相應的語音操作系統(語音 OS)。就國內而言,主要有 百度 Duer OS、騰訊雲小微、阿里 AliGenie、科大訊飛 AIUI、思必馳 DUI、Turing OS等。

點擊鏈接,查看深圳灣語音智能平台深度分析

與 iOS、Android 開放給應用(APP)開發者相同的路數,各廠商自行把控語音 OS 底層的技術和功能,將應用層逐步開放給第三方開發者。這些由開發者開發的應用被習慣稱為語音技能(Skill)。

▎你們所追趕的亞馬遜,從 2011 年開始就為自家的 Skill 開發預留了足夠的多時間窗口

事實上,人機語音交互由蘋果搭載 Siri 的 iPhone 4s 就已經開始進入大眾視野。但其真正形成一定影響力的時期,是在亞馬遜 Echo 成功將人們對語音助手的認識從手機、PC 端向家居場景轉移之後。

從開拓一個新的應用場景開始,亞馬遜 Alexa 就取得了良好的開端,名氣迅速蓋過了 Siri、Cortana 等更早出現的語音助手。

接著,Alexa 的產品路線更是有別於其他躺在手機、PC 里的語音助手。從通過語音指令控制掃地機、智能燈泡、智能掃地機等各類智能家居產品,到開放 API 接入到手機、車機、機器人、智能手錶等第三方硬體,Alexa 已遍布各類大大小小的產品。

點擊鏈接,查看 Alexa 賦能清單

另外,亞馬遜還做了一件重要的事情,就是在 2015 年 6 月開放 Alexa Skills Kit(ASK),著手建設 Alexa 的語音技能生態。

起初,Alexa 語音技能的數量只有少數幾個,開發者數量也寥寥無幾。為此,亞馬遜官方還專門設置了 1 億美元的開發者獎勵計劃。

2016 年底,隨著亞馬遜 Echo 銷量大漲,Alexa 的技能數在今年年初突破 1 萬大關。緊接著在 6 月份公布的結果中,這個數字上升到了 1.5 萬,此時,Google Assistant 的技能(Google Assistant Voice Apps)僅有 378 個,Cortana 的技能數還不到 70 個。

「亞馬遜 Alexa 的成功,很大程度上得益於其率先在語音技能生態的布局,Alexa 現在所處的階段就像 Android 上線後由 1 萬個技能發展到 10 萬個技能的階段,而且 Alexa 在語音識別、麥克風陣列、降噪、語義理解,均已經實現全站語音交互。」有人認為,從目前到今後的很長一段時間內,其他玩家恐怕很難趕上 Alexa 這樣的進度。

事實上,從 2011 年開始,Alexa 就為自己預留了足夠多的時間窗口。

▎國內想做 Alexa 的玩家,Skill 部分都還處於起步階段

從智能語音打磨、發布智能音箱,到開放硬體介面、語音技能開發包等,亞馬遜走的每一步都算得上是小心謹慎。而後續的反饋也證明了,亞馬遜所走的這些路是正確且可行的。

在 Alexa 這樣一個成功典範的帶頭作用下,國內 BAT、小米以及各個初創企業紛紛抓住了中文語音的機會,趁 Echo、Google Home 並沒打算入華的窗口期里,做起了智能音箱,造就了一番「百箱爭鳴」的景象。

點擊鏈接,查看深圳灣百箱爭鳴特稿

同時,BAT、語音技術廠商等也順勢抓住了這個機會開放語音操作系統的語音技能開發部分,讓語音交互的內容更豐富、好玩。對這些的每一個國內廠商來說,亞馬遜 Alexa 分步驟做的事情,他們幾乎都採用了「幾手同時抓」的戰術。

「在國內,智能語音產品的產業鏈很長,包括前端信號處理、語音識別、語義理解、晶元(方案商)等等,每個環節都有很多參與方,但總的來說,整條產業鏈並未完全成熟。」DeepBrain 創始人李傳豐這麼說道,「前端信號處理還存在一系列技術難點,語義理解技術並沒有大的突破,智能音箱硬體及背後的語音助手體驗還需要不斷的完善,現有大多數智能音箱產品體驗離用戶期望值依然存在較大差距。」

▎Skill 市場要做起來,依賴於語音平台的開放度和成熟度

正如大家所見,從今年年初開始,整個智能音箱市場的熱情持續高漲,包括 Rokid 第二代新品 Pebble、京東第六款智能音箱產品 叮咚 TOP、喜瑪拉雅的全內容 AI 音箱 小雅、阿里 499 的購物音箱 天貓精靈……

特別在小米前不久發布的 小米 AI 音箱 以 299 的低價一騎絕塵。而在這下半年,出門問問 Tichome 音箱國內版即將上市(其海外版搭載 Google Assistant,預計 10 月份上市),騰訊的智能音箱也即將和大家見面。智能音箱普遍被視為下一代 AI 語音交互的入口。

出門問問的「問問」智能音箱 Tichome

隨著亞馬遜將 Alexa 打造成一個開放平台,這一做法也逐漸被各語音廠商當作一個重要方向,大家意識到,要讓語音智能真正做到為萬物「賦能」,就應該不斷提升它的能力,並且讓它被接入到更多產品中。因此,任何一家特別是 BAT 都不願意放棄繼移動互聯網的下一個平台級機會。

除了智能音箱,語音開放平台也成為今年以來的重頭戲,並在今年下半年開始真正熱鬧起來。

在 4 月份的新品發布會中,出門問問公布即將推出智能音箱這個消息的同時,推出了虛擬個人助理「問問」以及 基於「問問」虛擬個人助理的 AI 開放平台。

在今年 6 月份,經過 1 個月的內部測試後,騰訊雲的語音智能平台「小微」正式開放,發布新品後不久的 Rokid 也在公司主頁中正式上線了「開發者社區」。

接著在 7 月份的百度 AI 開發者大會上,Duer OS 開放平台也成為此次大會的重中之重,百度方還表示,希望將 Duer OS 打造成「AI 時代的安卓」。

點擊鏈接,查看景鯤深圳灣語音智能峰會分享

另外還有伴隨阿里智能音箱出現的 AliGenie 系統,以及圖靈的機器人操作系統的 Turing OS 1.5、專註兒童領域的 Turing OS Kids、專為智能硬體打造的 Turing OS Lite。

在發布擁有 40+ 項技能(Skill) 的智能音箱「小愛同學」的同時,小米還宣布開放(水滴平台)水滴平台,旨在讓開發者為小米 AI 音箱開發更多技能。

點擊鏈接,了解小米 AI 音箱

在今年,思必馳內部也開始調整戰略,組建了個百來人的團隊,專註於 DUI 開放平台這一項目。

在這非常集中的一段時間裡,幾乎所有涉及該領域的廠商都行動了起來,紛紛布局語音開放平台。

據了解,國內類似 Alexa 這樣的語音開放平台就已經有十來家,各家相繼推出自家的語音 OS。這讓人不禁想起智能手機引領的移動互聯網時代,蘋果、Google、微軟、黑莓都在積極打造自家的手機操作系統並經歷了一場廣為人知的持久戰。

與 iOS、Android、Windows 等手機操作系統內的應用(APP)一樣,這些語音 OS 的其中一個重要組成部分也包含了「應用」,也就是技能(Skill)。而技能(Skill)這一說法最先也是來源於亞馬遜 Alexa 的 Skill。

點擊鏈接,查看深圳灣語音技能市場特稿

▎回過頭來,我們再來分析 Alexa 平台上的上萬個 Skill,都有哪些應用場景?活躍度是怎樣的?

今年上半年,亞馬遜 Alexa 的技能數量呈陡坡式的上漲趨勢。但也有分析者仔細分析了 Alexa 的這一萬多個 Skills 並表示,平台上 10% 的技能擁有 80% 的關注度,雖然用戶對這些技能的評價不高甚至偏低,但不可否認的是,這些技能為平台貢獻了主要的活躍度。

一名語音技能開發者向深圳灣透露,他最近對 Alexa 的 Skills 進行了初步分析,並發現以下一些情況:

亞馬遜 Alexa Skills 首頁上推薦的應用僅有 152 個。

亞馬遜 Alexa Skills 首頁推薦的部分應用

在所有技能當中,評論數上千的 Skill 只有 2 個,並且都是聲音類應用。一個是助眠聲音應用,是用戶使用量最高並且貼切生活的 Skill,不需要任何第三方賬號授權。

而戲劇性的,另一個評論上千的廣播應用,大概是因為需要第三方賬號授權這樣的步驟導致用戶使用不便,應用底下的好評與差評參半。

從整體上看,主要是睡前(助眠、故事、音樂)和睡後(提醒、鬧鐘、天氣、日程、笑話、新聞)這兩個場景下的 Skills 存在高頻需求。另外,廚房相關場景下的應用(如菜譜、雞尾酒製作等)使用頻率和用戶評論數並不高。

需要提到的是,像智能燈泡、恆溫器等 Smart home 相關的 Skill,以及官方內容屬性的 Skill(如 CNN 等),因需要綁定使用或知名度等原因,用戶基數都不會低。

此外剩下的,還有一大批不那麼「幸運」且處於「躺屍」狀態的 Skills。

▎上萬個 Skill 活躍度,很多都還是躺屍,為什麼?怎麼辦?

「現實就是那麼的殘酷,這樣的情況其實也正常。」李傳豐認為,其主要原因在於「用戶還沒養成語音交互的習慣」。

圖靈機器人聯合創始人郭家以觸控交互(GUI)與語音交互(VUI)的主要區別講述了其中更深層次的原因:

GUI 交互的形式就如同一個樹狀結構,用戶在一個垂直任務中點選下一級菜單,直至任務完成並跳出;

而 VUI 交互就相當於一個網狀結構(語義網),用戶在進行語音交互的同時,思維是跳躍的,因此會出現隨進隨出的交叉交互現象。

而在目前的語音交互技術下,還沒能完全實現各任務之間順暢對接。況且在沒有顯示界面的情況下,用戶缺乏了解這些 Skills 的介質。

郭家進一步表示,在這種情況下,引入主動交互的機制,引導用戶使用一些內容、娛樂屬性的 Skill 是其中一種可行辦法。

科大訊飛市場負責人表示,不僅是 Alexa,大部分用戶在使用智能音箱這類產品時,除了音樂播放、家居控制等高頻應用之外,對其他 Skills 的使用需求都相對會少很多。

該負責人進一步表示,導致該現象的一方面原因是,目前的語音交互解決方案並不能滿足用戶體驗,另一方面,用戶在消費應用的同時,也需要場景的配合機制,即消費者真正消費的是「應用+場景」,而消費者的使用情況會一定程度上幫助廠商定位產品。

思必馳市場總監龍夢竹也表達了與後者相類似的觀點:「在現階段,平台廠商、開發者無法決定消費者的使用,我們要做的是,先做好部分高頻應用,剩下的將由開發者、消費者對應用進行定義、選擇,讓技能開發的方向逐漸明晰起來。」

為此,在 DUI 開放平台 9 月份正式上線之前,思必馳在深圳、北京、蘇州等地舉辦開發者沙龍為平台預熱,與此同時,也是為了從參與活動的開發者身上了解他們對開發平台的需求。(插播一條小廣告:思必馳開發者沙龍深圳站將在深圳灣舉行,關注我們一手報名信息!)

Rokid 產品經理徐超表示,「這種情況在 Android、iOS 內的應用商店也會很常見,從平台的角度來講,這種情況並不可避免,我們將會更注重挖掘真正能滿足用戶需求、符合語音交互體驗的 Skill。」

從以上幾位發表的觀點來看,在行業剛起步、沒有足夠經驗借鑒的情況下,語音技能開發還沒能完全摸清方向。另外,語音交互方案的不成熟及其明顯區別於 GUI 的交互方式成為了用戶訪問語音技能的主要障礙。

▎當下的難度:開發 Skill,是個浩大的工程

「與其說『語音技能』,還不如說『語義技能』,國內行業剛開始的時候,大家管這個為『功能』,慢慢的,大家都改口說『技能』了,其實,我認為更準確的說法應該是『語義技能』,因為一切語音技能的驅動都建立在語義理解的基礎上。」李傳豐這麼說道。

點擊鏈接,查看李傳豐深圳灣語音智能峰會分享

在語音技能開發的這件事情上,雖看起來是個「簡單幾句語音指令」的事情,但背後的工作量、工作難度卻比我們想像中的還要多、還要複雜。

喜馬拉雅創始人李海波的也進一步證明,自然語音理解(NLP)、足夠的語料分析是語音技能開發的重要基礎:

「許多第三方開發者開發的 Skill 並不能很好的響應用戶行為和需求,用戶往往在初步體驗過後便放棄使用,而技能的打造並不一件簡單的事情,這需要開發方是一個有技術實力的團隊,就比如針對天氣應用的問法就有很多種,一般需要平台廠商在深入了解用戶的情況下,對各種有可能出現的問法語句進行一字一句的打磨,以提高語音交互反饋的準確率。」

點擊鏈接,查看小雅音箱報道

作為國內算得上最早一批布局語音技能生態的平台,DeepBrain 內部團隊在成立的這一兩年內專註於 Skill 開發這一件事,目的就在於希望將每項功能、體驗做到極致,在某個領域中建立完善的知識圖譜、專家系統。

以「蟲洞」語音助手起家的圖靈機器人現已經開放針對機器人領域的操作系統 Turing OS,面向聊天機器人領域的平台現已有 60 多萬企業和開發者用戶。在擁有大量開發者用戶的基礎上,圖靈自身選擇了首先在兒童產品應用領域深耕,強化兒童智能產品的教育、娛樂功能。

「人們對工具屬性 Skill 在準確度上有一定的硬性要求,實際應用當中的 Skill 並不足夠成熟,之所以選擇兒童應用領域,首先,用戶對這類產品的容錯率比較高,其次,其中涉及到的多輪對話內容能夠成為建立機器人圖譜的良好基礎,最後,這類產品、應用是當下兒童的剛需。」郭家說明了圖靈將兒童應用作為戰略重點之一的原因。

點擊鏈接,查看圖靈機器人報道

▎鼓勵開發者開發 Skill,除了獎勵基金,還需要什麼?

正如李海波提到的,大部分的平台廠商會事先把握天氣、音樂、日程、家居控制等工具類、高頻的語音技能,這也基本上已成為行業內的共識。另外還有像騰訊雲「小微」這樣基於騰訊原有軟體應用生態的語音開放平台,自開放以來就自帶一批「好友」。

點擊鏈接,查看騰訊雲小微報道

除了平台本身,這些平台的企業合作夥伴則成為了第二批主要的平台開發者,他們主要針對自有產品的特定需求開發相應的技能。用李傳豐的話形容,那就是自給自足的「小農經濟」。

個人則成為了平台第三批開發者團隊的重要組成部分。這些人要麼是出於個人興趣、要麼抱著嘗試的態度,這部分人有的甚至還有自己的「作品」,比如深圳灣此前報道過的,開發者杜志鵬借百度 DuerOS 改造出了會說話的樂高機器人。

點擊鏈接,查看杜志鵬和小白音箱的故事

不難看出,除了平台廠商、平台合作夥伴之外,個人開發者成為了讓技能商店內容「豐富」起來的主力軍。而吸引個人開發者進駐開發平台開發技能,也是大部分平台廠商的重點任務之一。

為鼓勵個人開發者,不少平台商都採用了類似 Alexa 獎勵基金這樣的計劃。

在 7 月份的平台首秀上,思必馳宣布已設立 2 億元的基金,用於鼓勵 DUI 上的優秀開發者和項目,另設巨額補貼,扶持平台運營;科大訊飛將藉助自有的廣告平台、品牌和資本為開發者提供資源上和商業化上的扶持;阿里也將推出開發者獎勵計劃,表示目前不會參與合作分成。「砸錢」似乎是各廠商目前能想到的最好辦法之一。

點擊鏈接,了解天貓精靈

但正如前文所說的,語音技能的開發需要一批有技術實力的團隊進行一番精打細磨。想必,成功的語音技能更要耗費不少的人力、財力。

「鼓勵金只能在技能項目啟動初期起到一定的推動作用,將開發者領進門,至於後續的發展,就需要技能本身形成商業閉環,能夠營利並形成良性循環,否則無法持續下去,其核心還在於是否滿足用戶痛點。」李傳豐如是說。

「開發者不一定是原本那批 APP 開發者,也有可能是內容創業者。」李傳豐認為,經過長時間的市場教育後,目前用戶為優質內容付費的習慣已逐漸養成,未來基於語音交互的內容付費也有較大的可能性。「用戶消費的內容不會變,但消費形式、場景會發生變化。」

點擊鏈接,了解思必馳 DUI 開放平台

另外,如前文提到科大訊飛的觀點,消費者消費的是「應用+場景」,在接受深圳灣採訪的過程中,圖靈也特彆強調他們認可的是「AI 場景化」的這一商業模式。

▎十多個語音 OS 賽跑,如當年的手機操作系統般,未來會構建出大生態?

雖說國內各家語音開放平台都還處在起步階段,還沒有真正分出上下高低。從目前國內的十幾家語音開放平台來看,各家都有自身的優勢,開放的範圍也有一定差別。

「能實現全鏈路開放的語音開放平台,國內應該不會超過 3 家。」徐超表示,Rokid 開放平台將提供從前端硬體 mic 陣列、遠場激活拾音演算法、操作系統,到後端自然語言識別、理解、合成等所有和語音相關的技術與服務,做到比 Alexa 更開放。

在各家都在爭奪智能語音這個入口的情況下,各個開放平台的競爭是否會重演當年 iOS、Android 等手機操作系統之爭,並形成這兩家獨大的局面。大部分平台廠商表示,競爭在所難免,但「兩家獨大」的可能性不大。

阿里天貓精靈產品經理釋空表示,語音開放平台並沒有形成所謂的「陣營」,同時在語音方面,OS 的概念也不會像手機那麼突出,而後端的服務生態才是各家比拼的重點。

科大訊飛則認為,這樣的競爭並非是個零和博弈的過程。在智能語音這個大入口面前,競爭相當於是共同將這塊市場做大,依託不同的生態模式,各家都在積極探討各自未來的方向,最終收益的還是消費者。

正如「將智能語音打造成物聯網入口」的初衷所訴,思必馳認為,物聯網比互聯網的市場前景更寬廣。而不像互聯網、移動互聯網主要圍繞著手機、PC 這兩類產品,物聯網涉及的產品種類更豐富多樣。

「短期內並不會形成一、兩家獨大的局面,但就某個垂直領域而言,或許會呈現這樣的局面,比如分別在車載、機器人、智能家居、可穿戴等各個垂直細分領域,則會有各自相應的語音操作系統,但如果時間維度拉長到 5~10 年,最終會剩下 2~3 家居於主導地位的語音操作系統。」李傳豐的這番解釋也一定程度上印證了上訴觀點。

感謝以下深圳灣的小夥伴,在本文攥寫過程中給予的大力支持(按公司首字母排序):

阿里天貓精靈產品經理 釋空;DeepBrain 創始人 李傳豐;科大訊飛市場負責人(姓名不便透露);Rokid 產品經理 徐超;思必馳市場總監 龍夢竹;圖靈機器人聯合創始人 郭家;喜馬拉雅創始人 李海波;語音技能開發者(姓名不便透露)

採訪、主筆 | Jes

編輯、校對 | 小琳

-------- 我是「深圳灣」分割線 ---------

深圳灣 | shenzhenware 長期挖掘物聯網、人工智慧、機器人、無人機、智能駕駛、智能家居等領域的新銳產品和初創團隊,歡迎聯繫我們。微信私人客服:小炫(ID:warexx)。

轉載、約稿、投稿、團隊報道請聯繫微信公眾號:shenzhenware(回復關鍵字)。


推薦閱讀:

吳恩達 DeepLearning.ai 課程提煉筆記(2-3)改善深層神經網路 --- 超參數調試和Batch Norm
如何創造心智:揭示人類思維的秘密
習題都會做,為啥一到實戰還暈菜?
RNN前向傳播與後向傳播公式推導

TAG:人工智能 | 智能语音 |