2018，誰會成為中國的「現象級語音交互產品」？

04-28

「大突破！語音識別能力超過人類！」

「遠場識別率超 90%！」

「語音合成自然度媲美人類！」

語音技術和硬體指標頻繁超越、媲美人類，充滿感嘆號的題目開始讓人疲憊。2017 年智能音箱大戰爆發，大小玩家紛紛入場，可至今我們仍未等到那款「語音交互現象級產品」。

中國的 Amazon Echo 藏在哪兒？

｜一、大公司視角：絕不是製造一個會說話的音箱這麼簡單

「音箱不僅僅技術驅動的。技術的角度看會希望是大而全、用戶的什麼都能回應的音箱，但現實世界並非如此。」

在一次由 Geek2Startup 主辦的小型沙龍活動上，作為分享者的 Google Home 創始團隊成員張逸嘉如是破除了技術迷思。

1、Google Home 誕生往事：音箱的產品特點

通過串聯起家中的智能設備和個人賬號數據，以音箱作為語音交互入口，以手機智能助手作為輔助——Google Home 從沒被「大而全」的技術視角束縛，一直走的就是偏向智能家居中控的輕量級路線。

「看起來像是平常放在廚房或是卧室里的東西」，是 Google Home 外形的設計初衷

不過與電商基因的 Amazon 相比，立足搜索、擁有更多數據的 Google 在智能音箱上本該更有優勢。可為何如今佔據市場超過 70% 份額的，會是 Amazon Echo 系列？

也許這要回溯到 Google Home 的誕生。最初開始思考 Google Home 時，團隊考慮的是將已有的「上下文搜索」等搜索技術，與 Google Now 的 Voice Actions 功能進行融合。這就相當於是將搜索引擎「語音化」，音箱只是硬體形式的外殼。

從當下已經驗證的結果看，智能音箱在功能上絕不只是搜索的入口。用戶使用音箱時往往有三種請求：問答類，即有知識背景的，與搜索引擎的功能類似，如「最小的貓是什麼貓」等；動作類，即由任務驅動的，與智能家居中控的功能類似，如「關燈」、「開空調」等；閑聊類，即供用戶消遣，通常提前由文本安排好的對話，如「你是誰」等。搜索引擎型對話只是其中的一部分。

同時隨著研究的深入，Google 發現對話場景自有其特點，比如用戶會更傾向於使用自然語言，默認自己處於有上下文的溝通環境等等。

於是 Google 組建了 Assistant 團隊為語音助手提供更全面的支持，並開始為音箱增加了閑聊、遊戲等搜索引擎中並不會出現的功能。

2016 年 5 月，Google 在 I/O 大會上正式發布了 Google Home。此時第一批 Echo 已經發售了近 2 年，距離 Echo 在 Amazon 內部立項已經過去了 4 年。

經過 3 年多的發展，Echo 已經變成了龐大的產品系列

此時追上 Echo 腳步的 Google Home 在語音、語義技術和數據上都更有優勢，可用戶的評價仍傾向於 Echo，並在 Amazon 上為它打出 4.5 的高分。

「技術給出了窗口，但音箱產品的口碑和營銷很重要。」作為 to C 產品，消費者天然注重反饋與口碑，產品的評價一旦形成，銷量的滾雪球之勢就很難阻擋。與 Google 相比，Amazon 的分銷渠道和營銷能力上顯然更勝一籌。

吸取教訓的 Google，開始在 BestBuy 等渠道建立口碑。據稱 2017 年 Google Home「銷量大增」，達到 630 萬台。

為什麼不是 Google 更早做出音箱？除了一款成功的 Chromecast，從未在硬體產品上嘗過甜頭的 Google 註定不會主動製造類似產品。直到 Echo 大賣、開始搶佔家庭入口，對「流量」異常敏感的 Google 才會開始行動。

2、智能音箱的中國特色生存環境

同樣是能對話、遊戲、播放音樂、與智能家居聯動的智能音箱，為什麼還沒在中國「火」起來？

中國的智能音箱市場有自己的特點。

除了沒有音箱消費習慣，大部分人持觀望態度外，音箱所處的使用環境也有很大不同。

海外的家庭環境通常是大空間、雜音少、成員較少，語音識別的準確率相對較好。中國的家庭環境通常空間不大、電視機等背景雜音較多，家庭成員較多，識別起來有很多困擾。同時中文方言較多，語音語調都會影響識別結果。

客廳是音箱的典型場景，截圖來自天貓精靈宣傳片

以及內容。

海外的內容供應市場相對開放寬容，即便是 Amazon 的 Echo Show（去年 5 月發售，帶有屏幕的 Echo 系列新產品）同樣可以播放 YouTube。中國的內容市場狀況，從音樂、視頻版權大戰就能一窺全貌——從來都是非此即彼、壁壘叢生。

「基於內容的壁壘一旦形成後，其他的因素就不那麼重要了。」小雅 AI 音箱背靠喜馬拉雅龐大的播客內容，天貓精靈有蝦米支撐。接入百度、考拉等大量音頻資源的叮咚音箱，在 2017 年末突然無法調用歌曲資源，客服表示「曲庫內容調整，部分資源暫時無法收聽」。

關於「資源調整」，京東客服給出的解決方案

沒有強關聯、僅靠合作支撐的內容資源庫並不穩定，提供內容的一方可能因為更強勢的合作方終止合作，或者乾脆自己也做個音箱。

畢竟音箱，最基礎的功能就是聽音樂。

3、聚焦任務型需求，是中國智能音箱的出路嗎？

這場小型沙龍參與者，有投資經理、產品經理，有研機構也有創業者。分享結束後的互動時間，人們的提問繞來繞去，終究繞不過那個如金蘋果般、讓所有人著迷的問題：中國的現象級語音交互產品應該是什麼樣子？

「和家中的任何設備都能交互，形成一個整體，」張逸嘉的回答與 Google Home 的思路一致，同時他也清楚的了解中國現狀，「不過在中國很難實現。」

音箱的使用場景決定了「開燈」、「關燈」的任務型需求會隨時間推移，成為頻率最高的用戶請求，真實的用戶使用數據也印證了這一點。不過在中國，除了如前文所述的內容壁壘，還有繞不過去的智能硬體生態壁壘。以智能家居中控的視角看待智能音箱，只能希求不同設備之間的協議打通，或者出現一個埠標準化、並被所有人認可使用的通用平台。

這是中國智能家居行業努力了很久，卻沒能完成的事。

｜二、設計師視角：我們需要更多懂語音交互的人

人機交互研究背景、在北美用戶體驗設計行業工作多年的劉夢溪，是專註於人工智慧領域的設計創新公司 FutureForm 的創始人。

自 2015 年起，關注到人工智慧領域的 FutureForm 就在語音交互設計方面展開了探索。2016 年，通過多次深入合作，FutureForm 與雲知聲 AI Lab 合作並落地了智能家居垂直解決方案 Pandora，以及兒童語音交互解決方案 Unitoy。

1、決定產品的使用體驗，是語音交互設計師的工作

與通常基於圖形交互（GUI）展開設計的交互設計師不同，語音交互（VUI）設計師，往往扮演著與產品經理類似的角色，決定人們使用語音交互產品時的感受。在設計「行為後的效果」之外，還要設計產品的「性格」、表達方式和話術。

比如「個性化」就需要通過巧妙的話術，完成兒童、成年人等的用戶畫像分割，予以不同的反饋，將單一的用戶體驗變成不同的「個性化的用戶體驗」。「性格」的設計決定了對話中的辭彙與語氣，冷靜正式讓對話提高效率，親切會讓用戶更樂於交流。不過太過擬人化，會在系統不那麼智能時增大用戶的挫敗感，這都需要交互設計師平衡。

《Her》中的 Samantha 就是一個極端擬人的實例，我們當下的技術水平還無法支撐如此擬人的語音交互

除此之外，設計師還需要還要理解技術。不僅是具象的，如前端的「聲音處理」和「喚醒方式」等的技術功能，還要了解語音識別技術本身的能力與邊界。有時，交互設計師也會參與硬體設計，「好的產品需要一整套的東西同時發力，需要整體團隊把這件事做好。」

「受限於技術邊界，當下大部分語音產品還是以傳統的問答式邏輯反饋為主，」與大環境對人工智慧技術過於的狂熱期待相比，劉夢溪顯得非常清醒。「機器學習大潮暫時沒有深入影響語音交互體驗，這和技術發展與產品的落地形態都有關。目前的技術本質上是擅長特定場景的的弱人工智慧（Weak AI/Narrow AI）, 而大眾期待的強人工智慧（Strong AI/ AGI）的完美智能體驗，可能還有點遠，更不用說被炒得火熱的『情感化交互』了。」

2、當下語音交互設計面臨的困境

儘管 Amazon Echo 系列已售出千萬，但當下的語音交互產品的設計方法、流程、指標仍是一片混沌。

在劉夢溪看來，語音交互產品在設計上面臨的第一個、也是最大問題，是缺乏一個統一的語音交互設計方法和流程。

因深度學習的應用，使得語音識別這項誕生多年的技術終於可以試水實用。被技術驅動的語音產品，其交互設計尚屬探索期。雖然 Google 於去年下半年發布了一份可參考的交互規範文檔，Tony Sheeder、Tom Hebner 等自 Nuance 時代便已開始 VUI 設計、擁有十多年語音交互設計經驗的設計師們也提供了不少經驗與建議。但在更廣泛的新興語音交互設計範圍內，並沒有形成類似 GUI 設計規範的共識。

在 Actions on Google 網站上，有 VUI 文檔可供參考

評估語音交互的指標同樣需要改變。或者，理解指標在場景中的意義變得更加重要。

「做語音（產品）的工程師們很容易專註於喚醒率、交互輪次等工程指標的提升，但單純看這些指標在產品體驗的提升上是沒有意義的，要理解這些指標被運用的情景、實際狀況和質量。」

目前語音交互系統的常見指標，包括喚醒率、錯誤率、對話輪次等，均是技術導向化指標。如果用戶是孩子，「反饋」的內容在他們眼中沒有區別，「錯誤率」就變得沒有那麼重要。一旦變成更傾向於任務型對話的成年人，「對話輪次」又失去了意義。

Alexa 的負責人 Toni Reid 就堅持認為，用戶下達指令後 Alexa 只有一次機會完成相應任務，不能與用戶反覆多輪對話。「如果第三次對話還沒弄清用戶需求，就算徹底失敗，反覆對話對用戶來說是很糟糕的體驗。」當然這份理解也是被 Alexa 的任務型場景所支配的。

缺乏有經驗的語音交互設計者也是當下的困境之一。

「2016 年時，合作方還很難找到懂得語音交互的人或者團隊。」既沒有多少有經驗的語音交互設計者在市場上活躍，也無法指望大學院校或進修機構培養。想要進入該領域的交互設計師只能自行探索，「邊做邊學」。

不過也並非無跡可尋。需要載體的語音交互產品，並沒有完全獨立於人機交互，過往的設計經驗仍有借鑒價值。學術研討會上也能見到相關討論，在 2017 年的 AAAI 春季研討會中，就專門開闢了「機器學習系統的用戶體驗設計」（Designing the user experience of machine learning systems）討論組，討論如何為機器學習系統做設計、定義機器學習專家的核心需求等等。

AAAI 網站「機器學習系統的用戶體驗設計」討論組頁面

「我們接觸到一些客戶，技術與資金儲備非常好，就是找不到合適的人來做。同時行業內的語音交互產品在功能上過於強調語音技術本身，忽略了使用效率以及用戶的生活習慣、場景，做出的技術流產品沒能被市場買單。」

讓語音技術變成產品被更多人使用，還需要更多的交互設計師的加入。

3、「現象級語音交互產品」，也許是更具中國的特色的新產品

劉夢溪的辦公桌右側是一摞與人工智慧、前沿科技相關的書籍，在這之中，他特別提到了 MIT 物理系終身教授 Max Tegmark 的新書《Life 3.0》中的一張圖譜。

Illustration of Hans Moravecs「landscape of human competence」, From「Life 3.0」

這張圖譜用山與水描繪了計算機能夠替代人類完成相應任務的難度，困難的任務如高山，不知何時才會被水淹沒；容易解決的任務則地處平原，將會最快被解決。

藝術、科學和寫作海拔最高，象棋已經被水淹沒，下一步會被覆蓋的是投資、駕駛以及視覺。

對設計師來說，抽象的全局思考有助於理解當下技術所處的階段，把握相對較近的未來。具象的技術了解也必不可少，「離技術近一點就能將設計多向前推動一點」。雖然數量不多，與人工智慧相關的交互設計論文也已經開始出現，「CMU、Stanford 等都做得很不錯」。

辦公桌的左側，則是 Amazon 於 17 年 5 月發售的 Echo Show。人們將其形容為擁有屏幕的智能音箱，或者有語音交互功能的 iPad。與只有語音功能的前代產品 Echo、Echo Dot 相比，Echo Show 自有其魅力。

擁有攝像頭的 Echo Show 還可以承擔即時視頻通信功能

無論是靜止時屏幕上不時輪播的新聞簡要，還是下方不斷輪換的語音交互提示（如「Try 『Alexa, do i have any meeting tommorow』」），Echo Show 正在探索的超越手勢交互之外、更具未來感的屏幕交互。

「這會是語音交互產品的下一個形態嗎？」

「我想 Echo Show 團隊正在嘗試定義類似『新型聲控個人電腦』的未來，但是會不會失敗也不好說。」

「那中國版本的現象級語音交互產品會是什麼樣子？」

「Echo 和 Alexa 這種形態的產品現階段不一定適合國人。我覺得未來有可能成功的是更具中國特色的，甚至第一眼看上去不太起眼，但恰當地利用了新技術的產品類別。」

看起來他已經有了自己的答案。

｜三、技術公司視角：也許不止音箱一種形態

據 GfK 統計，2017 年 1-8 月智能音箱中國市場的銷量在 35 萬台左右，加上天貓精靈在雙十一期間以 99 元超低價吸引的百萬銷量。可以估計 2017 年中國智能音箱總銷量在 150 萬左右，不及海外市場銷量的十分之一。

天貓精靈發售前，中國市場的智能音箱品牌份額情況，來源：GfK

「語音交互在國內並沒有真正成熟的產品，這是我們做技術的公司尷尬的地方——最關鍵的點還是先有一個大家都在用的產品。」在由「KnowingAI 知智」主辦的「商業進化論」活動上，聲智科技合伙人李智勇如是回答了解決方案商如何從技術上提升語音交互的效果：要先有場景，才有針對場景的優化。

音箱所處的物理環境，決定了技術方案中的去噪、去回聲、聲源定位等該如何提升，以及麥克風陣列、揚聲器陣列等硬體配置的選擇。現象級語音交互產品可以幫助他們摸清使用者的共性，通過它們對消費者和行業的影響也能幫助培養共性——不僅技術方案商，這是智能音箱行業中所有從業者都想解決或者等待解決的「雞與蛋」困境。

現象級語音交互產品躲在哪兒？

回到技術的本質，語音是與按鍵、觸屏一樣的人機交互的手段。「交互只有一個衡量指標，就是方便」。不必掏出手機，能更快速達成某些指令，是語音交互可以脫穎而出的基礎。

但交互自身是無法產生價值的，就像觸屏需要與手機結合，語音交互同樣需要自己的載體。過去人們將它嵌入到手機、PC、電視上，雖然沒能引發浪潮，但為今天智能音箱的火熱提供了基礎。拋開音箱的外殼，Amazon Echo 和 Google Home 的背後是 Alexa 和 Google Assistant 的智能助理功能，以及智能家居控制中心，這些「定位」都是過去幾年間人們做過的嘗試。

這兩種定位之外，語音交互同樣可以與智能攝像頭、兒童早教機器人等結合。如 Luka 機器人主打繪本閱讀，同時承擔一部分與兒童閑聊、遊戲等功能，在父母群體中獲得了不錯的反饋。在醫療、電商等行業同樣存在用語音能夠提升效率的可能，但每個行業都有自己的特點，理解並深入其中需要緩慢的過程，很難像 C 端產品一樣爆發。

形似貓頭鷹的 Luka 繪本機器人，在外表上下了不少功夫

去年 9 月發布了 DUI 智能對話開放平台的思必馳，通過數據看到了一些不一樣需求。在此前的一次採訪中，思必馳 CMO 龍夢竹曾表示「智能服務」就有非常大的需求，像是微信助手、APP 助手、電話客服等等有著不小的調用量，傳統行業自身也在悄悄改變。

語音交互天然的工具屬性，是技術類公司大多對智能音箱能否爆發持謹慎態度的原因。同時抱有對現象級產品的期待，與其說是矛盾不如說是希望更多人先用起來，才能形成商業與技術的正向循環。也許現象級語音交互產品不一定要表現為唯一的固定形態，其自身能夠成為現象級交互方式。

｜四、以及，普通人視角

大公司、設計師、技術公司的視角給了我們不少有益啟發，輕量、連通、便捷、體驗。但我們還忽略了一項最明顯、卻最容易被人忽視的部分，外表。

搭載 Duer OS、與其他智能音箱在功能沒有太多區別的 Raven H，也許沒有瓜分我們太多精力。但它的確引起了不少消費者的注意，「Raven H 很漂亮」。與其他外觀相似的圓柱形智能音箱相比，「很不一樣」。

除了出眾的外表，Raven H 的表面是一塊 LED 點陣觸控板，隨不同的操作有不同的燈光反饋

長期浸淫在技術指標與解決方案之間，將目光放在「現象級產品」的功利視角，讓我們忽視接受新事物的普通人，正處在面對語音交互產品的「第一眼」階段。這也許能解釋陸奇為何剛上任百度 CEO，便主導收購了渡鴉科技。這家創業公司過往設計的所有產品，都明顯展示出與其它同類公司的不同——對設計和美學的注重。

這正是大公司缺少的。在兩個月前接受 YC 採訪時，陸奇直言大公司在產品設計上「非常糟糕」（suck）。

音箱大戰烽煙漸熄，2018 年，我們能等到那款現象級語音交互產品嗎？

如同劉夢溪在談到智能音箱的設計需要一整套東西來發力一樣，一款現象級語音交互產品的出現也許同樣需要「一整套東西」。

豐富的音頻視頻內容、強大的營銷推廣能力、有人情味但不至於太像人的「性格」、根據場景優化的技術方案、讓 C 端消費者感興趣的外表……

還有說不清道不明的那一點運氣。

在上個月極客公園主辦的 IF 創新大會上，羅永浩表示將在 5 月 15 日推出一款革命性產品。有消息稱這款「革命性產品」將會是帶屏幕的智能音箱——聽起來有點像 Echo Show。

這會是我們等待的那款「現象級產品」嗎？或者，語音交互的「現象級產品」一定是智能音箱嗎？

別無他法，唯有嘗試。

本文為「KnowingAI知智」原創，未經許可，請勿轉載。

如果你對人工智慧行業充滿興趣，並想成為一名內容創作者，歡迎發送郵件至： yumiaomiao@knowingai.cn。