在和「小愛同學」相處數日後，我發現語音智能把 IoT 盤活了

01-25

上周二，小米在北京召開了首屆小米 IoT 開發者大會，雷軍宣布，在接入 8500 萬設備之後，小米 IoT 平台迎來全面開放，包含模塊和硬體開放准入、米家 APP 開放接入、新零售渠道開放、智能設備互聯互通開放控制和 AI 雲、大數據的開放共享。

四個月前，小米的智能音箱「小愛同學」發布時，小米在 IoT 領域的積累為 AI 產品帶來的助力就已經顯露出來。

作為「小愛同學」的第一批用戶，順為資本投資經理段譽在自己的公眾號上，撰文講述了自己和「小愛同學」的相處時光，以及他對語音智能的一些行業洞見。

本文系段譽的投稿，深圳灣（公眾號 ID：shenzhenware）在保留原文內容基礎上，對文字進行了部分優化。

段譽，2013 年初加入順為資本，主要負責考察移動互聯網和智能硬體領域的投資機會，曾參與了華米科技、Yeelink、Ninebot、馭光科技等公司的投資。段譽畢業於北京大學經濟學院，擁有經濟學學士和碩士學位。業餘時間，他喜歡健身和越野跑，曾完成了北京 TNF 21KM，寧海 50KM 越野挑戰賽等賽事。

故事的開始

前兩天朋友跑來問我，如何在自己的豪宅布置智能家居。交流了各種協議走線問題後，我問他控制中心怎麼做，這位壕哥提出，打算用美帝的 Control4 的觸控面板做中控。

美帝的 Control4 的觸控面板

屌絲終於在此刻找到了自豪感，我淡淡地告訴他，自從用了粗糧家的「小愛同學」，家裡的無線開關已經開始積灰了，更不用提智能家庭 App 了。

我在「小愛同學」身邊發現了語音交互的妙不可言

雖然無法精確度量，但喜歡窩在沙發上看國劇的我，本能地發現說一句「小愛同學，關閉客廳的燈」，要比伸手去找遙控器（或者遙控器替代品）要省時、省力、耗能少。

某聲學項目的 FA 曾嚴謹地比較過不同交互方式的優劣，當然他們的結論是 Voice First（語音交互優先）。而我的理解是：對於不同的指令任務，有不同的最佳交互路徑。

對於複雜的長時間輸入（例如寫這篇文章，或是 coding），目前仍然需要鍵盤的支持。對於多輪次複雜邏輯的交互，視覺交互的反饋更快，觸控也具有一定優勢，例如重設一部手機，或是在 App 上買機票。

但如果是單輪輕度輸入，語音交互的優勢就會很明顯，例如，讓「小愛同學」幫忙設置早上 7 點的鬧鐘，絕對是「Killer App」。更有趣的是，在這個場景下，複雜的輸入設置——早晨、7點、每天重複、確認——通過語音交互可以一氣呵成，妙不可言。

鍵盤、滑鼠、觸控屏、語音交互方式比較

我們更喜歡語音交互，並非因為有語音識別技術，或是語音智能對話，而是因為語音交互第一次突破了人機交互距離的限制。能夠躺在床上/沙發上隨意發號施令，過去只能由「真人助理」來完成，現在可以由設備來完成了。

雖然這些年 Siri 等手機語音助手一直致力於解決同樣的問題，但單純拿起手機按下 Home 鍵再舉到嘴邊做這個發號施令的動作，就已經很令人掃興了，更不要說因為中文對話不夠智能，Siri 時不時的答非所問。

除了語音交互技術之外，還有通過視覺或超聲波的「隔空手勢識別與交互」的技術，但它們相對於同樣遠距離的語音交互，使用的複雜度和學習成本都太高了。

我在「小愛同學」身後學習了遠場語音技術

遠場語音交互的一系列功能是如何實現的呢？它和近場語音的區別在哪裡？

帶著這些問題，我研究了相非老師的技術架構圖：

遠場語音技術架構，點擊查看大圖

在進行語音識別（包括本地和雲端）之前，有一系列複雜的聲學前端演算法，包括：

回波抵消（去除音箱自己播放的音樂）
波束形成（只聽人說話的那個方向，去除其他方向的干擾）
去混響（去除桌椅板凳的聲音反射）
聲紋識別（區分爸爸在說還是媽媽在說）

經過這一系列的聲學處理，相對「乾淨」的語音信號才會進入負責喚醒的模型，喚醒之後才會進一步地進入雲端負責語音識別的模型。

這一交互涉及到了：

物理硬體層（聲腔結構設計，麥克風陣列設計）
信號層（上述聲學處理）
後續的數據層（語音識別、NLP、TTS 等）

這三層分別需要物理聲學、信號處理、和計算機專業三個領域的人才相互配合，是一個相當複雜的系統工程。

以上這些知識，還只是語音技術層面。作為消費級產品，智能音箱想要達到好的用戶體驗效果，還涉及到產品層面、以及產品之上應用層面的一系列問題。

智能音箱多維度比較

我在「小愛同學」身上看到了未來已來

IoT 喊了很多年，從 20 年前的智能家居，到 2009 年無錫落地的物聯網產業園，再到 2014 年火熱的智能家居創業，乃至去年底孫正義大神提出的「鞋子比人更聰明」，IoT 都處在只打雷不下雨的尷尬狀態。究其原因，我曾經認為是「雲-網-端」三層中端的密度不夠，即設備數量還不夠多，從而數據量不夠大，和人接觸點也不夠多。

根據小米最新公布的數據，MIoT 在 2016 年底大約 5000 萬入網設備，2017 年中達到 6000 萬台，2017 年 11 月在小米 IoT 開發者大會上，公布了 8500 萬的入網設備。

在我看來，5000 萬和 8000 萬並沒有本質的差別，但這些 IoT 設備一旦融入了智能語音交互後，原先的 App 指令控制、感測器觸發，就變成了遠場語音控制。這樣一來，交互界面從單一的手機 App（家裡不方便）、感測器觸發（冷冰冰且不豐富），擴展到了無處不在的語音指令（方便且有溫度）。

用 App 指令控制、感測器控制、智能語音控制的典型場景，以及典型設備

當然，語音交互絕不只是遠距離版的遙控器而已。

獨立於智能家居的硬體設備外，語音交互有機會將隨身設備、車載設備、乃至互聯網的一系列服務串聯起來。常見的語音交互場景包括：在車裡通過語音交互設備，提前把外賣點好（已經實現）；在跑步時通過智能耳機，把家裡的熱水器打開（還需要解決低功耗喚醒問題）；在家通過智能音箱，把凱叔召喚出來給孩子講故事（已經實現）。

智能設備的落地場景、核心技術、以及服務聚合，點擊查看大圖

技術本身就是讓原本少數人的特權（鋼鐵俠擁有的 Javis）飛入尋常百姓家。能夠見證這一過程，的確令人興奮。

知乎Live 課程推薦：

當 AI 硬體設備的種類越來越多，如何造出一款能用並且好用的產品的問題就越來越重要。那麼，什麼樣的產品「好用」？不同的產品應該選用什麼樣的會外觀設計？選擇這些外觀設計的依據是什麼？

12 月 7 日我們聯合「飛魚設計集團」的合伙人吳冬，在知乎 live 給你解答。

活動報名鏈接：如何設計一款消費級的 AI 音箱？

-------- 關於深圳灣 shenzhenware -------

深圳灣 shenzhenware 是最早也是最活躍的硬體創新社區和媒體。深圳灣連接全球硬體創新者，連接硬體生態鏈上下游，連接跨界產品的設計、技術、生產、渠道、商業、創新。深圳灣關注「AI+硬體」帶來的場景和交互創新，以及與平台和應用相連的全產業鏈升級。