在和「小愛同學」相處數日後,我發現語音智能把 IoT 盤活了
上周二,小米在北京召開了首屆小米 IoT 開發者大會,雷軍宣布,在接入 8500 萬設備之後,小米 IoT 平台迎來全面開放,包含模塊和硬體開放准入、米家 APP 開放接入、新零售渠道開放、智能設備互聯互通開放控制和 AI 雲、大數據的開放共享。
四個月前,小米的智能音箱「小愛同學」發布時,小米在 IoT 領域的積累為 AI 產品帶來的助力就已經顯露出來。
作為「小愛同學」的第一批用戶,順為資本投資經理段譽在自己的公眾號上,撰文講述了自己和「小愛同學」的相處時光,以及他對語音智能的一些行業洞見。
本文系段譽的投稿,深圳灣(公眾號 ID:shenzhenware)在保留原文內容基礎上,對文字進行了部分優化。
段譽,2013 年初加入順為資本,主要負責考察移動互聯網和智能硬體領域的投資機會,曾參與了華米科技、Yeelink、Ninebot、馭光科技等公司的投資。段譽畢業於北京大學經濟學院,擁有經濟學學士和碩士學位。業餘時間,他喜歡健身和越野跑,曾完成了北京 TNF 21KM,寧海 50KM 越野挑戰賽等賽事。
故事的開始
前兩天朋友跑來問我,如何在自己的豪宅布置智能家居。交流了各種協議走線問題後,我問他控制中心怎麼做,這位壕哥提出,打算用美帝的 Control4 的觸控面板做中控。
屌絲終於在此刻找到了自豪感,我淡淡地告訴他,自從用了粗糧家的「小愛同學」,家裡的無線開關已經開始積灰了,更不用提智能家庭 App 了。
我在「小愛同學」身邊發現了語音交互的妙不可言
雖然無法精確度量,但喜歡窩在沙發上看國劇的我,本能地發現說一句「小愛同學,關閉客廳的燈」,要比伸手去找遙控器(或者遙控器替代品)要省時、省力、耗能少。
某聲學項目的 FA 曾嚴謹地比較過不同交互方式的優劣,當然他們的結論是 Voice First(語音交互優先)。而我的理解是:對於不同的指令任務,有不同的最佳交互路徑。
對於複雜的長時間輸入(例如寫這篇文章,或是 coding),目前仍然需要鍵盤的支持。對於多輪次複雜邏輯的交互,視覺交互的反饋更快,觸控也具有一定優勢,例如重設一部手機,或是在 App 上買機票。
但如果是單輪輕度輸入,語音交互的優勢就會很明顯,例如,讓「小愛同學」幫忙設置早上 7 點的鬧鐘,絕對是「Killer App」。更有趣的是,在這個場景下,複雜的輸入設置——早晨、7點、每天重複、確認——通過語音交互可以一氣呵成,妙不可言。
我們更喜歡語音交互,並非因為有語音識別技術,或是語音智能對話,而是因為語音交互第一次突破了人機交互距離的限制。能夠躺在床上/沙發上隨意發號施令,過去只能由「真人助理」來完成,現在可以由設備來完成了。
雖然這些年 Siri 等手機語音助手一直致力於解決同樣的問題,但單純拿起手機按下 Home 鍵再舉到嘴邊做這個發號施令的動作,就已經很令人掃興了,更不要說因為中文對話不夠智能,Siri 時不時的答非所問。
除了語音交互技術之外,還有通過視覺或超聲波的「隔空手勢識別與交互」的技術,但它們相對於同樣遠距離的語音交互,使用的複雜度和學習成本都太高了。
我在「小愛同學」身後學習了遠場語音技術
遠場語音交互的一系列功能是如何實現的呢?它和近場語音的區別在哪裡?
帶著這些問題,我研究了相非老師的技術架構圖:
在進行語音識別(包括本地和雲端)之前,有一系列複雜的聲學前端演算法,包括:
- 回波抵消(去除音箱自己播放的音樂)
- 波束形成(只聽人說話的那個方向,去除其他方向的干擾)
- 去混響(去除桌椅板凳的聲音反射)
- 聲紋識別(區分爸爸在說還是媽媽在說)
經過這一系列的聲學處理,相對「乾淨」的語音信號才會進入負責喚醒的模型,喚醒之後才會進一步地進入雲端負責語音識別的模型。
這一交互涉及到了:
- 物理硬體層(聲腔結構設計,麥克風陣列設計)
- 信號層(上述聲學處理)
- 後續的數據層(語音識別、NLP、TTS 等)
這三層分別需要物理聲學、信號處理、和計算機專業三個領域的人才相互配合,是一個相當複雜的系統工程。
以上這些知識,還只是語音技術層面。作為消費級產品,智能音箱想要達到好的用戶體驗效果,還涉及到產品層面、以及產品之上應用層面的一系列問題。
我在「小愛同學」身上看到了未來已來
IoT 喊了很多年,從 20 年前的智能家居,到 2009 年無錫落地的物聯網產業園,再到 2014 年火熱的智能家居創業,乃至去年底孫正義大神提出的「鞋子比人更聰明」,IoT 都處在只打雷不下雨的尷尬狀態。究其原因,我曾經認為是「雲-網-端」三層中端的密度不夠,即設備數量還不夠多,從而數據量不夠大,和人接觸點也不夠多。
根據小米最新公布的數據,MIoT 在 2016 年底大約 5000 萬入網設備,2017 年中達到 6000 萬台,2017 年 11 月在小米 IoT 開發者大會上,公布了 8500 萬的入網設備。
在我看來,5000 萬和 8000 萬並沒有本質的差別,但這些 IoT 設備一旦融入了智能語音交互後,原先的 App 指令控制、感測器觸發,就變成了遠場語音控制。這樣一來,交互界面從單一的手機 App(家裡不方便)、感測器觸發(冷冰冰且不豐富),擴展到了無處不在的語音指令(方便且有溫度)。
當然,語音交互絕不只是遠距離版的遙控器而已。
獨立於智能家居的硬體設備外,語音交互有機會將隨身設備、車載設備、乃至互聯網的一系列服務串聯起來。常見的語音交互場景包括:在車裡通過語音交互設備,提前把外賣點好(已經實現);在跑步時通過智能耳機,把家裡的熱水器打開(還需要解決低功耗喚醒問題);在家通過智能音箱,把凱叔召喚出來給孩子講故事(已經實現)。
技術本身就是讓原本少數人的特權(鋼鐵俠擁有的 Javis)飛入尋常百姓家。能夠見證這一過程,的確令人興奮。
知乎Live 課程推薦:
當 AI 硬體設備的種類越來越多,如何造出一款能用並且好用的產品的問題就越來越重要。那麼,什麼樣的產品「好用」?不同的產品應該選用什麼樣的會外觀設計?選擇這些外觀設計的依據是什麼?
12 月 7 日我們聯合「飛魚設計集團」的合伙人吳冬,在知乎 live 給你解答。
活動報名鏈接:如何設計一款消費級的 AI 音箱?
-------- 關於深圳灣 shenzhenware -------
深圳灣 shenzhenware 是最早也是最活躍的硬體創新社區和媒體。深圳灣連接全球硬體創新者,連接硬體生態鏈上下游,連接跨界產品的設計、技術、生產、渠道、商業、創新。深圳灣關注「AI+硬體」帶來的場景和交互創新,以及與平台和應用相連的全產業鏈升級。
推薦閱讀:
※小米與萬科合作建房,說好的25平米空間之旅呢?
※如何看待小米新推出的小米VR?
※小米MIX 2的LTE四天線技術詳解 下載速率翻倍
※小米晶元為什麼叫松果?我來扯扯