智能音箱熱潮的實質：對話式人工智慧的交互變革

02-01

2011年，喬布斯在iPhone4s發布會上得意洋洋地展示出了Siri智能語音助理。喬布斯在當時就判定，Siri是人工智慧的入口級產品。這款喬布斯的遺作在此後6年並沒有太大長進，相反亞馬遜的智能音箱Amazon Echo悄然之間佔領了市場。

《華爾街日報》在今年6月撰文稱，Siri簡直提供了一個教科書般的範本：它最初在技術上領先，而且擁有充裕的資金和人才，但卻逐漸喪失領先優勢。

與此同時，科技圈正在掀起一場智能語音助理熱。7月5日阿里和百度兩場有關人工智慧的發布會宣告——智能音箱以及智能語音助理正在真正走入人們的日常生活。

失落的智能語音助理

7月5日下午阿里人工智慧實驗室首次公開亮相，推出了一款智能音箱——天貓精靈X1。

這場發布會效果頗佳，和上午的百度AI開發者大會遙相呼應，共同拉動了當日的人工智慧概念股。

如此熱鬧的場面不禁讓人感慨智能語音助理在前幾年的生不逢時。

多年以後，筆者依然會想起羅永浩的那些小trick：

2013年3月27日晚，老羅在國家會議中心發布了鎚子Rom，他引以為傲的語音識別功能因為會場迴音居然多次演示失敗；

2015年8月25日晚，可能是那場演示的心理陰影還未散去，老羅找來了朱蕭木，退而求其次，做了一個單機版語音識別的演示；

2017年5月8日晚，羅永浩不再談語音助理這件事情，而是如數家珍地搬出閃念膠囊功能，把腦子裡那些一閃而過的靈感記錄成文字。

坦率來說，老羅每一次得意洋洋的展示都挺拙劣的。因為在筆者看來，語音識別這件事本身就存在很多心理障礙和物理障礙。

比方說，你在公交車上對著自己的手機喊「給陳總打電話」，周圍的人會像看怪物一樣盯著你；

再比方說，你在公交車上對著自己的手機喊「給陳總打電話」，周邊小孩的哭鬧聲可能會直接讓你的手機顯示「語音無法識別」；

（聊天機器人並不稀奇，早已出現）

正是因為這一系列主客觀原因，2015年亞馬遜推出人工智慧音響Amazon Echo後的兩年，主流科技圈都對此無感。

這個傻大黑粗的音響並不是什麼炫技的產品。事實上，語音助理功能也並不稀奇。

智能語音助手這件事情從2011年Siri誕生開始，它就註定成為了一個玩物。它就像很多90後曾經在校園裡調戲過的「小黃雞」機器人一樣，只是一個只能把人逗樂半天的聊天機器人。

全球智能音箱的熱潮

直到2016年8月，被譽為「互聯網女皇」的凱鵬華盈（KPCB）合伙人瑪麗·米克（Mary Meeker）在她那份2016年《互聯網趨勢》（Internet Trends）報告中提到，iPhone的銷量在2015年可能已經接近天花板，有趣的是亞馬遜的語音助理硬體Echo銷量正在大幅增長，現在銷量已超過400萬台。

（互聯網女皇2016年《互聯網趨勢》報告）

這份報告同時指出，語音正成為計算介面，也是計算機輸入最有效率的一種形式，機器對語音識別的正確率從2010年的約70%，提高到2016年的約90%。

（互聯網女皇2016年《互聯網趨勢》報告）

這時，全世界才真正注意到智能音箱這個新事物的潛力所在。

我們可以算一下智能音箱這幾年來的上市節點：

2016年5 月17日Google I/O 上，Google Home 誕生；

2017年5月9日，微軟 Build 2017上，大與哈曼卡頓聯合合作的Invoke 智能音箱誕生；

2017年6月5日，蘋果家居智能音箱HomePod誕生，而且按照蘋果的計劃明年還將推出Siri音箱；

2017年7月5日，阿里人工智慧實驗室研究成果天貓精靈X1推出。

之所以會以智能音箱切入是有原因的。家庭環境下的wifi網路能夠支撐智能語音助手隨時在線，家庭環境下的語音干擾也是最少的，私密性也是最好的。除此之外，在家庭環境下，需要助理的服務環境非常多樣，比如你想開燈關燈、你想定個外賣、你想網購商品，這些都是在家庭環境中可以實現的。而且最為重要的是這些環節用語音和智能音箱交互，遠比手機更便捷。

也就是說，智能語音助理之所以會在家庭室內以智能音箱的形態出現主要是解決了這幾個問題：

第一，心理上的障礙；第二，服務場景的多樣；第三，比手機更便捷。

因此智能音箱會成為一陣浪潮，在美國家庭被用戶解決各式各樣的生活問題。因為它天然規避了手機的使用場景，形成了人們日常生活的有益補充。

對話式人工智慧的實質

我們真正需要探討的是，智能音箱它到底是像智能可穿戴設備一樣，僅僅只是智能手機的有益補充，還是能夠成為未來個人、家庭的服務入口。

因為，如果智能音箱僅僅只是智能手機的補充，那這意味著它的量級永遠只是局限數百萬台的規模，僅僅被少數人所使用。

不過，目前來看，智能音箱的實質其實並不是音箱甚至不是智能語音助理這麼簡單，準確定義的話，這實際上是「對話式」人工智慧。

在微軟Build2016開發者大會上，微軟CEO納德拉首先提出了「Conversations as a Platform」，也就是「對話即平台」的人工智慧發展方向。

這個概念在後來也被成為是「對話式人工智慧」。

所謂「對話式人工智慧」指的是，對話本身就是一個平台，各種知識、信息與服務都運行在「對話」其上，可以形成生態環境的基礎平台。人和人工智慧之間的對話，即是解決各種問題的一種路徑和方式。

如果說的更淺顯一些，那就是人們能夠通過人和人正常交流的方式，來與機器進行溝通，以此來獲取信息和服務。

也就是說，未來人們其實不僅僅是在家裡可以用智能語音助理來獲取服務，智能語音助理甚至可能無所不在。所以你會發現，阿里人工智慧實驗室在發布天貓精靈的同時，還公布了配套的研發平台AliGenie開發者平台。這一開發平台主要面向個人內容開發者、應用開發者、智能家居開發者以及硬體生產商等四類開發者。

未來我們可以在汽車、冰箱、電視甚至是家庭的垃圾桶上享受到智能語音助理的服務，隨時用語音獲取信息。用阿里人工智慧實驗室負責人淺雪的話來說，「終端方面的合作夥伴包括阿里智能IoT、塗鴉科技以及一些大廠，涉及千萬款以上產品、100多個品類。」

這也意味著將來智能語音助理將無所不能、連接一切。

這種交互方式或許令人意外，但是語言本來不就是人誕生以來的交互方式么？

語音是所有動物最早最原始的信息交流方式，這對於使用者來說幾乎沒有任何的門檻，哪怕是還不識字的孩童。

只是隨著信息化時代的來臨，鍵鼠成了我們操縱電腦與他人交流、獲取信息服務的交互方式，而隨著移動時代的來臨，觸摸屏又取代鍵鼠成了新的交互方式。

細細數來，鍵鼠這種交互方式存在至今不過50年，而觸摸屏這種交互方式嚴格算來也僅僅只有不到20年。

但觸摸屏取代鍵鼠的那一剎那，有多少人表示過驚訝？當喬布斯宣稱說其實人類有一個天然的操作工具的時候，我們還認為他可能會推出全鍵盤手機。然而他說的是全觸摸屏手機。所有人都認為，觸摸屏手機收發郵件不方便，打字不夠快捷。

黑莓時任聯席CEO兼創始人Jim Balsillie在2007年2月曾經說過的一句話：（蘋果和iPhone）有點像一位試圖加入一間已經十分擁擠的屋子的新人，在這裡消費者已經有許多許多選擇了……但是如果說這將對黑莓產生海嘯般的影響，我會覺得有點誇張了。

後來的事情大家都知道，更符合人類直覺的觸摸屏取代了全鍵盤。在智能音箱的身後其實也存在這個交互變革的邏輯。

雲計算大數據重塑語音

儘管是回到語音這個交互邏輯上，但本質來看，智能語音助理下的語音和過去的語音交互其實存在著本質的差別。

過去我們用語音調用的實際上是另外一個人的服務。對話和對話之間本質上信息量很少。

實際上，語音交互存在大量問題：

1、場景覆蓋的低；

2、缺乏系統可視性；

3、語音無法表現信息層級。

4、語音交互消耗注意力，增加記憶負擔。

5、隨之帶來的交互效率低。

所以，當你在地鐵上，別人卻在微信上給你發來一條59秒的語音消息時，你會對那個人恨之入骨。

但是隨著人工智慧和雲計算、大數據的到來，人和語音的交互本質上正在發生變化。因為這並非雙向語音之間的交互，只需要人發出指令即可。

劉慈欣在《鄉村教師》的這段話很形象地點名了未來語音交互的信息量：

「你是想告訴我們，一種沒有記憶遺傳，相互間用聲波進行信息交流，並且是以令人難以置信的每秒1至10比特的速率進行交流的物種，能創造出5B級文明？！而且這種文明是在沒有任何外部高級文明培植的情況下自行進化的？！」

劉慈欣這句話的實質是大量的數據的積累，以及遠程計算能力的提升。這些提升重塑了語音，解決了一系列的問題：

當語音調用的信息本身是具備可視性、劃分層級而且直觀易懂甚至縮短大量信息環節的時候。它本質上就是一個更為合理的交互方式。

（隨著大數據和雲計算技術成熟，語音調用了大量的數據）

如果我們換個意思來理解可能會更形象——古今同樣是說一句話，可以調用的能量發生的數量級的差異。舉個例子，古人說出「我想聽個《霓裳曲》」，實現他就需要一個戲班子。而現在人類說同樣的一句話，就只需要調動雲端的幾MB的音頻流。

這種變化實際上是靠大數據積累以及雲計算處理來完成的，以雲端的處理速度，迅速調用各類服務，將對話式人工智慧的效率提到最高。

50多年的彎路之後，人類走過了鍵盤、滑鼠、觸摸屏等一系列交互手段，而以智能語音助理為代表的對話式人工智慧正在讓人類返璞歸真。