語音交互會變成未來的主流交互方式嗎？

12-26

看西部世界走火入魔，所以...

我不是研究人機界面的，而是語言識別專業。關於這個問題沒什麼資格說。只是分享個人在人機界面上理解的轉變。

我碩士面試時教授問我想研究什麼。我回答語音識別，並說我認為這是未來的主流時，就已經可以從教授的表情上看到他認為我的想法不成熟。

隨著對語音識別的研究，我逐漸在想曾經不曾想過的問題：語言的目的是什麼？是信息交流。而信息交流的關鍵應該是速度和準確度。但為什麼生物最開始偏偏用了準確度和速度都不優秀的聲音作為交流手段。是因為再比如深山中勞作時，聲音不會像光一樣被物體遮擋後立即失效，在夜間也可以產生作用。我逐漸意識到了信息交流沒有主流不主流一說。用聲音不是因為它方便，它只是選擇的一種。在應用場合的不同，生物會用多種交流方式。

任何方式都有它的優點和局限，未來這也是不會變的。根據對速度、準確度、廣度、是否人性化等不同需求，可以選擇相應的方式。

沒有主流交互方式，而是根據需求選擇對應交互方式。

這和No Free Lunch Theorem比較像，如果把不同交互方式在所有應用上進行比較，不會有哪種方式更完美。

比如

聲音的語言產生後，出於方便考慮，基本移植到了文字語言上（這也是有學習曲線的，過去也有很多人根本不識字，比如在電影《被解救的姜戈》中可以說完美英語的姜戈就看不懂懸賞令）。又如自然語言有模糊性的特點，於是數學就重新建立了一套符號系統（哲學也應該建立）。但很明顯這套系統有學習曲線。很多人看到就頭疼。

Myo Gesture Control Armband可識別性和抗噪音能力非常好。大噪音工廠指揮時就非常合適。但是指令個數有限。複雜編碼又需要輸入時間和記憶（學習曲線）。

同樣的操作還有

語音識別，Speech recognition now is becoming good enough to enable many applications。問題是有噪音時，就很受限制。同時若用自然語言操作，信息傳遞的精準度就下降。若用非自然語言，學習曲線又上升。開關燈，按鈕操作的精準度就很高。但是需要藉助遙控器。這時就可以用精準度不高的自然語言去操作從而獲得空間廣度。但語音作為交互方式能夠滿足非常多的應用。我真的實際在應用的。比如我要睡覺時，我會傻乎乎的對著iphone說， Hey Siri，wake me up at 6:00。但我不會在公共場合對著iphone說Hey Siri，#￥%#￥……#￥……。而在手腳被佔用，如開車時，語音識別就非常高效。儘管如此，在一些精準的實時操作時，用語音控制就不是很合適了，因為你不能說錯。而我們說話就有說的結結巴巴，說錯的時候對實時操作比如手術,語音操作難度就很高。

Windows最擅長的圖形用戶界面提供了符合人性化的操作方式。對於一般應用而言非常好，又不需要學習曲線。老少皆可。但是純粹的數據操作，linux主要的指令方式就太方便了。
深層學習的不同網路，比如CNN和RNN，沒有哪個更好。也是取決於想要完成的任務。同時也可以混合使用。上面的例子還沒有考慮成本消耗。
我對這個問題的理解的轉變是：我們是針對任務來選擇最合適的交互方式。

反對高票@Huan Chen的回答.

(--2016.12.06 添加很多圖，舉例交互場景和應用等--)
（關於「但是請不要為了反駁而反駁，非要在我話里找漏洞，抬杠。」注意，題主的問題是「語音交互會變成未來的主流交互方式嗎」，如果回答僅僅局限在一方面，那麼你的結論會有偏差。其次，針對你回答里我不贊同的部分一一回應，這是討論的常用方式。發過paper的多少應該也寫過rebuttal吧（現在好conference不少有rebuttal）？如果指出你的錯誤點叫做找漏洞和抬杠，那不如直接不討論得了。大家因為接觸的領域各有不同，所以見解不同或者認知不足很正常，我也是，所以我歡迎討論。既然來知乎討論，就是為了去接觸不同意見，而不是單純為了爭輸贏。如果你堅持說你的回答意義不是爭論會不會成為主流, 那我自然而然堅持認為你的答案不符合題主的這個問題。且要知道，你的答案上來便給出否定語音交互會成為未來主流方式的結論，而我反對的正是你這個觀點。）
----
她的回答對於交互這個大領域來說未免狹隘，局限在人機界面設計且不太符合今後HCI(尤其HAI,HRI)的發展方向（這裡可以有興趣了解下北歐HCI體系下的participatory design，屬於理論研究而不是具體的interface design。跟本文關係不大）。交互是個複雜的多領域的交叉學科，涵蓋範圍很廣。

在我了解看來，未來交互趨勢之一是human-agent interaction，這裡的agent給出詳細定義有點困難，但可以想像是一個軟體（或是實體，比如robot）作為交互的中間層處於你和底層對象（比如計算機數據）之間。Agent的作用便是實現抽象的符合人類自然的交互方式，而自然的交互方式主要劃分為兩類：1. 語言交互 2. 非語言交互（比如面部表情、手勢、眼神gaze等等）。她提到「即使是人人交流，也只有 30%的信息是通過 verbal language 來傳遞的。」只能證明非語言交互方式（non-verbal cue）的重要性，但不能否定語言交互（verbal-cue）的重要性。就我閱讀近年來有關human-agent/robot interaction的論文及參加一些會議的感覺，語言交互勢必成為未來主要的交互方式之一。以下針對她答案的幾條給出我的意見：

- 「拿人人交互和人機交互類比是錯誤的。。。」
人機交互的很多理論源自人人交互的研究，尤其是社會心理學、認知心理學、認知神經科學等等。The Media Equation這本「聖書」核心的觀點就是人對待諸如計算機等的社會行為與人與人的交互行為是高度相同的，且很多時候甚至是潛意識的（user主觀意識不到）。這本書奠定了理論基礎，各種實驗也證實了verbal cue十分有效。舉個例子，計算機使用不同的男人和女人聲音會影響用戶對它的評價及行為等。

她舉的語言移動滑鼠的例子是不準確的。自然語言交互的目標是比如「把文件A往右上移點」而不是「把文件A向上移動10厘米，再向右。。」用戶給出抽象的自然的指令，而如何結合語義及context去理解用戶的目的則是agent的事情。這裡可以去了解基礎理論the theory of mind。計算機（agent）如何理解用戶的思維方式並從用戶的角度去理解問題達到目標。與之相關的包括共情等等。這是目前的難點，但也是重點。一旦common ground可以建立，那麼類似人-人的自然交互就能達成。同樣的例子比如agent如何去理解諸如「把那個杯子拿給我」這種抽象的缺乏具體標示的對話。「那個」是哪個？

- 「我們創造機器（廣義上就是工具）的本質目的是為了完成任務，不是交流感情。」
請注意，目前一個愈發受到關注的研究領域叫做Affective Computing，主要研究機器如何理解人的感情並作出情感的回應等等。事實上，情感在交互中以及在decision making等里都是重要的影響因素，也是social interaction的重要因素。我認為你對交互的定義及理解以及對機器的定義及理解過於狹隘。

- 「那麼什麼時候語言交互是合適的？」
語言交互適合的場景很多很多，信息查詢只是一小塊。關於可用性差、缺乏可視性等等確實是verbal cue的一個缺點，這也是因此人們同時在重視研究non-verbal cue。但是就同我們日常生活一樣，這並不能因此就說verbal cue不重要。一個全面的魯邦的系統應該既具備語言交互能力也具備非語言交互能力。關於語音交互增加記憶負擔這點（cognitive load），我覺得是屬於缺乏可視性這一缺陷，因為工作記憶不僅針對語言。然後再關於語言效率低這一點，這是受制於如今自然語言處理的技術限制，並不是語言交互方式本身。恰恰相反，實現抽象的自然的語言交互可以大大提高交互效率。用戶不需要關注細節。舉個例子，我們平時和人說話不需要考慮各種細節，很多時候是不需思考張口就來。配合上手勢（gesture）等等，交互效率很高。至於提到command line和GUI，舉例過於具體。

- 「人工智慧不等於人性化」「人工智慧在人機交互上是偽需求（大多數時候）」。。
人工智慧不等於人性化，但人工智慧可以幫助實現人性化。尤其當需要建立長期社交關係時（long-term interaction），計算機（agent/robot。。）需要學慣用戶的行為習慣，同時用戶也會去適應計算機（agent/robot。。）的行為習慣。這個叫做mutual adaption。要實現這一目標，機器學習等AI方法是很重要的。這也是為什麼HAI, HRI哪怕HCI都需要尋找AI，machine learning的方法。看看這幾年幾個主流會議的theme就知道了。交互包含的場景太廣，包括諸如人機協作都需要AI。

我不知道Huan Chen是如何得出「語音交互從哪個方面看都沒什麼優勢」這個結論的。也許對現階段受技術限制的語言交互來說部分正確，但題主問的是「語音交互會變成未來的主流交互方式嗎」。我的結論是，未來肯定會成為主流之一。

總結一下，我們對交互的理解不能僅僅局限在交互界面的設計上。交互是一個很寬廣融合了多個學科的領域，包括計算機科學、軟體工程、心理學、認知科學、人工智慧AI、社會學、神經科學，甚至會涉及人種學、倫理（哲學）等等。Huan Chen的答案局限性太強且部分觀點在我看來不符合HCI,HAI,HRI未來的發展趨勢。我認為，語言交互將在未來成為主要交互手段之一（註：不是唯一, 且好的系統應該具備multi-modalities）。

趕在睡前寫的，如果有感興趣的話我會再根據意見補充。我針對的是Huan Chen的答案而不是人，所以歡迎討論但拒絕越界的攻擊。

--2016.12.06 添加圖，提供形象的場景說明--
已human-agent interaction為例，主要研究分為3塊：
interaction design between:
-a human and a virtual agent
-a human and a physical robot
-a human and a human through mediation agents

這裡要提到幾個重要的概念，mental model、擬人化（anthropomorphism）和adaption gap。具體不細說了，通俗來講就是我們人類進化到現在大腦善於捕捉社會化線索，並且傾向於將事物擬人化。對我們人類來說，最為自然的交互手段包括自然語言、面部表情、手勢、眼神等等。一個agent的外貌會對我們的期望造成很大的影響，比如當你看到一個人形機器人的時候你會期望它和你說話並表現出類似人類的行為。如果這個agent的實際表現和期望差很大，會影響用戶的交互傾向。比如看到下圖中間美女機器人，你本能的會如何和她互動？

因此，在HAI和HRI一塊設計的熱點之一是人形機器人，或者是將交互對象擬人化。這裡自然語言自然而然成了主要交互手段之一。

語言交互的場景和應用可以有很多，並且很多時候輔助以其他的交互方式比如面部表情、手勢、點頭、眼神、觸摸（也比如現今階段介於NLP技術的限制，會輔助以觸摸屏等等）。應用場景包括兒童教育、醫療輔助（輔助改善自閉症、照顧老人等）、運動訓練輔助、（老年人）開車輔助、人機協作、家用服務、社會公共服務（包括商場導購機場前台服務等），甚至有些人在研究人機愛情和倫理。舉個實際例子，NAO機器人在兒童教育等等領域已經應用頗多，MIT Media Lab的social robot先去Cynthia B所開發的JIBO也作為家用服務機器人收到很大關注，然後如今大熱的Pepper已經在日本很多Softbank商店包括東京成田機場開始實際服務。

注意：交互是一個雙方向的過程，agent-&>用戶和用戶-&>agent 同樣重要！

下面就不詳細說明了，貼上一些圖，可以直觀的有個理解。如果有興趣可以留言我再給詳細信息。

1. 機場服務

2. 老年人開車輔助

3. 圖書館促進兒童讀書的項目

4. peer pressure（很有意思，搞不好能用到促進用戶購物或者產生認知偏差等應用，但不見得道德）

5. 抽象對話的理解

6. 駕駛輔助

7. 人機協作

8. 生活服務

9. 虛擬agent

10. Pepper在Softbank商場

11. morphing agent，擬人化設計思路

語言可以積極的調動社交積極性，這是其他方式無法匹敵的。

不會。人機界面的發展趨勢是直接操縱（direct manipulation）。從開始的 command line 到圖形界面，到觸摸屏再到VR，都是展現的這一趨勢。

這裡不討論人與機器人的交互。
————————

在討論問題之前，先確定一下到底什麼是「語音交互」。

人機交互里一般不會說「語音交互」，而是「自然語言交互（natura language interaction）」。就是用人類的語言給機器下指令，達成自己的目的這一過程。

聲音識別，聲音記錄本質上不是自然語言交互，只是數據錄入的方式。同理，用 word 寫文檔，用錄音軟體錄音，用微信聊天，這不是自然語言交互。讀書，聽歌，更不是自然語言交互。

————————————

首先，在自然狀態下語言並不是我們和世界交互的主要模式。

很多人認為語音交互會成為主流的論據是：人與人交流用的是自然語言，所以人機交互也應該用自然語言。

這個論據是站不住腳的。

我們在生活中跟萬物交互，是直接控制物體。而不是用語音。因為除了人，其他的東西不懂語言。跟機器講人話，本來就不自然。當完成任務本身根本不需要語言的時候，你語音輸入再方便也就是「偽需求」。現在人們所面對的交互問題，根本不關語言什麼事。

即使是人人交流，也只有 30%的信息是通過 verbal language 來傳遞的。人人交互也只是在交流思想和感情上用語言。一個人跌倒了，你要扶她，不是說「你站起來」。你要打一個人，你是要動手，不是動嘴。醫生是要用手在病人身上動手術的。

拿人人交互和人機交互類比是錯誤的。如果你真的要類比，應該拿」通過語言遙控一個人的行動「做對比。

舉個例子,比如我們想移動一個物體

我們通過 3 中不同的交互風格做對比

-物理世界的直接操縱
用手移到你想移動的地方

-GUI
你直接拿滑鼠拖到你想拖的地方

-自然語言交互/人人交互
你要把行為抽象成具體指令，然後傳到給這個人或者電腦，讓他/它替你執行
比如
「把桌面第一行，從左到右數第 2 個圖標，往上移動 10 厘米」
「不對不對，是我的左邊，不是你的左邊」
「往左 1 毫米」
（電腦回復「我不懂毫米，請告訴我具體像素」）
「##￥%￥￥」（你想把電腦砸了的心都有了）

而且在這個過程中，你還要思考，你要用多大的聲音系統/對方才聽得見，系統是否理解你的指令，系統的長度單位是什麼...。如果系統無響應，你還要調各種變數。你說這是不是化簡為繁、多此一舉和反人類。

這種交互方式反而回到了以機器為中心的交互。所以請不要想當然的認為機器智能會更以人為中心、更自然和更方便。

我們創造機器（廣義上就是工具）的本質目的是為了完成任務，不是交流感情。我們在設計交互模式的時候，是以目標為中心，選取最合的對話方式。在大多數情況下，模擬物理世界的操作方式對人而言最自然。

那麼什麼時候語言交互是合適的？
語音交互比較有用的場景只是在信息查詢上。因為這個任務本質就是信息的交換

再從可用性角度看，語音交互很多情況下可用性差。具體的幾個方面：

- 場景覆蓋的低。你不能在需要安靜或嘈雜的場所使用。有安全隱患，比如你取錢的時候用語音跟ATM 交互？

- 語音交互缺乏系統可視性。

- 語音無法表現信息層級。

- 語音交互消耗注意力，增加記憶負擔。人在與系統交互的時候，調動的大多數是短時記憶力，能記住的信息就 15 秒左右。語音交互不適合應用在步驟比較多，信息多的任務上。大家都有打銀行服務電話的經歷，你必須集中注意力，記住什麼什麼按 1，什麼什麼按 2，要不然就要重聽一遍。

- 語言交互效率低。你在網站購物的時候是直接選你要的東西方便還是要把這個物品的名字念一遍方便？相對於 command line 交互，語音交互無法直接重複某條命令或切換命令，對於需要大量操作的工作也不方便。多少程序員在用 git 的時候連 GUI 都不喜歡用，而是用命令行。

人工智慧不等於人性化

有人認為制約自然語言交互的問題是人工智慧問題。這個觀點是基於「智能的就是好的」這個假設上的。

我們作為人也是有思想，有創造力，有掌控慾望的。我們往往並不需要讓電腦什麼都給我們安排好。這樣反過來我們是受控於電腦。

我以前做過 LBS (location based sevice) 可用性研究。我調研過用戶對於交通查詢系統的需求。有用戶表示並不喜歡系統給一個太精確的規劃。

GUI 界面更容易把掌控權交給用戶。

有留言說腦波交互是不是更有效，其實未必。你假想一下，你上淘寶，你看一大堆東西都很激動，然後電腦根據腦波，把刺激到你的物品頁面全打開了，場面會很失控的。

人工智慧在人機交互上是偽需求（大多數時候）

老有人在評論里說什麼 AI, AI的。AI 了又怎麼樣？在各種網站，App 出來之前，我們就可以通過電話叫計程車，定飛機票了，定外賣了。我們為什麼後來設計了各種視覺界面？

你為了 AI 去 AI，把電腦變成人。那我乾脆就用人好了，用電腦幹什麼？

如果有人喜歡用自然語言定計程車，定飛機票，那他也是首先選擇找真人，而不是找機器。

總結

總的來說，要看一種交互方式會不會成為主流，要看以下幾個方面：
- 它有多符合人的性能
- 它能覆蓋多少場景
- 它是否能提升任務完成的效率
- 它的實施成本

語音交互從哪個方面看都沒什麼優勢。不要覺得某些交互模式技術上很吊，就一定是好的。語音交互不是說沒用，而是它做大多數場景下，對於解決問題，相對於其他交互方式，都不是最佳方案。

另外，我們創造計算機，不是要讓它像人，讓是讓它幫我們解決問題，做人做不了的事。把它變成人，反而失去了我們設計計算機和界面的初衷。人工智慧只適用於小部分場景。

有些人非要給「語音交互」爭個「主流」。我對非要爭個是或不是沒興趣。如果把「主流」定寬泛點，全世界那麼多 iPhone，上面都有 SIRI，那不用說未來，現在語音交互就是主流。

----
關於自然語言交互的深度討論，你可以看

Natural Language as an Interface Style
http://www.dgp.toronto.edu/people/byron/papers/nli.html

The "Natural" Language of Interaction:A Perspective on Non-Verbal Dialogues
http://www.billbuxton.com/natural.html

計算機中的自然語言
Ben Shneidermann 《用戶界面設計-有效的人機交互策略》

以下截取一段 Ben Shneidermann 《用戶界面設計-有效的人機交互策略》中對於自然語言交互的論述（Ben Shneidermann 是人機交互大師級的人物）

裡面很多東西沒有深入研究過交互設計或可用性的人，不太好懂。

反對Huan Chen的回答中部分內容

自然語言交互/人人交互你要把行為抽象成具體指令，然後傳到給這個人或者電腦，讓他/它替你執行比如「把桌面第一行，從左到右數第 2 個圖標，往上移動 10 厘米」「不對不對，是我的左邊，不是你的左邊」「往左 1 毫米」（電腦回復「我不懂毫米，請告訴我具體像素」）「##￥%￥￥」（你想把電腦砸了的心都有了）


而且在這個過程中，你還要思考，你要用多大的聲音系統/對方才聽得見，系統是否理解你的指令，系統的長度單位是什麼...。如果系統無響應，你還要調各種變數。你說這是不是化簡為繁、多此一舉和反人類。

這種交互方式反而回到了以機器為中心的交互。所以請不要想當然的認為機器智能會更以人為中心、更自然和更方便。

當前技術可實現對話如下：

我：幫我訂一張明天去杭州的機票。
語音系統：好的，明天幾點左右出發？（這裡，機器會判斷明天是哪年哪月）

我：6點
語音系統：好的，已經幫你預定明天6:20分從成都雙流機場到杭州蕭山機場的機票，航班號為EU2205.（這裡，機器以時間做條件，自行給出判斷和確認）

我：時間充裕，我坐高鐵去吧。
語音系統：好的，已經幫你預定明天6:05從成都東站到杭州東站高鐵，車次為G2205.（這裡，機器會自動完成票務退訂，並且能對語音中的地點、時間、交通工具等作出理解）

以上可以說明「電腦【懂】毫米，【懂】區分左右」

要不要聊聊什麼是懂？

我們對世界的認知都是通過學習，才「懂」上下左右、「懂」了多長是一米、多小是毫米；就是通過不斷的認知【懂】得這個世界的規則。同樣，計算機的「學習」，也不用在意它的【懂】和人類的【懂】可能不一樣，但是結果一樣。計算機【懂】的運用規則，甚至比人類更懂規則。

現在只是2016年末，果決的篤定未來的不可能，那是對技術發展潛力的不自信，未免有一點固步自封的錯覺。

我認為，未來我們可以和機器用人與人溝通的方式進行交互。

看到很多答案直接說不能，這個我不太同意。

目前說不能的答案基本上都是在用vui去套傳統的gui框架，那自然不太契合。

vui=聲控界面 nui=感官控制界面 gui=視覺界面

個人覺得vui必然會成為一個潮流，但它不太可能會像gui一樣獨擔大梁，需要gui和nui的從旁協助。

實際上未來的潮流應該是這三者的有機結合，gui和vui為主，nui為輔，架構在一個功能強大的ai系統上。

在思考交互方式的時候不能局限於現在已有的外置設備，畢竟這些設備都是基於目前的交換換方式開發出來的。

畢竟對於人來說，最方便的「交互」不就是叫個人幫你做么。個人覺得vui的未來還是很光明的。

界面交互還是主流，但語音會很常用。因為有些場景語音交互效率更高，會替代一些現有的界面交互場景。

我們從人機交互的基礎模型來拆分效率：

用戶 → 輸入 → 機器 → 輸出

如果比較輸出效率，語音輸出的效率完敗（除非用戶要的就是音頻內容）。沒錯是完敗，因為聲音是線性的，聽覺記憶太短了。我們都打過銀行的語音服務電話吧，「For English press 1，會員服務請按2，人工服務請按3...我多少次打這種電話都是掰著手指來做備忘的，因為實在記不住，所以稍微人性一點的設計才有「重聽請安0」。這時候如果眼前浮現一個小卡片寫著所有選項，可能5秒鐘我就可以做出選擇，但是如果語音播放，聽完整都要10秒以上。語音輸出所承載的內容是有限的，播放一遍的情況下基本能記住是3~7個關鍵信息。在大量內容輸出的時候，效率低下，在輸出簡短內容時候，效率才與視覺輸出接近。

再來看輸入效率，想必這才語音的優勢，但是要分情況討論。第一種情況是用戶明確知道要什麼，只需要機器執行。例如我想吃外賣的麥當勞的巨無霸套餐。假設我的任務是告訴手機這個套餐，如果使用視覺界面輸入會這樣：找到外賣app，找到麥當勞，選擇巨無霸套餐....但是如果使用語音輸入呢，只要對著手機說：「我要一份麥當勞的巨無霸套餐外賣」。這裡用戶節省的是在界面中尋找和選擇的成本。第二種情況是用戶不明確需要什麼，需要機器提供用戶可以瀏覽的選項。這時候其實又涉及到機器輸出了，效率直線下降，原因同上。試想一下語音輸入：今天有什麼優惠的？輸出：蛋撻，巨無霸套餐配雞翅，飲料第二杯半價……

所以，語音交互在「用戶明確知道目標或任務」的情況下「輸入」效率超過界面，同時用戶要的結果信息量相對較小。搜索音樂、文字輸入，控制智能燈...大致都符合這個條件。

當然這是理想狀態，現實技術條件下語音交互還有幾個變數。

依然是這個基礎模型：用戶 → 輸入 → 機器 → 輸出。

第一個變數是「機器」這個環節，語音傳入機器，機器經過了語音識別，語義理解兩個過程，這兩個過程所用到的技術都在進步，語音識別近些年進步飛速，亞馬遜的Alexa就是受益者，之後只會會越來越完善，效率越來越高。

第二個變數：輸入前的成本。像Alexa這種24小時待機的產品，把用戶輸入前的成本進一步降低。因為用戶在家隨時語音就可以發出指令，對比界面交互：找手機，解鎖，滿屏幕的app中尋找，載入等待..效率高出太多。之後這樣隨時待命的產品會越來越多，現在的iphone siri和win8筆記本已經在向這個方向發展了。

第三個變數是場景，在家中是相對隨意的，但是在公開場景下，現在很多人會覺得語音交互不舒服，不好意思，或者泄露隱私，不過這是有可能隨時間改變的。

總之兩個變數都是正向的，第三個變數是可能變化的，整體樂觀。所以我判斷語音輸入會越來越常用，並且很可能結合界面輸出，組合效率也會更高。純語音交互產品會有一部分垂直市場，並且會逐漸深化。

語音一定是趨勢，但會不會是最主流的交互方式，還難說。

人機界面的演化軌跡，從偏向機器的一端（CLI），移向人的一端。

在沒有智能機器的時代，「界面」也沒有存在的意義。在技術發展的早期，「機弱於人」，於是人需要按照機器的邏輯和語言與之進行對話，於是有了 Command Line Interface。後來，機器性能逐步增強，人們就找了一套更人性化的語言 Graphical User Interface 套在機器的實現之上。

但是 GUI 依然有不少缺點，因為它還是不夠「自然」，需要人們去學習和理解。為什麼不夠「自然」呢？因為在真實環境中，人與人、人與外界的互動，主要通過語言、姿勢、動作等來完成。要讓人在一塊屏幕上面「假裝」操作物體，其實非常彆扭。

所以，當機器越來越強，到了「機強於人」的時候，人就可以回歸到自然的狀態，用早已習得的技能跟機器互動。於是語音、手勢、其他身體運動都會成為未來交互設計的趨勢。

當然，語音交互也不是萬能的：

- 語音識別的準確率仍然不理想
- 語音輸入受到環境的影響
- 有很多場景不適合用語音
- 語音不能傳遞所有信息

所以它不會成為獨佔式的交互方式，而更可能與其他交互方式（如手勢）一起成為一套交互範式。

那麼，目前語音交互主要能做到哪些事情呢？

- 識別和記錄。比如訊飛，把一段語音識別出來，代替人去做記錄的工作
- 辨別身份。比如微信的聲音鎖，用聲音作為身份識別，提高安全性
- 執行簡單命令。比如 Siri
- 在正常對話中智能應答。目前應該還沒有真正做得好的產品

近兩年深度學習研究為語音識別帶來了不少突破性進展，2016年10月微軟宣布他們的語音識別系統實現了和專業轉錄員相當甚至更低的詞錯率，達到了 5.9%。也是在這個月，Google 發布了神經網路翻譯系統。這些進展會加速語音識別和語音交互的進展。不論未來語音會不會成為最主流的交互方式，它都一定會是人工智慧、新的人機互動方式的重要入口。

參考資料：

- Wagner, P., Malisz, Z., Kopp, S. (2014). Gesture and speech in interaction: An overview. ResearchGate, 57, 209–232. Gesture and speech in interaction: An overview
- 頂級語音專家、MSR首席研究員俞棟：語音識別的四大前沿研究

幹嘛這麼死腦筋啊，交互方式就只能用一種感官嗎，用了語音就不能用圖像了？

是主流。不是第一也是第二。

運動侏儒 (motor homunculus) 是人機交互里一個有名的可視化。運動侏儒把身體不同部分的大小用對應的大腦皮層面積來表示。大腦皮層對應的控制區域越多，相應部位越靈活。經過人類幾萬年的進化，舌頭和手是身體上最靈活的兩個部分。

並不是巧合，舌頭和手是今天所有電子設備設備最重要的輸入通道。

這個局限是我們作為人類的局限性。

大部分時候我們身體的進化趕不上我們創造東西的速度，更多的是我們設計出東西來適應我們的身體。電腦和房子一樣大的時候，我們沒有那麼魁梧的身軀去背著電腦走；而今天屏幕可以越來越小的時候，我們的手指又沒有精細到操作那麼小的屏幕。

就像［人類簡史］里說的一樣，

Organisms are increasingly shaped by intelligent design rather than natural selection.

在今天，進化論對於人類的影響已經開始越來越少。科技的發展讓我們可以主動設計自己。整容是變相的快速進化，或者有一天，大家可以在基因上設計自己的雙眼皮。

無論今天的語音識別，語義分析有多糟，他們的進步速度都會遠遠超過我們進化的速度，也超過我們在基因技術上的發展。所以在所有這些技術提升到完美的時候，我們作為人類的樣子應該還沒發生改變。

回到今天的研究，我覺得比較遺憾的是語音交互的研究並不是人機交互研究的主流，而更多屬於語言科技的範疇。

就像鍵盤對每一個按鍵識別的準確率達到99.99%的時候，才漸漸成為我們主流的輸入設備。之後過了20-30年，人機交互研究員才開始關注這些問題，才有了今天的各種輸入法。

換一個角度來看，如果你有一個鍵盤某個鍵每按100次就有一次出現別的字母，這個鍵盤基本就有下崗了。而今天大家對語音識別錯誤的耐心，從另外一個方面說明了這種交互的重要性。

每一種交互都有他的優勢和劣勢。比如我的手只有1米長，所以摸不到1米以外的東西，而我的聲音可以傳播到很遠。我可以悄悄地在觸摸屏上打字，但是我的聲音卻沒有方向，會影響到別人。

什麼會是主流的交互？我比較喜歡用交互的性價比來衡量這件事。

當用戶為一個交互付出了更多的代價時，他會期望著更好的結果。如果這個時候，交互的結果並不能滿足他的期望，用戶就會失望。

失望來源於過高的高期望,而期望又伴隨著為此付出的努力。

交互的代價和期望，中間的虛線是用戶的期望，有些交互在期望線上，有些在期望線下。

比如，語音輸入雖然比鍵盤輸入的交互代價要少，但是得到的結果不如後者準確；拍照搜索圖片比以文字輸入圖片搜索結果要更好，但相比於拍照額外的工作，結果也沒有超過對應的預期。

性價比並不絕對，技術的改進會提高性價比，不同情境下的交互代價也不一樣。比如拼音輸入法的改進，手機拍照的流行，都使對應的交互性價比更高。而當一個交互成為主流時，一個新的交互要想成為主流，就需要優於已有的交互很多。

語音只是文本的高效版本。但信息量上沒法超過視頻呀。
何況人類天生對視覺信息的記憶是強於聽覺的。

大家有沒有想過一個問題：
【為什麼人類會進化成以語音為主的交流方式？】

很有可能會。粗暴地說，因為方便，所以語音交互的在未來的發展和普及是非常值得期待的。著名投資人Tomasz Tunguz在2014年的一篇博客里曾經提到過：語音是最快速的交互界面。想像一下，對著手機說「幫我叫一輛車去人民廣場」的效率，對比打開一個叫車APP，輸入地址並發送一個請求，哪個會更快？

剛好這個問題和我自己的公司最近正在嘗試的一個東西很相關，所以再多說一些。

在談論語音交互之前，我們需要了解一下交互設計。交互設計又稱互動設計(Interaction Design), 是定義和設計人造系統的行為的設計領域。

什麼是人造系統？常見的有軟體、移動設備、人造環境、服務、可佩帶裝置以及系統的組織結構等等，是一種人造物。而交互設計，則在於定義這些人造物的行為方式(the "interaction",即人工製品在特定場景下的反應方式)的相關界面——比如手機的界面交互。

我們日常生活中也有著各種各樣的交互場景。比如，當我們走進一家餐廳，我們面對的交互場景可能是這樣的： ??

你在服務員的引導下落座，然後開始看菜單，接著開始點菜——點菜的方式可能是自己勾選/填寫菜單，或者你說出菜名，服務員記錄。在很多餐廳，也是你勾選好菜單，服務員再念一遍菜單，跟你確認一遍。

因為第一種「文本交互」方式比較慢，不能很好的解決問題，所以人們很自然的選擇了後一種交互方式。即使在過去的十幾年互聯網開始普及的時代，人們還是在生活中不厭其煩的使用這些傳統的交互方式。

直到最近幾年，我們慢慢看到了一些更高階的語音交互在一些場景中慢慢出現——比如大家所熟知的Siri，比如前一段時間和鎚子M系列一起火起來的訊飛語音。

所以大多數人說到語音交互時都會說：這很方便。但是你要說具體方便在哪裡，又說不出來。其實語音交互的玄機非常之多。

1. 單位時間語音比文字傳遞信息更多更方便

這個很好理解。有聲書的播放速度通常為每分鐘150-160個詞，這個語速剛好能讓人聽明白；電腦打字是每分鐘33個詞；而手寫是每分鐘19個詞。單位時間內，語音比文字所能承載的信息要多5倍以上。最重要的是，語音調用的器官是嘴巴。所以在很多情境中，如果你只用嘴巴說，那麼你的雙手都能被解放出來。即使在大雨天你撐著傘匆匆行走的時候，通過語音交互你也可以很方便地進行交流和操作。

2. 語音交流更符合人類本能

嬰兒都是先學會說話，後學會寫字和閱讀的。從人類演化的角度，手勢和語音也是先於文字產生的。人在看書的時候，也經常會不自覺地把眼中的文字轉化成大腦中的語音，儘管這種閱讀方式不一定高效，但這依然是人類本能的習慣。

3. 語音識別技術的發展給語音交互帶來了可能

2011年10月，蘋果發布iPhone4S，第一次正式地向大家介紹了siri這個語音助手。2012年6月，Google在Google I/O大會上推出了Google Now，可以在安卓手機上使用的語音助手。從行業角度看，語音識別技術的逐步發展和完善給語音交互奠定了良好的基礎，互聯網從業者可以藉此嘗試不同領域語音交互的可能性，探索這種更符合人類本能的交互和理解方式。

以前，起床後我們會翻看手機里的時鐘和天氣等信息。但自從蘋果添加了hey siri之後，只需要說「hey Siri，現在幾點鐘了？」或是「hey Siri，今天溫度怎麼樣」，你就可以應道Siri的回復。而與此同時，你可能是在進行穿衣、洗漱、烹飪等其他行為，而不用專門停下來去查閱某些信息。

但是，語音交互也有自己的局限性。這就決定了，在一些特定的情境中，它也許並不適合交互。

第一，語音是難以編輯的。文字可以刪改，這種刪改是能最小到一個字母或文字的，比較簡易。但是語音就很複雜了，你說了一段話，覺得不合適，必須得放棄發送或重新輸入，才能實現「編輯」的特性。

第二，在需要安靜或者私密的場景下，語音反而不適合。這點很容易理解。

當然，語音交互與傳統的文本交互並不是一個互斥的，非此即彼的關係。語音交互在某些場景會慢慢成為主流，而有些場景則能成為文本交互的補充。他們是可以「共生共榮」的。

相信在不遠的將來，那些電影里習以為常的語音交互場景也會慢慢走向大眾，為大家提供更好更便捷的服務。至於會不會發展到《西部世界》里那麼「高階」的程度，只有期待未來的到來了。

------------------------------------------------------------------------------------------------------------

最後推薦下我們最近做的和設計相關的語音交互產品——TezignX：http://x.tezign.com/ 這是一次小小的嘗試。直接對著手機錄入你的設計需求，我們就能幫你推薦你需要設計師。提醒一下，這款產品暫時只支持微信瀏覽器哈。

有興趣的朋友不妨嘗試一下哈，期待賞臉，也歡迎批評建議。

語音交互會變成未來的主流交互方式

一，交互方式不斷更迭

首先我們必須意識到交互方式是不斷更迭的，過去40年，我們從Dos操作系統到施樂（Xerox）的圖形化界面（GUI）再到移動設備的觸控交互，人與機器的交互方式都在不斷更新優化，而且每10年都會有一次更迭，而現在距離第一代iphone已經過去10年，我們不會一直停步在觸控交互上，一定會有新的交互方式出現。

二，為什麼是語音交互

那麼為什麼下一代交互方式是語音交互呢？

1，首先根據米格爾的Beyond Boundary 腦科學界著名的「感觀侏儒（sensory homunculus）圖」，我們可以發現手和舌頭是人最靈活的兩個部分。（前面 @井號鍵也有提到）

2，語音交互的優點

快速：GUI下設置一個鬧鐘可能需要3分鐘，而語音交互下只需要30秒。（可以試試讓Siri設置一個鬧鐘）
簡單：釋放雙手，不需要去繁瑣的打開app，找到一首歌，然後點擊播放，可以一邊看書，一邊說「放音樂」「下一首」。
個性化，上下文驅動：可以根據之前的背景，理解問題
成本低，尺寸小：需要麥克風，揚聲器，處理器等，而這些設備的相對低價，提供了喚醒萬物的前提

4，哪些場景適用語音交互？

家裡，2016年，43%美國人的語音使用場景是在家裡，相比通過打開App，通過語音去放歌，控制家居是更便捷的方式
車上：在美國，36％的用戶是在車上使用語音設備，相比操作手機的不安全性，語音交互也具有絕對的優勢。
路上：19％的用戶表示在路上會使用，在習慣了所有人都埋頭看手機走路後，能夠一邊語音控制播放歌曲,查收郵件，會更方便（不信試試Airpods，你會再也不想一邊走路一邊看你的手機）

三，數據驗證

通過前面，我們發現語音交互有能力成為下一代的交互方式，最後我們再通過數據來驗證這個結論。

1，語音助手

從2011年 Siri發布以來，各大公司紛紛入局語音助手，根據BCC research的數據 2014年語音助手的市場規模為 5.85億美元，而2024年將會達到81億美元

Most of the tech giants, as well as numerous startups, are racing to develop or improve AI- powered personal assistants. According to a study by BCC Research, the market size of digital assistant systems stood at $585 million in 2014, and is expected to grow to $2.2 billion in 2019 and to $8.1 billion in 2024.

2，語音搜索量

谷歌語音搜索較2018年增長35倍以上，較2010年增長7倍
百度語音2014年起，輸入增長4倍，輸出增長26倍

3，語音硬體

以智能音箱為例，根據 VoiceLab的數據 2015年銷售了170萬台，2016年銷售了650萬台，預計2017年銷售2450萬台。其中2016年Amazon Echo銷售超過400萬台（同時亞馬遜也在9 月 27 日，在西雅圖推出了第二代智能音箱家族：Echo、Echo Plus 和帶屏幕的 Echo Spot，分別針對入門需求，智能家居需求以及桌面端的智能音箱需求。）

In 2015, there were 1.7 million voice- rst devices shipped1. In 2016, there were 6.5 million devices shipped2. In 2017, there will be 24.5 million devices shipped, leading to a total footprint of 33 million voice- rst devices in circulation.

大頭紛紛入局，比如微軟的Invoke（搭載Cortana），Apple的 HomePod，谷歌的 Google Home，阿里的天貓精靈，百度和小魚在家的合作等，也都很大程度說明語音交互趨勢。

四，結語

最後，用互聯網女皇的一張圖說明，

Computing Industry Inflection Points = Typically Only Obvious With Hindsight iPhone Sales May Have Peaked in 2015...While Amazon Echo Device Sales Beginning to Take Off?
計算機行業的拐點，通常都是後知後覺，2015年iphone的銷量或許碰到了天花板，而與此同時亞馬遜Echo的銷量或許開始起飛？

作為在智能硬體行業從業多年的創業者，也在往語音方面發展，算是比較了解語音交互。

我的明確回復是：語音交互不會成為主流交互方式，只會成為未來交互方式中的一種。

正好7月15日周六參與了深圳地區的語音交互的峰會，國內語音智能行業的大佬到場了很多，話題和內容都是關於語音交互的。內容都是關於語音智能方面的，分享會非常棒。

1、語音交互不會成為主流交互方式，只會成為未來交互方式中的一種。

不能說語音是一個主流的交互方式，因為語音能傳遞的信息量比較有限。

耳朵是人的一個主要器官，但不能說耳朵是最重要的器官。但眼睛、視覺的用途佔70%，信息交互的，嘴巴跟耳朵屬於說、傳、收這樣的人機交互，人與人之間交互的模型。語音可能佔20%，還有觸覺、嗅覺可能占剩下10%的百分比例去分。

說到語音交互，現在討論的重點其實是人機交互，人跟機器、人跟雲端的交互。未來的所有設備都是智能化的，有雲端，有語音，可能是有屏幕，可能是要動手的。

到底什麼是主流的交互方式，個人覺得是要分發展階段和分使用場景的。

分階段的意思是每個階段的主流交互方式不一樣。比如說現在人機交互主要還是鍵盤跟觸摸屏，有可能應該說觸摸屏是一個主流的，因為行動電話的數量是超過電腦，所以說現在觸摸的方式、手指的滑動、點擊這些方式是人機交互目前這個階段主要的交互方式。

還有使用場景。比如說在家裡面，看電視時人機交互主要的方式是遙控器。那你在使用這種目前比較火的智能音箱時，那你交互方式可能就是語音，在這個場景下就是語音。

但語音本身就有很多限制，剛才提到的一個是本身傳遞的信息量是有限的。第二個是語音交互效率是比較低。同一件事物，人眼去看和人耳去聽，視覺接受的速度遠遠超過語音的速度。

而且語音從另外一個層面來說，它也只適合去聽一些聽覺上的東西，比如說在做事情、忙事情的時候去聽一聽。語音他不能幫你去洗衣服、幫你去做飯，他也不能說幫你去看電影，它只是說是目前這個階段，人機交互的一部分。

所以說不能，不能說目前語音交互的智能音箱概念很火，就認為語音交互會成為主流的交互方式。

只能說，在某一個場景或者某一個階段，它必然會成為一個很大的比較合適的一個交互方式。

因為音箱概念一火就產生了很多泡沫，認為所有的東西都可以語音交互，這其實是不符合常理的，所以說不能說語音交互會是未來主流的交互方式，只能說是在某個階段某個場景下，它會是一個比較合適的交互方式。

在未來的人機交互可能不一定是我們現在所理解的語音或者視覺，他有可能是通過神經元的直接連接，它有可能那種方式是一個主要的方式，有可能是我們的人體的一個動作的識別，它是一個主要的交互方式。

2、在未來某個階段，什麼是主要的人機交互方式呢？

目前來說，還不能太確定未來的主流交互方式。有一個原則，效率最高的交互方式它絕對是最適合的交互方式。未來可能神經元是效率最高的,不需要看，直接就能把人的意識或者想法數據化傳遞到雲端。

未來神經元要用什麼載體來表現？大概是可穿戴設備之類的產品，或者就是一塊晶元，貼近皮膚或者是植入皮膚內。這個現在也說不準，因為現在還沒解決意識到底能不能轉化為數據。

現在腦機交互很多公司也在做，所以說語音只是其中一種，不能認為它火就能取代所有，很多情況下觸摸或者點擊比語音要快多了。

按亞馬遜的統計，Echo其實90%用途都是在聽音樂，這個場景就是智能音箱，相當於音箱的場景下面語音是比較合適、方便。在其他方面比如說購物，語音充話費是可以的，但是說你要是去買件衣服它就沒有辦法了，因為購買衣物可選擇性太多，需要作出大量的判斷，使用它是有很大的限制。語音交互易於解決的問題，是固定模式、簡單、不需要多重主觀性選擇的事情。比如交話費、交水電費、設置鬧鐘、播放音樂。

國內現在有做得比較好的語音交互公司有科大訊飛、雲之聲、思必馳、百度等。語音交互，包含了語音識別和語義解析這兩個基本技術。解決了語音識別問題，後面語義的解析也是非常關鍵的。國內這幾家推出的智能音箱，像天貓的智能音箱，語義的解析這塊其實還有很長的路要走，在語音識別這一塊他想要達到跟人類似的自然的交流，距離還是挺遠的。

所以現在智能音箱只能說他是成為一個控制類的入口，就是我通過語音控制去做什麼事情，這樣子的。

3、以後的語音交互的話，他最終會最大程度就是展現在什麼產品上呢？是手環？眼鏡？智能手機？還智能音箱？

語音交互有幾個核心的技術：語音的識別，近場、遠場；第二個就是噪音的抑制，語義的解析。

這些技術逐步發展之後，從硬體的成本它會降得很低，那麼語音交互技術會變成模塊化，未來所有合適使用語音交互的地方都會加上語音交互這個功能，不僅僅局限於智能音箱，還包括機器人、智能家居等。

從技術上解決成本降低，語音交互就會變成智能硬體上一個標配的功能。以後就沒有所謂的智能硬體，因為所有的硬體都是智能的，以後在硬體上如果合適的話，都放增加語音交互的入口。

-------------------------------------------割、割、割、割-----------------------------------------

既然已經看到了最後，不妨再花一秒時間掃一眼。

埃微，做手腕上的語音助手，立足於「智能硬體+語音交互」這個細分非常有潛力的方向，目前正在尋找這方面的人才加盟。有興趣做語音交互和智能硬體方向的人才，可以私信交流。

回望並不遙遠的歷史：收音機、電視機我們通過按鍵操控，PC通過滑鼠、鍵盤操控，功能手機開始是用按鍵交互，蘋果橫空出世後觸屏操控，延續至今。

iPhone 4S推出Siri，但日常使用的人較少。如果以前日常使用語音交互的人只有1%，那麼普及到20%、50%呢？這是一個極大的增量市場。

對一些特定場景，語音交互更具優勢，比如：開車時，語音有成為智能汽車主流交互方式的潛質；記者採訪快速錄入和轉文字；微型智能設備，如植入晶元、智能紐扣；VR採用手勢識別+語音控制；家庭機器人。

之前的交互方式不會迅速沒落，但日漸成熟的語音交互會搶佔一部分增量市場。

語音的信息傳輸速度太慢，我相信腦後插管的可能性更大

我從主頁到看到你這個問題大概拉了4次滾動條
知乎要是改成語音交互的話，估計我「聽」到你這個問題要花幾個小時吧。。。 = =|||

首先說結論：

語音交互不會成為所謂未來的主流，只能說在適合語音交互的情境和任務中會成為主流的交互方式。

（其實我覺得泛泛而談主流本身就是個ill-posed question嘛）

首先，任何交互方式，都有其優勢和劣勢。針對不同的情境，不同的任務，不同的人，甚至是同一個人在不同時間，最適用的交互方式都會不盡相同。

其次，即便使用某種交互方式能夠最便捷地完成當下的任務，在特定的歷史條件下，其技術成熟度、普及程度以及諸多其他因素，仍然會對它能否成為主流產生影響。

語音能夠達到交互的預期，簡單說來需要滿足三個前提：

1、計算機獲取的聲音素材達到一定的可辨識度

2、計算機已經掌握足夠豐富的自然語言語義

3、人提供的信息足夠明確

前兩個條件，是語音交互自身固有的限制。

拋開第二條匹配自然語義這類技術問題不談，第一條決定了語音交互無法適用的情境：

1、人不能夠發聲（隱私或是環境本身的要求）；

2、環境音（包括其他人聲）過於嘈雜。

而這兩種情境在我們的生活中不算少數。

第三個條件，是人類思維和語言表達固有的限制——「我想的不是這樣的，但我又不知道怎麼把我想的給表達出來」。

面對諸多日常任務，語音能夠發揮的作用並沒有想像的那麼大。如在製表、繪圖等操作精細度高、步驟複雜或者帶有創造性和隨意性的任務中，語音頂多只能起到輔助交互的作用，因為單單讓人去組織語言，規劃好步驟，清楚地描述出來，就會非常耗時間。

而對於很多目標明確、路徑直接、不要求精度的小任務來說，語音的優勢會非常明顯。尤其是這種小任務本不應佔據人們的注意力，但是你不去做它還不能繼續進行主任務時。使用語音能夠幫助人們去專註於複雜的主要任務，而諸如換個筆刷啊、鑽頭抬高點兒啊這種雜事兒，能通過語音讓計算機去解決真是太讓人省心了。

滑鼠和鍵盤已經問世多少年了，新的交互方式層出不窮，但它們還是大多數人與計算機打交道的必備中介。觸控也許稱得上是交互的變革，但也沒有顛覆對於初學者而言不易上手的滑鼠和鍵盤。因為二者各有各的適用情境，本沒什麼必要爭個高下。

畢竟對於我們來說，能夠又快又好地完成任務就好了嘛！管他那麼多。

其實資訊理論這門課可以回答這個問題。
中文和英文的信息冗餘量大概是70%多(如果我沒記錯的話)
那就是說語言本身傳輸信息效率就不高，更何況還有更多方便的信息傳播方式。
所以我感覺。。。

關鍵是，我不喜歡說話。。