自然人機交互到底「自然」在哪兒？| 硬創公開課（附視頻）

01-28

無論是開創智能手機時代的 iPhone，還是如今很熱門的 VR/AR 和人工智慧，再到蘋果新 Macbook Pro 的亮點 Touchbar。人機交互的創新是消費科技產品進步的核心。

而在這個領域，近些年最流行概念的大概就是「自然人機交互」了，蘋果多點觸控交互設計，VR/AR 里的動作捕捉、空間定位，人工智慧產品時常用到的語音交互，都強調 Intuitive interface，也就是直觀、自然的交互體驗，不需要太多學習就能上手。

但如果要推出一個自然人機交互設計，到底如何才能體現其中的「自然」這個詞呢？實際上，雷鋒網發現，當下許多號稱自然的產品交互，並沒有得到用戶青睞，為產品加分，反而成為被詬病的對象。

如何破解自然人機交互中的自然，是許多產品開發者需要掌握的知識。為此，雷鋒網邀請了小小牛創意科技創始人，自然人機交互技術國際專家曹翔，來講解自然人機交互到底「自然」在哪兒？

嘉賓介紹

曹翔，博士，小小牛創意科技創始人，自然人機交互技術國際專家。曾任微軟研究院研究員，聯想研究院總監、主任研究員。清華大學計算機系學士，加拿大多倫多大學計算機系碩士、博士，英國劍橋大學Fellow。

以下內容整理自曹翔在硬創公開課的分享。

公開課視頻： 113期：直播小程序開發，1小時從入門到上手 | 硬創公開課 - 騰訊視頻 https://v.qq.com/x/page/p0365xy2d7u.html

自然人機交互（NUI）成了這些年業內的時髦詞，手勢、語音、觸控、眼動……各種新的界面操作方式從實驗室里飛進了千家萬戶。可到底什麼樣的界面才算得上自然？是不用滑鼠鍵盤，看著很炫的，還是有更微妙的含義？根據自己在人機交互領域研究的經歷，以及從同行那裡得到的許多啟發，聊聊對自然人機交互的理解。

常見的理解

不管是有意識的還是無意識的，談到自然人機交互，人人心中都有一個或清晰或模糊的理解。這些形形色色的理解都各有各的道理，但往往又有不盡然的地方。要探討什麼樣的界面是屬於「自然」的，就不妨先從人們常見的一些理解出發，看看它們各自正確和不足的地方在哪裡。

自然人機交互等於「新」模態界面嗎？

的確，許多自然人機交互的成功例子，譬如微軟的體感遊戲設備（Kinect）、Surface交互桌面和任天堂的Wii遊戲等等，都運用了手勢、語音、多點觸控等交互模態，甚至同時結合了多種模態。那麼，是否使用了這些模態的界面就一定是「自然」的？恐怕不盡然。

我想不少人都能舉出使這些「自然」模態不自然的場景。譬如語音操控：很適合於私人空間，而在公眾場合卻可能帶來尷尬。再如手勢界面：大家對電影《少數派報告》中主人公揮舞雙手操作大屏幕界面完成每日工作的場景也許不陌生，這幾乎成了大眾心目中自然手勢界面的代表。

然而據這一場景的設計者說，在電影拍攝過程中，身體健碩的男主角卻因為不堪長時間舉著雙手的疲勞，不得不用鋼絲吊著胳膊完成拍攝。這直接印證了手勢界面對於日常工作場合併不一定自然，儘管它在Kinect家庭遊戲中早已備受歡迎。相反，一些較為傳統的交互模態，譬如滑鼠和鍵盤，在其特有的使用情境中卻有著強大的生命力。

其實，自然人機交互並不是一個嶄新的概念，而是自計算機誕生之日就存在，並不斷地發展。作為計算機同行，一定對計算機界面更迭的歷史都耳熟能詳：從穿孔卡片到命令行再到圖形界面，每一代界面的出現都比前一代更為自然和直觀，但也都花費了相當長時間才成為主流。

與之前的主要針對桌面計算機和工作環境而設計的界面相比，今天的用戶界面所面臨的是多樣化的使用情境：移動、遊戲、社交等等不一而足。而在何種情況下選擇何種模態進行交互才是最自然的，這是每個人機交互從業者必須面對的問題。

自然人機交互等於模仿人的界面嗎？

在科幻電影中，經常會出現計算機模仿人的語音與用戶進行交流的場景，有時計算機甚至會模擬人的形象，以虛擬助手的形式出現在屏幕上或現實世界中。

無疑，這樣的擬人化界面可以讓用戶與計算機交流就像與他人交往一樣，很多情況下的確會感覺更為自然和親切，甚至有可能在人與計算機間建立情感上的聯繫。它特別適用於用戶其它交互渠道（譬如手眼）被佔用，或是需要計算機提供智能化幫助的時候。

但這種方式也有局限，在日常生活中，許多時候我們所做的事情並非與人交流，而是直接去操縱物理世界：比如直接拿起筷子吃飯就會比告訴別人怎麼把食物喂到嘴裡更為自然。同理，對於某些活動，用戶直接操控界面也會比間接地通過擬人化交流更為自然和高效。

自然人機交互等於模仿物理世界的界面嗎？

那是不是模仿人與物理世界交互方式的界面就更加自然？實際上，當前通行的許多界面模式，都是建立在物理世界概念的基礎上的，比如Windows圖形界面和文件夾組織結構，就是對真實辦公桌的一種模仿。還有不少研究人員探索了如何把物理模型引入用戶界面用於驅動交互的過程，甚至把真實物體作為界面的一部分，通過操作物理實體與計算機進行交互，即實體用戶界面（tangible user interface）。

這些基於物理世界規則的界面能讓用戶完全地按照操作真實物體的方式與計算機交互，省去了不少學習時間，在一定意義上提供了最大限度的自然。

但如果純粹模仿物理世界，也會遇到瓶頸，那就是真實世界本身受到各種物理定律和客觀條件制約，我們在複製它的種種直觀屬性的同時，也複製了它的種種限制與不便。這在某些情況下恰恰犧牲了計算機的靈活性，使用戶失去了軟體界面本來所能提供的自由空間。

而在這一點上，大家熟悉的多點觸控界面中用兩個手指操作圖片或者其它虛擬物體的手勢，並沒有拘泥於物理操作，而是在平移和旋轉這兩個完全符合物理常規的操作之中，加入了縮放這一在真實世界幾乎不可能的操作，形成了一個無縫的自然交互方式——多數用戶在使用它的時候可能甚至從來沒有意識到這一點。可以說，自然人機交互應當源於真實，高於真實。

自然人機交互等於不用輸入設備的界面嗎？

如果我們關注最近的一些被稱為自然人機交互的產品，無論是使用手勢、語音、觸控，甚至是腦電波，他們的共性似乎是不需要專門的輸入工具，而用身體的某一部分來直接進行操作。這是否是一切自然人機交互的大勢所趨？

一方面，人的手和身體本身就是極為靈活的工具，不需輔助就可以勝任許多通用型的任務，這正是今天許多無需輸入設備界面的基礎；但另一方面，物理工具的發明恰恰標誌著人類的進化。

各式各樣的工具造就了人類從事各種專門活動的能力，而每一種工具的設計和使用方法都最大可能地為其支持的活動做了專門的優化，本身就是「自然人機交互」的典範。

最好的例子莫過於形形色色的筆：比起用手指寫字，用筆寫字實際上更好地利用了人多個手指靈活配合和控制的能力，大大提高了書寫的準確和豐富性。同樣的道理，在今天的計算機使用中，特別是對於許多專門性的活動，一套設計合理的輸入設備（例如數字筆）也可以延展人的能力，從而提供更加自然的界面。

上述各種理解有一個共性，那就是它們都是將某一類特定的交互模式等同於自然人機交互。而實際上，「自然」並不是一個絕對的概念，無法拋開情境來下結論。上述提到或沒提到的每一種交互模式都在某些使用情境中成為自然界面的典範，但在另一些情境下卻又可能顯得不那麼自然。

在尚未了解界面所要支持的用戶、活動和環境的前提下，幾乎無從判斷它的自然與否。正如人機交互研究的一位先驅比爾?巴克斯頓(Bill Buxton)所說，「不論是什麼東西，都對某些事情最好，而對另一些事情最糟。」

那麼，自然人機交互能否有一個普適的標準？

一些研究人機交互的同行提出了一個有趣的問題：自然用戶界面這個詞，究竟是自然的「用戶界面」還是「自然用戶」的界面？乍看起來這是個文字遊戲，答案也許並不重要。但這個問題的提出，為回答前一個問題指出了一條方向，那就是對自然人機交互的衡量，並非取決於界面的交互模式，而是取決於用戶自身的體驗。

自然源於體驗/經驗

在英文中experience既有體驗又有經驗的意思。而在討論自然的用戶體驗時，正要從用戶的經驗說起。這乍聽似乎有些矛盾：自然人機交互不應該要求用戶沒有任何經驗嗎？不錯，對界面本身而言，讓用戶在沒有經驗的前提下上手，讓學習過程盡量縮短，這正是自然人機交互的主要優勢之一。而這裡要談的，是另一種經驗——對現實生活的經驗。

具體解釋之前，先講講我的兩位人機交互同行親身經歷的故事。

一位印度的同行為當地用戶設計了一組用數字筆操作的界面。在進行用戶測試時，他對其中一位用戶說：「請拿起筆碰一下屏幕。」出乎他意料的是，這一看起來十分簡單自然的操作，居然出了問題：這位用戶沒有用筆尖，而是把筆橫過來整個貼在了屏幕上！經詢問才知道原來他不識字，也從沒用過筆。

而另一位歐洲的同行為家庭用戶在交互桌面上開發了一套軟體，包括一些直觀的手勢交互，例如用兩個手指相反方向移動做打開的手勢來打開一個虛擬的儲物箱。當他向用戶家庭演示時，他想考考這個家中正上小學的孩子：「你試試看怎麼打開這個箱子？」孩子二話不說，直接用食指在箱子上雙擊！

從這兩個例子可以明顯地看出，對於用戶而言什麼是自然並不等於與生俱來，而是在很大程度上取決於它們之前的生活經驗：前者因為沒有用筆的經驗，「自然」的操作對他毫無自然可言；而後者由於從小與電腦和滑鼠打交道，「不自然」的操作對他卻是再自然不過。

同樣的道理，我們平時覺得自然的事情，不論書寫、語言、手勢，還是觸摸，恰恰是來自於若干年積累下來的經驗或者有意識無意識的人為訓練，當然也包括對真實世界物理規律的經驗，和對已有計算機界面模式的經驗。這些訓練和經驗，有些是較為廣泛地為所有人所共享的，比如物理規律；而有些則與用戶所屬的社會文化群體息息相關，正像上邊所舉的兩個例子。

由此可見，如果想讓用戶儘快上手，恰恰要建立在用戶已有生活經驗的基礎之上。縮短了的界面學習過程，正是因為借用了此前若干年用戶學習其它相關事物的過程。於是，了解目標用戶群體已有的經驗，並試圖讓交互方式與這些經驗相一致，就成了設計自然人機交互的關鍵。

實際上，在人機交互中非常強調的「隱喻（metaphor）」概念，正可看成是這種思想的一種體現。隱喻指的是把用戶界面中的概念比擬為一種人們熟悉的概念或現象，用於解釋其交互方式，例如將圖形界面元素比喻為大家熟悉的桌面、窗口等等。隱喻越貼切，越為用戶熟悉，往往就意味著界面越自然。

當然，界面設計不可能也不應當完全局限於人們已有的經驗。有時，界面所涉及的活動並沒有直接對應的現實經驗可以借鑒；有時，拘泥於已有經驗會失去了界面設計的靈活性和創新空間。

如何確保用戶界面在超越已有經驗的同時，又不失其自然呢？這裡要涉及到人機交互中另一個與用戶經驗息息相關的概念，即思維模型（mental model）。它是用戶腦中對所進行的具體活動機制的一個抽象，源於經驗，又高於經驗。

還以多點觸控中的兩指操縱手勢為例，根據物理經驗，真實的物體無法被縮放，但基於平移和旋轉的經驗，用戶抽象出的思維模型則是無論手指怎樣移動，物體上固定的兩個點始終對應於兩個手指的位置。縮放操作正是這一思維模型的直接的推廣，而這也是廣大用戶在使用這一操作時沒有感到任何不自然的原因。

由此可見，理解用戶已有的思維模型，並加以外推，不失為設計自然人機交互的有效方法，也可以覆蓋大量的用戶原本沒有經驗或預期的使用情境。這樣設計出的界面可以說是「情理之中，意料之外」。

基於這些討論，不妨試著給自然人機交互一個定義：自然人機交互是與目標用戶群體在預期使用情境下已有的經驗或思維模型相符的用戶界面。雖然與許多常見理解相比，這個定義少了「新」和「炫」的成分，但它在某種意義上也許更加貼合自然的本義：往往是「無招勝有招」，一個理想的自然人機交互應當能讓用戶的注意力完全集中在所要從事的活動上，而忘記界面本身的存在，或者說，界面變得「透明」了。

實踐嘗試

下面介紹一些我們在自然人機交互研究方面的嘗試。雖然這些例子未必在自然方面做到了完美，但希望能以它們來直觀地映證前文的一些思路。

所握即所得的數字筆

數字筆在設計、藝術等行業內廣泛採用，相比滑鼠等其他輸入設備，對於從事視覺創作人群的自然性不言而喻。但今天的數字筆已經完全自然了嗎？如果我們看看現實中這些人群用於創作的物理工具，卻遠不止一支筆這麼簡單。

他們要用到的有鋼筆、毛筆、素描鉛筆、刻刀、尺子等等工具。雖然這些工具形狀相仿，卻每一件都是為了特殊的功能而專門設計的，讓使用者用起來得心應手，最為自然。

雖然從軟體上用同一支數字筆在畫板上模擬各種工具的功能並不困難，但卻在一定程度上缺失了每件物理工具使用的自然性。專用工具的自然，與通用工具的便利，有時看起來確實是一對矛盾。如何在這兩者間取得平衡？答案依然要來自對現實經驗的觀察：當人們使用物理工具時，手握的方式都不盡相同，鋼筆和毛筆的不同握法就是最好的例子。

而每種握法，也正是為了最舒適地完成相應的功能而優化的結果，這些握法本身就是自然性的體現。由此，如果我們能在同一支數字筆上，通過識別用戶不同的握法來自動提供不同的功能，那麼用戶就不必再刻意地選擇不同的工具（無論物理工具或是虛擬工具），而只需要關注想要完成的功能，相應轉換到最為自然的握法，便可以直接開始使用這一種功能。

這樣，用戶不管從思維上還是操作上都跳過了工具選擇這一步，可以說，工具變得「透明」了。基於這一想法，我們研製了一支「所握即所得的數字筆」，通過在筆上附加多點觸摸和方向的感測器，可以識別出用戶十餘種不同的握法，並在數字畫板上提供相應的功能：鋼筆、毛筆、印章……甚至超出視覺創作的範疇，譬如模擬笛子等不同的樂器，從而使用戶使用數字筆的體驗更為自然和豐富。

ShapeTouch: 從多點觸控到形狀觸控

多點觸控中的兩指操縱手勢作為自然人機交互設計的範例，本身也面臨著挑戰。試想一下，如果不是在觸摸屏或交互桌面上，而是在物理世界中操縱真實物體時也同樣只用兩個手指去移動和旋轉，是否還那麼自然？

人手是一件極為靈活的工具，我們在與物理世界交互時，會根據物體的特性（形狀、重量等）和操作的目的（精細或是粗略，局部或是整體，等等）而採取不同的接觸方式。我們的手能夠完成的極其豐富的操作，遠遠超過多「點」觸控的範疇。

那麼，怎樣才能讓對虛擬物體的觸控操作也像物理世界中那樣豐富而自然？關鍵在於對於觸摸輸入的理解不能再簡單地將其抽象為多「點」觸摸，而是要保留接觸面完整的形狀與大小的信息並由它來決定交互的結果。因為在物理世界中，正是這複雜多變的接觸面把人手的各種操作傳遞給了物體。

ShapeTouch系統正是為了展示這一概念而推出的。它通過對人手接觸交互桌面的形狀、面積、以及運動信息的分析，模擬出對所接觸到的虛擬物體所應產生的作用力，譬如推力、壓力、摩擦力等，從而產生出與物理世界相符的自然操作效果。

為此，用戶不僅可以把若干年來與物理世界打交道積累下的豐富經驗直接運用於與虛擬物體的交互，還可以像在物理世界中一樣不假思索地將各種動作同時組合起來，完成更為複雜的操作。而這些操作方式並不僅局限於圖片等有著具體物理對應的虛擬物體，也可以應用到按鈕、滑動條等界面元素中，把用戶來自具體物體的思維模型擴展到抽象的操作中去。

Q&A 環節

Q：謎鏡（雷鋒網(公眾號：雷鋒網)註：小小牛產品）的實現原理是怎樣的呢？這款產品挺有意思的。

A：謎鏡借薦了孩子認識世界的方式，孩子沒有大數據，他不認識世界上每樣東西，但他會理解世界上一些本質規律，比如物體的形狀、顏色、運動方式。我們也是用這種方式把世界上的東西分解成更加本原的元素，通過引擎去應對孩子創造的東西。這些東西可能是完全沒有見過的，但沒有關係，只要它符合基本的規律，通過計算機視覺和圖像處理，我們可以把它們分析出來，就可以跟它進行交互。

Q：很多公司都想在觸摸屏上應用觸控筆，但觸控筆的應用卻一直很窄，這是為什麼？

A：觸控筆這件事是個很好的問題，就像我剛才提到的。筆，由其是數字筆，適合非常專業化的工作。設計師幾乎離不開觸控筆，筆實際上非常適合做一些非結構化的創作，比如畫畫，或者是不遵從一定排版的創作。但反過來說，我們大部分人在電腦上做的是結構化的創作，比如輸入文字，排版，做表之類的。這種情況使用滑鼠、鍵盤作為輸入設備效率會高很多。所以還是那句話，觸控筆適合非結構化輸入，滑鼠鍵盤適合結構化輸入。

Q：自然人機交互最近的研究熱點和研究趨勢是什麼？近期跟VR相結合的研究工作有哪些？

A：人機交互的一個大趨勢，不管在什麼樣的情境下，目前一個共同的趨勢就是虛擬與現實的邊界越來越模糊。也就是大家所說的增強現實的概念。

VR對新的交互方式有非常大的需求，因為在VR的環境下滑鼠鍵盤是用不了的，不管是手勢、語音、眼動，剛才提到的各種方式，其實大家都在探索怎麼去跟VR結合。當然也並不是簡單地結合，同樣要考慮使用情景。

另外比較有意思的是，現在不再是單純地把環境用虛擬去替代，而是在VR環境里引入現實世界的一些元素，比如在頭盔上加上攝像頭去捕捉身邊環境的元素，放置到虛擬場景里。甚至於它會利用到身邊實體的物體來生成一些觸感。這方面有一個比較討巧的辦法，通過識別真實場景中的物體，再生成一個虛擬世界的代表，來製造觸覺，也是比較有意思的一個研究。

當然我剛才說是跟交互方式有關的研究，而關於VR交互體驗的研究已經是存在幾十年。其實目前的VR從生理上就有個不太自然的地方，現在VR的立體視覺是通過兩個眼睛看到不同的圖像來生成的，但在真實物理世界裡，其實我們觀察一個3D的世界，並不僅僅是通過這一個信息，還會通過雙眼的聚焦，還有兩個眼睛看的方向在某一點的匯聚，等等。而目前的VR顯示無法模擬所有這些方式，所以也造成眩暈等現象。這也是新的顯示技術，所謂光場顯示在解決的問題，讓顯示更加自然。

Q：輸入中語言和非語言交互，差距很大吧？如果二維屏幕之後很難再有統治性人機界面，關鍵在於人的大量交互方式屬於語言交互，比如自然語言和編程語言都是。

A：語言和非語言交互各有優劣，語言非常適合做抽象概念性的交流，比如討論一個哲學問題，除了語言沒有別的辦法了。但反過來說，語言也有非常不擅長的事情，比如做一些空間上的操作，假如你不能用滑鼠也不能用手了，那麼要用語言操作去點屏幕上某個地方會非常累。

Q：您怎麼看蘋果在Touch Bar上，以及3D Touch做的努力呢？

A：我覺得Touch Bar也好，3D Touch也好，是交互中另外一個原則的體現，就是高效的但需要一定學習成本的方式。因為Touch Bar和3D Touch對應的都是比較抽象的交互方式，並不是像屏幕上選擇圖標那樣，先認識一個圖標再選擇它，而是把它作為一個快捷方式，腦子裡要有一個大概的觀念，知道它做了之後會有什麼結果，習慣以後效率會很高。

人機交互里有Recogntion VS Memory的概念。有一些操作是基於把所有選項選擇呈現在眼前，然後作個選擇，有些操作則是要記住一些操作，就不再有選擇的過程，是直接把命令交出去。兩者各有優劣，前者更加自然，容易上手，後者效率更高，因為你不再面臨選擇，只需快速做這一個操作就好，但上手成本更高。所以很多時候交互面臨選擇，是更在乎易學還是高效。而這也和面對的場景有關，初學者和專業人士，前者可能更在乎易學，後者更在乎高效。

這也是為什麼現在很多程序員仍然習慣用命令行去操作的原因。

Q：觸摸屏之後，您覺得下一個大的人機交互方式會是什麼？

A：實話實說，我覺得觸摸屏可能是我們見到的最後一種統治性的交互方式了，因為未來的交互情景已經越來越多樣化。觸摸屏本質上還是一個圖形界面交互，跟我們滑鼠鍵盤在屏幕上的圖形界面是一樣的，相對來說，只要是屏幕的交互它還是可以勝任。但反過來說，未來各種多樣化的情景，可能再也不會出現一個像屏幕、圖形界面這樣相對來說放之四海皆準的交互方式。像語音、手勢都會找到它特定的場景，越來越多樣化。

剛才提的很多問題都集中在輸入的方式，其實我覺得某種意義上電腦能捕獲人類的輸入方式的種類是有限的，基本上就是觸摸、語音、手勢這些，人能做的基本就是這樣。但反過來說，在輸出、顯示這些技術上，將來能發揮的空間更大，好比說人眼睛能接收的可能性幾乎是無限的，它不僅能接收物理世界的東西，還能接收各種虛幻的影像。尤其在顯示這塊，我覺得將來能玩的可能性還很多，而且也不僅僅是視覺，還有聽覺甚至是觸覺。

雷鋒網原創文章，未經授權禁止轉載。詳情見轉載須知。