人工智慧越像人，反而越驚悚，我不禁想起了被《爵跡》支配的恐懼

07-18

如何設計一個不討人厭的 AI？「恐怖谷」了解一下

量子位，有趣的前沿科技→_→ 公眾號：QbitAI

原作百度 AI 交互設計院量子位授權轉載 | 公眾號 QbitAI

隨著 AI 時代的到來，越來越多的智能設備進入了我們的生活。它們在給我們帶來更多功能和便利的同時，也被賦予了更多「人性化」的特徵，比如能說會動，有人格有情緒，甚至會思考。

面對這麼多越來越「像人」、越來越「智能」的設備，人們會產生什麼樣的感受呢？是喜歡還是反感，是接受還是擔憂？

這就涉及到我們今天要介紹的理論「恐怖谷」。

什麼是「恐怖谷」?

大家有沒有過這樣的經歷？當你在看一些動畫電影中的角色，比如《冰雪奇緣》中的 Elsa 公主，你會覺得她很美麗，很吸引人。

而當你看一些科幻電影中的角色，比如《最終幻想：靈魂深處》的女主角 Aki，你會覺得乍一看人物形象還挺逼真的，但總覺得動作表情有些僵硬，給人怪怪的，不太舒服的感覺。

這是為什麼呢？其實可以通過「恐怖谷」的理論來進行解釋。

「恐怖谷」理論最早是 1970 年由日本機器人專家森政弘提出的，當機器人與人類的相似度極低（如圖，工業機器人）時，人們對它沒有太多的情感反應。

當這些非人的物體開始被賦予一些人類的特徵，在外形和動作上同人類逐漸接近時（如圖，人形機器人），人們對它的親近感和好感度會逐漸增加。

但當它與人類相像超過一定程度，人們對它的好感反而會下降，呈現一個情感反應的低谷，即「恐怖谷」。

當它與人類的相似度繼續上升，人們對它的好感會再次回到正面。

「恐怖谷」效應是如何產生？

解釋「恐怖谷」效應成因的角度很多，這裡主要介紹最核心的三種。

一種解釋是「認知失調」。

簡單來講，就是「預期」和「真實」情況不一致導致認知衝突。當類人物體和人類的相似度很高時，我們潛意識裡會把它視為我們的一員，而對於我們人類來講，每天接觸各種各樣的人，人是什麼樣子的，能長成什麼樣子，應該有怎樣的動作表情，我們都很清楚。

當它有任何不像人的地方時，我們很容易就能察覺，並和我們本來的預期產生了矛盾，我們無法馬上解決這種矛盾時，內心的不舒適甚至不安和恐懼就發生了。

2011 年，加州大學聖地亞哥分校的認知科學家艾斯 · 塞金（Ayse Saygin）通過腦成像實驗發現，人們在觀看模擬機器人的活動影像時，大腦與運動感知相關的區域活動會比觀看人類和普通機器人更加活躍。（如圖）

因為當我們看普通機器人和人類活動時，他們的外觀會幫助我們提前預測他們的運動方式，而實際看到的結果就如我們預期的一樣。

模擬機器人卻不同，他們外觀酷似人類，動作卻和機器人相同，這在我們頭腦中造成了與預期不符的矛盾，從而要調動更多的大腦區域來協調這些矛盾。

這一結果正好可以佐證「認知失調」這一解釋。

還有一種解釋是「共情抑制」。

即當我們看到一個既像人又不像人的個體時，無法很好地感受和理解對方的情緒和情感狀態，我們的「共情」能力出現了障礙，這讓我們感覺很不舒服。

2007 年，在日本京都國際電氣通信基礎技術研究所工作的蒂埃里 · 查米納德（Thierry Chaminade）和他的同事做了一項研究，他們給參與研究的志願者播放了一組擬人度不同的電腦合成角色，同時對這些志願者的腦部進行核磁共振掃描。

結果顯示，當志願者看到擬人程度很高的角色時，腦中負責心理化（Mentalizing）的區域活動會明顯增強。

所謂心理化，包含理解他人情感的能力。這一區域活動增強說明人們在理解那些高擬人程度角色的情緒 / 情感時出現了困難，這在一定程度上支持了「共情抑制」的解釋。

也有一些研究人員會從「進化選擇」的角度進行解釋，指出人類會從本能上排斥那些看起來不太正常的、病態的個體，以此來保護自己，而這些不正常、病態的特徵通常都是由面部和肢體表現出來的。

所以當我們看到那些看似逼真，卻面色慘白、表情僵硬、動作機械的模擬機器人時，會不自覺地聯想到「不健康」、甚至「死亡」，這時候就會產生不適、反感甚至恐懼的感覺。

我們前面說的「恐怖谷」理論基本都是圍繞著外表和動作的視覺感知層面，而隨著 AI 時代的到來，人們越來越多地使用語言直接和一些智能設備進行對話。

「機器的語言」是否也存在「恐怖谷」？

有研究者嘗試探索過在聲音的自然度方面是否存在「恐怖谷」效應，發現在當時的實驗條件下，聲音的自然度方面，並不存在「恐怖谷」效應。

2014 年，捷克皮爾森西波西米亞大學應用科學系的研究人員，曾探討過在語音對話系統中 TTS（通過技術的手段把文本轉成語音）和「恐怖谷」之間的關係。

他們讓 30 名受試者（大學生，覆蓋技術和人文學科背景）分別同 AI 語音交互系統進行兩段對話，分別對應 TTS 合成的兩種聲音，機器化的聲音（聲音 A）和自然度高的聲音（聲音 B），然後讓受試者評價對兩種聲音及兩段對話的喜好度。

結果發現，近 3/4 的用戶更喜歡自然度高的聲音（聲音 B），且技術學科背景的學生喜歡聲音 B 的比例更高。

除了聲音的自然度，如果人們還能從「機器的語言」中感受到類人的情緒 / 情感，性格特徵，邏輯思考及解決問題等能力時，是否會產生「恐怖谷」效應呢？

下面這個研究，可以從一定程度上給我們一些啟示。

2017 年，德國開姆尼茨工業大學的心理學家斯坦（Jan-Philipp Stein）和奧勒（Peter Ohler）做過一個實驗，他們讓被試通過 VR 觀看一支 3D 影片，裡面是一對男女正在進行一小段對話，整段對話包含多種情緒 / 情感狀態，兩人先是提到燥熱的天氣讓人昏昏欲睡，接著女人開始抱怨她擁有的自由時間太少，而且那個還不出現的遲到朋友讓她覺得很困擾，與此同時，男人在對話中會對女人的處境展現同情。