嗯?DeepMind給AI們開了個心理實驗室

夏乙 允中 編譯整理

量子位 出品 | 公眾號 QbitAI

最近,DeepMind開了個心理學實驗室,名叫Psychlab,地點就在DeepMind Lab里。

當然,不是為人類開的。

Psychlab所處的DeepMind Lab是個第一人稱視角3D遊戲世界,這個心理學實驗室當然也是個模擬環境,研究對象是其中的深度強化學習智能體(Agents)。Psychlab能夠實現傳統實驗室中的經典心理學實驗,讓這些本來用來研究人類心理的實驗,也可以用在AI智能體上。

關於這個實驗室,DeepMind剛剛公開了一篇論文:Psychlab: A Psychology Laboratory for Deep Reinforcement Learning Agents,在裡邊詳細介紹了Psychlab的環境、API,還展示了一些示例任務。

他們在論文里說,有了Psychlab,就可以直接用認知心理學和視覺心理物理學的任務來測試,將深度強化學習智能體與人類做比較,這種比較可以豐富我們對智能體的理解,有助於優化智能體的設計

那麼,

Psychlab究竟什麼樣?

在Psychlab中,智能體站在一個平台上,面前擺著一個大屏幕,上面顯示著刺激。這個智能體可以注視著屏幕,也可以環顧周圍,看看地面看看天,都沒有問題。

Agent在Psychlab中完成視覺搜索任務

就像上圖所示,智能體的注視方向決定了畫面顯示的場景。①的智能體注視著屏幕中心,②和③的智能體都在搜索目標,④顯示的是智能體找到了它的目標:洋紅色的T。隨著智能體注視方向的變化,屏幕上顯示出它的不同視野。和你玩《使命召喚》時的視野變化差不多。

除了盯著屏幕找目標,智能體在這個實驗室里還能幹什麼呢?DeepMind自己在論文中展示了8種任務

Psychlab中的各種任務

為了與常見的行為測試方法保持一致,所有Psychlab的任務都被分割成離散的測試。這些測試也是基本的分析單位。在DM-Lab環節可以進行任意數量的測試,試驗次數、時間等都可以自行配置。所有的測試都是通過注視屏幕中心的紅十字來啟動的。

下面,我們來看看Psychlab中這些測試任務的實例。

1. 持續識別,判斷面前的物品是否曾經出現過,新的就往左看,舊的就往右看。

2. 任意的視覺映射,面前出現一個物體和四個標籤,標籤中只有一個是綠色。下次這個物體再出現的時候,要判斷出對應的綠色標籤在哪個位置。

3. 變化檢測,判斷前後出現的兩組圖,是否發生了變化。

4. 視力和對比敏感度測試 (Landolt C)。畫面中間有一個C型環,被測試者需要指出缺口的方向,C型環會不斷的變小,對比度也會不斷降低。

5. 玻璃圖案測試,要判斷兩個圖案中,哪一個是同心的玻璃圖案。

6. 視覺搜索,在一堆物體中發現要尋找的目標。

7. 隨機點運動方向判斷,畫面中間的圓形區域,會出現大量的隨機點,你需要指出主要的運動方向。隨機點運動速度特別快的時候,真是一個挑戰。

8. 多對象追蹤。畫面中有一組兩種顏色的小球,隨後全部變成統一顏色並開始移動,最後指定一個小球,你要判斷原來這個球的顏色是什麼。

其實看完這些任務,量子位很想說:

這……會不會有點為難AI了?

不過DeepMind在論文中說,既然深度強化學習智能體連「去找藍色氣球」這種自然語言指令都能聽懂了,可見智商還不錯,是時候把這些心理物理學、認知心理學領域實驗方案拿出來讓它們領教一下了。

為了讓更多同行創造更多任務來給AI領教,DeepMind開放了一個Psychlab API。這個API是在lua中編寫的一個簡單的GUI框架,把部件(widget)放在Psychlab中的虛擬屏幕上,就可以創建任務。

這些小部件可以是任意的視覺形象,在事件發生時,比如當智能體的注視中心進入或離開小部件區域,小部件會調用回調。這個框架還支持在完成時使用定時器來調用回調。

在實驗中,智能體也會獲得獎勵。當正確完成實驗,智能體獲得的獎勵為1,其他步驟為0。

DeepMind建立這個「實驗室」,是為了在心理學和現代人工智慧之間建立一個聯繫點,這樣,心理學找到了一種驗證認知理論的新模式,而AI研究獲得了更多能分離出認知核心方面的任務。

我們前面也說過,這樣的研究有助於優化智能體的設計。空口無憑你大概不信,於是DeepMind又舉出了一個栗子:一個Jaderberg等人2016年提出的非常厲害的智能體UNREAL,就可以用這些心理學測試來改進。

為了測試UNREAL智能體的視覺敏感度,DeepMind用上了上文列舉的第4、5、6項測試:Landolt C。

UNREAL和人類視覺敏感度的比較

在玻璃圖案測試中,UNREAL和人類的心理測量曲線

在指向目標任務中,UNREAL對目標和誘餌的大小非常敏感,目標大時學習速度要快得多,誘餌大時最終性能不太理想

種種實驗表明,UNREAL會更快地學習大的目標刺激,這種發現也帶來了對一個簡單的中央凹視覺模型的具體改進,顯著提高了UNREAL在Psychlab任務和標準DeepMind Lab任務上的表現。

Psychlab這篇論文作者也不少,包括Joel Z. Leibo, Cyprien de Masson d』Autume, Daniel Zoran, David Amos, Charles Beattie, Keith Anderson, Antonio García Casta?eda, Manuel Sanchez, Simon Green, Audrunas Gruslys, Shane Legg, Demis Hassabis, Matthew M. Botvinick,全部來自DeepMind。

如果你也想用一下這個Psychlab……論文里的確提到了是在DM-Lab里開源了的,不知更新出來沒有,找到的同學吱一聲兒~

github.com/deepmind/lab

論文地址:

arxiv.org/abs/1801.0811

BTW,看PDF有點累,量子位現在比較喜歡用arxiv arxiv-vanity.com/papers

歡迎大家關注我們的專欄:量子位 - 知乎專欄

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

量子位 QbitAI · 頭條號簽約作者

?? ? 追蹤AI技術和產品新動態


推薦閱讀:

動輒好幾萬的卡薩帝洗衣機到底好在哪?
新浪目前只剩微博這個產品站得住腳了嗎?
致「泛科技播客」的聽眾們
頭條號指數必須650以上才能轉正嗎?
有什麼好用的流量卡價錢實惠?

TAG:人工智慧 | 科技 | 谷歌Google |