打遊戲時領悟了「向死而生」,這個AI演算法真的不虛強化學習

問耕 發自 凹非寺

量子位 出品 | 公眾號 QbitAI

來自德國弗萊堡大學的研究團隊,最近有了一個好玩的發現。

AI又在打遊戲時掌握了新技能。

「向死而生」

這個遊戲是雅達利平台上的經典遊戲Qbert:一個偽3D遊戲,玩家需要控制角色(橙色章魚)在立方體金字塔中跳躍,每成功一次,立方體就會變色。全部變色之後,就會進入下一關。而在這個過程中,需要躲避開障礙物和敵人。

研究團隊開發的AI智能體(agent)玩這個遊戲時,開始還是普通玩法,按照規則累積積分。然後,智能體突然對過關失去興趣。

相反,智能體開始「釣魚」:站住不動,吸引敵人(紫色小球)來到身邊,然後智能體操縱角色跳到敵人頭上。這是一種殺敵的方法,也是自殺的方法。但是主動殺敵之後,能夠產生足夠多的分數來獲得額外的生命獎勵。

於是智能體開始一遍遍的重複這種向死而生的手法,如上圖所示。

不止如此。

AI智能體還發現了一個Bug。在完成第一關之後,智能體操縱角色從一個立方體跳到另一個立方體,這似乎是一種隨機的跳躍。但由於某種人類不了解的原因,遊戲沒有進入下一關,整個立方體金字塔開始閃爍。

然後智能體平白無故開始獲得大量積分。如下圖所示。

同樣有意思的是,智能體也不是每次都能利用好這個bug。嗯,不是每次都能成。

當然還有其他的好玩的事兒,暫時按下不表。

不虛強化學習

當然,搞研究不是為了好玩。

弗萊堡大學的這個研究,主要關注的是進化策略(ES)。而且是一種非常基本的進化策略演算法,沒用鏡像採樣,沒有衰減參數,沒有任何高級優化。

在研究實驗中,基於OpenAI Gym評估了八個雅達利遊戲中的性能表現,這些遊戲難度等級不同,簡單的如Pong(乒乓)和Breakout(打磚塊),複雜的如Qbert、Alien。此前,強化學習也都是在這些遊戲上取得驚人的進展。

這個基於ES演算法的AI,網路結構與原始DQN相同。變化之處,是把激活函數從ReLU變成了ELU,並增加了批量標準化層。

詳細的研究過程,可以參考如下論文:Back to Basics: Benchmarking Canonical Evolution Strategies for Playing Atari

arxiv.org/abs/1802.0884

總之,研究團隊得出結論:即便是非常基礎的規範ES演算法,也能實現和強化學習相同甚至更好的性能。

而且他們還定性地證明了,ES演算法與傳統的強化學習演算法相比,也有非常不同的性能特徵。在某些遊戲中,ES演算法能更好的學會探索環境,並能更好的執行任務。

當然在另外的一些遊戲中,ES演算法有可能陷入次優局部最小值。

研究團隊表示,如果能把ES演算法與傳統強化學習演算法結合,可能會出現強強聯手的局面,並推動現有人工智慧相關技術的新進展。

基於ES演算法搭建的AI智能體,在上述幾個遊戲中的表現,可以在下面這個視頻中感受一下,除了開頭提到的一些案例,期間也有其他有趣的遊戲策略出現。

undefined_騰訊視頻v.qq.com圖標

附一個劇透:0:00 Alien,0:29 BeamRider,2:30 Breakout,3:15 Enduro,4:44 Pong,5:38,Qbert exploit,6:12 Qbert bug,6:47 Seaquest,8:36 SpaceInvaders。

曾被LeCun硬懟

這次弗萊堡大學的研究,基於OpenAI此前發布的ES演算法。當然,弗萊堡大學公布的成績表明,他們的AI玩遊戲更勝一籌。並且用了一張表進行了詳細的對比。

他們把相關代碼也公布在了GitHub上,地址如下:github.com/PatrykChraba

進化策略(ES)是一種已經發展了數十年的優化技術,去年OpenAI發表論文Evolution Strategies as a Scalable Alternative to Reinforcement Learning中指出,ES演算法可以與強化學習方法媲美,耗時更少而且代碼簡單。

對這個理論感興趣的同學,閱讀論文請前往:arxiv.org/abs/1703.0386,以及GitHub地址在此:github.com/openai/evolu

不過,當時這個理論遭遇Yann LeCun的正面硬剛。

大意是說:

1、基於梯度的優化,遠比黑箱優化更有效率

2、黑箱優化應該是最後的辦法,無法基於梯度優化時才用

3、對於知道強化學習和黑箱優化的人來說,OpenAI這篇東西沒什麼用

不知道你們怎麼看。

今天,就醬吧~

歡迎大家關注我們的專欄:量子位 - 知乎專欄

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

量子位 QbitAI · 頭條號簽約作者

?? ? 追蹤AI技術和產品新動態


推薦閱讀:

二叉堆
RSA演算法詳解
矩陣中的路徑
fibo數列第n項
機器學慣用於金融市場預測難在哪?

TAG:人工智慧 | 強化學習ReinforcementLearning | 演算法 |