如何看待Deepmind將研發能玩《毀滅戰士1》的AI?

deepmind的Deep q learning已經成功學會了玩紅白機遊戲,deepmind的ceo表示他們真正研究學會玩《毀滅戰士1》《德軍總部》這一類早期3D遊戲。


說好的要來更新,拖延症了下-.- 先來分享下我上周組會的slides: Naiyan Wang - Miscellaneous。

幾點insight我願意在這裡再重複一遍:

1. 我個人理解這個文章的本質在於一套end to end learning的框架,通過CNN對原始高維的輸入圖像進行自動降維和狀態定義。最後一層的fully connected layer就可以對應傳統Q Learning中的狀態。只不過在傳統Q Learning中狀態需要人工定義,甚至對於每個不同的遊戲都需要改變。但是在DQN中,我們可以忘掉這些繁瑣的細節了,這一切都是自己學來的。

2. 為什麼DQN能成功?我個人認為在於"近乎無限的訓練數據"。因為所有的supervision都是來自電腦自動生成。沒有比收集這個任務的數據更簡單和低成本的了。

3. 如果仔細分析下DQN擅長和不擅長的遊戲就會發現,DQN能玩的好的都是拼手速的遊戲,比如桌面彈球,拳擊。玩好這類遊戲的決策只需要觀察短時間內的狀態。例如,彈球遊戲只要球要落範圍,就觸動彈發。拳擊遊戲只要對手在攻擊範圍內,就攻擊。再來看看玩的不好的遊戲,吃豆子,還有某不知名策略遊戲。這兩個都是需要某種程度上的長期的策略優化。回到上一點上,這也揭示了一些DQN在自動學習狀態定義中的問題:只能考慮相鄰數幀的輸入,不能考慮long term state。

其實如果能耐心看完上面的分析,題主原問題的答案我已經回答了。DQN的死穴在於long term memory. 以現在DQN的能力,連吃豆子都比隨機操作強不了多少,離能玩3D遊戲差距太過遙遠。當然作為解決short memory中最流行的LSTM,相信可以一定程度上緩解定義long term state這個問題,但我覺得可能也不會是最終解決方案。作為這一波LSTM復興中先鋒力量的DeepMind,我相信LSTM+DQN這個idea肯定已經在做,甚至已經完成。不過究竟能做到什麼程度,我們拭目以待。


估計是要加LSTM了。挺有意思的,原來他的演算法是每4幀作為一個State,加LSTM,超級瑪麗那種類型應該就有能力了。


毀滅戰士有可能....

如果 想玩兒德軍總部的話

按paper里的演算法

輸入的數據中的 a(action) 在沒有preprocess 的情況下,演算法估計要吃癟... 而且個人覺得 對action 的 pre process 中應該有變數是需要在trainin是一同被優化的...


怎麼看?對知乎上大多數「深度學習大牛」來說,這一篇是Deepmind眾多精彩工作裡面,他們唯一能大概看懂的一篇。


推薦閱讀:

TAG:機器學習 | 神經網路 | 深度學習DeepLearning | 強化學習ReinforcementLearning | GoogleDeepMind |