如何看待Deepmind將研發能玩《毀滅戰士1》的AI？

02-05

deepmind的Deep q learning已經成功學會了玩紅白機遊戲，deepmind的ceo表示他們真正研究學會玩《毀滅戰士1》《德軍總部》這一類早期3D遊戲。

說好的要來更新，拖延症了下-.- 先來分享下我上周組會的slides: Naiyan Wang - Miscellaneous。

幾點insight我願意在這裡再重複一遍：

1. 我個人理解這個文章的本質在於一套end to end learning的框架，通過CNN對原始高維的輸入圖像進行自動降維和狀態定義。最後一層的fully connected layer就可以對應傳統Q Learning中的狀態。只不過在傳統Q Learning中狀態需要人工定義，甚至對於每個不同的遊戲都需要改變。但是在DQN中，我們可以忘掉這些繁瑣的細節了，這一切都是自己學來的。

2. 為什麼DQN能成功？我個人認為在於"近乎無限的訓練數據"。因為所有的supervision都是來自電腦自動生成。沒有比收集這個任務的數據更簡單和低成本的了。

3. 如果仔細分析下DQN擅長和不擅長的遊戲就會發現，DQN能玩的好的都是拼手速的遊戲，比如桌面彈球，拳擊。玩好這類遊戲的決策只需要觀察短時間內的狀態。例如，彈球遊戲只要球要落範圍，就觸動彈發。拳擊遊戲只要對手在攻擊範圍內，就攻擊。再來看看玩的不好的遊戲，吃豆子，還有某不知名策略遊戲。這兩個都是需要某種程度上的長期的策略優化。回到上一點上，這也揭示了一些DQN在自動學習狀態定義中的問題：只能考慮相鄰數幀的輸入，不能考慮long term state。

其實如果能耐心看完上面的分析，題主原問題的答案我已經回答了。DQN的死穴在於long term memory. 以現在DQN的能力，連吃豆子都比隨機操作強不了多少，離能玩3D遊戲差距太過遙遠。當然作為解決short memory中最流行的LSTM，相信可以一定程度上緩解定義long term state這個問題，但我覺得可能也不會是最終解決方案。作為這一波LSTM復興中先鋒力量的DeepMind，我相信LSTM+DQN這個idea肯定已經在做，甚至已經完成。不過究竟能做到什麼程度，我們拭目以待。

估計是要加LSTM了。挺有意思的,原來他的演算法是每4幀作為一個State,加LSTM，超級瑪麗那種類型應該就有能力了。

毀滅戰士有可能....

如果想玩兒德軍總部的話

按paper里的演算法

輸入的數據中的 a（action）在沒有preprocess 的情況下，演算法估計要吃癟... 而且個人覺得對action 的 pre process 中應該有變數是需要在trainin是一同被優化的...

怎麼看？對知乎上大多數「深度學習大牛」來說，這一篇是Deepmind眾多精彩工作裡面，他們唯一能大概看懂的一篇。