「強化學習」DDPG 的 PyTorch 實現

和 @Memphis , @鄒雨恆 一起實現的用來做強化學習實驗的框架

開源求各位指點

目前還在繼續完善,實現一些演算法或者技巧

相比之前我們 Learning to run 比賽亂得可怕的代碼,目前的架構、兼容性和實現程度還比較可以接受

默認參數在CartPole,Pendulum,BipedalWalker等環境中都有比較不錯的表現

在我的 mac 上訓練 CartPole 需要這麼些行代碼「一鍵完成 CartPole」

$ conda create --name pybullet python=3.6$ source activate pybullet// 建議使用 anaconda$ conda install pytorch$ pip install gym$ pip install tensorboardX// 以上是安裝依賴$ git clone https://github.com/megvii-rl/pytorch-gym$ cd pytorch-gym$ python main.py --env CartPole-v0 --discrete --debug --vis // --discrete 是把輸出取 argmax 強行離散

進一步了解移步 github.com/megvii-rl/py

下一步想把我們的一些發現再做做實驗 arxiv.org/pdf/1712.0898

本機 CartPole-v0,隨機 warmup 1000 step 後非常快地完成

在伺服器的 gpu 上訓 BipedalWalker-v2,兩小時的曲線

這個頁面編號是 332 63 233

推薦閱讀:

有哪些需要捐款的開源項目?
最新數據報告揭示開源技術的投資回報
Google 編程之夏(GSoC)中的Vert.x子項目
OIer對於開源的態度如何?

TAG:开源项目 | 强化学习ReinforcementLearning | 深度学习DeepLearning |