「強化學習」DDPG 的 PyTorch 實現
和 @Memphis , @鄒雨恆 一起實現的用來做強化學習實驗的框架
開源求各位指點
目前還在繼續完善,實現一些演算法或者技巧
相比之前我們 Learning to run 比賽亂得可怕的代碼,目前的架構、兼容性和實現程度還比較可以接受
默認參數在CartPole,Pendulum,BipedalWalker等環境中都有比較不錯的表現
在我的 mac 上訓練 CartPole 需要這麼些行代碼「一鍵完成 CartPole」
$ conda create --name pybullet python=3.6$ source activate pybullet// 建議使用 anaconda$ conda install pytorch$ pip install gym$ pip install tensorboardX// 以上是安裝依賴$ git clone https://github.com/megvii-rl/pytorch-gym$ cd pytorch-gym$ python main.py --env CartPole-v0 --discrete --debug --vis // --discrete 是把輸出取 argmax 強行離散
進一步了解移步 https://github.com/megvii-rl/pytorch-gym
下一步想把我們的一些發現再做做實驗 https://arxiv.org/pdf/1712.08987.pdf
本機 CartPole-v0,隨機 warmup 1000 step 後非常快地完成
在伺服器的 gpu 上訓 BipedalWalker-v2,兩小時的曲線
這個頁面編號是 332 63 233
推薦閱讀:
※有哪些需要捐款的開源項目?
※最新數據報告揭示開源技術的投資回報
※Google 編程之夏(GSoC)中的Vert.x子項目
※OIer對於開源的態度如何?
TAG:开源项目 | 强化学习ReinforcementLearning | 深度学习DeepLearning |