「強化學習」DDPG 的 PyTorch 實現

02-08

和 @Memphis , @鄒雨恆一起實現的用來做強化學習實驗的框架

開源求各位指點

目前還在繼續完善，實現一些演算法或者技巧

相比之前我們 Learning to run 比賽亂得可怕的代碼，目前的架構、兼容性和實現程度還比較可以接受

默認參數在CartPole，Pendulum，BipedalWalker等環境中都有比較不錯的表現

在我的 mac 上訓練 CartPole 需要這麼些行代碼「一鍵完成 CartPole」

$ conda create --name pybullet python=3.6$ source activate pybullet// 建議使用 anaconda$ conda install pytorch$ pip install gym$ pip install tensorboardX// 以上是安裝依賴$ git clone https://github.com/megvii-rl/pytorch-gym$ cd pytorch-gym$ python main.py --env CartPole-v0 --discrete --debug --vis // --discrete 是把輸出取 argmax 強行離散

進一步了解移步 https://github.com/megvii-rl/pytorch-gym

下一步想把我們的一些發現再做做實驗 https://arxiv.org/pdf/1712.08987.pdf

本機 CartPole-v0，隨機 warmup 1000 step 後非常快地完成

在伺服器的 gpu 上訓 BipedalWalker-v2，兩小時的曲線

這個頁面編號是 332 63 233