能總結下馬氏決策和強化學習之間的關係和異同點嘛?


Markov決策過程(MDP)的前身是Markov鏈,滿足Markov性質(後繼狀態僅僅依賴前繼狀態),不過與Markov鏈不同的是,Markov決策中引入了動作(Action)和回報(Reward)【這樣才能做決策嘛】。我們把情景限定在有限Markov中,由於Markov的性質,很符合動態規劃的結構。根據Bellman迭代公式,就可以求解Markov決策中的策略(值函數也可以)。好了,然後就到了強化學習這塊,是Sutton老爺子把強化學習親手帶大的(看看現在的Deepmind),它建立在MDP的理論上,不過由Bellman演變來了一些求解演算法,如TD,Q,Actor-Critic(實質上就是Bellman的演變,另外強化學習的大部分研究工作都是在值函數的逼近和泛化上,因為這關係到它的可擴展性,收斂速度,學習性能等等)。根據以上簡要闡述,RL與MDP的異同點概括如下:

  • MDP是RL的理論基礎,同時RL又發展了MDP(繼承與發展)
  • RL是用於求解一系列MDP問題的演算法(model-based or model-free都可以)

總的來說,MDP就是RL的影子。


簡單來講:reinforcement learning 不知道transition function 和 reward function,而這兩者在MDP中已知~

reinforcement learning 分model based 和model free 其中model based 就是 學習 transition function 和 reward function然後用MDP的一套來解, model free 很多也應用MDP中的 value iteration 和policy iteration 的思想來更新


推薦閱讀:

TAG:演算法 | 機器學習 | 人工智慧演算法 | 強化學習ReinforcementLearning |