能總結下馬氏決策和強化學習之間的關係和異同點嘛？

02-04

Markov決策過程（MDP）的前身是Markov鏈，滿足Markov性質（後繼狀態僅僅依賴前繼狀態），不過與Markov鏈不同的是，Markov決策中引入了動作（Action）和回報（Reward）【這樣才能做決策嘛】。我們把情景限定在有限Markov中，由於Markov的性質，很符合動態規劃的結構。根據Bellman迭代公式，就可以求解Markov決策中的策略（值函數也可以）。好了，然後就到了強化學習這塊，是Sutton老爺子把強化學習親手帶大的（看看現在的Deepmind），它建立在MDP的理論上，不過由Bellman演變來了一些求解演算法，如TD，Q，Actor-Critic（實質上就是Bellman的演變，另外強化學習的大部分研究工作都是在值函數的逼近和泛化上，因為這關係到它的可擴展性，收斂速度，學習性能等等）。根據以上簡要闡述，RL與MDP的異同點概括如下：

MDP是RL的理論基礎，同時RL又發展了MDP（繼承與發展）
RL是用於求解一系列MDP問題的演算法（model-based or model-free都可以）

總的來說，MDP就是RL的影子。

簡單來講：reinforcement learning 不知道transition function 和 reward function，而這兩者在MDP中已知～

reinforcement learning 分model based 和model free 其中model based 就是學習 transition function 和 reward function然後用MDP的一套來解， model free 很多也應用MDP中的 value iteration 和policy iteration 的思想來更新