強化學習 Reinforcement Learning 在控制系統中的應用現狀與前景展望如何？

01-07

開個引子，希望有研究更深入的人來答。

從我目前所看的論文，目前至少有好幾批不同方向的在研究Reinforcement Learning在控制系統的應用：

1. Frank.L Lewis等人將RL與ADP結合，從傳統的控制角度做的[1,2]；

2. Stefan Schaal和Jan Peters一系的，主要是做PS在機器人控制中的研究[3-4]；

3. Piter Abbeel(A.Y.Ng的學生，學徒學習，無人駕駛直升機)和Sergey Levine一系的，代表就是15年的機器人end-to-end leaning[5]，Levine現在搞深度強化學習在機器人的應用，最近好像在ICLR 2016上做了個專題報告，還沒看具體的內容；

4. 原來搞深度學習或者機器學習的的，因為deepMind的13[6]和15年Nature[7]的Atari文章和alphaGo，慢慢轉到深度強化學習，做連續控制（動作連續）的，OpenAI也在這一波之中，Abbeel目前已經跑到這個組了，其他[8-9]。

一直在看相關的論文，目前還沒有完全理清頭緒。1純粹是做控制的，與後邊的人看起來基本沒有交流，但是從Lewis的文章看，他是知道2,3的相關研究的[1]；2，3的人看起來是相互認識和有交流的（論文有引用）；4是最近一兩年開始搞的。

前景：個人覺得很有前途，能不能從裡邊掘到寶就很難說了。

略答，不全面，有錯勿怪，需要更詳細的答案後續可以再補充，真正做這塊的人很少，沒人關注，寫了沒什麼意思。

[1] Khan
S G, Herrmann G, Lewis F L, et al. Reinforcement learning and optimal adaptive
control: An overview and implementation examples[J]. Annual Reviews in Control,
Elsevier Ltd, 2012, 36(1): 42–59.

[2] Lewis F, Vrabie D. Reinforcement learning and
adaptive dynamic programming for feedback control[J]. IEEE Circuits and Systems
Magazine, 2009, 9(3): 32–50.

[3] Peters J, Schaal S. Reinforcement learning of
motor skills with policy gradients[J]. Neural Networks, 2008, 21(4): 682–697.

[4] Deisenroth M P. A Survey on Policy Search for
Robotics[J]. Foundations and Trends in Robotics, 2013, 2(1-2): 1–142.

[5] Levine S, Finn C, Darrell T, et al.
End-to-End Training of Deep Visuomotor Policies[J]. Arxiv, 2015: 6922.

[6] Mnih V, Kavukcuoglu K, Silver D, et al.
Playing Atari with Deep Reinforcement Learning[J]. arXiv preprint arXiv: …,
2013: 1–9.

[7] Mnih V, Kavukcuoglu K, Silver D, et al.
Human-level control through deep reinforcement learning[J]. Nature, Nature Publishing
Group, 2015, 518(7540): 529–533.

[8] Duan Y, Chen X, Schulman J, et al.
Benchmarking Deep Reinforcement Learning for Continuous Control[J]. arXiv,
2016, 48.

[9] Lillicrap T P, Hunt J J, Pritzel A, et al.
Continuous control with deep reinforcement learning[J]. arXiv preprint
arXiv:1509.02971, 2015: 1–14.

更新說明： 2016/06/16 增加了清華小組的研究思路。

------------------------------------------不斷更新ing, 請扔磚----------------------------------------------------------

PS: 個人拙見，請批評指正！後期會不斷修正文中寫錯的地方，並提供享相應的文獻及資源鏈接。

xy ch 的回答已經比較全面了，以下從Single RL agent和多個RL agent 的角度來簡要分析。

一、 Single RL agent 控制理論

這裡主要從 Lewis F 小組、Ganesh Kumar
Venayagamoorthy 小組、中科院小組、Deepmind小組、清華小組等來具體說明

1. Lewis F 流派

基於RL做控制，主要的優勢在於可以實現在線無模型，這一方面Lewis F及其做RL控制的多個博士生做了很多工作，其基本思路是：通過RL實現傳統最優控制及魯棒控制律的在線（部分）無模型求解，包括連續時間系統和離散時間系統。這方面的工作已經很完備了。我們稱之為single RL agent 的控制。

當前的Single RL agent 控制研究主要有以下特點：

1. 系統規模小。 Lewis F 等的文章中常用2階，3階（飛機），4階（電力系統 LFC）來舉例說明。

2. 多用策略迭代。一般會和ADP結合起來，特別是AC結構。基於RL和ADP的控制被IEEE life Fellow Lendaris G G 稱之為控制領域的Next phase。

3. 演算法的收斂性對探測雜訊很敏感。而且Probing signal 的選擇很關鍵，有時雖能收斂到（次）最優解，但因探測雜訊幅值過大，在實際中無法得到應用。

2. GKV 暫時略過（主要致力於RL在電力領域的應用），放到和清華的一起來介紹

3. Deepmind 小組

Deepmind是做的RL嚴格來講，不屬於我們傳統意義上的控制系統。但因RL的應用一般結合Actor-Critic結構來實施，凡是RL的應用，均可理解為廣義的控制。以下將採用A-C結構的RL稱之為RLADP 或ADP。

Deepmind 做的RL主要是Deep RL, 主要代表人物是 David Silver（AlphaGo 之父）,是 RL權威專家Sutton的弟子，在DRL享有盛譽。其代表成果有二：

(1). Deep-Q-Network

1) 概況： 2015 年發表在Nature上的DQN，其實在Nature 論文發表之前他們即用DQN 玩 Atari 2600遊戲了。 DQN 是首個具備Artificial General Intelligence的結構，自提出之後引領了 2015年的DL發展之路，很多高校的專家學者都在嘗試復現這邊論文，專門有一個deep-q-learning的谷歌討論小組（deep-q-learning@googlegroups.com）裡面經常會交流這篇文章。

2) 應用前景： IEEE Life Fellow　Lendaris G G 在2008年發表文章稱ADP 的 High level application 是 A Next Phase for the Control Field, 期初讀這篇文章是並非很理解，或者說在DQN之前一般的學習控制技術局限性很大。 DQN帶來了學習控制新的春天，（當然DQN也有一些不足，後續清華小組部分中有一些可行的解決方案）可以應用於機器人、直升機等更複雜、更底層的控制，也可擴展到其他各個控制領域。

(2) AlphaGo

1) 概況： 大家對AlphaGo可能聽到相對DQN多一些，自動化學報近期也有一期對AlphaGo系統有相應的介紹，知乎上也有很多不錯的介紹及分析，感興趣的查詢。需要說明的是，AlphaGo系統中應用RL的並不多，主要是用於策略網路的自我對弈（Self-Play），不斷提升策略網路的性能。（近期聽到有人提及Google計划進一步擴大RL在AlphaGo 系統的應用力度）

2) 應用前景： 個人認為AlphaGo 對控制系統應用值得借鑒的是其中的自我對弈，提升控制系統性能，主要用於實時性很強的控制場合。

除DQN， AlphaGo之外，Deepmind 將RL應用於解決德州撲克這一非完全信息博弈均衡的求解中，以及紅帽問題中，均取得了不錯的效果。控制理論研究中經常涉及求解非完全信息博弈均衡的問題，相信 RL在德州撲克問題中的應用將進一步促進RL在控制領域的深入應用。

（關於RL在德州撲克問題的應用後期會逐步整理的。Deepmind 還有一項工作是神經圖靈機，不屬於該問題範疇，就不加討論）

4. 清華小組

清華大學做強化學習的比較多，以下主要說明清華電機系Liu Feng 教授和亞利桑那州立大學Jennie si教授（Direct HDP的提出者）開展的強化學習在線自趨優無模型控制。其基本思路是摒棄傳統的直接用強化學習控制代替原有工業控制器的思路，轉而採用附加控制的思路。該思路的一個明顯的優勢在於通過附加強化學習控制器後通過一些機制設計，使得附加後的控制器性能總在原有工業控制器的基礎上不斷提升。可以認為，這種思路能賦予傳統各個行業的工業控制器在線學習的能力。

——————————————————明天繼續補充————————————————

看過Ng03年增強學習控制小直升機倒著飛的視頻，感覺X炸天

其他了解的多是控制個倒立擺之類的，沒看到太多實用系統，但是還是挺有前景的，期待哪天深度增強學習直接用圖像輸入控制汽車自主駕駛