有研究強化學習方向的大神嘛?關於multi-agent和inverse RL兩個方向哪個比較好

或者能推薦一下關於reinforcement learning比較好的研究方向 謝謝


multi-agent 強調協作和競爭等關係。做這個方向還要學大量博弈論的東西。 可以參考人類自己的社交行為,可以引入。 進幾年 AAMAS 很多文章都是做multi-agent.

inverse RL 目前我也在做。在RL中的Reward function都是簡單直接的,並不滿足現實生活。 通過看 "專家" 的行為反過來推reward function。大牛斯坦福吳恩達(Andrew NG)早年在也這個方向有很多研究[1],並且定義了該方向的基本數學方法.

有意思的是,IRL研究可以和心理學交叉。 人是非理性的,如果能完全理解 人類行為後面的reward function,可以對人的非理性程度進行建模。 機器也可以通過學習到的人類reward function後,根據結果再reinforce learning,從而實現 "學徒試學習 "[2]. 讓機器人可以學習人類的複雜勞動。

Reward function 可以由不同的結構表示。有人引入信息熵,貝葉斯方法,神經網路等結構試圖

嘗試建立不同reward function結構,取得很好的成果。從這個角度看,IRL研究和騰挪躲閃的空間還是非常大的。

參考

[1]Ng, Andrew Y., and Stuart J. Russell. "Algorithms for inverse reinforcement learning." Icml. 2000.

[2] Abbeel, Pieter, and Andrew Y. Ng. "Apprenticeship learning via inverse reinforcement learning." Proceedings of the twenty-first international conference on Machine learning. ACM, 2004.


Multi-agent這個概念很大啊,就如同樓上所說,multi-agent主要是講不同agent之前的協作和競爭,因此不可避免的要涉及到博弈論的知識。如果同類agent是相互配合的,則設計合作博弈;如果不同的agent之間有合作也有競爭,這時候就涉及到了非合作博弈和納什均衡了。另外,multi-agent裡面的研究又會考慮模仿自然界的一些群體演算法,也包括人類社會中的社交網路和擴散模型。

IRL也叫作inverse optimal control,具體的目的是通過示教的軌跡來推算出優化激勵目標函數。IRL是RL的逆向運算,所以理論上設計大RL的東西都可以結合IRL再做一遍。比如之前Deepmind的Deep Q learning是通過給定一個優化目標,然後利用CNN來做feature learning,之後加入RL的東西,通過增強學習來訓練控制器。相反的,如果我們有一些demonstrated trajectory,而且我們假設這些 trajectory是最優的,我們同樣可以基於IRL來做Deep Reinforcement Learning,來學習示教者的優化目標。


Multi-Agent.這個世界就是這樣一個概念。


推薦閱讀:

強化學習中on-policy 與off-policy有什麼區別?
周志華老師《機器學習》圖16.13 Q-Learning 演算法是否有問題?
CS294 深度增強學習 這門課的質量是不是不大好?

TAG:機器學習 | 深度學習DeepLearning | 強化學習ReinforcementLearning |