強化學習筆記1—簡介

05-09

這一系列文章是筆者學習Richar Sutton的Reinforcement Learning: an Introduction做的一些筆記，若希望獲得更好的理解，強烈建議閱讀原書。

強化學習(Reinforcement Learning, RL)通過與環境的互動來學習一些知識，這可能是最貼近人類學習的方式。它與監督學習和非監督學習都不相同，是機器學習中的第三種範式。

一、綜述

強化學習既是一個問題，也是一類解決此類問題的方法，以及研究這類問題、尋找此類問題解決方法的領域，可以說是一門決策科學。它有三個最顯著的特徵：

RL本質上都是閉環問題，學習系統的行動會影響後續輸入；
沒有直接的指導來採取何種行為，學習代理(agent)必須通過遍試所有的行動來找到產生最大激勵的行動；
行動可能不僅影響即時激勵(immediate reward)，也影響所有後來的獎勵。

強化學習的代理必須能在某種程度上感知環境的狀態，並且能夠採取行動來改變環境，以及有一個與環境狀態相關的目標。任何適於解決此類問題的方法都可以認為是強化學習方法。

探索(Exploration)與開發(Exploitation)的權衡是強化學習中特有的難題。學習代理要獲得很多的激勵，就必須多多選擇已經試過並且能很好地產生激勵的行動；但發現這樣的行動又必須嘗試還未選擇的行動。即代理必須發掘已知很好的，也必須探索可能更好的行為。

在RL中，這裡代理並不總是表示機體組織或機器人這樣的事物，也可以是行為系統的組件。在這種情況下，代理直接與系統的其餘部分互動，並與系統的環境間接互動。現代強化學習最令人激動的一面是與其它工程和科學學科的實質而多產的結合，也是人工智慧回歸簡單通用原則大趨勢的一部分。

二、元素

除了代理和環境，可以確定強化學習系統的有四個主要子元素：策略、激勵信號、價值函數以及可選的環境模型。

策略：簡單地說就是從感知到的環境狀態，到此狀態下選擇的行動的映射。它

定義了學習代理在給定時間的行為方式；
可以是簡單的函數或查詢表，也可能是需要大量計算的比如搜索這樣的過程；
是RL代理的核心，因策略本身便足以決定要採取的行動；
通常情況下，策略是隨機的。

激勵信號：在每一步，環境給學習代理髮送的數字信號：

它定義了強化學習問題中的目標；
代理唯一的目標就是最大化長期接收的總激勵；
定義了對代理而言什麼是好、什麼是壞的事件；
是代理面臨問題的即時和決定性的特徵，是環境狀態即時、本質的期望；
代理無法改變產生激勵信號的函數，也就是說不能改變其面臨的問題；
是改變策略的首要基礎；
通常而言是環境狀態和採取行動的隨機函數。

價值函數：狀態的價值是從這個狀態開始到未來，代理能期待獲得的累計的總激勵。

指明了從長期來看什麼是好的；
表明在考慮到其後可能的狀態以及那些狀態能夠得到的激勵後，狀態的長期期望；

激勵在某種意義上是第一位的，而價值，作為激勵的預測，是第二位的。然而，在評估和做出決策時最關心的是價值。行動選擇是基於價值判斷做出的。然而判定價值遠遠難於判定激勵，必須由代理從窮其一生觀察到的序列中反覆地估計。實際上，幾乎所有的強化學習演算法都必須考慮的最重要部分就是有效評估價值的方法。

環境模型：是模擬環境行為的事物。

允許對環境如何行為的推理，比如給定狀態和行為，模型能預測接下來的狀態和激勵；
模型用於規劃，即在真正經歷前通過考慮未來可能的狀態形勢決定一些列行為；
使用模型和規劃的方法稱為基於模型的方法，與之相對的是明確使用嘗試-犯錯的無模型方法；

三、視野

RL中大多數方法都是圍繞評估價值函數構造的，不過也有其它方法解決此類問題，比如遺傳演算法、遺傳規劃、模擬退火等，都沒有使用到價值函數。這些方法被稱為進化方法，它們評估許多非學習代理的一生的行為，每個代理都使用不同的策略來與環境互動，然後選擇那些獲得最多激勵的代理。如果策略空間足夠小、或者能被很好組織起來使得策略很普通或很好找、或者有很多的時間來搜索，則進化方法是有效的。此外，進化方法在代理無法精確感知環境狀態的問題中具有優勢。

但是遺傳方法忽視了很多RL問題中的有用結構：沒有使用策略是從狀態到行為函數的事實；沒有關注個體一生經歷的狀態或選擇的行為。很多情況下這些信息能帶來高效的搜索，因此儘管進化和學習有很多共同特徵，並能天然地一起運作，但進化本身並不特別適合強化學習問題。

也有其它一些不使用價值函數的方法。它們搜索由一系列數值參數定義的策略空間，在代理與環境交互中評估為能最快改善這些策略行為參數的調整方向。這些方法稱為策略梯度方法，已經在許多問題上證明十分有效。事實上，一些策略梯度方法也會使用價值函數來改進對梯度估計。策略梯度方法與其它強化學習方法並非是嚴格區分的。

要注意的是，強化學習代理的目標是最大化數值激勵信號時，但並非必須實現這個目標。嘗試最大化一個數值並非意味著這個數值已經是最大的，即最優化並等同於最優性。這裡的關鍵是代理總是嘗試增加其獲得的激勵量。