標籤:

運籌學S01E05——動態規劃

INTRODUCTION

在這之前我們講了線性規劃,整數規劃還有目標規劃。實際上後兩種可以視為線性規劃的變形。同時他們研究的對象都是與時間無關,我們稱之為靜態規劃。而今天講的動態規劃是與時間有關的,他是研究多決策過程的一類問題。下面我們進入正題:

5.1Example

假設你現在呆在A處,目標去G處。如果問你有幾種走法,那你會很快算出答案。但現在告訴你每條路上花費時間是不同的,問你如何找到一條最快的路線?你可能會說這也簡單,把每一條路線的時間都算出來,然後對比就可以得出。

但學過運籌學還要運用暴力破解法是可恥的行為。你稍加思索:「在每一次分叉點都選取最短的路徑,這樣就可以花最少的時間。」

可還是不對,但思路是正確的,我們需要分多階段進行決策。

這類問題就是動態規劃問題,下面介紹動態規劃的基本概念與符號。

5.2 definition

我們可以將每次決策分為一個階段,上例就可以分為A——G階段,在每個階段都有不同的選擇,我們將這些選擇稱為狀態,如點集合{ B_{1},B_{2} }為第二階段的可達狀態集合,也可以記為 S_{2} ={1,2} 。

狀態需要滿足的一個特性是:當階段狀態給定後,以後的發展不受此階段之前各段的影響(跟人生不一樣),這一種性質稱為 無後效性(馬爾可夫性)。

在每一階段你可以做出不同的選擇,這種選擇叫做決策。由決策按順序組成的集合叫做策略。由第k階段到到終止階段為止的過程,稱為k子過程,記為 p_{k,n}(s_{k}) 。在實際中,可供選擇的策略是有限的,這有限的集合叫允許策略集合。

然後又回到了那個運籌學的終極問題找最優解——在允許策略集合里找到最優策略。

假如我們知道了一個規劃問題當前的狀態和決策變數,那我們可以立即確定下一個狀態。記k階段的狀態變數為 s_{k} 決策變數為 u_{k}狀態轉移方程s_{k+1}=T(s_{k},u_{k}) ,其中T稱為狀態轉移函數。

我們還需要一個函數來評價所選策略的優劣,我們稱之為指標函數,指標函數 V_{k,n}=V_{k,n}(s_{k},u_{k},s_{k+1},...,s_{n+1}),k=1,2,...,n ,該函數具有可分離性,並滿足遞推關係

V_{k,n}(s_{k},u_{k},s_{k+1},...,s_{n+1})=psi_{k}[s_{k,u_{k},V_{k+1,n}(s_{k+1},...,s_{n+1})}]

形式一:過程的指標是他所包含的各個階段的指標之和

V_{k,n}(s_{k},u_{k},s_{k+1},...,s_{n+1})=sum_{j=k}^{n}v_{j}(s_{j},u_{j})

形式二:過程的指標是他所包含的各個階段的指標之積

V_{k,n}(s_{k},u_{k},s_{k+1},...,s_{n+1})= prod_{j=k}^{n}v_{j}(s_{j},u_{j}),

指標值函數的最優值稱為最優值函數,記為 f_{k}(s_{k}) .

f_{k}(s_{k})=mathop{opt}limits_{u_{k},..,u_{n}}V_{k,n}(s_{k},u_{k,..,s_{n+1}}) 其中opt為optimization的縮寫,可以根據情況選擇min與max。

k階段與k+1階段存在著遞推關係:

f_{k}(s_{k})=mathop{opt}limits_{u_{k}in D_{k}} { V_{k}(s_{k},u_{k}(s_{k}))+f_{k+1}(u_{k}(s_{k}))},k=n,n-1,...,1

同時它滿足邊界條件: f_{n+1}(s_{n+1})=0

我們把上面的遞推關係式稱為動態規劃的基本方程,這就是動態規劃問題的模型。解決動態規劃問題也是通過寫基本遞推關係與邊界條件來完成的。

5.3最優性原理

對於最優策略來說有一個重要的特性:最優策略的子策略也一定是最優的。

其中子策略並不是指任意一段策略,而是指任意一個階段到最後一個階段的策略。

這一個性質很好證明:

我們假設子策略 p_{k,n}(s_{k}) 並不是最優的。那麼存在一個策略 p』_{k,n}(s_{k}) 優於子策略 p_{k,n}(s_{k}) ,此時由原先最優策略的前半段與這一個策略 p』_{k,n}(s_{k}) 組成的新策略優於原先的策略。又因為原先策略是最優策略,產生矛盾。所以可知,最優策略的子策略一定也是最優的。

5.4 summary

本節介紹了動態規劃問題的基本概念與簡單性質,目前我們的運籌學專題已經將幾大規劃問題介紹完全,如果你產生興趣想深入學習,還請找專門書籍閱讀。可以參考此問題運籌學有哪些經典教材?運籌學第一季至此結束,謝謝大家支持~


推薦閱讀:

隨筆一則
【不等式】丟掉次數:伯努利不等式及其應用
自然生活的數學原理
Penn Geometry Festival
Hormander分析不等式

TAG:數學 | 運籌學 |