從經濟學角度來看，「走一步看一步」是一個好建議嗎？

01-14

經常有長輩語重心長地說，如果你的人生里每一步都選好了，那麼你的人生就是最優的。我開始在想，這個問題是否可以等價於找子博弈納什均衡。後來又考慮到，子博弈納什均衡需要用到逆向歸納法，而人生更像一個不完美信息博弈，這樣是不是用找序貫均衡（sequential equilibrium）來描繪更合適呢？這是在學了博弈論之後的想法，之前考慮這個問題是從貪心演算法和動態規劃的角度。但如果處理成動態最優化問題，問題就轉變成局部最優在什麼情況下可以等價為全局最優。可能要接著討論效用函數的凹凸性，集合的緊性等等，看起來會更加複雜，而且效用函數也是很難得到的。所以才想用到博弈論的框架。和周圍同學討論後，也有人認為，人生不能這樣模型化為一個game，因為你不知道未來的選擇和收益。期待各路大神能給出更有洞見的思路！
問題補充：
感謝 @金超 @陳茁兩位大神提供的角度，答案對我啟發很大。二位從各自熟悉的背景，對這個問題做出了精彩的分析。不過，與我同學以及二位認識略微不同的是，我們宏觀老師曾提到過的一個觀點，他認為：Dynamic Programming 最大的敵人是動態不一致，這使得在兩人以上經濟體中動態規劃的現實意義不是很大。所以現在宏觀經濟學恰恰應該大量使用博弈論作為工具，來分析agents 之間的optimal response。基於此，我越來越好奇，做微觀方向的大神能不能來分析分析，在人生決策問題上，是否可以採用以及怎樣更為合適地採用博弈論進行分析呢？

吸引來這麼多程序猿，真是始料未及，哈哈。也想請教一下各位技術大咖，什麼情況下greedy strategy 可以達到全局最優呢？
發現一個某種程度上類似的問題：動態規劃和貪心的本質區別是什麼？
本題已加入知乎圓桌 ? 日常經濟學 · 博弈人生，更多「博弈論」話題討論歡迎關注

我認為這個問題實際上涉及到個人認知能力與未來可預測性之間的關係，目前在決策理論中討論的非常多（不知道是我被自己洗腦了還是這個問題確實太重要了）。我嘗試簡單介紹一點點。

與「相機抉擇」（走一步看一步）對立的觀點暫且稱為「一以貫之」。我的觀點是，二者的優劣取決於你在大世界還是小世界。下面我將嘗試解釋我的觀點。

Savage提出過一對概念「小世界」和「大世界」。在小世界中，我們可以提前列出所有的可能性並且基於此進行計劃，因此在小世界中，人們三思而後行（look
before you leap）。一個小世界的例子就是打撲克，你可以窮盡所有的牌型，並且大概知道每種牌型出現的概率，因此可以進行計算和計劃。相反，在大世界中，我們可以列出很多未來的可能性但是我們無法保證自己是否窮盡的全部的可能，因為我們不知道是否還有超出我們的理解和想像的事物存在。大世界的例子在現實中數不勝數，高考、考研、談戀愛甚至職業選擇。在做決策時我們可以列出很多可能，但是我們不敢保證我們沒有忽視什麼，而且事實常常證明事情總是不按照我們想像中任何一種可能發展。所以Savage說，在大世界中，我們遇山開路遇水搭橋（Cross
that bridge when you come to it）。

感謝陳茁給出了Savage的主觀期望效用理論，不過Savage一再強調他的模型只是適用於小世界。顯然，當你無法窮盡世界的無限可能時，你為每件可能所賦予的概率值都顯得不那麼靠譜。還有一點是，Savage的模型是一個as-if邏輯，即是說如果你的選擇符合7條公理，那麼你就仿似再做一個期望效用最大化。此邏輯並沒有告訴你是否真的存在這麼一個輔助選擇的主觀概率，只是告訴研究者，無論這個人怎麼想，我們都用這樣一個方法可以刻畫他的選擇行為。因此它是工具，而非指導。或者，它是一個實證（positive）模型而非規範（normative）模型。

不過Savage模型確實是經濟學的基礎，進而Bayesian方法也變成了主流。Bayesian主義認為人們從完全無知開始，不斷吸收信息，不斷更新自己的信念（belief），進而所需要考慮的可能性越來越少且越來越精確，因此世界在不斷變小。但是實際上，我們發現隨著我們長大，也有一種力量使我們的世界不斷變大：我們可以認識到了新事物。這些新事物本身就沒有出現在我們事先的考慮中。例如，Karni和Viero（2013）AER就寫到：

According to the Bayesian paradigm, as new discoveries are made and new information becomes available, the universe shrinks: with the arrival of new information, events replace the prior universal state space to become the posterior state space, or universe of discourse. This process of "destruction" reflects the impossibility, in the Bayesian framework, of expanding the state space and of updating the probabilities of null events, coupled with the fact that conditioning on new information renders null events that, a priori, were nonnull. Yet, experience and intuition alike contradict this view of the world. Becoming accustomed to possibilities that were once inconceivable is part of history and our own life experience. There is a sense, therefore, in which our universe expands as we become aware of new opportunities.

從這個角度來回看，Bayesian主義所考慮的無知並不是真正的無知，而是小世界下的「不確知」：決策者知道全部可能但是不知道真實世界是哪一個。與之相對的是大世界下的無知，決策者既不知道真實世界是哪個，甚至不知道世界有多大。學術一點，因此我們要學習和更新的不僅僅是狀態空間上的分布（distribution
on state space），更是狀態空間本身（state
space per se）。更困難的是，兩個過程是同時進行的。據我所知，經濟學中，尤其是決策理論中在討論大世界下的學習理論的僅有ambiguity和unawareness兩個領域。

寫到這裡，實際上應該進一步談談經濟學理論是如何紮根於小世界理論以及這樣可能會有哪些偏差。不過，我想這個問題寫起來難免啰嗦，所以不妨留給大家。

現在，回到最初的問題，相機抉擇還是一以貫之？我認為答案是取決與決策問題更接近與大世界還是小世界。很多事情別人已經用經驗驗證了無數遍，我們可以幾乎將其看成一個小世界時，利用現有經驗找到最適合你的計劃然後一以貫之。這個例子實在是太多了，比如考試後才發現當初應該按計劃複習。但是也有很多事情沒有太多先例，比如科研，只能一邊做一邊思考一邊調整計劃。

如何在實際中區分大世界和小世界？這個問題我想沒有統一的答案，因為每個領域科學的進展都不相同。因此，我認為這是一個思考的起點，而非終點。

謝邀， @星日馬，哈哈我好久沒正經答題了呢。

最近正好在看一本叫「The economics of time and ignorance」的關於奧地利學派的書，正好和這個問題很有關。在其中的一篇叫做「The Dynamic Conception of Time」的文章中，作者正好提到過這個問題。那篇文章引用了Hahn那本著名的《一般均衡理論》裡面的話：

As Hahn admitted, 「The assumption that all intertemporal and all contingent markets exist has the effect of collapsing the future into the present」 (1980, p. 132). Decisions are all made in a single primordial instant: the future is merely the unfolding of a tapestry that exists now.

翻譯：就像Hahn所承認的那樣：「假設所有跨期商品和或有商品市場存在會讓所有『未來』塌陷到『現在』當中。」決策完全是在（整個state variable的隨機過程）開始之前就制定好了：未來只是一個現在已經存在東西的展開罷了。

其實，無論是題主提到的序貫均衡也好，動態一般均衡也罷，都是這個問題。經濟學家解決動態問題的方法只有一個，那就是逆向歸納。比如在經典的宏觀問題中，比如Hall的不確定性存在下的永久收入假說，我們無非是要解一個這樣的問題：

$egin{aligned} max: E_0sum_{t=0}^Teta^tu(c_t)\ s.t.sum_{t=0}^TR^{-t}(c_t-y_t)=A_t end{aligned}$

解這個問題的思路本質上就是逆向歸納：第一步，當我在第T期，財富是某個 $A_t$ ，我要消費多少？然後遞歸到第T-1期：如果第T期我的財富是某個 $A_t$ ，我預測的消費是 $c_{T-1}(A_t)$ ，然後我決定如果第T-1期，當財富是某個 $A_{t-1}$ 的時候我要消費多少……以此類推，解出來的就是經典的隨機遊走： $c_t=E_t(c_{t+1}|y_1,cdots,y_t)$ 。雖然在不同的情況下約束條件不同（比如金融市場、勞動市場等等是不是完全競爭的），但是所有問題都是這麼解決的。

當然，宏觀當中因為要經常遇到貨幣問題，所以一般都要假設無限期界，這時候就沒有一個特別合適的「第T期」了，所以必須要改用DP來解這個問題了。但是思想沒變，結果是，最終我們找到只是一個「相機行動計劃」，即依據不同的已經realize掉的收入流，調整我們的決策也就是一個optimal policy。當然就像 @金超說的，一個相機行動計劃在某種意義上也可以被看做「走一步看一步」。但從本質上說，第0期之後，決策者並沒有真的在做「決策」，而是一直在執行一個從一開始就決定好了的行動計劃而已。

這篇文章的作者所argue的點是這樣的：如果我們那新古典這一套東西去研究跨期問題，我們不可能看得到真正的「動態問題」，動態問題根本就不存在，這是因為決策是靜態的。作者繼續argue的一件事情就是這裡面的根本問題是新古典經濟學裡面的時間是「牛頓時間」，它只是空間概念的一個類比而已，因為空間是可分的，牛頓時間也是可分的，所以，時間軸作為「時間點組成的連續統」，不可能包含任何真正的因果關係。作者認為，應該用「real time」這個概念，即事物因果關係的一個序數排序，來取代「Newtonian time」。

當然，作者說的東西我一來沒有完全理解（沒有數學模型看不懂東西是病得治），二來看懂的部分也不完全贊成。所以這裡我按照我理解問題的方式來說說真正的「走一步看一步」是什麼，題主的困惑是用新古典模型的視角去看待動態問題不可能出現真正的走一步看一步，我想問題是出在了新古典模型默認的Savage的主觀概率理論上了，也就是我在之前一篇專欄里寫的「小世界假設」上（開放宇宙、企業家與挨千刀的概率論 - Mr. Bias 的經濟學輕科普 - 知乎專欄）。

通常新古典經濟學家會假設存在一個關於「state of the world」的集合先驗存在，記作 $S$ ，且這個集合至多可數。可以證明，只要滿足Savage給出的那七個公理，那麼就存在一個 $S$ 上的測度 $p$ 使之滿足一個概率測度的所有要求，這個概率測度就是博弈論中的「先驗概率」，所有關於非完美信息、非對稱信息的博弈理論和經濟理論，無一不是從這裡出來的。

為了在其中引入所謂的「動態問題」，我們可以做這樣一個處理： $S=Pi_{t=1}^infty S_t$ ，其中每一個 $S_t$ 表示在時段t中可能會realize的所有state的集合。這樣，站在時期t的決策者，已經觀察到了所有歷史上曾經realize的那些state，即 $I_t=(s_1,cdots,s_{t-1})$ ，也就是計量理論中經常出現的「歷史信息」。此時我們可以通過貝葉斯法則去「更新」已經存在的先驗概率：

$p(s_t,s_{t+1},cdots|I_t)=frac{p(s_t,s_{t+1},cdots)p(I_t|s_t,s_{t+1},cdots)}{sum_{(s_t,s_{t+1},cdots)inPi_{ au=0}^infty S_{t+ au}}p(s_t,s_{t+1},cdots)p(I_t|s_t,s_{t+1},cdots)}$ 。

感謝期望效用下面效用和概率之間的關係是線性的，感謝重複期望法則，我們在所有「動態經濟模型」當中使用的決策規則在統計決策理論下面就這麼成立了。

所以，所有新古典經濟學家在統計決策理論的角度看都是Bayesian。

Savage體系是題主疑惑的問題的最根本原因，因為Savage體系的好處是「動態一致性」。就像我們從上面那個宏觀問題當中發現的那樣，只要我們在整個隨機過程開始之前就確定一個計劃，然後忠實地完成這個計劃就可以了。而且，我們的Belief是Bayesian的，是我們的決策是動態一致性的必要條件，也就是說，如果我們的先驗信念不是一個概率測度，或者我們更新信念的方式不是Bayes Rule而是其他一些什麼東西，那麼動態一致性就沒有了，這是Epstein Le Breton (1992)證明過的。

Binmore在2006年的一篇叫做「Making Decisions in Large Worlds」（當然從題目看他就是要解決小世界問題的）中說了這麼一段話：

But why should we wish to adjust our gut-feelings using Savage』s methodology? In particular, why should a rational decision-maker wish to be consistent? After all, scientists aren』t consistent, on the grounds that it isn』t clever to be consistently wrong. When surprised by data that shows current theories to be in error, they seek new theories that are inconsistent with the old theories. Consistency, from this point of view, is only a virtue if the possibility of being surprised can somehow be eliminated. This is the reason for distinguishing between large and small worlds. Only in the latter is consistency an unqualified virtue.

翻譯：然而，為什麼我們要拋棄直覺而改用Savage的方法呢？特別是，為什麼一個理性的決策者一定要是動態一致的呢？至少科學家就不一致嘛，因為「動態一致地犯錯」是非常不明智的。當數據驚奇地告訴我們已知的理論是錯的，我們會尋找與舊理論不一致的新理論來代替它。一致性在這個角度來說僅僅是「驚奇」不存在時的正確決策方式。這就是「小世界」和「大世界」必須分開對待的原因。一致性在「大世界」中是一個非常爛的行為法則。

Herbert Simon在1950年代提出Satisficing的那篇經典文章中特意區分過兩類知識：一類是關於「哪些偶然情況可能發生」的知識，另一類是關於「這些可能發生的偶然情況發生的概率」的知識。顯然在Savage的公理體系裡面，僅有第二類是會通過學習而「更新」的，而第一類知識先驗地就是完備的，這也是很多奧地利學派經濟學家認為新古典經濟學雖然到處是概率，但是並沒有能夠使genuine uncertainty存在的餘地的原因。

事實上，真正的「走一步看一步」，並不只是在學習 $S$ 中所有元素髮生的概率（就像Savage體系中所做的那樣），而是在學習集合 $S$ 本身。就像之前的答案里 (有些事明顯對自己有益，為什麼卻無法去做？ - 陳茁的回答) 我提到過的Naive decision maker一樣，偷懶的學生決定拖延（比如寫作業和複習考試）並不一定是因為他不在乎成績，而是他堅信自己未來一定會完成任務。但是真的當未來變成現在，他發現自己當時沒有考慮到自己還是不複習這種可能性。也就是說，一開始決策者對 $S$ 這個集合併沒有完備的知識。對我們也是一樣的，三歲時的我們，當被問到「你以後想幹什麼」的時候，如果按照新古典理論，我們的答案應該是：「如果XXX我就去幹警察，如果YYY我就去干科學家，如果ZZZ我就……」但是我們都知道，三歲的小孩兒根本不可能知道都有哪些偶然因素可能發生，我們成長的過程一個重要任務就是這個。

我在之前那篇專欄里提到的身兼凱恩斯和哈耶克兩門武藝的Shackle，站在他激進主觀主義的立場上聲稱：未來在現在並不存在。未來並不是所有人在某一時刻就已經創造出來，並隨著時間流逝慢慢發現它，而是由所有人不斷地創造出來的。在他1972年的Epistemics and economics中，他提到(pp. 156)：

So far as men are concerned, being consists in continual and endless fresh knowing.

翻譯：人的存在，在於無休止的學習中。Shackle認為，學習 $S$ 的過程是沒有終點的，在Savage體系中那個完備的先驗概率體系只是一個永遠不可能到達的理想狀態。

這也是題主和同學們覺得人生不能化約為一個動態博弈的原因。

就醬~

謝邀。

這個問題我的角度比較不一樣。我覺得是一個model free vs model base的問題。

這兩個概念在行為科學裡面非常重要.

通俗理解就是，如果你在一個大樓裡面找一個麵包,你要有計劃的拿到圖紙,分析哪個房間更有可能。做柯南。。。是為model base.所有博弈論均衡大都是model base

Model free就是...我就隨便亂走，走一步看一步.

我學這兩個概念的時候，一下就想到了人生觀.正如均衡，大多時候你看不了全局，根本就無法model base.但走一步看一步又不大容易剛好成功

個人感覺強調製定長期目標的重要性，同時認為在具體實踐目標時要堅持「走一步看一步」，兩者並不矛盾。我嘗試給出三個視角：

1、干中學（learn by doing），簡單地說，就是達成目標的很多信息是決策前無法獲知的，只能在實踐中學習、領悟，然後不斷的修正自己的短期目標。

2、風險決策，簡單地說，決策時充滿信息不確定性，我們可以通過干中學，豐富了短期信息，從而不斷地更新後驗概率，然後修正中長期目標計劃。

3、認知理論，推薦讀下德國心理學家德爾納的《失敗的邏輯》。簡單地說，人類的認知能力是有限的，比如大腦很難按指數級預測增長率，而現實是非常複雜的，因此人不得不根據現實的變化來修正決策。

總的來說，個人感覺目標規劃更多是先驗概率下的決策，而「走一步看一步」是對其的一種修正。如果從這個視角看，其實這個問題更多的解釋不屬於「博弈論」。

我支持 @Reinhardt Jin 的說法，這個問題其實不一定要看作博弈，因為「世界」和「我」不是對等的對手。世界並不會有意識的和個人博弈——我承認確實有一些模型，我們可以把自然引入進來，給自然賦予一個屬性，比如總是在最小化風險之類，然後讓人和自然進行博弈求均衡。

但是就題主這個問題來說，看作動態規劃和看作動態博弈是等價的，因為自然的反應是可以預期的，並且我們不需要在乎「自然」的效用，我們只在乎自己的效用，那麼還是等價於你選擇一個行動，然後每個行動產生一個效用，你試圖在最大化總效用。

假如你認為人生只會進步，不會退步，區別只是進步大一點和小一點的話，那麼走一步，看一步是和預先老謀深算的盤算一番是一樣的，在這種情況下，人生就是一個帶正權重的有向無環圖，從出生到死亡。

從出生開始，我們只需要看看我們周圍可以做的選擇，選效用最高的那一個，到了下一個目的地之後環顧四周，發現新的選擇，也發現新的可以達到目標的方法，然後看看周圍的選擇是不是比現在的好，如果是的話，就跳過去，如此反覆，可以保證我們選擇的是一條整體效用最高的路徑，這就是戴克斯特拉演算法。

這個演算法最大的特點就是可以走一步看一步，每一步都選擇最優的，最後必然能得出一個全局最優，他發明了一個術語叫做「鬆弛」，每一回合，通過自己新發現的路徑來檢測自己之前做的選擇是不是最優的，如果是的話，就保持不變，如果不是，就修正為新的路徑。

但是戴克斯特拉演算法有個最大的假設，就是沒有負效用的道路，這是不是符合人生的現實呢？看標準怎麼定義了，有人認為只要是經歷，都是財富，有人認為自己繞彎路回到了原點，那就是完全的浪費。

如果你認為人生是可能有死循環的，有負效用的，戴克斯特拉方法就失效了。這個時候就要採用貝爾曼--福特演算法來找出最優路徑。

很遺憾，在這種情況下，走一步看一步就無法保證最優解了。必須要打開上帝視角，預先對路徑上的每一條邊都進行鬆弛操作，反覆多次之後，每一個點所對應的最短距離都慢慢的變成了「正確」的最短距離，於是我們真正需要找的那個最短距離也就慢慢的浮現出來了。所以啊，不同的人生態度對應不同的演算法，豁達一點的呢，認為人生就是風景，有進無退，那麼就直接戴克斯特拉演算法，走一步算一步，人生就已經是最完美的，無需過多的算計；但是如果你認為人生是充滿陷阱、機遇和挑戰的，存在著死循環和坑，那麼最好還是多盤算盤算，走一步看一步，沒準哪天就走到一個周圍全是負向量的「坑」裡面，多盤算盤算才能獲得更高的效用。

人生最好=A： $max sum_{t in T} u_t(x_t)$ （這裡我把discount內化進了 $u_t$ 里）

走一步看一步=B： $max u_t(x_t)$

首先，貪心不一定能保證當期效用最大，因為你不僅不能完美預期未來，你甚至也不能完美掌握當期信息——最簡單例子，被騙基本是因為貪心，但是上當了才發現以為最好的不是最好

A和B的問題一般在於：B的 $x_t$ 對A的budget的影響，誰知道你這一步的選擇會讓你下一步變成什麼樣，這裡很有可能就變成了一個stochastic game。再打個比方：大家覺得小明傻，因為每次給他10塊和1塊，他都選1塊，別人問為什麼，小明說「我選了10塊以後哪還有人給我錢」

A和B的還有一個問題在於每個 $u_t$ 是不是長的一樣，俗稱動態不一致

你看我們其實可以把人生的動態規劃變成一個這樣的動態博弈，n個人，每個stage隨機一個人來採取行動，最後看看社會總福利是不是最大——————那比如羊吃草問題上，步步最優肯定不等於總體最好

提問者希望了解博弈論怎樣分析這個問題，那麼我只講博弈論。

首先，我要提出與許多回答者不同的一個觀點：博弈論是完全適合分析這個問題的。單人決策只是多人博弈的特例，所以博弈論的分析框架全部適用於單人決策問題。特別的，題主所問的這種單人多期優化的學術分析經常是架構在博弈論的語境里的。

接下來我講講博弈論怎樣分析單人多期優化的幾類問題，以及在這幾類問題中「走一步看一步」是不是最優解。

1. 最基本的問題是完全信息＋穩定偏好的多期決策問題。這個問題的「經典」方法是dynamic programming，「博弈論」方法是「subgame perfect equilibrium". 這兩個解是等價的，思路也是完全一樣的（事實上Selten關於subgame perfect equilibrium的思想啟發就是dynamic programming). 這個思路恰恰就是「走一步看一步」。

2. 更常見的問題是不完全信息＋穩定偏好的多期決策問題。這個問題博弈論的解法是sequential equilibrium, perfect Bayesian equilibrium之類的。這些解法在單人博弈情況里等價，與dynamic programming的解法也等價。其中關鍵條件sequential rationality仍然就是「走一步看一步」的意思。博弈論里的一大讓熱點方向"experimentation"與其在契約理論的應用就是脫胎於"bandit 賭博機"這個經典不完全信息的多期個人決策問題。

3. 說到不穩定偏好的多期決策問題（偏好呈現time inconsistency），如成癮問題，拖延症問題等等，博弈論的解決辦法是把不同期的決策者理解為不同的人，因而把一個單人多期決策問題轉化成一個多人多期博弈問題，然後再用經典分析辦法。關於成癮問題的經典模型multiselves model就是藉助這種博弈論分析思路。在這種經情況，因為博弈均衡仍然要求sequential rationality, 所以本質上還是「走一步看一步」。

4. 還有一種多期決策問題里存在所謂「健忘」（absent-minded）的現象，也就是決策者會「忘記」自己在決策的哪一階段。最經典的例子是Piccione-Rubinstein提出的"absent-minded driver". 這種情況在理論上很有意思，而且引發了學者對於人的決策行為的許多形而上的討論。最值特一提的是，如果absent-minded情況存在，那麼最優決策可能不是「走一步看一步」，特別是最優解是混合策略的情況。因為在「健忘」存在的情況下Kuhn"s Theorem即"全局混合策略（mixed strategy）與局部混合策略(behavioral strategy)等價」這一定理是不一定成立的。（本質上還是因為imperfect recall導致的time inconsistency, 但和multsleves model不同的是，前一期的局部決策在這個模形里通常是不能限制下一期的選擇。）因此，個人決策的最優解很可能只是全局混合策略而不是局部混合策略。放到「走一步看一步」這個問題來說，「走一步看一步」作為局部優化，結果可能不是最優的。不過這種「健忘」現象存在的決策的應用中似乎不常見，所以現在影響主要還是更偏形而上的理論。

－－－－－－－－－－－－－－

我又看了一下別的回答，感到大家有幾個反映：

1. 「認為單人決策問題不是博弈問題。」其實單人決策問題只是博弈問題的一個特例，只是所以他人策略作為外生變數（state of the world）。但在博弈均衡里，每個參加者面臨的決策問題就是這種把別人策略當外生變數的單人決策問題。別忘了參加者本人是不用計算均衡的。另一種類比是，單人決策與多人博弈的關係就是partial equilibrium 和 general equilibrium的關係：唯一的區別只是模形的邊界。

2. 「認為『人生』這種單人決策問題不能用Bayesian model, 因為人對周圍信息的評價，吸收和處理都與Bayesian agent相差很遠。」這個評論我是同意的。但如果這樣的話所有的現實話題都無法進行學理性的討論，因為我們用的模型沒有哪一個是真正接近現實的。關鍵是我們是否能在一個嚴謹的模型分析中獲得一些基本的「啟迪」（insight）。如果我們要在non-Bayesian framework里進行有意義的討論，那麼我們必須借用一個嚴謹的能產生有意義的結論的non-Bayesian model.

從尋找局部最優解的角度是個好建議。走一步看一步，即每走一步都尋找當前的梯度，然後選擇下降最快的方向走下一步。只要步長合適，constant step size可以保證收斂到一個stationary的解，在通常情況下能找到一個局部最優解。不過步長太大不一定收斂，步長太小收斂速度慢，步長的選取也是需要自己去做trade off的。

從尋找全局最優的角度，這不算是一個好建議，因為一旦落入局部最優解就出不來了，你不知道當前的解是不是一個全局最優解。為了尋找全局最優解，一個想法是利用branch and bound方法不停定界，不停地在不同區間嘗試，最後可以慢慢逼近全局最優。不過branch and bound收斂也很慢，用這種思路需要足夠的耐心。還有一種方法是李普西茲優化，根據李普西茲常數這個全局信息去分析最優解可能出現的位置，可以大大降低搜索難度。不過這需要你對整個函數的全局信息有充分把握，對你的水平更有挑戰。

值得指出的是，即使是全局優化，走一步看一步也是一種很有效的輔助手段，可以快速確定函數最小值的一個上界。

謝 @星日馬邀。

我想先問一個問題：如果把它刻畫成一個博弈，那麼博弈對手是誰？

肯定會有人認為，我的博弈對手就是全社會或者我周邊的環境。那麼我想問的是：到底什麼樣的個體才能把「全社會」當成博弈對手來看待？

舉個栗子，大家學產業組織時學過一種市場結構，其中有一個壟斷者享有定價權，另外有一堆產能有限的小兒子企業根據壟斷者的決策來做決策。在這種情形下，壟斷者是可以去計算那一票小兒子企業加總的「反應函數」，從而制定自己的策略的。

對於個人來說，很少會發生這樣的情況。在絕大部分情況下，把社會當成博弈對手去考慮，還不如把社會當成狀態變數來考慮。然後這麼轉一圈又回到動態規劃的思路上去了。

我的另一個問題是：「走一步看一步」足夠精確嗎？

用動態規劃的眼光看，我覺得「走一步看一步」是個非常模糊的說法，什麼都可以往裡裝。至少有兩種可能：

1）行為方式（Policy function）不變，根據環境（state var）的變化，調整自己的行動（control var）

2）環境改變後，改變行為方式（policy function）

第一種解釋，和policy function本身的邏輯一致：一個從一而終（具有dynamic consistent preference）的人，根據環境的變化，走一步看一步。

第二種解釋，代表人的目標函數變了（或具有dynamic inconsistent preference）。所以最後解出來的policy function也變了。例如我原來的目標是錢掙得越多越好，於是我在所有工作邀約里選了一個諮詢公司的工作。結果乾了兩年我的目標函數變了，我的目標變成了白酒喝得越多越好，於是我辭職去一個銷路不佳的白酒廠當會計，就為蹲它拿賣不出去的白酒給我發工資。

改變目標函數也可以解釋成一種「走一步看一步」。

最後我覺得還是可以回到博弈論的框架下，無視上述的兩個疑惑來說兩句。

其實動態博弈中任何帶有懲罰機制的策略，都可以解釋成「走一步看一步」。最簡單的例子是動態版的囚徒困境中的一個均衡策略：每個人都實施「以牙還牙」策略（trigger strategy）。

一開始執行「合作」，一旦發現對方背叛，就執行數期「背叛」，再開始執行「合作」，如是往複。

這好像又能解釋成「走一步看一步」。

所以長輩給出「走一步看一步」的建議，無非是希望把你從諸如

$max_{c_{t},c_{t+1},...}E_{t}[sum_{h=t}^{infty }{u_{s}(c_{h},s_{h})} ]$

的問題中解放出來，給你一個稍微簡單一點的問題。

但是貝爾曼老爺直接給了你一個兩期的呀，而且那個在一些不太苛刻的條件下可以解呀。

這可能就是厲害的數學家和普通人之間的分別了吧。

題主你好，

大學時專修過一科博弈論，所以容在下在此胡扯幾句。

首先，我看到幾位知友大神回答中提到的博弈對手。的確，在人生里，博弈對手是誰？因為假設沒有博弈對手，人生的各個選擇都是單純的經濟選擇（而且假設是rational的理智選擇-才能最大化optimal results），而不應該納入博弈論中。

好，假設我們有一個博弈對手。讓我們叫他「其他人」或者叫做「世界」。為什麼這麼叫，因為不是有句話嗎，深深感受到來自這個世界的惡意。

其實這句話也反映了一點。所有「其他人」作為一個整體，可以對我們的決定做出反應，從而影響我們的選擇。因此也可以把「其他人」這個整體作為博弈對手。佛學管這個叫做眾業。當然還有很多不可抗力因素，比如天災。那怎麼考慮這些因素呢？當然學習任何一個偉大經濟學家該做的。先簡化問題。

好，那麼假設我們生活在上帝的伊甸園。除了同伴，什麼災害也沒有。我們所有的決定都是和「其他人」直接或間接相關/相互影響。

那麼從生到死，走一步看一步是不是nash equilibrium？

想想看，生活中有沒有類似的例子？走一步看一步的情況？Bingo！所有棋類都是！

那麼棋類是否有nash equilibrium？很多經濟學家和愛好者都研究過這個問題。答案似乎不是很統一。但至少大部分人認為，沒有獨一無二，或者甚至沒有nash equilibrium存在。

首先，這肯定不是一個infinite的game，人都會死，棋局也會結束。所以嚴格來講可以用backward induction來推算。（但工程量實在浩大）所以我們只考慮原理：假設我知道我終有一死（贏或輸），死前一秒我做什麼（每個人想法應該都不同吧，但假設都是rational的話，應該是及時行樂吧。反正快死了。）再往前一步，還是及時行樂啊（下棋的情況下，就是隨便下唄，反正輸贏確定了）。。。

由此可見，這個很不符合邏輯。隨便下怎麼可能贏，而時時及時行樂怎麼可能對人生有好處呢？怎麼聽怎麼像個losing strategy，絕不是nash equilibrium。

所以我想，也許唯一有nash equilibrium的情況，就是有fate/命運的情況。一切結果都是命中注定。

隨便下棋還能贏（那就是要不然買通了裁判，要不然隨時改變規則）

隨便活還能是optimal strategy那必然開掛啊。

這兩種情況怎麼聽怎麼都是God才行的。

其實接下來還有一個很大的twist。明天再聊，太困了。2016.05.09

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

2016.05.10

好，趁早上先寫一點。

昨天我們的分析，其實是非常非常簡化的原理。有不少漏洞和不足。今天我們來進行補充和完善。

在博理論中，有幾個關鍵因素。

第一，就是我們之前提到的參與者們，也就是你和你的對手。

第二，payoffs，也就是博弈所獲得的結果。

第三，strategies，你必須了解你和你的對手所擁有的一切可能使用的策略／行為，才能夠做出判斷。

payoff是非常重要的考慮因素。因為作為rational的agents，每個都希望儘可能地利益最大化。博弈論中有一個有意思的情況，也就是所謂的0-sum game，零和博弈。也就是說，你輸我就贏，你贏我就輸。不可能我們雙方都贏。我們雙方的輸贏payoff總和＝0。

著名的囚徒困境就是如此：

無論對方選擇什麼，甲乙雙方都會選擇背叛。因為背叛才是nash equilibrium。這是一個簡單的博弈，但卻說明了很多道理。

我為什麼舉這個例子。因為在之前的分析中，實際上我們做了個假設，用棋類來做比喻和backward induction其實暗示著我們的博弈是一個0-sum game。

顯然，在我們生活的世界中，不一定每個決定都是0-sum game。對於我們和我們生活的社會來說，很多時候會有synergy的產生，而且合作可能會帶來極大的好處。（儘管現實社會中，很多人寧願自己創造零和博弈，也不去選擇更好的合作，這也是為什麼人類的原罪和貪婪使我們無法成為經濟學中的rational agents。）

那麼，問題來了，在人生所面臨的問題中，payoff是誰決定的，怎麼決定的？

假設我們改變了payoff，結論是否還會一樣？人生有沒有走一步看一步的nash equilibrium？

晚點再來答題～～～先出門辦事兒了

--------------------------------------------------------------------------------------------------------------------------------------------

2016.05.13 這幾天實在沒時間更新，今晚來寫。我也想早點把心中的想法都寫出來，怕過幾天忘個精光。哈哈。

不挖坑了，先回答上次遺留的問題。

payoff是誰決定的？

上大學的時候，每次講解到囚徒困境時，教授一般都說，罪犯的payoff是警察局決定的。

現實中，警察具有the power of execution，也就是執法權。而刑法法律是立法部門（比如議會）建立的。法院具有的是解讀法律的權利。

在一般的囚徒困境例子中，我們的payoff代表的是所受法律懲罰的嚴重程度，也就是刑法法律對於囚徒的細則規定。那麼在這個例子中，payoff是由立法部門決定的。

在生活的其他方面，其他payoff的規則也都由各種機構（institutions）來建立。在工作的時候，要遵守公司的規定和同事，和客戶，和監管部門互動，來獲得payoff（薪酬，升遷，懲罰等等）。在家裡，要遵守家庭規定和伴侶，子女和父母互動，來獲得payoff（晚餐治療，跪搓衣板的硬度等）。

那麼既然遊戲規則和payoff都和機構那麼密切相關，而又能強烈影響博弈中雙方使用的策略，那麼我們有必要談談規則是怎麼制定的，而又和博弈有什麼關係？

研究這塊的經濟學，有幾個重要的分支。其中最主要的恐怕是welfare economics，關乎社會福利的經濟學。

假設你是國家領導人，如果由你決定國家的福利政策，你會怎麼決定？你也許會說，要人人平等。你也許會說，市場至上，要根據貢獻獲得福利。或者福利隨機，全靠天生的運氣。

好，那麼再假設，你還沒出生，但是可以託夢給現在的國家領導人來制定福利制度。而你所受的限制是，你無法控制你出生後的情況，你也許健康，也許殘疾，也許生在富人家庭，也許生在貧民窟，也許...也許...總之，你知道一切可能會發生的情況和其對應的概率（比如10%生癌症的幾率，50%的幾率活到80歲），但你就不知道具體發生在你身上的是什麼。

你會怎麼託夢呢？

嗯。你是要追求納什均衡還是帕累托最優?

人生是一個複雜系統，而經濟學啊博弈論啊研究的問題都是在一定程度上對需要研究的對象進行簡化後進行分析求解的，求解的時候往往需要省略特性以便突出共性；但很遺憾的是人生中能起到大作用的往往是那些在理論探討中所必須忽略的特性，所以用理論進行人生指導並不可靠。

那麼在人生中走一步看一步是不是最優解呢？我的理解是，走一步看一步最後得到的多半不會是當前評判標準下的最優解，但可能是人生的唯一可行解。因為對你自己而言，人本身在前進的過程中會有所改變，也即每走一步後，相應的評判標準都會有所改變，所以事實上可以認為，對你個人而言，你所達到的終點就是你這一路走來所能達到的唯一解；而所謂的最優解呢，也不過是你以當下的評判標準為基礎，做出的推斷評估。人是會變的，自身能力會變，評判標準會變，這些都是獨一無二的東西，隨著每一步的前進而變化；在這樣的前提下，你走的每一步都是獨一無二的，又何談最優解呢？所以為什麼要「蓋棺定論」，就是這個原因。人生有無限種可能，死了才能確定終點；而對個人而言，活著的時候就別想那麼多了，走一步看一步，能讓當前的效用函數值最大化就可以了，就不必考慮到終點那麼遠的事情了。綜上所述，走一步看一步算的上是一個面對人生的好建議。

走一步看一步不一定是個好建議，只適用於特定的人群。

走一步看一步其實抽象成數學問題就是一個最優化問題，而走一步看一步就是找最優步長和最優方向，在凸規劃問題中這樣的確能夠得到最優解（局部最優=整體最優），而在其他情況下經常會陷入局部最優當中，所以就比如在數學瞎子爬山的問題中，最好的方向與最好的步長合起來不是最好的結果。所以如果你的人生是凸規劃，那麼走一步看一部還是很好的！！

人生和博弈還是有差別的，博弈的對象、規則、可能出現的情形（情形集合）以及收益的集合是知道的或者知道不同情形之下的結果。就人的一生而言，無論是可能的結果、概率分布以及收益，這些不僅具有不確定性，更是不可預知的。所以博弈論可以用來分析特定階段人生的決策，但如果分析時限貫穿一生是有缺陷的。

至於「走一步，看一步」決策的優劣，這種決策模式缺乏對未來方向的思考，因為決策是面向未來，所以更需要的是基於對於未來趨勢的分析來做現在的決策，所以不應該是「走一步，看一步」，而應該是「看兩（更多）步，走一步」。

慣性的力量使得人們更樂於做擅長的事情，擅長的事情在某種條件或標準之下是正確的，一旦條件發生變化，會發生逆轉的變化。諾基亞被蘋果取代，是因為諾基亞是基於當時的情形做出的決策，而蘋果面向未來，重新定義手機，使得之前諾基亞做的正確的事情，在蘋果對手機的定義下變為錯的事情。

更為重要的是，偉大的決策是具有顛覆性的，這種決策具有非常前的超前性。

所以就人生決策而言，明確方向的基礎之上再立足現在會更好。

廢話謬誤:

媽媽：你資質不錯，只要夠用功，一定會有好成績
兒子：可是我這次花了非常多時間準備，還是考不及格
媽媽：這是因為你還不夠用功
兒子：何以見得？
媽媽：因為你考試成績不好

只要你沒定義怎麼選是最優而是從結果反推, 那這種 "人生建議" 就是廢話.
人生的選擇難度跟做選擇題完全不一樣, 每一個選項都是要付出極大成本的, 還有些包含了一定的偶然因素:

- 面對高考, 你最優的選擇是什麼? 毫無疑問去常春藤/牛劍, 次優選則是清華北大. 老人家真是站著說話不腰疼

- 2007 年以及之前, 大公司最優的選擇就是開發多點觸控電容式觸屏智能手機, 為什麼只有喬布斯這麼選? 阿里巴巴要死要活在搞社交, 為什麼在微信之前沒選?

據我的經驗，每一步都選擇最優解一般稱為greedy策略，通常情況下不是最優的

做出當下最好的選擇不僅僅是基於現在，這句話同時包含現在和未來，是句大空話。

舉個簡單例子

選項1:拿50塊;

選項2:拿100塊。

選項2好。

選項1:先拿50，再拿100;

選項2:先拿100，再拿30;

選項1好。

選項1:先拿50，一百年後拿100;

選項2:先拿100，明天拿30。

選項2好。

模型是上帝視角，我們知道一切，現實視角里我們可能只能看到50和100，當下最好的就是100。目光遠點我們能看到第二個100和30，目光再遠點我們能看到"一百年"和"明天"。

根據眼前的和未來你目所能及的利益做出的選擇叫做"當下最好的選擇"，也就是當下你能做出的最好的選擇。

至於你看不到的，走一步看一步吧，這是一種無奈。

最後多嘴兩句，走一步看一步的無奈是魅力所在。不知眼前路令人苦惱，通曉眼前路令人哀傷。老者能規劃剩下的人生，嬰孩不能。人一生有多少變化源於內心，卻被現實所擾。走一步看一步的無奈把人鎖死，乖乖去規劃今後的人生。所以說，重要的不僅僅是能看到哪一步，還有能走到哪一步。

神機妙算與海納百川都是大智慧，路在腳下。

sequential equilibrium主要在belief consistence. 並不一定要用backward induction. 我覺得你想說的應該是subgame perfect equilibrium. 然後在finite game的情況下或者些其他條件可以用backward induction. (Game theroy的東西definition 一定要清晰，不能只看故事，會陷入混亂。別打我，我以前就是這樣，後來終於耐下性子看了Tirole那本博弈論聖經，才敢說清楚了一些些)

---------------

下面說正題

---------------

走一步看一步的重點在於，對未來的預期是不可知的。我先假設你做了這個假設。所以這最多稱之為incomplete information game. 如果是這樣，在每一步做最優的考量，即是given 現在的information set的情況下，對現在做的選擇會帶來的後果都有個預期。然後下一步，再上一步發生的情況下，信息又多了，你要更新你的belief，然後繼續做所為最優選擇。有意思的是，在下一步沒開始的時候，你的預期就是最簡單的算期望，但是下一步成為過去之後，你的belief就不一樣了。所以最後的outcome始終在變。如果硬要prove的話，你可以嘗試one deviate property. 這是個infinite game. 你要讓你的最後最後的payoff滿足那個我打不出來的條件，反正就是越往後越無所謂的意思。也就是那個discount parameter 存在的時候，你都不care之後的事情了。基於這個找equilibrium.我覺得是可以找到的，如果模型可以真的set up出來。但是如果真的可以set up出來一個簡化的模型，現實又真的是這樣的嗎。沒有辦法預測未來就是因為不斷的有新的signal，或者shock. 當然你也可以假設那個shock滿足什麼分布，然後繼續找。啊啊啊啊啊啊啊，想想就累

By the way, game theory的equilibrium 和一般均衡，動態均衡不是一回事。雖然最後結果可能一樣。

有人說到貝葉斯納什均衡么？（Perfect Bayecian Equilibrium）

這是一個finite game 還是非finite?是finite用backward induction. 不是走一步看一步，而是從後往前推斷。

如果是PBE，怎麼保證自己的期望正確？

先把上面三個定義了，這個問題才有意義

博弈論的思路大神都講了，我來說說real option的思路。假設一個成本1000的項目你可以本期投資，也可以下期投資。本期投資將帶來200的永續現金流，下期投資將以對半的概率帶來100或300的永續現金流。折現率10％。那麼你的最優選擇是下期進行投資決策，因為那時信息已經確定，如果是300你就賺得更多，如果是100你就沒錢賺。綜合而言，下期決策比當期決策的期望凈現值大。

啟示：等待是有價值的，雖然等待也帶來成本。「走一步看一步」不是個最優解，每「走一步」你可能需要多「看一步」。

但是上述分析假設了不變的永續現金流，和信息的timing structure。這些條件不成立的時候，你就需要對未來做出假設。比方說，如果你對未來會發生什麼一無所知，但可以假設未來現金流的變化是個random walk序列，那麼對未來最好的預測就是當下，走一步，就看一步。如果你認為未來的現金流就像你人生無數個向左走還是向右走的岔路口，每個路口都有不同的人生等著你，那你也可也用二叉樹定價模型，根據已有的信息推斷未來，然後折現成現在做決策，這個時候你「看」不到未來，只能看到你當下這一步，但是你能夠憑藉你對未來的理解做出在當下看來最優的決策。

啟示：如果你對未來一無所知，走一步看一步是個合理的策略。但是即使你對未來一無所知，你的決策依然依賴於你對未來的理解。這種理解依賴於你的性格、見識等一系列因素。

總結：時間其實才是一切不確定性的根本來源，人無法預知未來。如果未來給了你充分的暗示，那麼你本不應該走一步看一步。如果未來沒給你什麼暗示，或者是暗示了你也沒看懂，那麼走一步看一步確實是個好的策略。

其實還有一個更重要的啟示：不停地學習和吸收新的知識與信息。如果你對未來知之良多，你就不必走一步看一步。即使你依然對未來沒什麼頭緒，更多的知識與分析工具也可以幫助你對未來做出更合理的猜測，做出走一步看一步的最優決策。