有限次機會擲骰子,取最後一次的數值,什麼樣的策略能使數字的期望值最大?

擲骰子,擲到幾點就給幾塊錢,你覺得擲得小可以重來,但不能反悔,最多九次機會可以重來。擲骰子的人想獲得最好的收益,什麼樣的策略最科學?
問題發散:骰子是1到6確定的數字,如果是一個不確定的隨機範圍,想獲得最好的收益,什麼樣的策略比較科學?(人生中好多選擇就類似這種模型,並不是同時提供所有的選擇供你比較,而是當你拒絕一個選擇,才會給你第二個選擇,有的時候第二次隨機的結果不如第一次,但是已經沒有機會了)

----------------------------------------分割線----------------------------------------

如果問題更進一步,隨機的範圍是動態增加或者動態減少的,那麼問題就變得更有趣了:假設一位買房者每周看一套房,遇到好的就會出手購買,為簡化模型,設定衡量房子的唯一區別為"性價比",整個地區代售房子的性價比區間為(a,b),因房價不斷上漲,導致每周性價比降低r%,即下一周看房性價比區間為(a*(1-r%),b*(1-r%)),如果本周看房的性價比為m,根據m的區間如何決定是否要本周買此房,或是等下一周看其它房源?(注,僅為數學模型,不代表真實情況,不實輕噴)


這是一個優化問題. 讓 N 為最大步數. 讓F_n(x_n)表示第 n 步時拋出x_n, 最終所得的最大期望(假設用最優策略). 我們有
F_n(x_n) = max{{ x_n, mathbb{E}_xF_{n+1}(x)}}
在第 n 步時我們有兩種選擇: 第一種是立即停止並得到當前的數值x_n, 第二種是繼續玩, 那麼得到(最優策略下)第 n+1 步的期望值mathbb{E}_x F_{n+1}(x) . 顯而易見當繼續玩的期望值比當前數值大時才會選擇繼續玩.

由此可見mathbb{E} F_n >= mathbb{E} F_{n+1}. 這個結果也是相當直觀的: 當我們有更多步數的時候, 我們有更多的機會等到大數字出現. ( 年輕人, 你們有更多的時間, 機會比老人們大多了! 要抓住機遇. )

所以最優策略可以表示為如下, 存在x_1^*, x_2^*, ldots, x_{N-1}^* ,(其實x_n^* = mathbb{E} F_{n+1}    ) 當x_n geq x_n^* 時, 立即停止, 否則繼續. ( 這段話與上上段一個意思 )

**********計算開始**********
剩下的工作只是要求x_1^*, ldots, x_{N-1}^* 的值: (為了方便計算 N = 9 )

顯然F_9(x_9) = x_9, 因為是最後一次別無選擇. 所以x_8^*=mathbb{E} F_9 = 7/2.
往回一步, 得到當x_8 geq 7/2時(出現4,5,6)我們應該停止, 否則繼續. 所以
x_7^* = mathbb{E} F_8 = sum _{x=4}^6 {mathbb{P}(x_8 =x)x} + sum _{x=1}^3 {mathbb{P}(x_8 =x)mathbb{E} F_9 } = 17/4
所以在第七步時, 只有出現 5,6 才停止, 否則繼續. 以此類推, 可以得到:
x_6^* = 14/3, x_5^* = 89/18, x_4^* = 277/54
終於邁過了5之大關, 也就是說在1,2,3,4 步時只有拋到6才停. 不用繼續算了.
**********計算結束**********

綜上, 策略為第1,2,3,4步拋到6停, 第5,6,7步拋到5,6停, 第8步拋到4,5,6停.

用到人生上, 年輕的時候不要貪圖一時的微薄利益, 眼光要長遠, 以後可能有更大的蛋糕在等著你.
但另外一方面, 也不要盲目的放棄機會. 對自己的未來有一個預估, 把握住絕佳的機會, 有時候錯過了一次可能就再也沒有第二次了.

然而人生不可能像拋骰子這樣隨機, 你今天所做的努力在明天是多多少少能看到一些成效的. 一個立志不斷提高自己的人, 他每天的期望值將不斷增長, 他的骰子上的數字會越來越大. 他也不會拘泥於現狀, 而是不斷尋求新的突破. 相反, 一個滿足於現狀不思進取的人, 10年以後他的骰子還是1-6, 此類人只能每天求神拜佛等待上天給他一個好機會, 但最好也不過是6罷了.

雖然如此 (再次反轉, 負能量), 人生也不是完全自己說了算的, 有很多隨機的因素在其中. 不是所有努力的人都能有所收穫, 我們能提高的只是期望值, 只是骰子表面的點數. 也許骰子上的那個1一直都在, 也許上帝跟你開了個玩笑你無論怎麼拋一直都是1, 雖然骰子的另外一面已經成千上萬. 概率學告訴我們, 在有限的人生中, 這樣的事情完全有可能發生. 但即便如此, 你已經打造了一個點數很大的骰子, 上面刻滿了你的人生軌跡, 或許這樣也就問心無愧了.

( 理科生寫作文求輕噴 )


對更一般的此類問題,可以看下有限狀態離散時間馬氏決策理論。這類決策問題的最優解是已知的,可以通過迭代求解(也可以看做歸納法),解法是多項式時間的。


動態規劃。假設F(n) 是N次遊戲的期望,於是有遞推關係

F(n + 1) = sigma(Max(i, F(n))(i = 1 to 6) / 6;
以及 F(0) = 0;


不用嫩麻煩,用軟體控制,要啥出啥,看看下面這效果


推薦閱讀:

孫子兵法放到今天的視角來看,其軍事哲學的核心思想是什麼?
哪些遊戲策略可以應用於科學研究?

TAG:數學 | 應用數學 | 策略 | 數學難題 | 概率論 |