算算本題中A獲勝的概率?

A和B交換投籃,即不管投進與否,A投一次B投一次。規定誰在佔優勢的情況下繼續進了下一球就算贏,例如A先投進,此時A處於佔優狀態,B投進,則B佔優A劣勢。倘若B沒投進,在佔優狀態的A投進下一球則獲勝,投不進佔優狀態不變等待B投球,若B投進,則B立即佔優。A投進概率為P,B投進概率為Q,A獲勝的概率是多少?P至少為多少時A獲勝的概率大於P?


用隨機過程中的martingale停時定理來做:

1. 首先設定一些基本記號,考慮投球序列:
{A_1, B_1, A_2, B_2,ldots}
其中A_t表示A的第t次投球結果,1為投中,0為投不中。

* 為方便起見,令時刻t=0的投籃結果為A,B均不中,即A_0 = B_0 = 0
* 注意這裡我們在每個時刻令A和B都投籃,也就是時間流逝1的話,投籃序列里應該增加兩個(A和B各自的)投籃結果。

2. 然後考慮每個時刻兩人的投籃狀態(A_t, B_t),設立一個Markov chain,為其定義狀態如下:
狀態c:(0, 0) —— A,B均不中
狀態a:(1, 0) —— A中B不中,但A尚未勝利
狀態b:(0, 1) —— A不中B中,但B尚未勝利
狀態d:(1, 1) —— A,B均投中,但A,B均尚未勝利
勝利狀態A:A勝利
勝利狀態B:B勝利

* 狀態之間的互相到達關係是:
c可達{a, b, c, d}, 轉移概率分別是{p(1-q), (1-p)q, (1-p)(1-q), pq}
a可達{b, c, A}, 轉移概率分別是{(1-p)q, (1-p)(1-q), p}
b可達{a, c, B}, 轉移概率分別是{p(1-q), (1-p)(1-q), q}
d可達{c, A, B}, 轉移概率分別是{(1-p)(1-q), p, (1-p)q}
A,B為吸收態
* 注意,c是唯一可在下一時刻以非零概率保持不變的狀態,狀態b,c,d都必然轉化為其他狀態。

* 這是一個有吸收態的Markov chain,容易驗證:給定t時刻的狀態,t+1時刻的狀態概率分布與t-1及以前的歷史獨立。

3. 設立martingale,現在為每個狀態設立一個實數的「價值」,在不引起混淆的情況下,就用狀態名稱來記相應的「價值」變數:例如現在a也可以表示狀態a的「價值」。將整個系統t時刻的回報定義為系統在t時刻所處狀態的「價值」,記為S_t

4. 下面設置所有狀態的「價值」。要使得系統的回報序列{S_1, S_2, ......}成為一個martingale,下列方程必須成立:

c = (1 - p) (1 - q) c + q (1 - p) b + p (1 - q) a + p q d
b = q B + (1 - p) (1 - q) c + p (1 - q) a
a = p A + (1 - p) (1 - q) c + q (1 - p) b
d = (1 - p) q B + (1 - p) (1 - q) c + p A

此外,為了避免「所有狀態價值相同」的平凡解(平凡解給出一個合法的martingale,但是對解原問題無幫助),我們增加兩個方程:

c = 0 (c是初始狀態,令其為零後面方便一些)
d = 1

現聯立以上6個方程,解出A和B,將其解記為A=A_0B=B_0,又令p_A = mathbb{P}(	extrm{停止於A})p_B = mathbb{P}(	extrm{停止於B})。最後根據martingale停時定理:

停時期望回報 = p_A  A_0 + p_B  B_0 = 初始期望回報 = S_0 = c = 0

得到p_A = frac{A_0^{-1}} {A_0^{-1} - B_0^{-1}}

Mathematica給出的解如下:
p_A = frac{p^2 (1-(p-1) (q-1) q (p q-1))}{p^4 (q-1)^2 q^2-p^3 (q-1)^2 q (2 q+1)+p^2 left(q^4-3 q^2+q+1
ight)-p (q-1) q^2+q^2}

之後就是簡單的初中代數,略。


感謝邀請
我複述一下我的理解,AB兩人輪流投籃,A 投籃進球的概率是 P,B 投籃進球的概率是 Q,每次投籃均看作獨立重複事件,一旦兩人中有人連續兩次進球則比賽結束且此人獲勝。比如,A 先投,如果第一輪 AB 都進球了,在第二輪中只要 A 進球則 A 獲勝,而 B 就不用繼續投了。

基於以上理解,我認為 @李寶然 的答案是不對的,想像一下極限情況,如果 A 和 B 的進球概率相同,並且趨近於 0,那麼兩人對決會是什麼情況?容易想像 A 獲勝的概率將趨近於 0.5(AB兩人都不會投籃,那麼 A 先投籃的優勢就不大了,兩人獲勝的概率是均等的);如果 A 和 B 的進球概率相同,並且趨近於 1,那麼 A 獲勝的概率將趨近於 1(如果兩人都是百發百中,考慮 A 先投籃,那麼顯然 A 是必定獲勝的)。這兩個結論在 @李寶然 的答案中都沒有體現,在這兩種極限情況下,他的答案都給出 A 的獲勝概率趨近於 0,這是不合理的。
錯在哪裡呢?李的答案里說「只要 B 在最後兩次投球過程中沒有全進球就行」未免想得簡單了,殊不知,不僅要考慮當前一輪投球的情況,還要考慮更前面的情況。如果 B 在倒數第三次投籃進了,那麼 B 只要在倒數第二次也投進就可以贏了,而不再需要投最後這一次。

對付這種看似無限組合的概率,有一招百試百靈的方法:遞歸。
約定一下,不妨假設 A 先投,在前一輪兩人成績為 A 進 B 進情況下,A 獲勝的概率假設為P_{11},若前一輪兩人成績為 A 進 B 不進的情況下,A 獲勝的概率為P_{10},類似定義P_{01}P_{00},那麼要求一開始 A 獲勝的概率,也就是求P_{00}
若前一輪 AB 都進球了,那麼 A 若要獲勝,要麼本輪直接進球(概率是P),要麼本輪 AB 都不進,從而進入新的一輪以期望在剩下的比賽里能獲勝(概率就是(1-P)(1-Q)P_{00}),也就是
P_{11}=P+(1-P)(1-Q)P_{00}
類似的,若前一輪 A 進 B 不進,那麼 A 若要獲勝,要麼本輪直接進球(概率是P),要麼本輪 A 不進 B 進,進入新一輪以期望能在剩下比賽里獲勝(概率是(1-P)QP_{01}),要麼本輪 AB 都不進,回到初始狀態(概率是(1-P)(1-Q)P_{00}),所以
P_{10}=P+(1-P)QP_{01}+(1-P)(1-Q)P_{00}
同樣分析剩下兩種情況,有
P_{01}=P(1-Q)P_{10}+(1-P)(1-Q)P_{00}
P_{00}=PQP_{11}+P(1-Q)P_{10}+(1-P)QP_{01}+(1-P)(1-Q)P_{00}

四個方程,四個未知數,而且都是一次方程,很好求解的。
得到:
P_{00}=frac{P^2+P^2Q-P^3Q-P^2Q^2+P^4Q^2+P^3Q^3-P^4Q^3}{P^2+P^2Q-P^3Q+Q^2+PQ^2-3P^2Q^2+P^4Q^2-PQ^3+3P^3Q^3-2P^4Q^3+P^2Q^4-2P^3Q^4+P^4Q^4}是的,就是這麼個破玩意兒。

看看對開頭提到的幾種情況的解釋
情況1,AB 兩人水平相等(Q=P),而且都很爛(P
ightarrow0):
lim_{Q=P,P
ightarrow0}{P_{00}}=lim_{P
ightarrow0}{frac{1-P^2+P^3}{2-3P^2+3P^3-P^4}}=frac{1}{2}

這是符合預期的

情況2,AB 兩人水平相等(Q=P),而且都很准(P
ightarrow1):
lim_{Q=P,P
ightarrow1}{P_{00}}=lim_{P
ightarrow1}{frac{1-P^2+P^3}{2-3P^2+3P^3-P^4}}=1

這也是符合預期的

情況3,AB 兩人水平相等,則先發(A 先投)有優勢:
將 Q=P 代入 P00 的表達式(上面有寫了),容易看出,P00 是 P 的增函數,既然 P-&>0 的情況下 P00-&>0.5,那麼可以推斷出
P_{00}left|_{Q=P}
ight.=frac{1-P^2+P^3}{2-3P^2+3P^3-P^4}>frac{1}{2}

整體看起來是這個樣子的:

在紅線的右側則 A 贏概率更大,在紅線的左側則 B 贏概率更大
而且明顯看出 A 的先發優勢,紅線右側面積比左側面積大很多。而且對於兩人水平相等的情況(在對角線上),A 的贏面永遠比 B 大。

那麼什麼時候 A 獲勝的概率(也就是 P00)大於 P 呢?那麼只要畫出 P00-P 的圖就行了,類似上面這樣的:

紅線下方是 A 獲勝概率大於 P,上方是小於 P 的。可見,只要 B 不是太厲害,A 的獲勝概率會比自己單獨投籃投進的概率更大完畢


的確是把這個問題想得過於簡單了。
寫個 @章佳傑答案的摘要找找面子(⊙_⊙)
1、對當前狀態,其概率與前面幾次投球的概率相關,而前幾次的概率同理,故不能簡單以某個時間點為起始點對後續概率進行計算,我的演算法錯在了這裡;
2、對於n時刻狀態與1~n-1時刻狀態有關的問題,使用遞推(遞推是正著走,編程實現的時候就變成了倒著走,就是遞歸了)是比較好的解法。
3、然而純粹遞推是從起始狀態一直推到當前狀態的,這對於這個當前狀態無限大的問題不太合適,於是就開始找特徵,發現兩個人投球的情況實際上可以歸納為幾個有限的狀態。
4、進而,對狀態進行分類(四類),依據狀態間轉移模式列方程求解狀態的概率。
5、出圖,寫conclusion。
_(:з」∠)_

以下為錯誤思路_(:з」∠)_
——————————————————————————————
A獲勝的具體情況是:
n次投擲,A進球;n-2次投擲,A進球;
①n-1次投擲,B進球;n-3次投擲,B沒進球;
②n-1次投擲,B沒進球。
所以總體概率為P*P*(Q*(1-Q)+(1-Q))=P^2(1-Q^2)
反觀答案,發現可以換個思路,只要B在最後兩次投球過程中沒有全進球就行,這樣的思路可以簡化計算。

同時,由於P&<1 Q&<1,1-Q^2&<1,故P(1-Q^2)&<1,也就是說P^2(1-Q^2)&>=P恆成立,不存在第二問的情況。


推薦閱讀:

雙手石頭剪刀布的最優解?
600個人站一排,每次隨機殺掉一個奇數位的人,幾號最安全?
三個蛋撻,分別是紫薯的、提子的、黃桃的,有 80% 的把握第一個是紫薯的,有 80% 的把握最後一個是黃桃的,中間的那個是提子的概率是多大?
怎樣降低被老師點名回答問題的幾率?
蒙提霍爾問題(又稱三門問題、山羊汽車問題)的正解是什麼?

TAG:數學 | 趣味數學 | 概率 | 概率論 | 隨機過程 |