一根1米長的繩子,隨機切N刀,變成(N+1)根繩子,為什麼最短的一根繩子長度的期望是1/(N+1)^2?
隨機切N刀,指切口的位置在繩子上服從均勻分布,且相互獨立。
我用電腦模擬驗證了一下1至4刀的情況,基本準確。
想了半天,還是這樣解釋吧:
真的不需要微積分。
我們隨機選N個小繩子。小繩子長度分別為x1,x2,x3,...xN。
腦補一個N維空間。空間當中(x1,x2,x3...xN)這一組coordinates(向量、vector)都對應一個點。就是說每個小繩子組合都是這個空間當中某個獨立的點。
然後每個繩子長度都必須大於零,所以這已經把空間限制住了一些。
但是這小繩子組合有個更重要的限制,x1 + x2 + ... + xN = 1。畢竟是個一米繩子被拆開。
所以我們的「點群」變成一個很有限的小區域。二維(N=2)的話,就是一條線,三維的話(N=3),就是一個plane。更多維,那隻能想像成一種立體區。也不會無限大。好吧,我們想知道這個立體區的均值。那就是它這個區域的centre of mass。怎麼算出來?其實不用再腦補,畢竟是一個convex的區域,所以只要把每個邊界極端點加起來算平均即可。極點倒底是哪些?(1,0,0,0...),(0,1,0,0...),(0,0,1,0...) ... (0,0,0...,1)。都是這個區域的邊界點。求平均?那總共有N個,所以平均在(1/N, 1/N, 1/N...)這個點。就是說N個隨機小繩子,如果符合這個要求,平均結果是各個長度均為1/N。
這個很無聊啊。。。題主問的是最短繩子平均長度。
那我們再設定新的一堆限制:x1&>x2&>x3&>...&>xN。要求這個排序。最長的小繩子長度是x1。最短的繩子是xN。又大大限制住了我們的目標區域。
想一想,如果N=2,那x1+x2 = 1這就是一個從(1,0)到(0,1)的一條線。突然要求x1& OK,我們只要把這個問題再放大到更多維。三維還稍微能腦補想像。(1,0,0),(1/2,1/2,0),(1/3,1/3,1/3),這三個極點。一個平面三角形。均值只需要算出來。(11/18, 5/18, 2/18)。是不是符合正式結果?是。。。把一米繩子隨機分為三塊,最長平均為11/18米,最短平均為2/18米。 ---補充---
這裡可能要解釋極點怎麼算出來。。。按照上面的限制,xJ最大也只有1/J。這樣會逼著K&
每個極點也都是把某個小繩子最大化。
另外,為何在這麼多限制下,centre of mass還是準的?因為本來的大區域是一個隨機平衡分布;每加一條限制,剩下的區域仍然是平衡分布。追求該區域的核心即可。---三維11:5:2,這個比例,下午在模擬統計。截個圖吧:目前還都很符合。。。把維度再放大,道理完全一樣。N=4,一個四維空間當中的三維區域,極點自然是(1,0,0,0)、(1/2,1/2,0,0)、(1/3,1/3,1/3,0)、(1/4,1/4,1/4,1/4)。
均值centre of mass一樣為(6/96,14/96,26/96,50/96)。也很符合統計結果。。。目前我們發現N=2的最短繩子平均長度為1/4米。
N=3,最短為1/9。N=4,最短為1/16。如何證明任意N,最短為1/N^2呢?其實只要把這個極點平均思維堅持下去。
N個小繩子。極點就是:
(1,0,0,0...)(1/2,1/2,0,0...)(1/3,1/3,1/3,0...)...(1/N,1/N,1/N...1/N)那麼均值永遠是:
(
1/N * (1/N) 1/N * (1/N + 1/N-1) 1/N * (1/N + 1/N-1 + 1/N-2) ... 1/N * (1/N + 1/N-1 + 1/N-2 + ... + 1/2 + 1))我們不僅證明了最短小繩子的平均長度。還算出來了所有繩子的平均長度。
可以算C(N,K),N個繩子,其中排名K-th的平均長度。
C(N,K) = 1/N * (1/N + 1/N-1 + ... 1/K)
其中最短的K=N
C(N,N) = 1/N * (1/N) = 1/N^2其中最長的K=1
C(N,1) = 1/N * (1/N + 1/N-1 + 1/N-2 ... + 1/2 + 1)這已經更廣泛了。而且我覺得上面的邏輯已經足以證明這個事實。雖然腦補多維空間有點難。。。核心思維還是可以延長到多個維度。
---
一樣也應該有辦法通過induction證明這個。因為追求C(N+1,i),N+1個繩子,把最短的長度為K去掉,再給另外N個扣掉K,剩下的N個繩子應該符合C(N,i)的分布。從此可以得出下一個K以及整個N+1的分布。
可能還有許多方法證明,但是從他的分布的區域shape這角度應該是最直觀的,也蠻好理解。
---
我們另外能得出那些細節?
C(N,1),最長繩子的的長度,在N很大的時候,應該接近1/(NlogN)。
因為 1 + 1/2 + 1/3 + 1/4 ... + 1/N 接近 logN。C(N,1)與C(N,N)的長度比例,(最長繩子與最短的繩子的比例)應該接近N/logN。
C(N, N-1)與C(N,N)的比例應該接近2。
就是說N很大,最短繩子的平均長度接近第二短繩子長度的二分之一。等等。。。直觀解法無能,只好給一個使用常見分布轉換大法的暴力解法。
1. [0,1]區間均勻的選取n個點將區間分成長度依次為的(n+1)段, 那麼
, 其中為獨立同分布的分布。這一點或者從服從參數為的Dirichlet分布(可以想像為Beta分布的推廣),然後利用Beta/Dirichlet 分布的性質。或者把這個過程想成Poisson過程,然後利用Poisson過程的給定T時刻前有n個到達,那麼n個到達時間在[0,T]上均勻分布的性質。於是我們的問題變成了對n+1個獨立的指數分布,求解.
2. 令為的順序統計量,並令. 根據指數分布的無記憶性,且彼此獨立。我們有
於是我們所求的期望等於.
3.最後注意到根據指數分布的性質,. 所以再一次利用Beta/Dirichlet分布和指數分布之間的關係,我們有
服從參數為的Dirichlet分布.所以類似的我們可以得到第k小的長度的期望等於【搶紅包中的數學】
我想,這道題如果換種表述方法 (本質相同),關注的人一定會翻好幾倍:
證明:有微信紅包總共 1 元,隨機發給 n 個人,則拿到錢最少的人平均可以拿到元
這道題其實並不難,懂一點點概率,加上一點點積分知識即可。
證:
引理:不排序,當紅包共有 n 個的時候,第一個人拿到至少 x 元的概率為
這是容易理解的,因為,第一個人拿到至少 x 元,相當於 n-1 刀的每一刀都切在後 (1-x) 上
推論:當紅包共有 n 個的時候,每一個人至少拿到 x 元的概率為
即
我們要求的是拿錢最少的人所拿錢數的數學期望
證畢!
【附】
關於 ,
有人覺得不顯然,只好證明一下:********************
更一般地,當紅包共有 n 個的時候,拿錢第 k 多的人拿到錢的數學期望:
(留作習題 233333)結論的運用:
我有 10 元,發 10 個紅包,拿錢第 k 少的人平均會拿到多少錢呢?
從少到多分別為:0.1 元,0.21 元,0.34 元,0.48 元,0.65 元,0.85 元,1.10 元,1.43 元, 1.93 元, 2.93 元試著答一下,假設最短的一根繩子的長度為,剩餘條繩子的長度可表示為且滿足,如下圖所示:
顯然,左右兩邊同時求期望,則:如果想要知道的值,等價於:在的條件下,計算的值,不妨將此值記為,即下一步,根據全期望公式,有:
由定義,可化簡上式中括弧內的部分,得到:由於我們並沒有對加以區分,所以有,代入上式可得:
,即得到遞推公式:。觀察在時,,則,即,代入上面得到的遞推公式,可知:
最終得到:,證畢!05142351更:曾加大神的解法更巧妙哇~我這個更像是考試答案。。以下回復 @一隻粗壯的蘑菇評論提出的問題,補充一處的詳細推導過程:的定義是:的表達式可寫為,此處令整理可得:故而,,得證。在這個頁面(英文)有關於這個問題的討論(和解答?), 答主還沒有仔細看, 大神看了可以翻譯下.
probability - Average length of the longest segment現在開一下腦洞, 題主要求均勻分布(uniform distribution), 但小學生沒有學過概率密度函數(pdf)和微積分怎麼辦? 小學生只會做離散的概率分析(排列組合). 下面我們就來分析一下這道題的離散版:
題目: 假設有 M 個完全相同的球, 我們要把它們分成 N+1 堆 (原題切 N 刀) , 每堆有序號, 每堆可以為 0 , 那麼最小堆的球數的期望值是多少?
我們知道把 M 個球分成 N+1 堆有種分法, 因為這等同於把 M 個球和 N 根棒放成一排的放法數( N 根棒隔開了 N+1 堆). 假設每種分法的概率相等.
如果要求每堆至少一球呢?有種分法, 因為我們可以先拿走 N+1 個球, 剩下的球分成 N 堆, 然後每堆再加一個.
以此類推, 每堆至少有 i 球的分法有種.所以, 令最小堆球數為 Y , 則最小堆球數的期望值為
(*)OK!我不知道怎麼簡化, 但是我們有計算機:-). 用計算機我們可以發現(可以自己試下):
結果:看上去不錯! 我們用離散的方法估計了所求的值, 並且好像很准
現在還差兩個問題:1) 證明 (*)/M 會趨向於 1/(N+1)^2 (希望)2) 證明我們用離散的估計方法取得的值與連續時的值的差會任意小, 只要 M 足夠大第二個不難證, 我有空寫. 第一個求大神幫忙! 【樓上已經給出正解, 我這個就當數學分析的習題吧...... 】我們成功的把一個積分問題轉化為了一個級數問題! 不過小學生好像還是不會做 :"-(這段論述雖不嚴格,也是一個思路:
令 X_1, X_2,..., X_n 為 [0, 1] 均勻分布,X_(1) &< X_(2) &< ... &< X_(n)為其順序統計量。
則 Y_1 = X_(1), Y_k = X_(k) - X_(k-1), k = 2, ..., n, Y_n+1 = 1 - X_(n) 為繩子長度。
考慮 n -&> inf 的極限情況。
P{nX_(1) &> t} = P{X_(1) &> t/n} = (1-t/n)^n -&> exp(-t) 即 Exp(1) = Gamma(1,1) 。
P{nX_(2) &> t} = P{nX_(1) &> t} + P{nX_(1) &< t, nX_(2) &> t} = (1-t/n)^n + n(t/n)(1-t/n)^(n-1) -&> exp(-t) + texp(-t) 即 Gamma(2,1)。
可見 nX_(k) -&> Gamma(k,1)。另一方面,Gamma(k,1) 是 k 個 i.i.d. 指數分布之和,而 X_(k) = Y_1 + ... + Y_k。大膽猜測,極限情況下,Y_# 接近 i.i.d. 指數分布。由於 n+1 個 Y_# 之和為1,認為 Y_# ~ Exp(n+1)。
把繩子長度排序:Y_(1) &< Y_(2) &< ... &< Y_(n) &< Y_(n+1)。
E[Y_(k)] = E[Y_(1)] + E[Y_(2)-Y_(1)] + ... + E[Y_(k)-Y_(k-1)] = 1/(n+1) [ 1/(n+1) + ... + 1/(n+2-k)]。
Reference: Feller.
對於一般的情形,考慮,由以上諸位的回答我們已知在最短區間的條件下,考慮我們就得到了n-1段區間,而此時的總長度為1-nx,應用之前最短區間的結論:,由全概率公式:同理可以處理下去得到E(V_k)
原理參見Wiki中的Order statistic,即順序統計量。
順序統計量可以對n個已知聯合分布的隨機變數求出,聯合樣本中排在第k大的數字的分布是什麼樣的。悲傷的我,連題目都看不懂…
直接積分的方法如圖所示 沒仔細檢查 簡單驗證n=1 是1/4 所以應該沒錯
強行猜出概率密度函數
寫個簡單答案 用linearity of expectation
設 當 第i 段 繩子 最短 時 X_i = 1
Y_i 為 第i段 繩子的 長度
這不是想當然的嘛?
推薦閱讀:
※離散型隨機變數有沒有概率密度?
※網易遊戲筆試題目,怎麼做?
※奴隸主在場時克蘇恩打死對方的概率如何計算?
※遊戲數值策劃中的寶石價值的數學問題?
※作為純數的重要分支,概率論在國內的發展為什麼這麼滯後?