已知平均值、標準差、數據總數,如何求這組數據的最大值和最小值?

問題背景是這樣,想要已知一組數據和它的平均值,來判斷它的標準差計算是否正確。目前只能通過觀察數據的離散程度來判斷過於不靠譜的標準差。如果在知道數據組數、平均值的條件下,假設標準差正確,反推數據,能否得到這組數據可能的最大值或者最小值?


這個問題挺有趣的。我動筆算了下,不一定正確。

題主問題是 給定標準差,平均值,數據個數,這組數據中可能的最大值和最小值是多少。也就是一個求上下確界的問題。 @niaocu 說的用Chebyshev inequality肯定是不行的,因為Chebyshev inequality跟上下確界沒有關係。

我們讓組數據為 left{ x_{i}
ight} _{i=1}^{n},令z_{i}=frac{x_{i}-ar{x}}{sqrt{left(n-1
ight)}s_{d}}
 ar{x},s_{d} 分別是平均值、標準差。那麼問題轉化為:

maxleft(max_{1leq ileq n}left|z_{i}
ight|
ight), 使得:

sum z_{j}=0, 以及sum z_{j}^{2}=1

我們可以令z=left(z_{1},z_{2},...,z_{n}
ight),然後最大化z_{1} 就行了。

為方便,我們讓e_{1}=left(1,0,0,...,0
ight)
 , mathbf{1}=left(1,1,1,...,1
ight)

考慮到最大化z_{1}=zcdot e_{1}, 其實是相當於最小化 ze_1的距離 ,因為leftVert z-e_{1}
ightVert ^{2}=leftVert z
ightVert ^{2}+leftVert e_{1}
ightVert ^{2}-2zcdot e_{1}

所以我們改求,

minleftVert z-e_{1}
ightVert ^{2} 使得 leftVert z
ightVert ^{2}=1
 , zcdotmathbf{1}=0

令Lagrangian L=leftVert z-e_{1}
ightVert ^{2}+lambdaleft(zcdotmathbf{1}
ight)+muleft(leftVert z
ightVert ^{2}-1
ight)

對z 求向量導數讓其=0,加上那兩個約束方程,求解就行了。

最後解得,

z=pmsqrt{frac{n}{n-1}}left(e_{1}-frac{1}{n}mathbf{1}
ight)

相應的,最大偏離值為z_1=pmsqrt{frac{n-1}{n}}

代回就可以得到x_{1}=ar{x}pmfrac{n-1}{sqrt{n}}s_{d}。這就是可能存在的最大最小值。


謝邀!

  1. 如果數據是正態分布(或近似正態),那麼根據『經驗法則(empirical rule),或者叫 68-95-99.7 法則(https://en.wikipedia.org/wiki/68%E2%80%9395%E2%80%9399.7_rule)』可知,99.7%(幾乎全部)的數據在均值左右3個標準差範圍內,也就是可以用

    均值±3×標準差

    大致判斷最大值和最小值。

    來源:"Empirical Rule" by Dan Kernler - Own work. Licensed under CC BY-SA 4.0 via Commons - File:Empirical Rule.PNG

  2. 如果數據分布未知,那麼根據『切比雪夫不等式(Chebyshev"s inequality)』,至少有93.75%的數據在均值左右4個標準差範圍內,或更保守一點——至少有96%的數據在均值左右5個標準差範圍內,那麼把上述式子的3換成4或者5,同樣可以大致推測下最大和最小值的範圍。如果願意,最保守的最大值和最小值估計是均值左右的10個標準差範圍,99%的數據都在其中,但估計的誤差範圍如果太大,就算能夠信心滿滿也是然並卵:我有99.99%把握你的身高在50cm-250cm之間,但這有意義嗎?

    附表:切比雪夫不等式——至少(多)有%的數據在均值左右k個標準差範圍內(外)

    來源:https://en.wikipedia.org/wiki/Chebyshev%27s_inequality


強答一發——不知是否可以這麼理解,大多數數據(99.7%)都在正負3個標準差內,也就是說最大值和最小值之間相隔6個標準差的距離,不知這樣算出的大致的極差是否可行,請大牛指證。。。


恐怕解出來這個問題對你原問題幫助也不大,不如你多描述下原問題是怎麼回事


這個問題有點複雜,反正以我淺薄的數學知識而言,應該是不能

哈哈哈


推薦閱讀:

如何理解結構方程模型?
大偏差技術是什麼?
周志華老師解釋集成學習時用到hoeffding不等式解釋誤差上限【機器學習,172頁】?
如何評價2016年我國勞動力總量下降349萬?
互信息(Mutual Information)多大才算大?

TAG:統計學 | 統計 | 數理統計學 |