已知平均值、標準差、數據總數,如何求這組數據的最大值和最小值?
01-07
問題背景是這樣,想要已知一組數據和它的平均值,來判斷它的標準差計算是否正確。目前只能通過觀察數據的離散程度來判斷過於不靠譜的標準差。如果在知道數據組數、平均值的條件下,假設標準差正確,反推數據,能否得到這組數據可能的最大值或者最小值?
這個問題挺有趣的。我動筆算了下,不一定正確。
題主問題是 給定標準差,平均值,數據個數,這組數據中可能的最大值和最小值是多少。也就是一個求上下確界的問題。 @niaocu 說的用Chebyshev inequality肯定是不行的,因為Chebyshev inequality跟上下確界沒有關係。
我們讓組數據為 ,令, 分別是平均值、標準差。那麼問題轉化為:
求 , 使得:, 以及我們可以令,然後最大化 就行了。
為方便,我們讓
考慮到最大化, 其實是相當於最小化 和的距離 ,因為所以我們改求, 使得 令Lagrangian對z 求向量導數讓其=0,加上那兩個約束方程,求解就行了。
最後解得,相應的,最大偏離值為。代回就可以得到。這就是可能存在的最大最小值。謝邀!
- 如果數據是正態分布(或近似正態),那麼根據『經驗法則(empirical rule),或者叫 68-95-99.7 法則(https://en.wikipedia.org/wiki/68%E2%80%9395%E2%80%9399.7_rule)』可知,99.7%(幾乎全部)的數據在均值左右3個標準差範圍內,也就是可以用 均值±3×標準差
- 如果數據分布未知,那麼根據『切比雪夫不等式(Chebyshev"s inequality)』,至少有93.75%的數據在均值左右4個標準差範圍內,或更保守一點——至少有96%的數據在均值左右5個標準差範圍內,那麼把上述式子的3換成4或者5,同樣可以大致推測下最大和最小值的範圍。如果願意,最保守的最大值和最小值估計是均值左右的10個標準差範圍,99%的數據都在其中,但估計的誤差範圍如果太大,就算能夠信心滿滿也是然並卵:我有99.99%把握你的身高在50cm-250cm之間,但這有意義嗎?附表:切比雪夫不等式——至少(多)有%的數據在均值左右k個標準差範圍內(外)來源:https://en.wikipedia.org/wiki/Chebyshev%27s_inequality
強答一發——不知是否可以這麼理解,大多數數據(99.7%)都在正負3個標準差內,也就是說最大值和最小值之間相隔6個標準差的距離,不知這樣算出的大致的極差是否可行,請大牛指證。。。
恐怕解出來這個問題對你原問題幫助也不大,不如你多描述下原問題是怎麼回事
這個問題有點複雜,反正以我淺薄的數學知識而言,應該是不能
哈哈哈推薦閱讀:
※如何理解結構方程模型?
※大偏差技術是什麼?
※周志華老師解釋集成學習時用到hoeffding不等式解釋誤差上限【機器學習,172頁】?
※如何評價2016年我國勞動力總量下降349萬?
※互信息(Mutual Information)多大才算大?