標籤:

為什麼用標準差而不是平均差來反映數據的離散程度?

高中時初接觸統計學時學到之所以使用

這個先平方和後開方的公式就是為了防止離差相加後的正負相消,當時就很疑惑為什麼不能直接使用絕對值來計算。

後來發現其實統計學中的確存在「平均差」這個概念,就是使用如下絕對值的方法來計算的:

那我們為什麼使用標準差而非平均差來反映離散程度呢?

之前問過很多人這個問題,但一直沒有得到滿意的解答。大部分的回答集中為以下兩條:

  1. 兩者都能反映離散程度,只是平方和計算更簡單
  2. 方差可導,性質好,其平方的性質延伸出了許多之後的計算與定義

針對第一條:對於同一組數據,肯定有標準差leq 平均差,兩者對離散程度的反映是不一樣的。

針對第二條:解答太過空洞,且略帶有事後諸葛的色彩。

我的專業只是需要對統計學簡單的應用,所以對概念理解得可能不夠好。希望能有專業人士給出更詳細的解答,指出:

  • 標準差相對於平均差的優勢具體體現在哪裡?

  • 當初定義組內數據離散程度的時候又可能是因為考慮到了哪些因素才選擇了平方和開方的方式

謝謝。


標準差是方差除以總權。為什麼方差性質好,眾多答主都沒能舉出令人信服的例子。

我舉一個隨機變數的例子吧。

令隨機變數ξ有三分之二概率為零,三分之一概率為1,方差是2/9,平均差是4/9。

現在我們令兩個這樣相同的隨機變數相加,新的隨機變數有4/9可能為0,4/9可能為1,1/9可能為2。方差為4/9,平均差是16/27。

兩個這樣相同的隨機變數相加之後,方差恰好是原來的兩倍,平均差毫無規律。


很大的一個原因是中心極限定理,大量的極限分布取決於期望和方差。

其實平均差(絕對距離)也不是沒有用。在robust statistics里方差的穩健性非常差,任何一個數據點變大都可以導致方差無界的變大(breakdown point=0)。一個很好的穩健估計是median absolute deviation即到中位數的距離的中位數。


兩個因素:

  1. 相對於絕對離差,平方給較大的偏差以更大的懲罰。即相同的數據,標準差一定大於絕對離差。在很多以最小化偏離程度作為判據最優化估計參數的過程中,標準差相對於絕對離差要求更加嚴格。
  2. 標準差相對於方差具有更好的分析性質。比如在最小二乘法中,如果選擇絕對離差作為判據,得到normal equation是相當困難的,因為絕對值的引入會使得求導過程便複雜。


做個搬運工吧

學過線性代數的大概都知道經典的最小二乘方法來做線性回歸。問題描述是:給定平面上 N 個點,(這裡不妨假設我們想用一條直線來擬合這些點——回歸可以看作是擬合的特例,即允許誤差的擬合),找出一條最佳描述了這些點的直線。

一個接踵而來的問題就是,我們如何定義最佳?我們設每個點的坐標為 (Xi, Yi) 。如果直線為 y = f(x) 。那麼 (Xi, Yi) 跟直線對這個點的「預測」:(Xi, f(Xi)) 就相差了一個 ΔYi = |Yi – f(Xi)| 。最小二乘就是說尋找直線使得 (ΔY1)^2 + (ΔY2)^2 + .. (即誤差的平方和)最小,至於為什麼是誤差的平方和而不是誤差的絕對值和,統計學上也沒有什麼好的解釋。然而貝葉斯方法卻能對此提供一個完美的解釋。

我們假設直線對於坐標 Xi 給出的預測 f(Xi) 是最靠譜的預測,所有縱坐標偏離 f(Xi) 的那些數據點都含有噪音,是噪音使得它們偏離了完美的一條直線,一個合理的假設就是偏離路線越遠的概率越小,具體小多少,可以用一個正態分布曲線來模擬,這個分布曲線以直線對 Xi 給出的預測 f(Xi) 為中心,實際縱坐標為 Yi 的點 (Xi, Yi) 發生的概率就正比於 EXP[-(ΔYi)^2]。(EXP(..) 代表以常數 e 為底的多少次方)。

現在我們回到問題的貝葉斯方面,我們要想最大化的後驗概率是:

P(h|D) ∝ P(h) * P(D|h)

又見貝葉斯!這裡 h 就是指一條特定的直線,D 就是指這 N 個數據點。我們需要尋找一條直線 h 使得 P(h) * P(D|h) 最大。很顯然,P(h) 這個先驗概率是均勻的,因為哪條直線也不比另一條更優越。所以我們只需要看 P(D|h) 這一項,這一項是指這條直線生成這些數據點的概率,剛才說過了,生成數據點 (Xi, Yi) 的概率為 EXP[-(ΔYi)^2] 乘以一個常數。而 P(D|h) = P(d1|h) * P(d2|h) * .. 即假設各個數據點是獨立生成的,所以可以把每個概率乘起來。於是生成 N 個數據點的概率為 EXP[-(ΔY1)^2] * EXP[-(ΔY2)^2] * EXP[-(ΔY3)^2] * .. = EXP{-[(ΔY1)^2 + (ΔY2)^2 + (ΔY3)^2 + ..]} 最大化這個概率就是要最小化 (ΔY1)^2 + (ΔY2)^2 + (ΔY3)^2 + .. 。 熟悉這個式子嗎?

原文http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/


為什麼標準差使用的更多一些? ……………………………………………………………………...……

簡單的說,就是標準差比平均差更能反映數據的離散度!………以下是少量分析來說明問題。 ……………………………………………………………………..……..也就是說,可能有兩組數,他們的平均差相等,但我們能說它們的離散度相同嗎?不能!………那麼,還有其它更好辦法嗎?還好,通過標準差的不同,我們仍然可以更加真實地反映這兩組數的離散度,而此時平均差已經無能為力了。 ……………………………………………………………………..……..從宏觀上來說,標準差放大了偏離均值更遠的數據的影響;而平均差則對偏離均值的遠近一視同仁。 再想想我們關於離散度的概念,是不是標準差更加吻合呢? …………………………………………………………………………....好了。舉個例子我們就明白了。(計算過程略過,只給出計算結果。) ………………………………………………………………………..…..假設,我們現在有

………………………………………………………………….......……1、2、3、4、5、6、7、8、9 和

………………………………………………………………….......……2、2、3、3、5、7、7、8、8 這兩組數據。 …………………………………………………………………..……..…第一組數據的平均差是:20/9≈2.22 …………………………………………………………………..……..…第二組數據的平均差是:20/9≈2.22 ……………………………………………………………………....……第一組數據的標準差是:√60/3≈2.58 ………………………………………………………………………....…第二組數據的標準差是:√52/3≈2.40 ………………………………………………………………………....…看到差別了嗎? 兩組數據的平均差完全相同!可是,我們能說他們的離散度相同嗎?似乎第一組數據散得更開一些、離散度更大嘛(因為有1和9),與直觀感覺好像有點不符喔! ………………………………………………………………………..… 標準差恰恰能夠將這兩組數進行正確的區分!通過兩組數據標準差的不同,我們能夠很明顯的評價兩組數據的離散度。 ………………………………………………………………………....…第一組數的離散度>第二組數的離散度! ……………………………………………………………………....……這與我們的直觀感受、經驗也是一致的。不得不說,這又是一次數學與自然認知的完美統一! ……………………………………………………………………….… 第一次回答知乎問題,個人的一點小見解,不當之處,敬請批評指正。輕拍,謝謝!


其實這個問題沒有那麼複雜,學數學很容易有很多抽象複雜的想法

平均差本身其實算是一級動差的強化版,即它不盡興多次冪的計算。一級動差本身不能用作反映差異情況的指標,因為它與平均數之差的和為零,也因而用絕對值的方法來用它表示差異情況。在實際應用中,比如各大統計軟體,定義一個包含絕對值的公式要比計算平方要困難,雖然這個公式看上去比標準差方差簡單,而且還不適合用於代數運算,沒有多大的價值。


非數學專業的非專業回答,拋磚引玉,歡迎批評。

對比兩者的公式,兩者的差別主要體現在各變數與平均值的差值的一次方還是二次方求和。一次方對差值的反應是線性的,而二次方則會對偏離平均值較遠的數值更加敏感,這也導致了標準差都會大於等於平均差。舉個例子說明,類似如下兩個數列分別計算平均差和標準差:

A = {-9 , -1 , 0 , 1 , 9}

B = {-5 , -5 , 0 , 5 , 5}

平均值都是0,平均差A=4,平均差B=4,標準差A≈5.73,標準差B≈4.47

可以看到,假如採用平均差來衡量這兩個數列,則得到的A和B的離散程度是一樣的,而就我個人感覺,A的離散程度是甚於B的(無科學依據);採用標準差,則得到的離散程度是A大於B的。

所以,兩者的主要區別應該就是題主最後所指出的對離散程度的反應差異,採用標準差相較平均差而言可以加大對離差的敏感度,而不是題主先前印象中的為了消除離差的正負相抵。

至於標準差這種加大離差敏感度的效果是否好過平均差,我到中國知網上搜了幾篇關於兩者區別討論的論文,對雙方支持的都有,主流的觀點還是認為標準差因為其離差敏感度好(除了反應包含平均差所反應的差異外,還包括了變數各值與平均數離差之間的差異&<兩層差異&>),所以要好過平均差,這應該也是標準差比平均差流行的原因。


在統計學中(尤其是心理統計和計量經濟),其實最主要的目標是在一組數據中找出一個最能反映數據趨勢(集中程度)的回歸函數ar{y}=eta _{0}+eta _{1}ar{x}    ,包括求出相應的估計量,也就是要讓殘差(或方差,或平均差)最小,即求Minsum_{i=1}^{n}{mu ^{2} }=sum_{i=1}^{n}{(y_{i}-eta _{0} -eta _{1}x_{i})^{2} }  或者Minsum_{i=1}^{n}{left| mu  
ight| } =sum_{i=1}^{n}{left| y_{i}-eta _{0}-eta _{1}x_{i}     
ight| } ;其次,你可以試一下求使得上述兩個方程得最小值(極小值)時的,當然,用的也就是多元微積分的方法(高數學過的),求導過後可以求出估計量eta _{0} eta _{1} ,也就得出了回歸函數是不是?最後你會發現用第一個方差的方程(也就是標準差的平方了,一樣的)是比較好算的,但是用第二個平均差的方程是很難算的,事實上其統計理論是非常複雜的。結論是,用標準差(方差)是比較好推導無偏性、一致性等的一般統計上要用到的統計性質。


1)這兩種對應於兩種不同的誤差模型。第一個對應於高斯模型,第二個對應於Lapace模型。

2)高斯模型是大部分誤差滿足的概率分布,但是對於外點(outlier)不魯棒。Laplace模型對於外點(outlier)有較強的魯棒性。

3)前者對應於L2 norm,後者對應於L1 norm

4)雖然兩個都是凸函數,前者無限次可導(充分光滑),後者不可導。直接導致的結果就是前者的導數很容易算,後者不容易算。

至於選取何種norm,取決於實際問題和誤差模型假設。對於自然圖像,可以參考[博士論文第三章](ETH ETH E-Collection: Spectrally regularized surfaces)


我也感覺很困惑。我用R語言進行了一次實驗。

設定一個數列a,a由1000個1到10之間的隨機數字構成。

設定第一個數字a1為1,然後計算a數列的標準差sd,記錄下來。

設定第一個數字a1為2,然後計算a數列的標準差sd,記錄下來。

設定第一個數字a1為3,然後計算a數列的標準差sd,記錄下來。

。。。。。。。。。以此類推,重複1000次。。。。。。。。。

設定第一個數字a1為1000,然後計算a數列的標準差sd,記錄下來。

記錄結果:

最後幾行的記錄結果:

我們來觀察一下標準差sd隨著a1的變化趨勢,以a1為橫坐標,sd為縱坐標作圖

對a1和sd進行相關性分析,結果如下

p值<0.05;相關係數COR=0.97,為強烈正相關

對a1和sd進行簡單線性回歸,繪圖結果:

可以看出,一組數據中,如果限定其他所有數據不變,只改變1個數據,標準差會隨著數據偏離而逐漸增大,所以標準差sd可以用來描述離散程度。


為什麼一般用「標準差」而不是用「平均差」


因為標準差好計算啊


這是我的直覺,沒有嚴格推導。

這兩種定義不過是「離散程度」的兩種範數,2-範數和1-範數。

當然範數有很多中,類比於無窮範數,定義這樣一種 離散程度的表徵

mu=max(|x_i-ar{x}|)

也並無不可。

至於具體用哪種,就看怎麼方便了。


The average deviation provides a single number representing the typical distance that the samples are from the mean. While convenient and straightforward, the average deviation is almost never used in statistics. This is because it doesn"t fit well with the physics of how signals operate. In most cases, the important parameter is not the deviation from the mean, but the power represented by the deviation from the mean. For example, when random noise signals combine in an electronic circuit, the resultant noise is equal to the combined power of the individual signals, not their combined amplitude.

原文摘自 《The Scientist and Engineer"s Guide to Digital Signal Processing》 --By Steven W. Smith, Ph.D.

該書屬於信號處理應用類書籍,我覺得這應該是考慮了物理應用意義。


$L^1$和$L^2$的關係


標準差擁有更高的信息熵。這是最關鍵的原因。通俗講標準差含有的樣本數據信息量更大更全面。平均差略低一些,極值差更低。


離散程度明顯方便對比,使用平均差可能在讓兩個數組的差異不顯著。兩個都能代表數據波動程度, 數據分析中希望規律越顯著越好,然而數據差異大也方便不同數組間的對比。


二者從目的上來說沒有區別,但是在應用與適用範圍上區別較大,具體參見《現代穩健回歸方法》,講的很詳細。

如果有時間,再來補充。


你仔細分析離散程度 就能明白了 離散程度是 和平均值的比較 每個數值都和平均值比較 仔細揣摩概念


標準差是完全統計量,而平均差不是。標準差含有了所有與分布參數相關的信息。詳細的論述可以查看 概率論與數理統計教程第二版 ,裡面有詳細證明。


外行看法,在沒有計算機出現之前,標準差或者方差能夠避免人為計算失誤出現的概率,然後習慣就被繼承下來了


推薦閱讀:

樣本方差的自由度是n-1,為何總體的自由度就是n?在求總體方差時,難道不也要用到總體的均值嗎?
為什麼分母從n變成n-1之後,就從【有偏估計】變成了【無偏估計】?
大數定律和中心極限定理在各個領域的運用有什麼 ?
最大似然估計和EM演算法的關係是什麼?

TAG:統計學 | 統計 |