方差為什麼能表示離散程度?
就比如我把需要平方的地方改成四次方,把需要開方的地方開四次方,就不能這樣表示么?關於其能夠表示離散程度我無異議,不過最重要的疑問在於是否只能是「平方」?
看了一下回答,都是所問非所答啊。
我回答一下,
方差憑什麼能表示離散程度?
不憑什麼,人規定的。
就比如我把需要平方的地方改成四次方,把需要開方的地方開四次方,就不能這樣表示么?
可以。關於其能夠表示離散程度我無異議,不過最重要的疑問在於是否只能是「平方」?
不是。 關於另外的回答,我說幾點: 1. 為什麼不直接定義絕對值?很大程度上的原因是為了方便,使用絕對值會出現「尖點」,即不可導的點,這在很多地方會造成不便。 2. 我們約定「離散度」是一個非負概念,所以用偶次冪就可以很好的符合這一直觀概念。補充一下 這是概率論裡面的內容,不同階中心矩的意義是不一樣的,不能隨便交換用。
原點矩是數學期望
一階中心矩應該恆等於0 二階中心矩就是方差,衡量隨機變數和數學期望的偏離程度 三階中心矩衡量隨機變數分布的偏斜程度,對稱分布時為0 四階中心矩衡量隨機變數在均值附近的聚集程度,也叫峰度,越大則數值越集中,越小越發散離散程度是一個比較含糊的概念,實際上這其中的語義暗含的是數據樣本全部的分布信息的特徵。由於樣本的數量可能很多,分布千變萬化,單純的幾個數學參數,是不可能反映樣本的全部離散程度信息的。 反過來說,像絕對值、方差、四階中心矩等不同的參數,(其實等同於說不同的權重分布),反映的是樣本分布中不同側重的信息。比如,由四階中心矩引出的峰度,其就對遠離平均值的偏移更加敏感的。兩個數量相同的樣本,在方差相同的情況下,某分布的峰度高就意味著它的方差更多是由低頻度的大於或小於平均值的極端差值引起的,可見其提供了與方差不完全相同的信息。用絕對差值總和相同,但方差不同的例子也可以反映方差與絕對差值提供的信息有所區分的事實。 如果是泛泛地講到離散程度,那麼用絕對值差或者方差都比較合適,在這一點上,確實是人為的,因為人一方面對數據的偏離有一定的敏感,但又沒有敏感到高次冪的那種程度(個人感覺),所以一般不會取兩次以上的偶次冪。再結合可導性和計算方便性的需求,取方差為多。 但在數學演算中,哪個更「正統」完全是毫無意義的事,重要的是哪一種離散程度的刻畫更符合實際問題的性質和需求。
非數學專業。
我理解用平方是因為平方能較好的表示數據間的差距即離散度。
貼一個比較科普的例子吧,看完後可以自己思考一下用四次方表示的情況。----------------來源互聯網,出處不詳,部分節選-------------------- 問題一:如果要從甲、乙兩名選手中選拔一名參加射擊比賽?你將設計什麼方案? S:總分高的。 T:若有一名選手射擊5次,總分30;而另一名選手射擊10次,總分50分,你又會選擇誰? S:看來還是算平均分合適。 問題二:你選擇誰? 甲:3、5、6、7、9 乙:4、5、6、7、8從數據中,可以看出用平均數來選拔是不可取的。儘管平均環數相同,但二人的水平還是有差距的。讓學生充分研討,經過觀察分析數據,比較容易達成這樣的共識:甲最多9,最少3環,波動範圍較大,而乙最多8,最少4,波動範圍較小。因此乙較穩定,應該選拔乙。
問題三:極大值與極小值的差能分析準確嗎? 甲:3、5、6、7、9 丙:3、6、6、6、9 不難發現,雖然最多比最少差距相同,但丙比甲要穩定。同時還發現:在平均數相同的情況下,單純比較最大與最小兩個數據,不能夠說明一組數據的整體波動情況,每個數據都有決定權。那麼又如何反映一組數據的波動情況? S:用各個數據減去它們的平均數,得到各個數據的偏差;再將各偏差相加。 經過一算:不難得出甲、乙、丙的偏差和都為0。到這一步,同學們會突然想到去掉偏差的負號問題。老師引導學生進行探索、分析,最後歸納出兩種方法。(1)先求各偏差的絕對值,再相加;(2)先求各偏差的平方,再相加。 問題四:算一算下列數據的偏差和。 甲:3、5、6、7、9 乙:4、5、6、7、8丙:3、6、6、6、9
用方法一算得:甲:8;乙:6;丙:6(又如何比較乙、丙的穩定性呢?) 用方法二算得:甲:20;乙:10;丙:18(這種演算法算得,三者的穩定性都不一樣?也讓學生初步體會用平方而不用絕對值的目的就是將數據間的差距拉大)並非只能取平方。 完全可以用絕對值,或者更高階的偶數階矩來刻畫離散程度,但是二階矩在計算和表示方面有先天的優勢。事實上在統計上已經有人開始採取諸如絕對值或者四階矩來刻畫變數間的相異程度,比如變數選擇中的 LASSO Penalty Function 等等。
但是奇數階矩是不可取的,因為假設隨機變數, 而隨機變數以均等機會取(),則和的任意奇數階矩均相等為零,但是顯然的取值分散程度要高於。
其次,採用其它階矩來刻畫離散程度的話,其結果可能與方差不相符合。舉例來說:
隨機變數服從兩點分布,以均等機會取正負,即.顯然,且任意偶數階矩都等於1.
再考慮隨機變數服從均值為方差為的正態分布,即,易知
於是我們有(或曰), 但是. 也就是說使用不同階矩得到的相對離散程度的比較結果是不一致的。這一點值得強調。
草草數言,離題萬里。1 絕對值不可取,如果是絕對值的話距離只有線性差別。而我們的感覺是,偏離遠的我們會更加關注。其實平方也是增加權重的一種方式,距離越遠,權重越大。 2 從人的思維角度來說,我們只對一個範圍內的數據敏感,太大的數我們其實沒有什麼感覺。不宜用四次方或更高次冪。 3 從計算的角度來說,平方無論從硬體還是軟體來說都比較容易實現。
由切比雪夫不等式,數據的離散程度能用各階矩刻畫。高階矩存在能推出低階矩存在,因而階數越低能夠刻畫的範圍就越廣,但一階矩光滑性不好,分析上難以處理,因此統計里最常用的是二階矩。
事實上描述數據離散程度的遠不止方差,比如離差,最大值減去最小值,奇數階中心絕對矩,偶數階中心矩,方差是二階中心距,相當於每個點偏離期望點的距離的平方和,自然是表示這堆數據的離散半徑。另外切比雪夫不等式描述了方差與數據點數目的關係
奇數次方有可能會正負相抵,降低離散度量吧。當然,除了平方外,絕對值也可以。方差只是度量離散程度的一種。
根據方差的本意,是應該取E|X-E(X)|. 如果是從水平面上考慮,E(X)就好比放在眼前的一條直線,良好的數據X是應該在 E(X)之間上下震蕩,而且振幅沒有明顯的大波動。例如,幾門高考成績,平均值就是E(X),每門成績X就在平均值這條線的上下標誌出來。對於總分一樣的學生,可以從每門成績X離平均值的距離看出,誰的各科學習更加均衡不偏科。然後,這樣的E|X-E(X)|十分不好直接求出來,所以人為的規定方差的定義為E|X-E(X)|^2。這也符合我們目前的使用習慣,我們經常用的距離公式就是歐氏---l^2。
考慮這樣一個函數,試著證明當時函數的值最小。
證明如下:
令又 因此,在 處取到最小值。解讀一下:隨機變數關於其數學期望的偏離程度即是方差比它關於其它任何值的偏離程度都小。不取絕對值,因為絕對值不方便處理。奇數次正負性不好量化比較。平方,補足以上兩個缺點。所以人們把這樣的函數值作為變數的方差。陳希孺《統計學漫話》第二版中講了這個問題,見p72,79,84。總的來講,我理解,就是因為方差有比較好的性質而且數學上處理比較方便,所以選了它。
取什麼樣的範數(norm)並不是本質的。。絕對值是範數,平方是範數,你說的四次方也是一種範數~只是一種度量的手段,當然取簡單好用的好咯
難道不是因為歐幾里德距離的啟發么?
每個樣本數據看成一個n維空間的點,每個點到目標點的距離的平方的平均值隨機變數有更廣義的數字特徵——「矩」。原點矩定義為E(X^k),中心矩定義為E{[X-E(X)]^k}。 比如一階原點矩就是期望(平均數),二階中心矩就是方差。 所以我覺得,高階的中心矩也能達到反映變數特徵的效果,但至於還是不是描述偏離程度,求高人考證。
方差是最自然的,有很多好的性質,比如:
協方差誘導出向量空間;方差定義中含期望的某種極值性質,由此還有條件期望的某種極值性質,等等。
非要問為什麼的話,只能說期望是很自然的……非要問為什麼的話,我覺得是大數律決定的。有沒有其他更深刻的本質就不清楚了……單純衡量「離散程度」的話,用什麼都可以吧,用一階矩做類似最小二乘法的也有……推薦閱讀:
※如何理解皮爾遜相關係數(Pearson Correlation Coefficient)?
※證明:在任意 15個整數中,必有8個整數的和是8的倍數?
※一些初等函數如e^x^2之原函數不存在應如何證明?是否有系統的理論用以解決類似的函數原函數不存在的證明?
※等號上面有一個三角是什麼運算符?
※隨機變數除了離散型和連續型還有什麼類型?