有了方差為什麼需要標準差?
方差與標準差都是用來描述數據離散程度的。 標準差在方差基礎上多了個根號 我想問的是:多開了一次根號計算對數據離散程度的描述相對於方差有什麼優勢嗎?
標準差和均值的量綱(單位)是一致的,在描述一個波動範圍時標準差比方差更方便。
比如一個班男生的平均身高是170cm,標準差是10cm,那麼方差就是100cm^2。可以進行的比較簡便的描述是本班男生身高分布是170±10cm,方差就無法做到這點。
再舉個例子,從正態分布中抽出的一個樣本落在[μ-3σ, μ+3σ]這個範圍內的概率是99.7%,也可以稱為「正負3個標準差」。如果沒有標準差這個概念,我們使用方差來描述這個範圍就略微繞了一點。萬一這個分布是有實際背景的,這個範圍描述還要加上一個單位,這時候為了方便,人們就自然而然地將這個量單獨提取出來了。方差單位和數據的單位不一致,沒法使用。標準差和數據的單位一致,使用起來方便。具體說下吧。
1.標準差有啥卵用?
在描述統計學歷四分位數(猴子:四分位數的位置計算原理?)的優點是可以從整體上描述出數據的分布狀態,卻無法告訴我們數據的波動性有多大。
我們舉個具體的例子,在NBA中,平均數據用來衡量一個球員的戰鬥力,比如場均得分,蓋帽,搶斷,助攻等。
那麼我們現在想一個問題。如果你是教練,你想知道哪位球員發揮最穩當。因為你需要一支值得信賴的球員隊伍,他最不想要的就是表現時好時壞,水平反覆無常,波動很大的隊員。他需要得是分高,且發揮穩定的球員。
而標準差就是為了描述數據集的波動大小而發明的。2. 什麼是數據的波動大小?
很多統計概率的書本上會用離散程度和變異大小來表示數據集之間偏離平均值的程度。我一度被離散程度這四個字搞的摸不著頭腦,因為大腦里根部無法直觀的理解這四個字。想不通為何統計學家起名字的時候就不能通俗易懂嘛。
直到有一天,我想到「波動大小」可以直觀的替代「離散程度」這個專業術語,我的內心是一陣狂喜。想想,我們日常生活中對一件事情的波動大小是有直觀的理解的。
如果你像巴菲特一樣在做價值投資,面對兩支股票歷年股價的曲線圖,你可以直觀的感受到哪只股票的波動比較大。
在例如你日常看新聞,會看懂騰訊2017年一季度盈利145億,比去年同期增長
57%,也就是每天賺1.6億,你會驚嘆騰訊股價的波動性好大。想想王健林早上說定個小目標,馬化騰下班時就完成了。所以,以後遇到「離散程度」,「變異性」這些詞理解不了的時候,你的大腦自動切換到「波動大小」這四個字,就理解了,因為他們說的是一個意思。
3. 標準差表示數據集的波動大小,那如何計算標準差呢?
直接上圖吧(我喜歡畫圖,能用圖說明的就不用文字)。
解釋下上面的圖,假設數據集中有三個數,分別是x1,x2,x3。
第1步,先計算方差,每個數值減去平均數μ(miu),的平方,相加,然後除以數據集總數n,這裡有3個數,所以n=3。
這樣就算出了各個數值與平均值的平均距離。
第2步,方差開方就是標準差,標準差符號讀西格瑪。
別擔心,當數據集中的數據很多時,會有專門的工具來計算出標準差。這裡介紹公式是讓你知道標準差是怎麼計算出來的,對於後面的應用和理解會很有幫助。
4. 回到你的問題,為啥有了標準差,還要方差?
如果你理解了上面的公式,就會自動最終我們想要的是標準差,方差只不過是計算的中間過程。
你都衡量數據了,肯定要和你衡量的數據單位一致,不然比較個啥,標準差單位才是和數據一致。
5. 標準差應用案例
沒有使用案例,懂的太多知識用不上就是耍流氓,下面案例不詳細說了,來圖吧。
看這裡
一維數據分析:平均值(Mean)、方差(Variance)、標準差(Standard Deviation)我了解的大概是,統計學中為了度量隨機變數的離散程度,最簡單有效的辦法就是觀察每個樣本到均值的距離,這些距離求和再取平均值。
這個距離取得兩個點之間的直線距離,也就是|Xi-E(X)|。問題是數學上不方便處理絕對值,就用數學上更方便處理的辦法--開平方來消掉負號。所以最後樣本到均值的距離統一採用(Xi-E(X))^2來計算,距離求和後除以樣本數就是方差了。方差因為具有一些優良的數學性質,成為刻畫散布度的最重要的數字特徵之一。
不過方差因為開平方,度量單位和樣本的單位不一致,標準差的好處是通過開根號讓兩者的單位一致。
題主問這個問題可能首先不清楚方差怎麼來的。如果如你所說,我們把公式中的平方換成絕對值不是更好嗎?理論上來說,這樣的出來的方便很直觀也很好理解,這根本不會有標準差和其他人提到量綱的問題,那麼要平方而不是取絕對值呢?因為,如果取絕對值,有個很大的問題,就是不可導。學過導數的同學都明白,|x|=y當x=0時,該式子不可導,那麼方差取絕對值就有同樣的問題。在這個微積分極其重要的時代,不可導不是個令人討厭的性質嗎?既然如此,我們自然取處處可導的平方而不是絕對值。別的同學說,計算機算起來方便也是這個道理。問題又來了,如果如此那麼為什麼不直接在(x-u)2上直接開根號呢?反問你一句,雖然有計算機,但是你不覺得如果筆算的話,或者對於計算機來說,越簡潔的形式越好嗎?數學最喜歡乾的事情就是簡化這個世界,所以直接平方不開根號是一個簡潔明了,不需要多餘步驟的計算形式。那麼回到最初,既然有方差了,方差的意義與標準差一樣,那麼為什麼還要用標準差呢?單位也是可以被納入計算的。比如長度的單位是m,面積的單位是m2。不光是人為規定單位的原因,而是本身單位也是可以納入計算的,就好比這個m×m=m2一樣。方差也是如此,平方了以後他的單位也帶上了一個平方,那這個東西你要與原本的做數據比較,單位不同你沒法比較啊!所以,開個根號,單位一樣,知道為啥叫標準差了吧?因為方差被標準化了,前人取名都是有他的邏輯的。那麼你會問,為什麼n也要開個根號,來,回到第四段再仔細看一遍。我們要簡潔明了,既然方差和標準差的意義相同,只是量綱不同,那麼我們為了取相同單位,不考慮那麼多,開個根號,不就非常的簡潔明了嗎?
也就是說,開根號,跟你的xi、u、n沒有關係,他只是為了去平方,把單位換成一個我們想要的而已。
你可以理解為,開根號n,只是順帶開了,並沒有什麼實際意義或者為什麼,他只是為了把單位換一下,變一起把n給開根號了。雖然這個整體的因為叫做降階。你會發現,所有的降階行為都是把整體降了,沒有隻降其中一個因子的,你也可以從這個角度去理解方差整體開根號。只不過從我的角度,我更喜歡是說人偷懶想要簡單一點,順帶一開罷了。所以其實,標準差只不過是,我們想把東西標準化的結果而已。這樣你就知道為啥有了方差還要標準差了吧?我覺得題主的意思是為什麼N會有個根號,這個根號的存在影響了對平均的含義的理解。將方差開根號,確實可以使數字單位統一,這可以理解,但是對N開根號,意義何在,我在學習統計學的過程中也卡在這個問題上,望高人指點。
方差利用了所有觀察值的信息描述變數的變異程度,但是方差的量綱是原變數量綱的平方。來自統計書。所以標準差有它存在的價值。t
存在即有理,特定的問題就需要特定的方法,標準差應該是比方差先提出的,而且在單純一道初/高中的數學題中,標準差並不會與方差運算空間和佔用CPU的百分比說差很多,也許會更高效。
推薦閱讀:
※數學思維與工程思維的區別與聯繫?
※有哪些可以培養提高數學思維的書值得推薦?
※沒接觸過競賽和建模的人,可以一天之內搞定一道數學建模競賽題嗎?
※數學分析中實數理論有多重要?
※對於沒有答案的數學教材,是如何發揮其習題價值的?