標籤:

樣本標準差的意義是什麼?

是為了估計總體嘛?和樣本本身的關係如何?


來來,一起聊聊,從為什麼有這個東東,到這個東東怎麼應用。

1.標準差有啥卵用?

在描述統計學歷四分位數(猴子:四分位數的位置計算原理?)的優點是可以從整體上描述出數據的分布狀態,卻無法告訴我們數據的波動性有多大

我們舉個具體的例子,在NBA中,平均數據用來衡量一個球員的戰鬥力,比如場均得分,蓋帽,搶斷,助攻等。

那麼我們現在想一個問題。如果你是教練,你想知道哪位球員發揮最穩當。因為你需要一支值得信賴的球員隊伍,他最不想要的就是表現時好時壞,水平反覆無常,波動很大的隊員。他需要得是分高,且發揮穩定的球員。

而標準差就是為了描述數據集的波動大小而發明的。

2. 什麼是數據的波動大小?

很多統計概率的書本上會用離散程度和變異大小來表示數據集之間偏離平均值的程度。我一度被離散程度這四個字搞的摸不著頭腦,因為大腦里根部無法直觀的理解這四個字。想不通為何統計學家起名字的時候就不能通俗易懂嘛。

直到有一天,我想到「波動大小」可以直觀的替代「離散程度」這個專業術語,我的內心是一陣狂喜。想想,我們日常生活中對一件事情的波動大小是有直觀的理解的。

如果你像巴菲特一樣在做價值投資,面對兩支股票歷年股價的曲線圖,你可以直觀的感受到哪只股票的波動比較大。

在例如你日常看新聞,會看懂騰訊2017年一季度盈利145億,比去年同期增長

57%,也就是每天賺1.6億,你會驚嘆騰訊股價的波動性好大。想想王健林早上說定個小目標,馬化騰下班時就完成了。

所以,以後遇到「離散程度」,「變異性」這些詞理解不了的時候,你的大腦自動切換到「波動大小」這四個字,就理解了,因為他們說的是一個意思。

3. 標準差表示數據集的波動大小,那如何計算標準差呢?

直接上圖吧(我喜歡畫圖,能用圖說明的就不用文字)。

解釋下上面的圖,假設數據集中有三個數,分別是x1,x2,x3。

第1步,先計算方差,每個數值減去平均數μ(miu),的平方,相加,然後除以數據集總數n,這裡有3個數,所以n=3。

這樣就算出了各個數值與平均值的平均距離。

第2步,方差開方就是標準差,標準差符號讀西格瑪。

別擔心,當數據集中的數據很多時,會有專門的工具來計算出標準差。這裡介紹公式是讓你知道標準差是怎麼計算出來的,對於後面的應用和理解會很有幫助。

4. 回到你的問題,為啥有了標準差,還要方差?

如果你理解了上面的公式,就會自動最終我們想要的是標準差,方差只不過是計算的中間過程。

你都衡量數據了,肯定要和你衡量的數據單位一致,不然比較個啥,標準差單位才是和數據一致。

5. 標準差應用案例

沒有使用案例,懂的太多知識用不上就是耍流氓,下面案例不詳細說了,來圖吧。

很多人其實忘記了樣本標準差的目的是幹什麼用的,我對複雜的數學公式證明不感興趣(反正書上有),下面我聊下這背後的原因。

6.樣本標準差的意義是用於估計總體標準差,你需要理解下面2個內容:

1)樣本標準差為什麼除以n-1

當你選擇一個樣本後,相比總體,你擁有數據的數量是變少了,因此,與總體中的數值偏離平均值的程度相比,樣本中很有可能把較為極端的數值排除在外,這樣使得數值更有可能以更緊密的方式聚集在均值周圍。

也就是說,樣本的標準差要小於總體標準差。

所以,為了更好的用樣本估計總體的標準差,統計學家就將標準差的公式做了改造:即原來的標準差公式是除以n,為了用樣本估計總體標準差,現在是除以n-1。這樣就使得標準差略大。彌補了樣本的標準差小於總體標準差的不足。

所以很多書上會直接把除以n-1的標準差叫做樣本標準,其實這個樣本標準差的目的是用於估計總體標準差。

2)你可能會疑惑,那我什麼時候標準差除以n還是n-1呢?

其實,這個問題我的一個社群會員@胡小白 也問過這個問題:

只要你記住使用標準差的目的是什麼,就不會搞錯了。

如果你只是想計算一個數據集的標準差,那麼就除以n。例如你有100個畢業與清華人的收入,只是想了解這100個人構成的數據集的波動大小,那你就用除以n的標準差公式。

如果你想用樣本來估計總體的標準差,那就用除以n-1的標準差公式。例如你想把剛才例子中這100個人當成一個樣本,用這個樣本來估計出總體(所有畢業與清華人的收入)的標準差,那麼就除以n-1的標準差公式。


舉個例子,統計籃球隊員身高

兩支隊伍平均身高都是180,看起來似乎差不多

但如果畫圖的話,得到結果如下

很顯然,藍色隊隊員身高更加整齊一些,橙色隊身高顯得參差不齊

為了反映一組數據,偏離平均值的程度,就有了」標準差「這個概念

如果數據量很大,比如幾萬人的身高,我們不容易從折線圖看出來,可以直接用公式計算

在excel有一個STDEV函數(Standard Deviation 標準差的縮寫)

很明顯,橙色隊的標準差比藍色隊標準差大很多

金融市場中,標準差用來反映股票的波動程度

在NBA中,平均數據用來衡量一個球員的戰鬥力,比如場均得分,蓋帽,搶斷,助攻等

但衡量一個球員的穩定性,使用的是標準差

心理測量學,智商測試

WAIS-RC 韋氏成人智力測驗 —— 分測驗量錶轉換為平均分100,標準差位15的離差智商

這說明同一個群體的智商在 [100-15,100+15] 這個範圍內浮動

以上這些都是」標準差「存在的意義


樓上的兄弟,人家問的是樣本標準差的意義,不是標準差的意義,這是兩個概念。

樣本標準差是總體標準差的點估計,當調查量非常大或者生產線一直生產某類產品,無法估計總體平均值和總體標準差時,才用樣本的點估計,估計總體參數。並獲得一個大概的可能值。

而這時,由於總體量非常大,普查根本不可能,無法普查,那麼標準差和平均值只能是估計值,所以用抽樣的方式獲得平均值和樣本誤差,從而衡量估計值。


終於中島了方差,標準差,樣本標準差的區別


推薦閱讀:

協方差的意義?
假如天朝的獨生子女政策改為「首胎為女可生第二胎,首為男則不可」,我國現在的男女比例將會有什麼變化?
已知平均值、標準差、數據總數,如何求這組數據的最大值和最小值?
如何理解結構方程模型?
大偏差技術是什麼?

TAG:統計 |