標籤:

standard deviation 和standard error的區別,能講的通俗些嗎?


謝謝邀請...

standard deviation 是標準差 表示一組數值之間的離散程度

計算公式:

簡單來說就是一組數據的每一個數與該組數據的平均值比較,通過得出來的數值看這組數據的離散程度。比如,全班男同學身高都差不多是1.75m,那麼我們可以說這個班的男生身高標準差很小,因為大家都接近平均值就是說數據很集中。可是,五個姚明,十個潘長江組成一組,嗯,這個身高數據很離散,參差不齊,標準差很大....

standard error 是標準誤 是樣本統計量的標準差

在現實中,我們無法得知總體情況,總是以樣本的分布情況去推斷總體。比如,我國在校大學生每月伙食費用是多少。對於這個問題,我們不能全國範圍統計各大高校每個同學的伙食費,於是,我們就用樣本推斷總體大概情況以得出我們所需要的數據。比如,抽取我國都東西南北部分高校部分同學的伙食費進行研究。而此時,標準誤產生了。它是衡量樣本抽樣的誤差的指標。

再舉一個例子說清楚問題。

比如總體是1 2 3 4 5 6 7 8 9 10 總體平均數是:5.5

而甲對總體進行抽樣,可能得到 5 8 3 2 平均數是4.5

乙進行抽樣,得到 3 7 9 2 平均數5.25

丙抽樣,得到 4 6 9 2 4 1 平均數為4.3

丁...............................平均數為x

那麼,4.5, 5.25 ,4.3.........x 組成一個新分布,這是一個以樣本平均數為分布的,那麼這個分布的標準差是什麼呢?利用公式,我們可以得出這個分布的標準差,而這個標準差就是標準誤。(當然這個分布的統計量有平均數,標準差,方差,相關係數等等。而我們這裡以平均數為栗子。)

如果知道總體的標準差,SEar{x} = frac{sigma}{sqrt{n} }

如果,不知道總體的標準差,用樣本的標準差,採用它的無偏估計SEar{x}=frac{s}{sqrt{n-1} }

簡單說就是統計量(樣本)的標準差


栗子同學的回答很不錯,但是表述上有一些問題,我用自己的理解再補充一下吧~~

SD概念比較specific,但是SE範圍比較大,統計量都可以有SE。最常用的是均值的SE,即SEM。

最重要的就是記住 SEM = SD除以根號n。這貨越小你的樣本均值越靠譜。

--------------------------------------我是分割線---------------------------------------------------------------

詳細解釋一下是這樣的:

SD是用來表示樣本離散程度的,它的單位和數據本身相同,表示的是平均來說,樣本們和樣本均值之間的偏離程度。而SE,最常見到的SEM(Standard Error of Mean),也就是樣本均值的標準誤,它的單位和數據本身也相同。SEM表示的是你這個樣本的平均數和總體真實平均數的偏離程度。如栗子同學所說,每次抽樣你都能得到一個樣本均值,試想一下,如果你抽樣的n很大,那麼相對你的樣本均值和總體均值的偏離程度就比較小(如果你的n接近無窮大那麼偏離程度趨近0); 而反之,如果你就從總體抽了倆樣本,這倆數的平均數作為樣本均值,可想而知它和真正總體的均值的偏離程度是相對較大的。

舉個例子吧~還是用身高的例子好了

你想知道全中國人的平均身高,然後從男籃抽了5個人,假設平均身高1.9米。如果你想告訴大家這個1.9能夠有意義,至少需要告訴大家這5個人之見的差異不是很大,否則大家會懷疑這個均值沒有代表性。這就是SD要小才比較好的道理。但是,即使這裡你的SD很小,大家就會相信嗎?並不是,原因就是雖然SD小,但是n也很小,也就是說你樣本數僅僅是總體的很小一部分,很可能你抽到的這一部分不具有代表性或者說它本身就是和總體均值相差頗遠的一塊樣本空間。如何評判你抽的樣本均值好不好呢,很簡單,SD除以根號n。這就是SEM。很明顯看出來,SEM不僅包括了樣本離散信息,還包括了你這個樣本靠不靠譜的程度(n越大越靠譜咯,最好n就是總體N)。

說白了,你想用SD來告訴大家你的抽樣均值很準確,前提是你的樣本數要足夠大,所以僅僅用SD是不夠用的,需要再除以根號n,用SEM更為合適。

另外,還有一些其他的區別。

1. 按照定義,SEM小於SD。

2. 樣本數目增加時,方差變化並不是一定增加或者減少的。但是SEM一定減少。


給定一組數據,通過算術平均數mean,得到standard deviation (縮寫SD,或σ),描述整組數據偏離平均數程度;

抽樣調查中,對抽樣數據結果求standard deviation,可得到standard error, 從而推論抽樣整體數據結果。

standard deviation用來描述數據偏差,比平均數更精確。

兩個數據集,平均年齡都是20歲,100個大學生年齡數據集,比100個火車乘客年齡數據集,偏差小。如下是standard deviation公式,一般不要求記,大多用電腦算。

生活中,你並不總能拿到全部數據,很多時候只能抽查樣本組。比如百萬人口城市普查,可通過10組,每組100人的調研結果來推測整體。

通過對這些樣本數據結果的standard deviation計算,得到 standard error,推斷全局數據範圍。

standard error 是個描述性數據,樣本數據變高 standard error 變低,預測更精確。

SEM (Standard Error of the Mean)比 standard error 更常用,見下圖wiki解釋:

下截圖來自視頻,講得非常清晰:https://www.youtube.com/watch?v=3UPYpOLeRJg

首先拿到所有測試樣本結果(紅字部分),然後對所有結果求standard deviation(σ,用第一個複雜公式),根據σ,再計算Standard Error of the Mean(σ / √n),然後就能預測整體數據情況了。

假設下面幾種情況:

  1. 一個抽樣數據推全體成員情況,如通過100人男生比例,推全校男生比例。
  2. 多個抽樣數據推全體成員情況,如5組,每組100人的男生比例數據,推全校男生比例。
  3. 一個抽樣數據推全體成員平均值,比如100人薪水,推全城平均薪水。
  4. 多個抽樣數據推全體成員平均值,比如5組,每組100人薪水,推全城平均薪水。

P = 樣本組結果算數平均值mean

上面4種情況計算公式固定: P - standard error ≤ 整體值 ≤ P + standard error

所以難點在於計算standard error部分。

題1隻有一個樣本數據,100人中男生47個,沒有算數平均值,也沒有standard deviation。

附上第一題原圖,唔,後面幾題就不一一掃描了……

唔,正好也被卡住了,琢磨了半天,順便寫個筆記。

有錯誤之處,請一定嗷嗷指出。

看到評論後補充:

可能題目把*1.96 簡化為*2,其他關鍵詞:正態分布,置信區間。

可參考下圖解釋。

下截圖來自網路,不知道書名。


區分:

Standard deviation (of a random variable)

Standard error of the mean/ of the standard deviation/ of the variance ...

Standard error of the regression

先明確標準差 sigma (standard deviation)即是方差 sigma^2(variance)的開方。用來反映一個隨機變數的離散程度。

標準誤差 (standard error) 指的是你通過樣本(sample)估計總體(population)的時候,樣本分布的標準差

Standard error of the mean 就是你通過樣本均值(sample mean)估計總體均值(population mean)的時候,均值的樣本分布(sampling distribution of the mean)的標準差

Standard error of the regression 只特指在OLS估計方法回歸方程中,是誤差項(error)的標準差。

你想知道中國人的平均身高(population mean mu ),真實的群體均值為 mu ,群體方差為 sigma^{2} 。每次抽樣1000人,抽樣了 n 次。每次抽樣的1000人的平均身高是一次隨機抽樣,這 n 次抽樣是一個樣本(sample),樣本容量為 n 而不是1000。每次抽樣得出的「平均身高」都是不一樣的,這 n 次不一樣的「平均身高」本身組成了一個均值的樣本分布(sampling distribution of the mean)。這個分布有自己的均值 S_{n} 和標準差 sigma_{x} ,這個均值的樣本分布的標準差就是 standard error of the mean。

根據中心極限定理(Central Limit Theorem),當樣本容量 n 變大,樣本均值 S_{n}和群體均值 mu 的差值的 sqrt{n} 倍接近一個正態分布 N~(0, sigma^{2}) ,也就是說:as n
ightarrowinfty

sqrt{n}(S_{n}-mu) ~ N~(0, sigma^{2})

把 ~ 左右同時除以 sqrt{n}

S_{n}-mu ~ N~(0, frac{sigma^{2}}{n})

把 ~ 左右同時加 mu

S_{n} ~ N~(mu, frac{sigma^{2}}{n})

也就是說,樣本均值 S_{n}服從的正態分布的均值就是群體均值 mu ,而樣本均值 S_{n}服從的正態分布的方差 sigma_{x}^{2}n 分之一的群體方差 sigma^{2} ,也就是

sigma_{x}^{2}=frac{sigma^{2}}{n} 或者寫作 sigma_{x} = frac{sigma}{sqrt{n}}

一般我們只關心群體的均值,如「平均身高」,不關心群體的其他屬性,如「身高分化」。但是同理,如果你想知道中國人的身高標準差(population standard deviation),可以每次採樣1000人,採樣了100次。每次採樣得出的「身高標準差」是不一樣的,這100次不一樣的「身高標準差」本身組成了一個標準差的樣本分布(sampling distribution of the standard deviation)。這個分布有自己的均值和標準差,這個標準差的樣本分布的標準差就是 standard error of the standard deviation。)

回歸中的 t 檢驗某種程度上可以看做中心極限定理(Central Limit Theorem)的變形 —— 統計量 S_{n} 的標準化:

sqrt{n}(S_{n}-mu) ~ N~(0, sigma^{2})

H_{0} : mu=0

sqrt{n} S_{n} ~ N~(0, sigma^{2})

由於無法知道真實的 sigma^{2} ,我們用樣本的 sigma_{x}^{2} 來做檢驗

sqrt{n}S_{n} ~ N~(0, sigma_{x}^{2})

把 ~ 左右同時除以 sigma_{x}

frac{S_{n}}{sigma_{x}/sqrt{n}} ~ N~(0, 1)approx t distribution

Standard error of the regression 只特指在OLS估計方法回歸方程中,是誤差項 epsilon (error)的標準差。

在線性回歸中,OLS估計的假設之一是

誤差項的「同方差性 Homoscedasticity」: E[ epsilon_{i}^{2} | X ] = σ_{epsilon}^{2}

也就是說回歸方程中的誤差項有固定的方差和標準差。

把這個方差 sigma_{epsilon}^{2} 開方後的標準差就是該回歸的 standard error of the regression。


已樣本均數為例,對一個總體進行n次抽樣,產生n個樣本,n個均數,這n個均數間的離散程度就是以標準誤表示,其實反應的就是抽樣誤差的大小,個人認為是一種特殊的標準差,都是反映數據間的離散程度


standard deviation (以下簡稱SD) 是一個樣本(sample) 的概念。對於任何一列數據,你都可以算出一個standard devitation,反應了你的這組數據的離散程度。

standard error (以下簡稱SE) 是一個總體(population) 概念。是表示隨機變數不確定性的固有屬性。

所以你會發現,所有跟SD有關的公式都和觀測值有關,而SE的公式都跟期望有關。

樓上列那麼多計算公式,都快把題主搞迷糊了,其實就是反映了用樣本(SD)估計總體(SE)會帶來的無偏/有偏的問題。那應該屬於另一個問題的範疇了。


軟體在做描述性統計中一般都會同時輸出標準差和標準誤差,怎麼理解這個時候的標準誤差呢?


推薦閱讀:

知乎什麼時間發問被大量回答的概率最高?
數據分析師是怎樣煉成的,數據分析在不同行業有什麼不同要求?如互聯網、金融、傳統行業。
如何評價英國《經濟學人》發布的全球「仇富榜」中國倒數第四的情況?
博迪投資學在實際投資組合中的應用是如何的?

TAG:統計 |