如何理解 95% 置信區間?
對於置信區間一直不了解,很難懂,哪位大神可以通俗易懂地解釋一下,最好舉個例子,謝謝!
置信區間,就是一種區間估計。
先來看看什麼是點估計,什麼是區間估計。
1 點估計與區間估計
以前很流行一種刮刮卡:
遊戲規則是(假設只有一個大獎):
- 大獎事先就固定好了,一定印在某一張刮刮卡上
- 買了刮刮卡之後,刮開就知道自己是否中獎
那麼我們起碼有兩種策略來刮獎:
- 點估計:買一張,這就相當於你猜測這一張會中獎
- 區間估計:買一盒,這就相當於你猜測這一盒裡面會有某一張中獎
很顯然區間估計的命中率會更高(當然費用會更高,因為風險降低了)。
接下來,我們看看置信區間是如何進行區間估計的。
2 置信區間
我們通過對人類身高的估計來講解什麼是置信區間。
2.1 上帝視角
對於人類真實的平均身高,我們是沒有辦法知道的,因為幾乎不可能把每個人都統計到。
但這個數據肯定是真實存在的,我們可以說,上帝知道。
在這裡我們引入了上帝視角,即上帝看到的人類身高的真實分布。
假設人類的身高分布服從如下正態分布( ):
也就是說全體人類的平均身高為145cm,為了表示只有上帝可以看到,我把真實分布用虛線來表示:
2.2 點估計
作為愚蠢的人類,我們只能在人群中抽樣統計:
比如下面是一次抽樣數據,我把算出來的樣本均值(記作 )畫在圖上(藍色的點):
就是對真實的 的一次點估計。
通過一次次的抽樣,我們可以算出不同的身高均值的點估計:
如果我們關閉上帝視角,我們分辨不出哪個點估計更好:
區間估計可以改進此問題。
2.3 置信區間
置信區間,提供了一種區間估計的方法。
下面採用 置信區間來構造區間估計(什麼是 置信區間,這個我們後面解釋):
通過 置信區間構造出來的區間,我們可以看到,基本上都包含了真實的 ,除了紅色的那根。
關閉上帝視角,我們仍然不知道哪一個區間估計更好:
但是,和點估計比較:
- 點估計和區間估計,都不知道哪個點或者哪個區間更好
- 但是,按照 置信區間構造出來的區間,如果我構造出100個這樣的區間,其中大約有95個會包含
這就好像用漁網撈魚,我知道一百次網下去,可能會有95次網到我想要的魚,但是我並不知道是不是現在這一網:
剩下的問題就是 置信區間是如何構造的。
3 置信區間
假設人群的身高服從:
其中 未知, 已知。
我們不斷對人群進行採樣,樣本的大小為 ,樣本的均值:
根據大數定律和中心極限定律, 服從:
我們可以算出以 為中心,面積為0.95的區間,如下圖:
即:
也就是, 有 的幾率落入此區間:
我們以 為半徑做區間,就構造出了 置信區間。按這樣去構造的100個區間,其中大約會有95個會包含 :
那麼,只有一個問題了,我們不知道、並且永遠都不會知道真實的 是多少。
我們就只有用 來代替 :
4 總結
總結一下:
- 置信區間要求估計量是個常數
- 也被稱為置信水平,是統計中的一個習慣,可以根據應用進行調整
謝邀……
這要從什麼是「置信區間」談起……
在那之前我們需要定義"隨機變數"……隨機變數是一個函數X,其定義域為所有被考察的獨立事件組成的集合C,而其值域為一個數集,也就是X(c)=x……
現在我們把被考察的所有隨機變數收集起來,把P(X(c)≤x)作為從所有滿足條件「X(c)≤x」的隨機變數到其概率值的函數,總有一個函數F(x)=P(X(c)≤x)……這就是所謂的「累積分布函數」……(從累積分布開始,可以構造出概率質量函數或者是概率密度函數,也可以構造出一個動差生成函數,此處不做進一步說明)……
一個累積分布函數將代表一個分布(一個概率質量函數或概率密度函數、一個動差生成函數,也可以代表同一個分布)……
現在我們假定一類測試的隨機變數符合特定的一個分布f,而代表這一分布的特定函數(一般在有概率質量函數的時候使用概率質量函數,在有概率密度函數的時候使用概率密度函數)中除了x以外還有一些被考察的重要參數,將這些參數組成一個矢量θ……
假定我們進行了n次符合分布X的測試,得到的隨機變數依次為X1到Xn,這裡的「X1到Xn」就是樣本,n就是樣本容量……
假定我們不知道θ的值……對於θ有P(θ∈[L,U])這一概率……[L,U]就是「置信區間」……
利用X1,...,Xn的值,可以對θ進行「最大似然估計」,得到的結果記為Argmax L(θ)……
通過X所符合分布和n的值,有時可以計算θ所符合的分布……
根據Argmax L(θ)的值和θ所符合的分布,可以求出L和U,於是就求出了「置信區間」……
而95%置信區間,也就代表著P(θ∈[L,U])=95%……僅此而已……也就是L≤θ≤U的概率為95%……
儘管這一概念通常使用於正態分布上,但實際上適用範圍要遠遠比正態分布要大得多……
關於其在正態分布上的應用……
正態分布的θ=(μ,σ^2)(這兩個指標也是整個總體的均值和方差),而用n個服從同一正態分布的隨機變數進行最大似然估計的結果是Argmax L(θ)=(x bar,s^2)(也就是樣本的均值和方差)……
根據中心極限定理,當n趨於無窮時(x bar?μ)/(σ/sqrt(n))的分布收斂於標準正態分布……使用σ(總體的標準差)的最大似然估計值s(樣本的標準差)來替代σ,根據標準正態分布,即可求出μ(總體的均值)的95%置信區間……
參考資料:
Hogg, Robert T; McKean, Joeseph; Craig, Allen T (2012-02-08). Introduction to Mathematical Statistics (7th Edition) . Pearson HE, Inc.. Kindle Edition.很多答案當中用關於真值的概率描述來解釋置信區間是不準確的。我們平常使用的頻率學派(frequentist)95% 置信區間的意思並不是真值在這個區間內的概率是 95%。真值要麼在,要麼不在。由於在頻率學派當中,真值是一個常數,而非隨機變數(後者是貝葉斯學派) ,所以我們不對真值做概率描述。對於這個問題來說,理解的關鍵是我們是對這個構造置信區間的方法做概率描述,而非真值,也非我們算得的這個區間本身。
換言之,我們可以說,如果我們重複取樣,每次取樣後都用這個方法構造置信區間,有 95% 的置信區間會包含真值 (*)。然而(在頻率學派當中)我們無法討論其中某一個置信區間包含真值的概率。
實際上,在特定的情形中 (^) 我們甚至可以直接斷定一個參數不在一個 95% 置信區間中,即使我們構造這個區間的方法完全正確。這更說明我們不能說參數在某一個區間內的概率是多少。
只有貝葉斯學派才會說某個特定的區間包含真值的概率是多少,但這需要我們為真值假設一個先驗概率分布(prior distribution)。這不適用於我們平常使用的基於頻率學派的置信區間構造方法。
更多的解釋可以參考:
https://en.wikipedia.org/wiki/Confidence_interval#Misunderstandings
評論里的補充解釋:
換種方法說,假設我們還沒有取樣,但已經制定好取樣後構造 95% 置信區間的方法。我們可以說取樣一次以後,獲得的那個置信區間(現在還不知道)包含真值的概率是 95%。然而在取樣並得到具體的一個區間之後,在頻率學派框架下就無法討論這個區間包含真值的概率了。
取樣前能討論,取樣後卻無法討論,這可能讓很多人感到很不自然。擴大來說,傳統頻率學派對已經發生,但我們不知道結果的事件的討論存在困難。雖然這個問題通常在應用上無傷大雅,但確實有不少學者因此尋求對概率的不同解釋。
______________________* 也許你會說這麼描述就相當於說某個置信區間包含真值的概率是 95%。那我只能說你必須尋求頻率學派以外的對概率的解釋。這是一個很深奧的哲學問題:)
^ 參見 http://stats.stackexchange.com/questions/26450/why-does-a-95-ci-not-imply-a-95-chance-of-containing-the-mean 中的回答
置信區間是一個隨機的區間。所謂隨機,就是指端點為隨機變數,這個隨機變數通常是一個統計量,當抽取不同的樣本時就對應不同的值,從而對應不同的區間。對於某些樣本來說,對應的區間包含參數真值,另一些不包含。若在100次隨機抽樣中構造的100個區間如果95次包含了參數真值,那麼置信度為95%.
這個問題,從置信區間的由來就可以很清楚地說明了。
20世紀20年代,劍橋的統計學家Ronald Fisher正在悠閑地和同事朋友一起喝下午茶。
英國人喝的是奶茶,也就是牛奶和茶的混合物,但先倒奶還是先倒茶則講究不大。喝茶中,有個女士突然說自己可以分辨一杯奶茶究竟是先倒的奶還是先倒的茶,Fisher和其他人自然不信。然後Fisher讓她分辨一下自己杯子里的奶茶是什麼情況,結果她說對了。
Fisher還是不相信,因為她隨口一說都有50%的正確率。於是他們做了個實驗,沖八杯配方完全一致的奶茶,其中四杯先倒奶,四杯先倒茶,然後請這個女士分辨,結果她依然完全正確。在這種情況下,這個女士依然有可能是碰巧蒙對的,但八杯茶比一杯茶要有說服力多了。八杯茶的說服力有多少?我們是否應該相信她有分辨力呢?
統計學家Fisher心想,八杯茶她蒙對的概率是x(手機碼字,沒有計算機算不出來)也就是說她有(1-x)的概率是真的能分辨而不是瞎蒙的。如果能用更多的茶杯做實驗,那我們就有更大的概率確定她的確有分辨的能力。而這個概率(1-x)就是傳說中的置信區間。
而95%的置信區間就表示,這個女士碰巧蒙對的概率只有5%,我們有95%的把握相信她真的能分辨一杯奶茶。
看見兩位哲學界前輩 @鳥怪山@蔡倩愉 關注了這個問題。其實我不知道你們的關注點在哪裡——是單純地想了解統計學,還是有自己的哲學關切。如果是後者,我十分願意談一談置信區間的哲學意蘊。它或許能為人們理解置信區間提供一個有趣的知識背景,或者滿足一部分人的求知慾。當然,對科學哲學不感興趣而只想在數學層面理解置信區間的人則完全沒有必要閱讀。
關於置信區間在數學層面上的解釋,各個答案已經說得不錯了,我想這裡沒有必要再介紹置信區間是什麼了。我想介紹的是,我們為什麼需要置信區間,以及它為什麼通常是95%。由於時間和能力有限,涉及到的很多專業的問題我無法探討,所以只想給出一個大家都看得懂的概要。
我們知道,置信區間不是一個孤立的概念,它是統計學理論(具體來說是內曼-皮爾遜統計推斷理論)中的一環。而統計學理論往往是為科學服務的,這是因為現代科學注重數量層面,並且往往涉及個別和一般。所以我們的討論落在科學哲學的層面也就不奇怪了。當然,這些討論對於不被稱為科學的統計應用也是有效的。我們會從看似不相關的科學哲學問題說起,最後討論到置信區間。
說起科學,它想要做的工作很多,它可能包括提出對個別現象的解釋,對未來的預測,等等。然而,更吸引人的是提出關於總體的理論,而解釋和預測也往往依賴於普適理論。關於這種普適理論,我們首先想到的範例就是牛頓力學。然而,我們如何提出一個普適理論呢?
在這裡我們發現,人類具有一個根深蒂固的局限性——我們不能一下子就如同上帝一樣認識全體,而只能一個一個地觀察個體。因此,認識總體似乎只能通過從個別到一般的方法,即歸納。然而,休謨告訴我們,從有限的經驗觀察中是無法得出關於總體的理論的。這很好理解:就算你看到10000隻天鵝是白的,你也不能下定論說「天鵝都是白的」,因為第10001隻就可能是黑的。如果從個別到一般是不行的,那麼我們是否有辦法繞開個別而直接得到一般——比如,通過神啟等方式?波普會告訴你,這並不解決問題。發現的邏輯和驗證的邏輯是不同的,就算你通過神啟發現了總體的規律,可是面對懷疑時你還需要驗證它的正確性,而這必然還要回到個別。
那麼怎麼辦呢?波普說,我們無法通過有限的個例證實一個理論,但我們可以證偽它!比如,如果我們發現了1隻黑天鵝,那麼「天鵝都是白的」這個理論就被證偽了。這樣,所有被接受的理論就不是證實無疑的理論,而是尚未被證偽的理論。而科學與非科學的界限,就在於是否具有可證偽性。
這就是波普的證偽主義。相信很多知乎用戶都對此了解,我經常看到知乎用戶在談論科學問題時訴諸可證偽性。然而故事還沒完呢——證偽真的像想像中那麼簡單嗎?
證偽主義可能面臨至少三個問題:
(1)科學理論往往不是孤立的,而是相互支持的。當科學理論建立在其他理論或假設的基礎上時,我們不知道被證偽的是這個理論還是它所依靠的前提。
(2)它將一些我們通常認為是科學的東西排除在科學之外——比如達爾文的進化論就不具有可證偽性。
(3)統計推斷往往不具有可證偽性。
涉及置信區間的,就是第三個問題。統計學也想得出關於總體的結論,而它作出推斷的方式和我們之前所說的都有所不同。在統計學中,我們為了知道總體數據的某些特性,往往採用抽樣的做法,用樣本估計總體。這種估計,很難被證實,因為我們往往不掌握總體的數據;它也同樣很難被證偽,因為統計推斷是關於總體數據特徵的推斷,無法用任何一個單獨的個體數據證偽。
我們可以想像這樣一個例子:我用一定量的樣本數據估計出全體知乎用戶的平均年齡為28歲,那麼——顯然,你舉出「White是20歲」來證偽是無效的,因為我們這裡談論的是平均;如果你收集了一組樣本,其平均年齡為35歲,是否能夠證偽呢?也不行,因為我們談論的是總體。彷彿,我們在這裡完全沒有辦法確定關於總體均值的估計是否正確。
你可能會想到,假設為了驗證關於總體均值的估計,我隨機抽取了1000000組樣本,其均值都與28有一些差距,這是否能夠證明總體均值不是28呢?當然不能。我們仍然不能確定地說總體均值不是28,不過,我們可以說總體均值是28的可能性不大。你一定明白了,這裡我們能夠談論的只能是可能性。所以在這類問題中,我們接受或拒絕一個理論,不是因為它被證明了是正確或錯誤的,而是因為它很可能正確或很可能錯誤。
「很可能」的界限在哪裡?波普是不贊成以概率數字來表示正確或錯誤的可能性的,不過在科學的實踐中我們往往需要明確的標尺,這還是要求助於數學。統計學家們想出了辦法,他們往往(人為地)估計總體數據的分布情況,然後(人為地)構造統計量,最後將統計量同預先(人為地)設定的標準相對比,以此決定我們是否應該接受/拒絕一個統計推斷。鑒於其中檢驗方法和標準都是十分「人為的」,所以不得不承認由此得出的結論是「方法論上的真理」。置信區間,便是這樣的一種人為設定的接受/拒絕理論的標準。讀到這裡,你已經明白置信區間從何而來了。
那麼置信區間為什麼通常是95%呢?其實,這個數字並不是必然的,而是人為設定的。置信水平的設定是有影響的——如果我們對置信水平要求過高,我們可能會拒絕實際上是正確的理論(犯了I類錯誤);如果我們對置信水平要求過低,我們可能會接受錯誤的理論(犯了II類錯誤)。並沒有一個萬全之策能夠讓犯兩種錯誤的可能性同時降低,我們必須做出選擇。鑒於我們更加不喜歡犯II類錯誤,所以我們習慣於把置信水平設置在高水平。人們覺得95%是合適的,它的涵義是當總體呈正態分布時估計值落在總體均值左右兩個標準差範圍內的概率的近似值。詳見https://en.wikipedia.org/wiki/68%E2%80%9395%E2%80%9399.7_rule。關於置信區間的問題,我想說的就這些。
最後說些閑話。首先,如果沒有意識到以上問題,我們很可能會像前期維特根斯坦那樣簡單地所認為科學就是所有真命題的總和。而以上討論讓我們認識到,即使是科學,也並不是具有堅實確定性的,它可能需要方法論的支持。所以,科學更像是一個遊戲,我們制定規則然後玩它。其次,我想借用後期維特根斯坦的標準米比喻——有一件東西你不能說它是一米長,它就是巴黎的標準米。同樣,你不能說科學方法論是真還是假,因為我們用方法論來衡量真假。最後,也不要為我們在某些問題上無法獲得完全確定的真理而感到悲傷——我們畢竟不是上帝,或許我們的智慧只能做到這種程度吧:)。
(完)
======
註:評論區有很多朋友認為,此答案在數學上犯了一些錯誤。我對數學了解不深,很感謝大家的批評。各位讀者請只看此答案的哲學部分就好。
如果你想問的是這個95%是針對誰的95%,那麼可以這樣理解:
為了估算某參數a,假設我重複隨機取樣再估算這一系列步驟n次(n足夠大),那麼a的真實值落在這個95%置信區間內的次數大概是0.95n首先,重要的事情說三遍:
置信區間是隨機變數!
置信區間是隨機變數!
置信區間是隨機變數!
感謝大家點贊
---------------------------------------------------
看了下前面幾個答案,寫的不短,贊的人也不少,但是完全沒覺得講清楚什麼是置信區間,甚至好多錯誤觀點。
95%置信區間有95%的概率包括真實參數
。以前在學校教過應用統計,所以我來給個簡明專業的答案吧:
理解置信區間,有幾個基礎統計概念要搞清楚,拋開這些概念去理解置信區間就是扯淡。置信區間是誰的置信區間?這個問題搞清楚了么,置信區間是來參數的置信區間,參數又是什麼的參數?
參數是總體(population)的參數,置信區間是怎麼算的?是通過樣本(sample)算的,樣本和總體又有什麼聯繫?
1)總體,就是全部數據。可以假設總體服從某一分布,比如正太分布。一個正太分布是由兩個參數唯一確定的,平均值和方差,這兩個參數都是固定的數值,而不是變化的。
2)(隨機)樣本,樣本就是從總體裡面得到的數據,比如從一個正太分布,我們可以得到0.54,這個0.54就是一個樣本。很重要的一點:一個樣本未必只有一個值,我們完全可以得到一個樣本(0.1,-5,12),這個樣本有3個值,3 就是這個樣本的size。
3)參數估計,實際中,總體什麼分布往往不知道,但是我們可以做假設,比如假設人的體重是正太分布,做了這個假設,那接下來的問題是這個正太分布參數是多少?也就是平均值和方差怎麼算,解決這個問題就是參數估計,統計里有很多方法,不展開說了。但是參數估計是從樣本來估計的,這是關鍵的一點:樣本——&>總體的參數。
4)不同樣本估計的參數一樣么?沒有理由一樣,所以問題來了,不同樣本估計的總體不一樣,怎麼辦?區間估計,也就是給定一個區間,讓總體參數被包括其中。但是總體參數一定被包括么?顯然也不一定,這取決於樣本,如果恰好選了某些樣本,可能估計的參數和總體相距甚遠。
5)比如給定一組參數,算出來總體平均值的置信區間[a,b],是不是說總體平均值有95%的概率在這個區間內?這樣理解是邏輯混亂的結果,沒搞懂什麼是常數,什麼是隨機變數這些基本問題。
首先,總體參數,是一個常數,只是你不知道,是unknown constant,不知道不代表隨機,完全兩個概念。然後,一旦估計出區間,這區間也是確定的,參數也是確定的,不存在任何隨機問題,那麼現在大家應該清楚答案最開始說對置信區間最大的誤解」95%置信區間有95%的概率包括真實參數「的問題在哪了。
那麼正確的解釋是怎樣的?可以有很多種,這裡直說一個解釋:
95%置信區間,意味著如果你用同樣的步驟,去選樣本,計算置信區間,那麼100次這樣的獨立過程,有95%的概率你算出來的區間可以包括真實參數值。
下圖就是一個例子,抽樣100次,計算總體參數的置信區間100次,多數情況置信區間覆蓋了真實值,但是也有沒有的情況。
一個類比,對置信區間包括真實參數的概率的錯誤理解相當於說守株待兔,已經選好一棵樹,兔子撞上去的概率,兔子就是真是參數。正確的理解是,找到一棵有兔子的樹的概率。樹是什麼?是樣本,也是置信區間。
差別有些微妙!
################################################################################歡迎關注微信公眾號:機器會學習(id:jiqihuixuexi),精彩原創文章頻繁更新!
用於理解的話你可以這樣想:
你得出的置信區間就像一張大網,而你要推斷的真值是海里的一條魚(不動的魚),你的網可以撒向任何地方,有可能能捕捉到那條魚,有可能一無所獲。95%是用來描述你捕獲真值的概率的,你撒100次網,有95次捕到了真值,5次一無所獲。
引用一下Gudmud R .Iverson的《統計學-基本概念和方法》p157關於置信水平的小結:
「置信水平為95%的意思是多次抽樣中有95%的置信區間包含未知的參數值而另外的5%則不包含真值。至於在一次抽樣得到的置信區間是包含總體參數的眾多區間中的一員呢,還是屬於個別不包含參數值的區間就不得而知了」
這就是統計學的魅力,雖然我不知道真值是否在區間中,但是我有95%的把握它在裡面。
最後希望這個回答對你有用。
經典統計學的核心思想就是用樣本去估計總體;總體的參數是未知的,不可測度或難以測度,注意它是固定了的數值;
為了估計這個總體的參數,我們就要通過樣本來構造統計量,注意它是一個隨機變數。隨機變數的意思是隨著你樣本選取的不同,具體到每一個樣本的統計量的統計值也不盡相同。這個隨機變數的統計值就是對總體參數的點估計,由於樣本估計總體總是會存在一定的偏差,所以我們為了更好的估計總體參數,於是用到了置信區間。
95%的置信度的意思是如果你從總體中抽取100個不同樣本,每個樣本都用相同的統計量構造的置信區間(注意:由於樣本不相同,這些置信區間的範圍也不盡相同),那麼有95個置信區間包含了總體參數的真值。
最關鍵的是要理解統計量是隨機變數而總體的參數是一個實實在在的數值
頻率學派下認為,95%置信區間指的是在完全相同的100個平行世界裡作此實驗,平均意義上有95次,未知參數的真實值落在此置信區間內 【1】。
【1】Y. Xue, A Statement at Kitchen When Boiling Instant Noodle at Midnight. Jan. 2016對,就是答主想要的最通俗的舉例~
ps,提前說明,我統計學不好,所以,我給的只是我的理解(但這個理解幫助度過了本科心理統計學、研究森考試、和研究生高級同統計學考試,所以應該也沒大錯~),希望幫助答主有個思路,最主要的是,回歸教材。
假設你叫李三,你開一個豬腳店,你希望知道你每天賣出去多少碗豬腳,一般的思路是說,我記錄30天每天賣多少,然後平均數得到一天賣100碗,ok,任務完成,這就是你想知道的答案。
然而,事實上,由於你樣本量過小或者有極端值等等情況,使得你這個答案,和實際情況不太一致,你準備了100碗,結果今天有110個人來買,找誰哭去? 這個時候,你就想,嗯,我應該指定一個範圍,聰明!統計學家也這樣想,那麼這個範圍怎麼算,就是這裡說的置信區間:
......手機答題公式裡面有希臘字母打不出來求放過的分割線……
如果你豬腳店的均值100,方差30,那麼標準誤就是5.5,這時你的範圍就是100-Za*30/5.5至100+Za*30/5.5之間,這個a就是置信係數,所謂95%的置信區間,就是在正態分布中,這個值是1.96,也就是算出來100-1.96*5.5至100+1.96*5.5之間,也就是89至111之間,嗯,對啦,李老闆你就準備這個數就好啦~
什麼,你說店裡今天賣了112碗,哼,才不是我算錯呢,是因為這個範圍發生的可能性是95%啊,也就是說,出現在這個範圍的可能性並不是100%呢~
李老闆內心os:你tm在逗我?再說這麼大範圍我怎麼備貨?
想把範圍縮小?沒問題,把z變小好啦,不過事先聲明z越小,這個a越小,也就是說,這個範圍發生的概率就小啦~完全可以改,那,發生概率不到30%你不要怪我喲~
綜上,置信區間其實是對真實情況估計的結果。重點是在於這個置信水平,置信水平越大,也就是說越可能包含真實結果,為了保證結果被包含,這個範圍就越寬泛。
那是不是一定要95%?
不絕對,95%只是統計學上的約定俗成。能改,回看上上一段,你要冒著結果並不能大概率正確的風險~我認為應該是沒有理解置信區間的含義。置信區間是說,當你不斷改變樣本的時候,有95%的機會,真實值落在我們的這個置信區間里。而不是僅僅局限在這次抽樣。所以置信區間有意義。
作n次實驗得n個值, 95%置信區間即含其中n*0.95個值
要理解置信區間,首先要理解總體和樣本的關係。統計學本質上是一門研究樣本和總體關係的科學。為了說明白樣本和總體等概念,這裡用一個例子說明。假設一鍋湯是總體,我們為了知道湯的味道,用勺子打了一小勺,這一小勺即是樣本。一小勺能否正確反映出整鍋湯的味道往往取決於湯是否均勻攪拌,放在統計學裡則是有沒有隨機抽樣。
理解了總體和樣本之後,我們來講置信區間。這裡用另外一個例子來幫助理解。假設我們想知道某一個中學男生的平均身高。有兩種方法- 暴力方法:找出該中學的所有男生,記錄他們的身高,求平均值。這種方法雖然準確,單成本巨大,實際上無法操作。
- 統計方法:隨機抽100個男生作為樣本,由這100個男生的身高平均值(估計值)來估算該中學男生的平均身高(真實值)。
用統計方法時,最容易想到是拿這100個男生的身高平均值作為該中學所有男生的身高平均值。但是用一個固定數值來作為推斷結果很容易出錯。況且抽樣樣本不同,所得到的平均身高肯定也會不同。這時候,統計學家們想到了一個狡猾的辦法,就是用一個數值區間來表示推斷結果。一個區間內包含真實值的概率當然大大增加。這裡這個區間即為置信區間。但是因為抽樣不同,我們獲得的置信區間也會不一樣。假設我們抽樣了100次(每一次抽100個男生),那麼我們可以獲得100個不同的置信區間。95%置信區間表示的是,這100個置信區間中,有95個以上的區間包含了該中學男生的平均身高的真實值。
最後在這裡說明一下容易產生的誤區:95%置信區間表示真實值有95%的概率落到當前置信區間之內。這個說法是不準確的,真實值要麼在區間內,要麼不在區間之內。95%的置信區間表示,多次抽樣所得到的多個置信區間里,包含真實值的區間佔比。如下圖所示,豎的虛線代表真實值,橫的實線代表一個一個的置信區間,這25個置信區間中,只有1個(紅色的線)不包含真實值,95%以上區間包含了真實值。關於統計學的書籍:推薦 OpenIntro,這本書寫的蠻通俗易懂的。這個答案部分參考了書中內容。
以下全是個人理解,如有錯誤請指正。95%置信區間驗證的並不是求出的區間有95%的可能包含所要估計參數的值,而是在誤差存在的情況下,我們構建的抽樣方法和統計方法,有95%的可能能夠構建出一個包含參數的區間。本質上說的是統計方法成功的概率,也就是說我們用這種方法抽取不同的樣本,得到的結論可能不同,區間可能有很多,但是有95%的區間都包含參數,也就是成功的可能性為95%。
看大家答的挺high,我也來!
在我看來,題主的問題分為兩部分,一是置信區間,二是為啥這個區間一般取95%.
關於置信區間,每本統計學的書都會講到,也會配上實例,題主可以多體會。這個概念其實可以歸結為常識的數學表達。現實中,如果我們按常理推測有事情不會發生,可惜他確實發生了,那肯定是我們的推理依據錯了。翻譯成數學語言就是,一個小概率事件(發生概率&<1-95%),從統計意義上說(根據過去數據建立的概率模型)不應該發生,結果發生了,那和這個小概率事件等價的命題就很大概率被拒絕(」錯「的,就是我們的經驗不支持這個結論)。
我一般是把這個方法類比為反證法,假設(小概率事件),推導出矛盾(不應該發生卻發生了),那肯定是原假設有問題,不採納。
偏個題, 我特別喜歡拉普拉斯這句話, probability is nothing but common sense reduced to calculation. 統計也一樣,都是一些常識轉換成數學運算,理解它要從常識出發。
第二點,為啥一般取95%,這個數據大概是對應著20次重複,會出現一次小概率事件吧,1/20 說少也不少,我的感覺是這個數值應該是個經驗數值(拍腦袋?),也可能是假設檢驗這套理論建立起來的時代引入的,符合當時的時代要求,具體也沒看到過有講這個的來歷了。不過完全可以不是95%,很多地方就推薦97%, 99%也是有的。那到底應該取多少好呢?這個問題是統計理論本身無法回答的。要按照實際需要來。
舉個例子,一批產品,我們要求要判斷這批產品合不合格,這就是一個假設檢驗的問題。那具體多少不良率才算不合格呢?要知道不良率定的越高,越容易達標,但是殘次品多就賣毀招牌;如果不良率訂低了,產品要返工,增加成本。所以這個不良率肯定是一個折衷,成本和品牌要兼顧。這就不是統計理論的問題了,是對市場的判斷問題。
具體的比如,一般的汽車,我們要求它不出問題的概率 &> 99% 就OK了, 那置信區間可以取99%; 一般電信系統,就是移動聯通用的,行業標準是5個9,可靠率 &> 99.99999%, 因為一般來說同一時間,電信公司要服務成千上萬的用戶,如果一分鐘內有1千萬用戶接入,那掉話的用戶應該 &< 0.0000001*10^8 = 10個,要知道用戶掉話可以去告電信公司的;而最高的標準是航天,可靠性7個9,因為這些東東飛出去了就基本上沒法修了,要是出了問題損失就大了,更不用說如果是載人航天,人命關天。
根據置信區間的定義和構造,95%的置信區間就是構造出來的區間覆蓋真值的概率是95%,注意這裡的區間是個隨機變數,樣本不同就會不同,隨意一個樣本根據已構造的區間估計代入計算,這個區間可能包含真值,也可能不包含,但大量的樣本計算下來,就有95%這麼多的區間包含真值。
這個困惑每個學生都會有,我不做具體的解釋,說一些別的。
我們用局部來估計整體,其實怎麼說都行,反正沒人能真的掌握到整體。那麼如何證明我們估計的正確性,這是統計的底層思想,置信區間就是這種思想的重要組成部分。
換句話說,如果你在學習一本「概率與數理統計」的教材,到了統計部分,請不要用學數學的思想來學習。你現在需要理解的是一套全新的想法,置信區間是這套想法其中一環,整個假設檢驗就是要判定估計的合理性。
如果有機會接觸機器學習的理論,你會知道,同樣是局部估計整體,機器學習使用了另一套檢驗方式,也就是成長函數,那樣又會是另一種思維模式。
再叮囑一次,這不是數學,不要試圖用數學思維去理解它,它並沒有數學般的嚴謹。我從公式推導的視角回答一下這個問題吧。假設總體的平均數已知為μ,標準差為σ,那麼樣本的平均數X服從(0,(X-μ)/σ)的正態分布,這裡X是一個統計量。對於所有可能的X取值而言,有95%滿足公式-1.96&<=(X-μ)/σ&<=1.96 ,對於另外的5%,則不滿足。置信區間的公式為X+-1.96*σ ,即前面公式的變形,完全體為X-1.96*σ&<=μ&<=X+1.96*σ ,所以,僅有95%的X所構造出的置信區間,才包含總體真值,另外5%的X,絕對不滿足此不等式。所以,我們不能說總體參數落入某一構造區間的概率為95%,而應該說,我們有95%的把握,確信總體均值包含在所構造的區間中。
應該比較好理解~推薦閱讀:
※如何運用斷點回歸的方法來檢測數據造假?
※正態分布隨機變數的和還是正態分布嗎?
※醫患糾紛是否降低了從醫意願?
※對於候選人來說,「10 人錄取 1 人」和「100 人錄取 10 人」兩種規則難度一樣嗎?