如何通俗地解釋「置信區間」和「置信水平」?
想做個過度自信的問卷,涉及量置信區間,可是本人真心不懂啊,有大神幫幫忙吧。
從下面幾個方面系統聊下這個問題:
1.為什麼需要置信區間?
2.什麼是置信區間和置信水平?
3.如何計算置信區間?
1.為什麼需要置信區間?
歷史上最早的科學家曾經不承認實驗可以有誤差,認為所有的測量都必須是精確的,把任何誤差都歸於錯誤。後來人們才慢慢意識到誤差永遠存在,而且不可避免。即使實驗條件再精確也無法完全避免隨機干擾的影響,所以做科學實驗往往要測量多次,用取平均值之類的統計手段去得出結果。
多次測量,是一個排除偶然因素的好辦法。國足輸掉比賽之後經常抱怨偶然因素,有時候是因為裁判不公,有時候是因為主力不在,有時候是因為不適應客場氣候,關鍵是如果你經常輸球,我們還是可以得出你是個弱隊的結論。
而國際足聯的世界排名,是根據各國球隊多次比賽的成績採用加權平均的辦法統計出來的,這個排名比一兩次比賽的勝負,甚至世界盃賽的名次更能說明球隊的實力。但即便如此,我們也不能說國際足聯的排名就是各個球隊的「真實實力」。這是因為各隊畢竟只進行了有限次數的比賽,再好的統計手段,也不可能把所有的偶然因素全部排出。
所以,在科學實驗中總是會在測量結果上加一個誤差範圍。比如經過測量馬雲的智商是100,測量誤差是±5。
這句話的意思是說,馬雲智商是100,但其中有正負5的統計誤差,所以馬雲的智商範圍就是[100-5,100+5]這麼一個範圍。
真實的智商值當然只有一個,但是這個數是多少,我們不知道,它可以是這個誤差範圍內的任何一個數字。
考試成績也如此,假設一個同學考了兩次才過英語四級,第一次53分,第二次63分。他說這是略有進步,我說你這不叫進步,叫都在測量誤差範圍之內。
在股票市場經常會看到有人為了短期的股價上漲而興奮不已,卻又對短期的股價下跌徹夜難眠。其實這都是因為不理解誤差範圍導致的。
想想,如果這些人真的具備了誤差的概率,就會忽略誤差範圍內的任何波動。如果你投資的這家公司在未來10年有足夠的成長空間,那麼你就會忽略掉這10年期間它股價暫時的波動,因為你看到的是長期,只要長期在你預期的誤差範圍內就可以接受。
這裡的誤差範圍(區間)在統計概率中就叫做置信區間。簡單來說,置信區間就是誤差範圍。
2.什麼是置信區間和置信水平?
在之前我在「統計概率與投資」的課程中有講到過到如何用樣本估計總體。社群會員就問了我一個問題:在抽樣調查中,樣本能在多大程度上代表總體?有沒有公式來表示?
其實這個問題的本質就是想知道數據統計的誤差範圍是多少。在統計概率中有個專門的名稱來表示誤差範圍,叫置信區間。
比如我用一定量的樣本數據估計出全體知乎用戶的平均年齡為28歲。
如果你收集了另外一組樣本,其平均年齡為35歲,是否能判斷我前面的估計是錯誤的呢?
因為我們沒辦法知道總體平均數的真實數值,所以,我們需要給出一個誤差範圍來描述這個估計的準確程度。
如果你已經知道什麼是中心極限定理(猴子:怎樣理解和區分中心極限定理與大數定律?),就會知道:樣本圍繞在總體平均值周圍呈現正態分布。所以下圖中中間紅色線是總體平均值。
(如果不懂正態分布,看這裡:猴子:怎樣用通俗易懂的文字解釋正態分布及其意義?)
我們用中括弧[a,b]表示樣本估計總體平均值的誤差範圍的區間,由於a和b的確切數值取決於你希望自己對於「該區間包含總體均值」這一結果具有的可信程度,因此,[a,b]被稱為置信區間。
同時,我們選擇這個置信區間,目的是為了為了讓「a和b之間包含總體平均值」這一結果具有特定的概率,這個概率就是置信水平。
假設我設定的置信水平是95%,也就是說如果我做100次抽樣,會有95個置信區間包含了總體平均值。
3.如何計算置信區間?
其實,任何的統計概率知識都沒有那麼高大上,同樣的,計算置信區間也是一種套路。如果你學會學會下面我介紹的計算置信區間的4個步驟,你也可以輕鬆計算出置信水平。
第1步:確定要求解的問題是什麼
假設我是醫院的數據分析師,想知道新藥物A對神經的反應時間。因此,需要為總體平均值構建一個置信區間。這決定了我需要抽取一個合適的樣本。通過樣本的數據來估計出總體的數據
第2步:求樣本的平均值和標準誤差
當樣本大小大於30時,抽取的樣本符合中心極限定理。
為了應用中心極限定理,我們後面所指的樣本大小都是大於30的。
為了用樣本估計出總體的平均值,也就是新葯對神經的平均反應時間。我找來100隻老鼠作為樣本來做實驗,對每隻老鼠都注射了藥物A,對其進行神經刺激,並記錄反應時間。最後得到平均反應時間是1.05秒。樣本標準差是0.5秒。
根據中心極限定理,我可以用樣本平均值估計出總體平均值也是1.05秒。
當我興高采烈的把這個結果告訴老闆,老闆為了驗證我數據的準確性,又找人重複了我的實驗,發現樣本的平均反應時間是1秒。發現與我給的數據不一樣,是不是我的數據出錯了呢?
其實,是我一開始給老闆的數據信息是不準確的,沒有給出數據的誤差範圍。為了計算出誤差範圍,我需要先計算出標準誤差。
標準誤差SE等於樣本標準差除以n的開方。最後算出標準誤差等於0.05秒。
第3步:確定置信水平
那麼由誰來決定置信水平?多大的置信水平才合適?
答案完全取決於你的具體情況以及你需要對「區間中包含總體平均值」這一說法有多大信心。
關鍵是記住一點:置信水平越高,區間越寬,置信區間包含總體平均值統計量的概率越大。
常用的置信水平是95%。其實,這個數字並不是必然的,而是人為設定的。
那麼置信區間為什麼通常是95%呢?
下面圖中是中心極限定理的樣本平均值概率圖。這個圖在後面一直會用到,這裡再重點介紹下這個圖。
圖中橫軸是樣本平均值從小到大,縱軸是樣本平均值對應的概率。根據中心極限定理,我們知道不管總體是什麼分布,任意一個總體的樣本平均值都會圍繞在總體的平均值周圍,並且呈正態分布。
所以圖中的中間位置紅色線是總體平均值。
而有95%的樣本均值會落在2個標準誤差範圍內,這也是為什麼會選擇95%作為置信區間的原因。
(置信水平的設定是有影響的——如果我們對置信水平要求過高,我們可能會拒絕實際上是正確的理論(犯了I類錯誤);
如果我們對置信水平要求過低,我們可能會接受錯誤的理論(犯了II類錯誤)。
並沒有一個萬全之策能夠讓犯兩種錯誤的可能性同時降低,我們必須做出選擇。鑒於我們更加不喜歡犯II類錯誤,所以我們習慣於把置信水平設置在高水平。)
第4步:求出置信區間上下限的值
現在我們來求置信區間[a,b]的上限a和下限b的值。
我們如果能計算出a離總體平均值多少個標準誤差,那麼我們就可以知道a的值了。為什麼這麼說呢?
假設a離總體平均值2個標準誤差,那麼a=總體平均值-2個標準誤差
同樣的,根據根據正態分布的對稱性,我們就可以知道b的值,也就是b=總體平均值+2個標準誤差
這裡距離平均值幾個標準誤差,就是我之前聊過的標準分(猴子:有了方差為什麼需要標準差?)。所以,現在問題變的很簡單了,只要我們求出a對應的標準分是多少就可以了。
我們用Z來表示幾個標準誤差,就是Z乘以標準誤差。下面我們看下如何計算出標準分z的值。
現在我們知道,下圖中陰影部分,也就是置信區間a和b包括的概率是置信水平95%,
由於整個概率的和是1,所以我們可以知道圖中兩塊紅色區域的概率相加是1-95%=5%,而兩端是對稱的,所以每塊紅色區域的概率是2.5%
也就是概率P(Z& z表格也叫標準正態分布表,它是標準正態分布中,標準分與概率數值的對應關係表。這個表格就是在你知道表標準分的情況下,可以快速查找到對應的概率值。 同樣的反過來,你知道概率值,也可以查找到對應的標準分z是多少。 現在我們已經知道了概率值是2.5%,那麼就是查找對應的標準分z是多少呢? 在表格中我們查找到概率值2.5%對應的最左邊第一列的值是-1.9,對應的最上邊第一行的值是0.06。
根據Z表格給出的是小於標準分z的概率,也就是p(Z&
Z=-1.96表示距離總體平均值左邊1.96個標準誤差,所以是負數。而b在總體平均值右邊,所以z是正數,也是1.96個標準誤差。所以,這裡的z就是1.96:
a=總體平均值-1.96*標準誤差
b=總體平均值+1.96*標準誤差
而之前我們已經求得標準誤差,那麼總體平均值是多少呢?
根據中心極限定理,樣本平均值約等於總體平均值,所以我們可以得到下面圖片中置信區間的一般表達方式。
我們總結下前面計算的過程,你就更容易理解了。
第1步,我們根據置信水平,知道了概率值,並查找z表格得到了對應的z值
其實常用的置信水平對應的z值我已經放在圖中了,你直接就可以套用。比如置信水平90%對應的z值是1.64,95%的置信水平對應的z值是1.96
第2步,我們計算a和b 的值
a=樣本平均值-z*標準誤差
b=樣本平均值+z*標準誤差
既然只要在簡便演算法中帶入數值就行,為什麼講那麼多步驟呢?
講這些步驟是為了讓你看清楚問題實質,理解置信區間的構建過程。大多數時候,你只要帶入數值就行了。
下面圖片我們將這個置信區間的公式帶入我們前面老鼠實驗藥物的例子中,就可以得到下圖中的置信區間:
前面我已經詳細解釋了計算置信區間的4個步驟,你也已經理解了。現在我們來總結下計算置信區間的4個步驟,你會發現這比你想像中簡單很多。
1. 確定要求解的問題是什麼
比如我們想要通過樣本來估計總體的平均值
2.求樣本的平均值和標準誤差
第3步:確定置信水平
常用的置信水平是95%,因為這樣可以保證樣本的平均值會落在總體平均值2個標準誤差範圍內
3.查找z表格,求z值
如果你的置信水平是圖中的95%,可以直接獲取到對應的z值
4.計算置信區間
a=樣本平均值- z*標準誤差
b=樣本平均值+ z*標準誤差
4. 一句話總結前面的知識
如果你看統計概率方面的書,很多書中也會有講T分布下的置信區間計算,也就是當樣本數量小於30時,樣本分布符合T分布。這裡我不準備聊這個知識,因為太多會讓你大腦內存溢出。
你只需要記住有這麼個T分布,當你拿到的數據樣本不足30時,才會用到它。
大部分情況下,我們是可以獲取到大於30的樣本,這時候樣本平均值是符合正態分布的,用我聊的步驟來計算就可以了。
置信區間是我們所計算出的變數存在的範圍,置信水平就是我們對於這個數值存在於我們計算出的這個範圍的可信程度。舉例來講,有百分之九十五的把握,真正的數值在我們所計算出的範圍里。在這裡,百分之九十五九十置信水平,而我們計算出的範圍,就是置信區間。
如果置信度為95%,抽樣100次,得到100個置信區間,大約95個置信區間能覆蓋到真實參數βk 實質就是隨機區間(參考於計量經濟學及stata應用 陳強)
推薦閱讀:
※「二叉樹可以解決什麼問題」?
※數據結構公開課學伯克利的CS 61B好還是清華鄧俊輝的mooc公開課好呢?
※如何處理十萬級別的數據信息?
※一個程序員會遇到多少關於數據結構與演算法的需求?
※有沒有一種數據結構,查找、刪除和插入效率都比較高呢?