如何理解置信度？

11-26

常見的95%置信度，該如何理解呢？

謝邀，這個是在接觸統計學的時候非常容易把自己思路弄亂的問題，很抱歉這麼晚才來回答。
確實如 apple 的第三點所說，那是正確的置信度的解釋，但為了在之後的時間也能更好地理解置信度的概念，想先把統計學的基本原理講清楚。
要理解置信度，就要理解好置信區間。
要理解置信區間，就要從統計學最基本最核心的思想去思考，那就是
用樣本估計總體。
在統計學中，非常容易把概念模糊化，很容易把95%置信區間理解成為在這個區間內有95%的概率包含真值。
但是這裡有兩個容易混淆的地方
1.真值只得是樣本參數還是總體參數？
這個問題的答案是總體參數，我們取的數據是樣本數據，點估計是樣本參數的真實值，我們要估計總體參數。
2.95%的概率，變動的是誰？
在以後不常溫習的情況下，這個問題容易造成困擾。這裡95%的概率，變動的是置信區間。非常難以理解，用圖來闡述一下：

錯誤理解：上圖淺色的虛的豎直線代表樣本參數真值，橫的兩端有端點的代表95%置信度的置信區間，100條豎直線里有95條左右落入這個區間內。
這是非常錯誤的理解，樣本與總體的關係沒有思考清楚。置信區間是估測總體參數的真值，這個值只有一個，且不會變動。

下圖為正確理解：

樣本數目不變的情況下，做一百次試驗，有95個置信區間包含了總體真值。置信度為95%
其中大虛線表示總體參數真值，是我們所不知道的想要估計的值。正因為在100個置信區間里有95個置信區間包括了真實值，所以當我們只做了一次置信區間時，我們也認為這個區間是可信的，是包含了總體參數真實值的。這樣應該就能很好地理解了，遇到統計上的困惑時，多思考用樣本估計總體這個核心思想，很多就能迎刃而解。

置信區間是頻率學派的理論
簡單來說，我們需要估計一個參數 $heta$ ，手頭有很多數據 $x_{1}, x_{2}, ldots, x_{n}$ ，構造好了某個公式，用這些數據算出來 $heta$ 的一個置信區間。
要著重強調的一點是：求置信區間的公式只會與樣本有關，與 $heta$ 是無關的！
也就是說，我們獲得了一組樣本，算出來置信區間；再換一組樣本，算出來的置信區間是不一樣的。
在這裡， $heta$ 是不動的，動的是置信區間。
置信度指的是：如果我們不厭其煩地抽樣本算區間，得到了很多很多置信區間。那麼在這些置信區間中，有95%的置信區間能覆蓋到 $heta$

至於說Bayes學派，另外有一個信仰區間。信仰區間只需要求一個，這個區間有95%的概率包含真值。

以均值估計為例，從假設檢驗的角度可以這麼想：
我根據抽樣樣本計算出了樣本的算數平均數，並且我根據概率分布函數計算出，在原假設為真的情況下，「我能夠計算出這個樣本算數平均數」這件事情發生的概率是p。
很明顯，當p大時，說明原假設比較更可能是真的，而如果p小，則說明原假設更可能不對。
出於審慎，我們一般不斷言原假設為「真」，而是去斷言原假設「假」或者「不假」(即：拒絕/不拒絕原假設)。因此，即使p比較大，比如達到50％，我們也不敢說原假設就是真的，但是如果p特別小，我們就可以說，在「一定程度」上，我們認定原假設是假的。
那麼p要小到多小我們才敢說在一定程度上原假設是假的呢？這個「一定程度」是多少呢？
其實選取這個標準的過程，就是確定置信度的過程。這個「一定程度」就是置信度，所以我們可以說「在95％的置信度下，我們可以拒絕/不能拒絕原假設」。而當我們把置信度定為95％的時候，p值小於0.05則為「拒絕原假設」

補充：看見有些人提了貝葉斯學派中的概念，兩者極其相像但是有著本質不同的統計學意義。建議樓主暫時別去深究，先把「置信區間」搞得爛熟於心，再去討論兩者異同。

1.首先統計是為了什麼？
為了用測量值估計總體的真實值。
2.舉個例子，你打槍打10次，你可以得到一個平均值，比如是8.那麼我問你，總體的期望是不是就是8呢？你要說是，那就太草率了吧，因為你再打10次可能就是7了，那麼總體的期望就變成7了嘛？當然不是，總體的期望是客觀存在不會變的。實際上均值等於期望的概率是0啊。式（2）
所以說，以點估點是不準確的。
但是既然樣本是從總體中抽出來的，那麼樣本的均值和總體的期望應該差的不遠吧？你射擊的均值是8，總體的期望總不能是1吧？他們做差的話，應該是介於某個小的值之間的吧。如式（3）
置信度就是說，你測得的均值，和總體真實情況的差距小於這個給定的值的概率，應該是1-α，如式(4)，換句話說，我們有1-α的信心認為，你測得的這個均值和總體的實際期望很接近了。（說你測得的均值就是總體期望是很草率的，但是說，我有95%的把握認為我測得的均值，非常接近總體的期望了，聽起來就靠譜的多）

@鄒日佳寫的非常清楚了。這裡補充個論據，以下文字引用自《計量經濟學導論》的數理統計基礎，回答置信區間是幹什麼的：

通過構造置信區間(confidence interval)，可以告訴我們總體值很可能落在相對於估計值的什麼地方，因而克服了點估計的缺陷。下面是應用置信區間的一個例子：
假定總體服從 $Normal(1,mu)$ 的分布，並令 ${Y_1,Y_2,...,Y_n}$ 是來自這個總體的一個隨機樣本。樣本均值 $ar{Y}$ 服從一個均值為 $mu$ 和方差為 $1/n$ 的分布： $ar{Y}sim Normal(mu,1/n)$ 。進而有：
$P(ar{Y}-1,96/sqrt{n}<ar{mu}<ar{Y}+1,96/sqrt{n})=0.95$
也就是說，隨機區間 $(ar{Y}-1,96/sqrt{n},ar{Y}+1,96/sqrt{n})$ 包含總體均值的概率是0.95，這是一個隨機區間，因為端點隨不同的樣本而改變，在抽取樣本之前，它有95%的機會可以包含 $mu$ 。注意，我們只能說利用所有隨機樣本構造這樣的置信區間，其中有95%將包含 $mu$ ，而對於某一個確定的樣本， $mu$ 是否落在其中是確定的，雖然我們可能永遠不知道這個量。

比如調查會員滿意度，結果是滿意度為80%，誤差為正負5%，置信度是95%。這一結果意味著3點：
1）樣本中的滿意度是80%，這是用樣本對總體的點估計
2）點估計的範圍是區間（75%，85%）
3）如果用類似的方法，重複抽取大量（樣本量相同）樣本時，產生的大量類似區間中有些會覆蓋真正的總體參數值（即總體滿意度），而有些不會，但其中大約有95%會覆蓋真正的總體參數值。

建議Google一下「參數估計」，我看完這本書裡邊描述的點估計和區間估計後，就完全明白了，地址： https://goo.gl/xCxvMs （可能需要翻牆）。

另外，在之前看答案時我心中總有個疑問，比如@apple，他說

如果用類似的方法，重複抽取大量（樣本量相同）樣本時，產生的大量類似區間中有些會覆蓋真正的總體參數值（即總體滿意度），而有些不會，但其中大約有95%會覆蓋真正的總體參數值。

通過樣本想要估計的總體真值（總體參數值）其實是一個未知的值，我們通過樣本計算出的區間，如何確定是否包括了總體真值呢？

解答這個問題請大家看以下文字：

（圖片出自《統計學》—作者：賈俊平）說白了，其實還是統計學意義上概率的估計。

並不能說95%的可能性總體均值會落在［a, b]之間，這是典型的錯誤理解。正如前面知友所說，總體的平均值儘管未知，但是是確定的，不存在它有多大概率（95%）落在某一區間的說法，或者說它其實是以100%的概率位於某點處，只是我們不知道該點是多少，於是我們需要去估計一個區間。根據中心極限定理，若總體服從正態分布N(u,v)，則樣本大小為n的抽樣的均值 X_bar 服從N(u,v/n)，也就是說樣本均值本身也是一個隨機變數，這個隨機變數圍繞u, 即圍繞總體的均值(未知）分布，方差為v/n. 樣本均值本身就具有很大的不確定性，因此如果用樣本均值來估計總體的真實期望u, 除非樣本大小n很大，否則準確性難以評估。因此我們要用到置信區間。那麼是不是說某個樣本算出來的置信區間一定是好的置信區間呢，當然不是，我們說他有95%的概率是好的，好的意思是並不是說總體均值有95%概率落在該區間裡面，而是說假設我們抽樣無窮多次，那麼95%的抽樣算出來的置信區間包含真實均值（好的），另有5%的區間不包含（當然實際中置信區間沒有好壞之說，只是做一個比喻）。哪些實驗結果屬於那95%是隨機的。因此我們自然也不確定某一次具體的抽樣算出來的置信區間是否一定包含真實值，但在實際中我們接受它，認為它包含真實值，在這種情況下，我們犯錯的概率僅為5%（我們認為包含但實際上不包含），我們接受這個犯錯概率。換句話說，某一次抽樣試驗得到的置信區間犯錯（不包含真實值）的概率僅為5%，符合我們預先設置的底線(顯著水平，也是容許犯一類錯誤的底線a=5%)。這樣理解可能會比簡單的一句我們確定這個算出來的樣本置信區間有95%的可能性包含總體均值更具體吧。一句話總結，統計充滿了不確定性，不要奢望100%確定，要容許犯錯的可能（聯繫兩類錯誤類型）。

我們想了解總體的平均值，會抽出一個樣本，用樣本的平均值來估計總體的平均值，我們得到的結果15±3 ,95%的置信水平。這句話的意思是，用我們這種抽樣方法95%的情況會得到正確的結果，95%的可能性總體平均值會落在12--18之間。

就是用來評價一個平均值有多靠譜。
就拿網上經常調侃統計局的一個段子來說：一個千萬富翁，周圍住9個窮光蛋，平均下來10個人是百萬富翁。這就很荒唐了。那麼怎麼看一個平均值是靠譜還是荒唐，就用置信度（也有叫95%置信上限）看

對於置信區間，這其實是因為抽樣誤差決定的，因為樣本不能完全代表總體，確定的樣本的參數不等同於總體參數，因此，當根據一個樣本估計總體時，要有一個範圍去評估。置信區間說的是，根據樣本參數如均值和標準差，確定一個範圍保證它有95%的可能性包含總體參數，這個範圍就是置信區間，就是說我提供的這個區間，有95%的把握我能說它包含了總體參數。

置信區間應該是frequentest的說法，說的是一個cover的概率，我的區間95%可能cover了我們的parameter。不能解釋為，我們的parameter有95%的可能落在這個區間。此中有一點微妙的區別，有興趣的話，我們下回分解。

就是這麼簡單粗暴，參考書

我學統計的，然後我每次算置信區間都會哭

關於這個問題建議去看網易公開課裡邊可汗學院的統計學課程保證可以看懂因為看了那麼多資料最終我是在可汗學院看懂的

對於置信度的應用方面，我的理解是，通過抽樣得到一個模型，該模型用於其他地方，95%有效。置信度是一個模型魯棒性的體現。