P值與α值的關係?
P值(P value)就是當原假設為真時所得到的樣本觀察結果或更極端結果出現的概率。
α值是一個臨界概率值。它表示在「統計假設檢驗」中,用樣本資料推斷總體時,犯拒絕「假設」錯誤的可能性大小。α越小,犯拒絕「假設」的錯誤可能性越小。這兩句話,沒有很好地理解,求解釋,
P是「拒絕原假設時犯錯誤概率」又或者說是「如果你拒絕掉原假設實際上是在冤枉好人的概率」。
不管怎麼表達理解上都有點繞,所以你還是看例子吧。比如你做一個假設( null hypothesis):你的女性朋友平均身高2米,輸入你統計的樣本數據後,計算機給你返回的p值是0.03。這意味著如果你拒絕「女性朋友平均身高2米」這個結論,犯錯的概率是0.03,小於0.05(人們一般認為拒絕一句話時犯錯概率小於0.05就可以放心大膽地拒絕了),這個時候你就可以拒絕原假設。如果計算機返回p值是0.9,那麼你就會想,這說明拒絕原假設犯錯概率高達90%,那麼我就不應該拒絕原假設,即你應該認為你的女性朋友平均身高就是2米。
至於什麼是alpha呢,上面例子中0.05這個標準就是alpha值,這個標準是可以你自己人為改變的。
==========================以下是補充內容===========================
評論中有位朋友問了一個問題
這個問題一點也不笨,相反這是個極好的問題,因為它很容易跟統計中的第一類錯誤、第二類錯誤混淆在一起(我就混淆過),在此專門補充回答一下。@恪寒
先上答案,拒絕原假設犯錯的概率=接受原假設正確的概率。
還是舉上面的那個例子,原假設為女性朋友身高平均值2米,取了若干個樣本後測量出樣本的平均值為1.6,經過計算(計算過程非常簡單,如果總體的方差已知就用Z檢驗,如果總體的方差未知就用樣本方差替代然後用t檢驗,每本統計書上都有不贅述),在我們設定alpha為0.05時,置信區間為1.8到2.2,咱們取的樣本均值1.6不在這個範圍內,所以拒絕。
「拒絕原假設犯錯的概率」是在說什麼呢,它是在說,我們假設女孩子們身高均值為2米,計算出來的均值為1.6,跟原假設差距很大,這時候我們拒絕原假設「身高為2米」,我們拒絕這個不靠譜假設時可能犯錯的概率&<=0.05。
「接受原假設正確的概率」是在說什麼呢,它是在說,我們假設女孩子們身高均值為2米,計算出來的均值為1.6,跟原假設差距很大,但我們還是堅持認為原假設「身高為2米,我們堅持這個不靠譜假設時可能正確的概率&<=0.05。
看到這裡應該所有人都能明白了,「拒絕不靠譜原假設時犯錯的概率」跟「接受不靠譜原假設時正確的概率」是一致的。講過例子之後可以發現,在原話中加上「不靠譜」三個字,有助於我們的理解。
既然都辛辛苦苦舉了個例子出來了,我們不妨利用這個例子說點更深刻的內容。
前面加粗部分內容是所有統計學學生用紙、筆和一張統計分布表可以得出的結論。
如果這位統計學學生還有一台計算機,裡面恰好裝了spss之類的統計軟體,那麼在他把樣本輸入之後,按下確認鍵,計算機不光會算出1.8到2.2這樣一個置信區間,還會給出一個「該樣本均值對應的p值=0.03」。這個p值是什麼呢?
在此我引用一段過去看到過的一個解釋,我不知道出處是誰,但說得相當簡練精彩,不敢竊美,原話摘錄在此:
看懂了什麼是p值,咱們再回到原來的例子中理解一下。樣本均值1.6對應的p值為0.03是什麼意思?這是指,在假設全體女孩身高為2米的情況下,咱們隨機抽取到一些樣本得出均值為1.6米或比1.6米更極端的數值的可能性為0.03,在原假設下抽到這樣樣本的概率太低了,而我們卻十分稀罕地居然一下就抽到了這樣的樣本,那麼正常人的第一反應就是,咱們原先假設身高均值為2米這個假設不對。用統計學的話來說就叫做「由於樣本均值落在拒絕域中,所以拒絕原假設」。
可見,p值是在精確的算出一個取樣的稀罕程度。alpha值是事先給出了一個對樣本稀罕程度的判斷,這個值是可以主觀去改變的,你可以認為取到樣本均值的可能性為0.2或更低就很極端從而拒絕,也可以認為取到樣本均值的可能性為0.001或更低才拒絕。一般認為樣本稀罕到可能取到的概率&<=0.05時,咱們就認為原假設不靠譜。
===========================題外話================================
最後我想說點題外的,我對這個問題的初答是在4個月前寫下的,驚奇地發現有不少贊,可見通俗易懂的解答還是受歡迎的,這鼓勵我更多地思考這個問題並繼續提供一些通俗的理解。我想這也是知乎存在的意義,讓學問變得接地氣。有個朋友在他的回答中一上來就說高贊的答案是錯的,之後複製黏貼了一堆晦澀難懂,看似高大上的圖文。這位朋友我就勸你回去多翻翻課本,我要是願意可以揪住你的答案里為數不多幾句自己寫的話啪啪啪啪把你的臉打出花來。多看書,少裝逼。
這裡摘錄從另一篇知乎上看來的文字
(來自:有哪些相見恨晚的高效學習方法? - 知乎專欄)
「考量自己對一個概念或知識是否理解,一個最直觀的方法就是講給別人聽,如果能夠用簡潔清晰的語言讓別人完全聽懂你在說什麼,就證明你完全了解所學的概念;如果不能,也許你還應該好好去理解一番才行。」
所謂顯著性水平α,即當原假設為真時,拒絕原假設的概率,就是棄真錯誤的概率。
在假設檢驗中,我們往往不能直接證明備擇假設,即所謂的全稱命題只能被否證而不能被證明。所以我們需要去否證(拒絕)原假設。
原假設和備擇假設的地位其實不同,原假設是我們要反對的,同時他又是受保護的,我們必須要有足夠的證據才能拒絕他。
首先,我們有一個原則:在控制犯第一類錯誤(棄真)的概率α的條件下,盡量使犯第二類錯誤(取偽)的概率β小。根據這一原則,在假設檢驗中,我們更加傾向於拒絕原假設,而不是接受原假設。實際上,原假設是要受保護的,這意味著要推翻原假設需要很充分的證據。我們必須需要找到足夠多的證據去拒絕他,當拒絕他的證據不夠時,我們都不能說接受原假設,只能說「沒有足夠的證據證明原假設可以拒絕」,或者更嚴格地說「在顯著性水平α下沒有發現足夠的證據反對原假設」。我們不能輕易地放棄原假設是正確的這一判斷,於是我們設置了顯著性水平,即我們可以容忍的一個概率,什麼概率?當原假設為真時,拒絕他的概率。一般我們取0.05(抑或是0.01、0.1),在這種情況下,根據小概率原理,在一次實驗中,我們認為拒絕一個正確的原假設是不可能發生的。
這時候再來解釋p值,α是我們給p值設置的上限。p值怎麼求?我們根據實際情況,確定統計量,然後求出z值(或t值),並且查表,p值=(1-查表結果)×2【雙尾的話要乘以2】。所以p值是什麼意思?P值是指當原假設為真時所得到的觀察結果或更為極端結果出現的概率,他反映了一種實際的風險,原假設為真時的真實風險,按我的簡單的理解,他就是實際上的我們拒絕了一個正確的原假設的概率(落入了拒絕域的概率),如果p值比α小,我們就接受「拒絕原假設」。p值越小,拒絕原假設的理由就越充分。
圖為雙側檢驗:圖為(左)單側檢驗:
沒有談及統計學的派別之爭,就教材而談,還需要學習,悶聲發大財。高票的那個答案並不正確:我們通常說「拒絕原假設時犯錯」是第一類錯誤(棄真錯誤),只取決於拒絕域,是一個平均含義,這個概率是不依賴於樣本的,我們無法通過一個樣本知道拒絕原假設犯錯的概率。是一個依賴於樣本的統計量,描述的是原假設為真的前提下,出現與樣本相同或者更極端情況的概率。二者不應該直接劃等號。
首先,給幾個常見的表述:
(0)是指第一類錯誤發生的概率(嚴格說來,分為真實水平level和水平size,大概了解的話不用嚴加區分,可以直接認為是真實水平level),就是原假設為真的情況下,拒絕了原假設的概率。這是一個值,給定之後,拒絕域也就相應的確定了。(1)是一個檢驗統計量,而不是我們平常概念中的一個值---------通俗的解釋:p值不是一個我們平時說的固定的數值,而是一個與樣本有關的值(可以理解為樣本的一個函數,也就是一個統計量)(2)是在原假設成立的前提下,出現與樣本相同或者更極端的情況的概率
----------通俗的解釋:比如有枚硬幣,你認為它是均勻的(原假設),你連續拋了5次,4次是正面,那麼p值是多少呢? 首先,前提是原假設(硬幣均勻)是成立的,也就是每次出現正面的可能性都是0.5。那麼什麼又叫與樣本相同或者更極端呢?我重新拋五次,如果又是4次正面就是與樣本相同,如果出現了5次就是更極端。 所以, ,這裡,Y表示投擲五次出現正面的次數,表示每次出現正面的概率。(3)是一個建立在原假設的上的均勻分布(嚴格說來是隨機大於等於均勻分布)----------通俗的解釋:,這也是最原始的定義,比較晦澀,可以略過維基百科的圖例對它進行了很好的闡述:p-value - Wikipedia
----------------------------------------------------------------------------------------------------------------------------------
所以,二者的關係是:
和拒絕域是相輔相成的,給定顯著性水平後,就等於給定了拒絕域,這個過程是不依賴於樣本的。而是一個依賴於樣本的量,其值是由樣本決定的,通過觀測樣本算得,而後就可以判斷樣本是否落在拒絕域內(p小於alpha時落在拒絕域內部),如果落在拒絕域則拒絕原假設。
我的理解是p值也是一個alpha值(通常是p和alpha比較而已),p是用樣本拒絕原假設的那個最小alpha值。
我覺得可以這麼理解,埃爾法是理論上要求的p是實際上得出的。如果實際結果比理論更寬鬆則可以接受
首先談一下P-value出現的背景。在原始的假設檢驗中,我們沒有使用P值,而是用計算棄卻域及臨界值並判斷檢驗值是否在棄卻域區間來進行判斷是否拒絕原假設。也就是根據計算樣本統計量的方式然後去相應的表中找到對應的數值,然後跟顯著水平對應的數值的橫坐標進行比較,如果該數值在顯著水平對應界限的左側或右側(根據具體情況而定),那麼就拒絕當前H0。但是這種方法有很大的不足,即無法評估鑒定結果的顯著程度。也就是說,當檢定統計量落於棄卻域時,我們無法評估樣本資料與原假設不符合的程度有多嚴重。
在此基礎之上,引入了P值來代替了上述複雜的過程,只要我們的P值對應的區域,在顯著水平對應的區域之內,就可以拒絕原假設。P值也是評估樣本資料與原假設之間不符合程度的一個指標,當它為0時對拒絕原假設有較強的證據。本質上他就是根據樣本資料算出來的顯著水平(相當於 ),也就是樣本發生型一誤差的概率 (型一誤差:原假設為正確的,卻把原假設拒絕了)。我們拒絕原假設的定義就是樣本落在阿爾法對應的區域之中,也就是說當樣本資料算出來的顯著水平小於設定的α值時,應該拒絕原假設。
手機打字。我覺得不用去理解這兩句話,p值任何一個統計軟體都會給你,這個值越小越好,比阿爾法小就行。阿爾法越小,拒絕域越小,落在拒絕域,拒絕原假設,就好了……
P=1-a
可不可以認為α是在原假設成立的情況下,我能接受的極端事件發生的最小的概率。如果極端事件發生的概率(也就是p值)為α或大於α,我就認為一切正常,在原假設成立的情況下出現這種情況沒有問題。但是如果p值比α小的話,我就認為這種概率過於小了,比我能接受的最小概率還小,我就可以懷疑原假設是有問題的。也就是說極端情況發生的概率可以是α或比α大,但是要是比α小的話我就覺得有點不可思議了。
個人理解,p值是在假設成立的前提下,拒絕原假設後出錯的概率。這是一個條件概率。
推薦閱讀:
※一條長度為一的線段隨機分成五份,其中至少有一份>四分之一的幾率是多少?
※人類行為服從的冪律分布是否違背了中心極限定理?
※概率論問題:邏輯上說不通?
※如足夠久,180萬隻猴子能不能敲出莎士比亞全集?
※從第一個人開始,三個人輪流扔一個六面骰子,三個人率先扔出6的概率分別是多少?