假設檢驗 P 值小於 0.05 的結果就一定好嗎?

今天看到一句話:「任何研究,只要樣本量足夠大,數據出現一點點差異結果都是有統計學意義的。」

這話是沒錯的,那麼在這種情況下,怎麼更加合理地去評價研究結果呢?

舉個例子吧。

從之前使用同種學習方法的學生中選取兩組學生(兩組同質性未定義),用方法A和方法B分別嘗試提高學生數學成績,進行自身對照,實施後,兩組數據服從正態分布,使用 A 方法得到的學生成績與使用之前比較得到的 t 值的 P 值為0.02,而相應地使用 B 方法的 t 值 P 值是0.20,那麼就一定是A方法好嗎?

又如果,這是兩項同類研究,使用 A 方法的樣本量是100,使用 B 方法的樣本量是25,與學生原始成績比較,A 的平均提高值是 4分,B 的是 10分,還是 A 方法好嗎?


假設檢驗的意義主要是確認結論(在統計學意義下的)正確性。0.05這個閾值只是一個慣例,物理學中就要求5 sigma (p-value=0.00006%)才能被認可,臨床醫學/新葯開發中也都要求p值很小。

如果想要得到更容易解釋的結果,置信區間可能是一個更好的選擇。以題目中的例子,使用A方法提高的分數的97.5%置信區間為(1,3), 使用B方法提高分數的97.5%置信區間為(-1, 0.5), 那麼我們可以在5%的置信水平上認為A比B好;如果B方法的置信區間是(-1, 11), 那麼我們無法確定哪種方法更好。也許B方法更好,但我們並沒有足夠的樣本來驗證,也可能是B方法只適用於部分學生,方差較大。


比如用方法A和方法B分別嘗試提高學生數學成績,實施後,A方法P值0.02,B方法P值0.20,那麼就一定是A方法好嗎?如果我再提供,A的樣本量是100,B的樣本量是25,A的平均提高值是4分,B的是10分,還是A方法好嗎?

——大錯特錯,沒有這樣比的。兩種方法的效果只能比效應量。樣本量和p值,這些是研究設計的問題,和研究課題本身沒有直接關係。

補充:那麼 p 值有什麼用呢?用來判斷它對應的那個效應量是不是隨機出現的。如果效應量是隨機的(也就是不能拒絕虛無假設),那麼這個效應量就不能用;如果效應量不是隨機的(也就是拒絕虛無假設),那麼這個效應量就可以用。如果兩個效應量都不是隨機的,那麼就可以比較兩個效應量了。也就是說 p 值只能用於和先驗決定的 alpha 比較大小,不能再用於其它用途。兩個不同效應量一般用 Cohen"s D 來比較。


推薦這篇文章:

The Difference Between 「Signi?cant」 and 「Not Signi?cant」 is not Itself Statistically Signi?cant

http://www.stat.columbia.edu/~gelman/research/published/signif4.pdf

從裡面摘兩段,我覺得用來回答lz的兩個問題很妥當。

  1. by now practically all introductory texts point out that statistical signi?cance does not equal practical importance.

  2. In making a comparison between two treatments, one should look at the statistical signi?cance of the difference rather than the difference between their signi?cance levels.


提問者應該是在醫學統計學的背景下考慮這個問題的吧?

  1. 不是所有假設檢驗的檢驗水準都應該設定在0.05,有很多天生樣本量就極大的研究中,檢驗水準需要設定在很小的水平,比如GWAS研究,我記得需要P&<1*10^-9才能算作有統計學意義,因為樣本量實在是太大了,設定為0.05的話,微不足道的差異都能產生統計學意義來。
  2. 對於二分類的事件來說,除了P,OR/RR值和可信區間(confidence interval, CI)也很重要,需要以1為界,看這個因素到底屬於保護因素還是危險因素,還要看CI的上界下界有沒有跨過1這個無效線,如果跨了,還不能斷然這個結果就是有意義的。
  3. 除了統計學意義,還需要有臨床意義。一點點差異可能從統計學來講是有意義的,但對臨床來講可能是無意義的。比如你做出一個結果,表明A隊列的人的平均舒張壓80,B隊列的人的平均舒張壓是82,由於樣本量非常大,P&<0.001,但這兩個值都在正常範圍內且差異很小,而且分析找不到這點差異跟任何其他結局有關,那麼這個統計學意義就沒有帶來任何臨床意義,僅僅是樣本量大而已。同理,可信區間的上界/下界也是需要同時小於/超出過人為設定的「臨床有效」線才證明臨床意義的,而不僅僅是同時小於/超過1。
  4. 效應量很大的話,即便P值不是很小,也能增強我們對估計的信心(confidence in estimate)。一般如果OR/RR/HR大於5或者小於0.2(也可以有其他設定),我們說它效應量很大,那麼即便P剛剛剛滿足檢驗水準要求那也應該視為一個很有臨床意義的結果,即便其研究設計類型只是觀察性研究,我們都要認為這個研究的提供的證據價值很大。


1.關於第一個問題(是不是一定是A方法好)。

問題並沒有說明原假設和備擇假設分別是什麼,P值=0.02,只是說有差異存在(但是也有可能是A方法使得成績變差了)。如果按著單側檢驗來看,那麼是A方法好,當然前提是抽樣方法和隨機的操作是正確的,同時樣本量和power也在可以接受的範圍內。

2.第二個問題。

又如果,這是兩項同類研究,使用 A 方法的樣本量是100,使用 B 方法的樣本量是25,與學生原始成績比較,A 的平均提高值是 4分,B 的是 10分,還是 A 方法好嗎

做個Z檢驗分析就知道結果了。

3.醫學統計中,比如非劣效檢驗的結果判斷,並不是看P值,而是看置信區間的與非劣效界值的關係。P值只是判斷的一項,有時候也要看effect size的。


雖然不是統計學專業的,但是平時看文獻、寫文章都離不開統計,分享一點看法,歡迎專業人士討論。

先從問題解釋里提到的說起。

舉個例子吧。比如用方法A和方法B分別嘗試提高學生數學成績,實施後,A方法P值0.02,B方法P值0.20,那麼就一定是A方法好嗎?

如果我再提供,A的樣本量是100,B的樣本量是25,A的平均提高值是4分,B的是10分,還是A方法好嗎?

這裡提的很含糊,A方法的P值、B方法的P值是什麼意思?P應該是一個概率。我們知道小概率事件不發生原理,就是說,如果是小概率事件,那麼在一次實驗就出現的可能是很小的,我們可以認為它不會發生。比如說買一張彩票就中大獎,就是小概率事件。那麼多大概率是小概率呢,一般認為P&<0.05的時候就是小概率了,當你預測小概率事件不發生的時候,犯錯的機會是很小的。

再回到剛才說的,A方法的P、B方法的P值指代就很含糊,這兩種方法幹什麼的P值呢?如果是提高學生成績的P值,那麼這個「提高」是相對什麼而言的呢?總要有個比較。從後面說的來看,似乎是有一個類似「傳統方法」的東西,因為A「提高」了4分,B「提高」了10分。就是說,從結果來看,這是A和B兩種方法分別跟另外的方法進行的比較,那麼也就只能得出A和B分別相對另一種方法的優劣,而無法對A和B進行比較,這是實驗設計的問題,和P值無關。如果要比較A和B哪個方法好,應該設計實驗對這兩種方法直接比較,否則沒有說服力。

然後再看問題:P值小於0.05和結果好壞的關係。前面提到了,根據假設檢驗,P值小於0.05,只是代表你「棄真」犯錯的機會很小,但這根結果好壞無關,因為你還是有可能接受了錯誤的假設,犯二類錯誤。

我們在做臨床實驗的時候,很多時候是探索性的,只是想知道有沒有差異,有差異的話,就有有差異的解釋和結論,沒差異,就有沒差異的解釋和結論,和好壞無關。並不是說非得做出統計學差異了,才是理想的結果,如果你能證明沒有差異,也是不錯的結果。當然,在證明有差異和沒差異的時候,P值的選擇也稍有不同,比如如果要證明有統計學差異,為了使犯錯的機會盡量低,我們可能選取的α值更低一點,比方說0.01,P小於0.01才認為有差異;而要證明沒有差異,α可能會選的相對高一點,比方說0.05,P大於0.05認為不是小概率事件,沒有統計學差異。

至於lz說的「只要樣本量足夠大」就如何如何,這種話就很沒勁了,我還說只要人長的足夠高就能夠到月球了呢,問題的關鍵就是沒法做到樣本量非常大,否則直接對全體進行測量就好了,還搞什麼抽樣搞什麼統計啊。正是因為無法做到對全體的測量,而只能對有限樣本測量,才會有了這麼多的統計方法。比如說對樣本量的估計。不要以為樣本量越大就越好,對於實驗結果的分量來說,當然大樣本比小樣本的分量要大很多;但是,大樣本的實驗,其成本也是非常大的。每一個樣本的背後,可能都是大量的財力物力和精力,每多出一個樣本都要多付出很多的成本,付出如此巨大的成本來得到這麼一個數據是否值得,這都是需要思考的問題。更何況,有些少見疾病,碰到一個病例可能需要倆月,你要等多久才能出現「足夠大」的樣本啊?難道在你等到足夠大樣本之前,就不研究不治病了嗎?所以統計學上有了樣本量的估計。當達到能說明問題的樣本量的時候,得出的結論就可以說明問題了,如果結果顯示沒有統計學差異,那麼就認為是沒有統計學差異,這也是很好的結果。比方說,以前病人術後都住院7天,現在我改成住院5天,結果發現治癒率上沒有統計學差異,那我以後住院天數就可以縮短了,這不是個很好的結果嗎?


手機簡答。

1,p 值的參考量是 alpha,與具體某個數無關,只是通常大家見到的是 alpha = 5%。

2,alpha 的意義:錯誤拒絕 H_0 的概率。比如,若 alpha = 5%,則 H_0 被錯誤拒絕的概率是 5%。所以,一個小的 p 值僅代表這個錯誤發生的概率小,而不具備解釋任何其他統計意義的功能。

3,至於你最後的舉例:可以選擇一個你認為有意義的參數(可以是某門或幾門課的平均值、中位數,或者某個 quantil,等等,這取決於你數據的具體情況)然後做一個兩組參數差與零的單向差異檢測(是大於零還是小於零)。


p值僅代表可能性,就像你說的所有的事情都不是絕對的。

A的p值小於B,意思是A reject H0 的可能性大於B,但絕對不是說A一定就好於B。

統計只是給出一個未來決定的大概方向,至於偏好,還是要自己選擇。


錯誤分第一類錯誤和第二類錯誤,降低第一類錯誤發生的概率,結果就是第二類錯誤發生的概率又會增加,所以p值不是越小越好


顯著,不一定有意義。A,B中的p值僅用於各自的顯著性,2組實驗的有效性檢驗需要利用另外的模型進行檢驗。


上面的回答很精彩

結果的差異,主要來自兩方面,1是抽樣誤差,2是方法的改善

如果你選擇

A方法選取100個樣本

B方法選取50個樣本

那麼你增加了抽樣誤差的可能性。


假設檢驗本身就是一種合理評價研究結果的方式

原因在於,統計模型和其他所有建模過程一樣是對於實際情況的描述,基於參數和函數;而今天衡量事物的結果需要一個定量的標準,顯然用的是【事物發生的概率】,而不是【事物是否有可能發生】,因為今天丟一萬次骰子均值為6的概念也是存在的

假設檢驗P值小於0.05這句話,只說明了按照原假設出現實際統計值(就是你用樣本弄出來的)的概率小於0.05這麼個事情,其他啥也不能說明,但是他對於分析來說足夠了;因為如果你覺得按照原假設情況出現這麼個概率小於0.05的蛋疼事件是不能忍受的(意味著你設定的顯著性水平為0.05),你就可以拋棄原假設了,你就可以認為這麼蛋疼大概不是抽樣誤差導致而是假設出現了錯誤

也就是說這個0.05是相對於顯著性水平來說的 根據聶曼-皮爾遜原則,在做出假設後,有兩類錯誤:一類是棄真的錯誤,就是本來原假設是真的,但是統計值卻落在了拒絕域;另一類是取偽的錯誤,就是本來原假設是錯的,但是統計值卻沒有落在拒絕域 之所以搞這個東西就是因為兩類錯誤的【嚴重性】不一樣,比如說原假設是「被告無罪」,顯然按英美法系第一類錯誤嚴重很多。 到這裡,顯著性水平的意思就是第一類錯誤的概率,這是你自己定的,而P值,是樣本統計值在原假設分布下算出的概率。

至於【只要樣本足夠大...】,這是由大數定律得出的,意思是當樣本數(或試驗次數)趨於無窮時,樣本均值與總體均值差異趨於零;然後,在樣本數有限的時候,實際上還可以搞出差距的概率,還是挺合理的- -


在你第一個例子中,p=0.02代表拒絕接受「A方法不能提高學習成績」這個說法有98%的可能是正確的;p=0.2代表拒絕接受「B方法不能提高學習成績」這個說法有80%的可能是正確的。這種時候,我們更有理由相信A方法能夠改變學習成績。


推薦閱讀:

有什麼搜索分析科研熱點和前沿的小技巧?
女博士的世界是怎樣的?
如何利用Arduino板子,通過編程實現濾波?
為什麼我國人才流失如此嚴重?

TAG:科研 | 統計學 | CC | 流行病學 |