假設檢驗 P 值小於 0.05 的結果就一定好嗎？

01-15

今天看到一句話：「任何研究，只要樣本量足夠大，數據出現一點點差異結果都是有統計學意義的。」
這話是沒錯的，那麼在這種情況下，怎麼更加合理地去評價研究結果呢？
舉個例子吧。
從之前使用同種學習方法的學生中選取兩組學生（兩組同質性未定義），用方法A和方法B分別嘗試提高學生數學成績，進行自身對照，實施後，兩組數據服從正態分布，使用 A 方法得到的學生成績與使用之前比較得到的 t 值的 P 值為0.02，而相應地使用 B 方法的 t 值 P 值是0.20，那麼就一定是A方法好嗎？

又如果，這是兩項同類研究，使用 A 方法的樣本量是100，使用 B 方法的樣本量是25，與學生原始成績比較，A 的平均提高值是 4分，B 的是 10分，還是 A 方法好嗎？

假設檢驗的意義主要是確認結論（在統計學意義下的）正確性。0.05這個閾值只是一個慣例，物理學中就要求5 sigma (p-value=0.00006％)才能被認可，臨床醫學／新葯開發中也都要求p值很小。

如果想要得到更容易解釋的結果，置信區間可能是一個更好的選擇。以題目中的例子，使用A方法提高的分數的97.5%置信區間為(1,3), 使用B方法提高分數的97.5%置信區間為(-1, 0.5), 那麼我們可以在5%的置信水平上認為A比B好；如果B方法的置信區間是(-1, 11)，那麼我們無法確定哪種方法更好。也許B方法更好，但我們並沒有足夠的樣本來驗證，也可能是B方法只適用於部分學生，方差較大。

比如用方法A和方法B分別嘗試提高學生數學成績，實施後，A方法P值0.02，B方法P值0.20，那麼就一定是A方法好嗎？如果我再提供，A的樣本量是100，B的樣本量是25，A的平均提高值是4分，B的是10分，還是A方法好嗎？

——大錯特錯，沒有這樣比的。兩種方法的效果只能比效應量。樣本量和p值，這些是研究設計的問題，和研究課題本身沒有直接關係。

補充：那麼 p 值有什麼用呢？用來判斷它對應的那個效應量是不是隨機出現的。如果效應量是隨機的（也就是不能拒絕虛無假設），那麼這個效應量就不能用；如果效應量不是隨機的（也就是拒絕虛無假設），那麼這個效應量就可以用。如果兩個效應量都不是隨機的，那麼就可以比較兩個效應量了。也就是說 p 值只能用於和先驗決定的 alpha 比較大小，不能再用於其它用途。兩個不同效應量一般用 Cohen"s D 來比較。

推薦這篇文章：

The Difference Between 「Signi?cant」 and 「Not Signi?cant」 is not Itself Statistically Signi?cant

http://www.stat.columbia.edu/~gelman/research/published/signif4.pdf

從裡面摘兩段，我覺得用來回答lz的兩個問題很妥當。

by now practically all introductory texts point out that statistical signi?cance does not equal practical importance.
In making a comparison between two treatments, one should look at the statistical signi?cance of the difference rather than the difference between their signi?cance levels.

提問者應該是在醫學統計學的背景下考慮這個問題的吧？

不是所有假設檢驗的檢驗水準都應該設定在0.05，有很多天生樣本量就極大的研究中，檢驗水準需要設定在很小的水平，比如GWAS研究，我記得需要P&<1*10^-9才能算作有統計學意義，因為樣本量實在是太大了，設定為0.05的話，微不足道的差異都能產生統計學意義來。
對於二分類的事件來說，除了P，OR/RR值和可信區間（confidence interval, CI）也很重要，需要以1為界，看這個因素到底屬於保護因素還是危險因素，還要看CI的上界下界有沒有跨過1這個無效線，如果跨了，還不能斷然這個結果就是有意義的。
除了統計學意義，還需要有臨床意義。一點點差異可能從統計學來講是有意義的，但對臨床來講可能是無意義的。比如你做出一個結果，表明A隊列的人的平均舒張壓80，B隊列的人的平均舒張壓是82，由於樣本量非常大，P&<0.001，但這兩個值都在正常範圍內且差異很小，而且分析找不到這點差異跟任何其他結局有關，那麼這個統計學意義就沒有帶來任何臨床意義，僅僅是樣本量大而已。同理，可信區間的上界/下界也是需要同時小於/超出過人為設定的「臨床有效」線才證明臨床意義的，而不僅僅是同時小於/超過1。
效應量很大的話，即便P值不是很小，也能增強我們對估計的信心（confidence in estimate）。一般如果OR/RR/HR大於5或者小於0.2（也可以有其他設定），我們說它效應量很大，那麼即便P剛剛剛滿足檢驗水準要求那也應該視為一個很有臨床意義的結果，即便其研究設計類型只是觀察性研究，我們都要認為這個研究的提供的證據價值很大。

1.關於第一個問題（是不是一定是A方法好）。

問題並沒有說明原假設和備擇假設分別是什麼，P值=0.02，只是說有差異存在（但是也有可能是A方法使得成績變差了）。如果按著單側檢驗來看，那麼是A方法好，當然前提是抽樣方法和隨機的操作是正確的，同時樣本量和power也在可以接受的範圍內。

2.第二個問題。

又如果，這是兩項同類研究，使用 A 方法的樣本量是100，使用 B 方法的樣本量是25，與學生原始成績比較，A 的平均提高值是 4分，B 的是 10分，還是 A 方法好嗎

做個Z檢驗分析就知道結果了。

3.醫學統計中，比如非劣效檢驗的結果判斷，並不是看P值，而是看置信區間的與非劣效界值的關係。P值只是判斷的一項，有時候也要看effect size的。

雖然不是統計學專業的，但是平時看文獻、寫文章都離不開統計，分享一點看法，歡迎專業人士討論。

先從問題解釋里提到的說起。

舉個例子吧。比如用方法A和方法B分別嘗試提高學生數學成績，實施後，A方法P值0.02，B方法P值0.20，那麼就一定是A方法好嗎？
如果我再提供，A的樣本量是100，B的樣本量是25，A的平均提高值是4分，B的是10分，還是A方法好嗎？

這裡提的很含糊，A方法的P值、B方法的P值是什麼意思？P應該是一個概率。我們知道小概率事件不發生原理，就是說，如果是小概率事件，那麼在一次實驗就出現的可能是很小的，我們可以認為它不會發生。比如說買一張彩票就中大獎，就是小概率事件。那麼多大概率是小概率呢，一般認為P&<0.05的時候就是小概率了，當你預測小概率事件不發生的時候，犯錯的機會是很小的。

再回到剛才說的，A方法的P、B方法的P值指代就很含糊，這兩種方法幹什麼的P值呢？如果是提高學生成績的P值，那麼這個「提高」是相對什麼而言的呢？總要有個比較。從後面說的來看，似乎是有一個類似「傳統方法」的東西，因為A「提高」了4分，B「提高」了10分。就是說，從結果來看，這是A和B兩種方法分別跟另外的方法進行的比較，那麼也就只能得出A和B分別相對另一種方法的優劣，而無法對A和B進行比較，這是實驗設計的問題，和P值無關。如果要比較A和B哪個方法好，應該設計實驗對這兩種方法直接比較，否則沒有說服力。

然後再看問題：P值小於0.05和結果好壞的關係。前面提到了，根據假設檢驗，P值小於0.05，只是代表你「棄真」犯錯的機會很小，但這根結果好壞無關，因為你還是有可能接受了錯誤的假設，犯二類錯誤。

我們在做臨床實驗的時候，很多時候是探索性的，只是想知道有沒有差異，有差異的話，就有有差異的解釋和結論，沒差異，就有沒差異的解釋和結論，和好壞無關。並不是說非得做出統計學差異了，才是理想的結果，如果你能證明沒有差異，也是不錯的結果。當然，在證明有差異和沒差異的時候，P值的選擇也稍有不同，比如如果要證明有統計學差異，為了使犯錯的機會盡量低，我們可能選取的α值更低一點，比方說0.01，P小於0.01才認為有差異；而要證明沒有差異，α可能會選的相對高一點，比方說0.05，P大於0.05認為不是小概率事件，沒有統計學差異。

至於lz說的「只要樣本量足夠大」就如何如何，這種話就很沒勁了，我還說只要人長的足夠高就能夠到月球了呢，問題的關鍵就是沒法做到樣本量非常大，否則直接對全體進行測量就好了，還搞什麼抽樣搞什麼統計啊。正是因為無法做到對全體的測量，而只能對有限樣本測量，才會有了這麼多的統計方法。比如說對樣本量的估計。不要以為樣本量越大就越好，對於實驗結果的分量來說，當然大樣本比小樣本的分量要大很多；但是，大樣本的實驗，其成本也是非常大的。每一個樣本的背後，可能都是大量的財力物力和精力，每多出一個樣本都要多付出很多的成本，付出如此巨大的成本來得到這麼一個數據是否值得，這都是需要思考的問題。更何況，有些少見疾病，碰到一個病例可能需要倆月，你要等多久才能出現「足夠大」的樣本啊？難道在你等到足夠大樣本之前，就不研究不治病了嗎？所以統計學上有了樣本量的估計。當達到能說明問題的樣本量的時候，得出的結論就可以說明問題了，如果結果顯示沒有統計學差異，那麼就認為是沒有統計學差異，這也是很好的結果。比方說，以前病人術後都住院7天，現在我改成住院5天，結果發現治癒率上沒有統計學差異，那我以後住院天數就可以縮短了，這不是個很好的結果嗎？

手機簡答。

1，p 值的參考量是 alpha，與具體某個數無關，只是通常大家見到的是 alpha = 5%。

2，alpha 的意義：錯誤拒絕 H_0 的概率。比如，若 alpha = 5%，則 H_0 被錯誤拒絕的概率是 5%。所以，一個小的 p 值僅代表這個錯誤發生的概率小，而不具備解釋任何其他統計意義的功能。

3，至於你最後的舉例：可以選擇一個你認為有意義的參數（可以是某門或幾門課的平均值、中位數，或者某個 quantil，等等，這取決於你數據的具體情況）然後做一個兩組參數差與零的單向差異檢測（是大於零還是小於零）。

p值僅代表可能性，就像你說的所有的事情都不是絕對的。

A的p值小於B,意思是A reject H0 的可能性大於B,但絕對不是說A一定就好於B。

統計只是給出一個未來決定的大概方向，至於偏好，還是要自己選擇。

錯誤分第一類錯誤和第二類錯誤，降低第一類錯誤發生的概率，結果就是第二類錯誤發生的概率又會增加，所以p值不是越小越好

顯著，不一定有意義。A,B中的p值僅用於各自的顯著性，2組實驗的有效性檢驗需要利用另外的模型進行檢驗。

上面的回答很精彩

結果的差異，主要來自兩方面，1是抽樣誤差，2是方法的改善

如果你選擇

A方法選取100個樣本

B方法選取50個樣本

那麼你增加了抽樣誤差的可能性。

假設檢驗本身就是一種合理評價研究結果的方式

原因在於，統計模型和其他所有建模過程一樣是對於實際情況的描述，基於參數和函數；而今天衡量事物的結果需要一個定量的標準，顯然用的是【事物發生的概率】，而不是【事物是否有可能發生】，因為今天丟一萬次骰子均值為6的概念也是存在的

假設檢驗P值小於0.05這句話，只說明了按照原假設出現實際統計值（就是你用樣本弄出來的）的概率小於0.05這麼個事情，其他啥也不能說明，但是他對於分析來說足夠了；因為如果你覺得按照原假設情況出現這麼個概率小於0.05的蛋疼事件是不能忍受的（意味著你設定的顯著性水平為0.05），你就可以拋棄原假設了，你就可以認為這麼蛋疼大概不是抽樣誤差導致而是假設出現了錯誤

也就是說這個0.05是相對於顯著性水平來說的根據聶曼-皮爾遜原則，在做出假設後，有兩類錯誤：一類是棄真的錯誤，就是本來原假設是真的，但是統計值卻落在了拒絕域；另一類是取偽的錯誤，就是本來原假設是錯的，但是統計值卻沒有落在拒絕域之所以搞這個東西就是因為兩類錯誤的【嚴重性】不一樣，比如說原假設是「被告無罪」，顯然按英美法系第一類錯誤嚴重很多。到這裡，顯著性水平的意思就是第一類錯誤的概率，這是你自己定的，而P值，是樣本統計值在原假設分布下算出的概率。

至於【只要樣本足夠大...】，這是由大數定律得出的，意思是當樣本數（或試驗次數）趨於無窮時，樣本均值與總體均值差異趨於零；然後，在樣本數有限的時候，實際上還可以搞出差距的概率，還是挺合理的- -

在你第一個例子中，p=0.02代表拒絕接受「A方法不能提高學習成績」這個說法有98%的可能是正確的；p=0.2代表拒絕接受「B方法不能提高學習成績」這個說法有80%的可能是正確的。這種時候，我們更有理由相信A方法能夠改變學習成績。