How to Justify Your Sample Size

註:本文首發於Open Science Club博客:How to Justify Your Sample Size;在我們的公眾號上也同時發布。版權所有,轉載請聯繫本人(hcp4715@hotmail.com)

最近不止一個朋友問了我關於樣本量(sample size)、功效分析(power analysis)或者效應量(effect size)相關的問題。這些問題基本上都可能源自於審稿中的一個:你是如何確定你現在這篇文章中的樣本量的?當然,這個問題可能有幾個變式:你的樣本似乎有點小,不足以說明你的效應穩定;你是如何選擇這麼多被試的;或者「我建議作者重複自己的實驗或者增加樣本量」。

很多人看到這個問題都是一臉懵逼?what? 還有這個操作?內心的想法是:難道大家不都是用這麼大的樣本量么?先前的研究中都沒有說明樣本量是如何選擇的呀!?

是的,先前的研究可能都是這麼「任性」地使用20個被試並且完全不提為什麼。

但是,the winds have changed。

現在主流的雜誌都開始明確要求在方法部分說明自己的樣本量是如何選擇的。包括Nature系列,心理學包括Psych. Sci.等這樣主流的雜誌。

從另一個角度,我們也要理解審稿人,可能他並不是統計學專家,甚至可能他不太關心這個問題。但是雜誌的審稿要求中會明確列出這一點來,他作為一個負責人的審稿人,不得不重視這個問題。

作為想要將自己研究成果發表的科研人員,我們應該做?根據我個人的知識和理解,先把效應量、樣本量、統計功效和alpha水平四者之間關係簡單地說明一下。然後也給出一些個人的建議。

1 為什麼需要進行功效分析?

這個問題一直是心理學方法中的一個非常嚴重的缺陷,但是應該被忽視了半個世紀多了,現在仍然不受到重視。簡單來說,如果我們使用p < 0.05作為拒絕H0的標準,那麼我們需要非常非常注意研究的功效,因為即便真實存在效應,p值的分布會隨著統計功效的變化而不同,這一點在Nature Methods的一篇文章說得非常清楚:The fickle P value generates irreproducible results。簡單來說,如果你的統計功效為50%,那麼你做一次實驗的話,有50%的可能得到p < 0.05,50%可能得到p > 0.05。所以假如你的實驗的統計功效為50%,怎麼能夠說明審稿人你得到這個結果不是運氣?

當然,你可能會說,我已經得到一個非常「顯著」的結果,P = 0.001,我用Gpower算了統計功效,非常好啊,已經超過80%了!但問題是,這裡的後驗的統計功效,其計算是根據你現在實驗估計出來的效應量來計算統計功效。如果你的樣本量很小,並且得到了P = 0.001的話,那麼你計算出來的效應量是非常大的(inflated),而根據這個誇大的效應量的計算統計功效的話,那必然是非常好的。所以這是為什麼審稿人不會認同事後的統計功效。

在上面這段說明裡面,實際上已經提到了在零假設檢驗 (Null Hypothesis Significant Test, NHST)中四個相互關聯的統計量:樣本量、效應量、alpha水平和統計功效。這四個變數中,如果我們確定了其中的三個,那麼第四個變數就可以計算出來。

對於這四個變數之間關係,我之前在一個博客里提到過:如何使用G*power計算統計檢驗力 - hcp4715的日誌 我愛腦科學-心心水滴論壇 -。但是我覺得這個網站的可視化更加清晰易懂:Understanding Statistical Power and Significance Testing,所以就不細講了。

但是我想說的是:為什麼審稿人想要知道你是如何選擇現在的樣本量的?我個人的理解是:審稿人本質上是關注你這個研究的效應是否穩定,也就是你通過這個實驗對某一個現象的效應量進行的估計是否靠譜。如果你是審稿人,你也不希望你手下通過的文章在幾年後被人指責是無法重複、是虛假的陽性結果。那麼如何確定你的效應量是可靠的呢?既然alpha水平已經確定了(大部分情況下是0.05或者校正或者的0.05之類),你的樣本量也已經擺在這裡了,效應量也已經計算出來了(或者通過p值/均值差異可以計算出來),但是統計功效對於審稿人來說卻還完全未知,而效應量可能會隨著統計功效的變化有極大的變化(在這個網站上可以固定alpha, sample size, 改變power來觀察effect size的變化)。所以這種情況下,TA需要知道你的統計功效如何,你是否通過樣本量的選擇來讓統計功效達到了可以接受的效果。

OK,如果了解審稿人/雜誌為什麼想要知道你研究的統計功效,並且考慮到現在雜誌普遍要求這麼做那麼如何我們如何應對。

2 假如你的研究已經在審稿之中,如何說服審稿人?

一般來說,由於研究者對當前雜誌要求的變化沒有及時跟進,所以在投稿的時候可能沒有意識到這可能是一個問題,所以會被審稿人或者編輯問到。目的就是上面提到了,了解這個研究的統計功效如何。

在這種情況下,我們作為作者能夠做的,可能就是首先根據先前類似研究的效應量來計算樣本量。先前這兩個字很重要,但是又會分很多情況:

情況一:你的研究問題已經有了對效應量的元分析。比如Quantifying Trustworthiness of Empirical Research 這個網站上,就有許多研究的元分析結果;另外,像Psych. Bull., Neurosci. Biobehav. Rev.上,也有許多元分析。根據元分析結果的效應量作為先驗的效應量來計算你的樣本量,非常具有說明力,因為元分析通常是對一個領域非常好的總結;

情況二:你的研究問題沒有元分析,但是有一些少量的研究。這種情況,你可以自己把這些研究找出來,自己做一個元分析,可以參與我在這個網文中提到了方法:Mini Meta-analysis或者單個論文中的元分析。但是如果主題類似的研究確實非常少(你會不會在想:如果研究非常多我還做這個問題幹什麼喲),比如只有一篇,那麼也可以就根據這一篇研究的結果中的效應量來計算樣本量。但是非常值得注意的是,這種情況下,你用來進行功效分析的效應量極可能受到了出版偏見(publication bias)的影響而變得虛高。當然,有先前的研究作為先驗效應量,算是有據可循。

情況三:你的研究問題從來沒有做過。這種情況,按照以往的做法,一般會做一個小樣本的預實驗(pilot study)來預估效應量,但是這種做法是不靠譜的:When power analyses based on pilot data are biased: Inaccurate effect size estimators and follow-up bias。所以我推薦去努力從文獻中尋找類似的研究,再根據這些研究來估計效應量會更有說明力。

情況四:你連類似的研究都找不到,怎麼辦?我個人認為可以採用整個領域最常見的效應量作為你的先驗效應量。比如這個網站中提到的著名的元分析: One Hundred Years of Social Psychology Quantitatively Described。根據這個研究,社會心理學中最通常的效應量大約是相關係數r = 0.21。其他領域研究中,也可以去尋找一些方法學的論文作為支持。比如在Life after p-hacking這個PPT(Life after P-Hacking)中,幾位研究者指出:

One conclusion is that most experimental research cannot be successful without at least 50 observations per condition.

這個也可以作為一個依據。在fMRI研究中,有研究指出(How Sample Size Influences The Replicability Of Task-Based fMRI):

sample sizes much larger than typical (e.g., N=100) produce results that fall well short of perfectly replicable.

(當然我知道絕大部分實驗室可能無法達到這個標準)。

好了,假定我們在上述幾種情況下達到了一個樣本量(通常可能會比較大),那麼作者可能面臨著不同的情況:是否能夠繼續補充數據。

如果實驗比較容易完成,補充數據,重複自己的實驗,將是最負責的方式。

如果研究數據非常特殊,無法再補充數據了,那麼只能跟審稿人說明情況了。比如我最近看到Nature Neuroscience上有文章如是說:

No statistical methods were used to predetermine sample sizes, but our sample sizes are similar to those reported in previous publications.

能不能說服審稿人,我也不能確定。但如果無法重複自己的研究也無法補充數據的話,那麼至少在對研究的結論方面,需要有所保留。

3 假如你的研究在進行之中,如果提前做好準備?

如果你的研究正在進行之中,或者正在計劃之中,你可能需要採用一些方法來估計你的研究需要的樣本量,並且(敲黑板),把你的估計過程公布出來。公布出來的意思,就是要進行預註冊(pre-register),可以參考我之前的一個網文:如何預註冊(Pre-register)你的研究?。

當然,預註冊只是最後公布估計過程,但是如何估計這可能也是一個大問題。我個人的理解,也分成兩種情況:第一、固定的樣本量;第二、可以及時停止收數據的動態樣本量。

固定樣本量的估計,請看上一小節中的四種情況,不再贅述。

動態樣本量的策略,有兩種方法可以採用:傳統頻率主義之下的取向,參考Lakens的論文:Performing high‐powered studies efficiently with sequential analyses;貝葉斯主義的取向,參考這個論文:Sequential hypothesis testing with Bayes factors: Efficiently testing mean differences。

再次強調,不管你決定使用固定樣本量的策略,還是動態樣本量的策略,一定要提前預註冊你的方法,否則,及有可能審稿人不會相信你。畢竟,提前註冊已經變得非常簡單了,見極簡的提前註冊指南,英文版:OSF | HowToPreregister.pdf。

廣告:Open Science Club已經有了自己的正式官方博客(Open Science Club)和公眾號(ID:OpenScience),歡迎大家關注。


推薦閱讀:

編程技能對心理學研究有多重要?一個合格的研究者至少應該掌握哪些技能?
Improving your statistical inferences第二周(2):貝葉斯方法
質性研究比起定量研究會更多依賴研究者本人的研究經驗么?

TAG:OpenScience | 可重复性reproducibility | 心理学研究方法 |