Frequentist vs Bayesian 1 之為什麼心理學可以是科學：p<0.005?

01-25

我將為你分享我對於心理學的看法：為何心理學可以是科學。而恰巧近期心理學最勁爆的新聞就和這個問題密切相關：一群大佬建議把p值從0.05降到0.005 https://osf.io/preprints/psyarxiv/mky9j/download ）

請聽我細細說來。

############################################################

自從我大學本科選了心理學作為專業，如此熟悉的對白不斷發生：

--「你讀什麼的」

--「心理學」

--「哦」「哎，那你猜猜我在想什麼」

--「......」

誠然，很多人把心理學和心理諮詢、心理治療聯繫在一起。更多人從來不會把心理學和科學聯繫在一起。Why?

心理學是科學么？

科學有數個特徵（客觀，可證偽等），而一項發現能成為科學發現，或者說一個效應（effect）能被科學家肯定，是因為它有一個很重要的特質：它具有可重複性（reproducibility）。

牛頓被蘋果砸過一次不算，要被砸到很多次才算。在家裡的蘋果園被砸到不算，要在世界各地的蘋果園都砸到才算。在早上九點被砸到不算，要一天24小時都被砸過才算。重力才成為一項科學發現，而不是物理學家的意淫。

假設，牛頓做了60次實驗，其中59次被砸到了，其中一次蘋果掉到一半的時候被狗吃掉了。

這個時候，牛頓需要怎麼做呢？直接把59次被砸到的當做是證據，信號（signal）而直接把那一次被狗吃的當做噪音（noise）而視而不見么（這種行為叫做cherry-picking，采櫻桃，日後的文章會討論到）？當然不可以，這在學術上是不道德的行為。所以，此刻牛頓需要做得是對收集到的數據進行數據分析。

其中一個分析方法就是計算p值。相信這個大家並不陌生。我們從本科就被教育把p設成0.05。要是計算出來的p值比0.05小，就說明這個效應顯著從而存在和正確。比0.05大，就說明這個效應不顯著從而不存在或者不正確。

但是，很多人其實並不清楚p值的真正含義和正確解讀方式。有一定數量的心理學學者，盲目使用p值，發表了假陽性（false positive）的研究成果。日積月累從而造成這幾年心理學臭名昭著的可重複性危機（replication crisis）。也因此心理學越發不被人認可是科學。

於是，這就把我們帶到一個持續了幾十年的討論：我們是否應該繼續使用p值？以及最近轟動心理學界的論文：重新定義是否顯著的界限---把p的界限從0.05降到0.005。

你真的懂p值是什麼？

現在我嚴肅的問你一個問題：到底什麼是p值？

p值是：假設效應並不存在（null effect），你收集到了你收集了的數據的概率是多少。

也就是說，假設重力並不存在，有多大的概率，牛頓做了60次實驗，其中59次被蘋果砸到，而一次被狗吃了。

所以，p值並不能告訴你，一個理論存在與否的概率，而只能告訴你，在這個理論是錯的前提下，你的數據+你有可能收集到但是沒收集到的更加極端的數據（long run/ fequentists）的概率。

如果牛頓計算出來的p值非常小，這並不能說明：重力存在的概率非常大，而只能說明，如果重力不存在，還能被蘋果砸到59次，這個事情非常不可能發生。

聽起來很拗口是吧？是的。p值並不能直接驗證理論而是通過驗證數據而對理論做出無為的推斷。這個本質特性成為了p值的軟肋而被一眾科學家抨擊（日後討論到貝葉斯數據分析

Bayesian Statistics 我會詳細說明）。因此，為了解決，至少減緩心理學重複性危機，72個大牛聯合發了一篇論文：讓我們把p值界限從0.05改成0.005吧！

把p<0.05改成p<0.005有意義么？

https://osf.io/preprints/psyarxiv/mky9j/download ）

把p值界限從0.05改成0.005是什麼意思呢？套用之前提到的p值的概念，這個意味著：假設效應不存在（nulleffect），必須你收集到這個數據的概率小於0.005，才可以說這個效應顯著。換句話說，它把顯著與否的標準提高了。牛頓要被蘋果砸多很多次才可以說重力是存在的。

那麼問題來了，這個建議可取么？有意義嗎？真的能夠解決可重複性危機嗎？

誠然，把顯著與否的標準提高之後，一部分假陽性的研究成果不會再被認可。但是這個問題是雙面的。這同樣意味著一部分真實存在的效應被人否定（false negative，假陰性）。

其次，p值不夠低並不是p值的根本問題。前面提到過，p值之所以被很多學者嫌棄是因為它本質假設效應不存在（null effect），必須你收集到這個數據的概率小於0.005，才可以說這個效應顯著個效應是否顯著的心理學學者，也許根部不了解p值的真正含義

（謹慎使用p值，數據統計只是工具並不是信仰）

或者了解但是運用p值來作弊從而發表論文。比如之前提到過的cherry picking.

當然也有人認為至少這個降低p值界限的提議能減輕問題嚴重性：

（如果有司機開車技術很爛，經常發生交通事故，人們提出降低限速。雖然並不能解決根本問題：這個司機開車很爛，但是的確能減少事故的發生。）

接下來有人接話反駁

（可是當司機以為沒人看到的時候還是會超速。況且如果降低限速，高速公路上全部都是蝸牛，誰都哪裡都去不了。這樣有意思嗎？你知道怎麼樣開車才會安全嗎？監控，司機主動誠實地分享數據，證明給保險公司看他們是有駕照的好司機。）

（所以，要不我們降低限速/降低p值界限（然並卵，因為仍然會有人找到方法超速/作弊），要不我們提高科研透明度和教育質量。）

此時Jeff Rouder 大神發話

（收了這些人的駕照/把這些人全部趕出實驗心理學！）

所以，心理學是不是科學？為什麼？

為何心理學可以是科學？

我認為心理學可以是科學。因為我。因為你。因為堅持誠實做心理學的學生，導師，和教授。

數據是數據。數據不會騙人。騙人的是人。

做實驗之前網上登記一下，把實驗設計邏輯，樣本數量，收集完數據做的分析全都一五一十說清楚 https://aspredicted.org/ ）
既然p值好用但是有問題，那就謹慎使用。不對數據做絕對性判斷（binary judgement）。
收集完數據，整理過後公佈於眾（Open Science Framework: https://osf.io/ ）
如果你發現了非常有趣的現象，再做一次看看能不能重複得到相同結果（reproduce, replicate）

此時必須表白一下我老闆：

（我從來不相信不可重複或尚未重複的實驗結果（包括我自己的）。）

2017年8月14日

Frequentist vs Bayesian 1 之 為什麼心理學可以是科學：p<0.005?

心理學是科學么？

你真的懂p值是什麼？

把p<0.05改成p<0.005有意義么？

為何心理學可以是科學？

Frequentist vs Bayesian 1 之為什麼心理學可以是科學：p<0.005?