心理學的七宗罪2：數據貯藏（Data Hoarding）

01-27

目前在心理學，其中一個開放科學（open science）倡導的就是數據分享（data sharing）。科學家在遞交文章給期刊的時候，或者論文被接受準備發表的時候，把收集到的數據整理好，連同解釋數據變數的meta-data和用於數據分析的data source code，公開分享在Open Science Framework。

雖然OSF的註冊用戶越來越多（下圖），整個心理學社區分享數據的氛圍也越來越好，還是有很多心理學家貯藏數據，拒絕分享。

拒絕數據分享而貯藏數據的理由很多個。

前幾個星期我在部門給有關Open Science 的talk，講到分享數據（Data Sharing）的時候，有一名研究生便提出：

「分享數據會讓我很不舒服。萬一別人拿到我分享的數據，發現了我沒發現的東西，我不是就失去一個大好的發表機會了嗎？」

MIT 神經學家Earl Miller說過：

「我支持數據分享，但是我只分享給和我合作的科學家。數據又不是公共噴泉。」 （ Earl Millers tweet）

其實很多人都會同意這位研究生和Miller的觀點。他們擔心分享數據意味著向競爭對手雙手送上自己的知識產權，意味著會收到很多不需要不想要的指責和批評。數據貯藏是心理學中一個嚴重的問題，也是心理學的一宗罪。

這篇文章我將會摘取The 7 deadly sins of psychology (by Chris Chambers) 第四章中有意思的段落，結合自己的體會和經驗，和你們探討數據分析的好處，以及數據貯藏這種學術氛圍如何成為不誠實的科學家的保護傘。

數據分享的好處

1 公開分享數據使得獨立第三方的審核和重複

其實這一點不僅適用於數據，也適用於實驗代碼以及數據分析代碼（analysis source code）。

當你分享實驗代碼的時候，第三方（比如對你實驗感興趣的學者，或者review你的文章的reviewer）可以通過看你的代碼，run你的代碼等來了解清楚，或者重複你的實驗。尤其是重複實驗這點，對於任何科學領域的進步，都是有重要意義的。

當你分享數據和數據分析代碼的時候，第三方可以確保你的數據並不是虛擬構造的，而你做的數據分析也是準確無誤的。

2 公開分享數據限制了不規範，不道德的科學操作

當你需要分享數據的時候，你需要把一個文件公佈於眾的時候，你會被迫的更加仔細小心的整理數據，做數據分析等，從而限制不規範不謹慎的操作。

同時，也給了他人機會來監督你。

比如p-hacking。p-hacking指的是，針對同一份數據，我做100個不同的數據分析，然後只彙報一個，因為那一個數據分析我得到到了p < 0.05，效應顯著。那麼拿到數據的其他研究人員分析數據的時候，用的那99種數據分析方法，就會發現不顯著。

再比如在2013年Uri Simonsohn發表的一個簡潔探測出異常數據（sketchy data）的分析方法。接下來將會深入仔細說明，這個分析方法用於多份數據中，發現出了兩個數據造假的例子。

3 公開分享的數據才不會消亡

學術界一直有句話，大家一定都聽過，publish or perish，意思是，不能發表論文就跟在學術界死了沒什麼區別。也有一句話，出自Jelte Wicherts & Marjan Bakker:

publish (your data) or (let the data) perish

只有把數據公開分享，數據才不會因為時間，或者因為你換電腦，而丟失。

對於這點，我有一個非常深刻體驗的故事。

我最近一直在寫的一篇有關概念信息和感覺信息對記憶的影響的論文，在重新看數據的時候，發現不同感知覺刺激物有不一樣的準確率和反應時間。然後發現原來老闆有篇文章也有類似類型的data，重新分析一下的話或許可以發現相似的數據規律。當我問老闆的時候，老闆再找Ken（co-author）的時候，他們突然發現，唉數據在哪裡？

原來那批數據是很多年前收集的，其中多年，老闆從Indian搬去CMU，再搬來雪城，而Ken也是輾轉多個城市，現在在邁阿密。數據藏哪裡了根本不知道。不過好險，Ken一台電腦都沒丟，終於不知道在地下室的哪裡找到了那批數據，然後完整的和我分享了。如果你以為這就是故事的結局，你就太天真了。

我拿到數據之後就傻眼了，居然很多特么是SPSS格式，而且存儲raw data的文件有多個，仔細一看和一份aggregated data的實驗組數量和被試號很多對不上。我問老闆，老闆說：

「Oh Sharon. Back in the old days, we couldnt sync data from multiple lab booths and lab computers , so the data text files youre looking at are from different booths.」

到後來我之後一個一個file對比著看，神奇的整理出來其中一個condition的其中46個數據點。

這個故事告訴我們，數據一定要保存在永不過時的格式，比如文本文件，excel等。而且要公開分享數據，這樣子數據才不會丟失死亡，而且分享的時候也方便你我他。

4 公開分享數據可以促進學科發展

一份數據可以有很多故事訴說。你發現的，或者你文章寫得，只是那麼多故事中的一個。你有可能錯過了這份數據中的亮點，錯過了另一個更有趣的故事。但是不要緊，倘若你公開分享數據，別人拿到你的數據，或許他們就會發現。

的確，這也許會讓你覺得就這個錯過了幾個億。但是作為科學家必須明白一點，我們工作目的並不是名利雙收，而是促進學科發展。而公開分享數據便可以做到這一點。

數據貯藏隱瞞著心理學家的錯誤

無可否認的是，數據貯藏這種氛圍，保護著那些不誠實做科學的科學家。

在2011到2012年期間，Uri Simonsohn 揭露了兩例數據造假的例子。

第一例來源於Journal of Experimental Social Psychology的一篇文章。這篇文章指出，處於物理上更高的地方的人，會更有道德，探討了人的道德觀和身高的關係（所謂的moral high ground）。

但是當Simonsohn看數據的時候，發現了異常的數據規律。三組數據中（物理高度：低，高，控制組），對應的被試道德感（給予他人辣醬的多少）的平均值雖然顯著不一致（低：85.74，高：39.74，控制組：65.73），但是三組數據的方差近乎一致（25.09,24.58,25.65）。

okay，也許只是巧合。畢竟期刊的確喜歡接受和發表乾淨數據的文章（心理學七宗罪之1：偏見）。於是Simonsohn 去看看這篇文章作者（Lawrence Sanna）的其它文章和數據，發現了一樣的數據規律。於是他告訴了文章作者的高校組織，Saana被迫撤迴文章，辭職。

用觀察方差的這種方法，Simonsohn揭發了另一個心理學家：來自Erasmus University 的 Dirk Smeesters。而且，Simonsohn 發現他的數據除了方差太過接近，不可能來自隨機樣本，還發現了數據中另外一個異樣。

有一個現象叫做小數定律：人類在需要隨機產生一系列數字的時候，會過高的估計數字的分布覆蓋，導致眾數出現的頻率並不高。比如，你需要隨機寫下1到10之間12個數字，正常來說應該是：1,2,3,4,4,4,4,4,6,7,8,8.而其實作為人類，你會寫下來：1,3,4,4,5,6,7,7,7,8,9,10。而當科學家數據造假的時候，也會遵循這個規律。因此，觀察數據分布的時候，我們可以觀察數據的mode（眾數）頻率，比如人類報告的數據中的眾數是7 （出現了3次），而隨機的是4（5次）。於是Simonsohn用這種方法分析Dirk的數據，發現了在100,000的數據量中，眾數的頻率才是21，太低了，因此數據不可能來自隨機樣本。一樣的，Dirk Smeesters後來被迫撤回論文，在調查前辭職了。

怎麼辦呢？

正如文章開頭說的，也許數據貯藏的氛圍仍然是主流，但是改變正在發生。

我認為其中有兩個因素至關重要

1. 心理學科學社區的普及

近年來，整個心理學科學社區越來越看中開放科學，也越來越鼓勵分享數據。

比如 Center for Open Science 推廣的TOP guideline

TOP包含著多個維度和多個標準的準則，這些準則由期刊來遵守。選擇遵守的期刊必須按照準則來要求遞交文章的作者根據準則做事。

針對於數據分享，拿第二點（Data Transparency）來說，最低的就是：沒有要求---期刊可以鼓勵數據分享，也可以什麼都不要求。最高的就是：數據必須放在公證可信的存儲，數據分析可以被獨立的第三方重複。

TOP的其中一個存在價值就在於，通過鼓勵期刊接受遵守準則，從而強制科學家用開放的方式做科學，進而普遍數據分享的學術氣氛，促進心理學科學進步。

再比如，比較極端的由Richard Morey為主倡導的PRO

和TOP一樣的是，它也有一系列準則，但是是加於reviewers，論文審稿人。參與PRO initiative的審稿人立志，如果一篇文章不遵守這一系列準則（包括分享數據），審稿人有權拒絕審稿。

2. 年輕科學家的成長和推廣

俗一點說，開放科學的確是現在的學術潮流。Open Science is rad now. 同時，開放科學這種促進改變的活動，年輕科學家自然比老一代更加容易接受和認同。因此，一批年輕科學家自願實行開發科學（註冊研究，數據分享等），也非常熱衷於把open science發揚光大。

在此必須為我們Open Science Club和 ambassador of Center for Open Science做個廣告。希望對推廣開放科學感興趣的同行加入我們。

Sharon

2017年10月22日

Reference:

Millers tweet: https://twitter.com/MillerLabMIT/status/360368532774592512
Uri Simonsohn, "Just post it: The lesson from two cases of fabricated data detected by statistics alone," Psychological Science 24, no.10(2013): 1875-88, http://www.dx.doi.org/10.1177/0956797613480366.
Jelte M. Wicherts and Marjan Bakker. "Publish (your data) or (let the data) perish! Why not publish your data too?," Intelligence 40, n0. 2 (2012): 73-76, http://dx.doi.org/10.1016/j.intell.2012.01.004.