目前各個學科的科研中,透明和開放的程度如何?
最近幾年由於可重複性的問題,不少學科都開始更加註重數據的開放性、研究過程的透明性等。包括 Nature 和 Science 都加入了 TOPGuideline (Nature 開始遵循促進透明公開 (TOP) 指南 - 知乎專欄)。想知道各個學科對開放和透明的關注程度如何,目前在開放和透明方面做到什麼程度了?例如,專業期刊投稿時是否要求公開數據、代碼和實驗材料(以及對這種公開進行審查,plos one 那種要求寫個說已經公開但不審查的不算),是否要求研究前提前註冊(pre-register)?
相關問題:各學科數據公開現狀如何?
謝邀
我來說一下 astrochem 這一塊的情況。Astrochem 是交叉學科,涉及天文和化學,但是因為每個人的具體研究都很窄,所以我的經驗並不能代表天文和化學所有細分領域的情況,歡迎專業人士討論補充。
首先上結論:天文和化學兩大領域都十分重視研究結果的可重複性和公開程度,並且在論文發表和經費申請機制上不斷推進新的政策,來實現研究成果公開、可重複檢驗的目標。
這些政策機制大致包括幾個方面:
- 要求或鼓勵論文發表是上傳原始數據和程序代碼
- 要求論文報道的結果本身經過可重複性驗證
- 要求論文中列出研究的資金來源和利益相關方
- 要求 PI 在經費申請中專門列出數據公開方案
下面援引這兩個學科內比較有影響力的期刊的論文發表政策,以及基金申請規定,來作證上述結論。
1. 美國天文學會(AAS)旗下天文學頂級期刊 The Astrophysical Journal (ApJ) 系列和 The Astronomical Journal
AAS 是 open data 的鼎力支持者。AAS 旗下期刊發表的「數據指南」Data Guide 中提供了各項現代化的數據共享工具,來鼓勵論文作者提交原始數據。AAS 提供的工具包括:
- 機器可讀的原始數據表(Machine Readable Table)。AAS 強烈建議作者提供超過 200 行的數據表格的機器可讀表,作為論文附加材料發表。AAS 對機器可讀表的格式有嚴格的規定,並且提供了多種在線/離線轉換程序來重新生成數據表格:Machine readable table creator page MRT Programs | American Astronomical Society
- 「圖背後的數據(Data behind the Figure)」。這個新項目是鼓勵作者提供繪製論文圖示的數據。我們知道,研究獲得的原始數據和最後論文圖表展示的數據之間,需要經過多重數據分析和處理。即使作者提供了原始數據,其他研究者也需要花費很多精力來重現數據分析的過程。而這個「圖背後的數據」項目就省去了這些步驟,方便其他研究者直接使用論文作者處理好的最終結果。此外,一些圖示因為印刷大小的限制,不一定能看清所有細節;這個項目也使得其他研究者可以方便地放大、縮小圖示,提取自己感興趣的細節。
- 程序代碼(Source Code)。AAS 強烈建議作者提供程序代碼的外部永久鏈接,並且必須在論文中作引用。AAS 論文的 LaTeX 格式宏包中提供了專門引用程序代碼的 software{} 環境
- 壓縮文件存檔(Tar Archive)。其他所有與論文相關的文件,比如望遠鏡觀測經過處理後的光譜數據等等,都需要壓縮成 tar 文件,並且指向一個 DOI 鏈接—— DOI 是數字資源的永久地址。
2. 史密森尼天文台/美國航空航天局(SAO/NASA)在線資料庫 ADS(Astrophysics Data System)SAO/NASA ADS: ADS Home Page
ADS Abstract,收錄了幾乎所有天文學、天體物理相關期刊和會議的摘要。能夠掃描的期刊,全都追溯到了創刊第一卷。儘管收錄的論文版權屬於原出版商,但是個人可以免費瀏覽,因此大大降低了科研工作者獲取論文,尤其是古董論文的難度。
3. 項目基金的數據管理方案,包括美國航空航天局(NASA)的 NASA Data Management Plans,和美國自然科學基金委(NSF)的 NSF Dissemination and Sharing of Research Results
NASA 2014 年更新了項目基金申請的要求,其中明確表示,所有遞交給 NASA 的基金申請,都強制要求包括一份數據管理方案(涉密項目除外)。這項要求的作用不僅在於共享數據,也在於加強對研究數據的記錄和管理,以便更好地保證研究的可重複性。
NSF 每年都在更新項目基金申請要求,其中也明確表示,所有遞交給 NSF 的基金申請,都強制包括一份兩頁的數據管理方案。PI 不僅需要在申請基金時提供數據管理方案,還需要在後續基金的年審和結項時彙報數據方案的執行情況。
NASA 和 NSF 的數據管理方案中,要求 PI 制定明確的數據生產、管理和共享方案。包括,預估項目會產生哪些種類的數據,有多少數據量,數據的存檔、備份、加密、分享、二次使用傳播、衍生品等等……
NASA 的具體要求文檔在此:https://www.nasa.gov/sites/default/files/atoms/files/206985_2015_nasa_plan-for-web.pdf
NSF 的文檔按不同研究領域區分,可以從上文網頁鏈接中找到。
4. 全球各大天文台的觀測數據
全球各大天文台的觀測數據都有公開存檔(archive)。為了保護原創性,每個觀測項目會給 PI 一段時間的數據保護期(通常為一年)。之後,理論上,任何人都可以從 archive 上獲取觀測原始數據。隨手舉幾個射電方向的例子:
- 阿塔卡瑪大型毫米波陣列(ALMA)數據存檔
- 赫謝爾空間望遠鏡(Herschel)數據存檔
- 同溫層紅外線天文台(SOFIA)數據存檔
- 甚大陣(VLA)數據存檔
5. 美國化學會(ACS)旗下期刊的數據政策
說完天文學方面的,再來說化學的。ACS 旗下各期刊的作者指南都規定了期刊對研究數據的要求。總得來說,除了通用性的數據要求,相關期刊還要求作者提供特殊數據的詳細情況。
- 通用性要求。明確提供實驗所用的關鍵原料和詳細步驟。產物要用多種方式表徵。反應的產率需要通過重複實驗來驗證,不能只做一次就聲明產率。
- 生物材料數據。要提供定量數據,聲明實驗中關鍵原料的來源和處理方法。自製的關鍵原料需要重複合成並表徵,要確認純度和生物效應。需要提供結果的統計不確定度。
- 核磁共振數據。ACS 有專門的指南(ACS 核磁共振數據指南)嚴格規定核磁共振數據的格式和規範。
最後,NASA、NSF 的項目基金,以及天文台的觀測項目,都會要求 PI 在發表相關研究論文時註明收到的資助和項目編號。這些編號是可以公開查詢到的。
GrantStatus - NASA Shared Services
NSF Award Search: Simple Search.
以上就是我了解的天文和化學領域的相關情況。
其他評論談到,政策還有輿論方面,開放透明性在逐漸變好。我同意。但是任何政策都是要有人去跟進的。大概是我自己運氣不太好,周圍的老師學生從上到下,鮮有在實踐中強調開放透明的,頂多嘴上說說。比如同是分析神經數據,實驗室幾個人還各自為戰,一人一套自己的輪子。還有種種怪象不勝列舉。
我想,真正實現科研的開放透明,大概只能讓下一代的科研工作者去推進了吧。
原回答--------------------------------
(我所接觸的)Neuroscience 界感覺太不開放了。光鮮的 paper 後面,實際的 data 和 code 可能千瘡百孔,但是並沒有人知道。這既給重現實驗結果帶來巨大的困難,更讓科研成果的可靠性打了很多折扣。
(在我所接觸的領域)基本沒有被主流學界承認的公開數據集,獲得認可的開源的工具包,以及一些標準的 benchmark,至少導致了以下幾個問題。
1. 當無法達到其他論文的實驗結果的時候,難以估計是自己收集的 data 質量的問題,還是實驗設計和分析數據的細節(那種看了 code 才能發現的區別,或者是原作者在描述實驗時候的疏漏)導致的區別。
2. 科研工作者喜歡每個人定義自己要研究的問題,以及自己的評價標準。這樣的話,很多類似的工作難以定量地橫向比較。3. 每個實驗室,每個學生,都得重新造一套輪子,來處理數據和做實驗分析。根據我的親身體會,很多本領域的學生的代碼水平很一般,難免會在代碼中引入會影響實驗結果的 bug。data 和 code 的雙重不確定性,導致論文結果的可信性大受影響。實際發表論文的時候,是否提交 data 和 code 都是自願的。這個問題太好了,以至於它現在才被提出來的事實讓人感到有一些驚訝。看到這個問題,特別想回答如何提高應用類研究成果的公眾獲取途徑,以及如何提高一些學科在應用中的公眾參與,這是我特別感興趣的問題,雖然已經不在學術圈了,但仍舊在各種場合,不厭其煩探討過這個問題,不過好像有點跑題,就不在這裡浪費讀者的時間了,只是提請各位研究者注意一下它的存在。
針對題主的問題,我提供一個角度:
data, data,data!
如果你在社會科學的研究者,比如經濟學,公共政策領域,或者自然科學的研究者,比如水文地質環境氣象,甚至是工程學,比如交通,工業工程,你可能經常會聽到這樣的都市傳說,某教授/實驗室/師兄通過某種方式獲得了某個資料庫的獨家使用權,然後靠著這組數據發了無數一線期刊的paper,而其他研究者只能望洋興嘆,因為他們沒有數據。早年間網路流傳一篇文章,說沒有數據,成為了國內青年學者研究的重要限制(抱歉鏈接找不到了),也佐證了這個問題。國外的情況可能比國內稍好一些,然而這種「獨家」的資料庫,總還是存在一些的。
我們從兩個角度分析這個問題。首先,如果你獲得一種數據,不分享給別人使用,你自己可以靠它發文章,甚至發財,那麼,這就激勵了你(作為一個課題組,或一個機構)收集數據的行為,所以,從某種意義上,這極大地提高了學術綜合體獲得數據的效率。其次,但是,如果你背靠數據,但你不是那個能夠作出最優分析的課題組,或你只有能力從一個角度利用這些數據,那麼這就造成了數據資源的浪費,這種獨家佔有數據的行為,極大降低了學術綜合體使用數據的效率。說了這麼多,大家完全可以按照版權的困境來理解這個問題。
怎麼解決這一問題,不是本題的重點,簡單說說我的思路 1)促進數據合理定價,數據就是很貴的,合理定價才能促進數據的收集 2)觀念上要把數據本身就當做重要成果,科研經費審批中,要對「獲取XX數據」這樣的研究目標更加友好,科研機構的運營中,要對維護自己職責所系的資料庫更加重視 3)對於有巨大社會效益的數據,由獨立的、公立機構來收集並且免費發布,我們的政府,需要更多的經濟學家與水文學家。
最後,回到題主的問題,數據的開放性,顯然,對於數據密集型的學科,仍舊是任重而道遠,因為它不僅僅是一個「我有數據,就不告訴你」的小孩子過家家的問題。如何促進數據的收集、共享和利用,這本身就是一個有價值的研究。
局限於系統神經科學。透明和開放的程度應該說是逐漸在發展。
對於數據、代碼的公開,多數期刊並未有嚴格規定,我們上傳數據也是自己內部的數據格式(基於matlab,加上說明文檔)。
材料倒是基本上是公開的,來來去去都是幾家主要供應商。
回到數據和代碼,為什麼沒有統一格式呢?我想最大的問題在於這個領域還是太新,大家都在造輪子是因為還沒有實現標準化。其實也有不少開源計劃(硬體上有open ephys, miniscope等;軟體方面新開發的演算法也都會放在GitHub,比如kilosort和Suit2P)。但很難說哪些會是曇花一現,哪些會成為真正主流。
與其說對標準化有什麼抗拒,不如說主要精力還是在於探索新技術和新發現上面。作為從業者當然希望這些技術可以儘快成熟。
但我個人觀感是今天的主要矛盾恐怕還是一個技術問題而不是政策問題。
跑個題。在另一個意義上的公開是學術評論過程公開:這裡特別提一下eLife和bioRxiv,前者有很多公開的審稿人意見與作者回應,後者作為越來越得到認可的預印網站大大提升了傳播效率。透明和開放的程度是越來越好的。
舉一個簡單的例子,現在越來越多的人開始把論文預發表。今年vss還有人討論了這個問題。
至少把實驗的設計和邏輯在實際結果之前透露。首先可以避免出現那種為了結果,做了一堆實驗然後報告其中有結果的 『挑選』。其次,給那些真的沒有顯著的成果一個公開的機會;畢竟發表一個不顯著的內容其實很難,但是有時候事實就是不顯著,由於期刊傾向顯著結果,很多有價值的成果就被遮蔽了。
總之以後會越來越好吧。
我所在的專業是社會神經科學。個人認為一定程度的數據公開和透明是一個大趨勢。大家都知道現在很多心理學和神經科學的實驗結果沒有辦法重複。 預註冊實驗(pre-registration)和數據/分析方法公開是兩個有可能讓科學更加有價值的辦法。
至少從我們實驗室來說,每個新的項目都要預註冊,新發表的文獻根據期刊要求在實驗室自己的github repository上傳處理過的數據和分析過程(公開原腦數據還是有各方面的挑戰)。這裡是一個我覺得很好的例子:
https://github.com/nomcomm/BrainConnectivitySocialNetworkPNAS我是做衛星遙感方向的,坐標英國
遙感這塊目前數據共享美國和歐洲可以說做得是相當好了,基本都是免費公開,任何人註冊個賬號就可以下載。當然,這個局限於非軍事用的數據。不過像landsat, sentinel, viirs, modis等等,可以用的數據太多了。地表觀測,溫度,氣體,顆粒物檢測應有盡有。而且遙感數據也是用戶/研究者越多,演算法越得到改進,NASA的MODIS就是個很好的例子。
想起有一次,和英國企業合作申請項目,他們非常驚訝我們手頭上有這麼多數據,說我能幫你招攬很多客戶來買你的數據。老闆回復,我們是研究人員,不掙錢的,數據都在網上,歡迎你們隨便下載使用 ^_^
化學對數據公開的程度和細分學科有關,一般比較正規的雜誌都要求實驗過程和表徵數據。其中個人認為比較嚴格的是有機領域,其中比較好的雜誌一般要求NMR(H、C)和MS必有。除了文本數據,一般還帶有譜圖。有機領域最公開的是Organic Syntheses,有點類似Protocol類的雜誌,裡面發表的內容會被編輯選的多個實驗室重複,需要達到文中的內容才會發表。而且有機類的雜誌對數據質量也有要求,比如NMR譜圖和結果要求是比較嚴格的(比如峰歸屬及匹配,J耦合等),但是如果非該領域的,即使是頂級雜誌要求也不是很高。
個人認為最可以有貓膩的是材料類,重複性會比較差,但是只要那個組保留有文中的材料,即使聲稱的製造方法不好被重複,一般也是沒問題的。
自認為我所在的化學反應動態學領域,數據透明和共享還是很公開的。
舉個栗子,當年我們嘗試重複某個比較厲害的實驗,重複不出來。於是給作者發了郵件諮詢。兩天後一作和通訊作者兩位聯合給我發了一封長郵件,粘貼進word單倍行距寫了整整四頁。。。於是後來Gordon 會議上果斷逮住這位作者請他喝了酒。。。個人總結,可能也是因為我們領域本來人就少,清水衙門。不夠熱門,又很難入門,於是留下來乾的都是真愛。不太在乎多發一篇文章少發一篇文章的問題。有些熱門領域門檻偏低,文章影響因子又大。所以功利的人就多一些,氛圍就差些。看了其他回答,突然覺得我等算圈圖的真幸福。。。程序包全是開源的。。。
數學:完全開放。
宣稱自己得出一個牛X定理但是證明過程保密的一般都是民科。至少在國內,考古和出土文獻這方面的透明度和開放度應該是最差的,通常都是誰挖出來誰先研究,在發掘方自認為把「值得研究的基本研究完畢」之前,這些東西的細節內容是不會公布的。
題主可以稍微關注一下生物醫學,或者生物醫學工程類的論文,從NSC往下到二區截止,重複不出來都快成了主流了。我身邊(交叉方向,生物,材料,力學)就有不下三個老師(總共也就五六個),明確地說實驗就是調好結果發文章,只要有一個可以就行了。說句不好聽的,我都懷疑他們自己能不能重複出來(別人幾乎別想完全重複)。可怕的是,我們組最差的paper也發在一區,多半都發在top期刊上。有很多純生物的同學,經常自言自語我到底在做什麼,照著protocol一遍遍做實驗,等到想要的值高了就可以發文章了……這就是現實吧,我不了解其他方向如何,但我深切的知道我周圍的人們如何像蛀蟲一樣蠶食著國家給的大蛋糕。作為未來很可能繼續科研的我,私慾上我希望科研繼續這個樣子,因為會變簡單,容易(用身體的累換腦子的累)。但作為一個還有一些期望的人,我希望科研能變一些,消除一些騙,混,偷,最後留下願意動腦子解決問題的人做科研,哪怕慢一點,哪怕因為不夠浮誇沒能發到什麼什麼期刊上。
心理學上有兩個春天:一個是當年馮特把心理學帶到了科學這個門裡,但是帶進後怎麼玩,看個人造化。前輩們很出色,做了一些工作,把心理學開闢出了認知的大道。第二個春天即大數據與心理學的結合,心理學是停滯不前像精神分析那樣慘死還是像化學一樣從鍊金術一躍成為主流自然科學,很重要的一個指標就是數據的公開透明化。然而如今來看,數據透明化一點都不樂觀,我曾經思考過這個問題:這是好事,為什麼倒現在沒有組織起來?今天我看到了各位的評論,突然有點覺悟了:看似客觀的數據實際是帶有指向性的價值色彩的,老闆昨天發一篇論文,我今天就可能立馬把他的論文批了。這個專業研究的核心本質上是價值問題,儘管要立足於所謂的數據,這其實也是學科的先天性使然。故數據公開化如果出現的話,問題是否會更多?面臨這種尷尬是否存在一種有效的機制來處理?如果暫時無能為力,科學體又怎麼看待心理學本身?這一切,聽起來有些陰謀論的強調,但是從去年一個OSC大鬧天宮來看,這些問題必然存在的。所以,從大的角度來說,這是心理學中的一場革命,小的來說,是每一次實驗質量的改觀狀態。如果真想讓數據透明化成為主流,建議讓目前領域的國際學術帶頭人在SCIENCE上多寫幾篇文章,自上而下帶起來形成一種風範。然而,不過,話又說回來了,這個薛定諤的天氣究竟是春還是冬,不試試誰知道?
社會學,尤其是定量方面的研究,不少都是基於大型社會調查的結果進行的,透明度和公開度幾乎100%。數據對每個學者是公平開放的,如何利用這些大家都有的數據完成研究,更能展示出學者的水準吧: )
題主談到了數據透明問題,其實這是很令實驗室PI擔憂的事情。國內很多交叉學科的實驗數據都是為了發paper而製造出來的,如果審稿人稍加認真,大多數paper不再是單純重複問題,而是容易涉嫌綁上捏造的嫌疑。所以如果去尋根問題的話國內很多領域內目前被奉起來的大牛都都會跌下神壇。毫不誇張得說,放在國內這個環境,北師腦所至少一半PI會栽。所以個人角度不建議題主去砸人飯碗,無論你的動機多麼高尚,畢竟這件皇帝的新裝的背後是真金與白銀。
推薦閱讀:
※人人網的馮悅是怎樣的一個人?
※科研工作者在野外工作時,可能存在哪些生命危險?
※2016 年你心中的十大科研成果是什麼?
※如何看待摩托羅拉宣布起訴海能達?
※「你做的東西沒有用」是對博士生最大的打擊嗎?
TAG:科研 | 研究方法 | 學術期刊 | OpenScience | 可重複性reproducibility |