中國科學家的研究工作往往受制於數據的獲取

中國科學家在獲取重要研究所需的高質量公開數據的道路上越走越艱辛。

在大數據元年之際,我們很榮幸趕上了生物信息學資料庫的發展,我們有幸和各界同仁分享有價值的數據信息,同時我們也遇到了大量獲取技術資源的機遇。直到現在,開放科學的發展趨勢正在幫助中國科學家登上世界的舞台與來自全球的同行們相互切磋。但是在中國的當下,公共數據的開發與分享收到了來自各方越來越嚴重的約束,這種約束力正在限制著每一個中國科學研究人員的發展,如果這個問題得不到解決,日後必將限制中國科學技術的發展。

對於中國科學家而言,高質量的國內數據資料的獲取豈是一個難字可以形容的。大部分的公眾數據都掌握在政府部門的手中,甚至有些部門已經把持數據的壟斷權勢,這讓研究人員對數據的獲取變得雪上加霜。這尤其會對人文與社會科學的研究人員產生研究的影響,但是這種影響會逐漸擴散到環境科學和公共健康領域,因為和這些領域相關的數據往往帶有政治敏感性。比如說,我經常在一些研討會上聽到來自同行關於從大氣污染物水平提取日常數據時所遇到的困難的抱怨。

即使有些數據向大眾公開了,但是很多數據質量參差不齊,這主要是因為最初數據的收集工作並沒有很好的開展。最值得大家關注的案例就是中國備受爭議的國內生產總值(GDP)數據。在國家官方估算的數據和中國31個省級地區上報的每一個省份的GDP數據計算總和之間存在著很大差異。位於北京的國家統計局承認不同的省份地區使用的數據收集方式幾乎是不同的,而且國家統計局正在想辦法讓個地方收集數據的方式方法協調一致。但是迄今為止,官方做的改進收效甚微。

確保網路安全對於國防來說至關重要,但是優質的數據是科學進步和經濟發展的根本。

公共數據的分享現在已經被制定成一種盈利方案。這種做法會有益處,比如說,我們可以編寫一部關於中國公路車輛尾氣污染數據的方案。如果實施方案恰當的話,這需要我們獲取關於每一種車牌號種類的數量的詳細記錄、交通阻塞情況、詳細的發動機參數以及燃油標準等各方面的信息。研究院力爭從公共機構獲得關於車主的最基本數據,因此他們不得不使用那些由實業集團從生產商那裡收集的不是很嚴格的,有時候甚至是誤導性的銷售數據。諷刺的是,這些同樣富得流油的鼓吹自己銷量的機動車製造商可以通過和政府部門有關的特殊渠道購買關於競爭對手的可靠數據,而他們購買這些數據所花費的價格是這些研究院和科學家們怎麼也無法承擔得起的。

在這樣的大環境下,難怪有些科研團隊不想公開自己的科研數據。數據的所有權意味著這寫無形的文化資產可以為科學家在某些學術領域帶來很強的競爭優勢。我的科研團隊受到很多關於索取海運數據的需求,比如說港口統計數據和艦隊信息等,但是我們實在是很不願意和別人分享我們的數據。我們將這些零散的數據進行整理和分類所付出的勞動量和代價是及其巨大的。如果我們將這些數據僅僅供我們自己使用,我們可以根據這些數據創作新的研究論文。

公共數據的免費獲取以及數據質量的提升對政府事務透明性的提高會有很大幫助。儘管這方面的進展極其緩慢,但我們還是可以看到一些積極的案例,並且這些進展已經讓中國社會受益匪淺。值得我們留意的是在2014年發生的關於環境污染數據的公開事件,此次事件為環保部門帶來了相當大的公共壓力。在這之前,只有非常粗略的數據向外界發布。但是現在的環保數據每小時就會更新一次,並廣泛地被中國的政府機關分享。這些環保數據可以讓衛生局根據數據的變化向民眾發出健康預警信號,而教育局會根據數據變化決定是否可以在霧霾天氣讓學校推遲上學時間,交通局可以調整自己的交通管制計劃。但是環保數據信息的公開所帶來的最大益處就是讓廣大人民意識到了環保勢在必行。

這些局限性不僅僅發生在信息的形成環節,信息的持有問題也遭到了質疑。國外學術資源也可以通過技術手段獲取。幾家信息管理局已經建立起數字傳輸通道路障,對蓄意有害信息進行過濾。

作為一名科研工作者,我在中國的研究生活也受到的影響。學術文獻資料的可靠搜索結果幾乎為零。因為我們無法獲取谷歌學術搜索引擎,因為該引擎包含了各種書籍、論文和技術報告,我不得不通過查找資料庫的方式緊跟科學發展趨勢。

確保網路安全對於國防來說至關重要,但是優質的數據是科學進步和經濟發展的根本。資源共享和公眾對可靠數據的獲取可以鞏固經濟和社會健全成長。在中國,解決這個問題會牽扯到廣泛的研究工作,因此我們需要建立一個高效並且合理的數據管理機制讓全體人民獲益。但是首先,迫在眉睫的問題就是要讓廣大科學研究人員可以獲得搜索學術文獻和相關數據的入口。

via:化學數據聯盟

End.

文章來源36大數據,www.36dsj.com ,微信號dashuju36 ,36大數據是一個專註大數據創業、大數據技術與分析、大數據商業與應用的網站。分享大數據的乾貨教程和大數據應用案例,提供大數據分析工具和資料下載,解決大數據產業鏈上的創業、技術、分析、商業、應用等問題,為大數據產業鏈上的公司和數據行業從業人員提供支持與服務。

推薦閱讀:

廖鍾慶:《佛性與般若》之研究
八字研究斷例留存(二十六)論壇或qq
楚帛書的故事:發掘、流轉與研究
腦科學的研究前沿領域有哪些?對我們學習實踐有何啟示?

TAG:科學家 | 工作 | 中國 | 科學 | 數據 | 獲取 | 研究 |