何處安放的數據

何處安放的數據

來自專欄中科院之聲61 人贊了文章

近些年,天文大數據、地理大數據、網購大數據、醫療大數據等在各行各業大放異彩,「大數據」一詞正逐漸滲透到我們的生活中。對於生物圈小夥伴來說,生物大數據,或者更嚴格地說生命組學大數據更是高頻出現在大家的論文、標書、PPT 報告中。那麼到底什麼是生命組學大數據?這個數據有多大呢?

隨著基因測序技術的不斷升級,測序成本的下降速度已超越了摩爾定律。2001年花費30億美元測一個人的基因組,現在只需1000美元。基因測序已成為生命科學研究中不可或缺的技術手段,其在生物醫學領域的廣泛應用促使生命組學數據爆髮式增長。生命組學大數據種類多,數據量大,包括基因組,轉錄組、蛋白質組、表觀組、變異組、表型組、代謝組等。以人的基因組來舉例,一個人的基因組約30億個字母(A/T/C/G),編成每本66萬字的新華字典,約2000本。

雖然基本的遺傳信息只有A、T、G、C四個字母組成,但基因組中這四個字母不同排序構成的遺傳密碼很大程度決定了個體的生老病死。一個人成長過程中,不同時期或狀態下採集的生命組學數據對於分析個體遺傳背景等變化,進行健康指導,輔助精準醫療具有十分重要的意義。目前,美國、英國、韓國、冰島、沙特等相繼啟動萬人級以上精準醫學研究計劃。我國在健康中國戰略的引領下,也啟動了十萬人百萬人級別的精準醫學項目。

據估計,一個人一生將產生10 TB醫學數據。如果在不遠的將來測序與精準醫學在我國大面積普及應用,每年將產生約10萬 PB 的數據量。10萬 PB 是什麼概念?如果用1個T的移動硬碟存儲,每年將需要1億個這樣的硬碟。

問題來了,這麼多的數據怎麼放?早在上世紀80年代日本與美國就相繼建立了國家級數據中心,分別是 DDBJ 與 NCBI。90年代,歐洲也有了自己的數據中心 EBI。這三個數據中心同屬於國際核酸數據共享聯盟 INSDC,主要針對生物信息數據的存儲、審編、分析,在國際上保持著十分重要的地位以及影響力。尤其是美國 NCBI,其全球數據中心 No.1的地位至今無人撼動。而由於其政府原因造成的多次 NCBI 停擺事件也讓生物圈的小夥伴們驚慌不已。

為了促進數據共享與利用,在國際期刊發表論文之前雜誌往往要求作者將相關數據遞交到國際認可的數據中心,即以上三大數據中心。然而,不容忽視的是,目前全球公開的生命組學數據已近10PB,其中我國貢獻的數據量約佔30~40%。而在未來,作為一個人口大國,我國的數據貢獻量絕不會止步於這個數字。與此同時,中國本土各生物實驗室產出的數據尚未得到統一管理、共享、整合,寶貴的生物數據往往被雪藏,形成了一個個數據孤島,大大降低了數據的利用價值。

為了有效管理與高效利用這些大數據,擺脫「數據弱國」命運,亟需加強和規範生命科學數據管理,建設面向我國人口健康和重要戰略生物資源的生物大數據資源管理平台。針對以上問題,國務院辦公廳於今年3月17日頒布了國家《科學數據管理辦法》,這也是我國首次在國家層面出台相應政策以補齊科學數據管理的短板。

(來源:新華社)

自《辦法》頒布以來,中科院北京基因組所生命與健康大數據中心的小夥伴們繼續埋頭苦幹、加快步伐建設生命組學大數據管理體系,以期望為我國生命組學數據儲存管理提供強有力支持。

早在2016年,北京基因組所生命與健康大數據中心就建成了原始組學數據歸檔庫 GSA,專註於原始組學數據歸檔與管理,並提供免費的數據存儲、共享、訪問服務。經歷兩年多修改完善,GSA 已日趨成熟。GSA 遵循國際 INSDC 數據標準及資料庫建設標準,具有安全的數據存儲平台及系統的數據管理機制。作為中國首個被國際期刊認可的組學數據歸檔平台,GSA 已獲生命領域包括 CellNaturePNAS 等在內的多數國際期刊認可。

GSA 對數據進行分級管理,私有數據和公開數據存儲於不同磁碟空間,並有相應災備策略,最大限度保證數據安全。對於公開數據面向社會提供公共且免費的數據訪問服務,為科學數據開放共享建立良好生態環境。對於涉密數據,如人類遺傳資源,GSA 建立了一套完整的元數據信息加密機制和數據受控歸檔機制。此外,針對大型、合作型項目,GSA 還提供了傘狀結構管理。

截至2018年7月31日,GSA 已服務於93家法人單位,數據資源達到556 TB,其中公開的數據資源230 TB。將數據提交至 GSA,既能落實單位統一管理,也不耽誤發表文章,還不用擔心數據傳輸的網速問題,科研人員的大數據終於有了新選擇!

作者:馬利娜 桑健

來源:中國科學院北京基因組研究所

推薦閱讀:

hadoop搭建具體步驟——第二章(完全分散式)
大數據的價值——豈止於大
從入門到精通:大數據編程開發
今日數據行業日報(2017.01.06)
技術專欄 | DMap——實戰Vue百萬條數據渲染表格組件開發

TAG:大數據 | 中國科學院 | 數據安全 |