來源 | Nature自然科研 原文作者 | Jeffrey M. Perkel
編輯 | 學術君
如果說硬碟壞了是死路一條,那麼數據丟失還有一線希望。
當Tracy Teal還是研究生時,有一天,她在Unix終端執行了一個常規指令——rm -rf *,這是一個讓計算機遞歸刪除當前目錄中的所有內容的指令,包括所有子目錄。這步操作只有一個問題——她所在的目錄不對。
插圖:The Project Twins
當時,Teal正在學習計算語言學,計算語言學是加州大學洛杉磯分校生物學碩士的必修課。她已經花了幾個月的時間開發運行模擬軟體,終於到了可以開始數據分析的最後一步。她首先要做的是「數據清理和整理」。然而,悲催的她卻誤刪了整個項目。雖然Windows和Mac操作系統都設置了回收站以防此類錯誤操作,但rm命令一旦執行是不可恢復的,除非你早有備份。
在這個數字化的時代,無論是智能手機里的自拍照還是大規模的基因組測序數據集,備份都是極為重要的。存儲介質並不十分可靠,它們要麼容易壞,要麼會丟、被盜,或者乾脆罷工。
備份的方式有很多種,U盤、雲數據存儲服務或大型機構磁帶伺服器等等,研究人員通常會使用不止一個備份方式。但不同的存儲方式有不同的優勢,科學家應當根據自己的數據體量和性質、存儲資源的獲取便利性以及數據隱私,擇其最優的存儲方案。
對於Teal來說,自動備份救了她一命。她開展工作的伺服器會定期將數據備份到磁帶儲存器上,系裡生命科學計算機幫助中心的那些「樂於助人的IT人員」得以幫她恢復了文件。但Teal還是頗感尷尬,她目前在舊金山的The Carpentries任執行總監,這是一家組織科學計算工作組的非營利機構,但她曾是一名IT人員。她形容自己就像是一名必須被營救的救生人員。
我們在這裡總結了11條建議,
希望能讓
所有的數據丟失悲劇不那麼悲催。
01
運用3-2-1法則
美國DriveSavers數據恢復公司的工程總監Michael Cobb提倡在進行數據備份時,遵循「3-2-1」法則,即「3個備份,2個不同介質,1個異地存儲。」比方說,你可以在個人電腦上保存一個備份,在外接硬碟上保存一份,在雲文件同步服務Dropbox(3名或以上用戶每月每人支付12.50美元,就可享有3TB的存儲空間)上也保存一份。伊利諾伊大學香檳分校的信息科學家Elizabeth Wickes說:「這只是一條富有啟發性的建議,而不是硬性規定。」但寶貴的數據應受到額外的保護。
02
問問專業人士
哈佛催化劑(Harvard Catalyst)的數據管理負責人Juliane Schneider的建議是,既然你所在的機構僱人管理日常數據,為什麼不和他們聊聊?你們機構的研究計算中心也許會提供免費或低價的機構備份系統,圖書館員也能幫你制定數據管理策略,經費辦公室還會告訴你資助機構有哪些具體要求,比如數據存檔應以何種方式存儲以及要存多久。她說:「他們希望協助你進行數據管理——特別是在你已經獲得研究經費的情況下。」
03
做好數據管理
有效的備份計劃靠的是聰明的管理方式。加州大學伯克利分校的數據科學家Ciera Martinez建議參考暢銷書《怦然心動的人生整理魔法》(2014)的作者近藤麻理惠發明的整理法——對每個文件都問一句:「這個數據要存嗎?」Teal笑著補充道,「你不能只留下那些讓你看著高興的數據哦!」
對文件進行統一的命名和整理。例如,為每個項目建立專屬的文件夾;將數據和代碼存在特定的子目錄下;每個項目文件夾下應有一個文檔,專門記錄項目的目標、方法、元數據以及各類文件。事先計劃好在哪裡、以何種方式備份數據,並對這些操作制定日計劃或周計劃。
記住,一定要保存原始數據,反倒是中間的過程文件可以選擇性刪除。對於大規模數據集還要給予特別考慮:一些雲服務商對存儲文件的大小有規定;數據傳輸和存儲的成本也可能會很高。
04
保護數據隱私
來自患者或學生的數據常常需要保密,這意味著不能將它們隨意存儲在任何地方。 Wickes說她們單位的研究人員有好幾種基於雲的數據備份選擇,但只有一種被批准用于敏感數據。不妨問問你們系裡的IT團隊應該怎麼做。Wickes提醒道:「不遵守數據保護規定可能會導致嚴重後果,輕則受到經濟處罰,重則失去研究資格。」
05
善用自動備份
自動化在數據備份中十分關鍵。澳大利亞昆士蘭大學的心臟遺傳學家Kelly Smith使用的共享盤會自動儲存至磁帶。過去,她需要手動將文件上傳到網盤,且每月只上傳一次。因此,一旦硬碟發生故障,最新的文件說沒就沒了。而現在加州一家數據保護公司Druva提供的一款基於雲的自動備份系統Druva inSync消除了這一隱憂。「我再也不用擔心這件事了。」她說。
「你不能老是提心弔膽的,」Teal解釋道,「因為當你壓力最大的時候,也是會出問題的時候,碰巧也是你已經三個月沒備份的時候。」
06
保護好原始數據
所有的數據都很寶貴,但原始數據享有不可替代的地位:重新獲得原始數據的唯一方式是重新做實驗。因此原始數據必須備份,並且保存為只讀文件。Wickes曾經不得不終止一個項目,因為她用Excel打開了一個非常關鍵的文件,其中一列被自動格式化,更改的數值完全破壞了基礎數據集。Martinez說,「無論如何」保護好你的原始數據。
07
確保備份方案可行
你的數據管理方案必須符合實際,無論是對實驗室的新成員還是那些通宵達旦的博士後來說。Wickes指出,「你可能會說,『這個方案很完美。』那我問你,如果你剛在一個問題上連續工作了24小時,你還願意在凌晨3點去做備份嗎?在你和一個代碼問題奮戰到一半時,你會去做備份嗎?」你需要和整個團隊討論備份方案,確保方案切實可行。然後,就像面對一台零下80°C的冷凍庫一樣,你需要假設災難發生後會有什麼後果:哪些數據會丟失?最快多久能恢復?Teal說:「即使做一下思維實驗也會很有幫助。」
08
定期測試備份
不要想當然地認為備份運行良好,測試一下。這些文件打的開嗎?運行所需的應用程序、登錄憑證和註冊密鑰都有嗎?Wickes系裡的IT部門為他們在Code42 軟體的CrashPlan上註冊了免費帳戶,可以將數據自動備份到雲端。有一天,Wickes決定測試一下她的備份,卻意外發現帳戶已經在六個月前就停止同步了。「還好我用時間機器進行了本地備份」——她說的時間機器是蘋果公司為Mac操作系統設計的備份程序。Cobb再次強調了他在第一條建議里提到的3-2-1法則:「先按3-2-1法則進行備份,然後再存一遍(部分關鍵文件)。之後在不同的計算機、不同的房間或不同設備上進行測試,因為如果發生最糟糕的情況,你的設備也不復存在了。」
09
防患於未然
生活處處有意外。Cobb曾在2017年的一場森林火災中失去了所有個人財產,他的一位客戶曾將96個硬碟全部存放在消防噴淋裝置下。有一天噴水器爆裂,所有磁碟付之一炬。「那裡面的數據都沒有備份。」他說。2012年,紐約洛克菲勒大學神經生物學家Leslie Vosshall放在地下室的伺服器在颶風桑迪侵襲之後慘遭被淹,差一點丟失了蚊子基因組測序數據。雖然此類事件在所難免,但它們一般是可以預料的——這就需要我們想盡所有可能的風險。大約一年半前,Cobb的辦公室受到了一次小地震的衝擊,這在加州並不少見。蹊蹺的是,他曾經的老客戶、美國前總統傑拉爾德·福特的照片從牆上被震了下來,「不偏不倚」地砸中了他的筆記本電腦屏幕。「在那之後,我就覺得『最好還是把東西放放好,做到有備無患』。」
10
保存一份離線備份
連網的備份工具用起來非常方便,隨取隨用。但操作失誤或惡意軟體也讓這些工具有隨時受損的風險。加州數據恢復公司Data Mechanix的首席技術官Craig Rager表示,他的許多客戶都遭到過勒索軟體的攻擊,病毒會給計算機的硬碟加密,使其無法使用。他說直接連接到計算機和通過網路連接的備份設備都易受此類攻擊。「由於你無法百分百規避這種危險,你能做的只有將備份好的設備離線或不連入網路」,比如關閉它們的電源。
11
學會未雨綢繆
備份的最終目的是能在將來使用。所以,Teal的建議是,想想「未來的你」。對數據的保存介質以及打開它們的應用程序做到心裡有數,該更新更新。Vosshall的很多早期數據都是用過時的磁碟格式存儲的,這意味著雖然有備份卻無法訪問。「我不得不去古董店找讀卡器。」另外,即使雲存儲也不是萬能的:數據存儲公司可能會改變業務方向,你也可能無法登陸帳戶。因此,本地備份是最好的做法,或至少在獨立伺服器上備份。Wickes說:「人們會問,『你是說不要相信Google Docs咯?』其實,不是說相不相信Google Docs,而是不要無條件地相信訪問許可權。」
原文以11 ways to avert a data-storage disaster為標題
發布在2019年4月1日《自然》TOOLBOX上
?
Nature|doi:10.1038/d41586-019-01040-w
版權聲明:
本文由施普林格·自然上海辦公室負責翻譯。中文內容僅供參考,一切內容以英文原版為準。歡迎轉發至朋友圈,如需轉載,請郵件China@nature.com。未經授權的翻譯是侵權行為,版權方將保留追究法律責任的權利。
? 2019 Springer Nature Limited. All Rights Reserved
本文來源:Nature自然科研(ID:Nature-Research)
轉載本文請聯繫原作者獲取授權,同時請註明本文來源。
※素質教育和應試教育的區別在哪?※考試時,後桌同學讓我給她看大題怎麼辦?※你怎樣看待班裡同學學習優秀但為人驕傲,不與其他同學玩的學生?※圓桌論壇:求解城市流動兒童教育問題※同一個班級、同一個老師,孩子間差異的真正原因(家長必讀)
TAG:教育 |