怎樣更好地保存科研數據?
包括但不限於實驗數據,資料數據,相關文書,相關文獻等電子文件,以及手寫的數據。
感謝回答,有個不情之請就是……可以操作性再強些嗎?……
按照項目,將同一個項目的所有數據都放在一個文件夾下面。
在這個項目下,針對每一個要說明的問題,建立子文件夾,然後將能說明這個問題的數據,按照儀器或者方法的名稱,分別建子文件夾。在子文件夾內,按照數據獲取的日期,建立子文件夾,存入原始數據。然後,建議每獲得一個能用的數據,及時整理成能用在文章當中的數據,比如圖片或者圖表,保存在項目下一層的子文件夾內,新建文件夾保存,同時將作圖用的原始數據複製過來,以便後期整理的時候使用的方便。
項目相關的文獻,在項目下新建子文件夾,把文獻放入。同時另建新文件夾,用來存放Endnote的文件。用文件管理軟體來管理文獻是最好的了,但是要把文獻庫分別建立好,然後注意在Documents裡面備份。
文書和資料,項目下另建文件夾保存吧。
每個項目,至少有一個移動硬碟的備份,雲空間夠的話,可以考慮將能用到的數據,文獻和資料,備份到雲端一份。隨時注意同步。這個問題好啊。我來分享一下我們的做法,也沒有很特殊。我們實驗室是搞CS的,一般的數據主要就是代碼、實驗用數據和各類結果、圖表等。
- 老闆專門拿出一台Server放大家的SVN,代碼和自己在寫的latex都會commit進去,自己也會備份。
- 那些做實驗要分析的數據,動輒幾百GB,甚至上T,是沒那麼大空間去備份的,基本就是放在各自project的server里,加上許可權保護,外人是絕不會動的。如果管理員發現某個server的可用空間過低,會check每個用戶的使用空間大小,然後提醒我們刪除無用的東西,如果都比較重要,那就買來新硬碟插進去。當然硬碟是帶RAID的。
- 各類圖表結果,除了自己會存好以外,因為這些東西都會出現在給老闆的report裡面(郵件附件或Google drive共享等),所以在郵箱里或者Drive裡面也會順便備份一下。
- 論文一般不怕丟,我個人是放到Dropbox裡面,經過歷次各種免費的促銷、升級、優惠等等,現在dropbox已經有70+GB了,各終端同步,用起來很爽。
實驗室和我們自己組的server有好多,有兩個技術很過硬的專職管理員負責管理,定期維護。除大server外,分配給我們個人用的電腦每三年一換。所以硬體基本上還是很給力的。
大家都是說如何在計算機上保存數據。
我要提醒,一定不要忽視原始,手寫記錄數據的保存。
可能是由於學科的關係,我們是要經常在野外做實驗的。
現在的測試儀器都比較先進了,都配備有自動數字採集儀,並能夠存儲在存儲卡上。
但做實驗的時候,我還是會帶上實驗記錄紙,將測試結果記錄在紙上;或者利用採集儀的輸出功能,現場將結果列印出來,單獨保存。
這是因為:
電子存儲方便,將來處理數據也很方便,但可靠性我一直存疑。電子產品是有一個合理的工作環境的,如果環境惡劣(例如我們在青藏高原上做檢測),電子儀器是有可能失效的。存儲在存儲卡上的數據是有可能丟失,雖然可能幾率很小,但是並不是沒有可能,更糟糕的是,這不可控,誰也不知道什麼時候數據會丟失。
列印出來或者手寫下來,這個可靠性我們是可以保證,交給仔細的人保管,隨時提醒。回到實驗室後,在和電子數據核對,如果有問題,以列印結果為準。寫在最前面,自認為做的事情都還夠不著科研這個詞,但是也在實驗和保存數據的過程中苦惱過,分享則個~
首先,要保存什麼?
既然是科研了,文獻、原始數據肯定有,另外還有寫的文章啊,隨手記的靈感等等。先說文獻
文獻管理工具常用NoteExpress和Endnote兩種(NE和EN),都是PDF的可以使用Endnote,有知網學位論文的,NoteExpress也許更適合。畢竟Endnote只能在pdf上獨領風騷,文獻有.nh的那種,在Endnote上一會兒看得到原文(pdf),一會兒看不到(.caj或.nh)個人覺得還是很糟心的。另外這兩種工具在寫paper的時候方便生成參考文獻。有了這樣的文獻管理工具,保存文獻這一工作,我不會再在電腦的某個盤裡建好幾個子文件夾分類了,有需要的時候直接從NoteExpress里點出來就好。
以上指的是我們已經有原文的文獻。針對下不到(或暫時下不到)原文,頂多只有摘要的文獻,這兩種管理工具的便捷體現得更為明顯,因為我們可以直接編輯這條記錄,把摘要複製進去。
但是!我們要未雨綢繆。萬一這個軟體突然那天告訴你無法打開了,重新安裝也許記錄都沒有了怎麼辦?除了定期導出做備份之外。對於有原文的文獻,可以考慮使用雲。沒有原文的,備份吧(攤手,我沒有想到方便的辦法,摘要做成word之類的我還不如備份呢)。
再說雲
說到雲的話,文獻數據筆記可以一起聊了。a.首先不要太信任雲空間@Noprl Roget,它隨時可能用丟失了封閉了和你翻臉;b.哪怕是都列印出來作為實體儲存,也有火燒水浸被蟲蛀等種種可能(我開玩笑的),主要是那麼一大摞紙,以後怎麼存放攜帶和檢索?所以,雲還是要用的。1. 有道雲筆記
我知道有Evernote,但是無論國際版(同步太不方便)還是印象筆記,不打算花錢升級的我都只有60M一月,從我個人的使用量來看,不要說文獻,存幾個實驗程序和一兩輪數據就紅了。所以在寫論文時期,我用了有道雲筆記。選擇雲筆記而不是網盤的原因在於,我可以,也需要在儲存數據的時候有一個直接可視的界面告訴我些文件是幹什麼得來的,我做了什麼操作。如果是網盤的話,可能我得在每個文件夾里多寫個readme。
2.標籤和網盤(還是Evernote好)
還是要說Evernote。有道雲筆記似乎沒有標籤這個功能。對於文獻:如果你願意按照Endnote或者NoteExpress的分類給它設置文件夾,耐心等待每月60M,把原文一篇一篇放進去並添加標籤如「13年論文參考」「實驗範式」「FOK」等等的話,這樣也是很方便檢索的(我這麼做過,但是沒耐心等了。。。)所以對文獻還是使用管理工具,好好備份吧。如果擔心電腦的損壞而丟失原始文件的話,請申請個網盤,把原文都丟進去。
對於數據:如果短時間內會生成大量數據的話,Evernote是不行的!當這項工作完成,這些數據都成為過去的時候,可以在你的網盤裡建這麼個東西:某某項目原始數據,然後在裡面按照時間打包數據(如果你的數據和我一樣是一輪一輪的話,或者用你喜歡的方式),寫一個readme,把你的筆記里的內容複製過來,做成時間線,放在原始數據文件夾下。某一天你需要重新開啟它們的時候,你會知道當初你做了什麼。
對於靈感,筆記等:文獻的筆記可以直接寫在管理工具里。那些你突然而來的靈感,隨手記錄在Evernote里的,你可以把他們留在Evernote中(手寫的請拍照或拍照後提取文字或碼字上傳),或者導出一個文件,整理到你的網盤裡。
最後提一下paper如果你對你正在寫的東西的知識產權非常在乎,那麼請不要輕易把他們放在網路上。從數據到文章以及任何筆記,在使用雲的時候,請多想一想,是不是願意它們在一定程度上可共享。1.使用自動保存功能,word默認是10分鐘,你可以改的更短一些2.重要文件每日備份,甚至是修改後立即備份,備份到與原文件不同的介質上3.數據保存到非系統盤,系統盤讀寫頻繁,誤刪除後找回幾率小。最好用獨立的分區保存重要文件,對數據恢復是有好處的4.對於windows系統,重要分區打開系統還原功能,甚至能還原所有你修改過的版本,當然需要佔用不少空間5.使用帶防寫的移動介質(現在越來越少了)6.對於不需要修改的資料,刻盤(用高檔刻錄盤)並保存在乾燥陰涼處7.硬碟有問題馬上備份然後換新硬碟,對於3年以上硬碟要加強備份力度8.不要太相信雲空間
自己私人的備份:
常用的資料(文獻,在寫的代碼和文章,掃描的手寫資料)通過google drive或者dropbox雲端同步,文獻還可以通過zontera或者mendeley的雲端同步,個人電腦里的其他資料通過time machine備份。好處:一切設備都是自己的,速度快,靈活
壞處:容量有限,不捨得上RAID通過實驗室備份:
Network attached storage,專門用來存放數據的伺服器,可以在上面rsync備份數據,特別是從計算用的伺服器上轉移過來,開git管理代碼。壞處:設備不是自己的,通過網路速度一般好處:可以上RAID,容量大超出備份能力的特大數據,沒有什麼辦法,加緊處理出結果,減少意外可能。科研數據?沒做過科研,說說數據怎麼保護吧:
重要數據用raid1存儲:兩個硬碟里會保存相同的數據,硬碟壞一個沒事,趕緊換掉壞盤不會丟數據系統盤只讀/斷網/禁止插u盤:減少中毒幾率(會很痛苦,因為一重啟系統盤就又回去了,不過大部分的電腦病毒也活不了了)
紙制文件數字化:照張照片存硬碟,也便於檢索和查看
選用更安全的雲備份,這樣本地數據損壞了也沒關係(別用百度雲,它也容易出問題)
刻光碟存銀行保險箱?根據數據的重要程度選擇保存方式就好了
另外如果是需要保密的數據可以使用加密電腦分區的方法
- 數據都是備份到移動硬碟和課題組的伺服器,rsync 大法好。
- 文獻管理……我就是維護好自己的一份 BibTeX 的 .bib 文件,沒做別的什麼。我沒有把文獻下載到本地的習慣,基本想查文獻就去 SAO/NASA ADS: ADS Home Page 直接查了。其他專業有什麼在線文獻檢索我也不知道
- 有些科研用的代碼會託管到 GitHub 或者 BitBucket。但是論文源代碼不會託管,主要是防止別人看到(雖然 BitBucket 有私密 repo),一般是 rsync 到移動硬碟上。
- 平時的筆記基本都是手寫,用活頁夾管理……
推薦閱讀:
TAG:科研 |