給 sci-hub 做鏡像需要多少存儲空間?
其實這個問題的前一個步驟也讓我很茫然,就是如何給 sci-hub 做鏡像。
目前積攢了大概不到 24T 的存儲空間,就時不時地想也許可以給一些有意義的網站做個鏡像,以備斷網之類的情景。故有此問。
最近sci-hub域名好像又悲劇,直接打開的話只能用IP地址。這個問題我曾研究過一小段時間,稍微有點了解,雖然我沒有實際去實施,但提供一點我了解的信息。
現在 sci-hub 項目在和 libgen 項目合作,在 libgen 上有個選項,可以搜索 sci-hub 里的論文。與 libgen 和 sci-hub 鏡像、資料庫導出文檔有關的信息可以在 ligben 的論壇上找到,地址是 genofond.org
需要註冊,這個論壇有一個FAQ頁面,地址:Library Genesis: Miner"s Hut / Барак старателей
很多都是俄文,可以用Chrome的網頁翻譯功能看,Safari有個網頁翻譯插件也可以看,俄文翻譯成英文效果比中文好,第9條和第10條是跟鏡像文件有關的,他們似乎是使用一個MySQL資料庫存儲了所有文檔和論文的地址,搜索到之後,從資料庫獲得地址,再從某個根存儲伺服器獲得實際的文件。
libgen 所有資料庫的 dump 地址:Index of /dbdumps/
另一個FTP地址,也是類似的數據:Index of /dbdumps
科學論文鏡像:Index of /dbdumps/scimag/
實際的SQL dump文件,是在GB級別,2-8GB的樣子。
如果是所有的論文,據說sci-hub有6500萬篇,另一說是9000萬篇,保守算6500萬篇,一篇1M,這樣就需要65000000*1/1000/1000=65TB的容量,但是我看一篇論文一般不止1M,平均也許有3M,所以所有的數據大約是百TB的級別。
libgen的電子書數據,200萬本,書的體積比論文大,所以跟sci-hub大約是一個級別。
24TB的容量,我覺得大約可以存儲1000萬篇論文,如果能夠從sci-hub中篩選出一部分,其實也足夠了。
我腦子也有過這個構想,如果題主決定開始實施,有什麼事情我能幫上忙的,歡迎通知我。
聽創始人Alexandra的意思,整個資料庫已經被人備份過好多次了。但是還是支持你幫助備份資料庫,畢竟中國作為下載量最大的國家,如果能從國內伺服器訪問,那速度簡直不敢想。
推薦閱讀:
※學石油的樂趣在哪?
※理想與夢想的區別?
※如果拋開收入,你最理想的工作是什麼?
※平衡理想與現實?
※25歲,在事業單位除了本職工作,有什麼盼頭呢?