如何把維基百科完整地拷貝下來?需要多大的存儲空間?
這樣就不用科學上網了……需要多大的存儲空間?
我們可以下載任意網站的所有數據。
Offline Explorer Enterprise或者WinHTTrack都可以,譬如,我們可以用WinHTTrack下載整個網站的內容從而離線學習一個。
我們接下來要去十萬大山考察,那裡沒網,2G的也沒有,可是我們還想學習,於是要拷貝整個知乎。
打開軟體,建立新的工程。
當我們把整個網站複製完畢後,我們便可以在以後沒網的時候再度打開該軟體,點擊文件里的瀏覽已鏡像站點,便可以離線看網站:
在斷網的情況下瀏覽。
這是拷貝了兩分鐘的戰況:
然後你點擊該離線網頁下的任何連接,都可以跳轉到其他離線網頁:
比方說我們點擊「足球」。
隨後出現這個:
再點擊這個頁面上的問題,還能跳轉到詳細頁面:
呶:
我們還可以看用戶:
當然可能拷貝時間太短,所以還沒有達到完全體。
可惜在國內打不開的網站是下載不了的:
但我們可以想辦法在能打開的情況下幹完這件事,這又是另外一個話題了。如果全下下來是多少?
維基百科的資料庫有多大? - 維基百科
英文維基百科在8月3日所有頁面加上編輯歷史的.bz2壓縮文件為356GB,解壓後大約是6.7TB。
中文維基百科對應的壓縮文件是8.5GB,解壓後大約是165GB。
也有這樣說的:
中文詞條截至2015年四月底約146w條,全文解壓後約4.9G,大概每周更新一次。英文解壓後約49G。
文字和圖片而已,並不算很大。
來自日常生活中有哪些十分鐘就能學會並可以終生受用的技能? - 曾加的回答
我們可以下載整個Wikipedia(英語版),它竟然只有40G!
這個40G的文件,包含了450萬詞條和350萬圖片。
文件可以在很多系統下使用,包括 Android,以及Win/OSX/Linux PC電腦 (裝有Kiwix),或者Symbian(裝有Wiki on board)
文件下載地址: Page on kiwix.org
請給本答案評論中的 @He2bei點贊我是搬運工:維基百科:資料庫下載
中文版的下載處:Index of /zhwiki/
文言文版的下載處:Index of /zh_classicalwiki/
粵語版的下載處:Index of /zh_yuewiki/
吳語版的下載處:Index of /wuuwiki/
贛語版的下載處:Index of /ganwiki/
客家話版的下載處:Index of /hakwiki/
閩南語版的下載處:Index of /zh_min_nanwiki/
閩東語版的下載處:Index of /cdowiki/
英文版的下載處:Index of /enwiki/
更多語言的下載處見於ftpmirror.your.org/pub/wikimedia/dumps/,其中多數語種均以ISO 639-1代碼區分。
真巧,今天剛把英文版維基百科下載完。
最新的沒下載下來,下的14年的,將就看。
zim格式,有圖片,英文版40g,中文版7g。可用Kiwix瀏覽。
網上說,zim是一種高度壓縮、附加元數據的開放文檔格式。其它格式的離線文件大小會不同。
貼個地址,速度還可以。
鏈接:http://pan.baidu.com/s/1dDULbBr 密碼:gpb0
官網在這:主頁 - Kiwix
好像有不少人下載了,手機裝了kiwix後,下載的文件也可拷到手機里查看。
update:上面的網盤鏈接里有最新版的種子。
手機離線版下載:http://wiki.kiwix.org/m/
此文的初稿是我在剛註冊知乎時寫的,寫得比較匆忙,沒有做更多的功課,只是想分享給大家這個art project,所以在傳達上出了一些錯誤。很抱歉!
沒想到昨天被推上了《知乎日報》所以很多網友指出了問題,我就在這裡重新修改一下此文。
謝謝大家!
----------------
這是我在佛羅里達大學的同學參與制作的藝術項目「Print Wikipedia」,雖然不是把維基百科電子存儲下來,而是直接把數碼做成了紙質書本,這種視覺和物質存在的衝擊感似乎更厲害,對於信息量和空間的體會也更直接。
本人已於今年五月在studio art 專業MFA畢業,這個我同學/學弟 Thomas Storey(計算機藝術家)參與的Print Wikipedia Project在六月份完成,並在六月18號在紐約的Denny Gallery展出,
目前在美國很火,紐約時報進行了幾次報道。
報道一:http://www.nytimes.com/2015/06/17/books/moving-wikipedia-from-computer-to-many-many-bookshelves.html?fb_ref=Default_r=0
(請忽略右邊搶鏡的死去女歌手,左圖為藝術家Michael Mandiberg)
報道二:http://artsbeat.blogs.nytimes.com/2015/07/13/print-wikipedia-project-reaches-final-entry/
Michael Mandiberg策劃這個項目用時三年,他計劃列印的Wikipedia是英語部分的內容,並不包括世界其他語言的wiki。但是光是英語部分的wiki就有11GB,列印成700頁一本的冊子,計劃要列印7600冊。
「When I started, I wondered, 『What if I took this new thing and made it into that old thing?』 」
這是Michael Mandiberg的初衷,出於好奇,他想看看把這新興的數碼信息轉化為傳統的紙質書本會是什麼樣子。
這個項目的列印一定需要不少的技術支持和經費,他們找到了在線列印定製的網站 http://Lulu.com,他們的市場經理一聽就覺得這是一個不錯的主意,他的原話是 「It』s not every day someone comes to you and says, 『I』d like to make a printed inventory of the largest storehouse of human knowledge in English, and would like to use your website.』 」所以,本著給自己做廣告,加上扶植藝術家的心情,http://Lulu.com就給這個項目提供了技術和經濟支持。
這個項目的展覽被命名為 「From Aaaaa! To ZZZap!,」 在紐約下東區的 Denny Gallery 展出。Michael Mandiberg開始按下「上傳」鍵,11GB的數據就會自動上傳到Lulu並開始編排列印計劃,藝術家們可以通過一台Mac Mini實時監測上傳的列印的進度。觀眾,編程人員和技術人員也可以在這個項目的官網:printwikipedia.com 實時跟蹤上傳和列印的情況。
最終在Denny Gallery展出時,藝術家只展出了列印完成的106本,每本700頁,但是為了用視覺上展示出Wiki的龐大數據和這個項目的原始計劃,畫廊里的白牆都被布置上了特製的牆紙。牆紙按照列印Wiki的書本樣子,模擬了他們整齊排列的樣子。整個畫廊牆面的空間模擬了1980本Wiki書排列展現的樣子。
Everyone knows that Wikipedia is huge, but it takes the physical book — still a 「cognitively useful」 unit of measure, Mr. Mandiberg said — to grasp just how huge. He will not, however, be printing all 7,600 volumes.
「We don』t need to see the whole thing in order to understand how big it is,」 Mr. Mandiberg said. 「Even if we just have one bookshelf, our human brains can finish the rest.」
Michael Mandiberg認為,大家都知道wiki很龐大,但到底多龐大也許沒法親身體會。但他也不會,也不必真的把7600冊都列印出來,因為大家看到了這個展覽現場的樣子,就可以想像7600冊的體積和存在感。最後「計劃列印」的7600 冊的Wikipedia,花了24天3小時18分鐘才在Lulu上上傳完成。文冊共收集了超過7.5 million 的有署名的作者的文獻內容。
最後,上一批我學弟發給我的布展準備、展覽當晚,以及最後作品的圖片。
大家感受下。
有興趣的話可以去搜「 Print Wikipedia Project」
希望你們覺得有意思。
用這個。
資料庫好像50G左右,記不清了,其實很小,因為這幾乎是全部人類的知識綜述了,一部藍光電影也差不多就這麼大。這麼偉大的文明奇蹟居然也要牆,真不知道[不宜討論的政治內容]腦袋裡裝的什麼屎。
https://zh.wikipedia.org/wiki/Wikipedia:%E6%95%B0%E6%8D%AE%E5%BA%93%E4%B8%8B%E8%BD%BD
維基百科提供所有完整內容的電子文件(稱為「資料庫轉儲文件」)給有興趣的用戶。這些數據可以被重複使用,當作鏡像站點,或是個人使用,或是數據備份,或是分析。所有維基百科文章都在知識共享 署名-相同方式共享 3.0協議下發布,圖片以及其他文件則可能以其他的許可證發布,詳情參見Wikipedia:版權信息
資料庫轉儲文件,也可特指名為 *-pages-articles.xml.bz2 的文件,大約每周更新一次。此文件包含了當前版本的條目、模板、圖片描述及基本的元頁面(不包括討論頁和用戶頁)。這已經可以滿足絕大多數需求了,如有特殊需求,請根據壓縮文件的描述下載。
- 從維基媒體基金會提供的頁面下載:Wikimedia Downloads
(※)注意,不同語言的條目內容不一定相同,歡迎您協助翻譯不完善的條目或提出翻譯請求。
- 中文版的下載處:Index of /zhwiki/
- 文言文版的下載處:Index of /zh_classicalwiki/
- 粵語版的下載處:Index of /zh_yuewiki/
- 吳語版的下載處:Index of /wuuwiki/
- 贛語版的下載處:Index of /ganwiki/
- 客家話版的下載處:Index of /hakwiki/
- 閩南語版的下載處:Index of /zh_min_nanwiki/
- 閩東語版的下載處:Index of /cdowiki/
- 英文版的下載處:Index of /enwiki/
- 更多語言的下載處見於ftpmirror.your.org/pub/wikimedia/dumps/,其中多數語種均以ISO 639-1代碼區分。
=======================
如何離線閱讀,百度一下其實有一堆教程 工具有
WikiTaxi Zipedia 其它應該還有很多第三方工具
存儲技術汪飄過並表示:拷貝維基百科,真不需要多大存儲空間。維基百科本身並不大,真正龐大的是存儲在維基媒體共享資源上的多媒體文件。在信息化的今天,可共享的信息以爆炸性的速度增長並不斷發生變化,很難界定出一個確切的容量來保證拷貝下整個維基百科。
現在,隨便一個IT系統所產生的數據量都是TB級別的,與其討論多大的存儲空間,不如討論設計什麼樣的存儲架構能夠滿足爆炸性的數據量。之前,美光和英特爾聯合研發推出了3D NAND技術,使得採用該技術的存儲設備的容量將比其他競爭性的
NAND 技術所打造出的設備容量高三倍(此容量差異通過將美光384Gb TLC 3D NAND晶元與業內其他3D NAND TLC比較得出)。
圖片來自美光科技
如果我們把存儲產品比作為蓋樓,從平面看,想容納更多人入住,就只能把每個空間都做小一點。基本上過去十年,NAND都通過減少單位空間的大小來增加密度。但是,空間很難在無限制縮小的同時保持技術的可靠性,所以3D
NAND採取了一個不同的方式來擴大容量——用3D垂直的方式來增加NAND的密度。這樣,每一個單元的大小,不用繼續縮小,甚至有可能擴大,從而保證它的可靠性。這樣一來,便可通過更小的晶元面積提供更大的存儲容量。
存儲技術發展的目的之一是提供足夠的存儲空間來滿足用戶需要,但其實存儲空間只是一個概念,存儲的架構、性能等是撐起存儲一片天的關鍵。回到問題本身,我想說的是,據了解2015年下載Wikipedia(英語版),大概也就40G,包含了450萬詞條和350萬圖片,(維基官網:主頁 - Kiwix),所以,清理一下你的硬碟空間,應該就夠了。
@豆子 的方法沒試過,不知道方便不方便檢索。我說一下我的心得。
首先根據題主的背景推薦一下Kiwix(之前用P2P下載挺快的):- 它是自由軟體;
- 支持Windows、OSX、Linux、Android,甚至用樹莓派作伺服器然後內網訪問(即HTTP伺服器除了Android,如果開放外網可能會被河蟹);
- 全文搜索;
- ZIM是一種高度壓縮、附加元數據的開放文檔格式,官網有許多現成的或者可以自己製作;
- ……
個人已科學上網,主要目的在便攜所以用MDict(Android、iOS)。可以同時查多個詞庫且網友製作的詞庫有很多,帶圖的維基百科不多個人依舊使用某個12年製作的:◆Mdict詞庫,維基百科,Wiki資源
還有 @帝國將星 介紹的Fastwiki(Android),排版較MDict好且支持全文搜索,開源。還有HTTP伺服器等,跟Kiwix差不多(沒試過)。
最後一個Wiki2Touch(iOS4~iOS8),從iOS5開始要打補丁,需越獄,就是一個HTTP伺服器:Download files for your Wiki2Touch application我從2007年使用多普達的wm手機,大概在2008年左右我手機里就安裝了那時候的維基百科+百度百科+大英百科全書+一大批字典數據包,都裝在那時的一個很好的字典軟體叫mdict上(現在這個軟體應該還有,大概12年時因為百度百科的mdict數據包不再更新,我還專門發過一個微博來表示紀念,現在再次向該字典軟體的研發者和各種百科字典致敬!)你要問那時候這兩個百科有多大?維基百科好像600多m,百度百科比較大,具體多少想不起來了,我只知道我專門在香港花八百多買了張16G的閃迪tf卡,就是為了裝這兩個百科和地圖的資料包。為什麼在香港買卡呢?媽蛋,之前在淘寶上買了一個金士頓的16g卡燒了(這個16g卡大陸當時也不能生產,從歐洲進口的)。關鍵是那個多普達手機說明書上寫著最高支持8g,還是閃迪的質量好啊,當然需要用一個軟體對這張卡進行格式的改動才能正常使用。現在想想真麻煩,但我永遠忘不了我在多普達手機上使用mdict查資料的場景,太幸福了,太滿足了。當時的手機網速慢,網費高,作為一個檢索重度愛好者,竟然能不用網路,隨時隨地查找我遇到的任何概念或者辭彙。哦,my god,上帝為我打開一扇窗,我的手機是萬能的。嗯 ,我寫這麼多,激動了。我現在用的安卓機上的字典檢索軟體叫bluedict,裝了很多數據包維基百科2013版0.92G,百度百科2011版10.01G 以及其它,這些數據包都可以通過 一個叫 掌上百科的網站下到。blumdict是付費的,20元。推薦並紀念。
我記得很早時候(谷歌還沒退出)有人干過這事。。年頭比較久,那時候容量可比現在低的多。。現在數據暴增程度應該追不上存儲。。
你只需要這兩個軟體,fastwiki和mdict,二者都有pc和安卓客戶端,然後下載別人製作好的詞庫瀏覽,當然其排版遠不如網站,不過前者能夠把維基的基本表格顯示出來。無圖的中文詞庫,前者有3g左右,後者有1g左右,後者的詞庫是mdx格式。給你個鏈接:
http://pdawiki.com/forum/forum.php?mod=viewthreadtid=13756extra=page%3D1mobile=2
掌上百科論壇,總有適合你的。
https://en.m.wikipedia.org/wiki/Wikipedia:Database_download
我看到這問題的第一反應是
怎麼寫一個最快的演算法
檢索這麼大磁碟里的關鍵詞
Wikipedia:Database download
pages-articles.xml.bz2 – Current revisions only, no talk or user pages; this is probably what you want, and is approximately 11 GB compressed (expands to over 49 GB when uncompressed).
Wikitaxi
以前下載過一個版本
只有win32版本軟體4M,資料庫用的Wiki的官方資料庫
simple原來是25M
enWiki原來3.5G
http://wikitaxi.org
Wikipedia:Database download 這裡有下載相關資料庫的信息。但是,維基百科的內容是不斷更新的,因此下載的版本有些條目會很快過時。很難想像在上網如此方便的情況下需要這麼做。 除非樓主有別的科研目的。
推薦Kiwix。那到底什麼是Kiwix,是否能滿足題主的需求呢:
Kiwix is an offline reader for web content. It"s software intended to make Wikipedia available without using the internet, but it is potentially suitable for all HTML content. Kiwix supports the ZIM format(劃重點,ZIM格式,可以看出我們下載的離線Wikipedia必須是ZIM格式,目前Kiwix僅ZIM格式), a highly compressed open format with additional meta-data.
Kiwix is free software , which means you can freely copy, modify and distribute it.
Kiwix is mostly installed in schools, universities and libraries which can"t afford a broadband Internet access. It is much faster than the Internet and also can be used by many institutions to save bandwidth and reader"s time. But many people use Kiwix for their own personal purposes, for example, of people suffering from censorship(滿足題主的無需科學上網即可用Wikipedia) or prisoners.
你沒有看錯nowhere or in Jail,這是官網的介紹。不論是否是誇大,可見的是這已經滿足了我們無需科學上網的日常需求了。
Kiwix is really easy to use. It provides a range of features which make usage comfortable:
- Full text search engine
- Bookmarks Notes
- HTTP server
- PDF/HTML export
- User interface in more than 100 languages
- Tabs navigation
- Integrated content manager and downloader
- More features...
Kiwix is small and efficient software, usable on lower powered or old computers. It runs on a large range of operating systems, on Android and on the three main PC operating systems: Microsoft Windows, Apple Mac OS X and GNU/Linux distributions.
那我們再來看一下它的futures,官網上是從以下幾方面這麼說的:
- Portable
- User friendly
- Library
- Search engine
- Web server
- Open
在這裡就不一一展開說了,想要了解詳細內容的孩紙我已給出鏈接。這裡主要介紹的是它的Portable。因為是offline,所以攜帶版的對大多數來說還是很有用的。特別是people suffering from censorship or prisoners。你懂的。
Kiwix is a portable application you don"t need to install in order to use it. You can copy the Kiwix directory and put it wherever you want: your hard disk, your USB flash drive or a DVD. If you want a better integration in your system, an additional installer is mostly provided.
Kiwix supports a wide range of systems and architectures. You can use it with all main desktop operating systems like Microsoft Windows, Android, iOS, Apple Mac OS X and GNU/Linux compatible personal computers. With GNU/Linux, many distributions provide packages of Kiwix.
Kiwix is a really small and compatible software, you can install it on pretty old computers. You can also use it on minimal devices like the Raspbperry Pi or plug computers.
關於Kiwix的使用和Wikipedia的離線包,我推薦的是英文版ZIM格式的Wikipedia的離線包和攜帶版的Kiwix。
Kiwix各個系統和版本的下載鏈接在這裡:Downloads
Wikipedia離線包下載我推薦的是torrent下載,這裡我推薦的這個:wikipedia_en_all_novid_2017-08.zim,這裡把文件下載下來之後用迅雷打開就可以下載Wikipedia離線包了,大小有60.1GB,覺得太大的可以找其他版本的離線包。
下載完之後就可以用Kiwix打開zim文件了,這個時候你就可以在大山裡用Wikipedia了。
文件-打開文件-選擇zim文件,就可以愉快地玩耍了。
END!
有一個軟體叫WikiTaxi,然後下載對應語言的庫,中文大約在2G左右,純文本的。支持搜索,閱讀也很方便,只是無圖。
中文庫的下載地址是 Index of /zhwiki/latest/
軟體請搜之。
題主可以試試Httrack,一個專門複製網站數據到本地的工具
人家都幫你整理好了啊,Index of /enwiki/
Index of /enwiki/latest/
推薦閱讀:
※為什麼中文維基與英文維基的活躍用戶比例那麼懸殊(5600 vs 140000)?
※為什麼很多人願意在知乎回答問題卻不去編輯維基百科?
※怎麼評價中文維基百科裡面相互衝突的命名規則?
※維基百科的除了募捐還能靠什麼獲得資金?如果沒有募捐要怎麼維持?
※英文維基百科上的條目可信嗎,為什麼?