是否有可能備份整個互聯網?

如果有,是否有機構已經在這麼做呢?


不知道題主是否了解互聯網(Internet)和萬維網(World Wide Web / Web)的區別,這裡分開說一下吧。

Web 只是 Internet 提供的服務中的一部分,但它是開放性的、以資源共享為宗旨的服務。
利用超鏈接來導航,人們是能夠把大多數公開在 Web 上的內容全部保存下來的。這正是搜索引擎正在做的事,它們定時抓取、存儲、索引所有自己能夠找到的(並且被允許訪問的)Web 資源。甚至還有些服務提供多個歷史版本快照的查詢,比如 http://archive.org/ 的「Wayback Machine」。
當然也有所謂的「暗網」(Deep Web,包括私有內容、未被鏈接的內容、定製化內容等待),搜索引擎是無法完整獲取的。所以嚴格來講,完整備份 Web,也是做不到的。

Internet 的範疇寬泛得多,它本身就是給全世界不同類型的私有/公有網路、計算機用戶間提供一個互通機制。即便是 Internet 的管理機構,也不可能獲得每個私有網路的訪問許可權,所以「備份」就無從談起了。


你一旦開始備份互聯網,你就是互聯網的一部分了


如果單指web的話,搜索引擎做的就是這件事情。不光備份,還索引。


你不能訪問整個網際網路, 因此不能備份。


不可能,因為這個互聯網大多數頁面是動態的,通過用戶登錄、查詢、操作等各種方式動態生成的,而不是靜態的html文本。而備份工作只能通過鏈接網路來存儲靜態內容


這是一個悖論。你備份了整個互聯網,誰來備份你?

這跟圖靈機不能decide圖靈機一個道理


看谷歌怎麼備份數據。可以搜一下這篇文章。

How Google Backs Up the Internet Along With Exabytes of Other Data

抽了一點文章的觀點以及自己一些想法
理解不深還請多多指教

我覺得互聯網本來就是靠數據冗餘被「備份」著的啊。
備份的目的就是,有一天哪裡宕機了數據丟失了你可以把伺服器恢復過來。

如果是一個小產品,應用伺服器啊資料庫什麼全死了的話,通過配置,靠原裝克隆備份的數據,你可以重新把這個產品跑起來。
如果是淘寶這種,哪天淘寶的所有東西全死了,只剩下對所有數據的備份。重新把應用跑起來,緩存伺服器把效率跑到最佳狀態估計都要好久。這好久的這麼一段時間,淘寶會很脆弱,根本不能滿足用戶的需求。肯定夠時間另一家電商把淘寶擠下去。
如果是整個互聯網,哪天它全癱了,癱得大家電腦連網線都不認識。那這個互聯網能不能重啟回來都是個問題。。。

所以別等到產品全死了數據全丟了,最後出來了才找備份的數據restore啊,有小問題就趕緊敲敲打打補補。
大家的做法都是,給數據做冗餘啊。在小問題剛出來的時候,立刻就能被監控到。該換硬碟換硬碟,該修伺服器修伺服器。靠著冗餘的數據把丟失的數據輕鬆找回。
直接備份一個rmdb的數據就給這個資料庫做冗餘了。其餘比如給硬碟組陣列啊,給緩存伺服器搞備份啊也都算做數據冗餘了。
這麼給互聯網產品做備份的好處是,小問題可以很輕鬆解決,所另外消耗的資源比較少。但是如果真的有一天這些數據全瞎丟了,那隻能保留下一些最核心的數據了。
確實沒有人老老實實地把所有所有的數據拷貝一份到另外的硬碟當中。。
要考慮到數據生成速度和你做備份的硬碟的寫入速度。以及有時候bug可能就是數據本身導致的,備份多少份都沒意義。

如果就是想備份整個互聯網所有數據到硬碟上,備份著玩兒
恐怕沒有一家機構能做到。世界上每天在生成那麼多數據,全世界的帶寬那麼大,即便新數據佔得很少,靠一家機構拉不到那麼多網寬啊。。
如果是很多很多機構或者網點一起合作,備份了它們周圍的數據,這些數據tm還匯聚不到一起!
而且即便只是拷貝一份數據,很多互聯網需要的硬體的增量要求增加1倍!

我覺得如果是問說互聯網打碎重建,所有互聯網協議七七八八的重寫,需要多久才能超過現在這境界,有意思得多呀。

而且互聯網積累這些年,感覺有點像人類文明的意思。小問題能自我修復,文明斷了之後只能重建不一樣的吧,怎麼能完全復原。


以科技水平是完全有可能的,因為互聯網的主要內容全部以電子形式存在,以目前存儲形式來看,全世界的數據儲量永遠也超不過全世界的硬碟容量。問題是誰想做這樣的事情?什麼時候才應該做這樣的事情?如何定義備份這個行為?


望做這種事情的人,想必是需要做大數據、大挖掘,乃至信息的大聚合,但這樣做的意義有多麼重要?對人類文明、乃至地球文明來說,有沒有必要?甚至你去問身
邊公司里的IT主管,每個員工(包括公司董事會、高層、創始人之流)的所有數據是否完完整整存儲在公司的伺服器上?有些規範認真的公司,是這麼做的,有!
但你再問他做什麼用?答案往往很無力感,就如同買保險一樣。所以以你現在的思維,想備份全球的互聯網,包括顧軼靈提到的暗網,不管我們能看到的還是不能看
到的,甚至不可想像的內容,技術上講,可以,但為什麼要這麼做?

這就說到什麼時候才應該做這樣的事情?在紙質的書籍文字時代開始出現電子
技術的以後,出現過有人希望將所有的紙質文字都備份到電子存儲上,這是因為文明出現了進步之後,為了更方便的全世界共享知識和保存而做的努力;目前的互聯
網內容,我相信你指的是廣義上的,如果有真正的必要備份、保存下來的話,則會在三種情況下出現:一是出現較高級文明形態的存儲形式,比如以宇宙射線形式的
存儲,存儲空間以立方計算,是真正的空間,而不是現在的磁碟、硅晶片;二是人類文明出現要毀滅的趨勢,所有人可能都會死,那麼當世的頂尖科學家為了後面的
文明留下一些東西,而會儘可能多的備份當世信息(這點的可能性其實不大,因為目前都在說人類之前已經經歷了若干文明,但這些文明無論是消失、毀滅、轉換更
高級生命形態,都沒有留下來什麼完整的備份,僅有一些遺迹和傳說,完整的文明信息備份看起來是沒有意義的,甚至說來是後續文明無法讀取的!);三是最不可能的,就是出現一家龐大的壟斷形
態,它妄圖統治並管理這個世界,則會將所有內容備份,進行數據分析和龐大計算。

如何定義備份這個行為呢?上面一段其實已經講過了,或許是更換一種更高級的存儲形式的備份,或許是為了挽留文明的現有技術上的存儲,和基於全球信息分析、共享、海量計算的同樣基於現有技術的存儲。

互聯網及其上面承載的信息內容之於我們,正如空氣、水之於萬物,越來越成為不可或缺的東西,有人想收集所有空氣和水么?大家可以說我不需要互聯網、手機、電視等任何與電子有關的東西,我做一個山野農夫或海邊漁民,沒有問題!那時候就更不需要備份互聯網了!


這個和科技水平無關吧,要看協作水平


你如何備份一條不停流淌的河?


這個問題怎麼還和電影有關呢?


沒有,也沒有意義


互聯網數據是不斷變化的,你的備份速度是趕不上它的信息產生速度。那幾大網站的數據用秒來算都是驚人的增加。

互聯網是動態的,它只有某一個時刻的狀態是固定的。

互聯網本身就是降低信息傳播成本。強調信息共享。備份毫無意義。

難不成想玩大數據?

另,在互聯網時代,最重要的技能就是

遺忘


整個互聯網都正在「備份」互聯網。。。因為所有數據就儲存在伺服器,而你每一次的訪問,就等於你替伺服器在你的計算機里備份了一份你訪問的內容;再加上很多伺服器本身就是有自動備份功能的。所以你能在網上看到的東西,幾乎是不可能只有一份的,肯定有備份!


這個問題, 怎麼感覺是遞歸的


原則上來說是可以的。

技術上來說,互聯網上公開的信息都可以抓取和備份。

現實上來說,很多網頁是私有的、限制訪問的,無法抓取到信息,就沒法備份啦


archive.org


谷歌 不是么?


備份互聯網的意義何在!?


如果可以控制時間的話(讓時間靜止),應該是可以實現備份互聯網!


拋開互聯網 即使你只是備份整個萬維網都很難 尤其是有了動態頁面之後

互聯網?不可能。只要我做一下配置 我所有的pc筆記本手機等等都會成為互聯網的一部分 裡面所有的文件也都是 你怎麼備份?更何況那些高安全性的服務 你都訪問不到談何備份呢 更不提這世上有多多少少五花八門的服務


推薦閱讀:

你在哪些網站會使用真實姓名?在哪些網站上只是用昵稱?
如何查看Alexa兩年以前的排名歷史數據?
個人網站怎麼應對大流量?怎麼做負載均衡?
除了 Airbnb 和 Uber 之外還有哪些領域有分享經濟的精彩案例?
Ubuntu無法升級,怎麼辦?

TAG:互聯網 | 技術 | 科技 | 萬維網 |