互聯網上的數據存儲在哪裡?需要多大?

問題看起來有點大,有點模糊,生命題主非計算機專業,吐槽黨就繞開了。代表了大眾,這個問題我和身邊好多同學都討論過,都說不清楚。

問題由來源於今天我在公司電腦上有一個資料需要帶回學校使用,但是沒有帶U盤,所以我就發在我郵箱,回學校用另一個電腦下載,但疑問就來了,每個用戶都有好多郵件,郵件又包含好多數據,我大概知道一個漢字佔兩個位元組,一個英文字母佔一個B,1kb=1024b ,看起來很小,但是所有用戶加起來應該是很龐大的一個存儲量,而且這個量在不斷增長,這些數據到底存儲在什麼地方?希望專業人士能從給我這類非專業人士解釋一下了。謝謝。

同樣的比如百度貼吧,那麼多文字,這些都存儲在哪裡?我和室友討論,他們都亂扯,說這就是大數據,我勒個去,受不了他們。


數據中心。大概長這樣:

上面每個柜子里都插著一排機器,大概20-40個。整個數據中心就是幾千或者幾萬台都聯網在一起的機器,可能有硬碟,也可能沒硬碟,但一般都有處理器和內存。您就理解為一大堆都放在一起的機器就差不多了。

每個機器大概長這樣:

一個扁扁的方方的大盒子,方便插到柜子裡面。

數據中心每天都有人給這些機器加硬碟換硬碟。由於硬碟經常會出現壞掉的情況,所以你們的每份數據大概都會在裡面的不同機器上存三份,這樣一份壞掉了還可以從另兩份中找回來。

數據中心經常建在荒郊野嶺里,一般會選在地皮便宜,電便宜(比如在水電站旁邊),製冷便宜(比如在一個天然風谷)的地方。數據中心可能有大概1/4的運營開銷是給這些機器散熱(這個數是拍腦袋胡扯的,其實很不準),技術條件好的數據中心可能能更省一點。

不過具體到你的學校,可能他們也就是用了一個比較高端的伺服器,一個學校一共也沒有多少的數據。和數據中心的存儲量不在一個量級上……

還想知道什麼?


題主既然是非專業的,那麼我就從非專業的角度來解釋吧:

數據存在哪?當然是硬碟里,我相信題主應該知道硬碟是什麼吧?就是電腦里存數據的東西:

圖片鏈接自己點:硬碟_百度圖片搜索

那麼有非常多的數據該怎麼存?當然是用非常多的硬碟了。

就這麼簡單。

手頭找不到特別準確的數據,據說Google早些年的時候數據中心裡就有幾萬塊硬碟了,每個按照1TB計算的話,就是10PB的數量級,這個數量用於一般存儲已經基本足夠了。

對於更長期的數據備份,可以用磁帶機,存儲用的磁帶機有點像過去的錄像帶,有不同規格,尺寸一般較大,但容量比硬碟大,據說Google的磁帶存儲里保存了EB規模的數據。

國內的,以百度為例,有一些鏈接可以參考:

揭秘百度雲數據中心那些創新技術

百度大規模拆卸伺服器硬碟 疑升級固態硬碟

應該是幾十到幾百PB規模的SSD。

補充,題主被「雲」這個詞弄迷糊了,「雲」說到底還是真實的硬體,是一堆伺服器+硬碟的組合。所以,所謂的「雲」存儲,數據還是在數據中心裡,數據中心裡就是一堆堆的伺服器和硬碟——所以,還是很多很多硬碟。


我曾經在一家金融企業做過存儲工作,我們的數據普遍都是存放在企業級存儲中,並且通過異地傳輸在另一個地方建立了實時備份點。據我了解,國外銀行業的數據也是如此存放,只不過容量更大,數據中心更為龐大,災備措施也更為嚴密。國內銀行業也是企業級存儲存放數據。原因很簡單,業務持續性要求和交易數據的敏感,要求存儲設備具有高可用性,這樣的需求是普通伺服器自帶硬碟無法滿足的。

舉個例子,我在建立基於光纖的存儲網路時,假設情景是所有的設備都壞了一半,例如控制器,硬碟,交換機,光纖頭等等,在這樣的情形下,系統也必須能夠正常運行,延遲必須小於n ms之內。這就是金融業對於數據存儲的要求。

所以在金融業,數據都是存放在企業級存儲中, 並且在國內數據存儲高可用性做得好的順序是, 銀行,大型交易所好於證券公司和保險公司。國外的話,摩根等大投行和花旗等大銀行也是IT廠商的極端重要客戶、


放在伺服器上。

伺服器就是可以存儲數據,處理數據,功能完爆普通pc機的數據中心。

你在上網時點擊的網站,下載的視頻遊戲資源,所有來自網路的數據,基本都存儲在伺服器上。

通過網路協議和網線,你可以在客戶端以很快的速度和較高的正確率在線獲得存儲在伺服器上的數據。

同樣的,你也可以把你的數據上傳,包括你的郵件,用戶資料等等。

整個的上傳和下載過程形成了互聯網頻繁的數據交換,也就是你常在電影中看到的各種機器信號燈瘋狂閃爍的畫面。


可以負責任的告訴你,你的同學就是在瞎扯。

所有的文件跟數據皆存儲在伺服器。不管是什麼樣的伺服器。

通過網路傳輸,經過層層協議與設備最終將數據傳遞到你的PC/PAD/Phone上呈現出來。

至於你所說的數據在增長,所以廠商的投資也在增長啊!用戶越來越多數據越來越大的時候只能增加存儲硬碟或者伺服器啊,再繼續增加帶寬啊!這些都很貴,都是成本。

這麼說,題主你每天所見到的所有網頁/APP/視頻/郵件等,你所接觸的互聯網其最根本就是要有伺服器來存儲數據。

增加下:

需要多大?可以無限大。也可以無限小。

比如騰訊阿里百度BAT公司,他們的用戶基數大,產品多。就需要無限大的空間,投資就無限大。

比如小廠商的一款APP,用戶量小,一年下來也用不了幾個錢。


大型公司的數據是需要集中存儲的,數據的規模已經超過了我們平時可以接觸到的GB和TB,二是直接達到了PB級別,專業提供數據存儲的公司,比如國外的像IBM、EMC這樣的公司都提供數據存儲服務,國內這樣的公司還比較少,主要是受限於硬體設備,很少有公司能達到PB級別的存儲要求,我現在知道的南京海鉑康好像就是做數據存儲的,不知道南京這邊還有沒有別的公司可以做,北上不太了解,不過EMC公司在北京和上海都有公司,IBM在北京應該也有總部,這種級別的公司存儲收費應該是比較高的了。


我們小單位的存儲使用dvd或藍光碟就行了,硬碟不太保險。


一般企業的數據都是在專用的存儲設備中存儲的。較為常見的存儲系統都是通過san網路構架的。

互聯網及超大規模的數據中心可能會用到分散式存儲,就是將一份數據生成多個副本,存儲在不同的伺服器上。依靠多副本及數量眾多的伺服器來做備份,提高系統的穩定性可靠性。


推薦閱讀:

如何用Python socket寫登陸學校WIFI的認證程序?
計算機學生學編程,覺得吃了夾生飯,雜亂不成系統,不知道應該學什麼、達到什麼水平,求指路?
如何評論PlayStation Now本月末登陸PC?
跟計算機有關的專業學什麼好?
Linux動態鏈接為什麼要用PLT和GOT表?

TAG:計算機 | 計算機科學 | 計算機專業 | 大數據 | 數據存儲技術 |