那麼多視頻要上傳到網站上,網站是怎麼容納,是不是要裝幾千億G硬碟?
李峰152588274 03-15 12:01 76贊 踩
本人工作在存儲陣列廠商,簡單說下視頻存儲公司的解決方案
存儲選用上主要使用分散式存儲加分散式文件系統,保證高並發高帶寬,存儲底層會一定選用分層技術,怎麼說呢,很多視頻點擊量爆高,當然會存儲到大容量緩存中,外加外置UPS保護,那麼當視頻沒人看的時候,就自動遷移到便宜的7200轉或5400轉的HDD存儲層中。現在的硬碟最大做到60TB了,企業級大容量氦氣盤已經有10TB,12TB了。特別老的視頻文件且為普通用戶上傳的會被後台分析平台篩選出來刪除來釋放空間。盡量說的直白一點,有什麼疑問歡迎留言討論。
26評論恐怖靈異故事 03-14 22:20 562贊 踩
看你說多少G硬碟,我這個強迫症就受不了,普及下知識,1MB=1024KB,1GB=1024MB,1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB,1YB=1024ZB,1BB=1024YB,1NB=1024BB,1DB=1024NB!
很多大型網站是有自己獨立的機房,面積不等,有的可能只有一個衛生間那麼大,有的有好幾個足球場那麼大。這些機房專門放有存儲功能的伺服器;
很多人用的網盤,你可以理解成你租用這個網路機房裡面伺服器上的硬碟。
給你看看谷歌的機房,這只是一角!
341評論
做全棧攻城獅 03-15 17:43 179贊 踩
隨著科技發展,各類資源生產出來,那作為網站主,這些視頻是怎麼容納的呢?
海量硬碟
作為比較大型的企業網站,例如愛奇藝、騰訊等公司,都有專有機房。這些機房內擁有大量硬碟。畢竟相比較來說,硬碟的價格實在是太低了。想想我們只需要四百塊錢就能購買1T的硬碟資源。對於大型公司來說,完全有準備大量硬碟的實力。
壓縮
在用戶上傳文件或者視頻之後,一般會有專門的轉碼壓縮伺服器。用來把上傳的文件進行壓縮。所以有的時候你可能看到,自己上傳的高清視頻,在進行查看的時候,清晰度並不是很高。這是因為進行壓縮的效果。
去重
在真正保存到硬碟之前,需要對上傳的文件去重。檢測硬碟中是會否已經有相關的文件了。如果有的話就直接指定過去了。
這也就是為什麼很多網盤上面,會有秒傳的功能。命名好幾G的文件,幾面就能上傳成功就是這個原理。
純手寫,如果對你有幫助,麻煩在下方點個贊哦~~
11評論Mave520 03-15 09:55 271贊 踩
國內知名雲儲存服務商多凌雲
是這樣節省磁碟空間的:
(作者保留權利,請勿轉載)
視頻去重
降低重複佔用率,
壓縮採用無損壓縮特殊格式
(例如圖片採用webp格式)
高帶寬採用國內骨幹網節點,IDC快速接入 降低磁碟使用效率
CDN亢余多線CDN進行緩存
多凌雲 隸屬七牛雲儲存分公司
我們是一家專職
API文件分散式存儲 圖片技術處理等
我們服務於中國強企業
快手,美拍,陌陌,時光相冊 等
我們在國內有六個數據中心
(北京,上海,成都,天津,西安,廣州)
其中 〈上海,北京,成都〉為主機房
其餘三個為存儲中心
國外兩個數據中心,負責國外用戶分發
(矽谷節點,香港節點)
社交網路運營部平台技術運營中心下的
數據運維團隊。
團隊主要負責CKV和Grocery
NoSQL分散式存儲集群的運營。
目前團隊有十幾名工程師,
負責八萬幾千台存儲伺服器。
主要部署在成都、天津、上海和廣州等大區域。
存儲伺服器劃分為幾十個SET(倉庫)集群,
共有幾百TB的內存和SSD存儲容量,
我們的用戶群
服務於 阿里巴巴,Google
等各類互聯網核心業務。
我們的技術
____
部署模式
NoSQL集群按SET的方式部署,
SET也稱之為「倉庫」。
一個SET是一個物理單元。
倉庫內至少擁有四種伺服器角色:
◆接入機(代理伺服器)
◆存儲機(主機+備機)
◆倉庫管理機
◆搬遷機器
每個SET可部署為跨機架、跨IDC、跨城容災。一個SET就是一個永不停服、
永不丟數據的獨立的,標準化的服務單元,
類似於標準化集裝箱。
我們最大的SET機器部署數量不會超過上千台,超大的SET會加大管理成本。
在時光雲的海量服務運營模型中,
SET是一個非常重要的概念。接入層、
邏輯層和數據層均按SET單元化來部署。
一個業務譬如QQ音樂可能接入層和邏輯層
各有十幾個SET,數據層有幾個SET。
SET分別部署到不同的區域。
每個SET都能容納一定數量的在線用戶
(譬如500萬在線用戶)。
天津大爆炸2億用戶跨省大調度
8月12日發生在天津的特大爆炸事故中,
時光雲天津數據中心距爆炸現場才1-2公里。
當時天津數據中心高危,現場數名工程師受傷,市電隨時可能中斷,柴電只能支持不到一天。
8月13日我們啟動了大調度,
把天津所容納的二億多華北活躍用戶全部調度
回深圳和上海。調度過程全國兩億用戶無感知
(從那幾天IT業界的新聞來看,
外界對這一大事件毫無知曉)。
這應該是中國互聯網史上最大規模的一次調度。調度的成功受益於SET化的管理,
受益於數據SET的三地同步。
同步是怎麼做的呢?
業務數據按倉庫為單元,
在全國各地IDC部署幾個異地倉庫,
通過數據流水來實現各異地倉庫間
數據同步和一致性保證。
當某一城市的IDC災難性故障時,
業務能迅速切到其他城市IDC恢複數據的讀寫,實現業務柔性可用,
保證業務服務的持數據,並寫入本地倉庫。
技術特點
1.低成本:利用數據冷熱自動分離技術,
2.將熱數據存儲在內存,冷數據存儲在SSD中,從而大幅度降低成本,
且保證20%以內的數據保存在內存中。
3.可擴展性強表存儲空間可以在線自動無損伸縮,業務基本無感知,
4.適合各種規模的業務,和業務的各個生命周期。
5.高性能:單表最大支持千萬次/秒的訪問。
通過網路訪問的延時1ms左右。
單台存儲伺服器千兆網路環境支持50萬/秒的訪問,萬兆網路環境支持超過100萬/秒的訪問。
我們的特點
1.可用性超過99.95%:軟硬體全冗餘設計,
2.雙機熱備,主備切換對業務透明,
3.跨機架跨交換機部署。
4.數據持久性超過8個9:數據落磁碟存儲。
5.多內存和磁碟副本,具有災難時回檔能力。
高可用架構
經過幾年的不斷打磨及優化,我們NoSQL分散式集群的架構已經非常的成熟,主要有以下幾個特點:
1.高可靠:主備冗餘,
2.故障自動切換機制來解決單點問題,
3.當主機故障時自動切換到備機。
4.同時後台調度系統啟動搬遷服務,
5.把單點的備機數據搬遷到倉庫里空閑的資源池。
6.異地容災:多地部署,單IDC。
7.甚至單個城市災難時,服務持續可用。
8.強一致性:主提供讀寫,備容災。
9.保證數據強一致性;主故障時自動只讀。
10.用戶切到備機後恢復讀寫。
11.確保在單機故障時數據零丟失。
12.倉庫集群機制:標準化部署。
13.容量伸縮自動化。
14.數據服務能力自動適配業務增長或衰退。
15.保持對外服務的持續可用。
數據即服務的運營理念
數據中心由計算、存儲、傳輸三大要素構成,IaaS服務提出了把傳統數據中心的CPU,內存,網路和存儲等轉變為資源的目標,為業務提供計算資源的池化及智能調度管理。對於數據層我們的目標則是DaaS,把數據做為服務提供給用戶。
構建可伸縮的分散式資料庫
我們的分散式資料庫把存儲資源池化,
把內存存儲塊及磁碟存儲塊做為資源,
放在一個存儲大池子里按照較固定的存儲單元
進行管理,並在其之上部署存儲智能調度系統。
因此,我們的上萬台存儲伺服器已經是真正意義上,具備動態伸縮能力的分散式資料庫:
◆業務使用數據容量最小為1GB,最大為10TB。
◆內存存儲從1GB擴容到多機的100GB在分鐘級在線完成,擴容過程業務無感知無損。
◆業務保持可用率4個9,延遲2ms。
◆擴容過程不需要工程師跟蹤。
我們的數據管理集中化,在數據複雜度以及數據量不斷增長的情況下,數據運維能夠支撐多變的業務需求。
運維即服務,數據即服務
在DaaS中,我們已經落地實施了以下幾點:
1.業務自助接入服務:業務申請、創建業務ID、自動創建表空間、自動下線,貫穿整個業務的生命周期。
2.機器部署:採用基礎運維平台,包括包安裝,一鍵上架等自動化部署。支持跨機架部署。
3.彈性伸縮:一是存儲代理的彈性;二是存儲分配空間的彈性,根據業務存儲使用率自動擴縮容。
4.水位調度:業務流量在接入集群間自動流動,存儲塊在存儲集群間自動流動。
5.用戶報表:全方位的訪問趨勢、存儲趨勢、數據冷熱分布、接入機分布、存儲機分布、主機當前負載等業務存儲數據。
6.多協議支持:支持私有協議、Redis協議和Memcache協議。
7.成本分攤:按請求量和存儲量進行月度財務核算,便於對用戶成本透明。
成本優化策略
成本優化策略
上萬台存儲集群的成本優化是運營中比較核心的目標之一,我們在成本上的措施主要為:
1.用訪問密度做為可度量的成本指標,按每單位GB的訪問量來衡量業務接入的合理性。
2.數據密度,由於數據塊是由固定長度的Block組成的。用戶記錄的不定長會造成存儲塊碎片嚴重。所以我們通過定期的碎片整理來實現存儲塊的高效使用,碎片少,提升有效存儲空間。
3.分層存儲,熱KEY保存在內存,冷KEY下沉到SSD硬碟。按通常的八二冷熱數據比例,我們可以節省大量的內存伺服器。
4.備機復用,為保證數據的強一致性,我們的存儲主機提供讀寫服務,備機只提供數據流水落地,不提供服務。因此我們在備機上部署容器,滿足公司離線計算或長尾業務對計算資源的需求。
運營團隊的工作本質
研發和DBA的關係就如同一輛車,
我們造好一輛車,寫好說明手冊,
而DBA則負責調教和維護這輛車,
讓它能發揮最高的性能,坐得最舒服。
-- 多凌雲
46評論qj8311 03-15 10:36 115贊 踩
1、的確如此,你看到的每一部電影、音樂,都是巨量的數據流,它們的確都需要有儲存裝置,一般而言以硬碟為主,部分採用高速固態硬碟SSD,極少數數據放在緩存cache內。
2、現代視頻中心都自建有數據中心,規模非常的龐大,而且今日的數據中心不僅僅是過去方硬碟陣列方式,今天已經基本上演變成伺服器群了,一個數據中心有數萬個伺服器根本就不稀奇(每個伺服器內置多個硬碟),功耗數千千瓦,抵得上一個大鎮的總耗電量。因此,在很多數據中心,伺服器、電力不是問題,反而散熱才是真正的問題。
這就是很多伺服器中心會建立靠近北極北歐國家,就是想直接利用低溫降低服務中心的熱量。
3、也有部分公司因為實力與需求問題,建不起集中式數據中心,就採用分散式數據中心替代,深圳採用用戶的電腦替代數據中心,降低建設成本,但這種方式需要在用戶電腦中內置特定的數據分享程序,表現也不是很穩定,是小公司的無奈做法。
26評論天空76 03-15 16:45 29贊 踩
估計象谷歌,youtube這樣的網站,他們自己人也搞不清楚自己有多少台伺服器,多少G硬碟,據說谷歌全球有幾百萬台伺服器,每台伺服器按1TB的硬碟,就是上百億G的存儲容量了,谷歌一刻不停的把全球的網站收錄到自己的伺服器,youtube每分鐘都有大量的視頻上傳,說是數百小時的視頻,差不多是百G大小,形象來說普通家庭能用十年的硬碟,它們分分鐘就滿了。當然對這樣的大公司來說,硬碟不值什麼,每天用壞的都不知道多少,據說美國有個雲服企業,在因為天災硬碟供貨不足,到處買硬碟,加錢掃貨。所以,說上千億G,也不是什麼事。
14評論廣州型男 03-15 16:44 8贊 踩
確實是用好多硬碟來儲存,另外,採用p2p技術,熱門的視頻其實大部分存在用戶的電腦里,打個比方,你在用迅雷下載電影,會發現幾千個鏈接,那些都是普通用戶的電腦。很多相同的視頻,伺服器會採用雲技術對視頻進行統一編碼,只存一個而已。此外,硬碟會有壞的時候,所以視頻還要做備份,同樣是用硬碟。
評論narika 03-15 10:57 27贊 踩
首先要了解什麼是對象存儲,最簡單的方法是每個文件算hash值,改文件名值不動,內容動任一個位元組hash就變了,就視為不同的文件了,就需要重新存了。一般同樣的文件會在不同的機房有3-5個備份同時也是分流,p2p的話,大家電腦上也會有,伺服器上就可以少存點,就是所謂的比較熱的種子。其次從業務角度講,原創的文件畢竟比較少,相對多的,需要大空間大帶寬的還是影視品的共享,這些看似沒人網盤都有,但其實都是類似一個指向的標記而已,用不了幾位元組
6評論國物院鮑魚鑒定局局長 03-15 13:20 12贊 踩
分為好多中,一種是服務商自己建立儲存伺服器,一種是服務商租用存儲伺服器,一種是服務商將用戶的PC和自己的伺服器合併當做存儲伺服器,說說第三種吧,第三種是新式的組合,比如一部大話西遊,最開始服務商是存儲在自己的伺服器的,當10個用戶下載後,服務商將用戶的資源建立成鏈接庫,其他用戶再下載的時候服務商軟體直接優選寬頻從空閑用戶PC端下載,這樣服務商的存儲就節省下來了,當然這種模式並不成熟,目前已知360在這樣做。
4評論海南仙島 03-15 10:00 48贊 踩
儲存這些的機房都是陣列,像youtobe, youku這些允許用戶上傳視頻的網站機房都很大。並且不止一個機房,現在大容量儲存硬碟價格並不貴,倒是運營視頻網站需要提供的帶寬費用貴。
5評論推薦閱讀:
※單頁式網站的免費推廣策略,知道這五招就夠了
※一些英文的百科全書網站
※網站掛馬方式大全
※寫論文必備的13個檢索網站!
※酷網站:自動駕駛車