為什麼此次爐石的伺服器甚至包括備用伺服器,會同時因為斷電而無法搶救維修恢複數據?

雖然暴雪與網易的工程師們已在事故發生後第一時間著手搶修,重啟伺服器並嘗試數據恢復。但不幸的是,由於相關備份資料庫也出現故障,這些嘗試均未成功。

能不能請大神順便解答下:1、一般正常情況下主伺服器出現斷電的情況,一般會怎麼處理,2、備用伺服器會起什麼作用,3、出現此次暴雪這種極其特殊的情況可能原因


謝邀

一般大型應用,前端和後端會分離

前端一般負責實時的計算處理,後端負責數據的保存。

比如網遊,玩家連上的伺服器是前端伺服器,前端可能CPU,內存很牛,但是硬碟很小,只裝了操作系統,遊戲的服務端程序等基本軟體。玩家的數據並不保存在前端伺服器。

當玩家登錄到前端伺服器時,前端從後端讀取數據,處理玩家的各種操作,並將變化的數據回寫到後端。

前端伺服器一般都有很多,並進行負載均衡。假設一兩台前端突然出問題,其他的前端伺服器會自動接管任務,玩家幾乎不會有感覺。

後端因為涉及到數據一致性的問題,會比較麻煩。一般後端的硬體本身具有冗餘設計,雙控制器,磁碟陣列(避免單塊硬碟故障導致數據丟失),雙電源等等。

同時還有備份伺服器,定時或實時從後端讀取數據並長期保存。

現在說說機房供電

去某寶看一下,只要是個伺服器,肯定是雙電源供電。網路設備,存儲陣列之類對可靠性要求更高的設備甚至是3電源,4電源供電。

機房的總電源一般是兩路從不同變電站引入的市電,其中一路帶UPS(不間斷電源,簡單的說就是蓄電池),有錢的話可以兩路都配置獨立UPS,在機房供電走線上,兩路電源要分別接入到伺服器的兩個電源輸入,並不是一路掛了再切換。也就是說,每一台伺服器都會同時接入到來自兩個不同變電站的電源,至少一路帶UPS。我覺得像網易這種體量,應該還會備有發電機。

======================================================

那麼,網易機房斷電需要什麼條件?

兩路市電全部中斷

我不知道網易的伺服器具體放在哪個城市,但是應該是城市,不是缺電的廣大鄉村。而且是找電網公司買的專線供電,國家電網公司和南方電網公司的城區供電可靠性承諾是不低於99.9%,我想專線供電應該不會低於這個值,那麼雙路供電的可靠性應該可以達到99.9999%。即故障率大概是百萬分之一,比雙色球大獎的1700萬分之一確實高不少。

UPS故障

UPS可靠性已經非常的高,可達99.99%,而且UPS故障不代表供電中斷,市電可以跳過UPS直接給伺服器供電,當某一路的UPS和市電都中斷時,這一路電源才不可用。再加上大功率的UPS系統本身是一套電池多個主機並聯的工作方式,進一步提高了可靠性。

因此,兩路UPS供電同時故障的可能性不大於一億分之一

發電機

因為發電機一般是兩路市電都故障才啟動,且按下啟動按鈕到穩定輸出電力需要幾分鐘時間,這幾分鐘需要UPS扛所以暫不考慮發電機可靠性。

綜上,兩路市電,兩路UPS同時全部故障概率不超過百萬億分之一。而伺服器硬體設備的故障率遠高於此了。

那麼伺服器有沒有可能斷電呢?

比如伺服器本身的一個電源適配器出問題,然後過了N久都沒人發現。另一個電源適配器連接的UPS剛好在檢修,直接用市電供電。結果剛好,變電站的變壓器炸了。那這台伺服器就斷電了。

不過這事就不能怪供電了,純粹是運維的鍋。

網易這次故障,斷電很可能只是個掩蓋人為失誤的借口。即便真的發生了斷電,那也毫無疑問是網易運維不負責任的結果。


斷電的借口會讓業內人士覺得他們運維的無知和不負責!雙電熱備哪裡去了,UPS哪裡去了,發電機哪裡去了,容災備份哪裡去了?難道同時故障了么?好巧原來你也壞了


我從來沒有遇到過市電和UPS全掛掉的情況,也於是我入行太短的緣故吧,倒是經常遇到運營商炸窩的情況,運營商一但炸窩,全靠無線3G備份通訊撐著,客戶電話一個接一個,一下午能接到十幾個網點打電話投訴網路慢,還得和人解釋,運營商的鍋也要我來背。


諾諾的問下機房的ups不間斷供電哪裡去了 作為IT運維工程師做好主動防禦各種容災演練


當空調搬走了


我很好奇他們的dr方案,有舅舅黨出來交流下嗎?

我一般給的標準災備方案是這樣的,生產中心做集群支持ha, 用san存儲保持dr數據,從dr伺服器做四小時冷備,同時dr本身熱備。然後每天峰谷做全冷備,這樣基本上rpo和rto都能到四小時左右


謝邀,我沒有遇到過伺服器斷電的情況,倒是碰到過不小心把資料庫給刪除的情況(2次,1次是我,另一次不是我),好在有數據自動備份(每隔一段時間會自動備份),好在那個服玩家很少,也就10多個的樣子,基本上沒有給公司造成經濟損失,郵件抄送給公司CEO還有部門領導,他們都沒有過問(因為責任不在我,在離職的同事),本以為是天大的事情(領導其實早就想停服了)。像網易這樣極其專業的團隊遇到斷電的概率應該說很小吧,不過發生了,誰也沒有辦法,只能補償一下玩家了。


推薦閱讀:

絕地求生可否通過像坦克世界一樣在伺服器端運算來徹底杜絕外掛?
Tomcat集群,負載均衡,Session共享?怎麼解決?
遊戲伺服器,每秒需要處理百來次資料庫的讀寫操作,如何設計比較好?
如何看待AWS亞馬遜入華?

TAG:IT工程師 | 遊戲公司 | 伺服器 | 爐石傳說Hearthstone |