2017/01/17爐石超長維護髮生了什麼?

凌晨1點開始,提示預計8小時

上午再看,預計14小時

下午三點,預計18小時

下午四點四十,「適當延遲」。

** 更新:截止2017/01/18 12:01, 伺服器維護尚未完成 **

有內部同學講講發生了什麼嗎?是重大更新還是上線出事故了?

相關問題:爐石傳說(2017.1.17)伺服器維護會如何結束? - 遊戲

最新公告:
http://hs.blizzard.cn/articles/16/8565

官網打不開也可以用其他網站新聞http://ls.duowan.cn/1701/348689454370.html#/

內容如下:

各位親愛的爐石玩家,

首先向大家報以最誠摯的歉意,同時也感謝大家在遊戲維護的這段時間的耐心等待以及關注。

上周六下午(北京時間1月14日15:20),我們的爐石資料庫由於供電意外中斷的原因而產生故障,導致數據損壞。

雖然暴雪與網易的工程師們已在事故發生後第一時間著手搶修,重啟伺服器並嘗試數據恢復。但不幸的是,由於相關備份資料庫也出現故障,這些嘗試均未成功。

我們十分理解廣大玩家的焦急的心情,也曾在事故發生後的最初兩天儘力做出了各種數據修復的嘗試,但效果及進度均不理想。在此期間遊戲環境已變得不穩定,而遊戲的維護時間也已超過24小時。

在嘗試了各種解決方案後,暴雪和網易最後綜合考慮,決定將所有遊戲數據回檔至事故發生前狀態(即2017年1月14日15:20)。我們需要向大家說明,遊戲回檔是我們最後的無奈決定,暴雪和網易對被迫做出這個艱難的決定深表遺憾。

遊戲回檔意味著,自事故發生以來的所有英雄等級提升、卡牌變動以及天梯排名等均無法復原。我們一貫重視玩家的遊戲體驗,也珍視玩家在爐石當中投入的心血和時間。由於此次爐石推出以來罕見的事故,部分玩家的天梯之路變得更加漫長,還有玩家被迫重回競技場再次挑戰。我們對由此給各位玩家帶來的煩擾,不便以及損失,再次致以誠摯的歉意。暴雪與網易都將認真地對待這個事件,並將在服務完全恢復正常以後,公布具體的補償方案。

最後,我們認為出現此次事故是不可接受的。我們將反省並學習此次事故所帶來的經驗,包括更加優化的監測及硬體保護,以竭力避免此類事件在未來重演。感謝廣大玩家對我們的理解與支持。

如各位有任何進一步的問題,請聯繫客服:kefu@battlenet.com.cn


謝邀
本人是IT系統集成從業人員,主專業是網路,其他方向略懂。
網易對外發布的信息非常有限,我的回答是在已有信息的基礎上做的猜測,不代表事情的真相。

摘要:
可能性1:
這是一起運維人員操作失誤與玩忽職守的責任事故。
可能性2:
發生小故障不願停機維護,帶病運行導致事故擴大。

正文:
從網易的官方聲明中得知14日下午15點20分,資料庫斷電導致損壞。
說真的,網易要說起火說不定我還信了,首先這種資料庫肯定不是放在一般的伺服器里,而是存儲在專業的磁碟陣列櫃或者說是專業存儲伺服器中。這種專業存儲設備我還沒聽說過哪家不是用的雙電源,一般都是一路市電一路UPS。高檔點的機房都是兩路獨立UPS。(網易當年魔獸的伺服器規模甚至超過暴雪,買不起兩路獨立UPS?啥,你說兩路UPS同時都掛了,三石買彩票去吧)
高檔點的存儲還有3電源4電源內部還帶一個應急電池的,雖然電池就夠個幾分鐘,接個備用電源也還是來得及的。

退一萬步講,既然14日下午資料庫已經斷電故障了,那15日16日遊戲還在運行,還可以玩,那麼這個數據哪來的?那麼本人在此做一個大膽的推測:故障的資料庫是備份資料庫

既然16日還在運行,那麼為何要回檔到14日?16日的數據當真是找爸爸去了?

另外有個回答是封號失誤造成濫殺無辜,那麼我想封號記錄應該是有記錄封號時間的(如果沒有,那是資料庫結構設計的不合理),重做今天的封號就好。即使是真的沒有封號時間的記錄,需要把之前的封號腳本全部重跑一遍,對於一個商用資料庫,每秒1萬次的update操作應當是可以達到的。那麼24個小時就足夠封掉8.6億個賬號,爐石有這麼多玩家?

即便真的是操作不當丟失了16日的數據,那麼還有一個手段可用:資料庫審計。
資料庫審計是串接(也可以旁路)在資料庫前面的硬體設備,記錄了對資料庫的每一次操作,拿著14日的數據和審計日誌一步步還原,也可以完全還原數據。如果說這種重要的資料庫不弄個資料庫審計,網易還真是心大。特別是攜程刪庫事件之後。

無責任推測事件過程:
N久以前,備份資料庫的某一路供電壞了,管理員eat sh_t去了沒發現。
14日下午,備份資料庫的另一路電源也掛了,管理員又沒發現。(我為什麼要說又呢?)
17日維護,以為數據已經自動備份,沒有檢查備份狀態,也沒有單獨手動備份,直接開搞。『結果操作失誤,數據被搞壞了。
回頭去翻備份,結果發現備份資料庫14號就已經掛掉了。沒有單獨手動備份,沒有資料庫審計的日誌。折騰了快兩天被弄壞的數據也未能復原。沒辦法了,再不上線就要上吊了。回檔到14號折騰上線再說吧。


========================19日補充========================
假若說發生斷電的是運行中的業務資料庫而不是備份資料庫,根據網易的公告,15:20分斷電,現在也把數據回檔到15:20分,說明網易對資料庫的備份並不是簡單的一天一備,而是實現了分鐘級甚至秒級的備份。那麼為什麼在斷電恢復當時不直接調用備份進行回檔?而是要繼續用那個損壞的資料庫重新上線?畢竟當時立即選擇回檔,網易,暴雪,玩家付出的代價都比現在小得多。

借用《重返危機現場》的開場白:事故不會憑空發生,而是關鍵事件的連鎖反應
電源,伺服器,存儲,備份,重重保護下的數據發生這種事故。不是單一因素所能造成,必然是多個環節發生了一連串的故障,巧合和失誤。網易公告的斷電也許只是壓倒駱駝的最後一根稻草。

========================20日補充========================

拋開斷電說,推測故障的另一種可能

之前暴雪招聘DBA Lead,要求如下
深入理解Oracle內部原理,熟練掌握RAC和ASM,熟悉Golden Gate複製,熟悉Linux腳本編程。
那麼暴雪的資料庫架構就出來了
資料庫:Oracle,RAC(實時應用集群)+ASM(自動存儲管理)
系統:Linux
同步:Golden Gate(通過讀取日誌進行資料庫同步,可以實現低於1秒的實時複製)

故障時間在14日,但是可能在15:20分之前發生
故障應該是資料庫壞塊,壞塊不嚴重時,oracle可以帶病運行。
資料庫沒有容災,不能切換到備用資料庫運行。(「備用」和「備份」是兩個概念)
網易為了業務不中斷,決定帶病運行,並嘗試在線修復(故障後遊戲仍然可以運行,說明故障不嚴重)。這一決策的失誤導致最終的大麻煩。
日誌可能有損壞,導致數據複製也出現問題,沒辦法用備份修復。(所謂的「備份出問題」)
資料庫壞塊在線修復失敗,且故障在擴大。準備將業務停止,修復壞塊(停機8小時)
結果停機維護遇到相當大的困難,延長停機時間
最終,修不好了,回檔
壞塊的原因,比起停電,個人認為磁碟(不要和我說什麼SSD,這裡的磁碟是指的所有可能的存儲介質)故障的可能性更大。
根據停機時間,推測資料庫體積在8-12TB的樣子。

所以,故障發生時,網易不願意中斷業務,選擇了風險更大的帶病運行。並最終導致2天的數據回檔。
也許以後再出類似故障網易會選擇停止業務,立即回檔。


公司體量大,不代表不會出問題,比如這個


網易:雪雪,這次完了,他們要賠償
暴雪:告訴他們,愛玩玩,不玩滾
網易:親愛的玩家,由於我們沒有爐石賠償權,所以我們在陰陽師里設定了賠償,請登錄陰陽師。
陰陽師:你好,新人,早領獎勵?請先升級到20級
肝肝肝幾天後
爐石玩家:哇擦,陰陽師真好玩(爐石玩家—1,陰陽師玩家+1)
暴雪:哇擦,三石你。。。。。


修復了中國大陸玩家可以玩《爐石傳說》的BUG


=-=網易工作人員用心良苦。 首先工作人員必定熟讀電燈泡的故事,明白一個常亮的燈泡不會有人去注意它。偶爾壞一次則能讓大家都感到燈泡的存在和他的重要性。

其次工作人員除了看燈泡的故事應該還經常讀三國知道苦肉計,網易的本意應該是想給所有爐石石玩家發一波新年福利。但是如果直接發不說暴雪爸爸,其它服的玩家就不同意啊。而且你想想今年發了明年能不發嗎,新年發了國慶節、端午節、元宵節.這節那節能不發嗎。這麼發下去地主家!!也沒餘糧啊!!!

於是乎網易用出黑暗兵法自獻頭顱,不對是自炸伺服器。這樣一切問題都解決了,國服的玩家都領到了新年福利。外服的渣渣們也沒地方去BB。想要福利,可以啊。先炸了伺服器在說。由於伺服器爆炸是偶然事件,所以國服的玩家們也不能逢年過節就吵著要福利真可謂是一箭三雕。至於玩家的謾罵和不解,我想網易這邊也只能在夜深無人時長嘆知我罪我,其惟春秋。

最後關於福利能送幾包,我只能說看我手指這是幾。


鬼知道。

我星期六的時候還以為是自己用的網出問題了。
還好我打電話給魔都聯通之前上了一下爐石傳說貼吧。

你說你4天里伺服器3天出問題,昨天沒出問題我還沒上。
不給補償,也就算了
官網、官方微信、盒子 一條相關信息都沒有。
一條,都沒有。
那麼,有什麼?
玩個球的中美對抗賽。


沒有任何表示,是就想這樣當作什麼也沒發生過嗎?
我相信這整個過程里,有無數人和我一樣無數次卡死在斬殺回合里

而今天,到這樣了。
登進遊戲的人看到的信息是不一樣的。
只有之前8小時 1X小時的時候登陸過的玩家,才看到所謂的維護延長。晚上才上來的只有小精靈。
官網、官方微信、盒子還是一條 相關 信息都沒有。
這都17年了吧?連疼遜都自我洗白的差不多了。怎麼一個網路遊戲還能弄成這樣?


今年是2027年1月18日。
距離上次玩爐石,已經整整過了10年,零1天。
在這十年里,我試著玩了很多遊戲,試著愛上很多人。
找到了男朋友,建立家庭,生兒育女,
但,我永遠不會忘記十年前的那個約定。
我記得你對我親口對我說,要我等8小時,很快就會回來。
我一天也等,一年也等。
這是一條漫長而艱辛的路,一條無盡無休的路。
我知道我可能不能夠再擁有,但我唯一做的,就是令自己不要忘記。
我已變得成熟,不露聲色。
不會再像年輕時候的自己,在鍵盤上無情地打出:

垃圾網易!你到底啥時候把伺服器修好????!!!!!


大半夜的還沒等到補償,不多說,從此網易黑。

嚴正聲明:本文及圖片都非原創,來自網路(誰是原創無法考證)。

爐乙己一到酒館,所有喝酒的人便都看著他笑,有的叫道,「爐乙己,你昨天可是崩了一天啊!」他不回答,對櫃里說,「溫兩碗酒,要一碟茴香豆。」便排出「暴雪出品必屬精品」幾個大字。他們又故意的高聲嚷道,「你的代理快到頭了吧,想換代理嗎!」爐乙己睜大眼睛說,「你怎麼這樣憑空污人清白……」「什麼清白?我前天親眼見你和馬化騰比在線人數,結果被騰訊吊著打。」爐乙己便漲紅了臉,額上的青筋條條綻出,爭辯道,「玩騰訊遊戲的都是小學生…小學生!…暴雪出品,能輸?」接連便是難懂的話,什麼「提高卡牌多樣性」,什麼「例行維護」之類,引得眾人都鬨笑起來:酒館內外充滿了快活的空氣。

有關補償的說明:


1. 基本可以確定,在維護過程中發生了「用戶數據丟失」的情況。
2. 目前而言,最可能的方案是調用物理備份,然而考慮到「申請調用 - 運輸 - 複製數據」的過程,維護時間再延長一天都不為過。
3. 物理備份很難做到即時數據備份,因此即便數據恢復,也很難避免部分數據丟失的情況發生,樂觀的估計是維護時間前至少24小時內的數據會丟失。

以上。

————————————

一上線發現一大波贊和感謝,誠惶誠恐,謝謝大家的支持!
我這個答案說的並不準確,@孫益遠的答案就相當專業了:
2017/01/17爐石超長維護髮生了什麼? - 知乎用戶的回答 - 知乎


這裡面隱藏著網易的陰謀,為什麼從昨天開始爐石就有登不上的現象呢?大家登不上爐石會幹什麼呢?看爐石啊,昨天有什麼比賽,我也就不多說了吧。

然而就我昨天來看,在鬥魚看比賽的人其實並不是很多,於是乎,昨天的時候還有人能登進去,這次就徹底借維護的名義關閉伺服器。因為平時維護都是1點,頂天維護到12點,一開始的時候就說維護到現在你們肯定不樂意,所以一段一段的自稱延遲維護時間。

所以這是網易為了提升比賽關注度的陰謀,我在網易的舅舅親口和我說的。好吧,其實我並沒有這樣的舅舅。都是胡說八道,我已經報警了,學習了一天腦袋都要爆炸了你跟我說還沒維護好,我都打算把我的競技場打完了再選牌呢,心痛

你看這群人,五卡包就能收買了么?不可以啊,有沒有志氣。相信每一位玩家都和我一樣,昨天早上7點起來,準備打一天競技場通宵到今天7點。相信大家的水平都是12勝的。而且打的非常快,一小時就一輪12勝了,24個小時就24輪,12勝獎勵算600金幣。我們昨天都痛失14400金幣,我們都是很大度的人,補償一百包就好了14點都沒好!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!我現在一百包卡都不想要了。我只想知道真正的原因,好奇


我們有理由相信,這是隔壁陰陽師策劃組對我們進行的一次有組織的襲擊
在高額的年終獎面前,因前段時間大規模BUG而被剋扣所有年終獎的陰陽師策劃們,終於露出了喪心病狂不惜同歸於盡的邪惡面目
「我們得不到的,你們也別想得到!」——來自某位至今沒有SSR的陰陽師策劃
目前我們已經針對此次襲擊開展了大規模抗議和集會活動,強烈要求三石哥嚴懲這些不法分子,還我網易策劃部門一片藍天
同時,也請魔獸世界,暗黑破壞神3,守望先鋒,風暴英雄的玩家注意
雖然我們已經做了相應的防範措施,但是還是無法保障上述遊戲可以避免與爐石傳說類似的BUG事件發生
因此,若上述遊戲也出現無法登陸的現象,請玩家耐心等待,我們將及時……
進行更大規模的抗議!(知乎貼吧微博都發一遍,甩完鍋趕緊回來開年會,嗨皮起來)


轉一下據稱網易前運維的消息,前面那什麼數據肯定丟失了的回答看不下去了。

1月18日 21:25分更新 目前暴雪中國和網易決定回檔,我感覺備用機房同時出了問題的概率幾近於零,不過也沒有討論的價值了233,反正我的彩票買好了,你來打我啊。

最後目前這個問題下,點贊前二十都是逗機靈,知乎這是怎麼了?
原答案:
 這次爐石超長事件維護,各種傳言不斷,我從前內部人士的角度給大家分析一下這次事件。
關於伺服器
首先說說伺服器。
  你們以為數據都在伺服器里? 伺服器只有硬體而已,硬碟數據13年-16年都是用的DELL的磁碟陣列伺服器,而且是雙機熱備+異地容災,我這台數據丟了,我另一台會有克隆的相同的數據。就算廣州整個機房炸了,我上海機房異地也會有一台克隆的數據。
  所以數據丟了,數據丟了30%什麼,大家就不要信了。
  我在做天下3運維的時候也遇到過N種問題,不過都被總監、經理他們這些人帶著解決了。
  可以說,就算來個10歲的小朋友,會動電腦滑鼠看得懂字,按照流程都不會出問題。 一個團隊4個人,一個經理, 5個人同時犯錯?怎麼可能因為操作失誤就丟30%數據?
  另外關於過熱導致的各種問題我覺得也不可能,肯定有備用的空調和供電,網易多少年都走下來了,總結了很多經驗和規範,伺服器這方面是沒問題的。
  至於啥原因維護這麼久?原因千奇百怪,也可能是遊戲本身問題,可能鍋在暴雪身上? 我只能說數據不會丟。
  任務也不用擔心,幾行代碼就能解決的,只是日期問題而已。或者想簡單點,有補償,一定會有的。
這次事件猜測
  拖這麼久,我覺得昨天應該是暴雪給的補丁有問題,但是每次修改遊戲都必須工信部、文化局、廣電局三個部門來審核。
  每次更新遊戲一般是這樣的流程:
  暴雪軟體部-暴雪技術支持部(測試部)-網易軟體部-網易技術支持部(測試部)- ZF部門(審核)-技術支持部(運維部)-網易技術支持部(測試部)
  估計是兩邊的測試部第一次都沒發現問題,結果運維部按照流程更新之後,測試部又TM發現問題,要修改遊戲,又要所有部門再走一次流程。
  既然涉及到了PC端/IOS/ANDROID,根本不是一天就能解決的。
  比如我這次定5個小時做運維,2個小時做測試。 我5個小時運維做完了,剩下的就是測試組乾的事情了。 測試組花了1個小時發現問題,想恢復更新之前,只能再花5個小時恢復,今天就白忙活。 OK,就算我今天白忙了, 每周都有每周的目標,下周要補這周的目標,所花的時間可能就是4倍了。
  有測試端,所以主要責任是測試部,第一次測試沒有發現問題,次要的是軟體部,主管或者總監審核代碼的時候為什麼沒有發現問題? 也要問責。我感覺總監這個年不好過了,就算是主管的責任,總監也要被扣年總獎了,誰讓這個主管是你面的? 就面這水平? 這工作態度?
  大家耐心等吧。
一些猜測的答疑
  還有人說是有人把代碼偷走了。
  每個員工入職之前都要簽保密協議,競業協議
  而且每個部門的團隊,負責的都是不同的項目,能接觸的只是一小塊代碼,修改完代碼上傳到SVN里。 能接觸整個完整SVN的,只有總監
  總監每個月工資不少於15W把? 還有年總獎。 至於偷個代碼? 蹲幾年牢,以後還有公司要? 而且偷了代碼有什麼用。。。。 開玩笑。。。
  至於有朋友問我容災是什麼,不是冗餘嗎?
  異地容災,就是我這個機房真是起火了爆炸了,我異地機房能夠運行起來。
  冗餘是指我伺服器或者數據出了問題,我有bakup,可以隨時頂上去。
  好比美國容不下維基解密,迅速把機房全部佔領了,想取回數據不可能,那怎麼辦,還好他們有容災方案,地點在南極,請求俄羅斯幫助,俄羅斯就會幫他們保護數據。
  至於有網友問那如果兩台都炸了怎麼辦?
  兩台都炸了,這幾率比你中彩票幾率都低,應該不可能的。
  另外有朋友問兩地三中心,主機房將數據刪除,其他中心也會瞬間刪除的問題。
  其實沒有瞬間刪除這一說,我之前可能沒說詳細,雙機熱備,同步時間5分鐘(成本翻倍,之所以沒有採用故障轉移群集(成本低),是因為夢幻之前出過問題,導致只能回檔,所以流程規定是雙機熱備) 異地容災同步時間每天凌晨00:01 丟數據頂多回檔一天給補償。
  另外日誌精確到每一條語句,資料庫Oracle 有商業解決方案。
  至於有些帖子提出的BUG說。
  程序員自己解決BUG? 不可能,每個程序員負責的都是一部分代碼,他就算修改了,也不能編譯出來,更別提他能接觸到伺服器了。
  我之前是3-5個人一個小team,程序員應該是7-10人的樣子,有了問題經理 主管都可以上報的。。。 伺服器是深度定製的LINUX+密碼狗。 修改了代碼,SVN都有日誌,要表明原因,不然代碼也不會審核。
  可能bug是有的,只是當時沒有發現而已,他們主管就要倒霉了。
  至於有朋友問為什麼天下三12年後一天比一天坑爹?
  雖然我是在天下3項目,不過我連這遊戲都沒下過,我只是運維。。。 管伺服器的。
  至於卡的問題,伺服器問題是不可能的,只能說優化還是別的事情沒有做好吧。機器假如內存壞了,我們不會追究是主板還是電源導致的,我們做的只有一件事,換新伺服器,因為公司不差錢。


國服爆炸之後,實在無趣去美服建了個小號……剛做完新手任務,開了個包……
你說這算暴雪的陰謀么?
這是逼著我去美服氪金去懟方丈啊


2017年1月20日更新

暴雪爸爸,我收回我的言論,多回幾次檔把,幾張金橙算個屁。

--------------------------原答-------------------------
貼吧看的梗,侵權刪。

我今天三個任務沒有做,就是一個卡包,一個卡包有五張金橙,五張金橙就是16000粉塵,按照一包40塵來算就是400包卡,一包卡9元就是3600元人民幣,網易等著我的法院傳票吧


-------------------/*分割線*/------------------


http://tieba.baidu.com/p/4943532561?share=9105fr=sharesee_lz=0原貼鏈接


挺好的 美服玩家迎來了競技場的地獄模式...


會有補償的

啊啊啊真的補償了,終於看到回頭錢了,日常任務黨厚臉皮領


前兩天也是網路不穩定,頻繁掉線。

網易程序員跑路了吧。

----------------------------------
已經30多個小時了啊,不補償個3卡包,玩家要暴動了。


暴雪維護的原因,可能是14-18日大部分人都開到了橙卡、金橙卡、打了12勝、上了傳說……


今天是2027年1月18號.
距離我離開你已經十年了.
在你維護的這十年里.
我試著去愛上另一個遊戲,以為能忘卻在你身上耗費的心血.
我去肝陰陽師,我去打lol,我去玩農藥毒奶粉,
我也試著離開有你的世界.
去現實里遊玩,希望沉迷自然的美景就不會在記起你.
我試著去忘記,我一直以為我成功了.
我以為我好了,
直到我跟往常的每天清晨一樣翻開日曆
1月18號....
記憶如磅礴大雨向我襲來,掩埋了我所有的堅強.
那是十年前 你開始維護的日子啊,
我還記的那天
你悄悄在我耳邊說 讓我等你14個小時
我等了 等了18 個 32個 100個 1000個
你卻遲遲未到
這些年我一直 念著你的消息
你的微博 你的公眾號 你的官網
我以為你會有回復
但你卻沒有
有時候我也在想
要不就不在等下去了
可是我想起的我納克薩瑪斯 我的黑石山
我的麥迪文 我的金色奶螺絲和金色法力風暴
我都無法掩蓋我目光里深切的渴望
好多次我抑制不住這種渴望
有點開了遊戲
我多麼希望聽到你讓我進去找個姑娘隨便做
可迎接我的還是那些慘淡的字

我知道你可能不再願意陪我
你可能是為了我好,希望我不在沉迷
但是我為了你目光膽怯而迷茫,
你卻一次又一次的辜負我就是對的嗎?
你不覺得你的辜負更傷人嗎?

那些年我為你砸的預購
那些年我為你肝的全金
難道都不值得你榴槤了嗎?

我也不知道我是不是該在等下去
讓自己變得不人不鬼
十年
你還不回來

我不想再等了

打不了 我就當 沒有充這個328


-------------情緒分割線-------------------
垃圾網易 要求補償!


看來我玩了假爐石


網易退環境了


推薦閱讀:

怎么评价牧师新卡 古怪的萤根草?
暴雪《守望先鋒》第三部動畫片中透露了源氏與半藏二兄弟怎樣的細節?
如何評價《魔獸世界:德拉諾之王》(Warlords of Draenor)?
用三國演義的語言風格寫魔獸世界小說該是什麼樣的?
你會怎樣去電影院看《魔獸》電影?

TAG:暴雪娛樂Blizzard | 網易遊戲 | 爐石傳說Hearthstone |