如何評價阿里雲2015年6月21日香港節點網路故障超過12個小時以上?
以下是阿里雲的官方公告阿里雲香港region訪問異常故障
尊敬的用戶,目前香港機房故障仍在處理中。對由此異常導致的服務中斷,我們深表歉意。同時我們會儘快啟動賠償方案。感謝您的支持與理解!地址:http://blog.aliyun.com/2732?spm=0.0.0.0.zwl0U9我們公司一部分部署在阿里雲香港上面,損失相當嚴重。出海以來,最大的事故了。
我們以前用過香港的主機,結果24小時故障,連數據都差點沒拿出來……
香港本就是是非之地……阿里雲一出事,就暴露出大量小白技術人員把雲計算與高可用混為一談的。要是雲計算真那麼牛逼能解決高可用,BAT三家花那麼大人力物力做異地雙活幹嘛。況且阿里雲早就有「可用區」的定義,據我所知任何一家雲計算都是有這樣的東西的。這個搞不清,遷哪家雲都是一樣死。
阿里雲官網6月21日晚發布的公告阿里雲產品博客
尊敬的客戶,您好:
經緊急搶修,目前香港節點故障已經恢復,請您測試業務是否正常,如仍有問題請您及時與我們反饋(諮詢電話或工單系統),我們立即為您處理。我們會在兩個工作日內完成賠付。本次故障因香港運營商IDC電力問題所致,我們已責成香港運營商儘快完成機房整改措施,規避此類問題的再次發生。對於本次故障給您帶來的服務中斷、焦慮及不安,我們感同身受,在此致以深深的歉意。
目前,我們正在香港加快第二機房的建設,開通後將為您提供更快速響應的容災能力。技術團隊已完成全球各地數據中心的排查,其他節點未發現類似隱患。我們將謹記這一深刻教訓,以應對最極端的事故為標準,全力為您提供更加高可用性的服務。
雖說我想答Azure歡迎你,但云確實不代表高可用,雲端的高可用也要求你在不同的region建立多個鏡像以防止這種情況的出現。Azue的高可用也需要在不同機架,不同電路,不同升級群裡面部署鏡像VM,不是說你簡單的上雲了就是高可用了。
用雲就是圖個省心,不用太操心容災問題(硬碟,機器,機房,線路,攻擊等),實在很期待處理完畢的通告和原因解釋,能解釋清楚10小時+(目前為止)的處理時間,哎,還是得自己搞異地機房之類的。這還申請了Key/Value之類的東西,這用起來提心弔膽啊PS:前幾天還把AWS的經理說了一頓,說他們的邀請制度非常搞笑,這下打臉了,臉皮厚點兒回郵件讓她給開中國區帳號去
我們公司也有大量業務部署在香港伺服器,到現在都還沒有恢復。阿里雲的客服電話也打不通。充分說明,阿里雲離真正的成熟雲服務商,還有很長的路要走。
我發現我架在阿里雲上的博客訪問速度竟然變快了...以前解析主機要2s,現在秒入。
嚇得我瓜子都掉了。阿里雲香港機房為何癱瘓12小時http://companies.caixin.com/2015-06-23/100821724.html
可能性太多了,遭受攻擊,被水淹了,割接作業中出現了某種不可知錯誤。或者光纜中斷(非意外性)。能給補償就很好了。運營商斷網基本是沒補償的。
太離譜了。這都十幾個小時了還沒恢復。
不知道數據有沒有問題。
看來我們要準備遷移了,改成Amazon或Azure
我們公司也是。。聯繫了說是香港網路運營商問題了。我了去。到現在還沒好。害死人了。
作為一個雲服務商,遇到這種問題,就沒有點備用方案嗎?要這樣的話我們使用阿里雲服務還有什麼保障。---------------------22點,終於恢復了。不知道對於這次的事件,啊里雲有什麼解釋;準備如何賠償我們的損失;對於今後的使用,如果發生這樣的情況,你們準備怎麼樣處理。還有發生這麼大的故障,都不通知的嗎!!!!!客戶不打電話來,都不知道什麼時候才能知道!!我想說的是,AWS在新開一個region的時候,會起碼保證最少有兩個可用區(az),這樣可以自己做災備和高可用。但是阿里雲這種動不動就都只有單可用區的情況,讓人好無奈啊。
今天想適用阿里雲新的PostgreSQL資料庫,結果發現北京區里只有一個可用區支持,這不是逼著你把雞蛋都放一個籃子嗎?說好的阿里雲吊打IBM啊
阿里雲這次確實是拿望遠鏡都找不到對手了,到現在都還沒恢復,損失慘重啊……
1、對於這種故障,真是官方說的那啥原因?2、阿里雲還靠得住么?3、除了阿里雲之外,還有哪些更好的服務商?4、關於賠償,怎麼個賠合適呢?損失慘重啊!關鍵是信譽問題。賠償不重要,只求快點恢復!
1、是斷電,我猜想如果是杭州機房出問題電信會被爆出翔,香港運營商可能比較複雜。2、誰尼瑪讓你選香港機房的
哈哈哈。居然是停電導致的嗎?不厚道的笑了。不過我自己也有機器在阿里雲上。怎麼說呢。和亞馬遜還是有明顯的差距。運維的重要性,多地容災的重要已經出來了。可惜企業還是不會重視的。
其實換用戶自己運維機器,宕機一個星期起不來也是常見的;而且費用還比雲貴
阿里租IDC不付錢,給人開空頭支票,你知道嗎?
-----以下為實情-----
這應該跟馬雲的商業模式有關:阿里在香港租IDC採用的是和其他互聯網公司完全不同的做法——我租用你的IDC,你提供場地、供電和帶寬,我一分錢也不打算付給你,但我會把未來業務收入的一個比例分配給你。HK傳統的主流運營商都拒絕和阿里合作,但阿里憑藉頭頂的光輝,最後還是找到了夥伴,一個非主流的(香港燃氣下屬的)IDC廠家。這裡有得到兩點值得思考:1、阿里自訂遊戲規則的做法讓人匪夷所思,仁者見仁智者見智;2、這種做法也許能快速擴大阿里的版圖(其實阿里不缺錢),但通過這種方式提供的服務,(至少在短期)不可能有特別的期待的服務資料。目前看,問題已經暴露了。阿里雲香港機房為何癱瘓12小時
2015年06月23日 20:53
事故發生24小時後,阿里雲和運營商對事故原因和細節仍莫衷一是,甚至無辜的消防和電力部門也被拉來躺槍。阿里雲作為國內最大的互聯網雲提供商是否已經準備好
【財新網】(記者 屈運栩 駐香港記者 王端 見習記者 劉曉景)沒有挖斷光纖,也不是電力部門問題,更沒有所謂的消防警報延誤搶修時間,經過財新記者多方調查核實,阿里雲在香港中止服務12小時就是一起由硬體故障引發、搶修和恢復嚴重超時的事故。
這類數據中心的電力事故原本是國內外雲服務商普遍面臨的一大問題,但用一位業內資深人士的話來說,「12小時才恢復實在太久了。應該幾分鐘就解決的。」
12小時的超長處理時間,以及過程當中阿里雲與相關方陸續給出的五花八門甚至自相矛盾的解釋引發了用戶的不滿和業內的質疑,也暴露了阿里雲在故障處理和公眾溝通中存在的問題。有部分用戶甚至反映15個小時業務才恢復。
事故發生在6月21日上午9點到10點之間,一些使用阿里雲香港數據中心的用戶發現服務出了問題,此後,阿里雲方面通過博客公告稱由於運營商電力問題造成香港機房故障,正在搶修。
此後阿里雲的客服給用戶的解釋幾易其口。有用戶告訴財新記者,事故後致電阿里雲官方客服,得到的解釋是香港和大陸地區所連光纜挖斷,但用戶質疑「難道只有一條光纜」後,阿里又回復稱是因為運營商的電力故障。
6月23日,阿里雲方面向財新記者發來聲明對事故作出說明:6月21日上午9點37分,阿里監控系統發現阿里雲香港IDC運營商名氣通機房出現訪問異常,名氣通反饋原因為供電系統故障導致數據中心大樓整體斷電,並觸發消防報警。根據當地的消防規定,必須徹底排查隱患並完全消除後,才能獲准進場做電力搶修。21點22分機房正式恢復穩定供電,阿里立即執行既定預案逐項恢復服務,21點32分安全防護服務恢復正常,各項服務陸續恢復,截至23點39分全部服務恢復。
按照這份說明,阿里雲香港服務癱瘓12小時主要是因為機房建設方和運營商名氣通電力故障,阿里雲直到電力故障發生近12個小時後才得以進入機房搶修。從阿里雲的解釋來看沒能及時搶修成功是因為整棟大樓都斷電而且無法切換備用電源,並且消防隱患排查耽誤了搶修時間。阿里雲只用了10分鐘(21時22 分到21時32分)恢復了安全防護服務,繼而用了兩個小時恢復全部服務。
但事實並非如此。
消防警報子虛烏有
一時間,阿里雲香港合作夥伴運營商名氣通被推上風口浪尖,6月23日下午,名氣通方面經財新記者多次詢問發來了官方回應,承認電力故障,但隻字未提大樓整體斷電,以及消防火警等因素影響。
名氣通稱其香港二號數據中心於2015年6月21日上午9點40分,因電力出現故障,導致部分客戶服務中斷。名氣通第一時間啟動應急方案,進行緊急搶修,並於下午2點恢復部客戶的服務,並於當日晚上9點50分,完全恢複電力供應,客戶服務全部回復正常。
在現場參與搶修的不願具名人士告訴財新記者,當時並未有火警以及消防等因素干擾,整棟大樓並未斷電,只有部分用戶受影響。「消防封樓因素造成客戶無法進入數據中心處理事故是謠傳。」該人士明確表示。
對於事故處理經過,他稱:」就是電力故障,名氣通的部分用戶受到影響,阿里雲是其中一個,名氣通的數據運營團隊第一時間就通知了客戶,最早的客戶10點不到就到了。」然而,問什麼需要12小時才恢複電力,該人士稱自己並非工程出身無法回答。
事故責任雙方對於事故經過解釋有出入。財新記者聯繫了香港消防處,官方給出的回復稱,為了防止安全隱患,不排除因為故障觸發消防系統自動斷電。但消防處稱查閱火警記錄後告訴財新記者,21日上午9點到10點半這段時間內,名氣通機房所在的將軍澳地區並沒有關於名氣通二號數據中心的記錄。這意味著事故發生當時當地沒有接報火警,也沒有消防處人員到場處理,所謂消防因素延遲了事故處理的說法不成立。
業內人士也向財新記者分析認為所謂消防因素不合常理。國內一運營商在香港數據中心工作的人士告訴財新記者,名氣通二號數據中心所在的香港將軍澳產業村是香港最重要的數據中心集中區域,國內運營商、香港地區多個重要金融機構的機房均建設於此。「香港方面在消防、颱風等各類備災上是很注意的,因為消防安全處理造成一個機房十幾個小時不通電很難想像。」他說。
針對各方質疑,阿里雲於6月23日傍晚再次致電財新記者,提供了更多事故細節。新的說法是:斷電並非整棟大樓,而是機房所在樓層,但因為物業工作人員考慮到安全問題要求整棟大樓疏散。而阿里雲方面到下午14時才得以進入機房配合IDC運營商處理事故。
根據新說法,阿里雲開始搶修和處理事故的時間並非晚上21時22分,而是下午14時,整整提前了七個多小時。
一位國內大型互聯網公司IT基礎設施技術的負責人向財新記者分析了造成斷電的可能原因。他指出,國內互聯網公司在國內的機房就算外部電力全部切斷,也都有備用的柴油發動機,能夠維持的時間也比較久。在他看來,香港機房斷電最可能的原因是控電設備故障,接入強的外部直流電源無法實現切換,因而伺服器大面積斷電,導致伺服器宕機。這類維修耗時較長。另一種可能的原因則是柴油發電機的供電模組不可用或者故障。
無論哪一類事故原因,斷電12小時在業內都被認為是」太久了「。
企事錄創始人張廣彬告訴財新記者,一般數據中心的最高標準是Tier 4,即保證99.995%的可用性,這意味著一年裡的中斷時間不能超過半小時。這是很高的標準了,能達到Tier 4標準的數據中心不是很多。
香港名氣通2號數據中心的標準不低於Tier 3,理論上全年中斷時間不應超過1.6小時。據張廣彬稱,近期機房斷電的消息比較多發,,本月初國內另一家雲服務公司青雲也曾遭遇廣東機房的電力故障。這可能也和雲服務在國內逐漸普及有關,國外包括亞馬遜、微軟的雲服務在前幾年也都出現過比較嚴重的中斷現象,有些是軟體bug引起的。一旦斷電後,有可能對機房的硬體,以及雲系統軟體構成影響,即使恢復供電後也需要一定時間處理讓服務恢復正常運行。在他看來,持續12小時的斷電是近年來非常嚴重的事故:「阿里雲作為大公司,因為用戶數量多所以影響範圍也比較大。」
用戶的不滿與阿里雲的信任危機
阿里雲用戶對此次事故的質疑和不滿更多並非來自技術,而是針對阿里雲對事實的披露效率和誠信。
阿里雲21日上午10點35分在博客上掛出公告稱故障正在搶修,希望用戶測試服務是否恢復正常,並電話或者工單反饋。
阿里雲後來在給財新記者的回復中也稱在與香港名氣通進行深入復盤,並要求其儘快完成整改,避免此類問題再次發生。同時已經啟動對客戶百倍賠償。阿里雲稱:「我們深知賠償不能解決所有問題,我們對造成阿里雲香港中斷服務深表愧疚。雲計算是一個複雜的系統工程,過程中有著各種艱難險阻。我們將一如既往地努力,消除一切隱患,共同和我們的客戶一起實現雲計算夢想。」
然而,在阿里雲等論壇上,不少用戶對阿里雲的事後處理非常不滿。使用阿里雲的米芽時代創始人童謠告訴財新記者,故障後網站無法訪問,無法切換。而公司對數據沒有本地備份和異地備份,業務直到晚上11點才恢復正常:「多次重啟伺服器,嘗試了很多次才可以正常使用,根本沒有無縫銜接。」
童謠告訴財新記者,公司原本使用騰訊雲服務,後來覺得阿里雲在傳輸穩定性等方面更勝一籌就轉到了阿里雲。但這次事件後,他們開始考慮將部分業務再次簽回騰訊雲。
實際上,由於雲服務是IT基礎服務,一旦遇到公司提供的是平台業務,後續影響的將是各類普通用戶。一位用戶在國內使用某交易平台公司的服務進行比特幣交易,服務崩潰十幾個小時,交易受阻,損失無法評估。更讓他鬱悶的是,阿里雲只會賠償平台,但平台實際上沒有業務,無所謂損失,只有他這樣的終端用戶會守著電腦一遍遍刷新幾個小時。在他看來,阿里雲這樣大的公司,事故發生三個小時後才告之設備故障「很不正常」。
海外雲服務模式安全么?
實際上,就在阿里雲出事故的同時,自媒體人徐家俊也反映自己使用的另一家虛擬主機商恆創科技的主機也出現癱瘓。6月23日下午,徐家俊告訴財新記者目前服務恢復,但公司未給任何公告以及事件解釋,公司客服方面稱要到6月23日晚間才回郵件告知事故原因。在他看來,香港主機、機房和雲計算服務出問題並非個例。香港雲服務的安全性值得關注。
中國的很多互聯網公司之所以選擇香港數據中心,一方面是海外業務需求,另一方面是為了繞過內地的數據備案制度。隨著創業公司大批湧入,以及互聯網公司海外業務需求,越來越多的公司選擇使用香港雲服務。
前述國內運營商人士告訴財新記者,香港地區氣候炎熱,且多有颱風等災害,在數據中心選址上並不特別有優勢。但香港政府方面對數據中心建設非常支持,很多機房都提供免費的製冷供電,甚至提供兩個電力供應商。此外,香港是亞太地區海底光纜集中交匯地區,通訊覆蓋非常全。基於這樣的基礎設施,很多主機和數據中心建設商都選擇在香港建機房。
張廣彬告訴財新記者,因為業務全球分布較好,美國的大型互聯網公司在歐洲和亞洲設立數據中心時也多選擇自建模式。但中國互聯網公司的雲服務主要服務於自身本土業務,在海外擴張時通常先採用租用或合作模式,即租用機房和數據中心,數據中心運營交給合作夥伴,便於快速起步。雖然租用和自建在運營過程中沒有絕對的優劣對比,但自建模式的內部協調效率更高。
在這次事故中,阿里雲和名氣通的事故處理都暴露了問題。張廣彬介紹,名氣通作為香港煤氣旗下公司,公司依靠光纖和煤氣同管道鋪設在網路覆蓋上有優勢,在內地也已經建立多個數據中心:「算是有名氣的公司,出這樣的問題還是很讓人意外的。」
據財新記者了解,包括阿里和騰訊等在內,國內雲服務公司在香港地區多為單一數據中心,目前尚不具備同城備災系統。阿里雲和騰訊雲都稱目前正在籌建香港的第二個數據中心。推薦閱讀:
※阿里雲服務為什麼總是那麼不穩定?
※雲主機、集群主機、VPS等伺服器產品,到底有什麼本質區別?
※c++程序員如何在阿里巴巴發展?
※為什麼CDN會出現圖片雲、視頻雲這樣的細分?
※如何看待2017年9月6日 中國上海新國際博覽中心,華為面向全球發布三款分散式資料庫服務?