經歷不可抗力是一種什麼體驗

鄭昀 最後更新於2015/1/29

關鍵詞:空調、運維、電纜、DNS根域、DDoS、劫持、烏龍

本文檔適用人員:研發和運維

提綱:

  1. 空調,揮之不去的噩夢

  2. 易斷的纜線

  3. 硬體造成的網路中斷

  4. 波及全國的DNS根域事故

  5. 地方流量劫持

  6. 殺毒軟體等攔截

  7. DDoS

知己知彼,百戰不殆,了解一下過去那幾年我們所經歷過的各種不可抗離奇事件吧。

一.空調,揮之不去的噩夢

我們一而再再而三地跌倒在IDC機房空調機組腳下,那幾年每年夏天都過得提心弔膽,每次望見漫天楊絮都憂心忡忡。

回顧一下歷史:

2011年5月6日

  • 15點~18點,我司所在的世某某聯廊坊IDC機房,空調故障,局部過熱,導致部分主機自動關機。

  • 所幸隻影響到CMS的使用,對其他服務無影響。

2011年6月2日

  • 16點~19點,仍然是世某某聯廊坊IDC機房,空調機組故障,造成託管機房溫度過高。

  • 16點10分開始,運維部已將中心區域服務進行了遷移,將核心業務遷移到邊緣區域溫度相對較低的伺服器上提供服務。但隨著中心區域溫度的持續升高,17點開始中心區伺服器相繼出現工作不穩定和宕機狀況。

  • 17點50分至18點06分期間,前端伺服器陸續宕機,造成20%用戶打不開網頁。

  • 於是我司於6月底停服夜奔,從廊坊搬遷伺服器回了北京,孩子還是放在身邊放心。

2013年5月18日

  • 16點10分,我司所在的北京互某通IDC機房的空調機組因楊柳絮堵塞室外機而停機。

  • 託管機房某列機櫃內託管伺服器超溫保護自動關機。

IDC機房空調機組停機導致的事故,我司每次都是標準處理流程:

1)運維部極速飛車到機房,冰磚啊風扇啊挪機器到外圍區域啊;

2)運維部發函追責;

3)IDC機房承認錯誤,做出賠償;

4)運維部發事件報告以及對方公函。

歷史上其他公司的空調殃及池魚事件:

2012年12月26日,12306火車票網站因機房空調系統故障而無法訪問。

二.易斷的纜線

2011年11月17日16點40分~18點20分,我司簡訊通道所在的天津塘沽某IDC機房電纜被鏟車挖斷,備用電源堅持不了太久,機房斷電,導致我司無法使用簡訊通道,同機房的遨遊、新浪郵箱、豌豆莢等公司的服務也因此中斷。

其實只要你運營時間足夠長,總會撞上一次:

  • 2012年7月25日晚間~21點40分,北京暴雨搶修光纖被挖斷,導致美團網一度不能訪問。

  • 2012年10月18日上午~11點40分,酒仙橋某IDC機房斷電,凡客誠品(剛好趕上凡客五周年生日促銷)、亞馬遜中國等網站無法訪問。

  • 2013年7月22日上午,因市政道路施工導致通信光纜被挖斷,影響了微信伺服器的正常連接。

三.硬體造成的網路中斷

硬體造成的網路中斷,並不鮮見,如2013年4月10日,騰訊微信所在IDC機房的一台交換機出現硬體故障,導致少部分微信用戶約十分鐘發送消息失敗,還一度轟動了社交網路。

3.1.上游的硬體問題

2013年6月17日,

1.t20:30分,監控報警提示業務中斷;

2.t20:32分,運維人員和機房值班工程師取得聯繫,確認機房網路出現異常;

3.t20:35分,運維人員趕往機房現場協調處理;

4.t20:40分,通知公司相關部門人員按緊急預案執行;

5.t20:50分,現場工程師和互某通技術人員確認,長話大樓機房核心設備硬體故障造成網路中斷,備件已到位,正在更換中;

6.t21:00分,將服務切換到攻擊防護IP地址段(因該IP段為單聯通線路,流量出口為機房本地出口,所以該段未受到影響);

7.t21:00分,機房部分流量恢復,表現為聯通運營商用戶可以訪問網站,其他運營商無法訪問網站;

8.t21:02分,通知公司相關部門人員故障開始恢復;

9.t21:30分,與互某通技術人員聯繫,設備硬體已經更換完成進行加電;

10.t21:35分,互某通長話機房網路恢復,其他運營商用戶可以訪問網站,所有功能恢復。

本次故障為互某通機房長話大樓核心設備故障造成,暴露出幾個問題:

1.t長話大樓機房作為核心機房,核心網路設備沒有採用在線熱備,採用冷備方式,出現故障後恢復時間過長,

2.t出現長話大樓機房核心設備故障時,可以選擇將BGP出口切換到同城某核心機房,但對方未進行此操作。

3.2.自身的硬體問題

2014年10月27日,

1.t15:20分,監控報警發現網站銷量異常以及網站無法正常打開。

2.t15:23分,運維部開始分配工作檢查故障,排除公司網路、DNS解析、外部網路攻擊、機房網路問題等環節,最後判斷是網站外網核心交換機可能出現故障。

3.t15:47分,運維部工程師從公司出發到機房現場進行問題排查。

4.t16:05分,運維部工程師到達現場,使用筆記本接入核心交換機,查看交換機工作狀態,發現有大量報錯,經判斷為核心交換機堆疊出線故障,造成交換機無法正常工作。工程師將交換機堆疊線纜重新安裝,並重啟交換機 。

5.t16:15分,核心交換機完成重啟,故障報錯消失,網站開始恢復提供訪問。

四.波及全國的DNS根域問題

DNS 出了問題,誰也跑不了,都受影響。

最近一次DNS事故是,2014年1月21日,繼上午騰訊16項服務出現故障(與我司有關的是QQ聯合登錄登不進網站了)後,下午15點10分~16點30分,全國所有通用頂級域的根出現異常,導致大量國內網民無法訪問 .com 域名網站,很多網站被解析到 65.49.2.178 這一美國IP地址。由於公網訪問我司以及支付寶,均需要域名解析,所以損失無法估計。

據報載,近年來中國大規模的網路癱瘓事故有五起,包括2006年台灣地震震斷海底光纜事故、2009年暴風DNS受攻擊導致大範圍斷網、2010年百度域名被劫持事件、2011年中國電信寬頻維修導致大規模網路故障、以及2014年1月21日DNS域名根伺服器故障。

五.地方流量劫持

地方電信運營商和流量聯盟都會出手,劫持我們的域名。

5.1.運營商劫持域名

2013年10月底,淮安銷售反饋當地訪問我司域名以及商戶後台域名很慢,隨後,運維部發現淮安鐵某通劫持了我司的域名。

這種問題只能以消費者身份投訴當地鐵某通客服。

5.2.流量聯盟劫持域名

2014年1月23日,長沙城市經理反饋,在網吧上網發現我司、某800等頁面均直接跳轉到美某團。

運維部遠程協助後發現,IE瀏覽器訪問我司域名以及其他電商域名時,會跳轉到億某發的通過網易短網址服務縮短後的地址,

然後再跳轉到 p.y****a.com/c?s=1736f800&w=378742&c=5402&i=11642&l=0&e=&t=mei****.com/ ,

最後跳轉到美某團 chs.mei****.com/?source=yqf&utm_campaign=AffProg&utm_medium=yqf&utm_source=p.y****a.com&utm_content=p.y****a.com%2Fc&_rdt=1&urpid=Mzc4NzQyfDAwNzA5ZjY2YmI3NTkyZDkxNGZi&utm_term=Mzc4NzQyfDAwNzA5ZjY2YmI3NTkyZDkxNGZi,

運維部懷疑是億某發聯網旗下的站長聯合網吧出口的管理軟體,對團購相關網站做了域名劫持。

那個年代,億某發聯盟的成員在各地劫持各大電商流量,十分常見,花樣百出。

六.殺毒軟體等攔截

被攔截無外乎被人舉報或無意誤殺。

6.1.殺毒軟體攔截

2013年10月23日淮安城市經理反饋,商家發現用金山毒霸殺毒時會提示說我司商家後台域名有問題,如下圖所示:

圖4 瀏覽器上的殺毒軟體提示

經過研發人員與金山客服聯繫,很快不再攔截,但客服拒絕回答原因。

接下來,我們又發現,商家在電腦桌面上創建有我司商戶後台的快捷方式時,立刻彈出金山毒霸的病毒報警,如下圖所示:

圖6 金山毒霸的彈框提示

再一次聯繫金山客服後,金山客服反饋金山後台已經處理。

金山客服表示,今天處理問題與昨天處理的問題是同一個問題在兩個不同軟體中的體現,所以需要進行兩次處理。當被問及是否還會出現第三次或者在金山的其他平台出現類似問題時,客服不確定不會出現,只能保證瀏覽器和快捷方式文件的病毒誤報情況,不會再出現,如果有大量用戶投訴網站內容,也可能會再次出現病毒報警。

6.2.其他攔截

2012年時,我司掃碼驗碼的終端設備曾經因為移動運營商攔截 55.com 域名而被迫緊急更換域名並升級設備軟體。

當時幾經周折,也不知道是移動運營商哪一個部門負責此事,打探到有人投訴該域名下有非法內容因此被禁,以至於終端設備通過SIM卡上網無法訪問我司服務。

七.DDoS

我司被 DDoS 攻擊過,也被同機房的其他公司殃及過。

7.1.荒謬的躺槍

2011年8月9日,ebao**.com 是杭州一家團購網站,估計在8月8日被人DDoS攻擊了,所以他們自己把域名指向我司IP(?!),還好運維部及時發現及時處理。

2012年2月13日,我司遭遇 SYNC Flood 攻擊,機房對應網段帶寬被打滿。頭一次在我司主站掛出公告。攻擊時,我司一度把域名指向CDN,讓CDN幫忙扛。

7.2.我司被殃及

從2014年1月17日下午18點開始,互某通IDC機房由於託管用戶觸某科技被 DDoS 攻擊造成大網受到影響,網路斷斷續續。

故障現象為:機房內到外 PING 丟包嚴重,丟包最嚴重時丟包率 100%;網站無法正常訪問。

這種現象在1月18、19、20日仍繼續發生,IDC機房採取的措施是,一旦發現觸某科技被打,就關閉它的埠,保證其他公司業務不受影響,所以每次都是幾分鐘的波動。

7.3.自擺烏龍

高估了我司的服務性能,無線曾經發了一次批量 Push,結果用戶蜂擁而來,洪水而來的請求直接打垮了無線伺服器協議端,各個節點雪崩。無線大頭欲哭無淚。

還有一次,2012年4月24日,有人發微博說專賣店頁面訪問 504(Gateway Timeout),還有微博說我司商品圖片打不開了。

經查,是無線在公司內網的伺服器在上午9點~12點之間,從CDN大量抓取我司商品圖片。

由於抓取的大量圖片(畢竟是遍歷商品嘛)在 CDN 中沒有緩存,導致 CDN 回源取數據的流量增加,變相形成 CDN 伺服器輕量 DDoS 我司靜態資源伺服器的情況 。

只好告訴大家在對自家主站數據進行任何大規模(並發)抓取前,先想想後果,不要自己 DDoS 自己。

小結一下,寫了這麼多,就是讓大家了解一下線上線下都會面對哪些不可抗因素,做好心理準備。

-THE END-

歡迎您關注微博@鄭昀,歡迎您關注微信訂閱號『老兵筆記』。


推薦閱讀:

是否女性駕駛員安全意識更淡泊、法律常識欠缺?
用濃硫酸疏通管道可行嗎?
近期看到OPPO手機安全方面的不少宣傳,如何看待OPPO手機的安全系統,以後這會成為手機的發展趨勢嗎?
北京酒店女生遇襲:最可怕的,是那些看不見的
酷站推薦 - lab.xmirror.cn - 懸鏡安全實驗室

TAG:运维 | 安全 | 信息技术IT |