系統排除故障的九大「道」術
本文原載於: http://OpsStack.io
作者:Steve Mushero | 譯者:Lisa QIN
OpsStack系統又奔潰了 !!!
伺服器重啟
網站複雜程度很高
程序BUG
微伺服器
無伺服器
鬆散的零部件
複雜的系統架構
...
有什麼好方法?
Troubleshooting排除故障 九大「道」術
01 了解你的系統架構
在排障之前必須了解你的系統架構,知道故障在哪裡,如何連接,如何配置?故障的行為是什麼?以及它所有的功能,查看相關的邏輯框架圖,物理架構圖以及網路架構圖等。
02 知曉你所知道的
排除故障前,知道所有事情的狀態和配置,這不僅是檢查你的代碼,配置,.env和基礎設施代碼系統,還包括所有動態部分和部件,故障的原因是來自於你現在正在運行的程序。
03 找出改變的原因
在最後相關的時間段內,發生了什麼變化?由誰?什麼時候發生?誰登錄到伺服器?誰推動任
何代碼?誰更改任何配置?誰修改了雲信息?什麼行為改變了?
例如:延遲變化,相關性的動態變化,錯誤率是否發生了變化?資源負載或可用性發生了什麼
變化?而這些變化中的哪一個重要?
04 利用專業知識
直接或間接應用知識或經驗,找出它們之間的關係,相關性,特別是動態和失敗模式的關聯性
通過連線專家,現場,在線或通過Ouija。如果可以的話,申請7x24系統運維管家和規則引擎
編碼的專業知識。
05 清晰的思路
總是不停的思考和觀察,以開發規則引擎和專家的大腦,特別是低風險,通過規則引擎自動化
快速回答的信息,沒有足夠的數據和時間來處理這一切,帶著疑問自然會尋找到答案。
06 探索結果
排除故障前,做一些微小的改變或系統的調整,來觀察結果。特別有用的是增加你的排除清
單,明確之前不確定的關係,或者是之前沒有工作的原理。
07 排除唯一性
不要浪費時間解決你不可能解決的問題,因為它們會消耗巨大的精力,專註力和資源,沒有被
充分排除在外的,永遠不要忘記問題不在於是什麼,而在於處理問題的基本邏輯和經驗。
08 測試真相
作為後期階段排除故障可能會在矛盾和難題中結束,出現的問題不一定是事實,
用馬克·吐溫的話來說:「問題不是你所不知道的,而是你知道的並非事實真相.」
總是不斷挑戰你的最基本假設,事實和真相,通常是你所知道的事實並非如此。
09 尋求釋放
問題很難,沒有足夠的時間或好的工具,壓力大,不斷退後一步,重溫你所知道的事情,
並思考你所知道的,看看它們是如何連接起來的,分析下因果關係,說不定真想就浮出水面,
或是另一種神秘方式告訴你。
上海雲敞網路科技有限公司(http://yunchangcloud.com)是一家全球領先的伺服器管理商和雲計算運維服務商。雲敞網路科技有限公司總部設在中國上海,脫胎於由矽谷技術專家創立於2008年的雲絡,是中國首家雲計算運維服務商,數名專家和技術支持團隊。我們是中國最值得信賴的雲計算運維專家,也是AWS在中國認證的第一家MSP。雲敞科技致力於為客戶提供可靠、安全、高擴展性和節約成本的系統運維解決方案。
http://weixin.qq.com/r/cTkiOkDE8R2OrQRZ92xj (二維碼自動識別)
推薦閱讀: