系統排除故障的九大「道」術

本文原載於: OpsStack.io

作者:Steve Mushero | 譯者:Lisa QIN

OpsStack?

opsstack.io圖標

系統又奔潰了 !!!

伺服器重啟

網站複雜程度很高

程序BUG

微伺服器

無伺服器

鬆散的零部件

複雜的系統架構

...

有什麼好方法?

Troubleshooting排除故障 九大「道」術

01 了解你的系統架構

在排障之前必須了解你的系統架構,知道故障在哪裡,如何連接,如何配置?故障的行為是什麼?以及它所有的功能,查看相關的邏輯框架圖,物理架構圖以及網路架構圖等。

02 知曉你所知道的

排除故障前,知道所有事情的狀態和配置,這不僅是檢查你的代碼,配置,.env和基礎設施代碼系統,還包括所有動態部分和部件,故障的原因是來自於你現在正在運行的程序。

03 找出改變的原因

在最後相關的時間段內,發生了什麼變化?由誰?什麼時候發生?誰登錄到伺服器?誰推動任

何代碼?誰更改任何配置?誰修改了雲信息?什麼行為改變了?

例如:延遲變化,相關性的動態變化,錯誤率是否發生了變化?資源負載或可用性發生了什麼

變化?而這些變化中的哪一個重要?

04 利用專業知識

直接或間接應用知識或經驗,找出它們之間的關係,相關性,特別是動態和失敗模式的關聯性

通過連線專家,現場,在線或通過Ouija。如果可以的話,申請7x24系統運維管家和規則引擎

編碼的專業知識。

05 清晰的思路

總是不停的思考和觀察,以開發規則引擎和專家的大腦,特別是低風險,通過規則引擎自動化

快速回答的信息,沒有足夠的數據和時間來處理這一切,帶著疑問自然會尋找到答案。

06 探索結果

排除故障前,做一些微小的改變或系統的調整,來觀察結果。特別有用的是增加你的排除清

單,明確之前不確定的關係,或者是之前沒有工作的原理。

07 排除唯一性

不要浪費時間解決你不可能解決的問題,因為它們會消耗巨大的精力,專註力和資源,沒有被

充分排除在外的,永遠不要忘記問題不在於是什麼,而在於處理問題的基本邏輯和經驗。

08 測試真相

作為後期階段排除故障可能會在矛盾和難題中結束,出現的問題不一定是事實,

用馬克·吐溫的話來說:「問題不是你所不知道的,而是你知道的並非事實真相.」

總是不斷挑戰你的最基本假設,事實和真相,通常是你所知道的事實並非如此。

09 尋求釋放

問題很難,沒有足夠的時間或好的工具,壓力大,不斷退後一步,重溫你所知道的事情,

並思考你所知道的,看看它們是如何連接起來的,分析下因果關係,說不定真想就浮出水面,

或是另一種神秘方式告訴你。


上海雲敞網路科技有限公司(yunchangcloud.com)是一家全球領先的伺服器管理商和雲計算運維服務商。雲敞網路科技有限公司總部設在中國上海,脫胎於由矽谷技術專家創立於2008年的雲絡,是中國首家雲計算運維服務商,數名專家和技術支持團隊。我們是中國最值得信賴的雲計算運維專家,也是AWS在中國認證的第一家MSP。雲敞科技致力於為客戶提供可靠、安全、高擴展性和節約成本的系統運維解決方案。

weixin.qq.com/r/cTkiOkD (二維碼自動識別)


推薦閱讀:

TAG:運維工程師 | 運維自動化 | IT運維 |