標籤:

數人云|初伏天,熱出5種DevOps事件管理工具

數人云:最近兩天這個天呀,真是出門5分鐘,流汗2小時,小數保持冷靜,盤點5種DevOps事件管理工具,一起來消消暑吧:)

最少的BUG,最優質的代碼是開發的終極目標。正如Arkenea的創始人Rahul Varshneya在其文章中描述NASA的開發和處理軟體:「所有應用都有BUG。」儘管有成百上千的人在規劃、研發、測試NASA的代碼,但負責宇航員生活的應用仍然存在BUG。

DevOps的目標——確保在生產中能夠檢測到的每一個BUG,並根據其應用功能或者可用性的影響度來分級、及時處理。由DevOps處理的生產問題稱為「事件」。

1998年,NASA發射火星氣候探測器,作為火星極地登錄計劃的一部分。1999年9月23日,軌道飛行器失聯,一隊技術人員花費24個小時以上的時間,嘗試深空網路天線用以恢復聯繫。若只知道其在幾百萬英里以外,但不知確切位置,該如何解決此問題?

NASA發布的Twitter:

儘管運維團隊一直在遵循著ITIL原則,但以現在來說略顯過時。隨著應用發布時間縮短,標準的SLA用於宕機或缺陷辨識度為0,DevOps和事件管理過程必須做出相應調整。事件需分類和優先排序,最好有自動服務,與相關的程序員和測試進行合作分配處理,在一天內給出解決方案。

面向客戶的DevOps人員應24小時跨時區覆蓋,每個SLA漏洞都要觸發升級,並迅速涉及到更高技術層。為了讓應用始終運行、正確處理事件、符合標準,需要事件管理工具,本文將列舉5個:

PagerDuty

PagerDuty是自動化處理的系統,可以將在生產維護上投入的時間精力降低到最低。該工具通過應用環境中的所有系統對告警和時間進行排序,並洞察其中的關聯進行分組。減少了同一事件連續告警的問題,有助於將焦點放在實際時間上,提高解決效率。PagerDuty允許用戶定製告警,且向相關人員發送信息,幫助解決所有類型的問題。

該工具收集信息從資料庫中讀取模式,助力自動升級,根據應用特定區域的前幾次事件,給出基本決策。為DevOps管理人員提供所有事件及狀態的實時視圖。作為實時儀錶板的一部分,事件能夠相關聯,管理人員可以進行深入研究,對事件的生命周期和路由做出對策。

該工具提供的分析和報告能跟蹤系統性能趨勢並分析故障根源。還可監控不同團隊的工作效率,為未來事件優化處理生命周期。PagerDuty最近推出了一款手機應用,用戶可以在任何時間、地點管理和監控生產事件。PagerDuty也集成了150多個監控、部署的工具,因此在核心系統中很容易實現並立即查看結果。

OpsGenie

OpsGenie是一款在雲端部署告警和監控的應用,路由、通知規則和移動效率是OpsGenie的特色。使用該工具第一步要為告警和通知路由定義時間表,用於處理不同地區團隊下班後的事件,且能發起適當的決策操作。

OpsGenie提供電話服務來跟進未處理的告警,保持每個管理員的溝通和響應,並允許其根據事件的嚴重性和數量進行分級告警。OpsGenie的手機客戶端可以做出相應的操作和決策。

生命周期和通知列表對每個告警都有詳細的記錄文檔,且可以後期處理,用來改進流程中的問題和提高效率。從易維護的角度看,使用此工具的企業能將通知管理整合到分組裡,可以設置細節和偏好,防止數據重複,減少管理負擔。

VictorOps

VictorOps將自己描述為PagerDutry的另一種選擇,是一個實時管理事件的平台,可以對突發事件作出響應,預知未來事件作出準備。事件告警根據一個調用計劃發送,也可以被動態重定向。告警是動態、可配置的,因此能夠被修改為包含服務日誌的鏈接,或任何人都可以遵循的解決方案。利用與其他工具的集成,VictorOps構建了一個「時間軸」,顯示整個生態系統的信息,即可輕鬆調查事件,或與其他事件關聯。

VictorOps還引入了Transmogrifier,允許定製從告警到事件流的所有內容,使得事件管理更為簡單,該工具內置聊天功能,有助於團隊協作,快速解決問題。

Jira

Jira服務平台是Jira組合的一部分,幫助開發和DevOps以最好的方式構建、發布軟體。服務為部門認為服務是最耗時的,因此該工具提供了一種自助服務模塊,其中包含有用信息的知識庫,用戶可以在向客戶服務代理請求幫助之前自行查詢。還可以應用於ITIL驅動的組織和使用較新的事件管理方法,通過集成問題和變更管理模塊,並為生產中的每一種事件生成詳細的工作流程。

Jira也提供了大量的API,允許和任何CRM或票務管理系統簡單集成。因此Jira能讓企業更便於編輯服務平台數據中心,DevOps關注關鍵任務和企業能夠快速使用服務台,服務台能讓企業編輯服務台數據中心,DevOps可以關注任務關鍵服務和容災計劃。

FreshService

FreshService是一站式ITIL軟體,為整個IT運營部門提供解決方案。其事件管理模塊與不同的通道進行通信,使用電話、聊天、甚至電子郵件報告新的事件。每一個事件都被優先處理,並且提供相關規則,自動路由到合適的代理或團隊。事件信息會被存儲,分析,一旦解決,可以作為以後發生類似事件的方案建議。該工具有能力根據響應事件自動將事件分配給不同的團隊。

FreshService還提供了一個診斷模塊,允許用戶或客戶提交方案進行診斷,並給出反饋,團隊根據反饋進行改進。 FreshService了解重大事件對不同企業的影響,在此基礎上,建立了一個只處理重大事件的模塊,此模塊有獨立的進程、元數據、升級方法和更高的管理參與介面。讓影響廣泛的、跨部門的事件能夠快速有效處理。

結論

對事件SLA的正確的響應、及時響應是目標,需要深入了解應用的前後端,高端面向服務和正確的工具。本文所討論的工具可以作為處理過程的基礎設施,對相關人員進行支持,提高效率和問題改進。

正如沒有完美的應用一樣,也沒有完美的事件管理工具。本文概述了5個主要的事件管理工具,如何處理生產服務中斷並嘗試解決。企業首先需要決定標準和服務目標,根據特性和功能選擇工具。

以下是這些事件管理工具之間的差異:

原文作者:Daniel Berman

原文鏈接:The Top 5 Incident Management Systems for DevOps - Logz.io


推薦閱讀:

CI Weekly #13 | 用更 Geek 的方式配置你的 CI 工作流
基於產品思維驅動的運維服務建設
基於Docker持續交付平台建設的實踐
怎麼把SQL server放到docker里運行?

TAG:DevOps |