數人云|初伏天，熱出5種DevOps事件管理工具

02-11

數人云：最近兩天這個天呀，真是出門5分鐘，流汗2小時，小數保持冷靜，盤點5種DevOps事件管理工具，一起來消消暑吧：）

最少的BUG，最優質的代碼是開發的終極目標。正如Arkenea的創始人Rahul Varshneya在其文章中描述NASA的開發和處理軟體：「所有應用都有BUG。」儘管有成百上千的人在規劃、研發、測試NASA的代碼，但負責宇航員生活的應用仍然存在BUG。

DevOps的目標——確保在生產中能夠檢測到的每一個BUG，並根據其應用功能或者可用性的影響度來分級、及時處理。由DevOps處理的生產問題稱為「事件」。

1998年，NASA發射火星氣候探測器，作為火星極地登錄計劃的一部分。1999年9月23日，軌道飛行器失聯，一隊技術人員花費24個小時以上的時間，嘗試深空網路天線用以恢復聯繫。若只知道其在幾百萬英里以外，但不知確切位置，該如何解決此問題？

NASA發布的Twitter：

儘管運維團隊一直在遵循著ITIL原則，但以現在來說略顯過時。隨著應用發布時間縮短，標準的SLA用於宕機或缺陷辨識度為0，DevOps和事件管理過程必須做出相應調整。事件需分類和優先排序，最好有自動服務，與相關的程序員和測試進行合作分配處理，在一天內給出解決方案。

面向客戶的DevOps人員應24小時跨時區覆蓋，每個SLA漏洞都要觸發升級，並迅速涉及到更高技術層。為了讓應用始終運行、正確處理事件、符合標準，需要事件管理工具，本文將列舉5個：

PagerDuty

PagerDuty是自動化處理的系統，可以將在生產維護上投入的時間精力降低到最低。該工具通過應用環境中的所有系統對告警和時間進行排序，並洞察其中的關聯進行分組。減少了同一事件連續告警的問題，有助於將焦點放在實際時間上，提高解決效率。PagerDuty允許用戶定製告警，且向相關人員發送信息，幫助解決所有類型的問題。

該工具收集信息從資料庫中讀取模式，助力自動升級，根據應用特定區域的前幾次事件，給出基本決策。為DevOps管理人員提供所有事件及狀態的實時視圖。作為實時儀錶板的一部分，事件能夠相關聯，管理人員可以進行深入研究，對事件的生命周期和路由做出對策。

該工具提供的分析和報告能跟蹤系統性能趨勢並分析故障根源。還可監控不同團隊的工作效率，為未來事件優化處理生命周期。PagerDuty最近推出了一款手機應用，用戶可以在任何時間、地點管理和監控生產事件。PagerDuty也集成了150多個監控、部署的工具，因此在核心系統中很容易實現並立即查看結果。

OpsGenie

OpsGenie是一款在雲端部署告警和監控的應用，路由、通知規則和移動效率是OpsGenie的特色。使用該工具第一步要為告警和通知路由定義時間表，用於處理不同地區團隊下班後的事件，且能發起適當的決策操作。

OpsGenie提供電話服務來跟進未處理的告警，保持每個管理員的溝通和響應，並允許其根據事件的嚴重性和數量進行分級告警。OpsGenie的手機客戶端可以做出相應的操作和決策。

生命周期和通知列表對每個告警都有詳細的記錄文檔，且可以後期處理，用來改進流程中的問題和提高效率。從易維護的角度看，使用此工具的企業能將通知管理整合到分組裡，可以設置細節和偏好，防止數據重複，減少管理負擔。

VictorOps

VictorOps將自己描述為PagerDutry的另一種選擇，是一個實時管理事件的平台，可以對突發事件作出響應，預知未來事件作出準備。事件告警根據一個調用計劃發送，也可以被動態重定向。告警是動態、可配置的，因此能夠被修改為包含服務日誌的鏈接，或任何人都可以遵循的解決方案。利用與其他工具的集成，VictorOps構建了一個「時間軸」，顯示整個生態系統的信息，即可輕鬆調查事件，或與其他事件關聯。

VictorOps還引入了Transmogrifier，允許定製從告警到事件流的所有內容，使得事件管理更為簡單，該工具內置聊天功能，有助於團隊協作，快速解決問題。

Jira

Jira服務平台是Jira組合的一部分，幫助開發和DevOps以最好的方式構建、發布軟體。服務為部門認為服務是最耗時的，因此該工具提供了一種自助服務模塊，其中包含有用信息的知識庫，用戶可以在向客戶服務代理請求幫助之前自行查詢。還可以應用於ITIL驅動的組織和使用較新的事件管理方法，通過集成問題和變更管理模塊，並為生產中的每一種事件生成詳細的工作流程。

Jira也提供了大量的API，允許和任何CRM或票務管理系統簡單集成。因此Jira能讓企業更便於編輯服務平台數據中心，DevOps關注關鍵任務和企業能夠快速使用服務台，服務台能讓企業編輯服務台數據中心，DevOps可以關注任務關鍵服務和容災計劃。

FreshService

FreshService是一站式ITIL軟體，為整個IT運營部門提供解決方案。其事件管理模塊與不同的通道進行通信，使用電話、聊天、甚至電子郵件報告新的事件。每一個事件都被優先處理，並且提供相關規則，自動路由到合適的代理或團隊。事件信息會被存儲，分析，一旦解決，可以作為以後發生類似事件的方案建議。該工具有能力根據響應事件自動將事件分配給不同的團隊。

FreshService還提供了一個診斷模塊，允許用戶或客戶提交方案進行診斷，並給出反饋，團隊根據反饋進行改進。 FreshService了解重大事件對不同企業的影響，在此基礎上，建立了一個只處理重大事件的模塊，此模塊有獨立的進程、元數據、升級方法和更高的管理參與介面。讓影響廣泛的、跨部門的事件能夠快速有效處理。

結論

對事件SLA的正確的響應、及時響應是目標，需要深入了解應用的前後端，高端面向服務和正確的工具。本文所討論的工具可以作為處理過程的基礎設施，對相關人員進行支持，提高效率和問題改進。

正如沒有完美的應用一樣，也沒有完美的事件管理工具。本文概述了5個主要的事件管理工具，如何處理生產服務中斷並嘗試解決。企業首先需要決定標準和服務目標，根據特性和功能選擇工具。

以下是這些事件管理工具之間的差異：

原文作者：Daniel Berman

原文鏈接：The Top 5 Incident Management Systems for DevOps - Logz.io