基於機器學習的智能運維
02-04
n 聽了裴丹教授關於《基於機器學習的智能運維》演講之後的寫下的一個筆記。今天來看, 還是有不少啟發, 分享給大家, 對細節有興趣的童鞋可以去看演講實錄。 在本文末尾附了相關鏈接。 n
n 基於機器學習的智能運維
n 講師: 裴丹n概述
n 值得工業界運維工程師關注的頂級學術會議
智能運維歷程
n 基於專家庫規則 -> 機器學習 -> 深度學習n
智能運維如何做好
n 機器學習本身有很多成熟的演算法和系統,及其大量的優秀的開源工具。 如果成功的將機器學習應用到運維之中,還需要三個方面的支持: 數據, 標註的數據, 應用。 n
- 數據:互聯網應用本身具有海量的日誌。需要做優化存儲。 數據不夠還需要自主生成。
- 標註的數據: 日常運維工作會產生標註的數據。 比如出了一次事件後,運維工程師會記錄下過程, 這個過程會反饋到系統之中, 反過來提升運維水平。
- 應用: 運維工程師師智能運維繫統的用戶。 用戶使用過程發現的問題可以對智能系統的優化起正向反饋作用。
n
n
n
kpi異常檢測系統的實現
n 運維人員判斷kpi曲線的異常並標註出來, 系統對標註的特徵數據進行學習 。(典型的監督式學習)n
n 需要高效的標註工具來節省運維人員的時間: 如可以拖拽,放大n
挑戰和解決方案
整體設計
多維度搜索日誌分析框架
n 從多維度數據找出問題,然後優化。 利用到機器學習中的學習決策樹的模型。 n 每天日誌來了之後,輸入到機器學習決策樹的模型裡面,分析出每天高響應時間的條件,跨天進行分析,之後再去做一些准實驗,最後得出一些結果。n其它應用
- 異常檢測之後的故障定位
- 故障止損建議
- 故障根因分析
- 數據中心交換機故障預測
- 海量Syslog日誌壓縮成少量有意義的事件
- 基於機器學習的系統優化(如TCP運行參數)
n
n
n
n
n
n
總結
- 機器學習的目標是: 自動化那些知其然,不知所以然的運維技能, 成為運維人員高效可靠的助手
- 更好的應用機器學習:特徵選取的時候,早期可以用一些全部數據+容忍度高的演算法,如隨機森林,還有特徵工程、自動選取(深度學習);不同機器學習演算法適用不同的問題;多和學術界討論。
- 從現有的ticket系統提取有價值的數據: ticketing系統作為智能運維的一部分來設計
- 智能運維到智能運營
n
n
n
n
資源列表
基於機器學習的智能運維
百度如何做智能運維百度如何做智能運維n [歡迎關注微信公眾號「雲時代的運維開發」,獲得最新的文章推送]
推薦閱讀:
※大數據下的技術運營(一)——監控系統概覽篇
※2017 Web 開發者學習路線圖
※CI Weekly #3 | 關於微服務、Docker 實踐與 DevOps 指南
※CI Weekly #10 | 2017 DevOps 趨勢預測