基於機器學習的智能運維

n 聽了裴丹教授關於《基於機器學習的智能運維》演講之後的寫下的一個筆記。今天來看, 還是有不少啟發, 分享給大家, 對細節有興趣的童鞋可以去看演講實錄。 在本文末尾附了相關鏈接。 n

n 基於機器學習的智能運維

n 講師: 裴丹n

概述

n 值得工業界運維工程師關注的頂級學術會議

智能運維歷程

n 基於專家庫規則 -> 機器學習 -> 深度學習n

智能運維如何做好

n 機器學習本身有很多成熟的演算法和系統,及其大量的優秀的開源工具。 如果成功的將機器學習應用到運維之中,還需要三個方面的支持: 數據, 標註的數據, 應用。 n

  • 數據:互聯網應用本身具有海量的日誌。需要做優化存儲。 數據不夠還需要自主生成。
  • n

  • 標註的數據: 日常運維工作會產生標註的數據。 比如出了一次事件後,運維工程師會記錄下過程, 這個過程會反饋到系統之中, 反過來提升運維水平。
  • n

  • 應用: 運維工程師師智能運維繫統的用戶。 用戶使用過程發現的問題可以對智能系統的優化起正向反饋作用。
  • n

kpi異常檢測系統的實現

n 運維人員判斷kpi曲線的異常並標註出來, 系統對標註的特徵數據進行學習 。(典型的監督式學習)n

n 需要高效的標註工具來節省運維人員的時間: 如可以拖拽,放大n

挑戰和解決方案

整體設計

多維度搜索日誌分析框架

n 從多維度數據找出問題,然後優化。 利用到機器學習中的學習決策樹的模型。

n 每天日誌來了之後,輸入到機器學習決策樹的模型裡面,分析出每天高響應時間的條件,跨天進行分析,之後再去做一些准實驗,最後得出一些結果。n

其它應用

  • 異常檢測之後的故障定位
  • n

  • 故障止損建議
  • n

  • 故障根因分析
  • n

  • 數據中心交換機故障預測
  • n

  • 海量Syslog日誌壓縮成少量有意義的事件
  • n

  • 基於機器學習的系統優化(如TCP運行參數)
  • n

總結

  • 機器學習的目標是: 自動化那些知其然,不知所以然的運維技能, 成為運維人員高效可靠的助手
  • n

  • 更好的應用機器學習:特徵選取的時候,早期可以用一些全部數據+容忍度高的演算法,如隨機森林,還有特徵工程、自動選取(深度學習);不同機器學習演算法適用不同的問題;多和學術界討論。
  • n

  • 從現有的ticket系統提取有價值的數據: ticketing系統作為智能運維的一部分來設計
  • n

  • 智能運維到智能運營
  • n

資源列表

基於機器學習的智能運維

百度如何做智能運維

百度如何做智能運維

n [歡迎關注微信公眾號「雲時代的運維開發」,獲得最新的文章推送]


推薦閱讀:

大數據下的技術運營(一)——監控系統概覽篇
2017 Web 開發者學習路線圖
CI Weekly #3 | 關於微服務、Docker 實踐與 DevOps 指南
CI Weekly #10 | 2017 DevOps 趨勢預測

TAG:机器学习 | DevOps | 算法 |