新一代智能化運維管理解決方案
來自專欄 IT大咖說
內容來源:2017年4月23日,優雲軟體解決方案中心總監童華權在「雲時代下的運維管理實踐」進行《優雲新一代智能化運維管理解決方案》演講分享。IT 大咖說作為獨家視頻合作方,經主辦方和講者審閱授權發布。
閱讀字數:3981 | 6分鐘閱讀
獲取嘉賓演講視頻回放及PPT,請點擊:http://t.cn/RFIDYLb
摘要
優雲軟體解決方案中心總監童華權為我們帶來優雲作為國內在運維領域做得比較深刻的廠商,在運維管理方面的一些見解。
運維面臨的挑戰
數據中心進入「兩化轉變」
數據中心轉向「兩化轉變」,技術架構層面隨著雲計算、大數據、物聯網、微服務、容器等新技術廣泛使用,呈現出「混合化」趨勢。運維模式層面上,DevOps理念快速推廣,CI/CD深入人心,尤其是GoogleSRE、國內BATJDevOps等互聯網實踐,運維模式上也呈現出明顯的態(Bimodal, Gartner )特徵,穩態與敏態的融合業務模式,運維模式也出現隨之變化,運維管理面臨雙態IT帶來的挑戰。
軟體定義數據中心(SDDC)對運維的挑戰
軟體定義數據中心(SDDC)要求具備簡化並自動化的運維管理,並支持應用和基礎架構交付自動化。
上圖是軟體定義數據中心的模型。軟體數據中心對運維和管理有幾個新的訴求。它要求更加簡化和自動化的運維管理能力,還有應用和基礎架構交付自動化能力。這是在新的軟體定義數據中心環境下對運維和管理的一些新訴求。
互聯技術架構應用對運維的挑戰
企業信息化建設中,新型互聯網開放技術架構的廣泛應用,對各類新技術的運維支持成為當前迫切的需求。
Devops對運維的挑戰
DevOps理念的快速推廣,促進了業務與技術的加速融合,及開發與運維的加速融合,對運維管理尤其是自動化運維提出更高的要求。
運維業務模式轉變的挑戰
在雙態背景下,數據中心運維業務模式發生了明顯轉變,技術與業務、開發與運維加速融合。
在開發層面上,我們要更加註重持續交付的能力;在運維層面上,要求更高水平的自動化管理能力和更加敏捷的運維管理過程。
因為要更好地為業務服務,所以我們在用戶和業務層級也要求有更好的管理和支撐能力。越來越注重用戶的體驗和用戶行為的分析,這樣才能為業務進行保障和促進業務的發展。
雙態運維管理理念
新背景下的運維管理理念分享
我們提出了一個軟體定義運維(Software Definition Ops)的概念。把運維業務定義出來並且快速地實現,能夠投入到日常的運維過程中去。
運維軟體平台PaaS化,是運維生命力關鍵,是雙態運維最佳技術實踐。基於可定義的範疇內的內容,通過平台化把它們落地。基於運維PaaS平台,實現運維場景化的梳理,運維場景標準化的確認,通過更大範疇內的自動化運維把它做出來,還有就是運維的可視化以及持續不斷提升走向智能化的方向。
雙態運維-軟體定義運維(SDO)實踐策略
雙態通過運維PaaS平台對運維場景進行快速定義即可投入運行,實現面向多變業務的敏捷運維支撐,包括運維場景分析、場景定義、場景運營、持續優化等生命周期。
數據中心運維業務梳理
數據中心運維業務梳理是運維場景分析的依據,是標準化、規範化的前提,也是自動化的基礎。
通過上圖可以把一個數據中心所要管理的內容都梳理出來,總結為四個方面。
第一個就是調研評估,比如需求管理、風險分析、容量分析等一系列工作。還有就是例行操作、響應支持和優化改善。
運維場景大致可以分為幾個部分。資產檔案管理,資產檔案管理是現在非常火的一個CMDB的概念,理清自己到底有多少IT資產,形成運維的基礎。還有全方位監控管理、運行值班與故障處置、變更與校對管理以及巡檢與作業管理。
雙態運維平台建設
優雲全棧互聯網+運維平台
採用微服務、大數據的新一代互聯網技術架構,定位於運維PaaS平台,採用統一平台+產品APP模式,平台提供統一採集操作層和資源庫,產品APP基於平台服務和組件規範,可不斷豐富擴展和相互聯動。
1、資產檔案管理
資產配置管理常見問題(一)
由Excel說起的資產配置管理,信息零散、缺乏全局管理,消耗大量的人力成本,及時性低。
數據容易被任意修改,缺乏版本控制,數據準確性低。
資產配置管理常見問題(二)
傳統運維工具,資源管理範圍大、維護過程複雜,反倒增大的運維人員工作負擔,使用意願低。
一直處在數據維護的困局當中,從未有餘力思考如何發揮配置數據的價值。
數據中心IT資產檔案管理方案場景
系統通過全網掃描與自動化採集、社交化維護方式促進CMDB的自動化構建、敏捷化維護、場景化應用。
眾所周知,自動化掃描是非常有價值的。它可以幫助我們找到網路環境中有哪些IP和資源,做到沒有遺漏。
再通過細化的配置採集,找出我們所需的數據中心裡出現的資源詳細信息,構建一個完整的配置信息。
配置數據的維護需要各自團隊去維護自己的數據,讓最熟悉的人負責自己的數據才是合適的,這就是團隊化的維護圈。
在數據維護的過程中還要注意反饋機制,用戶在使用過程中做出相應的回復,就是一個非常好的反饋機制。所以我們採用了點評、點贊、訂閱等一些社交化的理念,使用戶覺得使用CMDB的時候不像一個上世紀的老古董,而是具有時尚化的感覺。
構建一個配置數據的消費圈,消費圈裡的人可以共享同一份數據,這份數據也可以通過圖形化的方式展示出來,應用到各種各樣分析的場景中。
2、全方位監控管理
監控常見問題(一)
業務應用與用戶體驗出現問題,而IT基礎設施一切正常。
我們看到的往往都是一些日常維護的視角,而用戶所看到的是我們所有問題累積後的結果。
監控常見問題(二)
我們無法感知最終用戶的真實體驗,無法了解我們應當在哪些方面進行優化改善,更無法奢望獲得用戶的認可。
根據IDC的統計,大約40%的故障是由最終用戶首先發現,並通知服務台的。
監控常見問題(三)
故障排查定位花費大量的精力,需要網路、系統、應用、開發團隊參與,投入大量人力成本。
數據中心全方位監控方案場景
針對以上問題,我們提供了面向基礎資源、應用後台、應用前端的監控能力。從應用用戶體驗到應用代碼的應用端對端應用性能與故障監測,並支持業務交易與用戶體驗監測。
大規模雲監控
全面支持傳統架構與互聯網架構的監控,系統同時支持非代理方式進行資源監控。
支持萬節點資源的秒級監控;支持超過6000個指標及腳本級擴展;支持監測資源進行標籤化管理與展示;支持監控展示儀錶盤的自定義。
3、運行值班與故障處置
運維值班與故障處置常見問題
運行值班是IT運行的守護者,我們是否有真正能做到:清晰掌握運行態勢、快速分析定位故障、觸發故障處置措施。
常見問題有:運行態勢展示是否直觀、明了,高層、中層、執行層無法各取所需;監控告警信息無法集中展現與處理;不具備故障分析與定位的能力;故障處置過程不連續貫通。
告警流水式處理與故障根因分析
支持告警集中管理,具有高性能告警關聯引擎,自動化告警處置,做到報的出、報得准、找得對。
ECC大屏可視化展示
「看得清、管得住」是管理學的真諦,運維可視化是數據中心運行安全可靠的儀錶盤,支持按需設計。
ECC大屏設計三模式:運行態勢展示(參觀模式)、運維指揮調度(指揮模式)、運行值班模式(值班模式)。
4、巡檢與作業管理
運維操作常見問題
在數據中心軟體定義化、技術架構互聯網化、業務快速發展、應用持續交付等背景下,尤其是Devops理念在運維領域的全面推廣,自動化運維成為運維管理能力提升的「點金石」。
運維壓力大、效率偏低;運維規範化難以真正落地;運維操作存在安全隱患,根據「墨菲定律」——錯誤總在發生,所以鍋就在那裡;業務變化帶來的持續交付壓力;IT服務的自動化交付水平低。
巡檢與作業管理場景分析
自動化操作的標準化、自動化,是運維規範化的關鍵,是提高運維效率、降低操作風險的關鍵,也是快速故障處置與應急響應的重要手段。
自動化巡檢管理
巡檢能力:針對Windows、Linux、AIX重要指標進行自動巡檢;支持靈活增加系統巡檢項目。
豐富巡檢項:系統參數、服務狀態、錯誤日誌、異常登錄、關鍵進程、合規檢查。
自動化運維作業
系統支持環境準備、系統補丁升級、系統參數修改、合規檢查、服務啟停、數據備份、應急切換等自動化作業場景。
應用持續交付與Devops
應用快速部署,包括環境準備、基礎軟體部署、應用部署、參數配置等部署活動,支持應用持續交付。
作業場景編排與作業調度管理
系統支持運維操作最佳實踐腳本庫,支持靈活的作業編排與作業調度能力,實現數據中心的自動化運營。運維人員由炮灰轉變成戰場指揮官。
5、變更與交付管理
變更與交付常見問題
運維部門具有明確的服務特性,但服務便利性、服務效率、服務水平等方面我們是否能讓用戶滿意。
不清楚到底對外提供哪些服務,以及運維團隊需要如何進行支持不清晰;為最終用戶提供的服務的途徑單一,往往依賴於電話、郵件;內部對運營效率與協作水平較低;缺乏工具與方法讓對外服務自動化流轉。
運維服務流程ITSM
ITIL/DevOps流程全面支持
支持ITIL V3 / ISO20000理念相關運維流程;支持通過服務目錄梳理運維業務,以服務目錄驅動流程;支持表單、流程的拖拽式靈活設計;採用社交化、敏捷的流程交互模式,支持工單的評論、動態等。
社交化支持
提供工單關注功能;提供工單的評論功能,評論支持回復;評論支持圈人功能;評論支持即時的站內信或其他方式通知。
即時運維協同ChatOps
ChatOps概念定義
ChatOps是一種實時聊天驅動型的運維模型,通過將自動化機器人植入到聊天會話當中,形成了人、機器,數據的自動化、透明化的聯動,使運維團隊能夠高效的溝通協作和執行任務,ChatOps是DevOps的一種實踐演進方法。
ChatOps幫助組織平滑演進到DevOps
ChatOps面向運維內外部用戶的統一運維入口,使用組織運維模式對用戶透明,可以幫助逐步平滑演進到DevOps更高階段。
ChatOps在GitHub的起源與應用
管理Github內部的伺服器,啟停,升級、打補丁;郵件管理,收發個人郵件;代碼提交通知;代碼構建,部署上線;資料庫管理,刪除數據,備份數據…
運維智能化運維平台建設規則
優雲智能化運維管理平台可以幫忙各類企業用戶逐步走向運維「一體化」、「自動化」、「智能化」的運維管理更高水平。
1、一體化,傳統運維工具分散,工具間缺乏有效的運維數據與場景融合,因此基於新技術架構之上運維PaaS平台成為主流選擇;
2、自動化,將人工運維轉變化自動化運維,逐步實現日常運維操作與應用持續交付等運維場景的自動化落地,提高運維效率與過程規範化、降低人工操作風險;
3、智能化,通過大數據分析、運維智能機器人技術實現運維智能化管理,支撐故障自愈、容量伸縮、應急保障等。
希望優雲能夠幫助大家從一體化運維向自動化運維轉變,並且未來能看到自動化的曙光,謝謝大家。
我今天的分享就到這裡,謝謝大家!
推薦閱讀:
※模塊化機房與傳統機房的區別
※【原創】數據中心的「泥石流」——諧波
※數據中心運維管理培訓新模式二------ 經驗萃取技術的應用
※預端接鋼纜在數據中心中的解讀
※未來的數據中心是「雲」和「霧」的結合是怎麼樣的?