從人肉到智能,阿里運維體系經歷了哪些變遷?
來自專欄我是程序員7 人贊了文章
機器智能的前提是需要有數據,AIOps的數據從哪裡來?如何利用數據代替機器決策、分析?如何利用機器學習演算法與基於大數據的業務運維管理平台整合,在告警過濾、異常監測、自動修復等環節發揮效用,真正能把運維同學解放出來提高整體運維效率,降低運維成本。我們認為AIOps是一個長期演進的過程,這也是我們區別於業界,在通往AIOps征途上增加DataOps階段建設及沉澱的重要原因,而我們接下來聊一聊DataOps時代——運維人才的能力要求。
人肉/腳本運維時代(Human/Scripts Ops)
運維工作本身其實是一個需要具備高度綜合技能掌握的工種,需要涉及的廣度相對別職業屬性的要求會更高,以前很多時候大家對運維的認識都停留在發布、變更、接報警、搬機器……其實這個很好理解,所有的互聯網大公司都是從小公司成長起來的,在還是小公司的時候,你需要面對的是不停地解決各種奇怪的問題,而由於有公司生存的壓力,追求短平快的結果使得大家會淪為一個搬來主義者,從各類技術論壇,甚至是個人blog上去搜索各種各樣的解決方案,以求快速workrun解決問題,但對於原理、系統全局上的東西,可能完全不會去深究。
工具化運維時代(Tools Ops)
做過運維的人都知道,運維同學比較喜歡編寫各種各樣的腳本,比如一鍵批量發布軟體,一鍵清理、互動式嚮導執行等等,他們很喜歡通過黑屏上操作刷屏帶來成就感。每當我們的運維同學交接工作的時候,新來的運維同學基本上會照著自己的理解重新實現一套。人肉/腳本時代的運維存在大量的效率低下,以及各種各樣重複的腳本工具,同時也會帶來很多安全風險,回顧互聯網的發展史,幾乎每隔一段時間就有一些嚴重事故發生,而每次事故的背後卻是一些低級錯誤,甚至是手誤敲錯字元帶來的巨大代價。這時候大家都意識到,不能再任由運維同學隨意發揮了,需要將各式各樣的功能腳本收斂到工具里來,通過集成的運維工具迭代來實現復用和能力交接,這體現在DevOps的初級階段,此時還沒有延伸到Dev階段。
平台型運維時代(DevOps)
隨著公司商業上的成功,隨之帶來的規模的發展,這個時候量變引起質變,今天對大廠的運維來說已經遠遠不僅僅是上述這些工作,同時這些工作也不僅僅是靠加人手能解決得了的,例如說應用從原來的一個應用變成了幾千個、上萬個、幾十萬個,平台規模從原來的幾百台擴充到上萬&幾十萬台,硬體由簡單的CPU,mem,機械硬碟增加到Gpu,Fpga,Asic,Optan等各類異構硬體平台,軟體架構變化,大數據分散式等等,當面對海量的各類匯總數據,需要快速判斷業務止損,全局資源優化運營等工作時,人工將會面臨非常大的挑戰,甚至是不可能完成的任務。這個時期運維的工作職能更多轉變為:
● 全局架構規劃
● 資源運營與成本優化
● 自動化平台開發
● 穩定性保障
● 海量數據分析
● …….
數據化運維時代(DataOps):
對我們來說由於業務的需求對目前運維能力的要求越來越高,技能的要求上來說不光除了面上的廣度還需要一定方向的精度,甚至某些點的深度要非常專深。同時需要通過軟體工程化,數據化的運維的思路,圍繞數據鏈建設起整體運維智能化工具鏈,來解決超大規模分散式集群運維管理問題,提升整體產品的穩定性,效率,成本。這樣對現在整個運維人員的綜合技能要求會有很大的挑戰。
業內隨著運維的發展逐步從Ops發展到今天大家業內都比較火熱的AIOps,現在運維界現放眼望去大家都太大談特談AIOps,認為只要有強大的演算法,就能夠輕鬆實現不需要人為干預的智能化,當然這是個理想化,終局化的情況,最終的目標是要做到完全智能化,但這個難度不低於完全自動無人駕駛。在我們看來如果演算法是kernel,那麼工程化的程度就決定了能否把kernel發揮到極致,能否做到易用和高可靠是我們要著力解決的問題,我們內部我們認為目前還處於DataOps階段,數據化一切運維對象,以數據驅動運維,工程化落地。與自動化駕駛分級類比:
隨著大數據時代的逐步發展促進運維人員的技能轉型需要具備更為複合性能力:
● 架構能力
● 研發能力
● 運維知識&業務理解
● 基本工程演算法
● TPM(技術項目管理能力)
AIOps發展最終本質上還是要落地在公司的各類運維平台&運維產品上,在完成初步構建後仍然需要持續的人力投入以及參與,而在目前的探索發展的投入階段,有大量的工需要去做,仍然需要專家或者分析師,從不同的維度,從不同的業務口徑,組合合適的可視化技術,機器學習技術,大數據分析技術,制定分析場景,平台落地才能夠為運維產生持續的洞察,提供最終的業務價值。
在不同階段對於運維團隊的技術能力要求及轉型是必須歷經的過程,同時也是一個痛苦的過程,能力要求的變化自然會帶來組織變革,對原有人員的衝擊也會比較大,整個部門從維護性部門轉變為研發創新型部門,最先帶來的衝擊是思想上的,在研發思維先有原理,然後逐步工程實現落地,而傳統運維是反過來很多東西都是已經存在去維護它的穩定。
這種陣痛也是團隊轉變需要去面對的,從被動救火式運維向主動精細化轉型,從問題驅動向價值驅動轉型,從操作運維向運維開發轉型,從依靠經驗向智能化驅動運維轉型,這不僅是技術能力的轉型而且是運維繫統化思路的轉型。時代在變化,唯一不變的只有擁抱變化!
本文作者:大舞
原文鏈接
更多技術乾貨敬請關注云棲社區知乎機構號:阿里云云棲社區 - 知乎
本文來自雲棲社區合作夥伴「阿里技術」,如需轉載請聯繫原作者。
推薦閱讀:
※從運維到統一IT,Ivanti將整合的力量當作信仰
※【操作指南】行雲管家自動化運維功能—作業中心操作指南
※統一配置數據源:藍鯨配置平台
※新一代智能化運維管理解決方案