身處一線十年運維專家的思路、方法與實踐
來自專欄 微言小偏見
身處一線十年運維專家的思路、方法與實踐
文 | 邵悅
中國海事部門某單位(以下簡稱「HS客戶」)是為提高海事航海保障服務水平和沿海國海事履約能力,實現海圖編、制、印和發行管理等一體化而授權的航海圖書編繪製作及發行管理單位,業務範圍涵蓋了海圖製作、印刷和發行三大塊。
隨著製圖工作量和存儲數據量的大幅增加,「HS客戶」即有的軟硬體工作環境已經不能滿足當前大規模的生產需要。同時「HS客戶」也面臨著缺乏相對規範化的信息系統運維服務管理、實施流程,服務對象層次不清等問題,難以適應國家等級保護三級的相關標準要求。
因此,為了更好的建立一套完整的、體系化的安全運維保障體系,從管理、技術、運維三個維度全面提高客戶系統信息安全防護能力,「HS客戶」於2017年啟動了「信息安全及信息設備、系統維護」項目。
一、項目總體目標與建設思路
本次項目以ITIL運維管理體系為核心,以等級保護基本要求為指導,建立符合用戶的統一、規範、標準化的安全運維流程,並將人員、運維流程、技術以及管理、監控和考核有機地結合起來,形成以客戶日常運行管理的對外統一服務窗口和內部技術支撐管理平台,提升整個信息系統的運維管理水平,提高對信息系統的運維能力。
「HS客戶」IT運維服務體系建設的總體目標是:樹立面向業務服務的IT運維服務理念,由粗放管理向精細管理轉變;實行集中統一的IT運維服務模式,由分散管理向集中管理轉變;建立統一高效靈敏的IT運維服務平台,由無序服務向有序服務轉變;建立規範標準的IT運維服務流程,由職能管理向流程管理轉變;應用先進、實用、高效的IT運維管理工具,由被動管理向主動管理轉變。
以ITIL服務實踐為指導,以信息安全等級保護制度為基礎開展IT運維服務。整體服務通過服務報告和服務衡量指標來監督是否達到預期要求,再通過服務結果的不斷反饋,將為各活動角色完善服務內容並持續改進服務提供依據。
二、客戶當前現狀與項目服務內容
客戶現有三套網路,這三套網路包含眾多終端設備,且種類多、故障頻繁,並且客戶主要業務在於海圖生產,因此對各類生產系統的運行保障要求極高。然而,客戶現有生產系統近十餘種,存在開發單位與使用部門均不統一、系統種類繁多等問題,導致現有信息系統安全應急響應機制已無法滿足業務的長期發展需求,一旦系統發生應急事件時,應急難、處置難。
在運維服務過程中,我們根據差距分析結果和現存風險隱患分析,有針對性的為客戶建立了一整套落地可執行的信息安全運維保障體系,從管理、技術、運維三個維度全面提升客戶系統信息安全的防護能力。
針對本項目,我們嚴格遵循ITIL、ISO20000和ISO27001國際標準,形成本項目IT運維服務總體管理框架的基礎和目標。同時結合成熟的運維服務體系,在服務質量控制中始終貫穿服務管理的PDCA模型,為客戶信息系統運維提供良好的支持,提高信息系統的運維水平。確定和規範IT運維服務體系運行的管理方式,和與之相配套的人員崗位職責安排、機構設置等,將IT運維服務相關的全部活動進行統一決策與規劃,形成集中統一的IT運維服務機制,實現對客戶端到端的服務。並在集中統一的IT運維服務模式下,按照服務任務進行科學配置或調整,以保障合理配置IT運維服務資源,達到人、工具、流程的有機融合。
通過建立IT運維服務支撐體系,實現對網路、伺服器、資料庫、中間件、應用與業務系統、安全設備的全面監控,包含性能監控、運行狀態監控、故障報警信息管理的集中式管理和統一展現,及時發現並解決系統運行中存在的各類問題,並對已定級信息系統中的網路設備、主機設備、中間件及應用的日常化風險評估、合規性巡檢,實現信息系統等級保護常態化,並實現對人員、安全事件以及系統資產的動態處理,提升信息系統整體安全運行防護能力,有效保障客戶已定級信息系統的可控性、可靠性和合規性。
同時,在本項目中,我們建立了一套適合客戶的應急響應處理流程,實現客戶應急響應工作的規範化、制度化和責任化。並提供7*24小時應急響應服務,採用現場服務、電話支持、郵件支持、遠程撥入等技術響應方式,以最快的速度予以解決問題。保障客戶各系統的業務連續性與穩定性。
三、一體化IT運維服務工作內容
3.1 物理安全方面
運維人員每天對機房供配電、空調、溫濕度控制等設施進行檢查記錄,並形成每日巡視制度,以及對機房中相關設備的告警顯示、空調、UPS等實際狀態進行記錄,為機房良好的運轉做出保障。
3.2 網路維護方面
運維人員根據用戶信息安全管理制度對網路、安全設備的運行狀態進行實時監控,檢查各種設備的日誌,記錄重點事件,及時發現問題,防患於未然。日常的運維保證了用戶三套網路的穩定性和可用性,也良好的保障了業務的穩定性和連續性。
3.3 主機維護方面
用戶主機設備包括伺服器設備和終端PC設備等,運維人員通過定期對主機設備系統進行軟體或硬體的升級,完善了現有主機設備系統,消除了現有系統中存在的漏洞。同時,運維人員定期對伺服器、終端等主機設備進行日常巡檢、運行狀態監控、故障處理、操作系統維護和補丁升級等維護工作,保障了主機設備的高效、穩定運行。
3.4 應用系統方面
用戶現有30多個應用系統,其中有四個系統是關鍵業務系統,保障這些承載著用戶重要業務應用系統的安全運行是整個運維工作的重中之重。運維人員以日常巡檢為基礎,結合故障診斷、安全監控、系統優化等維護手段,從多方面保障了這些應用系統的安全、穩定、連續運行。
3.5 數據維護方面
數據安全是保障用戶生產和辦公業務的核心,是用戶最重要的信息資產,也是中心生產業務得以高效完成的基礎素材。運維人員根據用戶對數據的保護要求,制定了一套較為合理的數據備份計劃,同時通過對數據備份結果進行定期檢查,對資料庫進行合理優化,有效地保障了中心數據的可靠性和安全性。
3.6 運維管理方面
用戶根據等級保護三級要求已建立了一套信息安全管理制度。運維人員結合用戶信息化現狀,對管理制度進行了完善與修訂,初步形成了適應用戶信息系統的安全運維體系,有效地提升了用戶運維工作的管理水平,為日後運維工作的進一步發展提供了有力支撐。
運維工作統計表:
四、項目給客戶帶來的價值
結合客戶信息化現狀與特點,制定具有針對性的服務內容及服務方式,以提供完善的運維服務解決方案為基礎,協助客戶保障各業務系統、網路系統的穩定運轉,有效解決了日常運維工作中面臨的溝通不暢、效率低下、服務質量無保障以及被動救火等問題,一改過去各自為政、分散運維的狀況,形成了客戶日常運行管理的對外統一服務窗口和內部技術支撐管理平台,有效地提升了整個信息系統的運維管理水平。增強了為業務應用服務的意識,更好地實現了建設服務型組織的目標。同時也實現了客戶運維服務的體系化和流程化,為其後續運維工作的進一步完善打下了良好基礎。
如果覺得內容不錯,歡迎關注微信公共號(ID:WeYanXPJ)獲得後續更新;如需閱讀以前文章,請在公共號後台查看歷史消息。
推薦閱讀:
※如果遇到當街搶劫的該怎麼應對才能最小化損失?
※2017安全城市指數報告發布,亞洲國家更為安全?
※SecWiki周刊(第165期)
※內置手機盾 Mate 10讓你雙11暢快搶購無後顧之憂
※如何在人群中分辨恐怖分子?