數據中心日常運維工作的內容有什麼?

最近有數據中心運維的工作機會,但是由於之前的工作基本上是最終用戶支持以及一些很普通的伺服器運維工作,所以想了解一下,在數據中心做運維,對技術上有什麼要求?


我來答答題:

數據中心運維可以分為兩大類,其一是基礎設施運維,其二是基礎環境運維(IaaS類)

下文逐步分解:

一、基礎設施運維:

1.1機房管理方面:

1.1.1機房人員出入管理(管理工具如:出入人員管理流程含出入申請審批等)

1.1.2機房設備出入管理(管理工具如:設備出入申請,設備雙電要求最重要的是機房設備台賬)

1.1.3機房承重(通過控制入室設備重量可以降低承重風險)

1.1.4機房環境溫、濕管理(通過巡檢記錄加以管理)

1.1.5機房電力管理(通過巡檢記錄加以管理)

1.1.6機房的監控管理(通過進出機房人員的數量與1.1.1章節內的人員出入做比對)

1.1.7機房線纜管理即網線(含存儲線等)、光纖和電源線管理(其內容主要圍繞著橫平豎直,捆紮帶鬆緊,電源線長度預留等)

執行以上內容的人員素質不需要很高,但是,注意,管理以上執行者的領導(領隊、帶頭人)在選擇時至關重要。

在工作執行中,本著不需要執行者「動腦」作為工作原則,即,製作完美的SOP,完整的交接班制度和可落地的工作流程及問題處理流程即可驅動

PS:特別注意夏天,空調工作效率會降低,注意,撰寫應急預案

1.2機房容災方面

制定機房應急預案,其中重點包括但不限於,空調故障時應急預案,單路電力故障時應急預案,環境溫濕度高時應急預案等

二、基礎環境運維:

基礎環境運維實際可以分為周期性工作和非周期性工作,指導思想來自ITSM(itil)

名詞解釋:

周期性工作

服務請求

事件處理

變更管理

問題-風險跟蹤記錄

2.1 周期性工作

所謂的周期性工作,指的是周期的、重複的工作,比如:配置備份、賬戶回顧、配置回顧、更新各類系統的操作手冊等等。別小看周期性的工作,其實它是運維工作權值較高的工作內容,怎麼將周期性的工作合理而有效的運轉起來呢?我們工作中將周期性工作納入運維日曆,將重複性的工作條帶化規範化,通過製作SOP,檢查SOP執行情況,執行團隊反饋SOP使用情況,跟進SOP優化情況,進行周期性的、重複性工作的執行指導。 ----以上內容不知道有沒有說透,要是沒有請留言。

2.2非周期性工作(主要含服務請求、事件處理、變更管理、問題-風險跟蹤記錄)

本章節內容,主要圍繞著流程、SOP、PDCA進行展開,那麼咱們現在需要名詞定義

定義,服務請求、事件處理、變更管理,問題-風險跟蹤記錄,如果學習或了解過ITSM的工程師對以上的名字並不陌生,我也是,我認真的學習過上面的內容,我的同事、朋友也學習過,但是我們在在針對以上名詞進行探討的時候卻發生了很大的奇異,所謂的奇異就是我們各自理解的不一致,而且這個現象困擾了我們很久,舉個例子,領導讓我在AD上創建一個賬號,讓我來做時,這個操作其實是很簡單的,但是我應該走什麼流程呢?

「執行者不需要動腦子」,通過這句話我恍然頓悟了,邊界不清那麼咱們就定義邊界,怎麼定義呢,這時候就引入了工作分類表,就是說,將運維工作量化,製作服務請求分類表,事件分類表,變更分類表,然後按照機房管理的內容照章工作即可----以上內容不知道有沒有說透,要是沒有請留言。

------------------------------------

以上工作其實都是基礎性的工作,一般來講,招聘一般的工程師就可完成,但是領導(牽頭人,主管)需要懂以上工作並且有較高的工作能力和協調能力。

運維工作遠遠不止以上內容,而且,我一直認為,運維工作與項目工作是不相伯仲的(之前有很長一段時間是看不上運維工作的),而且,能幹高級運維經理的人一定能幹高級的項目經理,但是反過來就不一定可以了

以上內容2017年8月31日更新

若有需要請提出,作者會進行優化

感悟:技術不是萬能的,學會低調、圓滑的處世才是真正的本事

提前祝學生朋友們開學快樂,同時也祝願我閨女幼兒園生活順利!

----------------------------------------------


我是做數據中心建設的,但是也客串過幾個月的運維(交接期)其實我一直覺得數據中心運維還是大有可為的。日常的那些日誌、安全、備份、基礎設施監控這些東西我覺得都可以交給系統做,上套監控就都有了。工程師在數據中心的運維更多的是要考慮優化方面的內容。舉幾個栗子:

1、數據中心供電的弱點在哪裡,什麼情況會導致停電,基礎供電設備的故障會影響那些系統,這些系統是怎麼備份的、要怎麼恢復,恢復窗口有長,各系統人員各公司人員要如何就位。

2、新進設備如果放置,怎麼規避熱點的形成,怎麼將硬體設備分布放置,盡量減少單點故障的威脅。

3、數據流如何優化,如何才能將無關流量從核心系統中剝離,如何降低核心網路設備的壓力。

4、伺服器負載情況,如何進行系統優化配置,如何利用系統的剩餘運算量。


從我接觸的應用型運維來看,他們是在普通運維(伺服器、存儲、網路管理等)的基礎上,加強了對具體的軟體產品的了解,能與研發工程師一起進行軟硬體部署架構的設計、性能測試、產品部署上線、平時產品線上的故障監測和偵錯等工作。

所以除了基本的伺服器、資料庫操作能力之外,還需要了解一些軟體設計、性能測試優化的知識,如果有相關行業領域裡的知識和腳本編寫能力就更好了。

通過監控和偵錯保證產品的穩定性,降低故障發生率,進而提高產品的運維效率,降低運維的支出,這些可以看作考核應用運維的幾個方面。

我之前公司里的一小伙,通過對公司相關產品的部署和運作原理的了解,以及一段時間的測試,在研發工程師無力對軟體進行修改的情況下,通過架設共享代理伺服器連接池的方式,減少了產品連接的出錯率,提高了性能,節省了一大筆額外的伺服器購置費用,而受到了嘉獎。

原文地址: http://leweiup.com/questions/801


基礎設施運維(電氣)

負責數據中心園區配電系統監控、巡檢、維護、故障響應及處理,

負責數據中心供配電系統等基礎設施系統監控、管理和運維,

確保數據中心安全、可靠、高效運行,

負責數據中心園區強電設施的日常維護巡檢及故障報修,

保持機房運行環境的良好狀態,

負責數據中心園區電力容量管理工作,

節省園區消耗的能源,

負責數據中心園區內零星施工工作,

如小件設備搬運、鏈路布放、弱電施工等。

基礎設施運維(暖通)

負責數據中心園區暖通系統監控、巡檢、維護、故障響應及處理,

按要求填寫相關記錄文檔,

輔助機房經理製作信息數據中心基礎設施運維管理制度、操作手冊、應急管理流程和應急操作預案,

負責數據中心暖通系統、給排水系統設備的操作和維護、保養,負責數據中心園區暖通容量管理工作,

節省機房消耗的能源,

負責數據中心機房內零星施工工作,

如小件設備搬運、鏈路布放、弱電施工等。

這是我們數據中心對於運維工程師的所要負責的工作內容,希望對你有幫主,我們是採用Uptime TierIV 的標準造的機房,要求可能要稍高點,每個公司要求不一樣。

如果公司發展的還不錯,趨勢良好的話,那就去吧。畢竟工程師的工資還是很高的。


由於我本人是從事數據中心做運維的,所以技術上的需求主要包括:基礎系統平台支持(linux、HP-UNIX AIX等),資料庫(SQL、Oracle等),中間件、存儲、網路、備份等各種底層平台。


隨著互聯網的發展,數據除非出現一個革命性的技術創新,不然以目前的趨勢來看,數據中心肯定會越建越多,數據中心的建設周期大概是幾個月到兩年中間,但裡面往往會運行很多年,所以從這個角度來說,數據中心肯定是需要越來越多的從業人員,但現在基礎設施運維市場上並沒有出現那種壟斷性的企業,說在這個市場中的佔有率是多少的那種,基本上處於百家爭鳴,行業也不是特別規範的階段,所以總體上來說,對於從業來說還是一個比較好的時期,如果在一個發展相對比較快的企業,可以獲得很好的發展。

到目前為止,在數據中心運維部工作一年,我的工作主要是協助部門總監處理一些事務性的工作,以這一年的情況來說,數據中心是很多投資者、政府官員中的高新技術企業,無論是投資還是政府的政績,拿出去說都是很有噱頭的,所以總體上來說我們企業發展得很快。投簡歷的時候也是看到互聯網數據中心這個概念的時候瞬間覺得無比高大上,再加上公司HR的一頓洗腦,簡直覺得這是個無比朝陽的朝陽行業,號稱要成為互聯網行業的水和電,為所有的互聯網公司提供基礎架構支持。

下面說一下我們公司是幹嘛的,主要的主要業務是提供數據中心基礎設施的諮詢、規劃、設計、建設、驗證、全生命周期的運維,我們的機房有自有機房,也就是自己投資建設的,主要靠租賃給客戶或者賣給其他公司盈利,還有給其他公司的機房提供運維外包服務,也就是靠服務收費。

我是在運維部里,做數據中心的基礎設施運維工作,那什麼是數據中心的基礎設施呢,簡單的說就是強弱電、暖通、安防這三個方面,基礎設施是不含IT設備的,也就是客戶伺服器、存儲、交換機等,等不管裡面的網路傳輸了,什麼後台大數據啊,各種數據存儲、處理啊,和我們都沒啥關係。根據工作性質,在機房工作的人員按工作專業主要分為:電氣、暖通、弱電、安防這幾個專業,從職級上來看,分為:總監、經理、主管、工程師、助理工程師、技術員等,從工作內容來看又分為:值班人員、維護人員、管理人員,具體安排多少人根據具體機房的大小和設備的數量,值班人員需要7x24值班,也就是說需要上夜班,還是比較辛苦的。

數據中心的日常工作主要包含值班、巡檢、設備維護保養,故障處理、演練等。

值班,每個數據中心都有一套動環系統,這套監控系統監控著數據中心裡所有的設備,採集成千上萬個點,比如電壓、電流、頻率、PUU、功率、溫濕度等各種信息都可以從這個系統中讀出,而且每個參數都設定有一定的範圍,超過這個範圍值系統就會告警,屏幕相應位置會閃爍,且有語音提示,這是值班的人就需要對相應的問題進行現場處理,因為對每個故障都有處理的時限,因此值班人員需要對位置進行快速定位,所以要求值班人員對機房的所有設備的位置非常熟悉才行。

日常的巡檢,就是對不同的設備有不同的巡檢頻率要求,巡檢就是拿著巡檢記錄本去機房進行巡查,有點類似於大王派我來巡山的感覺,對有問題的點進行處理,然後記錄在案。

設備維護保養,每個機房都列有詳細的設備維護保養計劃,具體到每天做什麼,對哪些設備具體做什麼具體的維護保養,這個維護周期都是以月為單位的,不斷的周期循環。

演練,演練的目的是為了提高大家對應急情況的處理能力,我們的演練包含了各種故障情況,比如斷電、斷水、設備故障、防恐、防洪、防颱風等,演練主要是模擬真實應急狀況發生,我們依據現有的應急預案能夠完美的應對當時的情況,為了完成這個演練我們需要準備很多資料,比如演練計劃、演練方案、應急預案、演練報告等,每次演練前都會進行各種部署,事後進行總結反思。

故障處理,機房設備很多,難免會出現一些故障,這時就需要有經驗的工程師去現場解決問題,我們一般分為一線工程師,二線專家,在一線工程師無法解決問題的時候,向二線專家尋求幫助,如果二線專家也搞不定,就只能向設備廠家尋求幫助了。

以上這些都是機房運行一些最基本的工作,是保證機房運行的最基本的要求,除了這些還有很多事務性的工作,比如和客戶溝通、節能減排、其他一些專項工作等,總體上來說,運維的工作並不是技術性很強的工作,但涉及的面較多,而且容不得有一點失誤,不光是為了業務中不中斷,裡面的高壓電也非常危險,所以需要非常規範的流程來減少大家的失誤,提高我們的工作效率和滿足較高的要求。

因此運維應該是在熟悉設備的前提下,熟悉所有的流程,能夠按照規範來開展工作的這麼一種工作。


不知樓主所說得是基於硬體環境還是基於軟體環境.

數據中心的日常運維分為兩種,一種基礎設施的運維.其包括空調 電力 發電器, UPS 門禁,消防,監控.

另一種是服務於客戶或者是自行業務的維護.如業務系統搭建運維其中又包括設備(各種伺服器,網路設備等等)運維.還有系統的運維各種系統安裝服務搭建..


數據中心的運維 應該從 技術、工具、管理幾個方面來分析。

技術:主要範圍包括兩大類:1.基礎環境設備,包括動環、門禁、消防、弱點等。2.業務承載系統,包括機架伺服器、小機、存儲、存儲陣列、備份、網設等。主要工作內容:1.資產配置造冊2.可用性性能監控3.安裝部署、測試升級、配置備份4.巡檢5.故障支持6.日誌分析,版本升級,遷移割接7性能、可用性、安全性、容量、業務連續性、業務流程評估和優化。

工具:1.流程工具2.報表工具3.CMDB4.監控工具5.容量管理工具

管理:借鑒ITIL V3思想,一般需要一些主要流程:問題管理、事件管理、資產配置管理、變更管理【重點,很多故障其實都是由於沒有變更管理引起的,並非技術問題】、發布與部署管理。

另外根據需求和經歷可以增加服務台、知識庫。


數據中新的運維工作,要看工作範圍如何去界定。

通常來看,數據中心的運維分了場地和關鍵任務,IT基礎設施兩個大的方面。當然,現在兩個層面的耦合也是越來越緊密,所以也可以看成一個有機整體。就個人的經驗來看,你已經有了伺服器的運維經驗,那麼可以著重加強一下場地和基礎設施方面的理解。

這兩個層面都可以用SLA來衡量,以持續優化來進行改進,目的都是提高數據中心整體的可用性,切記,這一點可以說是最重要的關鍵!可用性的保障,分解到不同的子系統,就是很複雜的一套指導你如何進行運維的工作說明書了,希望對您有幫助!


誰能分析下IDC行業前景,有需要在這行業投資.大家請發表下建議


推薦閱讀:

請問Arista是間怎樣的公司?
什麼是分散式數據中心?
國內做IDC數據中心運營維護/管理前途怎樣?

TAG:運維 | 數據中心 | 互聯網數據中心IDC |