標籤:

上班第一天,一個合格的運維應該做什麼?

上班第一天,一個合格的運維應該做什麼?

來自專欄 Linux高薪集訓營

作為一名運維工程師,如果你在春節放假期間沒有被報警電話和郵件吵醒過,那說明你在放假前的準備真的非常出色。如果你的準備不夠充分,下場請參考微博運維小哥:

儘管你取得了階段性的勝利度過了一個清凈的假期,但現在可還不是掉以輕心的時候!

上班第一天,不做這些事情的運維是不合格的哦~

對硬體設施進行全面體檢

不同的企業對IT設備的運維有不同的標準,有些公司節假日期間可以部分停機,有一些公司必須7*24小時的運行。在假期里勤勤懇懇工作的機器們有沒有出現什麼問題?首先讓我們對硬體設施進行全面體檢吧!

PC機的檢測及準備至少應該包括以下幾個方面:

(1)、對PC機的硬體進行檢查,包括電源、硬碟和網卡等。

(2)、要安裝操作系統的最新補丁包,還要對殺毒軟體的病毒庫進行更新。

(3)、將最新的應用程序和數據做備份。

注意點一:UPS不間斷電源檢查

電源檢查往往是容易被忽視的一環。如今大部分企業的業務需要7*24小時不間斷運行,甭管是自動還是手動,反正不能停。那麼選用UPS電源習以為常。UPS的新舊或者老化程度如何,能否在伺服器出現異常情況時,實現正常關閉伺服器的效能。需要對其進行檢查,其出現故障的概率有多高,故障的自動應對舉措有哪些,都需要預先思考周全。

注意點二:電纜線路與布線情況查看

對連接伺服器的各條線路進行精細查看,關鍵是檢查配線箱,看看插座是否對應插頭,不插頭與非適配插座亂串。電纜線路正常傳輸和布線合理與否都將影響到伺服器正常運行情況,務必查看清楚。若有異常,最好找電纜線路的承包商來進行修復或優化。

伺服器的檢測及其準備

(1)、在適當的時間對伺服器進行進行一次冷關機斷點,然後對其電源、硬碟、網卡、風扇等進行檢查,確保其性能良好。

(2)、如果伺服器做了RAID,一定要檢查RAID卡和熱插拔硬碟工作狀態是否正常。

(3)、清理文件系統的歷史數據,要保持文件系統有足夠的可用磁碟空間。

(4)、清理資料庫的歷史數據,保持資料庫有足夠的可用空間。

(5)、備份應用程序和相關配置參數。

(6)、檢測確保備份伺服器,確保其有足夠的磁碟空間。

注意點一:系統補丁是否安裝完備

補丁較容易配置而且是免費提供,但有些網管可能會覺得系統運行效果不錯,無需為其打補丁。然而伴隨補丁而來的大量漏洞修補卻是至關重要的,對伺服器安全有莫大助力。長假之後通常有許多補丁釋出,這個工作量可不小。

注意點二:數據備份忘不得

企業數據一旦丟失是「致命」的,防止數據丟失,對伺服器數據進行備份必不可省。別企圖在伺服器上某一區新建備份文件夾或者建立一個備份區,如果僅僅只做此項工作,如此備份方法仍非常危險,一旦伺服器的硬碟區「失火」,那麼所有分區的數據就將統統「銷聲匿跡」,如此備份有後患。建議外置使用專門單獨時設備對數據進行二次備份,可使用較普遍的交叉備份方法或者成本較高的磁帶。

此外,已備份的數據也有可能發生被盜,建議網管在備份時能夠通過密碼對備份介質進行保護。

注意點三:強化伺服器本地文件格式安全級別

伺服器安全檢查有來自自身設備問題,很大一部分來自防範外部攻擊。因此有必要在假期結束後確認檢查伺服器本地文件格式級別是否夠高,別給黑客可乘之機。檢查伺服器操作系統是否已經對用戶訪問許可權進行限制,避免因用戶使用統一訪問伺服器的許可權而存在不安全因素。

同時,網管需檢查系統是否使用了相關的網路檢測軟體對企業網路運行情況進行全天候監視。

對於交換機/路由器的檢測及其準備

(1)、在情況容許的情況下對交換機/路由器進行重啟對其功能進行檢測,測試的項目諸如介面測試、性能測試、協議一致性測試和網管測試等,測試最好進行遠端測試。

(2)、對其進行衛生清潔是非常必要的,最好能夠打開交換機/路由器,清除其主板電路上及其外圍的灰塵,因灰塵導致的故障也是屢見不鮮。

(3)、備份也是必須的,諸如思科路由器的IOS備份和網路配置備份,最好將其備份到一個固定的地方,例如專門用於備份的某UNIX主機的某個目錄下或者某個專用的備份移動硬碟。

維護運維平台

節日期間,因為無人值守,我們通常會選擇運維監控平台來進行系統實時監控防止出現問題。在假期的使用過程中,你有沒有發現平台的bug或者某些不盡如人意的地方?

為了下一個假期里更加安心,大膽的整理你的需求然後提交吧。在節日期間,實時監控的運維平台就是運維人員的「眼睛」。

以筆者的經驗,運維平台要能監控全面,最好能在一個平台里對整個系統進行監控,把系統中所有可能出現故障的環節都進行監控,並且能設置相關預警,以便運維人員在系統出現異常信號的時候及時處理,防止出現故障後進行補漏。

另外,對於運維平台最少必須能支持實時告警,以簡訊方式實時將系統中的異常信號發送運維人員,以便運維人員及時準確的掌握系統運行狀況。

關閉遠程維護渠道

休假在家,常規的遠程維護還是必須的。當然,如果網路出現故障,遠程維護當然是最快捷、高效的手段了。因此,在假期里一定要確保遠程維護渠道的暢通。

但是現在假期已經結束,為了安全還是將通道關閉吧。另外也別忘記查漏補缺,下一個長假里我們還是很需要它的。

回顧假期工作

做完以上緊急事項後,是時候對自己的假期工作做個總結了。

先看一下自己在假期中的所有往來郵件及文檔,從中對自己假期的工作內容進行匯總、分析,並提煉出主要內容,分析假期成績、反思假期不足,給自己一個收穫滿滿的假日。

工作總結建議使用X-mind,有免費版可以使用。上班第一天,工作總結和思維導圖更配哦~

列個清單出來

做完工作回顧之後,你應該已經可以列出一個待辦事項清單了。

首先是對於任務中能立馬跟進的事情,比如之前已經發出對方還沒有回復的郵件可以再發一封作為提醒。

對於比較複雜難以立馬解決的任務,分類匯總列出來。列表的時候要注意,如果一開始就進入到方案設計等複雜的工作中,可能會比較難打開思路。優先處理溝通協調類的工作,例如信息同步、郵件跟進之類。

這裡還有個小心機,一般工作的第一周都會有周會,做好以上幾件事情,就能做到未雨綢繆。

最後,希望筆者的經驗對大家有所幫助。


你想更深入了解學習Linux知識體系,你可以看一下我們花費了一個多月整理了上百小時的幾百個知識點體系內容:

【超全整理】《Linux雲計算從入門到精通》linux學習入門教程系列實戰筆記


推薦閱讀:

為什麼那麼多「國產」操作系統?
WSL 使用指南——02 安裝配置
一個新手面試 Linux 運維工作至少需要知道哪些知識?
不要雙系統,不要虛擬機,win7系如何換linux系?
Google 的 Android 為什麼不自主開發一個內核而要用 Linux 內核?

TAG:Linux | Linux運維 |