伺服器raid常見故障原因分析和解決方案

Raid磁碟陣列是一種將多塊物理硬碟整合成一個虛擬存儲的技術,raid模塊相當於一個存儲管理中間層,上層接收並執行操作系統及文件系統的數據讀寫指令,下層管理數據在各個物理硬碟上的存儲及讀寫,相對於單獨的物理硬碟,raid可以為用戶提供更大的獨立存儲空間,更快的讀寫速度,更高的數據存儲安全及更方便的統一管理模式。Raid磁碟陣列的正常運轉是保障伺服器中數據正常讀寫的關鍵所在。

伺服器raid損壞的常見特徵:

1.Raid磁碟陣列中有多快物理硬碟指示燈報警。

2.磁碟陣列中顯示多塊硬碟呈離線狀態或丟失狀態

3.Raid信息丟失、所有物理硬碟不再是online狀態

4.無法進入raid管理界面或查看raid相關信息時死機。

磁碟陣列出現故障的可能原因分析:

1.磁碟陣列中的單塊硬碟出現物理故障,可能導致伺服器內數據出現一定損壞。

2.Raid數據傳輸通道不暢或者數據傳輸模塊老化,可能導致伺服器內數據出現不一致情況。

3.因伺服器系統更新、重啟或伺服器意外斷電導致raid信息丟失或raid模塊損壞。這種情況下可能導致伺服器數據受到一定破壞。

4.Raid模塊升級或重裝系統導致raid信息丟失或被重新創建,可能導致伺服器數據受到嚴重破壞。

5.錯誤插拔磁碟陣列中的物理硬碟或者強制硬碟online/rebuild可能導致伺服器數據遭到完全損壞。

數據恢復解決方案:

首先將磁碟陣列中所有運行狀態良好的非熱備盤完整備份到帶有冗餘功能的安全存儲中,對於存在物理故障的硬碟必須首先按照相應故障類型的解決方案進行恢復,然後盡最大可能將故障物理硬碟中的數據同樣備份至安全存儲中。

然後對完整備份的所有硬碟鏡像進行分析,確定故障raid的原結構參數,(raid級別、條帶塊大小、硬碟盤序、數據校驗方式等),同時判斷故障raid中各硬碟的離線情況。

根據分析所得的raid參數及硬碟離線情況在只讀環境中構建raid數據,並對所構建的虛擬raid進行基本的邏輯校驗,確定文件系統大體結構無誤後將raid陣列生成完整鏡像。

最後對備份生成的raid鏡像進行完整的邏輯分析和校驗,若文件系統仍存在不一致的情況則依據相應文件系統損壞情況的解決方案記性修復,直至遷移出所需數據。

Raid磁碟陣列故障後數據保護建議:

1.切忌使硬碟再次受到磕碰,伺服器中任何一塊硬碟對於數據恢復來說都非常重要,如果關鍵硬碟出現嚴重物理損壞,數據恢復工作將變的異常艱難甚至無法完成。

2.切忌重新創建raid或者強制online/rebuild,若伺服器中有提早離線硬碟或上線同步選擇錯誤,此時的數據恢復工作將異常艱難甚至無法完成。

3.切忌非專業人士對故障存儲的主要模塊進行拆卸、更換等操作,不當的操作會對伺服器內部的數據造成嚴重影響,甚至永久性的破壞伺服器數據。


推薦閱讀:

淺談 LINUX FSCK數據出錯數據災難應急方案
大危機:論文不見了!--- 數據的備份與找回
數據恢復軟體有哪些-總結我用過的

TAG:數據恢復 | 硬碟數據恢復 | RAID |