數據恢復：面臨備份災難的跡象究竟是什麼？

05-14

文|數據恢復

儘管備份技術在近期取得了很大進步，當備份環境遭受災難性的破壞時，人人（尤其是CIO）都想知道究竟是誰失職。為了保護你的數據——其實是保護你的工作，本文闡述了五種跡象，這些跡象可能表明你的備份環境將會在不久的將來引起廣泛關注。

　　硬體出現問題

　　如果你的資本支出（尤其是針對基於磁碟的備份產品）飛速增長，緩和了備份壓力，但是別期望太高。由於磁帶具有可移動性和連續性，使用比較麻煩，但這並不是你的備份環境產生問題的根本原因。我非常信任磁碟備份技術，但是我經常見到虛擬磁帶庫（VTL）沒有完全取得成功。為什麼？許多大規模VTL的實施動力來源於人們認為VTL能夠解決所有的備份問題。而且，人們容易誤認為磁碟肯定比磁帶快速，從而部署了「第一代VTL」，使得本已複雜的問題（客戶端性能、網路、備份伺服器、軟體部署等凡是你能說出來的問題）變得更加複雜。

　　是否擁有度量標準(metrics)？

　　如果你不能判斷容量、增長、成功、失敗或者性能，你就不了解備份環境的狀況。在許多環境中，備份開始「熄燈」，我經常發現嚴重的備份故障率——每天30%至60%，以及大量的容量問題。備份性能不佳，直接影響數據恢復能力；因此，如果你不能根據度量標準加以管理，最終將會在容量、性能、數據恢復等方面遭遇困難。

　　離線介質管理(vaulting)不完整

　　為了維持日常備份，是否犧牲了離線介質管理？這種短期生存策略並不太壞，但是從長遠角度看，當離線備份副本過期或不再相關時，就容易發生故障。大多數備份環境在災難恢復（DR）情形中發揮初級和/或二級作用，為了發揮作用，必須將當前的備份數據副本複製到離線站點中。傳統情況下，由離線磁帶管理介質完成這個過程，備份程序需要每天「複製」一次。如果離線介質沒有實現每天複製，就意味著你的處境危險；如果沒有及時修復，你可能就會永久落後了。發生災難時，人人都想知道為什麼只能恢復兩周以前的數據，這時所有的眼光都會落在你身上。

　　關鍵人員(linchpin)

　　大多數備份環境具有許多組成部分，是否有一個工程師真正理解備份環境呢？並非所有人都了解這些方法，因此，誰了解誰就能成功地使備份環境保持穩定和運作。市場對這些技能的需求很高，這位「關鍵人員」可能會離開，尋找更好的機會（如果這份工作沒有迫使他離開）。如果重要資源流失，保證環境運行的專業知識也會隨之流失。不用幾個月，由於缺乏專業知識和策略，本來非常良好的備份環境就會惡化；如果「關鍵人員」離開，這種情況必然發生。

　　將備份看作實體(utility)？

　　顯然，這是一個哲學辭彙，但是我確實看到許多支持世界級數據中心的備份基礎架構非常陳舊。如果將備份以靜態實體（如殺毒軟體）的形式加以管理，你就可能遭遇失敗。備份是動態的I/O機器，高度依賴性能、網路規模和狀態、存儲、伺服器和軟體組件。如果你回頭看看整個數據中心，就會發現人們沒有從I/O和架構依賴性等方面來比較應用程序。將備份方案視作核心基礎架構方案予以管理，否則就得準備接受無止境的問題和被動操作。