黃健輝,葛瑛芳,金 蕾
(浙江省水利河口研究院,浙江 杭州 310020)
?
淺談災備管理的新趨勢
—以浙江省水利河口研究院為例
黃健輝,葛瑛芳,金蕾
(浙江省水利河口研究院,浙江杭州310020)
摘要:近年來信息化建設的飛速發(fā)展與大數(shù)據(jù)時代的到來,催生了各種新的業(yè)務模式與研究方向。作為IT基礎架構重要一環(huán)的災備管理,也從過去單純的數(shù)據(jù)備份轉變?yōu)椴粌H注重數(shù)據(jù)和業(yè)務系統(tǒng)的備份,同時追求業(yè)務系統(tǒng)的連續(xù)性和高可靠性。以浙江省水利河口研究院災備管理系統(tǒng)改造為例,探討在新形勢下災備管理的發(fā)展方向與趨勢。
關鍵詞:災備管理;連續(xù)性;可靠性;異地災備
1問題的提出
災備行業(yè)的起源可以追溯到20世紀70年代。1979年,SunGard在美國費城建立了全世界第一個災備中心,當時的災備重點主要集中于數(shù)據(jù)備份和系統(tǒng)備份。容災備份真正被各行業(yè)廣泛重視并大規(guī)模部署于IT基礎架構之中是與2001年“911”事件有關。據(jù)統(tǒng)計,因此次事件的影響,如果2個星期內(nèi)無法恢復信息系統(tǒng),75%的公司業(yè)務將停頓,43%的公司將再也無法開業(yè),沒有實施災難備份措施的公司60%將在災難后2~3 a破產(chǎn)?!?11”事件后,全球各行業(yè)認識到了災備管理的重要性[1]。
隨著信息化系統(tǒng)重要性的與日俱增,以及大數(shù)據(jù)、云計算時代的到來,災備管理的重心也從單純的數(shù)據(jù)備份轉為對信息基礎架構連續(xù)性的高要求上[2]。調(diào)研機構Qualix Group的報告指出,服務器宕機1 min,平均會使運輸業(yè)損失15萬美元、銀行業(yè)損失27萬美元、通信業(yè)損失35萬美元、制造業(yè)損失42萬美元、證券業(yè)損失45萬美元。這也從直接經(jīng)濟效益的角度說明了關鍵業(yè)務平臺對于穩(wěn)定性和可靠性的要求。本文將以浙江省水利河口研究院災備管理系統(tǒng)改造為例,探討在新形勢下災備管理的發(fā)展方向與趨勢。
2災備管理體系的現(xiàn)狀
近幾年,浙江省水利河口研究院在信息化建設上發(fā)展迅速,電子辦公和信息管理水平有了較大提升,信息共享和信息集成初見成效。同時,不斷嘗試新技術的使用,進行了辦公自動化系統(tǒng)(OA)、門戶網(wǎng)站、人力資源管理系統(tǒng)、財務管理系統(tǒng)等信息管理系統(tǒng)的一次更新?lián)Q代、原有系統(tǒng)的集成整合、知識管理、流程到桌面(業(yè)務流與事務流協(xié)同)、風險防范管理系統(tǒng)、各式各樣基于互聯(lián)網(wǎng)的音頻、視頻技術、射頻技術的利用和使用,推動著新一輪信息技術革新和企業(yè)管理變革創(chuàng)新。信息化已經(jīng)深入到全院的各個管理領域和業(yè)務環(huán)節(jié)。然而,與快速發(fā)展的業(yè)務系統(tǒng)不同,近10 a來浙江省水利河口研究院的災備管理仍然停留在過去既有的解決方案上,面臨各種單點故障隱患、業(yè)務連續(xù)性較低等問題。在信息化系統(tǒng)重要性日益突顯的今天,浙江省水利河口研究院原有的災備管理體系顯然已經(jīng)跟不上整體信息化發(fā)展的步伐,主要體現(xiàn)在如下幾個方面:
2.1存儲設備缺乏冗余保護
浙江省水利河口研究院災備系統(tǒng)在改造前的災備管理方案中,在生產(chǎn)端服務器部署了雙機集群,可以有效預防生產(chǎn)端的單點故障,然而,其所有的數(shù)據(jù)只存放在1臺存儲設備中,僅做了基本的RAID保護。雖然RAID保護可以在一定程度上對磁盤故障進行恢復,但依舊無法杜絕存儲的單點故障問題。由于未發(fā)現(xiàn)硬盤壞道導致整個RAID無法恢復的例子比比皆是,尋找一個更為安全可靠的災備方案來預防存儲單點故障的隱患,是浙江省水利河口研究院災備管理的一個重要課題。
2.2邏輯錯誤防護的缺失
浙江省水利河口研究院原來的災備管理方案中并不包含對人為誤刪、系統(tǒng)軟件或應用軟件故障、病毒攻擊等邏輯錯誤防護的預案。一旦發(fā)生邏輯錯誤系統(tǒng)將很難在短時間內(nèi)恢復,對業(yè)務連續(xù)性造成極其嚴重的影響。
2.3傳統(tǒng)備份系統(tǒng)的備份、恢復時間過長
傳統(tǒng)的備份軟件在備份過程中,由于需要經(jīng)過壓縮加密,既占用大量的主機資源又耗費大量時間。一旦需要從備份文件恢復系統(tǒng)和數(shù)據(jù),需要等待冗長的解密解包過程,短則數(shù)天,長則數(shù)周。在數(shù)據(jù)量幾何級暴增的時代,傳統(tǒng)備份軟件顯然無法滿足業(yè)務高連續(xù)性的要求。
2.4缺乏針對重大事故的災備預案
由于沒有對諸如火災、地震等重大事故的災備解決方案,一旦遇到上述的突發(fā)事件,將不可避免地造成生產(chǎn)資料或數(shù)據(jù)的永久性丟失,導致不可挽回的重大損失。
2.5分支機構間缺乏統(tǒng)籌的災備管理規(guī)劃和解決方案
浙江省水利河口研究院擁有鳳起東路主辦公區(qū)(院本部)、復興南街測繪院辦公區(qū)、杭海路六堡試驗基地、蕭山臨江工業(yè)區(qū)農(nóng)水試驗基地、杭州三新大廈辦公區(qū)、深圳分院等多處辦公、試驗場所。目前各業(yè)務系統(tǒng)分散部署在多個辦公區(qū)域,院本部和分院的IT人員水平參差不齊,尤其是分院缺少IT管理人員以及合適的災備解決方案。
顯然,浙江省水利河口研究院原有的災備管理體系已無法滿足信息化建設高速發(fā)展所帶來的高連續(xù)性、高可靠性的需求。尋找一套完備的全新災備解決方案,將災備管理系統(tǒng)的應急響應能力提升到一個新臺階,是浙江省水利河口研究院信息化建設過程中尤為重要的一個組成部分。
3災備管理的新趨勢
為應對爆發(fā)式增長的數(shù)據(jù)擴容、災備統(tǒng)一部署、虛擬化平臺等一系列信息化建設需求,當下災備管理的主流發(fā)展方向和解決方案有以下幾個方面:
3.1存儲同步鏡像
同步鏡像技術,可以實現(xiàn)一對一或多對多存儲系統(tǒng)之間的同步鏡像,消除SAN環(huán)境中存儲系統(tǒng)的單點故障隱患。在不同的物理存儲中保存2份數(shù)據(jù),以確保存儲不存在任何單點故障,當其中一個存儲設備發(fā)生故障時,網(wǎng)關系統(tǒng)將自動進行存儲路徑切換,杜絕存儲設備的單點物理故障隱患。
3.2智能數(shù)據(jù)快照技術
數(shù)據(jù)快照功能,可對特定數(shù)據(jù)卷在極短時間內(nèi)產(chǎn)生增量的歷史時間生成副本。快照副本作為一種完整的數(shù)據(jù)拷貝,可應用于數(shù)據(jù)備份、應用測試、軟件更新、數(shù)據(jù)驗證、數(shù)據(jù)挖掘與分析等方面。一旦數(shù)據(jù)發(fā)生邏輯錯誤,管理員可以迅速依照既定的快照策略選取最近一次的正確可用數(shù)據(jù)快照,迅速恢復數(shù)據(jù)。
3.3持續(xù)數(shù)據(jù)保護
持續(xù)數(shù)據(jù)保護技術(CDP)是基于I/O連續(xù)捕獲和保存數(shù)據(jù)的保護技術,可以實現(xiàn)過去任意一個時間點的數(shù)據(jù)恢復。數(shù)據(jù)的改變被連續(xù)的跟蹤和捕獲,實現(xiàn)微秒級I/O操作截取及恢復,恢復點目標是任意的,而且不需要在實際恢復之前事先定義。
3.4異地災備管理
異地備份是通過互聯(lián)網(wǎng)TCP/IP協(xié)議,可以將本地的數(shù)據(jù)實時備份到異地服務器中,也可以通過異地備份的數(shù)據(jù)進行遠程恢復,快速對業(yè)務進行接管。異地災備可以幫助災備管理集中化,大大減少各網(wǎng)點IT運維人員的部署。
3.5虛擬化存儲
虛擬化存儲功能能夠整合各種異構存儲系統(tǒng),容納不同品牌、不同技術類型的存儲產(chǎn)品,把不同的存儲系統(tǒng)整合統(tǒng)一管理??梢耘cFC、iSCSI、FCoE、SAS、InfiniBand等存儲協(xié)議輕松連接,徹底消除存儲廠商的品牌限制,最大限度地利用既有的存儲設備,杜絕數(shù)據(jù)孤島問題。
4災備系統(tǒng)的部署及成效
浙江省水利河口研究院結合自身實際情況,在全院范圍內(nèi)建立了一套全新的容災備份系統(tǒng),在院本部和六堡試驗基地設立同城異地的2個容災備份中心,將4大辦公區(qū)的數(shù)據(jù)和應用備份于災備中心,從而得到保護。新的災備管理系統(tǒng)的拓撲圖見圖1。
(1)浙江省水利河口研究院在院本部部署了1套光纖交換機和柏科數(shù)據(jù)的DR一體化災備保護設備,組成1個基于FC-SAN的高速光纖存儲和容災保護網(wǎng)絡,集中對六堡試驗基地、測繪院、江東農(nóng)水試驗基地的遠程異地應用系統(tǒng)和數(shù)據(jù)進行災備管理。柏科數(shù)據(jù)DR一體化災備設備以旁路的方式直接接入到以太網(wǎng)交換機,整個項目的實施不改變原有網(wǎng)絡架構。通過DR一體化災備設備的備份、鏡像、快照、微秒級CDP持續(xù)數(shù)據(jù)保護、遠程容災精簡復制等技術,實現(xiàn)對所有業(yè)務系統(tǒng)及核心數(shù)據(jù)的實時容災保護,避免由于各種軟硬件故障導致數(shù)據(jù)丟失和業(yè)務中斷風險。當業(yè)務或數(shù)據(jù)發(fā)生故障時,指定應用業(yè)務和數(shù)據(jù)都可以在1~5 min內(nèi)一鍵接管,數(shù)據(jù)零丟失,所有應用業(yè)務和數(shù)據(jù)都可以在15 min內(nèi)一鍵接管,數(shù)據(jù)零丟失;院本部可在1~5 min內(nèi)一鍵接管指定的遠程業(yè)務,在大大提升業(yè)務連續(xù)性的同時,保證數(shù)據(jù)零丟失。
(2)院本部的所有應用系統(tǒng)和數(shù)據(jù)全部實時復制到六堡試驗基地的一體化災備設備中,實現(xiàn)對院本部所有應用系統(tǒng)和數(shù)據(jù)的遠程異地容災保護。當院本部任何一個應用系統(tǒng)或數(shù)據(jù)出現(xiàn)故障時,首先院本部災備中心進行業(yè)務接管。當出現(xiàn)較大災難時(如機房火災),六堡試驗基地可以在1~5 min反向一鍵接管院本部的相應業(yè)務,院本部和六堡試驗基地的2個災備中心互為異地災備。
(3)作為全院最大的數(shù)據(jù)中心,院本部集中了所有站點的業(yè)務和實時數(shù)據(jù)。為了使數(shù)據(jù)能夠做到長期保留,實現(xiàn)數(shù)據(jù)生命周期的管理,浙江省水利河口研究院將其數(shù)據(jù)離線備份到VTL虛擬帶庫和磁帶庫設備中,實現(xiàn)數(shù)據(jù)的長期保存。柏科的DR一體化災備保護設備可在無需額外配置備份軟件的情況下,直接實現(xiàn)數(shù)據(jù)的歸檔處理,將數(shù)據(jù)自動地歸檔到VTL虛擬帶庫、物理磁帶庫或其他存儲設備中。所有數(shù)據(jù)的歸檔工作都在后臺處理,不影響前端的服務器、網(wǎng)絡和業(yè)務的正常運行。
(4)除了院本部,六堡試驗基地、測繪院、江東農(nóng)水試驗基地各配置1套柏科數(shù)據(jù)DR一體化災備保護設備,與院本部的災備設備一起共同構建成1套完整的異地容災系統(tǒng),形成本地、異地互為災備的架構,實現(xiàn)統(tǒng)一的災備管理。災備系統(tǒng)由院本部統(tǒng)一運維,在大大減輕分支機構的運維壓力和成本的同時,提升了整個災備管理系統(tǒng)的運行效率。
5結語
近年來信息化建設的飛速發(fā)展與大數(shù)據(jù)時代的到來,催生了各種新的業(yè)務模式與研究方向。而作為IT基礎架構重要一環(huán)的災備管理,也應與時俱進,同步發(fā)展。本文以浙江省水利河口研究院災備管理系統(tǒng)的改建為例,對新形勢下災備解決方案的主流發(fā)展方向作了簡單概述。在多邊的IT環(huán)境下保證業(yè)務系統(tǒng)的連續(xù)性與可靠性,始終是災備管理發(fā)展過程中值得探討的課題。
參考文獻:
[1]王樹鵬,云曉春,余翔湛,等.容災的理論與關鍵技術分析[J].計算機工程與應用,2004,40(28):54-58.
[2]NOLLAU,BARBARA.Disaster Recovery and Business Continuity[J].Journal of GXP Compliance,2009,13(3):51.
(責任編輯郎忘憂)
Discussion on the New Trend of Disaster Recovery Management—Taking Zhejiang Institute of Hydraulics & Estuary for Example
HUANG Jian-hui,GE Ying-fang,JIN Lei
(Zhejiang Institute of Hydraulics & Estuary,Hangzhou 310020,Zhejiang,China)
Key words:disaster recovery management; continuity; reliability; remote disaster recovery
Abstract:In recent years, rapid development of information construction and arrival of big data era gave birth to a variety of new business models and research directions. Disaster management as an important part of IT infrastructure, it changed from simple data backup in the past ,into not only emphasize the backup of business systems and data, but also pursuing the continuity and high reliability of business system. This paper takes the improvement of disaster recovery management system of Zhejiang Institute of Hydraulics & Estuary as an example, explores the development direction and trend of disaster recovery management in new era.
收稿日期:2015-11-17
基金項目:浙江省省屬科研院所專項(2014F10008)。
作者簡介:黃健輝(1970-),男,高級工程師,碩士,主要從事水利信息化建設和管理、網(wǎng)絡安全和災備管理研究。 E-mail:kosan@qq.com
中圖分類號:TP393.08
文獻標識碼:A
文章編號:1008-701X(2016)02-0089-03
DOI:10.13641/j.cnki.33-1162/tv.2016.02.026