黎斌 胡?!±钫m榮
摘要:這些年在經(jīng)歷了地震、海嘯等重大自然災(zāi)害的洗禮后,很多政府或是企業(yè)把數(shù)據(jù)的安全保護(hù)和備份工作提到了前所未有的高度。一些有條件的企業(yè),比如金融行業(yè),已經(jīng)采取“兩地三中心”的備份和數(shù)據(jù)恢復(fù)方案,更有甚者,還選擇在不同的地震帶上做備份和數(shù)據(jù)恢復(fù)。
關(guān)鍵詞:災(zāi)備;地震數(shù)據(jù);系統(tǒng)設(shè)計(jì);備份恢復(fù)
中圖分類號(hào):TN311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2013)08-1745-04
隨著區(qū)域地震數(shù)據(jù)量的不斷增長(zhǎng)以及專業(yè)數(shù)據(jù)庫(kù)的應(yīng)用, 無(wú)法預(yù)知的IT硬件設(shè)備損壞、黑客攻擊、自然災(zāi)害及系統(tǒng)人員誤操作等造成數(shù)據(jù)丟失或業(yè)務(wù)突然中斷帶來(lái)了巨大安全隱患,使得對(duì)數(shù)據(jù)安全性提出了越來(lái)越高的要求。該文主要從數(shù)據(jù)災(zāi)備現(xiàn)狀與需求,策略制定,系統(tǒng)設(shè)計(jì),到災(zāi)備建設(shè)設(shè)想做些初步性探討,從而實(shí)現(xiàn)關(guān)鍵數(shù)據(jù)不丟失的情況下,保證整個(gè)數(shù)據(jù)業(yè)務(wù)系統(tǒng)運(yùn)行的連續(xù)性。
1 區(qū)域地震數(shù)據(jù)災(zāi)備現(xiàn)狀與需求
1.1現(xiàn)狀
目前,區(qū)域地震數(shù)據(jù)中心已經(jīng)建立了基于SAN架構(gòu)的數(shù)據(jù)災(zāi)備存儲(chǔ)平臺(tái),管理著測(cè)震、前兆、信息、應(yīng)急等業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源。數(shù)據(jù)存儲(chǔ)設(shè)備由兩臺(tái)磁盤陣列構(gòu)成,分別是EMCCX3-20和基于HDS的Thunder 9500V系列的磁盤陣列,由兩臺(tái)交換機(jī)與各主機(jī)、數(shù)據(jù)庫(kù)服務(wù)器和磁帶庫(kù)組成網(wǎng)絡(luò)層體系,通過(guò)數(shù)據(jù)庫(kù)服務(wù)器的oracle平臺(tái)直接實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)與故障切換,從而保證數(shù)據(jù)庫(kù)系統(tǒng)的高效穩(wěn)定的運(yùn)行。
1.2需求
隨著災(zāi)備技術(shù)的快速發(fā)展,特別是近幾年一系列災(zāi)害事件的頻發(fā)(地震、火災(zāi)等),國(guó)內(nèi)的各級(jí)政府單位都充分認(rèn)識(shí)到了災(zāi)備的必要性。結(jié)合現(xiàn)階段區(qū)域地震數(shù)據(jù)實(shí)際情況,既要滿足數(shù)據(jù)的安全性,同時(shí)也要滿足業(yè)務(wù)系統(tǒng)的連續(xù)性,于是考慮以同城雙中心保證業(yè)務(wù)數(shù)據(jù)的連續(xù)性,外加異地災(zāi)備中心保證災(zāi)難發(fā)生時(shí)數(shù)據(jù)的有效性。
2 災(zāi)備策略制定
策略制定是整個(gè)容災(zāi)建設(shè)過(guò)程中非常重要的階段,包含有確定災(zāi)難恢復(fù)級(jí)別、站點(diǎn)選擇、確定站點(diǎn)類型、數(shù)據(jù)復(fù)制技術(shù)和其它相關(guān)技術(shù)選擇及方案總體成本效益分析等內(nèi)容。
首先,需要根據(jù)業(yè)務(wù)分析的結(jié)果,確定自身的災(zāi)備級(jí)別,需要達(dá)到數(shù)據(jù)級(jí)還是應(yīng)用級(jí)的容災(zāi)。目前大多數(shù)用戶考慮的不是自身所需要的災(zāi)備級(jí)別,而是一味地追求容災(zāi)的最高級(jí)別,也即是應(yīng)用級(jí)自動(dòng)切換,以致忽略了自身的很多約束件,如自身網(wǎng)絡(luò)環(huán)境、投資預(yù)算、人員配置等。因此,在確定災(zāi)備級(jí)別時(shí),用戶需要理智地選擇數(shù)據(jù)級(jí)容災(zāi)和應(yīng)用級(jí)容災(zāi),從自身實(shí)際情況出發(fā),選擇合適的災(zāi)備級(jí)別作為自己的實(shí)現(xiàn)目標(biāo)。
其次,需要進(jìn)行災(zāi)備中心的選址及確定站點(diǎn)的類型。選址的主要依據(jù)是看預(yù)防哪一類災(zāi)難。如果是防水災(zāi),則災(zāi)備中心距離數(shù)據(jù)中心只需要幾百米就可以;如果是防水災(zāi),則要求它們之間的距離在幾公里以上;如果是防地震的話,則需要保持幾百公里的距離。于是,用戶可以根據(jù)自身不同的地域選擇不同的需求。站點(diǎn)類型主要是指工作模式,比如有冷備、熱備、雙中心工作等。
再是,數(shù)據(jù)復(fù)制技術(shù)選擇,它是整個(gè)容災(zāi)系統(tǒng)中最核心的部分,作為信息化建設(shè)的核心是數(shù)據(jù),數(shù)據(jù)從數(shù)據(jù)中心到災(zāi)備中心必須利用復(fù)制技術(shù)才能實(shí)現(xiàn)。根據(jù)復(fù)制技術(shù)的實(shí)現(xiàn)層次不同,分為主機(jī)層復(fù)制、SAN網(wǎng)絡(luò)層復(fù)制和陣列式復(fù)制三個(gè)物理層次,將操作系統(tǒng)層、應(yīng)用程序?qū)雍蛿?shù)據(jù)庫(kù)層統(tǒng)歸為主機(jī)復(fù)制層。
最后,在應(yīng)用級(jí)災(zāi)備系統(tǒng)建設(shè)時(shí),需要考慮兩站點(diǎn)間的網(wǎng)絡(luò)切換技術(shù)和應(yīng)用切換技術(shù)。網(wǎng)絡(luò)切換技術(shù)通??刹捎没诟?dòng)IP地址切換、基于DNS切換、基于4~7層交換機(jī)切換和基于應(yīng)用切換四種切換技術(shù)。而應(yīng)用切換通過(guò)結(jié)合兩站點(diǎn)應(yīng)用系統(tǒng)集群軟件,可實(shí)現(xiàn)自動(dòng)切換或半自動(dòng)切換的方式。
3 區(qū)域地震數(shù)據(jù)災(zāi)備系統(tǒng)設(shè)計(jì)
作為一個(gè)典型的數(shù)據(jù)災(zāi)備系統(tǒng)應(yīng)該具備發(fā)下特征:首先,應(yīng)具有開放性,不依賴特定硬件系統(tǒng),支持多種傳輸介質(zhì);另外,考慮到災(zāi)備能力和應(yīng)用系統(tǒng)性能的影響,災(zāi)備方案不僅要支持近距離的同步數(shù)據(jù)容災(zāi),還必須能支持運(yùn)程的異步數(shù)據(jù)容災(zāi);第三,完善的容災(zāi)系統(tǒng)應(yīng)該包括各種實(shí)用的災(zāi)難恢復(fù)手段;最后,也是最重要的,要有完善的容災(zāi)制度和人力保障,定期進(jìn)行災(zāi)備演練。
下面從災(zāi)備中心基礎(chǔ)設(shè)施、網(wǎng)絡(luò)通信系統(tǒng)、數(shù)據(jù)存儲(chǔ)備份系統(tǒng)、災(zāi)難恢復(fù)計(jì)劃四個(gè)部分對(duì)區(qū)域地震數(shù)據(jù)災(zāi)備系統(tǒng)設(shè)計(jì)作個(gè)初步探討。
3.1災(zāi)備中心基礎(chǔ)設(shè)施
災(zāi)備場(chǎng)所要滿足避免災(zāi)難同時(shí)發(fā)生的條件,在災(zāi)備建設(shè)時(shí)要注意場(chǎng)地通信條件、電力供應(yīng)、消防保障和后勤保障條件等。
1)通信保障應(yīng)具備與運(yùn)營(yíng)商形成必要的通信設(shè)施和足夠的網(wǎng)絡(luò)帶寬,以保證恢復(fù)工作有效開展。
2)電力保障系統(tǒng)應(yīng)采用雙路市電、雙路冗余UPS和專用柴油發(fā)電機(jī)系統(tǒng)供電方式。完全實(shí)現(xiàn)電路的冗余及充分的后備電源設(shè)計(jì)。
3)災(zāi)備中心應(yīng)設(shè)立專用鋼瓶間并配備高效能七氟丙烷氣體消防系統(tǒng)。通過(guò)先進(jìn)的聯(lián)動(dòng)聲光火災(zāi)自動(dòng)報(bào)警系統(tǒng)及FM200環(huán)保型氣體滅火系統(tǒng),充分保障消防安全。
4)后勤保障條件也要細(xì)致考慮,如交通、安全、飲食和住宿等。
此外,災(zāi)備機(jī)房要有足夠的空間來(lái)安裝災(zāi)難恢復(fù)系統(tǒng)的各種設(shè)備,同時(shí)也要考慮在災(zāi)難發(fā)生時(shí)工作人員的操作等問(wèn)題。
3.2網(wǎng)絡(luò)通信系統(tǒng)
建立“兩地三中心”的災(zāi)備模式,即地震數(shù)據(jù)中心、同城災(zāi)備中心和異地災(zāi)備中心。地震數(shù)據(jù)中心與2個(gè)災(zāi)備中心節(jié)點(diǎn)分別采用2條SDH 2M電路連接,同時(shí),通過(guò)政務(wù)信息網(wǎng)專線接入Internet,通過(guò)VPN加密隧道在因特網(wǎng)上建立VPN傳輸線路,實(shí)現(xiàn)主鏈路(SDH傳輸專網(wǎng))的備份,以保障整體鏈路的可靠性,減低單鏈路的故障率,組網(wǎng)如圖1所示。
3.3數(shù)據(jù)存儲(chǔ)備份系統(tǒng)
3.4災(zāi)難恢復(fù)計(jì)劃
災(zāi)難恢復(fù)計(jì)劃是一個(gè)全面的狀態(tài),它包括事前、事中和事后三個(gè)方面。事前主要針對(duì)災(zāi)難計(jì)劃確定工作組及各自職能,事中是對(duì)緊急事件的應(yīng)對(duì)過(guò)程中能及時(shí)地提供后備操作,而事后主要是處理數(shù)整的整理和恢復(fù)工作。
3.4.1明確災(zāi)難恢復(fù)小組及其職能
1)管理組:統(tǒng)籌規(guī)劃,指揮各小組按照既定計(jì)劃進(jìn)行執(zhí)行。
2)計(jì)算機(jī)恢復(fù)組:負(fù)責(zé)對(duì)全公司范圍內(nèi)的計(jì)算機(jī)故障進(jìn)行排除、恢復(fù)范圍包括系統(tǒng)、必備辦公軟件。
3)損壞評(píng)估組:負(fù)責(zé)對(duì)公司損失的重要數(shù)據(jù)、財(cái)務(wù)進(jìn)行總體評(píng)估。并針對(duì)相應(yīng)損失的財(cái)產(chǎn)進(jìn)行匯總并結(jié)合擁有的保險(xiǎn)進(jìn)行申報(bào)。
4)安全組:負(fù)責(zé)災(zāi)難發(fā)生后的人員、數(shù)據(jù)、財(cái)務(wù)的安全進(jìn)行保護(hù)。并制定相應(yīng)的安全策略。
5)設(shè)備支持組:負(fù)責(zé)對(duì)公司服務(wù)器、網(wǎng)絡(luò)設(shè)備、交換機(jī)的故障進(jìn)行排除,制定相應(yīng)解決重建方案。
6)數(shù)據(jù)恢復(fù)組:負(fù)責(zé)對(duì)地震數(shù)據(jù)進(jìn)行恢復(fù),并制定相應(yīng)數(shù)據(jù)恢復(fù)方案。
3.4.2制定詳細(xì)的業(yè)務(wù)數(shù)據(jù)災(zāi)難恢復(fù)方案
主要針對(duì)的是由自然災(zāi)害造成的數(shù)據(jù)恢復(fù)流程,當(dāng)然,這些數(shù)據(jù)恢復(fù)方案的前提是需要有可實(shí)施性強(qiáng)的監(jiān)測(cè)技術(shù)做保障,否則僅依賴人為來(lái)發(fā)現(xiàn)故障,遠(yuǎn)遠(yuǎn)不能滿足數(shù)據(jù)業(yè)務(wù)實(shí)時(shí)性的需求。故障或是災(zāi)難發(fā)生時(shí)主要通過(guò)以下兩方面實(shí)現(xiàn)數(shù)據(jù)的恢復(fù):
1)同城兩中心的任何一中心發(fā)生不可預(yù)見(jiàn)的故障導(dǎo)致業(yè)務(wù)中斷時(shí),馬上可以通過(guò)集群軟件實(shí)現(xiàn)應(yīng)急切換,保證數(shù)據(jù)業(yè)務(wù)的連續(xù)運(yùn)行。由于數(shù)據(jù)中心與同城災(zāi)備中心采用的是同步復(fù)制,也即數(shù)據(jù)中心陣列接收到數(shù)據(jù)后,通過(guò)陣列間的同步復(fù)制數(shù)據(jù)會(huì)復(fù)制到同城災(zāi)備中心,兩中心基本實(shí)現(xiàn)同步。
2)當(dāng)同城中心發(fā)生自然災(zāi)害時(shí),此時(shí)異地災(zāi)備中心就可以通過(guò)備份數(shù)據(jù)對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行后期的搶救恢復(fù)。異地災(zāi)備中心與同城災(zāi)備中心采用的是異步復(fù)制技術(shù)定期將數(shù)據(jù)進(jìn)行復(fù)制備份。
3.4.3災(zāi)難恢復(fù)的幾點(diǎn)考慮
1)單點(diǎn)故障的風(fēng)險(xiǎn)。在避免信息系統(tǒng)單點(diǎn)故障方面,目前已經(jīng)采取了必要措施,重要系統(tǒng)應(yīng)用服務(wù)器采用WEBLIGIC集群方式,數(shù)據(jù)庫(kù)的部署采用ORACLE RAC方式,數(shù)據(jù)存儲(chǔ)采用RAID0+1或RAID5保護(hù)方式。但是,仍然存在單點(diǎn)故障的風(fēng)險(xiǎn),如存儲(chǔ)設(shè)備本身和數(shù)據(jù)中心機(jī)房。
2)本地磁帶庫(kù)進(jìn)行數(shù)據(jù)備份、恢復(fù)的風(fēng)險(xiǎn)。目前數(shù)據(jù)備份做法是對(duì)本地?cái)?shù)據(jù)通過(guò)TSM每天進(jìn)行兩次增量備份,每周進(jìn)行兩次全量備份,每天的備份磁帶復(fù)制一份通過(guò)郵遞方式異地存放。這種做法存在風(fēng)險(xiǎn)包括:磁帶備份的數(shù)據(jù)恢復(fù)時(shí)間較長(zhǎng);當(dāng)機(jī)房出現(xiàn)重大自然災(zāi)害后異地存放的磁帶無(wú)法進(jìn)行數(shù)據(jù)恢復(fù);磁帶庫(kù)備份策略無(wú)法快速、靈活的恢復(fù)由人為操作失誤造成的數(shù)據(jù)丟失。
4 地震數(shù)據(jù)災(zāi)備關(guān)鍵技術(shù)
說(shuō)到災(zāi)備技術(shù),固然首先要明確災(zāi)備的級(jí)別,它分為數(shù)據(jù)級(jí)災(zāi)備和應(yīng)用級(jí)災(zāi)備,由于容災(zāi)方案的技術(shù)復(fù)雜性和多樣性,也分為離線式災(zāi)備和在線式災(zāi)備,離線式災(zāi)備主要依靠備份技術(shù)來(lái)實(shí)現(xiàn),它的缺點(diǎn)是實(shí)時(shí)性低,優(yōu)點(diǎn)是備份范圍廣、長(zhǎng)期保存、投資較少等,而在線式災(zāi)備最關(guān)鍵是實(shí)現(xiàn)數(shù)據(jù)的復(fù)制,它的優(yōu)點(diǎn)是實(shí)時(shí)性高、數(shù)據(jù)丟失少或零丟失、容災(zāi)恢復(fù)快,但是投資較高,較適合對(duì)數(shù)據(jù)連續(xù)性較高的大型單位或企業(yè)。本節(jié)主要介紹災(zāi)備技術(shù)的各實(shí)現(xiàn)層次的優(yōu)劣對(duì)比。
4.1主機(jī)層
劣勢(shì):總體成本較高;對(duì)主機(jī)平臺(tái)過(guò)于依賴,需在災(zāi)備中心駕構(gòu)多套主機(jī)與業(yè)務(wù)數(shù)據(jù)中心對(duì)應(yīng);與服務(wù)器OS、FS相關(guān),對(duì)備用服務(wù)器配置要求高,升級(jí)維護(hù)較復(fù)雜;數(shù)據(jù)傳輸占據(jù)較大帶寬;RTO、RPO為數(shù)小時(shí)。優(yōu)勢(shì):支持異構(gòu)存儲(chǔ)系統(tǒng)環(huán)境,與應(yīng)用結(jié)合度較高。
4.2網(wǎng)絡(luò)層
劣勢(shì):各設(shè)備間會(huì)存在性能和擴(kuò)展性的瓶頸。優(yōu)勢(shì):對(duì)目前網(wǎng)絡(luò)環(huán)境改動(dòng)小,易于實(shí)施;可實(shí)現(xiàn)復(fù)制數(shù)據(jù)的邏輯一致性;增量復(fù)制,降低帶寬要求;主機(jī)和陣列擴(kuò)展靈活;RTO、RPO為分鐘級(jí)。
4.3存儲(chǔ)層
局限性:光纖直連受距離限制,網(wǎng)絡(luò)成本高;兩端陣列須為同一品牌,不適用于異構(gòu)存儲(chǔ)環(huán)境;卷層次的數(shù)據(jù)鏡像,無(wú)法保證一致性問(wèn)題;RTO、RPO為小時(shí)級(jí);優(yōu)勢(shì):對(duì)主機(jī)應(yīng)用系統(tǒng)沒(méi)有影響,架構(gòu)簡(jiǎn)單。
4.4應(yīng)用層
局限性:總體成本較高;異構(gòu)服務(wù)器實(shí)施、升級(jí)和維護(hù)較難;此層只針對(duì)特定的數(shù)據(jù)庫(kù)應(yīng)用,局限性較大。優(yōu)勢(shì):能快速保證數(shù)據(jù)一致性;數(shù)據(jù)量傳輸量較小,帶寬要求不高;RTO、RPO為分鐘至小時(shí)之間。
5 結(jié)束語(yǔ)
從以上幾個(gè)方面,介紹了下關(guān)于區(qū)域地震數(shù)據(jù)災(zāi)備系統(tǒng)建設(shè)的一個(gè)簡(jiǎn)要流程,結(jié)合目前單位已有架構(gòu),分別從現(xiàn)狀與需求、策略制定、系統(tǒng)設(shè)計(jì)、各層次對(duì)比、方案選型等方面做了些探討,以更加穩(wěn)定可靠的方式來(lái)保證我們數(shù)據(jù)的安全高效運(yùn)行,使災(zāi)害損失降到最低,最后希望本文能給同行業(yè)在數(shù)據(jù)災(zāi)備系統(tǒng)建設(shè)方面提供些參考。
參考文獻(xiàn):
[1] 張晨.省級(jí)地震數(shù)據(jù)容災(zāi)備份技術(shù)初探[J].防災(zāi)減災(zāi)學(xué)報(bào),2012,28(2):79-83.
[2] 何琳.地震應(yīng)急系統(tǒng)數(shù)據(jù)存儲(chǔ)容災(zāi)備份機(jī)制的研究[J].電腦知識(shí)與技術(shù),2011,7(11):9692-9694.
[3] 數(shù)據(jù)中心災(zāi)備系統(tǒng)建設(shè)方案大全[EB/OL]. http://wenku.baidu.com/view/8809C99a51e79b8968022687.html.
[4] 華為災(zāi)備解決方案[EB/OL].http://www.huaweisymantec.com.