宋海燕
(重慶市煙草專賣局(公司),重慶 400023)
作為在煙草行業(yè)內(nèi)IT領(lǐng)先的重慶煙草,重慶煙草的各項業(yè)務(wù)對信息化高度依賴,已實現(xiàn)了全業(yè)務(wù)囊括、全員普及的目標,有力地推動了重慶煙草“管理上水平”,塑造了先進的重慶煙草形象。目前,重慶煙草已開始逐步引入容災(zāi)技術(shù)解決數(shù)據(jù)備份、應(yīng)用可持續(xù)性存在的問題。針對重慶煙草的實際情況論述了容災(zāi)技術(shù)在重慶煙草中的應(yīng)用。
容災(zāi)系統(tǒng),對于IT而言,就是為計算機信息系統(tǒng)提供的一個能應(yīng)付各種災(zāi)難的環(huán)境。當計算機系統(tǒng)在遭受如火災(zāi)、水災(zāi)、地震、戰(zhàn)爭等不可抗拒的自然災(zāi)難,以及計算機犯罪、計算機病毒、掉電、網(wǎng)絡(luò)/通信失敗、硬件/軟件錯誤和人為操作錯誤等人為災(zāi)難時,容災(zāi)系統(tǒng)將保證用戶數(shù)據(jù)的安全性(數(shù)據(jù)容災(zāi)),甚至,一個更加完善的容災(zāi)系統(tǒng),還能提供不間斷的應(yīng)用服務(wù)(應(yīng)用容災(zāi))[1]。
目前常用的容災(zāi)方式有以下幾種:
1)磁帶或磁盤備份容災(zāi)
一般需要和備份系統(tǒng)配合。將數(shù)據(jù)在本地的數(shù)據(jù)中心備份到磁帶后運送的異地的災(zāi)備中心存放,災(zāi)備中心負責對磁帶進行管理。如果本地數(shù)據(jù)中心和災(zāi)備中心的網(wǎng)絡(luò)相通,可以通過備份軟件把數(shù)據(jù)定時傳輸?shù)綖?zāi)備中心。實現(xiàn)數(shù)據(jù)的異地災(zāi)備存放。
這種方式主要由備份軟件來實現(xiàn)。其特點是投資少,但容災(zāi)時需要的恢復時間比較長,實時性比較低。
2)數(shù)據(jù)復制容災(zāi)
將數(shù)據(jù)中心的數(shù)據(jù)實時復制到災(zāi)備中心。目前可以在存儲系統(tǒng)的多個層面實現(xiàn)數(shù)據(jù)復制:可以通過在兩地的服務(wù)器上安裝實時復制軟件實現(xiàn)基于服務(wù)器的復制方式;可以使用一些帶有數(shù)據(jù)復制功能的存儲交換機實現(xiàn)遠程交換機之間的數(shù)據(jù)復制;還可以基于存儲系統(tǒng)實現(xiàn)存儲系統(tǒng)之間的數(shù)據(jù)復制,這需要功能比較完善的存儲系統(tǒng)。
這是目前比較常用的容災(zāi)方式,可選擇性多。
3)應(yīng)用遠程容災(zāi)
實現(xiàn)遠程實時的數(shù)據(jù)中心之間的應(yīng)用切換。一般在服務(wù)器上安裝相應(yīng)的軟件實現(xiàn),需要和基于服務(wù)器的軟件復制方案結(jié)合使用,由復制軟件實現(xiàn)遠程的數(shù)據(jù)復制。
這種容災(zāi)方式一般需要購買整體的軟件解決方案保證數(shù)據(jù)復制和應(yīng)用切換的完全兼容。其中要使用專門的卷管理系統(tǒng)和文件系統(tǒng),需要對服務(wù)器端做較低層的設(shè)定,可能會對現(xiàn)有的系統(tǒng)進行停機,相對來說實現(xiàn)比較復雜。但自動化的功能更完善。
目前業(yè)內(nèi)應(yīng)用比較多。它是由智能存儲系統(tǒng)自身實現(xiàn)數(shù)據(jù)的遠程復制和同步,即智能存儲系統(tǒng)將對本系統(tǒng)中的存儲器I/O操作請求復制到遠端的存儲系統(tǒng)中并執(zhí)行,保證數(shù)據(jù)的一致性。HP的 CA、IBM的 PPRC、EMC的SRDF,以及HDS的True Copy技術(shù)都用于實現(xiàn)基于智能存儲系統(tǒng)的遠程數(shù)據(jù)復制。由于這種方式下數(shù)據(jù)復制軟件運行在存儲系統(tǒng)內(nèi),因此較容易實現(xiàn)主中心和容災(zāi)備份中心的操作系統(tǒng)、數(shù)據(jù)庫、系統(tǒng)庫和目錄的實時拷貝維護能力,且不會影響主中心主機系統(tǒng)的性能。如果在系統(tǒng)恢復場所具備了實時數(shù)據(jù),那么就可以做到在災(zāi)難發(fā)生的同時及時開始應(yīng)用處理過程的恢復。
但這種方案具有開放性差和恢復時間長的缺點,表現(xiàn)在不同廠家的存儲設(shè)備系統(tǒng)一般不能配合使用、對于主備中心之間的網(wǎng)絡(luò)條件如穩(wěn)定性、帶寬、鏈路空間距離要求較苛刻。生產(chǎn)中心數(shù)據(jù)故障時,生產(chǎn)中心主機無法訪問容災(zāi)站點的存儲。只有當生產(chǎn)中心恢復了,采用反向復制,通過數(shù)天的全量恢復數(shù)據(jù)才可恢復業(yè)務(wù)。很難實現(xiàn)容災(zāi)站點的數(shù)據(jù)評估測試。
基于邏輯磁盤卷的遠程數(shù)據(jù)復制是指根據(jù)需要將一個或多個卷進行遠程同步(或者異步)復制。該方案通常通過軟件來實現(xiàn),基本配置包括卷管理軟件和遠程復制控制管理軟件。遠程復制控制管理軟件將主用節(jié)點系統(tǒng)的卷上每次I/O的操作數(shù)據(jù)實時(或準實時或延時)復制到遠程節(jié)點的相應(yīng)卷上,從而實現(xiàn)遠程兩個卷之間的數(shù)據(jù)同步(或準同步),主、備節(jié)點之間通常需要配置相應(yīng)帶寬的IP通道。基于邏輯磁盤卷的遠程數(shù)據(jù)復制會增加各節(jié)點主機的一些處理性能需求,且通信帶寬保證時,遠程復制效率和數(shù)據(jù)一致性可得到保證。
基于邏輯磁盤卷的遠程數(shù)據(jù)復制因為是基于邏輯存儲管理技術(shù),一般可與主機系統(tǒng)、物理存儲系統(tǒng)設(shè)備無關(guān),對物理存儲系統(tǒng)自身的管理功能要求不高,有較好的可管理性,也便于主、備系統(tǒng)的擴充和發(fā)展。也可方便做到多個節(jié)點對一個節(jié)點或一對多的遠程數(shù)據(jù)復制。利用這種方式的典型解決方案是symantec的VxVM+VVR[3]。
隨著光纖存儲網(wǎng)絡(luò)技術(shù)的成熟和在距離上的拓展,如今可以不再需要依賴復雜的數(shù)據(jù)復制技術(shù),就可以實現(xiàn)系統(tǒng)容災(zāi)。這種容災(zāi)方案所利用的是最為傳統(tǒng)的磁盤鏡像技術(shù),也就是說可以利用基于城域SAN存儲網(wǎng)上的鏡像技術(shù),輕松實現(xiàn)數(shù)據(jù)容災(zāi),然后在此基礎(chǔ)上,利用快照數(shù)據(jù)的方式和先進的集群軟件,構(gòu)建應(yīng)用級的容災(zāi)系統(tǒng)。當生產(chǎn)中心和容災(zāi)中心間出現(xiàn)故障的時候,可以實現(xiàn)0停機0數(shù)據(jù)丟失。
這種基于卷的容災(zāi)技術(shù)的優(yōu)勢:1)簡單,可靠;2)容災(zāi)完全可以進行真實演練,而不影響生產(chǎn);3)無單點故障;4)0停機0數(shù)據(jù)丟失。
除了以上三種常用技術(shù)外,還有一種技術(shù)叫虛擬化遠程數(shù)據(jù)復制技術(shù)[2],技術(shù)核心思想就是雙向復制,幾乎不會丟失什么數(shù)據(jù),但是由于其兼容性太差,性能消耗太多,近幾年已很少使用。
1.現(xiàn)狀分析
在未考慮容災(zāi)之前,重慶煙草集中部署的20多個信息系統(tǒng),除了其中幾個三級信息系統(tǒng)如營銷系統(tǒng)、財務(wù)系統(tǒng)、煙葉系統(tǒng)定期執(zhí)行手工腳本方式對數(shù)據(jù)庫進行備份外,未采取其他可靠的手段對數(shù)據(jù)進行有效保護。即使作了數(shù)據(jù)庫備份也僅是備份到同一套存儲設(shè)備的其他磁盤上而已。
當新建一套應(yīng)用系統(tǒng)時,如果現(xiàn)有的存儲系統(tǒng)空間不太充足,通常會再采購一套存儲設(shè)備,這樣就形成了多個應(yīng)用系統(tǒng)共用一套或單個應(yīng)用系統(tǒng)獨享一套存儲系統(tǒng)的網(wǎng)絡(luò)布局,存儲網(wǎng)絡(luò)如圖1所示。
圖1 存儲網(wǎng)絡(luò)
2.存在的問題
根據(jù)國家、行業(yè)相關(guān)要求,結(jié)合重慶煙草實際情況,重慶煙草容災(zāi)備份存在較大安全隱患。
一是數(shù)據(jù)保護措施不足。首先是數(shù)據(jù)保護手段單一,僅靠手工腳本方式對數(shù)據(jù)進行備份,只能做到完全備份,不能做到增量備份和差分備份,導致耗時長,效率低。然后是數(shù)據(jù)備份不完整,腳本備份或手工備份只能做到對數(shù)據(jù)庫進行備份,對UNIX操作系統(tǒng)及其下的程序文件無法進行備份,如果UNIX操作系統(tǒng)或者程序文件損壞時只能重新安裝,導致恢復時間過長。
二是存儲系統(tǒng)使用不當。首先是存在信息孤島,由于應(yīng)用系統(tǒng)逐漸上線,逐步形成了幾套互相分隔的小型SAN網(wǎng)絡(luò),每一套SAN網(wǎng)絡(luò)都具有各自獨立的磁盤陣列、SAN交換機等設(shè)備,相互之間不能實現(xiàn)共享。其次是存在單點故障,由于每個存儲都是單獨使用,不能互為冗余,如果磁盤陣列出現(xiàn)問題將導致數(shù)據(jù)全部丟失的嚴重問題。然后是利用率不高,各個存儲之間相互獨立,各自為政,即使有的存儲空間非常富余,也不能給其他業(yè)務(wù)使用,而需要擴展空間的業(yè)務(wù)又不能共享其他存儲設(shè)備,導致存儲利用率較低。
三是異地容災(zāi)手段欠缺。重慶煙草所有IT業(yè)務(wù)均集中部署在市局(公司)中心機房,實現(xiàn)集中管控和統(tǒng)一運維。相應(yīng)中心機房風險和壓力呈倍數(shù)級增加,一旦出現(xiàn)停電、雷擊、火災(zāi),甚至地震、水災(zāi)等災(zāi)難,所有業(yè)務(wù)將全部停止甚至毀損,如果沒有異地容災(zāi),造成的損失將無法估量,難以挽回。
IT技術(shù)的發(fā)展為我們抵御災(zāi)難提供了強有力的技術(shù)手段,但一個科學的、可行的災(zāi)難/恢復解決方案卻也是我們能在合理的容災(zāi)投資下確保企業(yè)業(yè)務(wù)可持續(xù)運行的一個關(guān)鍵因素。為了應(yīng)對災(zāi)難所帶來的嚴重威脅,我們需要的不僅僅是數(shù)據(jù)得到有效的容災(zāi)保護,更需要考慮業(yè)務(wù)的可持續(xù)開展,特別是關(guān)鍵核心業(yè)務(wù)的可持續(xù)性運行!
對于容災(zāi)系統(tǒng)而言,策略總是第一位的,不論采用何種容災(zāi)技術(shù),我們總會面對兩個問題:1)業(yè)務(wù)可恢復點在災(zāi)難前多遠(Recovery Point Objective)?2)能使業(yè)務(wù)重新運行需要多久(Recovery Time Objective)?
我們的容災(zāi)方案就取決于我們的業(yè)務(wù)對上述兩個方面的具體要求。
1.容災(zāi)規(guī)劃
按照《國家信息系統(tǒng)災(zāi)難恢復規(guī)范》,根據(jù)重慶煙草各業(yè)務(wù)對RTP和RTO不同的需求,將其進行等級劃分。鑒于投資規(guī)劃和實施難度的考慮,方案設(shè)計如下。
這個整體的容災(zāi)解決方案包括四個部分:本地數(shù)據(jù)安全保護、異地數(shù)據(jù)安全保護、本地應(yīng)用的高可用性和異地應(yīng)用的連續(xù)性。這四個階段是容災(zāi)系統(tǒng)建設(shè)漸進的過程,可分為兩期完成。一期完成本地數(shù)據(jù)安全保護和異地數(shù)據(jù)安全保護。二期完成本地應(yīng)用和異地應(yīng)用的高可用性。
第一階段為本地數(shù)據(jù)保護,是客戶要對生產(chǎn)數(shù)據(jù)進行定時的備份,當系統(tǒng)發(fā)生故障和人為的錯誤時,可以通過恢復備份數(shù)據(jù)來保證生產(chǎn)。
第二階段為異地數(shù)據(jù)保護,用戶將本地備份的數(shù)據(jù)送到遠離本地的地方保存抵御災(zāi)難。災(zāi)難發(fā)生后,按預(yù)訂的數(shù)據(jù)恢復程序購置和安裝備份硬件平臺,恢復系統(tǒng)和數(shù)據(jù)即可。
第三階段為本地應(yīng)用的高可用性和存儲虛擬化,高可用系統(tǒng)確保本地應(yīng)用系統(tǒng)在多機環(huán)境下具有抗御任何單點故障地能力,一旦系統(tǒng)發(fā)生局部的意外(如操作系統(tǒng)故障、掉電、網(wǎng)絡(luò)故障、存儲故障等),高可用系統(tǒng)可以在最短的時間迅速確保系統(tǒng)的應(yīng)用繼續(xù)運行。
第四階段為異地應(yīng)用的連續(xù)性,在異地建立一個災(zāi)難備份中心(包括主機、網(wǎng)絡(luò)、存儲),通過數(shù)據(jù)復制技術(shù)將數(shù)據(jù)實施傳輸?shù)疆惖貍浞?,在?zāi)難發(fā)生后能夠自動切換,保證業(yè)務(wù)系統(tǒng)的連續(xù)性。
2.總體架構(gòu)
生產(chǎn)中心和災(zāi)備中心都在重慶,但距離較遠,考慮兩地相距在150 km左右,這樣既能保證兩地不會同時遭受自然災(zāi)害,容災(zāi)中心選擇在重慶范圍內(nèi),又能適當降低投入,并且保證容災(zāi)效率較高。圖2即容災(zāi)系統(tǒng)架構(gòu)設(shè)計圖。
圖2 容災(zāi)系統(tǒng)架構(gòu)
1.數(shù)據(jù)保護
1)實施步驟
首要任務(wù)是先對數(shù)據(jù)進行保護。由于重慶煙草機房環(huán)境較好,數(shù)據(jù)量不大,通過LAN備份方式對數(shù)據(jù)進行集中備份管控。
在各服務(wù)器上安裝備份客戶端,將文件、操作系統(tǒng)、數(shù)據(jù)庫等數(shù)據(jù)在線備份到一體機上。該階段實現(xiàn)了對本地數(shù)據(jù)的保護。
當生產(chǎn)中心的集中備份系統(tǒng)建設(shè)好后,將本地備份的數(shù)據(jù)送到遠離本地的地方保存抵御災(zāi)難。只需要在與生產(chǎn)中心IP互通的地方放置一臺備份一體機即可實現(xiàn)數(shù)據(jù)級的災(zāi)備,即異地數(shù)據(jù)保護。
2)應(yīng)用技術(shù)
備份一體機的使用實現(xiàn)了最新的備份架構(gòu)(即面向云平臺的備份架構(gòu))。在該種備份架構(gòu)下,客戶端無須連接和管理備份設(shè)備,只需與備份一體機的SAN或LAN網(wǎng)絡(luò)相通,即可部署成云備份架構(gòu)的備份客戶端,需要備份的數(shù)據(jù)直接通過SAN或者LAN網(wǎng)絡(luò)備份到一體機中,實現(xiàn)了備份系統(tǒng)和生產(chǎn)系統(tǒng)的分離。
在異地數(shù)據(jù)保護中,實現(xiàn)了備份數(shù)據(jù)的異地存儲,達到了遠程災(zāi)備的第四個等級(異步電子復制)。備份一體機的異地復制使用了重復數(shù)據(jù)刪除技術(shù)[4]。即使在窄帶情況下,也能快速地將數(shù)據(jù)復制到異地,減少復制時占用通信鏈路帶寬。
2.應(yīng)用容災(zāi)
1)實施步驟
在對數(shù)據(jù)進行充分保護的基礎(chǔ)上,接下來考慮應(yīng)用容災(zāi)的問題。
在生產(chǎn)中心及災(zāi)備中心的主機上安裝高可用軟件,使所有主機的存儲能夠?qū)崿F(xiàn)存儲虛擬化,整合存儲資源實現(xiàn)按需分配,提高存儲使用效率。
最后一步將災(zāi)備中心的主機納入集群管理系統(tǒng),通過高可用實現(xiàn)應(yīng)用級容災(zāi)和應(yīng)用系統(tǒng)自動切換。保證應(yīng)用系統(tǒng)的高可用。
2)應(yīng)用技術(shù)
應(yīng)用容災(zāi)包括實時數(shù)據(jù)復制技術(shù)和集群技術(shù)[4]。重慶煙草計劃采用基于邏輯磁盤卷的鏡像技術(shù)實現(xiàn)了數(shù)據(jù)鏡像,解決存儲單點故障問題,當某臺存儲壞掉時,數(shù)據(jù)0丟失,應(yīng)用0停機。
使用集群技術(shù)將重要的應(yīng)用主機組建集群。當集群中的某臺機器或者資源發(fā)生故障導致應(yīng)用不可用時,集群軟件可以快速判斷錯誤,并在很短的時間內(nèi)將應(yīng)用切換到另一臺機器上,保證應(yīng)用的高可用,實現(xiàn)了最高的6級容災(zāi)標準。
3.容災(zāi)管理
以上任務(wù)完成之后,系統(tǒng)具備了應(yīng)用級容災(zāi)的功能及完善的基礎(chǔ)架構(gòu)。接下來需要建立一個完整的容災(zāi)管理程序,包括容災(zāi)演練計劃、容災(zāi)切換流程和容災(zāi)恢復預(yù)案;在此管理程序完成之后,需要定期按計劃做容災(zāi)演練,以使整個容災(zāi)系統(tǒng)能夠正常地運行,達到此容災(zāi)備份方案建設(shè)的目的,做到真正的防患于未然。
重慶煙草各項應(yīng)用對信息化高度依賴,保護數(shù)據(jù)的安全和業(yè)務(wù)的連續(xù)性非常必要。
重慶煙草容災(zāi)系統(tǒng)的設(shè)計,兼顧了投入、效率和運維的要求。在對容災(zāi)中心的選址、產(chǎn)品的選擇、實施步驟等方面無不體現(xiàn)了這三方面的需要。
重慶煙草容災(zāi)系統(tǒng)的建設(shè)遵循了“先急后緩,由易而難,由近及遠”的原則。緊急任務(wù)先于實施,從簡單處著手,先對數(shù)據(jù)進行安全防護,然后考慮建設(shè)異地容災(zāi)中心,保證業(yè)務(wù)系統(tǒng)可持續(xù)運行。
容災(zāi)系統(tǒng)建設(shè)是一項系統(tǒng)工程,需要通盤考慮,不僅在技術(shù)上,在管理上也需要持續(xù)跟進,才能有效保護企業(yè)的業(yè)務(wù)高效、持續(xù)運行。
[1]Lied.容災(zāi)備份輕松到位:中小企業(yè)存儲虛擬化遠程容災(zāi)解決方案[J].微型計算機,2010(12):2.
[2]陶安,王軍武.利用虛擬磁帶庫技術(shù)實現(xiàn)異地數(shù)據(jù)容災(zāi)備份[J].軟件導刊:教育技術(shù),2011(12):4.
[3]范建華,趙文.容災(zāi)備份異地架構(gòu)在“不可抗力因素”下的應(yīng)用研究[J].陜西理工學院學報:自然科學版,2011(1):5.
[4]李曉義.Symantec數(shù)據(jù)中心容災(zāi)備份建設(shè)規(guī)劃[J].計算機世界,2012(2):10.