范寧軍
【摘要】 隨著通信網(wǎng)絡(luò)不斷發(fā)展以及業(yè)務(wù)需求規(guī)模不斷擴(kuò)大,安徽聯(lián)通面向網(wǎng)絡(luò)、業(yè)務(wù)、客戶的運(yùn)維支撐體系建設(shè)也隨之變得日益復(fù)雜。運(yùn)維部門必須要能夠?qū)崿F(xiàn)網(wǎng)絡(luò)、業(yè)務(wù)、客戶問題的“可視”、“可控”、“可分析”、“可溯源”,這需要長期的數(shù)據(jù)存儲備份來支撐。同時(shí)針對網(wǎng)絡(luò)設(shè)備不斷增多,網(wǎng)絡(luò)數(shù)據(jù)量不斷增大的情況,對信息安全要求也越來越高,而數(shù)據(jù)備份是數(shù)據(jù)高可用性的最后一道防線,其作用是在網(wǎng)絡(luò)系統(tǒng)崩潰或受災(zāi)時(shí)能夠快速恢復(fù)數(shù)據(jù)。安徽聯(lián)通運(yùn)行維護(hù)部緊跟技術(shù)發(fā)展腳步,結(jié)合本省工作實(shí)際,對數(shù)據(jù)集中備份及數(shù)據(jù)庫容災(zāi)技術(shù)應(yīng)用進(jìn)行了深入研究,通過搭建部門級的高速SAN存儲網(wǎng)絡(luò),實(shí)現(xiàn)服務(wù)器、存儲、虛擬磁帶庫等IT設(shè)備的互聯(lián)互通。最終形成了多業(yè)務(wù)系統(tǒng)共享的存儲備份資源池,完成業(yè)務(wù)數(shù)據(jù)的高速共享和集中保護(hù)的建設(shè)目標(biāo)。
【關(guān)鍵詞】 集中備份數(shù)據(jù)庫容災(zāi) SAN存儲網(wǎng)絡(luò) LAN-Free Shareplex
一、引言
中國聯(lián)通安徽省分公司(下簡稱安徽聯(lián)通)在全省共有17個(gè)市級分公司、65個(gè)縣級分公司,員工總數(shù)超過4000人,固定資產(chǎn)規(guī)模近90億元,建成了全省覆蓋率超過98%的GSM、WCDMA移動通信網(wǎng)絡(luò)和覆蓋全省的集基礎(chǔ)網(wǎng)、業(yè)務(wù)網(wǎng)和支撐網(wǎng)為一體的現(xiàn)代化固定通信網(wǎng)絡(luò)。
隨著業(yè)務(wù)的飛速發(fā)展,各網(wǎng)管業(yè)務(wù)系統(tǒng)每天都會產(chǎn)生大量的業(yè)務(wù)數(shù)據(jù),這些業(yè)務(wù)數(shù)據(jù)每天都會面臨因?yàn)槲锢怼⑦壿嫼腿藶檎`操作所造成的破壞。目前安徽聯(lián)通運(yùn)維支撐體系已經(jīng)累積了海量的不可逆數(shù)據(jù),一旦被破壞,將會給企業(yè)帶來巨大的經(jīng)濟(jì)損失和社會不良影響!因此,建立安徽聯(lián)通運(yùn)維支撐系統(tǒng)的集中備份和數(shù)據(jù)庫容災(zāi)系統(tǒng)日趨重要。
二、集中備份與數(shù)據(jù)庫容災(zāi)面實(shí)施應(yīng)用
2.1 實(shí)施背景
安徽聯(lián)通目前已建設(shè)完成綜合體系的近二十套網(wǎng)管支撐系統(tǒng),這些網(wǎng)管支撐系統(tǒng)是在不同時(shí)間,由不同的業(yè)務(wù)軟件廠商單獨(dú)建設(shè)的。在以往的運(yùn)營商建設(shè)模式中,缺乏對底層IT平臺的統(tǒng)一規(guī)劃設(shè)計(jì)。紛亂無序的系統(tǒng)建設(shè)方式對業(yè)務(wù)數(shù)據(jù)的保護(hù)上存在以下幾個(gè)主要問題:
1、存儲設(shè)備的單點(diǎn)故障問題:各自業(yè)務(wù)系統(tǒng)中,數(shù)據(jù)庫服務(wù)器都是直連一臺單獨(dú)磁盤陣列設(shè)備。磁盤陣列設(shè)備都是硬件廠商的中低端型號,隨著使用年限的增加,設(shè)備出現(xiàn)物理故障的概率越來越大,業(yè)務(wù)數(shù)據(jù)丟失的風(fēng)險(xiǎn)也越來越大。
2、數(shù)據(jù)備份手段落后:傳統(tǒng)的數(shù)據(jù)保護(hù)方法都是通過手工方式不定期的對重要業(yè)務(wù)數(shù)據(jù)進(jìn)行手工備份(數(shù)據(jù)庫導(dǎo)出、文件拷貝、操作系統(tǒng)備份),這種備份方式存在較多的問題,主要體現(xiàn)在以下幾方面:(1)管理難度大,大量手工操作,備份人工管理,各備份系統(tǒng)分散;(2)數(shù)據(jù)恢復(fù)成功率不高,各備份數(shù)據(jù)管理不統(tǒng)一,存在數(shù)據(jù)損壞或無法索引,手工恢復(fù)操作不成功的情況;(3)無法防范在線存儲設(shè)備故障造成的業(yè)務(wù)數(shù)據(jù)丟失;(4)發(fā)生故障后,業(yè)務(wù)數(shù)據(jù)的丟失量較多,恢復(fù)時(shí)間較長;(5)造成投資浪費(fèi),大量重復(fù)采購,小型系統(tǒng)的擴(kuò)展性差、軟件升級困難。
3、集中數(shù)據(jù)容災(zāi)中心上線后,有效實(shí)現(xiàn)以下目標(biāo):(1)數(shù)據(jù)保護(hù)集中,將大量分散的備份整合為一個(gè)整體的備份系統(tǒng),集中配置備份策略,集中控制數(shù)據(jù)備份和恢復(fù)作業(yè)。(2)減小對業(yè)務(wù)的影響,采用高效的備份手段,縮短備份窗口時(shí)間,通過對數(shù)據(jù)庫的準(zhǔn)實(shí)時(shí)備份機(jī)制,不影響業(yè)務(wù)的正常運(yùn)行。(3)易于恢復(fù),能快速實(shí)現(xiàn)數(shù)據(jù)恢復(fù),具備靈活的恢復(fù)方式。(4)減小分散系統(tǒng)建設(shè)投入,降低備份管理成本,資源整合實(shí)現(xiàn)綠色環(huán)保。
2.2 數(shù)據(jù)備份建設(shè)方案
2.2.1 數(shù)據(jù)備份系統(tǒng)總體結(jié)構(gòu)設(shè)計(jì)
本次項(xiàng)目建設(shè)中的數(shù)據(jù)備份系統(tǒng)架構(gòu)如下所示:在本項(xiàng)目中,我們采用集中統(tǒng)一的備份策略管理,通過單一的備份服務(wù)器,對整個(gè)部門數(shù)據(jù)庫和應(yīng)用系統(tǒng)的備份工作進(jìn)行統(tǒng)一管理和監(jiān)控。
2.2.2 系統(tǒng)組網(wǎng)
系統(tǒng)的主要包括:①IBM X3650 PC服務(wù)器為Netbackup軟件的主備份服務(wù)器,連接到局域網(wǎng)。本機(jī)上的數(shù)據(jù)通過直接備份到磁帶庫中。它還負(fù)責(zé)整個(gè)備份系統(tǒng)的策略管理和恢復(fù)管理工作。②在LAN和SAN中其他的數(shù)據(jù)庫服務(wù)器,作為NetBackup Client,連接到存儲局域網(wǎng)中,并安裝相應(yīng)的數(shù)據(jù)庫Agent,在線備份數(shù)據(jù)庫,然后直接通過LAN和SAN將數(shù)據(jù)傳輸?shù)絺浞莘?wù)器上進(jìn)行備份。③一臺大容量虛擬磁帶庫EMC DD630,負(fù)責(zé)在線數(shù)據(jù)備份和恢復(fù)。④一臺利舊的物理磁帶庫Sun L25,負(fù)責(zé)需要長期保留的備份數(shù)據(jù)歸檔。
2.2.3 數(shù)據(jù)備份軟件選擇
本方案中采用Symantec功能強(qiáng)大的NetBackup 系列企業(yè)級備份軟件,對業(yè)務(wù)數(shù)據(jù)實(shí)現(xiàn)LAN+LAN Free方式備份,本次備份方案中備份軟件包括:①備份服務(wù)器,NetBackup Server,負(fù)責(zé)管理整個(gè)備份域和備份設(shè)備,可以實(shí)現(xiàn)跨平臺數(shù)據(jù)集中備份,包括建立備份策略,跟蹤備份作業(yè),備份設(shè)備管理,管理備份/恢復(fù)操作等,是整個(gè)備份系統(tǒng)的核心;②備份客戶端,NetBackup Client,需要備份數(shù)據(jù)的服務(wù)器或主機(jī);③數(shù)據(jù)庫備份選項(xiàng),NetBackup DataBase Option,可實(shí)現(xiàn)對數(shù)據(jù)庫數(shù)據(jù)的在線備份,在備份過程中不需要停止數(shù)據(jù)庫;NBU支持Oracle、SQL Server、DB2、Informix等主流數(shù)據(jù)庫系統(tǒng);④磁帶庫支持,NetBackup Tape Support;⑤虛擬帶庫支持,NetBackup Virtual Tape Support,NetBackup備份軟件支持對虛擬磁帶庫的備份。
2.2.4 磁帶庫系統(tǒng)
本項(xiàng)目中我們使用虛擬磁帶庫+物理磁帶庫組合的方式。其中虛擬磁帶庫以近似于磁盤的數(shù)據(jù)讀寫速度成為在線數(shù)據(jù)備份設(shè)備的首選,而物理磁帶庫作為需要長期歸檔的業(yè)務(wù)數(shù)據(jù)的最終存儲空間。
2.2.5 備份系統(tǒng)日常策略管理
(1)操作系統(tǒng)及應(yīng)用系統(tǒng)備份策略。操作系統(tǒng)及應(yīng)用系統(tǒng)的備份采用全備份+增量備份的方式。在每個(gè)月初(或者系統(tǒng)發(fā)生重大修改后)進(jìn)行一次全備份,后續(xù)每日進(jìn)行定時(shí)增量備份。在實(shí)際工作中,系統(tǒng)上線后,操作系統(tǒng)和應(yīng)用軟件不會出現(xiàn)頻繁的升級或者修改,因此此部分備份數(shù)據(jù)量不大,對系統(tǒng)資源和磁帶的消耗也很小。(2)網(wǎng)管業(yè)務(wù)數(shù)據(jù)備份策略每日備份:備份當(dāng)前月的每天產(chǎn)生的新業(yè)務(wù)數(shù)據(jù),確保當(dāng)前月工作庫中所有的數(shù)據(jù)庫表的數(shù)據(jù)安全性和數(shù)據(jù)結(jié)構(gòu)的完整性,將由因硬盤損壞等原因造成的數(shù)據(jù)丟失損失降至最低。每月歸檔備份:歸檔備份當(dāng)前月的所有業(yè)務(wù)數(shù)據(jù)。在每月末進(jìn)行,對整月數(shù)據(jù)進(jìn)行一次全備份,備份完成后,該月數(shù)據(jù)可以考慮離線,僅作為查詢的數(shù)據(jù)歸檔使用。(3)網(wǎng)管業(yè)務(wù)數(shù)據(jù)庫備份策略。數(shù)據(jù)庫備份從備份技術(shù)上可以分為離線備份與在線備份兩種,鑒于生產(chǎn)庫無法中斷的原因,目前進(jìn)行的數(shù)據(jù)庫備份都是采用在線備份的方式進(jìn)行。(4)數(shù)據(jù)庫備份方案應(yīng)該以物理備份為主、邏輯備份為輔的方式進(jìn)行。①數(shù)據(jù)庫物理備份。每周應(yīng)作一次物理全備份,保存周期為一個(gè)月;每月未應(yīng)保存一次全月數(shù)據(jù)物理全備份,周期為一年;每天作一次增量備份,保存周期為一周。②數(shù)據(jù)庫邏輯備份。每周作一次全備份,每天作一次增量備份,保存周期與物理備份相同。
2.2.6 網(wǎng)管業(yè)務(wù)數(shù)據(jù)恢復(fù)策略
數(shù)據(jù)備份的唯一目的就是為了保證在線數(shù)據(jù)損壞后能夠恢復(fù)到最近備份點(diǎn),因?yàn)樗P(guān)系到系統(tǒng)在經(jīng)歷災(zāi)難后能否迅速恢復(fù)。業(yè)務(wù)數(shù)據(jù)的恢復(fù)可以分為三個(gè)級別:全系統(tǒng)數(shù)據(jù)恢復(fù)、個(gè)別數(shù)據(jù)恢復(fù)、數(shù)據(jù)重定向恢復(fù)。①全系統(tǒng)數(shù)據(jù)恢復(fù)是在應(yīng)用在服務(wù)器發(fā)生意外災(zāi)難導(dǎo)致數(shù)據(jù)全部丟失時(shí)才會使用的數(shù)據(jù)恢復(fù)手段,在實(shí)際系統(tǒng)操作時(shí)很少使用。②個(gè)別數(shù)據(jù)進(jìn)行恢復(fù):在實(shí)際生產(chǎn)環(huán)境中,個(gè)別數(shù)據(jù)恢復(fù)的概率會比較高,相比全數(shù)據(jù)恢復(fù)而言,個(gè)別數(shù)據(jù)恢復(fù)的操作也比較簡單。
2.3 數(shù)據(jù)庫容災(zāi)建設(shè)方案
集中數(shù)據(jù)中心建設(shè)除了要滿足支撐系統(tǒng)的數(shù)據(jù)備份外,考慮生產(chǎn)系統(tǒng)不能停機(jī),在發(fā)生故障時(shí)要能快速切換系統(tǒng),恢復(fù)業(yè)務(wù),這就要求必須具備主生產(chǎn)數(shù)據(jù)庫的實(shí)時(shí)備份容災(zāi)功能。
(1)數(shù)據(jù)庫復(fù)制系統(tǒng)拓?fù)洌唬?)數(shù)據(jù)庫復(fù)制實(shí)現(xiàn)功能;(3)快速應(yīng)用接管。數(shù)據(jù)中心任何計(jì)算機(jī)系統(tǒng)硬件、軟件、應(yīng)用故障不影響整個(gè)中心的處理工作;發(fā)生故障時(shí),有備份數(shù)據(jù)中心能夠立即接管關(guān)鍵應(yīng)用,繼續(xù)運(yùn)行;主數(shù)據(jù)中心恢復(fù)后,應(yīng)用、數(shù)據(jù)可以迅速切換回主中心運(yùn)行。(4)強(qiáng)大的數(shù)據(jù)恢復(fù)能力。通過快速、精確的數(shù)據(jù)復(fù)制功能,能夠?qū)崟r(shí)維護(hù)生產(chǎn)數(shù)據(jù)庫的遠(yuǎn)程拷貝,在災(zāi)難發(fā)生時(shí)只有很少或沒有數(shù)據(jù)丟失,極大程度地保證了數(shù)據(jù)的有效性。(5)消除計(jì)劃內(nèi)停機(jī)時(shí)間。由于在主中心和災(zāi)備中心采用了數(shù)據(jù)庫復(fù)制方案,企業(yè)可幾乎完全消除系統(tǒng)的計(jì)劃內(nèi)停機(jī)時(shí)間,而不用考慮在此期間進(jìn)行何種維護(hù)工作,如操作系統(tǒng)升級、數(shù)據(jù)庫升級等。(6)在線數(shù)據(jù)可訪問。由于數(shù)據(jù)庫復(fù)制軟件獨(dú)特的實(shí)現(xiàn)機(jī)制,容災(zāi)系統(tǒng)的數(shù)據(jù)可訪問。容災(zāi)數(shù)據(jù)庫的在線使用能夠提高容災(zāi)系統(tǒng)的投資回報(bào),增加容災(zāi)系統(tǒng)的利用價(jià)值。
三、實(shí)施成果
安徽聯(lián)通的集中數(shù)據(jù)中心建設(shè)項(xiàng)目,有效實(shí)現(xiàn)了由原先以各自的單獨(dú)系統(tǒng)建設(shè)方式向統(tǒng)一集中數(shù)據(jù)中心建設(shè)方式轉(zhuǎn)變,緊跟技術(shù)發(fā)展潮流,改變傳統(tǒng)觀念,跨出了創(chuàng)新的步伐。
四、展望
隨著虛擬化技術(shù)和云計(jì)算的逐步推廣應(yīng)用及日益增長的TB級海量存儲的需求決定了在不久的將來,云存儲將部分取代傳統(tǒng)存儲成為主流存儲架構(gòu),新技術(shù)的不斷發(fā)展必將推動數(shù)據(jù)中心的迅速發(fā)展。安徽聯(lián)通的數(shù)據(jù)中心也將分階段實(shí)施,滿足公司業(yè)務(wù)發(fā)展的數(shù)據(jù)快速增長需要。
本次集中數(shù)據(jù)容災(zāi)中心平臺建設(shè)為后期整個(gè)支撐系統(tǒng)進(jìn)行集中數(shù)據(jù)備份及異地災(zāi)備建打下良好的基礎(chǔ),可通過新的存儲備份技術(shù)的引進(jìn),提高運(yùn)維水平,同時(shí)進(jìn)一步細(xì)化備份恢復(fù)作業(yè)流程,引入周期性驗(yàn)證體系,實(shí)現(xiàn)全新的數(shù)據(jù)中心管理模式。
參 考 文 獻(xiàn)
[1] 王改性,師鳴若. 數(shù)據(jù)存儲備份與災(zāi)難恢復(fù)[M]. 電子工業(yè)出版社
[2] 王淑江. 網(wǎng)絡(luò)存儲·數(shù)據(jù)備份與還原[M]. 電子工業(yè)出版社
[3] 《虛擬化與云計(jì)算》小組. 虛擬化與云計(jì)算[M]. 電子工業(yè)出版社