郭嬋娟
“云上揚州”是智慧揚州發(fā)展的新階段,也是國家“新型智慧城市”理念在揚州的落地。揚州市政府云計算中心作為全市電子政務(wù)的基礎(chǔ)設(shè)施管理中心和數(shù)據(jù)資源中心,承擔(dān)著全市電子政務(wù)的信息基礎(chǔ)設(shè)施整合,將在現(xiàn)有基礎(chǔ)上打造“云上揚州”云基礎(chǔ)設(shè)施環(huán)境,實施大平臺建設(shè),推進(jìn)大數(shù)據(jù)應(yīng)用。“云上揚州”建設(shè)對數(shù)據(jù)資源計算存儲能力、交互處理能力、容災(zāi)備份能力以及安全保障能力提出了更高的要求,現(xiàn)有服務(wù)能力難以快速處理海量復(fù)雜的數(shù)據(jù)、無法保障業(yè)務(wù)的連續(xù)性和穩(wěn)定安全的運行,亟需提升現(xiàn)有數(shù)據(jù)中心的數(shù)據(jù)處理能力并統(tǒng)籌規(guī)劃建設(shè)全市統(tǒng)一的災(zāi)備中心。本次項目以“云上揚州”建設(shè)為契機,在市政府云計算中心基礎(chǔ)上統(tǒng)籌規(guī)劃“兩地四中心”容災(zāi)建設(shè)。
揚州市政府云計算中心于2011年啟動建設(shè),通過從基礎(chǔ)設(shè)施、數(shù)據(jù)資源和應(yīng)用平臺三個方面對全市的信息資源進(jìn)行整合,有效解決信息孤島問題,從而實現(xiàn)全市信息化項目的集約投資、信息共享和業(yè)務(wù)協(xié)同,截至目前,整合了全市81家市直單位、4個功能區(qū)和邗江區(qū)機房,已承載超過550臺虛機,支撐了全市115個政務(wù)網(wǎng)站,139個業(yè)務(wù)信息系統(tǒng)的運行。目前部署了5臺核心存儲,合計承載421T各類生產(chǎn)數(shù)據(jù)。同時建立了300TB備份容量的一體化備份平臺,采用各類備份策略將不同類型的數(shù)據(jù)進(jìn)行統(tǒng)一備份、分類歸檔,保障了整個數(shù)據(jù)資源中心的數(shù)據(jù)安全,部分核心數(shù)據(jù)實現(xiàn)了同城異地備份。
隨著云計算、大數(shù)據(jù)技術(shù)的飛速發(fā)展,各類信息系統(tǒng)數(shù)量的不斷增加,當(dāng)前云計算中心的系統(tǒng)支撐能力已逐漸無法滿足大平臺融合通用、大數(shù)據(jù)開放利用的需求,主要體現(xiàn)下如下幾個方面:
基礎(chǔ)環(huán)境運行年限長,部分設(shè)備老化,故障率高。市政府云計算中心機房已使用七年,設(shè)備數(shù)量逐年遞增,對機房內(nèi)環(huán)境壓力逐漸增大,空調(diào)、環(huán)境監(jiān)控等經(jīng)常出現(xiàn)告警,無法保障機房內(nèi)各類設(shè)備全天候恒溫恒濕穩(wěn)定運行。
網(wǎng)絡(luò)架構(gòu)存在性能瓶頸,無法精細(xì)化管理。市政府云計算中心采用傳統(tǒng)三層架構(gòu)組網(wǎng)建設(shè)電子政務(wù)網(wǎng),已持續(xù)運行七年,隨著業(yè)務(wù)數(shù)量、服務(wù)器規(guī)模、接入用戶數(shù)的增長,已出現(xiàn)網(wǎng)絡(luò)性能瓶頸,同時區(qū)域劃分較多,無法精準(zhǔn)掌握網(wǎng)內(nèi)業(yè)務(wù)關(guān)聯(lián)情況,管理難度大。
存儲備份平臺架構(gòu)單一,未實現(xiàn)異地容災(zāi),存在數(shù)據(jù)安全隱患。市政府云計算中心現(xiàn)有存儲平臺采用全FC方式進(jìn)行部署,隨著非結(jié)構(gòu)化數(shù)據(jù)的不斷增長,現(xiàn)有FC存儲架構(gòu)存在非結(jié)構(gòu)化數(shù)據(jù)交互的性能瓶頸,云計算中心已實現(xiàn)本地備份和部分?jǐn)?shù)據(jù)異地備份,尚未實現(xiàn)數(shù)據(jù)容災(zāi),無法保障業(yè)務(wù)的連續(xù)性,存在數(shù)據(jù)丟失風(fēng)險。
現(xiàn)有備份環(huán)境備份和恢復(fù)效率不高。僅部署了一套備份系統(tǒng)對現(xiàn)有業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫、文件目錄、虛擬機文件、應(yīng)用程序等進(jìn)行統(tǒng)一集中備份,隨著業(yè)務(wù)系統(tǒng)越來越多,數(shù)據(jù)量也越來越大,一旦出現(xiàn)存儲故障,只能提供已備份的數(shù)據(jù)和文件;如果要恢復(fù)系統(tǒng)運行,必須重新部署系統(tǒng)環(huán)境,需要花費大量的人力物力和較長的時間進(jìn)行恢復(fù)工作。
充分運用云計算、大數(shù)據(jù)等先進(jìn)理念和技術(shù),按照“集約高效、共享開放、安全可靠、按需服務(wù)”的原則,以“統(tǒng)籌建云”為構(gòu)架,依照國家第六級容災(zāi)的建設(shè)標(biāo)準(zhǔn),依托市政府云計算中心和企業(yè)云計算中心,完成“兩地四中心”建設(shè),即建設(shè)主中心、本地雙活中心、同城備份中心以及異地災(zāi)備中心,其中主中心與本地雙活中心兩個中心組成雙活架構(gòu),揚州本地運營商機房作為同城備份中心,江蘇省統(tǒng)一建設(shè)的鹽城災(zāi)備機房作為異地災(zāi)備中心,最終完成核心業(yè)務(wù)系統(tǒng)實現(xiàn)雙活級容災(zāi),重要業(yè)務(wù)主備級容災(zāi),一般業(yè)務(wù)數(shù)據(jù)級容災(zāi)。
(一)網(wǎng)絡(luò)容災(zāi)設(shè)計
主中心和同城雙活中心采用OTN光纖線路將兩個數(shù)據(jù)中心的管理網(wǎng)、業(yè)務(wù)網(wǎng)等互聯(lián),實現(xiàn)網(wǎng)絡(luò)層的雙活容災(zāi)。在管理網(wǎng)中,為保證兩個數(shù)據(jù)中心統(tǒng)一管理,統(tǒng)一運維,本次通過10G光纜將兩個數(shù)據(jù)中心的管理網(wǎng)互聯(lián),形成一張網(wǎng),所有的管理IP均是統(tǒng)一分配,不存在主中心和雙活中心的區(qū)別,通過統(tǒng)一的管理網(wǎng),運維人員可以在主中心實時監(jiān)控兩個中心的運行狀況,也為業(yè)務(wù)網(wǎng)絡(luò)提供了可靠的管理監(jiān)控體系。業(yè)務(wù)網(wǎng)采用了SDN+Vxlan的技術(shù),本次通過40G光纜將兩個數(shù)據(jù)中心的的業(yè)務(wù)網(wǎng)互聯(lián),網(wǎng)絡(luò)層采用的是傳統(tǒng)二層架構(gòu),實現(xiàn)分布式網(wǎng)關(guān),當(dāng)業(yè)務(wù)主機實現(xiàn)夸中心遷移時,不需要更換網(wǎng)絡(luò)地址,真真意義上實現(xiàn),網(wǎng)絡(luò)層的位址分離,策略跟隨。各接入市直單位鏈路通過運營商匯聚后分別與主中心和雙活中心互聯(lián),同時采用浮動路由的策略,探測兩個數(shù)據(jù)中心網(wǎng)絡(luò)狀態(tài)。同城備份中心因為對時延要求較低,則可直接通過IP網(wǎng)絡(luò)進(jìn)行異步數(shù)據(jù)復(fù)制。
(二)云容災(zāi)設(shè)計
核心類業(yè)務(wù)利用負(fù)載均衡和應(yīng)用容災(zāi)的技術(shù),云主機在主中心和雙活中心各部署一套,應(yīng)用容災(zāi)軟件負(fù)責(zé)兩個中心云主機數(shù)據(jù)的一致性,配合全局負(fù)載均衡,對該兩邊的業(yè)務(wù)進(jìn)行負(fù)載分擔(dān)和實時監(jiān)測,在發(fā)生災(zāi)難事故時根據(jù)相應(yīng)策略實現(xiàn)故障切換,保障業(yè)務(wù)連續(xù)性。重要業(yè)務(wù)采用虛擬化平臺的SRM技術(shù)和底層存儲通過自有的同步復(fù)制技術(shù),實現(xiàn)數(shù)據(jù)的實時一致,SRM同步虛擬化平臺的信息,同時關(guān)聯(lián)存儲的復(fù)制信息,從而實現(xiàn)平臺跨站點容災(zāi)備份。SRM的容災(zāi)業(yè)務(wù)是通過在虛擬化管理平臺上創(chuàng)建虛擬機保護(hù)組,虛擬機的數(shù)據(jù)通過存儲的復(fù)制功能,在遠(yuǎn)端存儲上保有一份虛擬機的數(shù)據(jù),并通過制定恢復(fù)計劃來保證受保護(hù)虛擬機在特定的恢復(fù)流程指導(dǎo)下完成在遠(yuǎn)端站點的業(yè)務(wù)恢復(fù)。
(三)數(shù)據(jù)庫容災(zāi)設(shè)計
1、Oracle 數(shù)據(jù)庫容災(zāi)設(shè)計
Oracle數(shù)據(jù)庫容災(zāi)采用RAC和ADG兩種技術(shù)的應(yīng)用。在主中心,由數(shù)據(jù)庫一體機內(nèi)的多個的計算節(jié)點服務(wù)器構(gòu)建RAC實時應(yīng)用集群。當(dāng)一體機中的某個計算節(jié)點硬件故障或數(shù)據(jù)庫不可用時,可在其余節(jié)點上繼續(xù)運行,從而確保一體機能夠?qū)ν馓峁┮粋€穩(wěn)定可靠的數(shù)據(jù)庫服務(wù)。在主中心與雙活中心間,則采用Active Data Guard(ADG)來實現(xiàn)Oracle數(shù)據(jù)庫的容災(zāi)。應(yīng)用在主中心部署主數(shù)據(jù)庫,在雙活中心部署以及一個或多個備用數(shù)據(jù)庫,備用數(shù)據(jù)庫是與主數(shù)據(jù)庫在事務(wù)上一致的副本,利用ADG 技術(shù)通過備用數(shù)據(jù)庫對主數(shù)據(jù)庫文件的不斷復(fù)制,不斷應(yīng)用主數(shù)據(jù)庫傳輸過來的redo重做日志來保持和主數(shù)據(jù)庫的一致性。
2、SQL Server、MySQL等數(shù)據(jù)庫容災(zāi)設(shè)計
SQL Server、MySQL等數(shù)據(jù)庫直接在由云管平臺分配虛擬機部署,當(dāng)數(shù)據(jù)庫發(fā)生故障時,整個數(shù)據(jù)庫隨虛擬機進(jìn)行云平臺內(nèi)遷移,即在操作系統(tǒng)層面確保此類數(shù)據(jù)庫的高可靠性。
(四)備份系統(tǒng)設(shè)計
采用災(zāi)備云方式,分別在主中心、運營商同城異地備份中心和江蘇省災(zāi)備中心鹽城災(zāi)備中心部署備份集群,可按需無限擴(kuò)展備份節(jié)點數(shù)量,滿足不斷增長的業(yè)務(wù)數(shù)據(jù)備份需求。主中心備份系統(tǒng)實現(xiàn)對大數(shù)據(jù)中心內(nèi)所有平臺及租戶數(shù)據(jù)的保護(hù),通過重復(fù)數(shù)據(jù)刪除、LAN-FREE等技術(shù),搭建高效備份云。對于Windows及Linux文件系統(tǒng)備份,安裝客戶端選擇文件進(jìn)行備份。對于虛擬化平臺采用無代理備份,通過調(diào)用VADP,配合重復(fù)數(shù)據(jù)刪除、CBT(數(shù)據(jù)塊變化追蹤)、LAN-FREE備份、NBD備份等技術(shù),實現(xiàn)海量虛機的高效備份及細(xì)粒度恢復(fù),同時將備份的數(shù)據(jù)進(jìn)行本地歸檔,歸檔至物理磁帶庫。運營商同城異地備份中心實現(xiàn)對對大數(shù)據(jù)中心所有業(yè)務(wù)數(shù)據(jù)的異地備份,江蘇省災(zāi)備中心鹽城災(zāi)備中心備份資源實現(xiàn)對核心業(yè)務(wù)數(shù)據(jù)的異地保護(hù),保證所有業(yè)務(wù)數(shù)據(jù)的完整性。
建成同城異地雙活政務(wù)網(wǎng),提升了網(wǎng)絡(luò)承載能力,政府辦公更加高效。主中心與雙活中心之間以100G波分通道互聯(lián),骨干網(wǎng)速率達(dá)到40Gbps,互聯(lián)網(wǎng)出口帶寬8Gb,網(wǎng)絡(luò)核心層通過大二層技術(shù)實現(xiàn)存儲層雙活、數(shù)據(jù)庫層雙活、網(wǎng)絡(luò)層雙活、應(yīng)用層雙活,接入層實現(xiàn)了雙運營商雙網(wǎng)運行,自上而下任一節(jié)點出現(xiàn)網(wǎng)絡(luò)故障時,雙活數(shù)據(jù)中心能夠快速接管業(yè)務(wù),實現(xiàn)用戶訪問的無感知切換,為政府部門辦公和業(yè)務(wù)訪問提供了可靠的保證。
建成同城異地雙活政務(wù)云,提高了上云業(yè)務(wù)的可用性,政務(wù)服務(wù)更加可靠。將區(qū)域衛(wèi)生、政務(wù)服務(wù)一張網(wǎng)等民生類核心業(yè)務(wù)分別部署在兩個中心,依托大二層網(wǎng)絡(luò)、雙活存儲、全局負(fù)載等技術(shù)最終實現(xiàn)應(yīng)用級雙活,當(dāng)一個站點發(fā)生故障時,另外一個站點可實時接管所有業(yè)務(wù)。同時采用一體機的形式來提供數(shù)據(jù)庫服務(wù),一方面保證數(shù)據(jù)庫的高可靠性,另一方面提升數(shù)據(jù)庫的處理效率,從而帶動業(yè)務(wù)處理效率的提升,最終使運行在政務(wù)云上的業(yè)務(wù)更高效、更穩(wěn)定、更可靠,全天候為社會公眾辦事、看病就醫(yī)等服務(wù)做好保障。
構(gòu)建了完善的容災(zāi)備份架構(gòu),提高了云上業(yè)務(wù)數(shù)據(jù)的安全性,政務(wù)數(shù)據(jù)更有保障。通過云平臺無代理備份、異構(gòu)云平臺恢復(fù)、租戶數(shù)據(jù)自行備份、CDP、CDM、重復(fù)數(shù)據(jù)刪除、LAN-FREE等技術(shù)搭建備份云平臺,對云上所有應(yīng)用和平臺的數(shù)據(jù)進(jìn)行備份,利用不同存儲介質(zhì)將核心數(shù)據(jù)進(jìn)行全生命周期歸檔保存,并通過災(zāi)備智能分析運維系統(tǒng),實現(xiàn)對備份節(jié)點日志接收采集、備份日志數(shù)據(jù)解析處理、備份策略的優(yōu)化改善等功能。通過獲取來的各備份任務(wù)的詳細(xì)日志信息,可對歷次備份日志進(jìn)行合并、分析并做圖形化展示。同時同城異地備份中心和江蘇省災(zāi)備中心鹽城災(zāi)備機房備份資源對大數(shù)據(jù)中心所有備份數(shù)據(jù)的再次異地保護(hù),確保在主中心發(fā)生備份系統(tǒng)異常甚至是整體機房災(zāi)難的時候,數(shù)據(jù)在同城的異地備份中心仍有一份,便于盡快恢復(fù)業(yè)務(wù)系統(tǒng),政務(wù)數(shù)據(jù)的保護(hù)級別和抵抗各種可能安全因素的容災(zāi)能力得到極大改善。
(四)建立了災(zāi)備管理體系,提高了應(yīng)急事件處理能力,政務(wù)云運維更加規(guī)范?;诂F(xiàn)有ITSS運維服務(wù)體系,增補了災(zāi)備服務(wù)的內(nèi)容。一方面加強了災(zāi)備系統(tǒng)的運維管理,擴(kuò)充了有關(guān)災(zāi)備運維管理的知識庫,制定了基于災(zāi)備運維評價體系;另一方面利用云管理平臺從技術(shù)層面對災(zāi)備系統(tǒng)進(jìn)行實時化、可視化的監(jiān)管;最后中心通過內(nèi)訓(xùn)和外訓(xùn)等方式提升了現(xiàn)有運維人員對新建災(zāi)備系統(tǒng)的理解,為運維團(tuán)隊提供技術(shù)支撐。最終,中心通過完善機制、精細(xì)服務(wù)、技術(shù)培訓(xùn)等方式,為災(zāi)備系統(tǒng)打造了一只高素質(zhì)運維團(tuán)隊,維持一貫的高效率運維服務(wù)。
此次項目建設(shè)完成后,市政府云計算中心將定期開展數(shù)據(jù)中心災(zāi)備與恢復(fù)的模擬測試演練。
一是對核心業(yè)務(wù)的雙活測試。在主中心和雙活中心部署核心類業(yè)務(wù)的模擬測試應(yīng)用,在事先制定應(yīng)急策略前提下,通過對指定設(shè)備斷電、中斷網(wǎng)絡(luò)等手段,測試在“任一中心內(nèi)突遇重大災(zāi)害,網(wǎng)絡(luò)、服務(wù)器、存儲等硬件某一設(shè)備或全部設(shè)備出現(xiàn)故障”的情況下,核心業(yè)務(wù)系統(tǒng)能夠自動切換至正常工作的雙活數(shù)據(jù)中心,而前端訪問無感知。
二是對重要業(yè)務(wù)的容災(zāi)測試。在主中心部署重要業(yè)務(wù)的模擬測試應(yīng)用,在事先制定應(yīng)急策略前提下,通過對指定設(shè)備斷電、中斷網(wǎng)絡(luò)等手段,測試在“主中心突遇重大災(zāi)害,網(wǎng)絡(luò)、服務(wù)器、存儲等硬件某一設(shè)備或全部設(shè)備出現(xiàn)故障”的情況下,重要業(yè)務(wù)應(yīng)用首先能夠在主中心云平臺內(nèi)自動漂移拉起,其次能在人為干預(yù)下在預(yù)定的時間內(nèi)在雙活中心重啟并提供服務(wù),數(shù)據(jù)無丟失,前端訪問中斷時間較短。
三是對一般業(yè)務(wù)的數(shù)據(jù)備份測試。在測試環(huán)境內(nèi),定期對業(yè)務(wù)應(yīng)用執(zhí)行數(shù)據(jù)備份與恢復(fù)演練操作,記錄備份和恢復(fù)的成功率,以及備份數(shù)據(jù)是否丟失,并建立歸檔數(shù)據(jù)采樣恢復(fù)機制,確保歸檔的數(shù)據(jù)有效可用。
通過這些測試和演練,將進(jìn)一步提升市政府云計算中心的災(zāi)難恢復(fù)水平,為“云上揚州”各類業(yè)務(wù)應(yīng)用的高效運行提供有力保障。
作者單位:揚州市政府信息資源管理中心