陳國華,李曉林,嚴(yán) 峻,廖劍雄,仇紅燕
(塔里木油田公司信息與通訊技術(shù)中心,庫爾勒 841000)
虛擬化技術(shù)的推廣應(yīng)用對油田IT環(huán)境進(jìn)行資源整合利用,與油田自主開發(fā)監(jiān)控系統(tǒng)、運(yùn)維系統(tǒng)有效結(jié)合,建成了具有油田特色的虛擬化平臺架構(gòu)。
塔里木油田服務(wù)器虛擬化平臺自投建至今,歷經(jīng)兩次擴(kuò)建和平臺的拓展融合。已建成以30臺PC 服務(wù)器、3套存儲及配套網(wǎng)絡(luò)設(shè)備為基礎(chǔ),以虛擬化平臺為核心,融合備份管理平臺、容災(zāi)平臺、運(yùn)維監(jiān)控平臺的具有油田特色的虛擬化平臺架構(gòu)。目前,油田自建的應(yīng)用系統(tǒng)95%以上是在虛擬化平臺運(yùn)行,實(shí)現(xiàn)了服務(wù)器虛擬化在油田的全面應(yīng)用。
油田虛擬化應(yīng)用歷經(jīng)了三個(gè)階段:第一階段初步應(yīng)用,通過VMware軟件對現(xiàn)有的服務(wù)器、應(yīng)用進(jìn)行優(yōu)化整合,完成油田中心機(jī)房服務(wù)器虛擬化環(huán)境的搭建。第二階段擴(kuò)容建設(shè),采用雙站點(diǎn)并行思路,滿足將應(yīng)用按等級、用途、功能分類管理的需求。第三階段架構(gòu)優(yōu)化、系統(tǒng)融合,新建站點(diǎn)一個(gè),并對站點(diǎn)的功能用途進(jìn)行優(yōu)化調(diào)整,同時(shí)融合了SRM容災(zāi)備份系統(tǒng)、統(tǒng)一監(jiān)控系統(tǒng)和NBU備份系統(tǒng)。
經(jīng)過對國內(nèi)外企業(yè)虛擬化案例的分析和研究,結(jié)合油田實(shí)際IT環(huán)境,設(shè)計(jì)了符合油田需求的虛擬化架構(gòu)。服務(wù)器、存儲、IP網(wǎng)絡(luò)、SAN網(wǎng)絡(luò)均使用冗余配置。管理層通過融合了NBU備份、vCops監(jiān)控、SRM容災(zāi)等系統(tǒng),建立具有塔里木油田特點(diǎn)的虛擬化管理平臺(圖1)。在應(yīng)用層面,通過對業(yè)務(wù)應(yīng)用系統(tǒng)的功能、資源、性能等需求分析,劃分并分配到不同站點(diǎn)的資源池中,以保障資源最大有效合理利用。在物理層面,以30臺PC服務(wù)器、3套存儲以及相關(guān)配套的網(wǎng)絡(luò)設(shè)備構(gòu)建了3個(gè)不同功能的站點(diǎn)為業(yè)務(wù)系統(tǒng)提供資源保障,其中,A站點(diǎn)用于開發(fā)和測試環(huán)境,B、C站點(diǎn)用于生產(chǎn)環(huán)境,并在B、C站點(diǎn)間建立了站點(diǎn)級別SRM容災(zāi)機(jī)制。
圖1 油田虛擬化架構(gòu)設(shè)計(jì)
油田在虛擬化技術(shù)實(shí)踐過程中做了以下工作:
在業(yè)務(wù)層面,運(yùn)用“vMotion在線遷移”、“HA高可用”、“DRS資源動態(tài)均衡”等技術(shù)手段保障應(yīng)用高可用,利用SRM 技術(shù),實(shí)現(xiàn)站點(diǎn)級的容災(zāi)保護(hù)(圖2)。
圖2 SRM容災(zāi)系統(tǒng)
在數(shù)據(jù)層面,結(jié)合NBU和TSM備份系統(tǒng)特性對核心數(shù)據(jù)進(jìn)行備份保護(hù),并利用研究院專用機(jī)房資源構(gòu)建了數(shù)據(jù)互備保護(hù)機(jī)制,實(shí)現(xiàn)了油田核心數(shù)據(jù)多副本存放,提高了數(shù)據(jù)資產(chǎn)的安全性(圖3)。
圖3 NBU TSM數(shù)據(jù)備份系統(tǒng)
為保障網(wǎng)絡(luò)安全性、穩(wěn)定性和高可用性,在網(wǎng)絡(luò)設(shè)計(jì)規(guī)劃部署時(shí),建立了4套功能不同的網(wǎng)絡(luò)用于管理、業(yè)務(wù)、容災(zāi)和心跳專用數(shù)據(jù)通道,部署分布式虛擬交換機(jī),端口組啟用“基于IP哈希路由”負(fù)載均衡,確保網(wǎng)絡(luò)端口負(fù)載均衡和鏈路冗余需要。NBU備份采用Lan-Free模式,由傳統(tǒng)的LAN網(wǎng)絡(luò)備份方式轉(zhuǎn)變?yōu)镾AN網(wǎng)絡(luò)數(shù)據(jù)傳輸,備份速度大幅提高且不會對LAN網(wǎng)絡(luò)帶寬造成爭用。各業(yè)務(wù)網(wǎng)絡(luò)物理隔離保障了網(wǎng)絡(luò)的穩(wěn)定性,解決了網(wǎng)絡(luò)帶寬爭用的問題,增強(qiáng)了虛擬化環(huán)境網(wǎng)絡(luò)的可用性和穩(wěn)定性,對業(yè)務(wù)系統(tǒng)的正常運(yùn)行提供了平穩(wěn)、安全的網(wǎng)絡(luò)基礎(chǔ)環(huán)境,提升了各業(yè)務(wù)系統(tǒng)的用戶體驗(yàn)。
為應(yīng)對虛擬環(huán)境安全風(fēng)險(xiǎn),除啟用虛擬化平臺系統(tǒng)自帶的安全防控措施以及系統(tǒng)層面常規(guī)措施的基礎(chǔ)上,在虛擬化環(huán)境安全防控上進(jìn)行了下列措施加以保障:一是訪問控制,通過部署堡壘機(jī)對虛擬機(jī)、主機(jī)系統(tǒng)、管理系統(tǒng)等的訪問加以控制,授權(quán)訪問才能使用。二是定制化部署,建立的十余套系統(tǒng)模板均完成了各項(xiàng)安全配置,堵塞了系統(tǒng)漏洞,提高了各業(yè)務(wù)系統(tǒng)的安全性和高可用性。三是安全準(zhǔn)入,在虛擬機(jī)上線前,部署安全準(zhǔn)入客戶端,對系統(tǒng)、配置、安全基線等檢測,符合要求后方可開通網(wǎng)絡(luò)接入權(quán)限。四是補(bǔ)丁防護(hù),定期推送操作系統(tǒng)、殺毒軟件、防火墻補(bǔ)丁至客戶端,有效消除了操作系統(tǒng)級別安全漏洞。
在虛擬化技術(shù)應(yīng)用過程中結(jié)合油田引進(jìn)大數(shù)據(jù)分析系統(tǒng)(Splunk)實(shí)現(xiàn)對關(guān)鍵業(yè)務(wù)系統(tǒng)日志信息的自動收集、整理和分析,發(fā)現(xiàn)隱藏的趨勢和反常現(xiàn)象,顯著減少故障檢修、系統(tǒng)停機(jī)、事件調(diào)查時(shí)間,提升IT服務(wù)水平,提高風(fēng)險(xiǎn)管理能力。
為解決多管理平臺對資源及運(yùn)維人員配置的浪費(fèi),通過開發(fā)數(shù)據(jù)接口抽取vCops虛擬化監(jiān)控系統(tǒng)、Vantage監(jiān)控系統(tǒng)等運(yùn)行及報(bào)警信息,集成到中心機(jī)房統(tǒng)一監(jiān)控平臺,實(shí)時(shí)同步展示在監(jiān)控中心大屏上,并通過短信平臺將告警信息實(shí)時(shí)發(fā)送到運(yùn)維管理人員手機(jī)上,機(jī)房值班管理人員7*24小時(shí)不間斷的監(jiān)控,并對問題進(jìn)行跟蹤督辦實(shí)現(xiàn)問題故障的閉環(huán)管理,保證了平臺安全穩(wěn)定運(yùn)行。
(1)實(shí)現(xiàn)了虛擬化平臺系統(tǒng)高可用性,為應(yīng)用系統(tǒng)提供可高可靠服務(wù)器應(yīng)用環(huán)境,消除單點(diǎn)故障隱患,減少宕機(jī)事件,達(dá)到了站點(diǎn)級容災(zāi)保護(hù),保障了應(yīng)用服務(wù)連續(xù)性。通過采用DRS、VCops、VMotion、DVSwitch和HA等虛擬化技術(shù),實(shí)現(xiàn)了軟硬件資源的集中監(jiān)控、統(tǒng)一管理、自動均衡、自動遷移、快速恢復(fù)和動態(tài)擴(kuò)展,減少了業(yè)務(wù)系統(tǒng)停機(jī)時(shí)間,提高了工作效率,節(jié)約了管理和維護(hù)成本。
(2)應(yīng)用P2V技術(shù)在機(jī)房整合過程中完成了應(yīng)用由物理環(huán)境向虛擬環(huán)境的遷移,延長了遺留應(yīng)用的生命周期,同時(shí)服務(wù)器資源利用率也得到了大幅提高,硬件利用率由虛擬化整合前的不到10%提升到60%以上。
(3)由NBU備份系統(tǒng)、SRM容災(zāi)系統(tǒng)組成靈活的系統(tǒng)和數(shù)據(jù)保護(hù)體系,結(jié)合功能獨(dú)立的網(wǎng)絡(luò)設(shè)計(jì),提供了簡單實(shí)用的容災(zāi)恢復(fù)解決方案。
(4)內(nèi)置安全基線配置、網(wǎng)絡(luò)準(zhǔn)入防控、強(qiáng)制安全客戶端部署等基礎(chǔ)安全,定制模板統(tǒng)一部署、業(yè)務(wù)專網(wǎng)物理隔離部署,結(jié)合授權(quán)訪問操作、行為審計(jì)等措施保障系統(tǒng)安全,在2017年“5.12”勒索病毒全面爆發(fā)時(shí),平臺運(yùn)行平穩(wěn),保障了油田信息系統(tǒng)和數(shù)據(jù)的安全。
(5)結(jié)合自主研發(fā)的統(tǒng)一監(jiān)控平臺、大數(shù)據(jù)分析系統(tǒng)優(yōu)化系統(tǒng)架構(gòu),實(shí)現(xiàn)故障主動預(yù)警、報(bào)警信息自動推送并與中心值守聯(lián)動達(dá)到7*24小時(shí)不間斷監(jiān)控、問題跟蹤督辦閉環(huán)管理。
虛擬化技術(shù)應(yīng)用給油田帶來了顯著的經(jīng)濟(jì)效益。虛擬化平臺使用30臺物理服務(wù)器承載虛擬機(jī)400余臺,較傳統(tǒng)模式單臺物理服務(wù)器平均部署2 個(gè)應(yīng)用核算,至少節(jié)約服務(wù)器170臺,按物理服務(wù)器15萬元/臺測算,僅服務(wù)器直接節(jié)約資金投入2550 萬元。同時(shí),物理服務(wù)器減少,機(jī)房能耗也得到了有效控制,以每臺服務(wù)器平均650W計(jì)算年節(jié)約電費(fèi)和空調(diào)制冷費(fèi)用近120萬元。另外,服務(wù)器數(shù)量的減少使機(jī)房稀缺的機(jī)柜空間資源得以釋放和節(jié)約,延長了機(jī)房使用壽命。
塔里木油田在實(shí)施服務(wù)器虛擬化過程中,通過選用合理可靠的技術(shù)和系統(tǒng)架構(gòu),滿足了當(dāng)前油田信息化的發(fā)展需要,減少維護(hù)服務(wù)器時(shí)間與成本,降低了運(yùn)維難度,提高了工作效率。在推廣服務(wù)器虛擬化技術(shù)過程中,針對系統(tǒng)的高可用、業(yè)務(wù)的持續(xù)性,數(shù)據(jù)的安全等需求,通過優(yōu)化網(wǎng)絡(luò)架構(gòu)、構(gòu)建數(shù)據(jù)互備系統(tǒng)、融合統(tǒng)一運(yùn)維監(jiān)控平臺等舉措,對資源進(jìn)行優(yōu)化動態(tài)配置,實(shí)現(xiàn)資源效益的最大化。