張常亮 何星庭 謝銀海 田 娟
(1.四川省氣象探測數據中心,四川 成都 610072;2.高原與盆地旱澇災害四川省重點實驗室,四川 成都 610072)
隨著公共氣象服務、氣象預報預測、綜合氣象觀測等現代氣象業(yè)務的快速發(fā)展,傳統(tǒng)數據中心“煙囪式”架構存在資源利用率低、業(yè)務上線時間長、單點故障、維護困難和擴展性不足等問題,不能滿足氣象信息系統(tǒng)集約化發(fā)展要求。根據業(yè)務發(fā)展需要統(tǒng)一規(guī)劃、采購和部署基礎設施資源或能力,通過各種主流的虛擬化、分布式技術實現。
資源和能力的池化,為各類氣象業(yè)務按需分配使用池化后的IT基礎資源[1]。四川氣象按照統(tǒng)一技術標準設計開發(fā)氣象信息基礎設施云平臺,實現計算、存儲、網絡和安全資源的集約化管理和服務,完善系統(tǒng)資源服務和自動化運維管理能力,面向全省氣象業(yè)務構建統(tǒng)一基礎資源支撐環(huán)境,開展氣象業(yè)務系統(tǒng)集約化整合和業(yè)務融入云平臺工作,實現資源集約化管理、高效高可靠應用,減少了硬件資源的頻繁投入,業(yè)務系統(tǒng)部署的時間周期大大縮短,同時加強了業(yè)務系統(tǒng)的穩(wěn)定性和可靠性。
氣象行業(yè)進入云計算時代的兩大選擇是公有云和私有云,考慮到業(yè)務上的可靠性、安全性和可控性,在自有設施的基礎上建設氣象私有云能夠提供對數據、安全性和服務質量的最有效控制,實現資源的統(tǒng)一調度管理,建設一個通用性強、擴展性好、可用性高的云服務平臺。
在虛擬化數據中心建設中,四川氣象通過深入調研主流虛擬化技術,建設完成了一套基于VMware虛擬化解決方案的傳統(tǒng)架構資源池,如圖1所示。硬件基于物理服務器、FC-SAN存儲,虛擬化軟件選用VM-ware ESXi實現計算資源虛擬化。目前VMware虛擬化資源池部署虛擬機60臺,承載20個關鍵的氣象業(yè)務應用的集約化運行,有效降低IT硬件采購成本,提高了資源利用率和可用性。
服務器虛擬化初步實現了計算資源的虛擬化,構建了VMware虛擬化資源池,但是在實際業(yè)務應用中表現出很多不足,如存儲性能、穩(wěn)定性、可靠性、可擴展性和運維管理等。隨著云計算技術的發(fā)展,存儲虛擬化和網絡虛擬化技術被廣泛應用,超融合云架構的出現為構建軟件定義數據中心提供了技術基礎[2]。
軟件定義的氣象基礎設施云平臺實現了存儲、計算、網絡與專用硬件的分離,從而實現IT基礎架構的真正融合,如圖2所示。軟件定義數據中心讓數據中心的存儲設備、服務器和網絡等重要基礎設施減少了對基礎物理硬件的依賴,變得更靈活、更自動化。計算、存儲、網絡和安全等多種類資源虛擬化大規(guī)模建設應用為主要內容的大數據中心建設,能有效提高IT資源的利用率和交付速度,提升數據中心標準化、智能化和現代化水平。
氣象業(yè)務應用系統(tǒng)覆蓋氣象觀測、信息、預報、服務和政務,業(yè)務資源需求場景如下。
(1)通用業(yè)務:涵蓋絕大多數業(yè)務計算場景,如網站Web應用、觀測收集系統(tǒng)、數據處理和共享應用系統(tǒng)、預報預測、公共氣象服務和政務等。
(2)數據存儲:用于業(yè)務產品、文檔和其他文件類材料的長時間保存,如觀測資料、數值預報、衛(wèi)星圖片、雷達產品圖片、歸檔數據等。
(3)大數據計算和分布式數據環(huán)境:對計算能力、存儲容量及I/O需求較大,通過相應的分布式平臺來實現。
(4)特殊應用場景:少量業(yè)務系統(tǒng)需要在特定的硬件(如串口卡、高顯卡緩存)支持下運行。
為提供靈活應用和調配的計算和數據服務,滿足未來數據增長的容量存儲需求,云平臺建設既要考慮技術先進性,又要遵循穩(wěn)定、安全、可靠、可擴展的原則。在總體方案設計時,從業(yè)務、數據、鏈路等幾個方面來考慮穩(wěn)定性和可靠性。
(1)業(yè)務連續(xù)性:通過虛擬化本身的HA(high availability)等機制確保業(yè)務系統(tǒng)在分鐘級進行恢復,通過超融合網絡功能虛擬化組件添加負載均衡功能模塊,保障業(yè)務系統(tǒng)7×24小時不宕機。
(2)數據可靠性:通過多副本機制,把數據實時存儲到多臺物理服務器上,確保數據在基礎設施云平臺的穩(wěn)定。同時,利用基礎設施云平臺備份功能,根據業(yè)務系統(tǒng)的重要程度進行季度備份、月度備份、星期備份和快照備份,確保數據可靠。
(3)鏈路穩(wěn)定性:基礎設施云平臺4套網絡冗余部署,分別采用兩臺交換機承載,最大限度保證鏈路穩(wěn)定可靠。
氣象信息基礎設施云平臺基于主流虛擬化、云計算、分布式架構等融合技術構建,按照業(yè)界先進標準統(tǒng)籌建設、統(tǒng)一管理,用于為各類氣象應用系統(tǒng)提供集約化信息基礎設施支撐的計算、存儲、網絡、安全等IT基礎設施服務,實現氣象信息基礎設施資源的池化,所有資源以服務的形式面向氣象業(yè)務按需分配,云主機的自動化申請、分配和管理大力提升了氣象業(yè)務運維的智能化水平。
基礎設施云平臺總體架構包括基礎設施即服務(IaaS)、平臺即服務(PaaS)和軟件即服務(SaaS)3個層面[3],技術上以超融合云架構為核心,統(tǒng)一納管VMware虛擬化資源池、分布式存儲池和NetApp傳統(tǒng)存儲池,形成了“1云+3池”的統(tǒng)一資源支撐環(huán)境?;A設施云平臺總體框架如圖3所示,實現了虛擬和物理資源的統(tǒng)一管理和自動化服務,同時實現了集群級容災、云主機備份,保障氣象業(yè)務穩(wěn)定的運行。
IaaS層以超融合架構為核心構建新一代基礎設施資源池,納管VMware虛擬化資源池、分布式和傳統(tǒng)存儲池。PaaS層通過構建云管平臺提供云主機、虛擬存儲、虛擬網絡和安全等資源服務,支持業(yè)務運行監(jiān)控告警、容災備份等智能運維和自動化運營管理等功能。SaaS層將氣象觀測系統(tǒng)、信息系統(tǒng)、預報系統(tǒng)、防災系統(tǒng)等氣象應用封裝成特定的服務,供各種氣象業(yè)務調用。作為構建氣象信息基礎設施云平臺的核心技術,在超融合基礎架構(hyper-converged infrastructure)中,同一套單元設備(X86服務器)中具備計算、網絡、存儲和服務器虛擬化等資源和技術,多套單元設備通過網絡聚合起來[4]。實現模塊化的無縫橫向擴展(scaleout),形成統(tǒng)一的資源池,實現資源池化、服務化和按需交付,同時根據業(yè)務的不同類型選用合適的服務器配置,滿足各類業(yè)務系統(tǒng)的個性化要求,目前采用超融合架構構建數據中心已成為數據中心建設的主流選擇。
在氣象信息基礎設施云平臺中采用超融合云架構,研究計算、網絡、存儲以及安全虛擬化關鍵技術,同時實現加速緩存、重復數據刪除、軟件備份等功能,實現硬件、系統(tǒng)以及應用3個層次融合虛擬化,合理配置計算資源、存儲資源和網絡資源,對業(yè)務應用在超融合資源池上運行的性能、可靠性等方面進行研究測試,保障氣象業(yè)務在資源池的穩(wěn)定運行,提高硬件資源利用率、優(yōu)化運維管理、降低IT成本,提升氣象信息化水平。
超融合軟件主要具有計算虛擬化、存儲虛擬化、網絡虛擬化、安全虛擬化、容災備份、異構虛擬化等功能以及統(tǒng)一的云管理平臺。云管理平臺搭建在超融合平臺之上,承載多集群統(tǒng)一管理和運維。硬件設備部署物理服務器和萬(千)兆交換機,進行計算虛擬化后,形成統(tǒng)一的計算資源池。每一臺X86服務器作為一個節(jié)點,基于分布式的架構為核心,至少3臺服務器或者一體機就可以構建資源池,并且后續(xù)該資源池可以按需擴容。通過存儲虛擬化可以構建統(tǒng)一的存儲池,通過SSD分層和數據條帶化來提供高性能,并且采用副本和仲裁為數據提供高可用。通過網絡虛擬化來提供所畫即所得的網絡可編輯性,使網絡拓撲變得更加簡單便捷,基于網絡虛擬化構建虛擬機東西向流量的承載通道。通過各種容錯機制保證系統(tǒng)的可靠性和業(yè)務的穩(wěn)定性,采用模塊化、標準化的資源池,提供最好的靈活性來應對數據中心的各種需求[5]。
四川氣象目前采用29臺兩路DELL R740(2顆16核32線程Intel(R)Xeon(R)Gold 6130 CPU@2.10GHz/256G內存/3個480G SSD/SAS磁盤n個4個萬兆口/4個千兆口)實現基礎架構承載,配合6臺H3C萬兆交換機和3臺千兆交換機完成整個平臺物理架構的搭建,資源規(guī)模達到vCPU 1856核、內存7.25T,總存儲約1PB,承載500多個虛擬云主機的穩(wěn)定高效運行,平臺拓撲如圖4所示。
平臺除實現計算、存儲資源的虛擬化和管理外,還將網絡功能虛擬化進行整合,提供“所畫即所得”的拓撲架構,實時展現虛擬化設備運行情況,簡單通過連線的方式進行拓撲設備連接。同時,通過提供的網絡功能虛擬化(network functions virtualization,NFV)功能保障東西向流量安全、租戶與租戶安全、虛擬機與虛擬機安全等特性,統(tǒng)一納管VMware虛擬化平臺實現集中監(jiān)控、管理和資源的全局調度,通過虛擬機快照、數據備份與恢復、持續(xù)數據保護(continuous data protection,CDP)等功能保障氣象業(yè)務系統(tǒng)健康穩(wěn)定運行。
運用計算虛擬化技術將物理服務器的CPU、內存、磁盤、I/O等硬件資源抽象成邏輯資源,構建一個動態(tài)管理調度的“資源池”,提高基礎架構利用率和擴展性,基于虛擬計算資源池構建多個實時運行、互相隔離的虛擬機運行環(huán)境,實現資源在線擴展、應用熱遷移、HA、P2V、虛擬機快照、備份恢復等更加靈活的資源動態(tài)調度功能,讓數據中心運行具有更高的運行效率、更快的故障恢復時間、更低的建設和運營成本[6]。
虛擬化軟件層位于物理硬件和操作系統(tǒng)中間,采用主流Linux KVM(kernel-based virtual machine)技術。采用VMM(virtual machine monitor)對物理資源的虛擬可以劃分為3個部分:CPU虛擬化、內存虛擬化和I/O設備虛擬化。KVM采用硬件輔助虛擬化技術Intel-VT和AMD-V實現CPU虛擬化,采用內存硬件輔助虛擬化實現內存虛擬化,在IO虛擬化方方面針對不同的硬件設備使用了不同的IO模擬方式。
計算虛擬化中最主要的技術是CPU虛擬化,客戶操作系統(tǒng)與虛擬機監(jiān)視器VMM協(xié)同構建虛擬機系統(tǒng)的兩級CPU調度機制。虛擬機不會跟物理CPU直接發(fā)生關系,而是通過vCPU實現,vCPU運行記錄在虛擬機控制結構(virtual machine control structure,VMCS)。當vCPU運行時,從VMCS結構讀取運行狀態(tài)到物理CPU,vCPU單獨存在于物理CPU之中[7]。vCPU調度器完成物理CPU資源在各個虛擬機之間的動態(tài)調配,vCPU在一個或多個物理處理單元執(zhí)行調配。在計算虛擬化vCPU調度機制中,第一級的vCPU在物理處理單元上的調度工作由虛擬機監(jiān)視器VMM完成,第二級的線程或進程的調度由客戶操作系統(tǒng)OS完成,vCPU調度機制示意圖如圖5所示。在實際應用中,兩級調度方法和機制相對獨立。
軟件定義的分布式存儲采用自適應條帶化、SSD讀寫緩存加速、多副本機制保障、數據自平衡、故障數據重建機制、存儲熱升級、智能預測等多種存儲技術,將多臺物理服務器的磁盤進行虛擬化和池化,抽象成一個邏輯上的存儲資源池,實現存儲資源集約管理和調配,深度滿足各個行業(yè)的關鍵應用和數據的存儲需求,支撐業(yè)務高效穩(wěn)定可靠的運行。
分布式存儲的服務器物理磁盤組采用1個SSD加n個HDD磁盤配對方式。SSD為同磁盤組HDD提供緩存加速的能力,主機磁盤組可以有效減少磁盤故障影響和數據重建修復時間。采用智能分層和緩存技術進行數據處理,利用SSD存儲介質低延時、高IOPS的特點,將用戶熱點數據存儲在SSD中,從而降低數據傳輸延時,提高存儲性能。在海量非結構化小文件的存儲場景下,通過分布式架構+SSD高性能資源實現元數據處理的性能擴展,同時將隨機的小對象通過合并形成大塊連續(xù)IO后再寫入HDD中,從而更加有效提升海量小對象的處理性能。
在數據保護和高可用性方面采用多副本機制,將數據保存為多份。當單份數據損壞時,業(yè)務不會因為無法訪問數據而中斷,必須保證副本的一致性和副本之間的數據同步,采用強一致性復制協(xié)議來保障多個副本之間數據的一致性。當所有副本上的數據都寫入完成后,才會向上層返回IO完成,避免多份副本數據存在差異。同時,要求一個數據的多副本不能存儲在相同主機上的互斥原則。存儲虛擬化2副本磁盤管理邏輯設計如圖6所示。
軟件定義網絡(software defined network,SDN)將網絡設備的控制層與數據層分開,讓網絡資源的調度更加簡單靈活,SDN技術推動了網絡虛擬化的發(fā)展進程。SDN主流實現方式分別是OpenFlow組織主導的開源軟件(包括Google,IBM,Citrix等公司支持)、思科主導的應用中心基礎設施(application centric infrastructure,ACI),以及VMware主導的NSX[8-9]。
交換機設計采用分布式虛擬技術形成,如圖7所示。運用主流的Overlay和網絡功能虛擬化技術,通過Overlay搭建大二層網絡實現業(yè)務應用之間的租戶隔離,通過網絡功能虛擬化實現業(yè)務中所需各種網絡功能資源(包括基礎的路由交換、安全以及應用交付等)虛擬化和動態(tài)調配,完成超融合云架構中的網絡虛擬化[10]。采用虛擬交換機vSwitch(virtual switch)滿足同一物理服務器內云主機之間的數據交換,為云主機之間、云主機與外部網絡之間提供網絡通訊能力。虛擬化路由器具備虛擬化路由、VLAN子網口、NAT規(guī)則、訪問控制列表(access control list,ACL)策略、DHCP地址池和DNS代理等功能[11-12]。網絡虛擬化技術的應用不僅滿足虛擬化后的網絡管理和路由交換需求,而且簡化了數據中心內部的網絡架構,降低因虛擬機遷移或變更帶來的基礎網絡運維難度,保障數據中心高效運行。
統(tǒng)一云管理平臺對數據中心異構資源進行統(tǒng)一管理,同時提供資源服務、多級運營、多租戶、業(yè)務安全、容災備份能力,實現云上云下資源的統(tǒng)一管理、業(yè)務平滑遷移、數據中心的統(tǒng)一監(jiān)控,將各種物理服務器、網絡、存儲和安全等虛擬化資源變?yōu)橐环N在線服務能力,提供給用戶使用,并為多種資源提供統(tǒng)一訪問入口、統(tǒng)一服務目錄、統(tǒng)一運維。
云管平臺功能設計如圖8所示,通過集中化、多元化、專業(yè)化、模塊化的管理模式,實現IT資源的優(yōu)化整合,并進行統(tǒng)一管控,保障資源和服務的全生命周期管理,推動資源管理標準化和服務標準化,簡化業(yè)務上云過程,提升組織管理和業(yè)務管理效率。
云平臺中可能被攻擊的業(yè)務訪問方式主要是在vDisk虛擬磁盤中,虛擬機之間通過分布式虛擬交換機vSwitch進行網絡通信,終端用戶通過邊界交換機訪問虛擬機對外發(fā)布的業(yè)務,通過Web控制臺登錄云平臺進行日常管理,通過shell端口對底層平臺進行管理等方式。
針對通過Web端口訪問云管理控制臺的安全防護,云平臺提供全面的管理層安全模塊進行防護,包括HTTPS、雙因子校驗、弱密碼檢測、IP和MAC登錄地址限制,防爆破機制、資源權限管理、閑時會話管理和內置WAF防火墻等防護模塊。針對通過邊界交換機訪問業(yè)務的安全防護,云平臺提供全面的業(yè)務層安全模塊進行防護,包括虛擬交換機隔離機制、分布式防火墻、NFV組件、EDR殺毒,以及云安全中心等防護模塊,對安全事件進行實時監(jiān)測與事故通知,幫助用戶快速識別和定位安全事件,提供安全日志便于用戶進行安全事件溯源與后續(xù)防范。針對通過linux shell端口訪問超融合底層操作系統(tǒng)的安全防護,云平臺提供底層安全隔離技術進行防護,包括虛擬機之間的隔離防護、虛擬機和Hypervisor之間的隔離防護、系統(tǒng)內核加固等。
分布式防火墻設計如圖9所示,將安全從數據中心邊界延展到核心,實現虛擬機之間的微隔離,對數據中心內部流量進行L3-L4層安全防護,更大程度降低攻擊對數據中心的影響。同時負責對虛擬網絡內部的流量控制,虛擬防火墻vAF負責邊界出口防護外部流量的攻擊,分布式防火墻與vAF相結合,從外部、內部,進行全方位的安全防護,保障數據中心的安全。
基礎設施云平臺能夠對VMware虛擬化平臺和獨立物理機的異構管理,實現資源的統(tǒng)一管理和全局調度[5]。通過對接VMware的API接口統(tǒng)一納管VMware平臺,實現VMware虛擬機的雙向遷移和容災備份,支持VMware虛擬機批量開關機、重啟、備份恢復、遷移操作,通過云管平臺使用VMware虛擬機控制臺查看VMware虛擬機基本信息及資源使用情況。通過智能平臺管理接口IPMI(intelligent platform management interface)技術實現統(tǒng)一納管物理機。物理機納管內容主要分為兩個方面:一是針對物理機硬件層面的管理操作,包含物理機組件的告警狀態(tài)、物理機上電開機、掉電關機等操作;二是針對物理機系統(tǒng)資源CPU、內存和網絡等狀態(tài)的實時監(jiān)控和告警。
四川氣象建設完成基礎設施云平臺并投入全省業(yè)務運行以來,實現省級IT基礎資源的集中管理和集約化,具備完善的系統(tǒng)資源服務、容災備份和云平臺的自動化運維管理,集中物理服務器47臺、vCPU 7790核、內存10T,存儲約1PB,穩(wěn)定運行虛擬機500多個,面向全省業(yè)務單位全面提供信息基礎設施服務,承載氣象臺、服務、氣候、災防、人影、農氣和機關等幾十個單位運行預測預報、氣象數據處理、氣象服務、科研和政務等核心業(yè)務系統(tǒng),業(yè)務系統(tǒng)遷移入池和信息系統(tǒng)集約化工作成果顯著,充分驗證了超融合技術在氣象行業(yè)廣泛開展應用的可行性。云平臺業(yè)務管理界面如圖10所示。
為驗證構建的基礎設施云平臺對氣象業(yè)務的支撐能力,對在VMware虛擬化環(huán)境和云平臺中運行Oracle數據庫的性能檢測結果進行比較與分析。測試環(huán)境為VMware虛擬化平臺和基礎設施云平臺,通過使用數據庫性能檢測工具,分別測試Oracle數據庫的性能。VMware虛擬機和云平臺虛擬機Oracle壓力測試結果如圖11、12所示。
通過上述測試可以得出,在保證虛擬機配置完全一致的前提下,MAXIMUM TPM指標:VMware虛擬機值為222,云平臺虛擬機值為309;AVERAGE TPM指標:VMware虛擬機值為167,云平臺虛擬機值為361,進一步驗證了無論是數據庫壓力峰值還是平均值,Oracle在云平臺中運行的性能更好。
與傳統(tǒng)的虛擬化架構對比,超融合架構能夠實現計算、存儲、網絡等方面的資源靈活調度,不再受限于外置存儲和硬件安全的局限性。為新一代云數據中心建設提供安全可靠的技術架構,大大縮短了業(yè)務上線周期,通過虛擬化靈活擴展,動態(tài)調度,提高資源利用率和運維效率。表1為超融合架構和傳統(tǒng)虛擬化業(yè)務效益對比結果。
表1 超融合架構和傳統(tǒng)虛擬化業(yè)務效益對比
通過研究氣象基礎設施云平臺的相關技術,進行硬件、系統(tǒng)以及應用3個層次融合虛擬化,合理配置計算資源、存儲資源和網絡資源,對業(yè)務應用在云平臺上運行的性能、可靠性等方面進行實際業(yè)務測試,實現氣象業(yè)務在基礎設施云平臺的穩(wěn)定運行,提高硬件資源利用率、降低IT成本,提升氣象信息化水平。以軟件定義數據中心,實現更靈活的資源調度、更快速的業(yè)務部署、更低的建設運行成本、更高效的運維,提升氣象業(yè)務基礎資源支撐能力,助力氣象信息化和現代化。