賈朝龍 郝曉楠 王雪純 曾友渝
摘 要:采用基于VMware vSphere的數(shù)據(jù)中心虛擬化體系方案設計和SDN的高并發(fā)多應用SLA的資源管理方法,對數(shù)據(jù)中心能耗建模及優(yōu)化,簡化基礎設施和資源管理方式,減少資源開銷,整合資源,節(jié)約建設成本,實現(xiàn)智能、靈活、集約的業(yè)務調度,實現(xiàn)資源按需分配,提高智慧交通數(shù)據(jù)中心能源效率、資源利用率和設備能效比,達到綠色節(jié)能。
關鍵詞:智慧交通;虛擬化;數(shù)據(jù)中心;VMware vSphere;大數(shù)據(jù)
中圖分類號:TP391.1 文獻標識碼:A
1 引言(Introduction)
在智慧交通大數(shù)據(jù)中心方面,由于交通運輸行業(yè)是數(shù)據(jù)密集型行業(yè),大量的交通數(shù)據(jù)必然要求高效的管理和研究分析手段。智慧交通大數(shù)據(jù)中心建設已經是迫切需要,并且智慧交通大數(shù)據(jù)中心構建必須把我當前數(shù)據(jù)中心技術發(fā)展的趨勢。
在智慧交通大數(shù)據(jù)中心構建方面,國內外許多學者進行了大量的研究工作。Du[1]提出了一種新穎的城市交通數(shù)據(jù)即服務(CTDaaS),融合來自分布式提供商的數(shù)據(jù),構建了一個因特網(wǎng)的流量數(shù)據(jù)服務(IoTDS)模型,以識別數(shù)據(jù)資源之間的關聯(lián)和關系,并在透明計算范式和面向服務的架構下開發(fā)了CTDaaS代理,根據(jù)不同的計算模型融合來自各種數(shù)據(jù)源的知識,以及響應差異化的數(shù)據(jù)質量(QoD)。Jeon[2]提出一種新的統(tǒng)計建模方法,該方法根據(jù)每個鏈路的各種分析找到最佳的歷史數(shù)據(jù)集,并按每周七天提供更精確的交通流預測,采用基于長點分析、相關分析和蒙特卡羅模擬的三步過濾算法,并通過使用諸如均方誤差(MSE)和Akaike信息準則的決定因素來確定最佳歷史數(shù)據(jù)范圍,構建了一個大數(shù)據(jù)處理框架來處理整體預測過程和計算大量的交通數(shù)據(jù)。Xiong[3]提出深圳交通系統(tǒng)(SZTS,一個新的大數(shù)據(jù)Hadoop基準套件),包括現(xiàn)實生活交通分析應用程序與深圳的現(xiàn)實生活輸入數(shù)據(jù)集,專注特定的和真實的應用領域,在微架構級別,操作系統(tǒng)級別和作業(yè)級別執(zhí)行跨層工作負載表征,顯示SZTS與現(xiàn)有Hadoop基準,以及通用多核PARSEC基準相比的獨特特性。同時還研究工作負載行為相對于輸入數(shù)據(jù)大小的敏感性,并提出了一種用于識別代表性輸入數(shù)據(jù)集的方法。Huang[4]提出了一種基于云計算技術的安全并行地圖匹配系統(tǒng),通過在MapReduce范式中重構來適應云計算環(huán)境的串行跳躍映射匹配算法,在混合云上的隱私感知地圖匹配模型,以實現(xiàn)敏感的GPS數(shù)據(jù)保護,并在hadoop平臺上實施1000億記錄的大型車輛跟蹤數(shù)據(jù)集測,證明是高效率的大規(guī)模車輛跟蹤數(shù)據(jù)處理。
2 數(shù)據(jù)中心與數(shù)據(jù)中心虛擬化(Data center and
data center virtualization)
2.1 傳統(tǒng)數(shù)據(jù)中心面臨的機遇與挑戰(zhàn)
數(shù)據(jù)中心起源于20世紀60年代以數(shù)據(jù)存儲和簡單計算階段的計算中心,20世紀80年代逐步發(fā)展為以數(shù)據(jù)處理及業(yè)務應用階段的信息中心,隨后在21世紀初出現(xiàn)了以服務為主導的IT服務中心。隨著云計算和虛擬化的快速發(fā)展,通過虛擬化技術搭建下一代數(shù)據(jù)中心被越來越多的采用,虛擬化技術為數(shù)據(jù)中心在架構、系統(tǒng)、業(yè)務模式和管理上提供一種全新的解決方案。
高效的數(shù)據(jù)查詢檢索性能是現(xiàn)代數(shù)據(jù)中心的一個重要指標,傳統(tǒng)數(shù)據(jù)查詢技術特征如表1所示。隨著技術的發(fā)展,傳統(tǒng)數(shù)據(jù)中心采用關系數(shù)據(jù)庫查詢、串行查詢,以及后來出現(xiàn)的倒序索引、并行索引已經不能滿足大數(shù)據(jù)時代發(fā)展要求,需要更先進的檢索查詢技術。
2.2 虛擬化綠色數(shù)據(jù)中心
針對傳統(tǒng)數(shù)據(jù)中心利用率低、缺乏靈活性、業(yè)務連續(xù)性差、可持續(xù)發(fā)展能力不足、運營能耗成本高、運維管理水平不高、自動化程度低、績效評估難的不足,虛擬化技術釋放了數(shù)據(jù)中心的潛力,為數(shù)據(jù)中心帶來了極大的運營彈性。未來數(shù)據(jù)中心的面貌就是將底層的硬件,包括服務器、儲存與網(wǎng)絡設備全面虛擬化,建立起一個共享的隨需而選的運作環(huán)境,上層的數(shù)據(jù)可以根據(jù)業(yè)務型態(tài)的不同需求,搭配出各種互相隔離的應用,形成一個服務導向的IT架構。虛擬化技術將更先進的自動化和系統(tǒng)管理引進到數(shù)據(jù)中心,為數(shù)據(jù)中心提供了一種共享加隔離的安全、可信的云計算基礎架構,成為疊加了云計算功能架構的彈性數(shù)據(jù)中心。虛擬化數(shù)據(jù)中心的技術優(yōu)勢主要體現(xiàn)在提升IT設備利用率、簡化管理、快速部署業(yè)務、更敏捷地支撐業(yè)務發(fā)展、綠色節(jié)能、實現(xiàn)高效的IT治理五方面。目前虛擬化數(shù)據(jù)中心正朝著分布式建設模式,數(shù)據(jù)中心管理工具(DCIM)的重構和發(fā)展為核心的控制點,軟件定義數(shù)據(jù)中心,數(shù)據(jù)向集中化管理方面發(fā)展且可靠性成為未來數(shù)據(jù)中心的基礎能力,更強調能源的有效利用與成本收益的優(yōu)化幾個主要方面發(fā)展。
VMware vsphere Hypervisor是一款免費的裸機hypervisor,能夠虛擬化服務器,以便將應用整合到更少的硬件上。在內置管理工具方面,可在幾分鐘內輕松創(chuàng)建和調配虛擬機。在存儲使用效率方面,可以超出物理存儲的實際容量過量分配存儲資源。在高級內存管理方面,可以超額分配內存資源并執(zhí)行頁面共享和壓縮,從而優(yōu)化內存資源的性能。另外,它還可以經過強化的驅動程序可實現(xiàn)高可靠性,通過與獨立硬件供應商合作,確保實現(xiàn)vSphere Hypervisor的最佳性能。
IDC報告表明,通過虛擬化和現(xiàn)有安裝服務器重新部署與管理程序相結合,全球每年避免新增大量的服務器。由于使用VMware而避免新增服務器,虛擬化產品從2003年的總計107000個增長到2016年的1620萬個。全球服務器虛擬化從2003年的107000增加到2016年的5350萬。由于使用了VMware虛擬化產品而避免了排放量。超融合基礎設施和軟件定義網(wǎng)絡進一步減少基礎架構設備(存儲陣列和網(wǎng)絡)數(shù)量的新增。由于使用VMware虛擬化產品,每年避免增加的基礎設施設備,從2014年總計595000臺增長到2016年的107萬臺。
3 基于VMware vSphere虛擬化智慧交通數(shù)據(jù)中心
(Virtualized smart transportation data center
based on VMware vSphere)
3.1 問題與現(xiàn)狀
交通運輸行業(yè)的業(yè)務系統(tǒng)建設通常以滿足單一業(yè)務部門需求為主,具有業(yè)務覆蓋單一、系統(tǒng)重復建設,以及系統(tǒng)之間相互割裂的特點,形成一個個信息“孤島”和“煙囪”。交通運輸行業(yè)中IT資源浪費嚴重與發(fā)展不平衡導致目前業(yè)務系統(tǒng)信息化發(fā)展水平不能滿足交通行業(yè)高速發(fā)展的需要。同時,不同部門信息化存在巨大差距,部分交通信息化資源的配置和使用缺乏有效的監(jiān)管,加之業(yè)務平臺具有管理復雜、業(yè)務上線時間長的特征,導致業(yè)務連續(xù)性無法保障,影響了交通信息化的發(fā)展。隨著數(shù)據(jù)量的增多,計算、存儲密度增大,數(shù)據(jù)存儲平臺對安全性、擴展性也提出更高的要求,急需一套安全可靠的數(shù)據(jù)存儲平臺,保障數(shù)據(jù)的安全。
3.2 交通數(shù)據(jù)中心虛擬化
對于交通部門希望實現(xiàn)高效綠色虛擬化交通數(shù)據(jù)中心來說,VMware vsphere Hypervisor因其具有高度可配置性,對于要求完全虛擬化或選擇混合方法的交通部門來說,它可以成為一個有吸引力的選擇。以VMWare vSphere 5.5 Hypervisor來說,其性能參數(shù)如表2所示。
交通數(shù)據(jù)中心虛擬化將計算、存儲、網(wǎng)絡、大數(shù)據(jù)分析、智能分析、災備、安全等系統(tǒng),以及視頻設備、網(wǎng)絡設備、服務器、中間件、數(shù)據(jù)庫、業(yè)務應用和機房動力環(huán)境等分割管理的信息孤島進行有效的整合和關聯(lián),實現(xiàn)數(shù)據(jù)中心全網(wǎng)資源的全面監(jiān)控與集中統(tǒng)一管理。根據(jù)計算需求,采用服務器虛擬化應用,對于視頻、圖像數(shù)據(jù)采用云存儲模式,對于數(shù)據(jù)庫、虛擬機鏡像文件等數(shù)據(jù)采用FC-SAN共享存儲。
對于交通大數(shù)據(jù)分析和智能分析需求,采用大數(shù)據(jù)平臺針對非結構化、半結構化,以及結構化的過車視頻、數(shù)據(jù)進行建模分析和交通數(shù)據(jù)采集,支持全文快速檢索、以圖搜圖、智能研判、OD分析和統(tǒng)計分析等應用。對于災備需求,可基于存儲復制、雙機熱備、異地容災等方式,進行兩地三中心、同城雙中心或異地雙中心的容災建設,同時可選用NBU備份或CommVault備份方案實現(xiàn)數(shù)據(jù)備份。
交通數(shù)據(jù)中心虛擬化從虛擬化方案的拓撲結構設計,虛擬架構主體Vmware ESX Server配置、SAN集中存儲實現(xiàn)虛擬服務器的文件共享、虛擬架構環(huán)境的集中管理、自動化及優(yōu)化運行,以及虛擬架構環(huán)境的整合備份四方面進行,其架構如圖1所示。
4 虛擬化智慧交通數(shù)據(jù)中心關鍵技術(Key
technologies of virtualized smart transportation
data center)
4.1 動態(tài)交通監(jiān)控數(shù)據(jù)存儲及數(shù)據(jù)容錯
在交通監(jiān)控領域,監(jiān)控數(shù)據(jù)分析的效率決定價值,因此需要更低的延遲、更準確的分析。隨著數(shù)據(jù)量的增加,即使對TB級別的數(shù)據(jù)進行對視頻內容的數(shù)據(jù)分析和檢索,采用串行計算的模式都可能需要花費數(shù)小時的計算,已遠遠不能勝任時效性的需求。大數(shù)據(jù)架構下的存儲系統(tǒng)還需要考慮后續(xù)的計算模式的匹配。通過分布式資源管理框架,結合存儲區(qū)域網(wǎng)絡(SAN)和軟件定義存儲(SDS),考慮動態(tài)交通監(jiān)控數(shù)據(jù)的元組與屬性特點,結合不同應用環(huán)境分別進行建模,并基于智慧交通業(yè)務中各子任務映射關系特點,分析各業(yè)務的容錯約束條件及參數(shù)變化,考慮副本技術與元數(shù)據(jù)服務,基于集群的中間數(shù)據(jù)容錯機制,將容錯設計到架構之中,以可擴展的分布式系統(tǒng)的方式實現(xiàn)。
4.2 高并發(fā)多應用SLA的資源管理
基于高并發(fā)多應用SLA(Service Level Agreement)的兼容性和基于進程粒度的共享平臺資源管理[5],研究根據(jù)應用資源需求進行應用到物理機的應用放置/遷移和動態(tài)分配物理機資源,降低SLA受到影響或資源浪費概率的發(fā)生的同結點應用資源的動態(tài)調整;基于虛擬機粒度的虛擬化平臺資源管理,研究包括虛擬機的放置/遷移和同結點虛擬機資源的動態(tài)調整。由于虛擬機中應用負載具有隨時變動性,借助虛擬化技術提供的細粒度資源分配機制支持,為虛擬機動態(tài)增加或減少資源。
4.3 數(shù)據(jù)中心能耗建模、優(yōu)化和管理
對虛擬化數(shù)據(jù)中心的能耗管理從能耗監(jiān)控與測量、能耗分析與建模、能耗管理實現(xiàn)機制,以及能耗管理優(yōu)化算法四個方面進行研究。利用客戶虛擬機的能耗管理策略實現(xiàn)虛擬機的能耗管理,以及利用硬件能耗管理機制實現(xiàn)虛擬機的能耗管理兩種傳統(tǒng)解決方法的不足。結合軟件和硬件層次上能耗調節(jié)技術的方法來進行虛擬化云計算平臺的能耗管理,包括虛擬化云平臺的能耗分析與建模、服務器整合建模,以及在線遷移建模。
4.4 高效查詢架構
高效查詢架構采用Lucene和Hadoop,Lucene實現(xiàn)倒序索引,提供全文檢索,并行索引階段和查詢階段用Hadoop的Map和Reduce過程實現(xiàn),顯著提高查詢效率。數(shù)據(jù)及時交由實時計算框架進行處理,同時定期同步至離線計算框架;實時計算框架處理接收到的實時數(shù)據(jù),并將處理結果輸出到數(shù)據(jù)查詢框架或者離線計算框架;離線計算框架則定期對數(shù)據(jù)進行處理,并將處理結果輸出至數(shù)據(jù)查詢框架;數(shù)據(jù)查詢框架對海量數(shù)據(jù)進行統(tǒng)計、匯總和分析,發(fā)現(xiàn)重復發(fā)生概率較高的模式,并通過應用云面向用戶提供服務。
5 虛擬化綠色智慧交通數(shù)據(jù)中心設計實現(xiàn)
(Virtualization of green smart transportation
data center design and implementation)
5.1 虛擬化綠色智慧交通數(shù)據(jù)中心技術路線
虛擬化綠色智慧交通數(shù)據(jù)中心分三層結構,底層是前端感知層,負責將各類檢測數(shù)據(jù)收集匯總,形成交通大數(shù)據(jù);彈性計算層通過對數(shù)據(jù)預處理、分析及優(yōu)化通過虛擬化存儲、網(wǎng)絡和計算平臺實現(xiàn)安全、可用和自動化;業(yè)務應用層實現(xiàn)具體交通管理、指揮、預警業(yè)務,其技術路線如圖2所示。
5.2 虛擬化綠色智慧交通數(shù)據(jù)中心方案
虛擬化綠色智慧交通數(shù)據(jù)中心組成包括五部分,分別是內網(wǎng)數(shù)據(jù)、內網(wǎng)虛擬化平臺、內網(wǎng)應用、外網(wǎng)虛擬化平臺、應用需求。方案如圖3所示。
6 結論(Conclusion)
通過交通數(shù)據(jù)中心虛擬化,實現(xiàn)現(xiàn)有物理資源的集中管理和統(tǒng)一調度,提高了交通部門設備利用率和能源利用的有效性,提升運營效率,以及降低投資開支。選用VMware虛擬化產品提高了交通數(shù)據(jù)中心系統(tǒng)基礎構架的自動化程度和靈活性,滿足了不斷擴大的業(yè)務需求。同時,虛擬化數(shù)據(jù)中心不間斷運營和集成化管理工具可以簡化運營,加快解決問題的速度,并有助于向新技術轉型。
參考文獻(References)
[1] Du B,Huang R,Chen X,et al.Active CTDaaS:A Data Service Framework Based on Transparent IoD in City Traf?c[J].IEEE Transactions on Computers,2016,65:1.
[2] Jeon S,Hong B.Monte Carlo simulation-based traffic speed forecasting using historical big data[J].Future Generation Computer Systems,2016,65:182-195.
[3] Xiong W,Yu Z,Eeckhout L,et al.ShenZhen transportation system(SZTS):a novel big data benchmark suite[J].Journal of Supercomputing,2016,72(11):1-28.
[4] Huang J,Qie J,Liu C,et al.Cloud computing-based map-matching for transportation data center[J].Electronic Commerce Research & Applications,2015,14(6):431-443.
[5] 張偉,宋瑩,阮利,等.面向Internet數(shù)據(jù)中心的資源管理,軟件學報,2012,23(2):179-199.
作者簡介:
賈朝龍(1979-),男,博士,副教授.研究領域:大數(shù)據(jù)及可視化.
郝曉楠(1995-),男,本科生.研究領域:軟件開發(fā).
王雪純(1996-),女,本科生.研究領域:軟件開發(fā).
曾友渝(1996-),女,本科生.研究領域:人工智能.