孫晨宇,鐘章隊(duì),陳 姝
(1.北京交通大學(xué) 軌道交通控制與安全國家重點(diǎn)實(shí)驗(yàn)室, 北京 100044;2.北京佳訊飛鴻智能科技研究院 云計(jì)算與大數(shù)據(jù)研究所, 北京 100044)
鐵路行業(yè)的發(fā)展要求與信息技術(shù)的緊密融合,既有鐵路企業(yè)的現(xiàn)狀是信息基礎(chǔ)設(shè)施規(guī)模龐大、專業(yè)繁雜、安全級(jí)別高,技術(shù)更新較慢,需要有適應(yīng)業(yè)務(wù)需求的專業(yè)云計(jì)算平臺(tái)解決方案來滿足多樣化的需求。通過自建私有云平臺(tái)無疑是好的選擇。
由于公有云是非定制化的,所以不會(huì)為用戶提供定制性能優(yōu)化服務(wù)。與之不同的私有云是針對(duì)用戶需求進(jìn)行特殊設(shè)計(jì),所以,用戶在驗(yàn)收時(shí)需要有效的手段來對(duì)私有云平臺(tái)的性能進(jìn)行評(píng)測(cè),并且能夠有一個(gè)參考標(biāo)準(zhǔn)來評(píng)價(jià)不同云平臺(tái)方案的優(yōu)劣和經(jīng)濟(jì)性。
對(duì)于鐵路云計(jì)算的研究,文獻(xiàn)[1]論證了云計(jì)算在鐵路領(lǐng)域應(yīng)用的必要性并提出了解決方案。在性能評(píng)測(cè)方面,從最初的面向不同架構(gòu)云平臺(tái)的對(duì)比[2-4],探究不同架構(gòu)云平臺(tái)的靈活性和可擴(kuò)展性。以及不同架構(gòu)云平臺(tái)底層虛擬化性能對(duì)比[5-7],比較出不同云平臺(tái)的基礎(chǔ)性能優(yōu)劣。openstack針對(duì)其基于高性能計(jì)算的性能評(píng)估和優(yōu)化[8-9],OneCPT性能測(cè)試平臺(tái)[10]對(duì)數(shù)家公有云平臺(tái)進(jìn)行了性能評(píng)測(cè)。該平臺(tái)選擇默認(rèn)的虛擬機(jī)配置,采用壓力測(cè)試方法,對(duì)不同公有云主機(jī)進(jìn)行平均響應(yīng)時(shí)間、每秒查詢數(shù)、磁盤吞吐量、錯(cuò)誤率方面的測(cè)試,得到各個(gè)主流公允云廠商的性能參數(shù)。以上研究的測(cè)試方法及標(biāo)準(zhǔn)更多的是面向普通用戶,虛擬機(jī)配置較低,沒有進(jìn)行特殊化定制,無法滿足鐵路行業(yè)的切實(shí)需求。
對(duì)于鐵路系統(tǒng)而言,由于面向多種業(yè)務(wù),所以要進(jìn)行不同的資源池配置,需要有基線標(biāo)準(zhǔn)和業(yè)務(wù)需求的特殊標(biāo)準(zhǔn)來共同評(píng)價(jià)。所謂基線標(biāo)準(zhǔn),即無論云平臺(tái)硬件配置和虛擬化軟件用的是什么,虛擬機(jī)的性能都應(yīng)該達(dá)到一個(gè)標(biāo)稱的水平,虛擬化的效率應(yīng)該在一個(gè)合理的范圍,而本文正是針對(duì)目前研究中尚且缺乏的基線標(biāo)準(zhǔn)展開研究,探索私有云平臺(tái)滿足鐵路業(yè)務(wù)需求的可行性,得到一組性能基線值,為鐵路私有云性能評(píng)測(cè)提供參考標(biāo)準(zhǔn)。
根據(jù)鐵路業(yè)務(wù)的不同類型,可以將其需求分為3類:實(shí)時(shí)計(jì)算類、大數(shù)據(jù)吞吐類、可靠低時(shí)延類。(1)實(shí)時(shí)計(jì)算類包括:風(fēng)險(xiǎn)告警、數(shù)據(jù)分析、實(shí)時(shí)調(diào)度等對(duì)實(shí)時(shí)性有高要求的業(yè)務(wù)。(2)大數(shù)據(jù)吞吐類主要針對(duì)視頻監(jiān)控等對(duì)存儲(chǔ)要求較高的業(yè)務(wù)。(3)可靠低時(shí)延類面向運(yùn)輸生產(chǎn)中對(duì)云平臺(tái)的可靠性和低時(shí)延性有較高要求的業(yè)務(wù)。根據(jù)上述3種分類可以發(fā)現(xiàn),CPU、內(nèi)存、磁盤吞吐速率是影響云平臺(tái)能否滿足鐵路業(yè)務(wù)需求的重中之重。由于鐵路業(yè)務(wù)的高性能要求,所以建設(shè)的私有云平臺(tái)虛擬機(jī)性能雖然無法達(dá)到物理機(jī)的標(biāo)準(zhǔn),但是應(yīng)當(dāng)達(dá)到或優(yōu)于公有云高規(guī)格云主機(jī)。即物理機(jī)的利用率應(yīng)當(dāng)保持在75%以上,私有云主機(jī)性能達(dá)到公有云主機(jī)性能的90%以上,方可滿足鐵路業(yè)務(wù)的需要。
測(cè)試使用的云平臺(tái)分為兩類:基于OpenStack建設(shè)并專為京沈客專試驗(yàn)線遼寧段優(yōu)化的實(shí)驗(yàn)私有云;公有云平臺(tái)阿里云。通過對(duì)比二者虛擬機(jī)的CPU、內(nèi)存、磁盤存儲(chǔ)這3個(gè)最具代表性的性能指標(biāo),可以得到私有云平臺(tái)的服務(wù)能力。此外,通過對(duì)比私有云平臺(tái)物理機(jī)和虛擬機(jī)的性能差距,可以得到私有云的虛擬化損耗,進(jìn)而得到提升優(yōu)化的空間。
實(shí)驗(yàn)私有云共有15臺(tái)物理服務(wù)器,包括3臺(tái)控制節(jié)點(diǎn)、6臺(tái)計(jì)算節(jié)點(diǎn)、6臺(tái)存儲(chǔ)節(jié)點(diǎn)。具體參數(shù)配置,如表1所示。
表1 實(shí)驗(yàn)用例配置信息
對(duì)于測(cè)試指標(biāo)的選用,為保證可信及一致性,我們選擇國際廣泛認(rèn)可的阿里云提供的參考指標(biāo)。如表2所示。部分指標(biāo)沒有可供計(jì)算的公式,則將實(shí)驗(yàn)完成后的結(jié)果進(jìn)行對(duì)比,進(jìn)而得到參考值。
表2 性能測(cè)試指標(biāo)說明及公式
不同測(cè)試指標(biāo)選用國際通用及阿里云推薦使用的測(cè)試工具進(jìn)行實(shí)驗(yàn)。選用的實(shí)驗(yàn)工具均可使測(cè)試對(duì)象達(dá)到100%負(fù)載率,并且通過各個(gè)工具的參數(shù)計(jì)算公式提前計(jì)算出測(cè)試所用參數(shù),保證實(shí)驗(yàn)結(jié)果的準(zhǔn)確性。實(shí)驗(yàn)工具及工具需要配置的參數(shù)選擇,如表3所示。
為保證測(cè)試結(jié)果的準(zhǔn)確及穩(wěn)定性,CPU測(cè)試均進(jìn)行36次,內(nèi)存及磁盤讀寫測(cè)試均進(jìn)行20次。
通過linpack和sysbench測(cè)試工具分別對(duì)虛擬機(jī)、阿里云主機(jī)、物理機(jī)進(jìn)行CPU浮點(diǎn)計(jì)算能力和整型事務(wù)計(jì)算能力測(cè)試。浮點(diǎn)計(jì)算結(jié)果如圖1所示,對(duì)比結(jié)果如圖2所示。對(duì)比結(jié)果圖中的數(shù)值采用36次測(cè)量結(jié)果的平均值。
表3 實(shí)驗(yàn)工具及參數(shù)選擇
圖1 CPU浮點(diǎn)計(jì)算實(shí)驗(yàn)結(jié)果
圖2 CPU浮點(diǎn)計(jì)算能力對(duì)比
根據(jù)表2中的計(jì)算公式:理論每秒浮點(diǎn)運(yùn)算數(shù)=核心數(shù)×主頻×每個(gè)時(shí)鐘周期浮點(diǎn)操作次數(shù),私有云理論最大每秒浮點(diǎn)運(yùn)算數(shù)為35.2 Gflops,阿里云理論最大每秒浮點(diǎn)運(yùn)算數(shù)為40 Gflops。
阿里云CPU利用率為30.38/40×100%≈75.95%,實(shí)驗(yàn)私有云CPU利用率為26.32/35.2×100%≈74.77%??梢钥吹?,由于實(shí)驗(yàn)私有云的CPU主頻低于公有云,所以CPU的浮點(diǎn)計(jì)算能力弱于公有云。但是所能達(dá)到的CPU利用率極其相近,如若采用相同的CPU,實(shí)驗(yàn)私有云虛擬機(jī)浮點(diǎn)計(jì)算能力不弱于公有云。
另外,通過虛擬機(jī)和物理機(jī)的對(duì)比,可以得到實(shí)驗(yàn)私有云平臺(tái)的CPU虛擬化效率約為26.32/31.46×100%≈83.66%。
圖3、圖4分別為CPU整型事務(wù)處理能力的結(jié)果圖和對(duì)比圖。對(duì)比結(jié)果圖中的數(shù)值采用36次測(cè)量結(jié)果的平均值。圖中可以得出,即使實(shí)驗(yàn)私有云CPU弱于公有云,但是實(shí)驗(yàn)私有云和公有云的虛擬機(jī)在整型事務(wù)處理能力上差距不大,基本可以達(dá)到相同的水平。
圖3 CPU整型事務(wù)計(jì)算實(shí)驗(yàn)結(jié)果
圖4 CPU整型事務(wù)計(jì)算能力對(duì)比
圖5、圖6、圖7分別為虛擬機(jī)、阿里云主機(jī)、物理機(jī)的內(nèi)存帶寬實(shí)驗(yàn)結(jié)果圖。圖中,淺藍(lán)色線展示的是利用sysbench工具對(duì)內(nèi)存進(jìn)行帶寬測(cè)試的結(jié)果,其它4條線是利用stream工具分別對(duì)內(nèi)存進(jìn)行copy、scale、add和triad操作所得的可持續(xù)運(yùn)行帶寬結(jié)果。圖8為虛擬機(jī)、阿里云主機(jī)、物理機(jī)的內(nèi)存帶寬對(duì)比圖。對(duì)比結(jié)果圖中的數(shù)值采用20次測(cè)量結(jié)果的平均值。
圖5 虛擬機(jī)內(nèi)存帶寬實(shí)驗(yàn)結(jié)果
圖6 阿里云內(nèi)存帶寬實(shí)驗(yàn)結(jié)果
圖7 物理機(jī)內(nèi)存帶寬實(shí)驗(yàn)結(jié)果
根據(jù)表2中的計(jì)算公式:帶寬=內(nèi)存核心頻率×內(nèi)存總線位數(shù)×倍增系數(shù),可得私有云和阿里云理論最大帶寬均為12 800 MB/s。
由圖5~圖7可知,在對(duì)內(nèi)存進(jìn)行copy、scale、add和triad操作時(shí),虛擬機(jī)內(nèi)存利用率最高可達(dá)10 338/12 800×100%≈80.76%。阿里云內(nèi)存利用率最高可達(dá)9 666/12 800×100%≈75.51%。在對(duì)內(nèi)存進(jìn)行數(shù)據(jù)傳輸操作時(shí),虛擬機(jī)內(nèi)存利用率為8 687/12 800×100%≈67.86%。阿里云內(nèi)存利用率為7 703/12 800×100%≈60.17%。在相同的內(nèi)存配置條件下,實(shí)驗(yàn)私有云的內(nèi)存表現(xiàn)優(yōu)于阿里云。
圖8 內(nèi)存帶寬對(duì)比
通過虛擬機(jī)和物理機(jī)的對(duì)比,實(shí)驗(yàn)私有云的內(nèi)存虛擬化效率最低值為8 687/10 084×100%≈86.14%。
利用Fio磁盤測(cè)試工具對(duì)虛擬機(jī)、阿里云主機(jī)、物理機(jī)的磁盤進(jìn)行IOPS讀寫(隨機(jī)讀寫)及順序讀寫測(cè)試。
圖9為虛擬機(jī)400 GB HDD、阿里云400 GB SSD磁盤讀寫結(jié)果。
圖9 虛擬機(jī)、阿里云400 GB磁盤讀寫結(jié)果
圖中,阿里云隨機(jī)讀寫的兩條折線幾乎完全重合,這是由于阿里云存在對(duì)磁盤的限速,所以阿里云主機(jī)IOPS讀寫非常穩(wěn)定在13 200 IOPS/s,順序讀寫吞吐量穩(wěn)定在288 MB/s,幾乎沒有波動(dòng)。虛擬機(jī)的IOPS讀寫分別在20 000 IOPS/s和5 000 IOPS/s上下波動(dòng),順序讀寫吞吐量分別在840 MB/s和320 MB/s上下波動(dòng)。
圖10為虛擬機(jī)800 GB HDD、阿里云800 GB SSD磁盤讀寫結(jié)果。
圖10 虛擬機(jī)、阿里云800 GB磁盤讀寫結(jié)果
阿里云主機(jī)的IOPS讀寫非常穩(wěn)定在20 000 IOPS/s,順序讀寫吞吐量穩(wěn)定在300 MB/s。虛擬機(jī)的隨機(jī)IOPS讀寫分別在19 800 IOPS/s和4 800 IOPS/s上下波動(dòng),順序讀寫吞吐量分別在800 MB/s和300 MB/s上下波動(dòng)。
圖11為物理機(jī)800 GB HDD磁盤讀寫結(jié)果。圖12為虛擬機(jī)、阿里云主機(jī)、物理機(jī)磁盤讀寫能力對(duì)比圖,對(duì)比結(jié)果圖中的數(shù)值采用20次測(cè)量結(jié)果的平均值。
通過對(duì)比圖可以看到,阿里云所能達(dá)到的最大IOPS數(shù)和吞吐量隨著磁盤容量的增加而增大,直到達(dá)到其聲稱的標(biāo)準(zhǔn),而實(shí)驗(yàn)私有云的讀寫能力比較穩(wěn)定,磁盤容量并不會(huì)對(duì)讀寫能力造成過多影響。由于實(shí)驗(yàn)私有云采用的ceph存儲(chǔ)結(jié)構(gòu),其在順序讀方面可以達(dá)到阿里云SSD的2.5倍以上。隨機(jī)讀、順序?qū)懩芰σ不九c阿里云持平。在隨機(jī)寫方面,雖然不能達(dá)到SSD的性能,但是仍然比普通HDD的性能高7倍左右。
圖11 物理機(jī)800 GB HDD磁盤讀寫結(jié)果
圖12 虛擬機(jī)、阿里云主機(jī)、物理機(jī)磁盤讀寫能力對(duì)比
由此可見,采用ceph存儲(chǔ)架構(gòu)的實(shí)驗(yàn)私有云平臺(tái),雖然使用普通HDD作為存儲(chǔ)磁盤,但是由于ceph的分布式存儲(chǔ)特性,其磁盤讀寫性能已經(jīng)遠(yuǎn)遠(yuǎn)超過普通HDD,甚至在順序讀寫、隨機(jī)讀方面已經(jīng)達(dá)到甚至超過公有云提供的SSD。
通過以上實(shí)驗(yàn)結(jié)果可以看到,針對(duì)鐵路特別優(yōu)化的私有云性能完全可以滿足不同業(yè)務(wù)的需求。CPU、內(nèi)存虛擬化效率可以達(dá)到85%左右,與物理機(jī)性能差距較小,基本可以達(dá)到實(shí)時(shí)計(jì)算的需求。在磁盤讀寫方面,由于采用特別優(yōu)化的Ceph存儲(chǔ)結(jié)構(gòu),只需要采購普通機(jī)械硬盤也可以達(dá)到媲美公有云固態(tài)硬盤的性能標(biāo)準(zhǔn),在減少花銷的基礎(chǔ)上,最大化提升磁盤的性能,完全滿足大數(shù)據(jù)吞吐的需求。綜上所述,文中所提出的基線標(biāo)準(zhǔn)即物理機(jī)的利用率應(yīng)當(dāng)保持在75%以上,私有云主機(jī)性能達(dá)到同規(guī)格公有云主機(jī)性能的90%以上的設(shè)想成立,實(shí)驗(yàn)私有云平臺(tái)各項(xiàng)指標(biāo)達(dá)到預(yù)期設(shè)想,該性能評(píng)測(cè)方法可以適配于鐵路私有云平臺(tái)。但是因?yàn)楦麒F路段采購的設(shè)備不同,所以此方法需要在更多的鐵路段中進(jìn)行實(shí)驗(yàn)以保證易用性和穩(wěn)定性。
目前,此實(shí)驗(yàn)云平臺(tái)已經(jīng)部署在京沈客專試驗(yàn)線遼寧段中,我們將繼續(xù)關(guān)注該評(píng)測(cè)方法在私有云平臺(tái)中的表現(xiàn),適時(shí)調(diào)整,深度優(yōu)化,保證評(píng)測(cè)方法的可用性、準(zhǔn)確性和穩(wěn)定性。