陳 煜,王樹偉,林 林,劉 穎
(中國水利水電科學(xué)研究院 信息中心,北京 100038)
全國山洪災(zāi)害防治管理平臺建設(shè)中的若干關(guān)鍵技術(shù)研究與實踐
陳 煜,王樹偉,林 林,劉 穎
(中國水利水電科學(xué)研究院 信息中心,北京 100038)
全國山洪災(zāi)害防治管理平臺是承載全國范圍山洪災(zāi)害調(diào)查評價數(shù)據(jù)采集、審核、匯集、監(jiān)測、預(yù)警和信息管理服務(wù)等重要任務(wù)的專業(yè)信息處理平臺。本文結(jié)合全國山洪災(zāi)害防治管理平臺建設(shè)實踐,論述了高性能計算、高可靠性存儲、云計算和氟冷一體化機柜等關(guān)鍵技術(shù)的研究與應(yīng)用,并結(jié)合IT新技術(shù)和新產(chǎn)品的集成應(yīng)用實踐,提出了實用、經(jīng)濟和環(huán)保的大型水利專業(yè)信息化云端平臺建設(shè)一體化解決方案。
山洪災(zāi)害;并行計算;云計算;氟冷一體化機柜;管理平臺
全國山洪災(zāi)害防治管理平臺是承載全國范圍山洪災(zāi)害調(diào)查評價數(shù)據(jù)采集、審核、匯集、監(jiān)測、預(yù)警和信息管理服務(wù)等重要任務(wù)的專業(yè)信息處理平臺。該平臺的建設(shè)在充分利用建設(shè)單位現(xiàn)有信息化資源和技術(shù)優(yōu)勢的基礎(chǔ)上運用了大量計算機科學(xué)界的新技術(shù),以資源整合和信息共享為核心手段,集成建立具有高性能計算、高可靠性存貯、綜合信息服務(wù)和高速安全信息交換功能的專業(yè)信息處理平臺,支持匯集全國各省區(qū)山洪災(zāi)害調(diào)查評價成果,形成國家級山洪災(zāi)害調(diào)查評價數(shù)據(jù)庫和山洪災(zāi)害監(jiān)測預(yù)警信息管理服務(wù)系統(tǒng),建立與水文、氣象、國土部門信息交換和知識共享渠道,管理全國山洪災(zāi)害監(jiān)測預(yù)警信息,進行山洪災(zāi)害風(fēng)險評估、趨勢分析與預(yù)報,提供山洪災(zāi)害預(yù)警信息宏觀服務(wù),為國家防總和其他政府部門防災(zāi)決策提供技術(shù)支撐,為社會公眾提供山洪災(zāi)害防御信息服務(wù)。
全國山洪災(zāi)害防治管理平臺建設(shè)工作包括中央本級和地方各級分布式信息管理平臺的硬件平臺、信息系統(tǒng)和專業(yè)軟件等建設(shè)內(nèi)容。其中,中央本級硬件平臺建設(shè)任務(wù)為全國山洪災(zāi)害防治提供高效、便捷、安全、可靠的中央級專業(yè)信息平臺運行環(huán)境。本文僅針對中央本級硬件平臺建設(shè)過程中涉及的高性能計算、高可靠性存儲、云計算、氟冷一體化系統(tǒng)及其整體平臺架構(gòu)等關(guān)鍵技術(shù)問題的研究與應(yīng)用進行討論。
全國山洪災(zāi)害防治管理平臺(中央本級)主要由高性能科學(xué)計算集群(HPCC)、高可靠性數(shù)據(jù)存儲集群(HASC)、山洪災(zāi)害防治信息服務(wù)系統(tǒng)(ISCS)、高速光纖信息交換網(wǎng)絡(luò)系統(tǒng)(HFNS)、安全無線網(wǎng)絡(luò)接入系統(tǒng)(SWLS)、計算機機房改造及其配套設(shè)施完善等內(nèi)容,為全國山洪災(zāi)害防治提供高效、便捷、安全、可靠的中央級專業(yè)信息平臺運行環(huán)境。平臺總體架構(gòu)如圖1所示。
HPCC提供高速度、高精度、大容量并行計算能力,支持山洪災(zāi)害預(yù)測、預(yù)報和預(yù)警處理過程中的各種計算密集型應(yīng)用;HASC提供高可靠性快速讀寫大吞吐量存儲能力,支持全國山洪災(zāi)害調(diào)查評價數(shù)據(jù)匯集和存儲管理應(yīng)用;ISCS提供基于云計算的虛擬化信息服務(wù)能力,支持全國山洪災(zāi)害調(diào)查評價數(shù)據(jù)采集、審核、匯集、監(jiān)測、預(yù)警等專業(yè)信息服務(wù)應(yīng)用;HFNS和SWLS提供雙信道高速、寬帶、安全網(wǎng)絡(luò)通信傳輸能力,支持全國山洪災(zāi)害防治管理平臺的數(shù)據(jù)交換與信息共享;計算機機房改造及其配套設(shè)施完善提供基于第IV代制冷技術(shù)的氟冷一體化機柜、不間斷電力供應(yīng)和機房運維自動監(jiān)控能力,支持全國山洪災(zāi)害防治管理平臺的正常運行。
圖1 全國山洪災(zāi)害防治管理平臺總體架構(gòu)
3.1 高性能計算 高性能計算(High performance computing,HPC)是指使用多個處理器或多臺計算機的計算系統(tǒng)及其環(huán)境[1]。大多數(shù)基于集群的HPC系統(tǒng)使用高性能網(wǎng)絡(luò)互連(例如InfiniBand、Myrinet等),常用簡單的總線拓撲結(jié)構(gòu)組織高性能網(wǎng)絡(luò)拓撲,網(wǎng)狀網(wǎng)能夠改善高性能網(wǎng)絡(luò)效能及數(shù)據(jù)傳輸速率,實現(xiàn)更高的網(wǎng)絡(luò)性能。
山洪災(zāi)害防治管理需要實時處理大量山洪災(zāi)害調(diào)查評價數(shù)據(jù),進行動態(tài)建模、精細計算和仿真分析。該平臺采用刀片架構(gòu)建立并行計算集群,是性價比較為優(yōu)越的有效解決方案之一,支持山洪災(zāi)害預(yù)測、預(yù)報和預(yù)警過程中各種計算密集型應(yīng)用業(yè)務(wù)的高性能科學(xué)計算。
全國山洪災(zāi)害防治管理平臺的高性能科學(xué)計算集群系統(tǒng)架構(gòu)見圖2,集群配置我國自主知識產(chǎn)權(quán)的曙光TC6400H刀箱架構(gòu)平臺,64臺雙路刀片服務(wù)器作為集群并行計算節(jié)點,每個刀片服務(wù)器配置2顆Intel Xeon E5-2620 v2處理器(6核心,主頻2.1GHz),8×8GB DDR3 1600MHz ECC REG四通道內(nèi)存,2個千兆以太網(wǎng)接口,1個56Gb FDR InfiniBand網(wǎng)絡(luò)接口,1塊300GB SAS硬盤。集群支持Linux和Windows操作系統(tǒng),提供Fortran、C、C++語言編程環(huán)境和MPI、OpenMP并行計算程序庫。集成后的計算集群整體為64個計算節(jié)點、128個CPU、768核、4TG內(nèi)存,雙精度浮點計算峰值能力達到12.9萬億次/s,能夠滿足全國山洪災(zāi)害防治管理平臺的計算密集型應(yīng)用需求。
3.2 高可靠性存儲 全國山洪災(zāi)害防治管理平臺需要面向全國,實時處理和存儲管理大量山洪災(zāi)害調(diào)查評價數(shù)據(jù),大容量、快速存取和高可靠性是對山洪災(zāi)害防治管理數(shù)據(jù)存儲應(yīng)用的關(guān)鍵需求。充分利用傳統(tǒng)網(wǎng)絡(luò)存儲技術(shù)(Network Storage Technologies)和現(xiàn)代并行存儲(PDS:distributed Parallel Da-ta Storage Technology)技術(shù),建立高可靠性存儲集群,支持山洪災(zāi)害數(shù)據(jù)存儲管理和大數(shù)據(jù)處理應(yīng)用業(yè)務(wù)。
圖2 高性能計算集群系統(tǒng)架構(gòu)
傳統(tǒng)網(wǎng)絡(luò)存儲大致可分為3種結(jié)構(gòu):(1)直連式存儲(DAS:Direct Attached Storage);(2)網(wǎng)絡(luò)存儲設(shè)備(NAS:Network Attached Storage);(3)存儲網(wǎng)絡(luò)(SAN:Storage Area Network)[2]。隨著信息技術(shù)的發(fā)展及其應(yīng)用普及,數(shù)據(jù)爆炸性增長,PB規(guī)模的非結(jié)構(gòu)化數(shù)據(jù)越來越常見,針對海量非結(jié)構(gòu)化數(shù)據(jù)處理的密集型I/O及海量并發(fā)訪問需求的PDS技術(shù)應(yīng)運而生,并逐漸成為代表存儲技術(shù)、網(wǎng)絡(luò)通信技術(shù)以及數(shù)據(jù)管理技術(shù)集成發(fā)展方向的新型存儲體系架構(gòu)。
全國山洪災(zāi)害防治管理平臺節(jié)點級存儲(包括計算節(jié)點、管理節(jié)點、業(yè)務(wù)邏輯節(jié)點等)采用DAS技術(shù),結(jié)構(gòu)化數(shù)據(jù)存儲采用NAS技術(shù),數(shù)據(jù)匯總和容錯/容災(zāi)處理采用SAN技術(shù),非結(jié)構(gòu)化數(shù)據(jù)存儲和高性能計算、流式計算過程中的數(shù)據(jù)存儲采用PDS技術(shù)。
全國山洪災(zāi)害防治管理平臺的NAS存儲集群系統(tǒng)架構(gòu)見圖3,包括我國自主知識產(chǎn)權(quán)的曙光DS900 NAS盤陣列3臺,配置6個DS900-G10控制器和72GB一級Cache,對外提供12個10Gb、12個1Gb IP主機接口以及12個4Gb FC主機接口(其中12個10Gb以及12個1Gb IP可分別接入2個數(shù)據(jù)網(wǎng)絡(luò)的以太網(wǎng)交換機,組成冗余數(shù)據(jù)訪問鏈路,為上層計算節(jié)點提供NAS存儲服務(wù)),提供NFS和CIFS兩種NAS存儲訪問協(xié)議,共配置6套滿配24塊7200RPM 4TB SATA硬盤擴展柜,可對外提供504TB裸容量的數(shù)據(jù)存儲空間。
并行存儲系統(tǒng)由索引控制器、數(shù)據(jù)控制器、管理控制器和應(yīng)用服務(wù)器客戶端等組成。其中,索引控制器用于管理存儲系統(tǒng)的所有索引數(shù)據(jù)和命名空間,對外提供單一的全局映像。數(shù)據(jù)控制器用于提供數(shù)據(jù)存儲空間,并實現(xiàn)支持多個副本文件的并行存取。管理控制器提供統(tǒng)一的控制管理界面,管理員通過該節(jié)點管理整個存儲系統(tǒng)。應(yīng)用服務(wù)器客戶端向上層應(yīng)用提供數(shù)據(jù)訪問接口。
圖3 NAS存儲集群系統(tǒng)架構(gòu)
圖4 并行存儲系統(tǒng)架構(gòu)
全國山洪災(zāi)害防治管理平臺的并行存儲系統(tǒng)(架構(gòu)見圖4)采用固態(tài)硬盤(SSD)+串行連接SCSI(SAS)硬盤分級存儲結(jié)構(gòu)的ParaStor200存儲系統(tǒng),設(shè)計裸容量為56.88TB,聚合帶寬為不低于3GB/s;采用SSD和SAS磁盤相結(jié)合的優(yōu)勢在于熱點數(shù)據(jù)優(yōu)先存放在SSD分區(qū),冷數(shù)據(jù)自動遷移到SAS分區(qū),熱數(shù)據(jù)可以回遷(數(shù)據(jù)遷移策略、綜合數(shù)據(jù)訪問頻率、文件大小等遷移策略均可干預(yù)和定制),數(shù)據(jù)遷移過程在SSD和SAS磁盤之間以數(shù)據(jù)塊級別并發(fā)實現(xiàn),速度快且對存儲性能影響較小,整個數(shù)據(jù)遷移過程自動。
3.3 云計算 云計算是基于互聯(lián)網(wǎng)的、大眾參與的、以服務(wù)形式提供的計算模式,其目的是資源分享與整合,其計算資源是動態(tài)、可伸縮、且被虛擬化的[3]。云計算的技術(shù)特征是:彈性、透明、積木化、通用、動態(tài)、多租賃和大用戶、大數(shù)據(jù)、大系統(tǒng)。云計算既是商業(yè)模式又是技術(shù)模式。云服務(wù)是商業(yè)模式,云計算平臺是技術(shù)模式。云服務(wù)也可以通過傳統(tǒng)技術(shù)提供,云平臺技術(shù)也可以支持傳統(tǒng)應(yīng)用。云平臺技術(shù)與云服務(wù)相結(jié)合是最理想的云計算,也是云計算的發(fā)展趨勢。
云計算采用虛擬化技術(shù)和云服務(wù)理念實現(xiàn)計算資源的動態(tài)配置和可伸縮,從而能夠有效避免信息化應(yīng)用項目按高標(biāo)準(zhǔn)配置建設(shè)造成投入運行初期大量資源閑置而形成的投資浪費,以及按低標(biāo)準(zhǔn)配置建設(shè)隨著運行周期的延長和應(yīng)用推廣的深入而需要不斷增加投入擴大建設(shè)規(guī)模和提升系統(tǒng)性能,導(dǎo)致反復(fù)重構(gòu)系統(tǒng)而形成的浪費和麻煩[4]。
全國山洪災(zāi)害防治管理平臺建設(shè),考慮到隨著山洪災(zāi)害調(diào)查評價數(shù)據(jù)的不斷豐富和山洪災(zāi)害監(jiān)測、預(yù)警和信息服務(wù)應(yīng)用不斷發(fā)展,會對平臺的計算資源、存儲資源和網(wǎng)絡(luò)資源不斷提出越來越高的新要求,基于虛擬化技術(shù)搭建全國山洪災(zāi)害防治管理信息服務(wù)云平臺,可以為國家級山洪災(zāi)害調(diào)查評價數(shù)據(jù)審核匯集和山洪災(zāi)害監(jiān)測預(yù)警信息管理及服務(wù)應(yīng)用提供高效、穩(wěn)定、可靠,并具有可擴展、靈活管理和架構(gòu)開放等特點的運行環(huán)境。
全國山洪災(zāi)害防治管理平臺的應(yīng)用服務(wù)和數(shù)據(jù)服務(wù)區(qū)系統(tǒng)架構(gòu)見圖5,采用虛擬化技術(shù)配置6臺物理服務(wù)器作為公用計算資源池,模擬成多臺邏輯服務(wù)器,分別部署國家級山洪災(zāi)害調(diào)查評價數(shù)據(jù)審核匯集系統(tǒng)、國家級山洪災(zāi)害監(jiān)測預(yù)警信息管理及服務(wù)系統(tǒng),并為以后的計算資源動態(tài)擴展提供基礎(chǔ);配置4臺物理機搭建數(shù)據(jù)庫服務(wù)器RAC實時應(yīng)用集群,提供數(shù)據(jù)存儲管理功能;配置2臺服務(wù)器作為ArcGIS應(yīng)用服務(wù)器,提供地圖應(yīng)用服務(wù);配置2臺物理服務(wù)器用作虛擬化控制服務(wù)器,確保虛擬化系統(tǒng)的可控性、可靠性和可監(jiān)控性;配置12盤位的存儲設(shè)備和雙控制器,通過雙光纖交換機將應(yīng)用物理服務(wù)器、ArcGIS服務(wù)器和數(shù)據(jù)庫服務(wù)器等進行連接,實現(xiàn)數(shù)據(jù)存儲的集群和冗余,提供負載均衡及災(zāi)備。
圖5 全國山洪災(zāi)害防治管理平臺云計算系統(tǒng)架構(gòu)
虛擬化系統(tǒng)物理服務(wù)器集群配置我國自主知識產(chǎn)權(quán)的浪潮NF8460M 3服務(wù)器產(chǎn)品6臺,采用Xenserver 6.2進行虛擬化管理;數(shù)據(jù)庫服務(wù)器集群配置我國自主知識產(chǎn)權(quán)的浪潮NF8420M3服務(wù)器產(chǎn)品4臺,數(shù)據(jù)庫管理系統(tǒng)采用Oracle Database Enterprise Edition 11G附加Oracle Real Application Cluster 11G;地理信息系統(tǒng)服務(wù)器集群配置我國自主知識產(chǎn)權(quán)的浪潮NF8420M 3服務(wù)器產(chǎn)品2臺,地理信息管理系統(tǒng)采用ESRI ArcGIS 10.2 for server、ArcGIS 10.2 for Desktop、ArcGIS 10.2 Engine。虛擬化10臺虛擬服務(wù)器,分別用于以下運行:(1)山洪災(zāi)害分析評價軟件;(2)數(shù)據(jù)分析軟件&文檔實時協(xié)同編輯系統(tǒng);(3)山洪災(zāi)害調(diào)查過程質(zhì)量控制軟件;(4)Java應(yīng)用服務(wù)器軟件&監(jiān)測預(yù)警系統(tǒng);(5)審核匯集系統(tǒng);(6)山洪模擬系統(tǒng);(7)審核匯集客戶端;(8)數(shù)據(jù)同步軟件;(9)數(shù)據(jù)分析軟件;(10)文檔實時協(xié)同編輯系統(tǒng)。
3.4 氟冷一體化機柜系統(tǒng) 全中山洪災(zāi)害防治管理平臺采用機柜排級(Row Level)技術(shù)特點的氟冷一體化機柜系統(tǒng),保障平臺核心設(shè)備和關(guān)鍵系統(tǒng)的安全運行。
氟冷一體化機柜系統(tǒng)突破傳統(tǒng)空調(diào)開放式送風(fēng)和地板下送風(fēng)的冷池制冷方法,采用密封氣流水平送風(fēng)模式,列間空調(diào)采用水平風(fēng)幕高壓送風(fēng),以25~27℃定點將冷空氣直接送入機柜,縮短了空氣的循環(huán)路徑,提高了回風(fēng)溫度,極大地提高了運行效率,滿足高密度機房制冷需求[5]。列間空調(diào)裝配采用數(shù)字化無刷直流外轉(zhuǎn)子電機的離心式風(fēng)機(EC風(fēng)機),氣流分布均勻,送風(fēng)更精準(zhǔn)。風(fēng)機可獨立控制,維修時不影響其它EC風(fēng)機工作。在智能化的基礎(chǔ)上,采用靈活的接管方式,上、下兩種方式均可選擇,配備進口二通或三通比例水調(diào)節(jié)閥,根據(jù)負荷需要自動調(diào)節(jié)制冷量,溫控精度更高,節(jié)能效果顯著。氟冷一體化機柜系統(tǒng)以熱通道封閉為基礎(chǔ),通過機柜內(nèi)部服務(wù)器自身風(fēng)機的循環(huán),省去了空調(diào)系統(tǒng)的室內(nèi)循環(huán)風(fēng)機,降低了空調(diào)系統(tǒng)功耗,提高了空調(diào)運行效率,可以大幅度降低數(shù)據(jù)中心電源使用效率(PUE:Power Usage Effectiveness)。配置氟泵節(jié)能模塊,在低溫季節(jié)以氟泵運行代替壓縮機制冷運行,極大地降低了空調(diào)功耗。鋁鎂合金機柜帶有制冷、監(jiān)控、布線、配電和防雷等各個子系統(tǒng),全封閉式系統(tǒng)節(jié)能、環(huán)保、穩(wěn)定、可靠。
全國山洪災(zāi)害防治管理平臺是承載全國范圍山洪災(zāi)害調(diào)查評價數(shù)據(jù)采集、審核、匯集、監(jiān)測、預(yù)警和信息管理服務(wù)等重要任務(wù)的專業(yè)信息處理平臺。該平臺在建設(shè)過程中深入研究并采用了高性能計算、高可靠性存儲、云計算和氟冷一體化機柜系統(tǒng)等關(guān)鍵技術(shù),成功實踐了實用、經(jīng)濟、環(huán)保的大型水利專業(yè)信息化云端平臺建設(shè)一體化解決方案,為全國山洪災(zāi)害防治提供高效、可靠、安全的信息化運行資源環(huán)境。建設(shè)成果具有下列突出優(yōu)點。
(1)高性能計算集群。采用多并發(fā)鏈接轉(zhuǎn)換線纜技術(shù)(InfiniBand)網(wǎng)絡(luò)集成64個計算節(jié)點,共計128個CPU、768核、4TB內(nèi)存,實測運算能力達到浮點雙精度計算12.26萬億次/s,是目前全國水利系統(tǒng)計算速度最快和計算能力最強的高性能計算平臺。
(2)高可靠性存儲集群。利用傳統(tǒng)網(wǎng)絡(luò)存儲技術(shù)(NST)和現(xiàn)代并行存儲技術(shù)(PDST)建立高可靠性存儲集群,配置PDS和NAS分級存儲器,提供504TB+56.88TB(裸容量)的數(shù)據(jù)存儲空間,并配置后備磁帶庫和數(shù)據(jù)自動備份恢復(fù)系統(tǒng)確保高可靠性。
(3)虛擬化服務(wù)器集群。采用虛擬化技術(shù)建立動態(tài)可伸縮的服務(wù)器資源池,為應(yīng)用平臺提供靈活的虛擬服務(wù)器配置,分別部署國家級山洪災(zāi)害調(diào)查評價數(shù)據(jù)審核匯集系統(tǒng)、山洪災(zāi)害監(jiān)測預(yù)警信息管理及服務(wù)系統(tǒng),并為后續(xù)的計算資源擴展建立技術(shù)基礎(chǔ)和管理基礎(chǔ)。
(4)氟冷一體化機柜系統(tǒng)。采用新一代機柜排內(nèi)循環(huán)制冷,有效解決高密度制冷瓶頸,降低機房PUE值,節(jié)能降耗,降低對機房環(huán)境的依賴,具有高制冷能力、高可用性和節(jié)能環(huán)保等特點。
這一系列新技術(shù)及系統(tǒng)集成后構(gòu)成的一體化解決方案,體現(xiàn)了多層次的技術(shù)創(chuàng)新和模式創(chuàng)新,對于水利專業(yè)大型信息化平臺及其運行環(huán)境建設(shè),具有重要參考價值。
[1] (德)Georg Hager Gerhard Wellein.高性能科學(xué)計算與工程計算[M].北京:機械工業(yè)出版社,2013.
[2] 劉鵬,等.中國云存儲發(fā)展報告[M].北京:電子工業(yè)出版社,2013.
[3] 吳基傳,等.云計算技術(shù)發(fā)展報告[M].第三版.北京:科學(xué)出版社,2013.
[4] 廣小明,等.虛擬化技術(shù)原理與實現(xiàn)[M].北京:電子工業(yè)出版社,2012.
[5] (美)Douglas Alger.數(shù)據(jù)中心經(jīng)典案例賞析[M].北京:人民郵電出版社,2014.
The Research and practice of key techniques used in constructing management platform of national mountain torrent disaster prevention
CHEN Yu,WANG Shuwei,LIN Lin,LIU Ying
(Information center of China Institute of Water Resources and Hydropower Research,Beijing 100038,China)
The national mountain torrent disaster prevention management platform is a professional information processing platform.It has many important functions,such as nationwide mountain torrent disaster investigation and evaluation;data collecting,examining and verifying,marshalling,monitoring and early warning;information management service.Based on the practice of building the nationwide mountain torrent disaster prevention platform,this thesis expounds the research and practice of key techniques used in high performance computing;high reliability storage;cloud computing;fluorine cold integrated cabinet.Also on the basis of the new IT techniques,and practice of the integrated application of new products,it proposes a practical,economical and environmental protective eproject which can construct a huge water resource information integrated cloud platform.
mountain torrent disaster;parallel computing;cloud computing;fluorine coldintegrated cabinet;management platfrom
P337
A
10.13244/j.cnki.jiwhr.2016.01.006
1672-3031(2016)01-0036-06
(責(zé)任編輯:王成麗)
2015-10-29
中國水利水電科學(xué)研究院專項(IT0145C01201500000)
陳煜(1968-),男,北京人,本科,高級工程師,主要從事計算機科學(xué)、軟件開發(fā)、網(wǎng)絡(luò)工程和水利信息化技術(shù)的研究。E-mail:chenyu@iwhr.com