国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高性能計算集群中的網(wǎng)絡技術研究與實踐

2016-12-14 06:18:14段媛媛
關鍵詞:存儲系統(tǒng)山洪隊列

劉 穎,陳 煜,林 林,段媛媛

(中國水利水電科學研究院 信息中心,北京 100038)

高性能計算集群中的網(wǎng)絡技術研究與實踐

劉 穎,陳 煜,林 林,段媛媛

(中國水利水電科學研究院 信息中心,北京 100038)

隨著高性能計算技術及計算規(guī)模的快速發(fā)展,網(wǎng)絡通信速度的發(fā)展已遠遠落后于CPU的發(fā)展,網(wǎng)絡性能已成為高性能計算集群發(fā)展的瓶頸。全國山洪災害防治管理平臺,需要海量數(shù)據(jù)存儲能力和高速度、大容量、高精度計算處理能力,為了打破網(wǎng)絡通信速度對高性能計算集群速度的制約,采用InfiniBand互連結(jié)構(gòu)有效的縮短網(wǎng)絡和CPU之間的性能差距,使高性能計算集群的整體性能趨于平衡。本文結(jié)合全國山洪災害防治管理平臺高性能計算集群的建設實踐,針對其中的專用網(wǎng)絡技術研究及網(wǎng)絡環(huán)境的搭建作了重點闡述。

高性能計算;高性能計算集群;并行計算;網(wǎng)絡技術;InfiniBand

1 研究背景

高性能計算集群是當前較為先進的計算體系,是融合了計算、存儲、網(wǎng)絡和軟件的綜合體[1]。在構(gòu)建整個系統(tǒng)的過程中,要保證架構(gòu)的每個環(huán)節(jié)采用先進且成熟的產(chǎn)品與技術,要均衡各環(huán)節(jié)之間的關系,消除系統(tǒng)構(gòu)架的瓶頸,保證整個系統(tǒng)的高效率運行,可以滿足未來數(shù)年技術和應用發(fā)展的需要。集群系統(tǒng)的主要考核指標是整體性能,即計算、存儲、I/O能力與智能管理的體現(xiàn)[2]。

Infiniband網(wǎng)絡通過一套中心Infiniband交換機在存儲、網(wǎng)絡以及服務器等設備之間建立一個單一的連接鏈路[3]。由中心Infiniband交換機來控制流量,提高系統(tǒng)性能、可靠性和有效性,緩解各硬件設備之間的數(shù)據(jù)流量擁塞,有效的解決傳統(tǒng)I/O結(jié)構(gòu)的通信傳輸瓶頸。

全國山洪災害防治管理平臺支撐2 058個縣的山洪災害預警預報,需要海量的數(shù)據(jù)存儲能力和計算處理能力,高性能計算集群是提高全國山洪災害防治管理研究水平的重要基礎設施。集群中所有節(jié)點均保證充足的計算能力,節(jié)點間使用56Gb/s的Infiniband網(wǎng)絡高速互連,以保證通信密集型并行應用對互連網(wǎng)絡的性能要求。

2 高性能計算集群網(wǎng)絡通信技術

高性能計算(High performance computing,HPC)指通常使用多個處理器或者某一集群中組織的幾臺計算機的計算系統(tǒng)和環(huán)境。大多數(shù)基于集群的HPC系統(tǒng)使用高性能網(wǎng)絡互連[4]。高性能計算集群(High performance computing cluster,HPCC)主要應用于科學計算、氣象分析、地質(zhì)勘探等領域。這一類應用計算量大,中間計算結(jié)果多,要求有高效的消息傳遞機制和海量數(shù)據(jù)存儲訪問能力,而這兩者的效率,很大程度上取決于網(wǎng)絡速度[5]。目前絕大部分的應用課題都采用MPI(Multi Point Interface,多點接口)傳遞消息和并行處理。在傳統(tǒng)網(wǎng)絡上運行MPI課題時有兩個顯著的問題:消息傳遞慢、系統(tǒng)CPU占用率高。而海量數(shù)據(jù)存儲訪問在HPCC中一般是通過共享文件系統(tǒng)來實現(xiàn)的,傳統(tǒng)網(wǎng)絡上的共享文件系統(tǒng)也有兩個顯著的缺點,即速度慢和并發(fā)訪問能力差。而使用Infiniband技術的主要目的就是解決這兩個方面的問題。并行計算(Parallel computing)基本思想是用多個處理器來協(xié)同求解同一問題,即將被求解的問題分解成若干個部分,各部分均由一個獨立的處理器來計算。并行計算既可以是專門設計的、含有多個處理器的超級計算機,也可以是以某種方式互連的若干臺的獨立計算機構(gòu)成的集群。

Infiniband技術是一種基于全雙工、交換式串行傳輸?shù)男滦虸/O總線網(wǎng)絡技術。簡化并且提高了服務器間連接的速度,還能與遠程存儲設備和網(wǎng)絡設備相連接。該項技術具有延時低、帶寬高、互操作性、可靠性和可擴展等特性。

2.1 In finiband的層次結(jié)構(gòu) 與傳統(tǒng)的TCP/IP網(wǎng)絡相同,Infiniband網(wǎng)絡也采用多層次結(jié)構(gòu)[6]。每層協(xié)議均不相同并且相互獨立。在消息傳送過程中,各層負責不同的任務,下層為上層提供服務,上層依賴于下層實現(xiàn)功能。Infiniband采用IPv6報頭格式,其數(shù)據(jù)包報頭包括全局路由標識符(Global Routing Header,GRH)、本地路由標識符(Local Routing Header,LRH)和基本的傳輸標識符(Base TransportHeader,BTH)等。Infiniband的層次結(jié)構(gòu)如圖1所示。

圖1 Infiniband的層次結(jié)構(gòu)

2.2 In finiband的通信機制 Infiniband借鑒了虛擬接口結(jié)構(gòu)(Virtual Interface Architecture,VIA)標準實現(xiàn)網(wǎng)絡通信。VIA是由Intel、Microsoft和Compaq共同開發(fā)的用戶層互連協(xié)議標準,目的是避免傳統(tǒng)網(wǎng)絡協(xié)議的過度開銷和延時。VIA由4個基本部分組成,包括虛擬接口、完成隊列、VI提供者和VI用戶。虛擬接口由一對工作隊列組成,即發(fā)送隊列和接收隊列。VI提供者由一個物理網(wǎng)絡適配器和一個軟件核心代理組成。VI用戶由一個應用程序和一個操作系統(tǒng)通信基礎設施組成。VI用戶將請求以描述符的形式發(fā)送至工作隊列中,以達到發(fā)送或接收數(shù)據(jù)的目的。VI提供者異步處理工作隊列中的描述符。每一個工作隊列都有一個相關的提醒機制,提醒機制會通知VI提供者工作隊列中有新的描述符等待處理,提醒機制由適配器直接實現(xiàn)而不需要操作系統(tǒng)的介入。完成隊列則允許VI用戶將多個工作隊列中描述符的完成情況進行合并報告。

作為VI用戶,應用程序通過操作系統(tǒng)的通信接口與VI用戶代理進行交互。VI用戶訪問網(wǎng)絡硬件資源時,由VI用戶代理先向內(nèi)核登記用戶緩存,隨后將控制轉(zhuǎn)給VI核心代理。VI核心代理作為VI的提供者,將應用程序所劃出的緩存控制交給網(wǎng)絡適配器。這些緩存通過隊列進行分配,而隊列則通過驅(qū)動程序和網(wǎng)絡適配器進行管理,應用程序使用這些隊列在系統(tǒng)之間讀寫數(shù)據(jù)。VI應用程序要發(fā)送數(shù)據(jù),首先將數(shù)據(jù)存儲位置的指針等信息組成一個描述符送進VI隊列對中,網(wǎng)絡適配器在后臺對其進行讀、寫和RDMA等操作[7]。這樣就避免了傳統(tǒng)協(xié)議在數(shù)據(jù)通過網(wǎng)絡協(xié)議棧時所做的多次數(shù)據(jù)拷貝和上下文切換的開銷,實現(xiàn)零拷貝,大幅度節(jié)省了數(shù)據(jù)傳輸響應時間。

3 高性能計算集群網(wǎng)絡通信模型

高性能計算集群主要由并行計算節(jié)點、管理節(jié)點、I/O節(jié)點、網(wǎng)絡互聯(lián)系統(tǒng)及其他輔助設施組成。高性能計算集群具有優(yōu)異的可擴展性,用戶可以根據(jù)自己的需求隨時增減系統(tǒng)中節(jié)點的數(shù)量[8]。在將來計算能力需要擴充時,只需要增加一定數(shù)量的節(jié)點數(shù)目,即可在不影響當前應用的情況下,擴展整個系統(tǒng)的計算與存儲能力[9]。

全國山洪災害防治管理平臺高性能計算集群使用刀片集群架構(gòu),提供64個刀片節(jié)點,配置并行存儲系統(tǒng)。網(wǎng)絡互聯(lián)采用InfiniBand技術,提高網(wǎng)絡性能,保證計算集群數(shù)據(jù)通信的需求。

3.1 并行計算網(wǎng)絡 以MPI為代表的高性能計算程序,在多節(jié)點并行運行時將產(chǎn)生有頻繁大量的網(wǎng)絡數(shù)據(jù)通信,計算網(wǎng)絡的性能對于并行程序的計算性能、并行加速比以及可擴展性都具有決定性的影響。因此,在實際應用中,大部分并行應用程序?qū)τ嬎憔W(wǎng)絡的帶寬和延遲性能都非常依賴,低延遲、高帶寬的計算網(wǎng)絡是大規(guī)模并行計算必不可少的要素之一。

目前大規(guī)模高性能計算集群均采用分布式并行存儲架構(gòu),集群的規(guī)模越大,應用程序?qū)Υ鎯/O性能要求越高,則對并行存儲系統(tǒng)的存儲網(wǎng)絡性能要求越高。

為了降低網(wǎng)絡延遲,提高并行和存儲I/O性能,全國山洪災害防治管理平臺高性能計算集群采用了目前性能較高的56Gb/s FDR InfiniBand高速網(wǎng)絡,用作并行計算程序的計算網(wǎng)絡以及并行存儲系統(tǒng)的存儲網(wǎng)絡。并行計算網(wǎng)絡配置3臺36端口FDR InfiniBand交換機,共108個FDR端口。InfiniBand網(wǎng)絡的拓撲結(jié)構(gòu)如圖2所示。

圖2 InfiniBand并行計算網(wǎng)絡拓撲結(jié)構(gòu)

56Gb/s FDR Infiniband是目前帶寬較高、延遲較低的產(chǎn)品,網(wǎng)絡帶寬是QDR的兩倍,延遲只有0.7μs,是QDR的一半。FDR InfiniBand的56Gb/s帶寬和64位/66位編碼方式實現(xiàn)了接近100%的傳輸效率,700納秒的點對點延時,第一次將通用網(wǎng)絡的帶入了納秒時代,實現(xiàn)了在應用延時上的數(shù)量級革新。

56Gb/s FDR Infini Band網(wǎng)絡相比其上一代的40Gb/s QDR Infiniband網(wǎng)絡,性能得到了非常大的提升。主要體現(xiàn)在網(wǎng)絡傳輸性能的提高、網(wǎng)絡編碼效率的提升和PCI-E 3.0編碼效率的提升。FDR InfiniBand網(wǎng)絡與QDR InfiniBand網(wǎng)絡的性能對比如表1所示。由表1可見,QDR InfiniBand網(wǎng)絡由于編碼效率的影響,帶寬僅能達到3.2 GBps;而FDR InfiniBand網(wǎng)絡帶寬可達到6.6 GBps。

表1 FDR InfiniBand網(wǎng)絡與QDR InfiniBand網(wǎng)絡的性能對比

3.2 并行存儲網(wǎng)絡 計算分析任務會讀寫大量數(shù)據(jù)文件,從而對存儲系統(tǒng)的讀寫性能要求很高,如果使用集群外部的NAS存儲,其性能完全不能滿足高性能計算的存儲I/O需求,會形成為業(yè)務運行的要害瓶頸。因此全國山洪災害防治管理平臺為高性能計算集群建立并行存儲系統(tǒng),存儲介質(zhì)也有針對性的采用SSD+SAS結(jié)構(gòu),大幅度提高了存儲系統(tǒng)的I/O能力。

存儲系統(tǒng)包含2臺索引控制器和3臺數(shù)據(jù)控制器。2臺索引控制器雙活冗余,負責存儲系統(tǒng)的監(jiān)控管理。3臺數(shù)據(jù)控制器負責數(shù)據(jù)訪問請求,每臺配置18.96 TB裸容量(包括20塊900GB SAS硬盤和4塊240GB SSD硬盤)。系統(tǒng)控制節(jié)點、計算節(jié)點等客戶端通過FDR InfiniBand網(wǎng)絡訪問并行存儲系統(tǒng)。InfiniBand網(wǎng)絡連通計算集群和存儲集群,提高網(wǎng)絡存儲效率、I/O能力以及網(wǎng)絡通信性能,以保證全國山洪災害防治管理平臺通信密集型并行應用對互連網(wǎng)絡的性能要求。InfiniBand網(wǎng)絡拓撲結(jié)構(gòu)如圖3所示。

圖3 InfiniBand網(wǎng)絡拓撲結(jié)構(gòu)

3.3 管理網(wǎng)絡 管理網(wǎng)絡連接并行計算控制節(jié)點、并行計算節(jié)點、存儲節(jié)點等設備,實現(xiàn)系統(tǒng)中所有節(jié)點的連通[10]。管理網(wǎng)絡用于系統(tǒng)管理控制、系統(tǒng)監(jiān)控、作業(yè)的遞交、作業(yè)監(jiān)控管理等方面的數(shù)據(jù)通訊。

全國山洪災害防治管理平臺的管理網(wǎng)絡對網(wǎng)絡性能和網(wǎng)絡存儲的要求較低,沒有大量的I/O操作,因此搭建管理網(wǎng)絡,使用普通的48口千兆交換機搭建千兆管理網(wǎng),而不采用InfiniBand網(wǎng)絡,以減少平臺搭建費用。高性能科學計算集群拓撲如圖4所示。

圖4 高性能科學計算集群拓撲

4 高性能計算集群性能分析

高性能計算集群性能主要由InfiniBand網(wǎng)絡性能和集群計算效率決定。本文通過雙向帶寬和網(wǎng)絡延遲兩個主要指標測試網(wǎng)絡性能;實用linpack測試集群計算效率。

4.1 In finiBand網(wǎng)絡性能測試 InfiniBand網(wǎng)絡性能測試主要從雙向網(wǎng)絡帶寬和網(wǎng)絡延遲兩方面進行測試。

雙向網(wǎng)絡帶寬測試。在網(wǎng)絡中選取兩個節(jié)點node1和node2。在節(jié)點node2上啟動ib_w rite_bw命令服務端,具體命令及參數(shù)為:ib_write_bw-b-s 2,參數(shù)中的2為測試帶寬時所用傳輸數(shù)據(jù)塊大小。在node1啟動ib_w rite_bw命令客戶端,具體命令及參數(shù)為:ib_write_bw-b-s 2 inode2。

雙向帶寬測試結(jié)果如表2所示。

表2 雙向帶寬測試

通過上面的測試結(jié)果可以看出,節(jié)點間的雙向帶寬為11663MB×8bit/Byte=93.3Gb,單向帶寬約為46.65Gb/s。

網(wǎng)絡延遲測試。在網(wǎng)絡中選取兩個節(jié)點node1和node2。在節(jié)點node2上啟動ib_write_lat命令服務端,具體命令及參數(shù)為:ib_w rite_lat-s 2,參數(shù)中的2為測試帶寬時所用傳輸數(shù)據(jù)塊大小。在node1啟動ib_write_lat命令客戶端,具體命令及參數(shù)為:ib_write_lat-s 2 inode2。

網(wǎng)絡延遲測試結(jié)果如表3所示。

表3 網(wǎng)絡延遲測試

兩節(jié)點間的網(wǎng)絡延遲約為1μs。

4.2 linpack測試 Linpack是國際上最流行的用于測試高性能計算機系統(tǒng)浮點性能的標準。通過對高性能計算機采用高斯消元法求解一元N次稠密線性代數(shù)方程組的測試,評價高性能計算機的浮點性能。Linpack測試包括三類,Linpack100、Linpack1000和HPL。Linpack100求解規(guī)模為100階的稠密線性代數(shù)方程組,只允許采用編譯優(yōu)化選項進行優(yōu)化,不得更改代碼和注釋。Linpack1000要求求解1000階的線性代數(shù)方程組,達到指定的精度要求,允許在不改變計算量的前提下在算法和代碼上進行優(yōu)化。HPL(H igh Performance Linpack,高度并行計算基準測試)對數(shù)組大小沒有限制,求解問題的規(guī)模可以改變,除基本算法不可改變外,允許采用其它任何優(yōu)化方法。

全國山洪災害防治管理平臺的HPC集群總共配置64個刀片計算節(jié)點,通過不斷調(diào)整和優(yōu)化相關測試參數(shù),測試得到HPC集群linpack效率較高時的運行參數(shù)和結(jié)果數(shù)據(jù)如表4所示。HPC集群linpack效率為101.36%,計算效率表現(xiàn)優(yōu)良。

表4 HPC集群linpack測試結(jié)果

5 結(jié)論

全國山洪災害防治管理平臺高性能科學計算集群,采用InfiniBand網(wǎng)絡技術實現(xiàn)節(jié)點間的數(shù)據(jù)通信,集成后的集群整體計算能力經(jīng)Linpack測試達到雙精度浮點12萬億次/s;計算網(wǎng)絡節(jié)點間的單向帶寬約為46.65 Gb/s,網(wǎng)絡延遲約為1μs,數(shù)據(jù)通信效率明顯提升,有效的保證了全國山洪災害防治管理平臺計算密集、存儲密集、通信密集型應用對集群內(nèi)部各節(jié)點互連網(wǎng)絡通信性能的特殊要求。

[1] Rajkumar Buyya.High Performance Cluster Computing:Architectures and Systems,Volume I[M].Architectures&Systems,1999.

[2] 張軍華,臧勝濤,單聯(lián)瑜,等 .高性能計算的發(fā)展現(xiàn)狀及趨勢[J].石油地球物理勘探,2010,45(6):18-20.

[3] 謝向輝,彭龍根,吳志兵,等.基于InfiniBand的高性能計算機技術研究[J].計算機研究與發(fā)展,2005,42(6):906-908.

[4] 周興銘.高性能計算技術發(fā)展[J].自然雜志,2011,33(5):249.

[5] 何素貞,李書平,吳晨旭.高性能計算集群系統(tǒng)的設計和實現(xiàn)[J].廈門大學學報,2004,43(6):880-881.

[6] 沈利.Infiniband網(wǎng)絡接口的研究和實現(xiàn)[D].長沙:國防科學技術大學,2010.

[7] 徐志斌.基于Infiniband體系架構(gòu)的集群計算機互聯(lián)系統(tǒng)的研究[D].上海:上海大學,2007.

[8] 顧夢非,徐煒民.一個基于Linux的集群部署方案[J].計算機應用與軟件,2008,25(1):103.

[9] 孫超.高性能計算平臺的設計與應用[D].天津:天津大學,2013.

[10] 王勇超.高性能計算集群技術應用研究[D].西安:西安理工大學,2007.

Research and practice of high performance computing cluster network technology

LIU Ying,CHEN Yu,LIN Lin,DUAN Yuanyuan
(Information Center,IWHR,Beijing 100038,China)

With the development of technologies and scale of high performance computing,the improvement of communication speed is far behind the evolution of CPUs,and network capability becomes a significant restriction for the development of technologies of high performance computing cluster.National mountain flood prevention and management plat form demands a huge amount of capability of both storage and computing.In order to break the constraints on the performance of high-performance computing cluster,which originated in network communication speeds,applying the interconnect structure of InfiniBand that effectively diminishes the performance gap between the network and CPU and makes the performance of high performance computing tend to the balance.In this paper,the construction practice of high performance computing cluster is combined with the National mountain flood prevention and management platform.The network technology and construction of network environment is elaborated.

high performance computing;high performance computing cluster;parallel computing;network technology;InfiniBand

TP311.13

A

10.13244/j.cnki.jiwhr.2016.02.002

1672-3031(2016)02-0090-06

(責任編輯:王冰偉)

2015-08-28

資金項目:中國水利水電科學研究院專項(IT0145C01201500000)

劉穎(1986-),女,河北正定人,碩士生,工程師,主要從事網(wǎng)絡通信技術、高性能計算等研究。E-mail:liuying@iwhr.com

猜你喜歡
存儲系統(tǒng)山洪隊列
分布式存儲系統(tǒng)在企業(yè)檔案管理中的應用
哈爾濱軸承(2020年2期)2020-11-06 09:22:36
隊列里的小秘密
基于多隊列切換的SDN擁塞控制*
軟件(2020年3期)2020-04-20 00:58:44
優(yōu)雅地表達
天河超算存儲系統(tǒng)在美創(chuàng)佳績
在隊列里
豐田加速駛?cè)胱詣玉{駛隊列
遭遇暴雨山洪如何避險自救
華為震撼發(fā)布新一代OceanStor 18000 V3系列高端存儲系統(tǒng)
一種基于STM32的具有斷電保護機制的采集存儲系統(tǒng)設計
西盟| 两当县| 泾源县| 塔城市| 盐池县| 怀化市| 汶上县| 五河县| 宝坻区| 潮安县| 古浪县| 浦东新区| 两当县| 前郭尔| 浮山县| 灯塔市| 郧西县| 澄城县| 聊城市| 裕民县| 玛多县| 都江堰市| 和龙市| 章丘市| 泰宁县| 报价| 雅江县| 长泰县| 根河市| 吕梁市| 凤冈县| 来安县| 加查县| 新邵县| 玉林市| 手游| 招远市| 公安县| 绥阳县| 临高县| 宝应县|