国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

超算平臺(tái)在高校的建設(shè)及性能分析

2022-11-03 09:22何小波楊慶濤
現(xiàn)代信息科技 2022年17期
關(guān)鍵詞:校級(jí)院系高性能

何小波,楊慶濤

(重慶醫(yī)科大學(xué) 信息中心,重慶 400016)

0 引 言

高性能計(jì)算平臺(tái)對(duì)醫(yī)科院校的基礎(chǔ)醫(yī)學(xué)和生命科學(xué)的研究和發(fā)展有著非常重要的作用。由于學(xué)校學(xué)科建設(shè)和科研能力不斷增強(qiáng),對(duì)高性能運(yùn)算的需求也不斷提高?;诓粩嘣鲩L(zhǎng)的科研需求,我校開(kāi)啟了校級(jí)高性能計(jì)算平臺(tái)的建設(shè),面向全??蒲袌F(tuán)隊(duì)和人員提供高性能計(jì)算服務(wù),滿足各學(xué)科領(lǐng)域?qū)τ诖笠?guī)模數(shù)據(jù)處理和大規(guī)??茖W(xué)計(jì)算的需求。通過(guò)公共服務(wù)平臺(tái)的建設(shè),也將有助于學(xué)校生信領(lǐng)域的科學(xué)研究和發(fā)展,有利于校內(nèi)軟硬件資源的整合和高效使用,可有效降低科研成本。

1 超算建設(shè)的現(xiàn)狀分析

高性能平臺(tái)的使用將有力地支撐學(xué)??蒲谢顒?dòng)的開(kāi)展,但是由于專(zhuān)業(yè)性比較強(qiáng),真正能完全掌握超算平臺(tái)的使用和管理人員相對(duì)較少。目前,在高校中普遍是院系級(jí)的科研人員在進(jìn)行建設(shè)和使用,覆蓋的科研領(lǐng)域、范圍及使用的人員都比較有限。在前期的工作中,我校也建設(shè)有院系級(jí)的超算平臺(tái),然而使用效果并不理想。但通過(guò)對(duì)院系級(jí)高性能平臺(tái)的使用,我們?nèi)〉昧艘欢ǖ氖斋@:首先是在管理上已經(jīng)了解并掌握了平臺(tái)的運(yùn)行機(jī)制,為后續(xù)校級(jí)平臺(tái)的建設(shè)和管理工作奠定了基礎(chǔ);同時(shí)在高性能平臺(tái)的使用中,通過(guò)對(duì)平臺(tái)系統(tǒng)和調(diào)度軟件的學(xué)習(xí),以及在使用過(guò)程中不同學(xué)科方向的學(xué)者互相學(xué)習(xí),積累了一定的超算平臺(tái)使用經(jīng)驗(yàn)。其次,通過(guò)不斷的溝通和交流,很多專(zhuān)業(yè)人員和學(xué)生對(duì)超算平臺(tái)能夠提供和產(chǎn)生的價(jià)值有了非常清晰的認(rèn)識(shí),為后續(xù)校級(jí)平臺(tái)的建設(shè)提供了基礎(chǔ)和動(dòng)力。

2 超算平臺(tái)的搭建

超算平臺(tái)的建設(shè)對(duì)機(jī)房環(huán)境、電力供應(yīng)、軟硬件平臺(tái)及人才配給都有很高的要求,如果不具備這些條件,進(jìn)行超算平臺(tái)建設(shè)將變得非常困難。學(xué)校超算平臺(tái)的建設(shè)也非一帆風(fēng)順,但前期院系超算平臺(tái)的建設(shè)為后續(xù)進(jìn)行校級(jí)平臺(tái)建設(shè)提供了很多借鑒,同時(shí)也正是基于對(duì)前期院系級(jí)超算平臺(tái)的使用和摸索,使學(xué)校有信心和有能力進(jìn)行校級(jí)超算平臺(tái)的建設(shè)。在進(jìn)行超算平臺(tái)建設(shè)前,學(xué)校對(duì)超算的需求進(jìn)行了充分的調(diào)研,對(duì)各個(gè)院系的超算資源需求有了充分的認(rèn)識(shí),對(duì)醫(yī)科類(lèi)院系日常使用的軟件進(jìn)行了深入的調(diào)研和溝通。同時(shí),對(duì)目前各個(gè)廠家的主流產(chǎn)品和特點(diǎn)及各廠家使用的調(diào)度系統(tǒng)也進(jìn)行了充分的論證。在此基礎(chǔ)上,學(xué)校完成了整個(gè)平臺(tái)的建設(shè)。

整個(gè)集群的部署由以下幾個(gè)部分組成:2 臺(tái)服務(wù)器做管理登錄節(jié)點(diǎn),用戶(hù)通過(guò)管理節(jié)點(diǎn)進(jìn)行登錄并提交作業(yè);52 臺(tái)刀片服務(wù)器作為計(jì)算節(jié)點(diǎn);配備2 臺(tái)服務(wù)器作為GPU 計(jì)算節(jié)點(diǎn),每臺(tái)GPU 服務(wù)器配置4 張A100 GPU 加速卡;配備2 臺(tái)服務(wù)器作為大內(nèi)存計(jì)算節(jié)點(diǎn)。整個(gè)系統(tǒng)采用Infiniband交換機(jī)組成高速計(jì)算網(wǎng)絡(luò),存儲(chǔ)采用的是分布式存儲(chǔ),可以有效提高數(shù)據(jù)的I/0 處理能力。平臺(tái)采用成熟的商用集群監(jiān)控管理軟件統(tǒng)一管理,作業(yè)調(diào)度系統(tǒng)采用slurm 調(diào)度軟件進(jìn)行統(tǒng)一調(diào)度。同時(shí),平臺(tái)也提供圖形化管理及作業(yè)提交界面供用戶(hù)使用,減少使用的難度。在隊(duì)列的使用和劃分上,整個(gè)平臺(tái)共三個(gè)隊(duì)列,其中cyhpc_1 為普通的cpu 隊(duì)列、hpc_smp 為胖節(jié)點(diǎn)隊(duì)列、hpc_gpu 為GPU 隊(duì)列,可滿足不同用戶(hù)的使用需求,整個(gè)系統(tǒng)拓?fù)浣Y(jié)構(gòu)如圖1所示。

圖1 系統(tǒng)拓?fù)浣Y(jié)構(gòu)

3 超算平臺(tái)性能分析

HPL(高度并行計(jì)算基準(zhǔn)測(cè)試)是國(guó)際上比較通用的用來(lái)衡量和測(cè)試超算平臺(tái)性能的標(biāo)準(zhǔn),該標(biāo)準(zhǔn)可以提供非常詳細(xì)的基于不同硬件平臺(tái)的性能測(cè)試。使用該標(biāo)準(zhǔn)來(lái)進(jìn)行衡量,并通過(guò)對(duì)高性能平臺(tái)的計(jì)算過(guò)程進(jìn)行優(yōu)化,能夠反映出硬件平臺(tái)對(duì)求解密集系統(tǒng)的效率,對(duì)超算平臺(tái)的性能優(yōu)劣具有重要的參考意義。在平臺(tái)建設(shè)完成后,我們對(duì)超算平臺(tái)的性能進(jìn)行測(cè)試分析。

HPL 基準(zhǔn)測(cè)試程序采用了求解密集線性方程組的方式來(lái)測(cè)量系統(tǒng)的負(fù)載,即求解=,其中和是長(zhǎng)度為的向量;是×的矩陣,具有極少或沒(méi)有零元素。該方法對(duì)數(shù)組的大小和求解問(wèn)題的規(guī)模都沒(méi)有限制,可以根據(jù)情況進(jìn)行調(diào)節(jié),除基本的算法不變外,可以采用任何有效的方法進(jìn)行優(yōu)化,從而對(duì)高性能計(jì)算的浮點(diǎn)性能進(jìn)行評(píng)判。

在進(jìn)行HPL 測(cè)試時(shí),好的性能參數(shù)對(duì)超算平臺(tái)的峰值性能具有良好的參考價(jià)值,如果要獲得浮點(diǎn)的峰值,需要對(duì)3 個(gè)參數(shù)進(jìn)行調(diào)整:求解問(wèn)題的規(guī)模、進(jìn)行計(jì)算的粒度、處理器的×(即水平和垂直方向處理器的個(gè)數(shù))。

3.1 測(cè)試方法

本次集群配置有52 個(gè)計(jì)算節(jié)點(diǎn),為了對(duì)集群的性能進(jìn)行測(cè)試,測(cè)試分兩個(gè)方面進(jìn)行,一個(gè)是對(duì)單個(gè)節(jié)點(diǎn)的刀片性能進(jìn)行測(cè)試,另外一個(gè)是對(duì)整個(gè)集群的性能進(jìn)行測(cè)試。

進(jìn)行單節(jié)點(diǎn)測(cè)試的目的是保證所有節(jié)點(diǎn)正常運(yùn)行,檢查每一個(gè)節(jié)點(diǎn)的硬件,檢驗(yàn)各刀片計(jì)算節(jié)點(diǎn)的計(jì)算效率,衡量各節(jié)點(diǎn)性能是否穩(wěn)定;在進(jìn)行測(cè)試時(shí),每個(gè)刀片計(jì)算節(jié)點(diǎn)會(huì)長(zhǎng)時(shí)間的持續(xù)的高負(fù)載運(yùn)行。而整體測(cè)試是對(duì)整個(gè)集群進(jìn)行測(cè)試。在測(cè)試中,通過(guò)對(duì)HPL.dat 文件中的參數(shù)進(jìn)行修改,從而達(dá)到優(yōu)化的目的。本次測(cè)試分為對(duì)單節(jié)點(diǎn)的測(cè)試和集群整機(jī)的測(cè)試兩個(gè)部分。

3.2 測(cè)試過(guò)程

進(jìn)行測(cè)試之前,需要確保整個(gè)集群環(huán)境、調(diào)度軟件、節(jié)點(diǎn)功能正常,且無(wú)負(fù)載。在測(cè)試中,為了達(dá)到理想的效果,我們可對(duì)相關(guān)的參數(shù)進(jìn)行預(yù)設(shè):首先是問(wèn)題的規(guī)模和大小,可設(shè)置為多組,=1 表示一組,同時(shí)需要一個(gè)值。其次是值,即分塊大小,可取經(jīng)驗(yàn)值,一般設(shè)置Intel CPU 設(shè)置為192,新一代平臺(tái)一般設(shè)置為328 或384。最后是和的設(shè)置(進(jìn)程數(shù)目的設(shè)置),和設(shè)置一般為1 組,原則為:×=進(jìn)程數(shù),≤且和盡量接近。

3.3 測(cè)試結(jié)果

通過(guò)對(duì)測(cè)試方法和測(cè)試過(guò)程的分析,我們對(duì)測(cè)試的參數(shù)進(jìn)行了預(yù)設(shè)。測(cè)試時(shí),我們首先登錄刀片服務(wù)器的目錄文件,在其中一個(gè)節(jié)點(diǎn)執(zhí)行HPL 程序,如圖2所示。

圖2 執(zhí)行HPL 程序

在測(cè)試過(guò)程中,對(duì)所有單機(jī)測(cè)試結(jié)果進(jìn)行統(tǒng)計(jì),測(cè)試結(jié)果如表1所示。完成各單節(jié)點(diǎn)測(cè)試,按照預(yù)設(shè)的參考值進(jìn)行了整機(jī)的測(cè)試。測(cè)試中,對(duì)整機(jī)測(cè)試結(jié)果統(tǒng)計(jì),測(cè)試結(jié)果如表2所示。

表1 單機(jī)測(cè)試結(jié)果

表2 整機(jī)測(cè)試結(jié)果

在超算平臺(tái)性能測(cè)試的工作中,需要解決矩陣的規(guī)模、矩陣的分塊和進(jìn)程的映射情況、集群系統(tǒng)的通信和均衡等問(wèn)題。同時(shí),HPL 在測(cè)試過(guò)程中會(huì)受到多種因素的影響,包括HPC 的架構(gòu)、內(nèi)存的大小等,為了得到一個(gè)比較穩(wěn)定的效果,我們需要調(diào)整HPL.dat 文件,對(duì)其中的參數(shù)進(jìn)行修改,從而達(dá)到優(yōu)化的目的。在上述測(cè)試中,進(jìn)行單機(jī)測(cè)試時(shí)HPL 的最高效率為78.96%,最低為73.8%,集群組成節(jié)點(diǎn)的單節(jié)點(diǎn)的平均值是77.26%。集群整體的HPL 的效率為70.09%,通過(guò)對(duì)測(cè)試結(jié)果的比較,表明整個(gè)集群運(yùn)行穩(wěn)定,測(cè)試效果也非常優(yōu)異。

4 超算平臺(tái)的運(yùn)行情況

通過(guò)性能測(cè)試,得出平臺(tái)的穩(wěn)定可靠。超算中心也于2022年3月初正式上線運(yùn)行,在試運(yùn)行初期,由于用戶(hù)對(duì)整個(gè)系統(tǒng)架構(gòu)及調(diào)度算法不夠了解,平臺(tái)的使用人數(shù)和作業(yè)的運(yùn)行效率并不高。但是在后面的使用過(guò)程中,我們加大用戶(hù)培訓(xùn)的力度,進(jìn)行操作系統(tǒng)、作業(yè)調(diào)度、部分軟件的培訓(xùn),使用戶(hù)很快掌握了系統(tǒng)的使用方法,僅僅3 個(gè)月時(shí)間,用戶(hù)的使用數(shù)量和作業(yè)提交量呈爆發(fā)式增長(zhǎng),我們對(duì)平臺(tái)的用戶(hù)數(shù)、作業(yè)總數(shù)、運(yùn)行核時(shí)等情況進(jìn)行統(tǒng)計(jì)和橫向比較,發(fā)現(xiàn)高校對(duì)超算平臺(tái)有著巨大需求。詳情如表3所示。

表3 超算平臺(tái)運(yùn)行情況統(tǒng)計(jì)

從表3可以看出,超算平臺(tái)的運(yùn)行情況非常良好,但是在使用過(guò)程中,也發(fā)現(xiàn)了一些問(wèn)題,主要有幾個(gè)方面:(1)需要建立專(zhuān)業(yè)的運(yùn)維管理團(tuán)隊(duì),只有通過(guò)高效的運(yùn)維團(tuán)隊(duì),才能解決超算運(yùn)行中遇到的問(wèn)題;(2)需要加強(qiáng)推廣使用,提高使用效率,不能使資源閑置;(3)需要對(duì)安裝的軟硬件系統(tǒng)進(jìn)行不斷優(yōu)化,才能最大程度發(fā)揮超算平臺(tái)的作用。

5 結(jié) 論

本文介紹了重慶醫(yī)科大學(xué)超算平臺(tái)的建設(shè)情況,對(duì)平臺(tái)的性能進(jìn)行了分析研究,結(jié)合超算平臺(tái)的具體使用情況,提出了超算平臺(tái)建設(shè)中存在的問(wèn)題和解決方法,以期通過(guò)超算平臺(tái)的建設(shè)更好地助力于科學(xué)研究,提高學(xué)科建設(shè)能力。從整個(gè)平臺(tái)的前期建設(shè)和使用情況來(lái)看,高校對(duì)于超算平臺(tái)的計(jì)算需求非常旺盛,在高校建設(shè)超算中心具有重要意義。

猜你喜歡
校級(jí)院系高性能
高性能混凝土不同配合比下的性能研究
高性能混凝土開(kāi)裂成因及控制要點(diǎn)
淺談SQL Server中Select語(yǔ)句的分組統(tǒng)計(jì)功能
讓教師愛(ài)上校級(jí)公開(kāi)課
例談校級(jí)“三級(jí)管理”體育教研方案
中國(guó)E級(jí)高性能計(jì)算機(jī)原型系統(tǒng)正式進(jìn)入研制階段
Different Students, Different Corrective Feedback
清華院系手機(jī)背景圖
提高院系辦公室管理績(jī)效的對(duì)策
浪潮高性能計(jì)算用心良苦
弥渡县| 都安| 瓦房店市| 罗甸县| 开鲁县| 衡水市| 阜康市| 进贤县| 甘泉县| 衡山县| 莲花县| 城口县| 和平区| 中山市| 绵竹市| 涿州市| 郑州市| 崇州市| 射洪县| 富宁县| 晋中市| 建昌县| 宜春市| 金寨县| 祁门县| 青阳县| 和林格尔县| 南乐县| 靖宇县| 会宁县| 延安市| 缙云县| 阜阳市| 长阳| 嘉兴市| 玉树县| 胶南市| 富平县| 华亭县| 晋中市| 铁岭市|