聶含伊 楊希 張文喆
聶含伊 楊希 張文喆
在現(xiàn)代科學(xué)研究和工程實(shí)踐中,通常使用數(shù)學(xué)方程式來表示某些自然科學(xué)規(guī)律,產(chǎn)生了眾多復(fù)雜繁瑣的數(shù)學(xué)計(jì)算問題?;谄胀ㄓ?jì)算工具來解決這些問題,將耗費(fèi)大量人力物力,甚至無法得到準(zhǔn)確結(jié)果。而科學(xué)計(jì)算,利用計(jì)算機(jī)仿真、重現(xiàn)、預(yù)測或探索自然世界萬物運(yùn)動(dòng)規(guī)律和演變特性的全過程,通過研究合理的計(jì)算方法,設(shè)計(jì)高效的并行算法,研制合適的應(yīng)用程序,能準(zhǔn)確、高效地模擬各領(lǐng)域研究過程,分析計(jì)算結(jié)果。然而,普通計(jì)算機(jī)的科學(xué)計(jì)算能力往往是有限的,現(xiàn)有的計(jì)算能力無法高效地解決某些基礎(chǔ)學(xué)科和工程技術(shù)部門的科學(xué)計(jì)算問題,如長期天氣預(yù)報(bào)、石油勘探、飛機(jī)整體氣動(dòng)力等等。
與此同時(shí),地震檢測儀、粒子碰撞器、天文望遠(yuǎn)鏡以及高通量分析裝置等大型科學(xué)儀器的研制和發(fā)展,產(chǎn)生了大量非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù),使得“大數(shù)據(jù)”趨勢變得越來越突出。如今,許多科學(xué)發(fā)現(xiàn)和見解由大量數(shù)據(jù)集驅(qū)動(dòng),“大數(shù)據(jù)”被認(rèn)為是除了實(shí)驗(yàn)、理論和計(jì)算方法之外的第四種科學(xué)范式。數(shù)據(jù)生成的容量、速度和多樣性構(gòu)成了分析大數(shù)據(jù)的主要挑戰(zhàn)。
為提高科學(xué)計(jì)算能力,解決大數(shù)據(jù)問題,高性能計(jì)算(HPC)技術(shù)迅猛發(fā)展。高性能計(jì)算機(jī)代表用于解決計(jì)算密集型科學(xué)和工程問題的高端計(jì)算基礎(chǔ)設(shè)施。我國的高性能計(jì)算早已突破每秒浮點(diǎn)運(yùn)算千萬億次的壁壘,并繼續(xù)解決性能、可擴(kuò)展性、可編程性、能效和可靠性等問題,探索新的支持技術(shù)以達(dá)到e級計(jì)算能力。
目前,高性能計(jì)算機(jī)已在多個(gè)領(lǐng)域得到了成功的應(yīng)用,但仍存在大量可供多個(gè)研究機(jī)構(gòu)使用的空閑節(jié)點(diǎn)。本文簡介了一些高性能計(jì)算機(jī)系統(tǒng)及其性能,針對近年來在高性能計(jì)算機(jī)上的各大領(lǐng)域應(yīng)用實(shí)例進(jìn)行總結(jié),并對在其他領(lǐng)域的應(yīng)用做出了展望,以促進(jìn)更高效、全面地使用高性能計(jì)算機(jī)。
中國首臺千萬億次超級計(jì)算機(jī),是“天河一號”?!疤旌右惶枴背売?jì)算機(jī)使用由中國自行研發(fā)的“龍”芯片,其峰值計(jì)算速度能夠達(dá)到1.206 TFlop/s,同時(shí)Linpack實(shí)測性能達(dá)到了0.563 TFlop/s,該超級計(jì)算機(jī)位居當(dāng)時(shí)公布的中國超級計(jì)算機(jī)前 100強(qiáng)之首,中國成為了繼美國之后世界上第2個(gè)能夠自主研制千萬億次超級計(jì)算機(jī)的國家。
天河一號采用6144個(gè)英特爾通用多核處理器和5120個(gè)AMD圖形加速處理器,其內(nèi)存總?cè)萘?8 TB。至于點(diǎn)對點(diǎn)通信的帶寬就達(dá)到了40 Gbps,而其用于共享的磁盤總?cè)萘縿t達(dá)到1 PB。該超級計(jì)算機(jī)系統(tǒng)部署于天津?yàn)I海新區(qū)的國家超級計(jì)算天津中心作為業(yè)務(wù)主機(jī)。
2013年,由國防科學(xué)技術(shù)大學(xué)研制的“天河二號”大型超級計(jì)算機(jī)以每秒33.86千萬億次的浮點(diǎn)運(yùn)算速度成為全球最快的超級計(jì)算機(jī),位列國際大型超級計(jì)算機(jī)TOP500榜首。隨后,“天河二號”實(shí)現(xiàn)了世界最快超算“六連冠”。天河二號采用基于加速器的架構(gòu)。在可接受的總成本、功率預(yù)算、支持可靠性、可用性和可服務(wù)性(RAS)的能力、應(yīng)用開發(fā)和移植的復(fù)雜性下提供高的計(jì)算性能。
天河二號的硬件系統(tǒng)由五個(gè)子系統(tǒng)組成,包括計(jì)算系統(tǒng)、通信系統(tǒng)、存儲系統(tǒng)、監(jiān)控診斷系統(tǒng)和服務(wù)系統(tǒng)。它由16000個(gè)節(jié)點(diǎn)組成,每個(gè)節(jié)點(diǎn)有2顆基于Ivy Bridge-E Xeon E5 2692處理器和 3顆 Xeon Phi,每個(gè)節(jié)點(diǎn)的內(nèi)存是64 GB。所有的計(jì)算節(jié)點(diǎn)都通過專有的高速互連系統(tǒng)連接。還提供了一個(gè)服務(wù)子系統(tǒng)的4096個(gè)節(jié)點(diǎn),以加快高吞吐量的計(jì)算任務(wù),如大數(shù)據(jù)處理。存儲子系統(tǒng)包括256個(gè)I/O節(jié)點(diǎn)和64個(gè)容量為12.4 PB的存儲服務(wù)器。天河二號文件系統(tǒng)命名為 h2fs,采用麒麟操作系統(tǒng)、基于SLURM的全局資源管理。支持大多數(shù)現(xiàn)代編程語言,包括C、C++、Java、Python等。采用的是新型異構(gòu)多態(tài)體系結(jié)構(gòu)(Multipurpose-Heterogeneous)。
“天河二號”集科學(xué)計(jì)算、大數(shù)據(jù)分析和云計(jì)算于一體,被認(rèn)為是滿足工業(yè)和社會需求的戰(zhàn)略基礎(chǔ)設(shè)施。以超級計(jì)算機(jī)為支撐的高性能計(jì)算應(yīng)用正加速向各個(gè)領(lǐng)域滲透。
在國內(nèi)早期的高性能計(jì)算機(jī)研究中,2004年6月超級計(jì)算機(jī)曙光4000A研制成功,落戶上海超級計(jì)算中心,標(biāo)志著繼美國和日本之后,中國是第3個(gè)能研制10萬億次高性能計(jì)算機(jī)的國家。曙光能夠每秒運(yùn)算11萬億次,進(jìn)入全球超級計(jì)算機(jī)前10名。經(jīng)過10多年發(fā)展,曙光E級高性能計(jì)算機(jī)系統(tǒng)項(xiàng)目現(xiàn)在是國家“十三五”期間高性能計(jì)算的重點(diǎn)專項(xiàng),其最顯著的特點(diǎn)是突破了制約E級計(jì)算發(fā)展的各個(gè)關(guān)鍵技術(shù),通過這樣原型機(jī)的研制去驗(yàn)證 E級的技術(shù)路線,為未來真正實(shí)現(xiàn)國產(chǎn)E級系統(tǒng)做技術(shù)鋪墊。
在2016年法蘭克福世界超算大會上,“神威·太湖之光”超級計(jì)算機(jī)系統(tǒng)成為新的榜首,速度較第2名“天河二號”快出近兩倍,效率提高3倍。
神威·太湖之光超級計(jì)算機(jī)由40個(gè)運(yùn)算機(jī)柜和8個(gè)網(wǎng)絡(luò)機(jī)柜組成。每個(gè)運(yùn)算機(jī)柜包含4塊由32塊運(yùn)算插件組成的超節(jié)點(diǎn)。每個(gè)插件由 4個(gè)運(yùn)算節(jié)點(diǎn)板組成,一個(gè)運(yùn)算節(jié)點(diǎn)板又含2塊“申威26010”高性能處理器。一臺機(jī)柜就有1024塊處理器,整臺“神威·太湖之光”共有40960塊處理器。每個(gè)單個(gè)處理器有260個(gè)核心,主板為雙節(jié)點(diǎn)設(shè)計(jì),每個(gè) CPU固化的板載內(nèi)存為32 GB DDR3-2133。
在2018年的法蘭克福世界超算大會上,美國能源部橡樹嶺國家實(shí)驗(yàn)室(ORNL)推出的新超級計(jì)算機(jī)“Summit”以每秒 12.23億億次的浮點(diǎn)運(yùn)算速度,接近每秒18.77億億次峰值速度奪冠,“神威·太湖之光”屈居第2。
為充分發(fā)揮高性能計(jì)算機(jī)的優(yōu)勢,極大限度地滿足客戶需求,自超級計(jì)算機(jī)在中國開始發(fā)展以來,相關(guān)團(tuán)隊(duì)都致力于擴(kuò)展高性能計(jì)算在各個(gè)領(lǐng)域的利用,迎合各領(lǐng)域應(yīng)用的計(jì)算要求,協(xié)助用戶配置應(yīng)用環(huán)境,建立高效模型,設(shè)計(jì)合理并行算法,以實(shí)現(xiàn)各領(lǐng)域的科學(xué)計(jì)算和大數(shù)據(jù)處理在高性能計(jì)算機(jī)上的應(yīng)用。
根據(jù)廣州國家超級計(jì)算中心的內(nèi)部統(tǒng)計(jì),生物醫(yī)學(xué)相關(guān)應(yīng)用現(xiàn)在是超級計(jì)算中心的主要客戶。生物醫(yī)學(xué)研究主要包括生物大分子的結(jié)構(gòu)模擬與功能建模,藥物設(shè)計(jì)與篩選,蛋白質(zhì)序列分析,基因序列分析與比對,基因調(diào)控網(wǎng)絡(luò)的分析與建模,醫(yī)療衛(wèi)生的雙數(shù)據(jù)分析及生物醫(yī)學(xué)文獻(xiàn)挖掘等。
生物醫(yī)學(xué)數(shù)據(jù)繁多,且一直呈指數(shù)增長。如世界最大的生物數(shù)據(jù)保存者之一,歐洲生物信息學(xué)研究所(EBI),存儲超過20 PB的數(shù)據(jù),并且最近每年的數(shù)據(jù)量都增加1倍。數(shù)據(jù)源的異質(zhì)性,包括基因組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)、微陣列數(shù)據(jù)、文獻(xiàn)等,使其更加復(fù)雜。
針對典型類型的大數(shù)據(jù)——基因組大數(shù)據(jù),在大數(shù)據(jù)框架(如Hadoop和Spark)的幫助下,云計(jì)算已經(jīng)在大數(shù)據(jù)處理中發(fā)揮著積極作用?,F(xiàn)在,HPC在中國的快速發(fā)展使得以不同的方式解決基因組大數(shù)據(jù)挑戰(zhàn)成為可能。Yang等人強(qiáng)調(diào)了在現(xiàn)代超級計(jì)算機(jī)上增強(qiáng)大數(shù)據(jù)支持的必要性,提出只需單個(gè)命令或單個(gè)shell腳本就能使當(dāng)前的大數(shù)據(jù)應(yīng)用在高性能計(jì)算機(jī)上運(yùn)行,并且支持多個(gè)用戶同時(shí)處理多個(gè)任務(wù)的Orion作為高性能計(jì)算機(jī)的大數(shù)據(jù)平臺。該平臺可以根據(jù)大數(shù)據(jù)處理需求,合理分配所需的資源量,并使用HPC系統(tǒng)軟件棧自動(dòng)建立和配置可回收的Hadoop/Spark集群。以華大基因提供的基因組學(xué)大數(shù)據(jù)作為案例研究,測試基因組分析流水線SOAPGaea的FASTQ過濾、讀取對齊、重復(fù)刪除和質(zhì)量控制四個(gè)過程,證明了Orion平臺的高效性。
為更好地了解基因的精細(xì)結(jié)構(gòu)、分析基因型與表現(xiàn)型的關(guān)系、繪制基因圖譜,DNA序列分析成為生物醫(yī)學(xué)中的重要課題。
DNA序列的排序是對DNA序列分析的基礎(chǔ)。通常先使用測序儀得到生物體基因組的一些片段,再利用計(jì)算機(jī)對片段進(jìn)行de novo拼接,從而得到DNA序列的排列順序。而隨著測序儀的發(fā)展,基因組的數(shù)據(jù)量增大,分析復(fù)雜性提高,普通計(jì)算工具分析數(shù)據(jù)會消耗大量時(shí)間和空間。張峰等人基于高性能計(jì)算機(jī),使用一種新型序列拼接工具 SGA(string graph assernbler),對任務(wù)之間數(shù)據(jù)耦合度小的分批構(gòu)建FM-Index,采用粗粒度的多進(jìn)程并行;對任務(wù)之間數(shù)據(jù)耦合度較大的FM-Index合并過程,采用多線程的細(xì)粒度并行。這種多進(jìn)程與多線程的混合并行策略,使用并行計(jì)算代替通信開銷,測試小規(guī)模數(shù)據(jù)時(shí),將索引構(gòu)建時(shí)間的最佳性能提高了3.06倍。葉志強(qiáng)等人在基因組排序時(shí),引入隨機(jī)list ranking算法,基于高性能計(jì)算機(jī),使用MPI并行實(shí)現(xiàn)Pregel框架的線性化步驟,利用節(jié)點(diǎn)之間的通信和計(jì)算能力,減少了線性化步驟時(shí)間。
SNP(單核苷酸多態(tài)性)檢測是DNA序列分析的關(guān)鍵步驟。它將對齊的 read、參考序列和被編排的數(shù)據(jù)庫(如數(shù)據(jù)庫SNPP)作為輸入,通過站點(diǎn)檢測對齊的 read和引用站點(diǎn)的信息,生成SNP站點(diǎn)的列表。SNP檢測工具SOAPSNP可以用一個(gè)多星期的時(shí)間來分析一個(gè)覆蓋20倍的人類基因組。崔英博等人通過重新設(shè)計(jì) SOAPSNP的關(guān)鍵數(shù)據(jù)結(jié)構(gòu)以降低內(nèi)存操作的開銷,設(shè)計(jì)CPU與Xeon Phi協(xié)作的協(xié)調(diào)并行框架,以獲得更高的硬件利用率。并提出了一種基于讀取的窗口劃分策略(RWD),在多個(gè)節(jié)點(diǎn)上提高吞吐量和并行規(guī)模,開發(fā)了SOAPSNP的并行版本 MSNP,在沒有任何精度損失的情況下,利用高性能計(jì)算機(jī)的一個(gè)節(jié)點(diǎn)實(shí)現(xiàn)了45倍的加速。
方翔等人利用高性能計(jì)算機(jī),構(gòu)建了由基因組與轉(zhuǎn)錄組測序數(shù)據(jù)分析、蛋白質(zhì)結(jié)構(gòu)預(yù)測和分子動(dòng)力學(xué)模擬3個(gè)功能模塊組成的生物信息平臺分析水產(chǎn)病原,對約氏黃桿菌等多種水生動(dòng)物病原進(jìn)行生物信息學(xué)分析。
從生物醫(yī)學(xué)文獻(xiàn)中提取有價(jià)值的信息的一種主流方法是在非結(jié)構(gòu)化文本上應(yīng)用文本挖掘方法。然而,大量的文獻(xiàn)需要分析,這對文本挖掘的處理效率提出了巨大的挑戰(zhàn)。彭紹亮等人將針對疾病實(shí)體識別的軟件DNorm加入可高效識別基因、蛋白質(zhì)、藥物、基因通路等實(shí)體關(guān)系的文本挖掘工具PWTEES流水線中,擴(kuò)充了PWTEES的功能。使用LINNAEUS導(dǎo)入MEDLIN數(shù)據(jù)庫提供的摘要,并在個(gè)人賬戶目錄下,動(dòng)態(tài)使用計(jì)算節(jié)點(diǎn),編譯安裝配置了非關(guān)系型數(shù)據(jù)庫(MySQL),將大量非結(jié)構(gòu)化數(shù)據(jù)(文獻(xiàn))轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù)。將平時(shí)在普通服務(wù)器上需100天能完成的文本挖掘過程縮短為1小時(shí),并利用200個(gè)進(jìn)程并行挖掘 7萬篇頭頸癌相關(guān)文獻(xiàn)中的關(guān)鍵命名實(shí)體,得到了80%以上的并行效率。Xing等人開發(fā)了一個(gè)可運(yùn)行的框架 PARABTM,它能夠在超級計(jì)算機(jī)上實(shí)現(xiàn)并行文本挖掘。以GNormPlus、tmVar2.0、Dnorm 3 種命名實(shí)體識別任務(wù)為例,對多個(gè)數(shù)據(jù)集上PARABTM的性能進(jìn)行了評價(jià)。結(jié)果表明,使用PARABTM并行處理策略中的短板匹配負(fù)載平衡算法(Short-Board load balancing algorithm),最大程度地提高了生物醫(yī)學(xué)命名實(shí)體識別的處理速度。
數(shù)字設(shè)計(jì)與制造是一種以計(jì)算機(jī)系統(tǒng)為中心的集成制造方法。隨著制造工廠中計(jì)算機(jī)系統(tǒng)數(shù)量和質(zhì)量的提高,數(shù)字化趨勢迅速。越來越多的自動(dòng)化工具被用于制造工廠,有必要對所有機(jī)器、工具和輸入材料進(jìn)行建模、模擬和分析,以優(yōu)化制造過程。而模擬能夠建模和測試一個(gè)系統(tǒng)行為特性,讓工程師能夠用更低耗、更快速同時(shí)更安全的方式來分析所做的設(shè)計(jì)會產(chǎn)生什么樣的影響。模擬的應(yīng)用范圍廣泛,涵蓋了產(chǎn)品設(shè)計(jì)、過程設(shè)計(jì)以及企業(yè)資源安排。在模擬過程中,利用超級計(jì)算機(jī)強(qiáng)大的計(jì)算能力,使工程師能在幾分鐘或幾小時(shí)內(nèi)仿真和測試數(shù)千種設(shè)計(jì)方案。
利用數(shù)字化的方式,可以對產(chǎn)品進(jìn)行結(jié)構(gòu)力學(xué)分析、流體力學(xué)分析、電磁設(shè)計(jì)和多物理場模擬等多種計(jì)算仿真。在計(jì)算流體力學(xué)CFD(computational fluid dynamics)領(lǐng)域的一大熱點(diǎn)研究問題就是如何在當(dāng)前主流的眾核異構(gòu)高性能計(jì)算機(jī)平臺上進(jìn)行超大規(guī)模計(jì)算。楊梅芳等人在高性能計(jì)算機(jī)的單個(gè)節(jié)點(diǎn)上,利用超然沖壓發(fā)動(dòng)機(jī)燃燒數(shù)值模擬軟件LESAP模擬一個(gè)實(shí)際發(fā)動(dòng)機(jī)燃燒化學(xué)反應(yīng)和超聲速流動(dòng)的問題,采用OpenMP 4.0編程標(biāo)準(zhǔn),向量化SIMD,優(yōu)化數(shù)據(jù)傳輸過程,均衡基于網(wǎng)格塊劃分的負(fù)載技術(shù),實(shí)現(xiàn)了軟件面向CPU+MIC異構(gòu)平臺的移植,達(dá)到了3.07倍的性能加速比。王勇獻(xiàn)等人面向高性能計(jì)算機(jī)探索了高階精度CFD流場數(shù)值模擬程序的高效并行性。在高性能異構(gòu)并行計(jì)算平臺上進(jìn)行了多個(gè)算例的數(shù)值模擬的結(jié)果顯示最大CFD規(guī)模達(dá)到1228億個(gè)網(wǎng)格點(diǎn),共使用約59萬CPU+MIC處理器核,實(shí)現(xiàn)了移植后的性能大幅度提高。通過將算法移植到超級計(jì)算機(jī)進(jìn)行大規(guī)模并行,能夠?qū)崿F(xiàn)高效的流體力學(xué)分析。而文獻(xiàn)[24-26]都是針對空氣動(dòng)力學(xué)中的具體分類利用高性能計(jì)算機(jī)進(jìn)行模擬以驗(yàn)證有效性的研究。利用數(shù)字化設(shè)計(jì),能夠快速低成本地對設(shè)計(jì)性能進(jìn)行分析評估。
在圖像模擬中,Metropolis光傳輸算法能夠利用雙向路徑跟蹤構(gòu)建出由眼睛到光源的路徑,是Monte Carlo方法的變體。然后,使用Metropolis算法靜態(tài)計(jì)算圖像中光線的恰當(dāng)?shù)纳⑸錉顟B(tài),由一條已發(fā)現(xiàn)的光到眼睛的路徑,能搜索到鄰近路徑。簡單地說,Metropolis光傳輸算法能夠生成一條路徑并存儲其上的節(jié)點(diǎn),同時(shí)能通過添加額外節(jié)點(diǎn)來調(diào)整并生成新的路徑。隨著對照片級真實(shí)感圖像的要求越來越高,為Metropolis光傳輸算法開發(fā)高效且高度可擴(kuò)展的光線跟蹤器變得越來越重要。主要是渲染圖像通常需要花費(fèi)大量時(shí)間,開發(fā)高效且高度可擴(kuò)展的光線跟蹤器的困難來自不規(guī)則的存儲器訪問模式、光攜帶路徑的不平衡工作量以及復(fù)雜的數(shù)學(xué)模型和復(fù)雜的物理過程。Wu等人提出了一種基于物理的高度可擴(kuò)展的并行光線追蹤器,并在高性能計(jì)算機(jī)上進(jìn)行了實(shí)現(xiàn),利用多達(dá)26400個(gè)CPU內(nèi)核,證明了其可擴(kuò)展性,能夠從復(fù)雜的3D場景生成逼真圖像。
模擬高場非局部載流子傳輸同樣需要3D Monte Carlo模擬方法,通過適當(dāng)?shù)牧孔有Uw散射效應(yīng),半經(jīng)典的 MC模擬能夠給出準(zhǔn)確的結(jié)果。但是,MC方法中3D模擬和量子校正都需要巨大的計(jì)算資源,由效率出發(fā)超級計(jì)算機(jī)的計(jì)算能力就至關(guān)重要了。文獻(xiàn)[29]中,通過在高性能計(jì)算機(jī)上使用Intel MIC協(xié)處理器,進(jìn)一步提高了之前工作中開發(fā)的3D并行的繼承MC模擬器的并行效率。
對于高性能計(jì)算機(jī)在全數(shù)字設(shè)計(jì)和制造領(lǐng)域的集成應(yīng)用,國家超級計(jì)算廣州中心推出了天河星光云超算平臺,以云服務(wù)的方式提供CAE計(jì)算和HPC訪問,大大降低了數(shù)字設(shè)計(jì)的門檻,支持產(chǎn)品設(shè)計(jì)的全工作流。目前基于該平臺支撐的項(xiàng)目有諸如國產(chǎn)大飛機(jī)、高鐵等,都是國家工業(yè)生產(chǎn)中重要項(xiàng)目。
基于該應(yīng)用領(lǐng)域,超級計(jì)算機(jī)的主要作用在于變革對自然界中諸如地理狀況、海洋、大氣等種種元素的模擬方式。以超算為平臺,不僅能模擬出地球上每個(gè)時(shí)期的狀況,甚至是對宇宙中的種種同樣能進(jìn)行模擬分析,讓地球科學(xué)和環(huán)境工程的研究范圍不再限于此時(shí)此地,而是更廣闊的空間。
在宇宙學(xué)的層面,早在2015年就利用高性能計(jì)算機(jī)模擬出宇宙大爆炸后1600萬年之后至今約137億年的暗物質(zhì)和中微子的演化過程,并將進(jìn)一步尋找宇宙邊界的報(bào)告。中微子雖然是自然界中的基本粒子之一,在宇宙大爆炸約1s后與其他等離子體物質(zhì)退耦,形成看不見的宇宙背景,通過物理實(shí)驗(yàn)和實(shí)際的天文觀測都無法精確測量中微子的質(zhì)量。在高性能計(jì)算機(jī)平臺上,利用3萬億粒子來對宇宙中的中微子和暗物質(zhì)的分布和演化進(jìn)行模擬,開創(chuàng)了宇宙學(xué)中獨(dú)立測量中微子質(zhì)量的道路。
在地球外圍層面上,大氣變化同樣是一個(gè)關(guān)注點(diǎn)。Xue等人提出了一種基于高性能計(jì)算機(jī)的全球性大氣動(dòng)態(tài)模擬的混合算法。通過使用更靈活的域分區(qū)方案來支持節(jié)點(diǎn)中任意數(shù)量的CPU和加速器,算法能夠充分利用超算的優(yōu)良性能。當(dāng)使用8664個(gè)節(jié)點(diǎn),包括了近170萬個(gè)核心時(shí),可以有效地利用節(jié)點(diǎn)內(nèi)的3個(gè)MIC卡,對兩個(gè)IvyBridge CPU(24個(gè)內(nèi)核)實(shí)現(xiàn)4.35倍的加速?;诔晒Φ挠?jì)算-通信重疊,算法分別在弱和強(qiáng)縮放測試中實(shí)現(xiàn)了93.5%和77%的并行效率。
相較于廣袤無邊的宇宙,大部分人們對于腳下的土地更加關(guān)心。自然災(zāi)害如地震、泥石流等,可能會造成巨大的生命財(cái)產(chǎn)損失,而地下油氣資源又是經(jīng)濟(jì)社會發(fā)展所必需的,利用超級計(jì)算機(jī)去探索大地也是發(fā)展所需要的。
中國石油天然氣集團(tuán)開發(fā)的用于石油油氣勘探的GeoEast系統(tǒng)已經(jīng)經(jīng)過了十幾年的發(fā)展更新,在數(shù)據(jù)模型、數(shù)據(jù)共享、一體化運(yùn)行模式、三維可視化、交互應(yīng)用框架、地震地質(zhì)建模、網(wǎng)絡(luò)運(yùn)行環(huán)境和并行處理方面取得了多項(xiàng)創(chuàng)新與重大技術(shù)突破,是地震數(shù)據(jù)處理解釋一體化系統(tǒng)。目前GeoEast V3.0版本軟件總體達(dá)到國際同類軟件先進(jìn)水平,為推動(dòng)中國石油勘探開發(fā)領(lǐng)域不斷取得新成果發(fā)揮了重要作用。但是,這樣的一體化系統(tǒng)在使用中勢必會產(chǎn)生大量的數(shù)據(jù),這就對計(jì)算機(jī)的性能有了要求。因此,在GeoEast系統(tǒng)聞名世界的過程中,高性能計(jì)算機(jī)在幕后是功臣之一,保證了系統(tǒng)的順利運(yùn)行,助力石油勘探工作。而文獻(xiàn)[35]專注于地震模擬,提出了針對英特爾至強(qiáng)處理器的對于軟件SeisSol的優(yōu)化,以適用于高性能計(jì)算機(jī)的計(jì)算環(huán)境中,通過全摩擦滑動(dòng)和地震波的耦合仿真實(shí)現(xiàn)了空前復(fù)雜的地震模型。移植到高性能計(jì)算機(jī)的SeisSol提供近乎最佳的弱縮放,在8192個(gè)節(jié)點(diǎn)上達(dá)到8.6DP-PFLOPS,在所利用的整個(gè)高性能計(jì)算機(jī)上能達(dá)到 18~20DPPFLOPS,成功模擬了1992年蘭德斯地震。
城市發(fā)展經(jīng)過多年的調(diào)整,已經(jīng)在經(jīng)濟(jì)上有了相當(dāng)進(jìn)展,目前從如何讓人們生活更加便捷出發(fā),許多地區(qū)開始建設(shè)智慧城市。智慧城市(smart city)是指利用各種信息技術(shù)或創(chuàng)新意念,集成城市的組成系統(tǒng)服務(wù),以提升資源運(yùn)用的效率,優(yōu)化城市管理和服務(wù),進(jìn)而能夠提高居民生活質(zhì)量。智慧城市的發(fā)展不僅僅是對生活的改變,還能促進(jìn)生產(chǎn)方式的轉(zhuǎn)變,解決在城市擴(kuò)張及經(jīng)濟(jì)高速發(fā)展中產(chǎn)生的一系列“城市病”問題。智慧城市,代表的是城市的智慧,由智慧,能夠衍生出智能中、知識和數(shù)字等更廣泛的內(nèi)涵。
迄今為止,廣州、北京、上海、寧波、無錫、深圳、武漢、佛山等國內(nèi)城市已紛紛啟動(dòng)“智慧城市”戰(zhàn)略,相關(guān)規(guī)劃、項(xiàng)目和活動(dòng)漸次推出。高性能計(jì)算機(jī)云平臺應(yīng)運(yùn)而生,為智慧城市建立堅(jiān)實(shí)、先進(jìn)的基石。智慧城市由于其性能需求,對依賴的平臺的計(jì)算能力的要求會更高,而超算的計(jì)算能力就能為智慧城市的建設(shè)提供相當(dāng)助力。在2014年,就有中國首臺千萬億次超級計(jì)算機(jī)“天河一號”在智慧城市中應(yīng)用的報(bào)道,以其在天津?yàn)I海區(qū)的應(yīng)用為例,“天河一號”的建筑信息領(lǐng)域的大數(shù)據(jù)平臺通過對建筑信息建模,實(shí)現(xiàn)對建筑物從規(guī)劃、設(shè)計(jì)、建造到后期物業(yè)管理理的全程數(shù)字化。此外,城市規(guī)劃、氣象預(yù)測、生物醫(yī)療、裝備制造、汽車碰撞模擬等行業(yè),也能更多地通過“天河一號”,實(shí)現(xiàn)大批量數(shù)據(jù)計(jì)算、分析和存儲。
而高性能計(jì)算機(jī)的持續(xù)計(jì)算速度進(jìn)一步達(dá)到了億億次,所能提供的服務(wù)質(zhì)量也更高,麒麟云平臺被部署在1920個(gè)節(jié)點(diǎn)(15個(gè)機(jī)柜),其中64個(gè)節(jié)點(diǎn)(兩個(gè)機(jī)框)作為云平臺控制節(jié)點(diǎn),其余節(jié)點(diǎn)為運(yùn)行虛擬機(jī)的計(jì)算節(jié)點(diǎn)和分布式存儲的存儲節(jié)點(diǎn)。為方便管理,將計(jì)算節(jié)點(diǎn)進(jìn)行分區(qū)管理,512個(gè)節(jié)點(diǎn)(4個(gè)機(jī)柜)為一區(qū),用于滿足生產(chǎn)環(huán)境、適配環(huán)境、測試環(huán)境需要。分布式存儲沒有分區(qū),所有節(jié)點(diǎn)形成一個(gè)全局的分布式存儲池,但在使用時(shí)可按需劃分指定容量的區(qū)域供不同用途使用。這種云超算服務(wù)采用麒麟安全云系統(tǒng)實(shí)現(xiàn)虛擬化技術(shù),將虛擬機(jī)資源遠(yuǎn)程推送給用戶使用??赏ㄟ^互聯(lián)網(wǎng)遠(yuǎn)程管理虛擬機(jī)資源,使高性能計(jì)算機(jī)云平臺資源能夠被更多人使用,超算的計(jì)算能力能夠更好地推動(dòng)社會各個(gè)領(lǐng)域發(fā)展。2017年OpenStack的第15個(gè)版本中,麒麟云團(tuán)隊(duì)在核心功能解決的Bug數(shù),以及Commits的數(shù)量均進(jìn)入全球前20,麒麟云的發(fā)展是非常迅速的,與開源社區(qū)緊密結(jié)合,貢獻(xiàn)突出。
在材料科學(xué)與工程的研究中,量子力學(xué)、經(jīng)典動(dòng)力學(xué)、統(tǒng)計(jì)力學(xué)是3大基礎(chǔ)且主要的研究方向。研究人員致力于材料參數(shù)的建模、多尺度平臺開發(fā)和新材料的設(shè)計(jì)、開發(fā)和優(yōu)化。
分子動(dòng)力學(xué)模擬在材料科學(xué)、生物化學(xué)和生物物理學(xué)等領(lǐng)域得到了廣泛的應(yīng)用。分子動(dòng)力學(xué)(MD)是研究分子和分子的物理運(yùn)動(dòng)的計(jì)算機(jī)模擬方法,它提供分子尺度上的微觀取樣。基于能量細(xì)化的輔助建模 AMBER(assisted model building with energy refinement)是用于MD模擬的使用最廣泛的軟件包之一。然而,對于具有百萬原子級的系統(tǒng)的AMBER MD模擬的速度仍然需要改進(jìn)。彭紹亮等人在單CPU上的細(xì)粒度OpenMP并行、單節(jié)點(diǎn)CPU/MIC并行優(yōu)化和多節(jié)點(diǎn)多MIC協(xié)作并行加速方面進(jìn)行了改進(jìn)。在高性能計(jì)算機(jī)上實(shí)現(xiàn)AMBER的并行加速策略,與原程序相比,實(shí)現(xiàn)了25~33倍的最高加速比。同時(shí),對于計(jì)算資源的限制,分子動(dòng)力學(xué)軟件GROMACS不能大規(guī)模地進(jìn)行滿意的操作。Wang等人提出了一種利用卸載模式加速GROMACS的方法。為了提高GROMACS的效率,提出了異步化、數(shù)據(jù)重組和數(shù)組重用等一系列方法。在這種模式下,GROMACS可以與CPU和Intel Xeon PHITM 多個(gè)集成內(nèi)核(MIC)協(xié)處理器同時(shí)有效地配置,充分利用高性能計(jì)算機(jī)資源。
材料輻照效應(yīng)(material irradiation effect)是使用核能的重要關(guān)鍵之一。然而,由于高通量輻照設(shè)施和進(jìn)化過程知識的缺乏,此效應(yīng)的利用并不好。在高性能計(jì)算的幫助下,Hu等人提出了一種新的數(shù)據(jù)結(jié)構(gòu),用于大規(guī)模并行模擬金屬材料在輻照環(huán)境下的演化?;谒岢龅臄?shù)據(jù)結(jié)構(gòu),開發(fā)了一種新的分子動(dòng)力學(xué)軟件—— Crystal MD,并在高性能計(jì)算機(jī)上進(jìn)行了2兆個(gè)原子模擬,對MD輻射效應(yīng)研究的模擬規(guī)模進(jìn)行了擴(kuò)展。
近年來,隨高性能計(jì)算的推廣,政府部門對超級計(jì)算機(jī)的重視,舊產(chǎn)業(yè)轉(zhuǎn)向新產(chǎn)業(yè)的變化及大量有高性能計(jì)算需求的企業(yè)對超級計(jì)算機(jī)的需求增大,超算人才培養(yǎng)初見成效。在應(yīng)用軟件開發(fā)等推動(dòng)下,高性能計(jì)算機(jī)的適用范圍逐漸向更多領(lǐng)域滲透。
源于人工神經(jīng)網(wǎng)絡(luò)的研究深度學(xué)習(xí)作為人工智能的一個(gè)新研究領(lǐng)域,在模仿人腦的機(jī)制來解釋如圖像、聲音和文本數(shù)據(jù)上有了很大進(jìn)展。例如,卷積神經(jīng)網(wǎng)絡(luò)(CNN)能準(zhǔn)確地對大型圖像進(jìn)行識別處理,然而 CNN的訓(xùn)練密集程度很高,特別是對于大型具挑戰(zhàn)性的任務(wù),卷積層的參數(shù)數(shù)據(jù)量龐大。而高性能計(jì)算機(jī)的易訪問、高峰值等性能使學(xué)術(shù)界和工業(yè)界都可以輕松訪問相關(guān)平臺,并可以在合理的時(shí)間內(nèi)訓(xùn)練中等和較大規(guī)模的CNN。使用基于輸入展開以將其投影為矩陣乘法(Unfold+Parallel-GEMM)的算法的CAFFE、Theano、Torch7、Chainer、CNTK和TensorFlow等最先進(jìn)的CNN基礎(chǔ)設(shè)施已可以在高性能計(jì)算機(jī)上進(jìn)行部署和應(yīng)用。
增強(qiáng)現(xiàn)實(shí)技術(shù) AR(augmented reality),將真實(shí)世界信息模擬至虛擬世界,讓人隨時(shí)產(chǎn)生真實(shí)感受。通過高性能計(jì)算機(jī)高效地實(shí)現(xiàn)算法,可以數(shù)字虛擬孕育“互聯(lián)網(wǎng)+”新業(yè)態(tài),開發(fā)虛擬試衣、模擬試駕等應(yīng)用項(xiàng)目。
超級計(jì)算機(jī)作為當(dāng)前國際社會一大重點(diǎn)研究領(lǐng)域,其性能遠(yuǎn)超普通計(jì)算機(jī),利用其強(qiáng)大的并行計(jì)算能力,能夠?yàn)槠渌I(lǐng)域的科研生產(chǎn)工作提供助力。本文從生物計(jì)算與精準(zhǔn)醫(yī)療、全數(shù)字設(shè)計(jì)與制造、地球科學(xué)與環(huán)境工程、智慧城市云計(jì)算和材料科學(xué)與工程等領(lǐng)域的角度分析了高性能計(jì)算機(jī)的應(yīng)用狀況,結(jié)果表明利用超級計(jì)算機(jī)進(jìn)行模擬仿真、重現(xiàn)或推演等過程,能夠大大提高科研效率,降低人力成本。超級計(jì)算機(jī)研發(fā)不僅僅能推動(dòng)計(jì)算機(jī)領(lǐng)域本身的發(fā)展,更能為其他科研領(lǐng)域和工業(yè)生產(chǎn)的發(fā)展帶來新思路、新動(dòng)力,高性能計(jì)算機(jī)在各個(gè)領(lǐng)域的成果應(yīng)用佐證了這點(diǎn)?!?/p>