王小寧,盧莎莎,吳璨,和榮,閆曉婷,2,肖海力,遲學(xué)斌,2
1.中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100083
2.中國(guó)科學(xué)院大學(xué),北京 100190
隨著計(jì)算基礎(chǔ)設(shè)施能力的不斷提升和計(jì)算技術(shù)的發(fā)展,計(jì)算已經(jīng)成為科學(xué)研究和工程制造的必不可少的工具與手段。
傳統(tǒng)高性能計(jì)算依賴大規(guī)模、高速網(wǎng)絡(luò)互聯(lián)的計(jì)算資源形成強(qiáng)大的計(jì)算力,通過數(shù)值計(jì)算技術(shù)滿足了包括氣象預(yù)報(bào)、災(zāi)害預(yù)警、材料科學(xué)、飛行器制造、宇宙演化等諸多領(lǐng)域中大規(guī)模模擬和仿真需求,成為最早也是最強(qiáng)的計(jì)算力代表。傳統(tǒng)高性能計(jì)算系統(tǒng)追求計(jì)算速度快、精度高;這不僅需要國(guó)家投入巨大的建設(shè)和運(yùn)維成本,還需要發(fā)展大規(guī)??茖W(xué)計(jì)算軟件和工具,尤其面向國(guó)產(chǎn)的異構(gòu)計(jì)算系統(tǒng)仍需投入較高的時(shí)間和人力成本。
相比昂貴的傳統(tǒng)高性能計(jì)算資源,云計(jì)算[1]通過虛擬化技術(shù)將相對(duì)低廉的計(jì)算資源轉(zhuǎn)化為看似無限可用的計(jì)算資源并按需提供給用戶,通過規(guī)?;?yīng)顯著降低了成本。早期的云計(jì)算平臺(tái)主要提供基本的云主機(jī)和云存儲(chǔ)服務(wù),用于搭建各類信息系統(tǒng)和服務(wù),隨后以容器、微服務(wù)、DevOps 等技術(shù)為基礎(chǔ)的各類云原生技術(shù)相繼而出;云超算采用云計(jì)算技術(shù)支持快速構(gòu)建并行計(jì)算環(huán)境,滿足科學(xué)研究和工程模擬的一般計(jì)算需求。隨著云計(jì)算平臺(tái)帶給用戶越來越多的代碼部署和資源管理負(fù)擔(dān),當(dāng)前云計(jì)算正發(fā)展至下一個(gè)階段,即無服務(wù)器計(jì)算[2]。無服務(wù)器計(jì)算主要面向編程人員,允許用戶專注于業(yè)務(wù)邏輯編程,屏蔽繁瑣的部署、監(jiān)控、容錯(cuò)、日志、擴(kuò)展性等問題;其中,編程模式成為其發(fā)展的重要挑戰(zhàn)。
大數(shù)據(jù)[3]和人工智能[4]是近幾年新興的技術(shù)。大數(shù)據(jù)包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)及管理、數(shù)據(jù)分析及挖掘、數(shù)據(jù)展現(xiàn)和應(yīng)用幾個(gè)階段,其中數(shù)據(jù)分析及挖掘在海量數(shù)據(jù)的負(fù)載下需要較大的算力資源支撐。以深度神經(jīng)網(wǎng)絡(luò)為代表的人工智能技術(shù)近年處于蓬勃發(fā)展時(shí)期,大幅跨越了科學(xué)與應(yīng)用之間的技術(shù)鴻溝,迎來爆發(fā)式增長(zhǎng)的新高潮,其中從模型訓(xùn)練到推理無不以大量算力資源為基礎(chǔ),甚至出現(xiàn)了以單浮點(diǎn)精度為度量的人工智能芯片和集群。
今天,無論科學(xué)問題求解還是工業(yè)仿真,都不再拘泥于單一算力資源或計(jì)算技術(shù),推動(dòng)了融合計(jì)算的出現(xiàn)和發(fā)展。本文的融合計(jì)算是指應(yīng)用編程根據(jù)業(yè)務(wù)需要,結(jié)合不同算力的特征,采用多種計(jì)算技術(shù),分布式運(yùn)行在多元化算力資源上。
表1 算力資源比較Table 1 Comparation of computing system
表2 計(jì)算技術(shù)比較Table 2 Comparation of computing technology
在國(guó)家“東數(shù)西算”戰(zhàn)略[5]的指引下,通過網(wǎng)絡(luò)建設(shè)可將各有優(yōu)勢(shì)的算力基礎(chǔ)設(shè)施資源互聯(lián)互通,通過融合計(jì)算可實(shí)現(xiàn)多種計(jì)算技術(shù)的協(xié)同工作,充分利用不同算力和計(jì)算方法的優(yōu)勢(shì)。本文主要研究并提出基于高性能計(jì)算環(huán)境的新型HPC 算力編程模式(HPC as a function),旨在融合計(jì)算中充分發(fā)揮HPC 算力優(yōu)勢(shì),是新一代計(jì)算基礎(chǔ)設(shè)施可編程能力的重要變革。
高性能計(jì)算環(huán)境[6]聚合了跨地域、跨組織的高性能計(jì)算資源,通過網(wǎng)格技術(shù)和云服務(wù)技術(shù)等為用戶提供統(tǒng)一的高性能計(jì)算服務(wù)環(huán)境。中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心自主研發(fā)了高性能計(jì)算環(huán)境系統(tǒng)軟件SCE[7-9],采用微服務(wù)架構(gòu),通過驅(qū)動(dòng)機(jī)制有效屏蔽資源層在管理和組織方面的差異,支持集成不同的資源調(diào)度算法,為用戶按需匹配計(jì)算資源,并提供命令行、WEB、接口等多種使用方式。
目前SCE 系統(tǒng)軟件已應(yīng)用于國(guó)家高性能計(jì)算環(huán)境(暨中國(guó)國(guó)家網(wǎng)格)[10]的建設(shè),建成了包括天津、無錫、廣州、深圳、鄭州、昆山等多家國(guó)家超級(jí)計(jì)算中心在內(nèi)的大型跨域分布式計(jì)算環(huán)境。同時(shí),SCE軟件也應(yīng)用于中國(guó)科學(xué)院超級(jí)計(jì)算環(huán)境的建設(shè),目前由中國(guó)科技云[11]統(tǒng)一管理和運(yùn)行。
高性能計(jì)算環(huán)境從服務(wù)模式發(fā)展來看大致分為以下幾個(gè)階段:
第一階段,應(yīng)用服務(wù)階段。
相比單一集群提供的SSH 命令行使用模式,高性能計(jì)算環(huán)境為了降低傳統(tǒng)高性能計(jì)算系統(tǒng)的使用門檻,發(fā)展了以應(yīng)用為中心的服務(wù)模式。通過系統(tǒng)軟件屏蔽了不同高性能計(jì)算系統(tǒng)中作業(yè)管理系統(tǒng)的差異,應(yīng)用軟件部署差異、環(huán)境配置差異等,允許用戶僅提交計(jì)算數(shù)據(jù),指定計(jì)算規(guī)模即可開展計(jì)算。服務(wù)形式為命令行和WEB 界面兩種方式。
第二階段,接口服務(wù)階段。
十二五至十三五期間,為支撐發(fā)展應(yīng)用領(lǐng)域社區(qū)和業(yè)務(wù)平臺(tái)的建設(shè),高性能計(jì)算環(huán)境通過多源認(rèn)證與授權(quán)、接口網(wǎng)關(guān)、服務(wù)治理等技術(shù)提供了環(huán)境計(jì)算服務(wù)接口[12]。環(huán)境計(jì)算服務(wù)接口是REST 風(fēng)格的網(wǎng)絡(luò)編程接口,支持跨平臺(tái)、跨語(yǔ)言的編程方式,可為應(yīng)用領(lǐng)域社區(qū)和業(yè)務(wù)平臺(tái)的搭建提供較大的靈活性。目前,計(jì)算服務(wù)接口已支持建設(shè)了二十余個(gè)應(yīng)用領(lǐng)域社區(qū)和業(yè)務(wù)平臺(tái),包括高能物理軟件系統(tǒng),HPC 教育實(shí)踐平臺(tái)等。
第三階段,計(jì)算函數(shù)階段。
隨著融合計(jì)算的出現(xiàn),高性能計(jì)算仍然是應(yīng)用業(yè)務(wù)的重要數(shù)據(jù)處理手段。高性能計(jì)算環(huán)境即將進(jìn)入新的計(jì)算服務(wù)階段,即計(jì)算函數(shù)階段。該階段提供新型HPC 算力編程模式(HPC as a function),旨在應(yīng)用編程層面對(duì)HPC 算力資源和任務(wù)進(jìn)行抽象,并形成易用的編程函數(shù)庫(kù)。計(jì)算函數(shù)立足于應(yīng)用業(yè)務(wù)編程人員,使得用戶不再受限于應(yīng)用領(lǐng)域或業(yè)務(wù)平臺(tái)中固有的業(yè)務(wù)工作流,不受限于HPC 算力資源,支持融合計(jì)算業(yè)務(wù)編程,提升“東數(shù)西算”多元計(jì)算基礎(chǔ)設(shè)施的可編程性。
傳統(tǒng)HPC 算力編程模式是基于單一高性能計(jì)算系統(tǒng)的并行編程模式。早期代表性的編程模式是OpenMP[13]和MPI[14],分別支持多核并行編程和跨節(jié)點(diǎn)并行編程;隨著異構(gòu)計(jì)算系統(tǒng)成為主流,多種異構(gòu)編程模式出現(xiàn),OpenCL[15]是第一個(gè)面向異構(gòu)系統(tǒng)通用目的并行編程的開放式、免費(fèi)標(biāo)準(zhǔn);CUDA[16]是建立在NVIDIA GPU 上的一個(gè)通用并行計(jì)算平臺(tái)和編程模型;可移植異構(gòu)計(jì)算接口HIP[17]是一種C ++運(yùn)行時(shí)API 和內(nèi)核語(yǔ)言,適用于AMD 和NVIDIA GPU;SYCL[18]是OpenCL 的高級(jí)編程模型,用于提高編程效率;OneAPI[19]是Intel 推出的統(tǒng)一的、簡(jiǎn)化的編程模型,旨在簡(jiǎn)化跨多架構(gòu)的開發(fā)過程(如CPU、GPU、FPGA、加速器)。
與傳統(tǒng)HPC 算力編程模式不同,本文立足多個(gè)高性能計(jì)算系統(tǒng),并假設(shè)單一高性能計(jì)算系統(tǒng)內(nèi)部應(yīng)用計(jì)算已形成計(jì)算程序,重點(diǎn)研究其在融合計(jì)算應(yīng)用中的集成。
在美國(guó)能源部E 級(jí)計(jì)算計(jì)劃(Exascale Computing Project,簡(jiǎn)稱ECP)[20]中,洛斯·阿拉莫斯國(guó)家試驗(yàn)室聯(lián)合多個(gè)大學(xué)實(shí)驗(yàn)室構(gòu)建了一個(gè)HPC 應(yīng)用統(tǒng)一運(yùn)行時(shí)框架BEE[21],分別針對(duì)Charliecloud 容器平臺(tái)、虛擬機(jī)平臺(tái)、AWS 云平臺(tái)、OpenStack 云平臺(tái)提供了HPC 應(yīng)用運(yùn)行時(shí)的后端實(shí)現(xiàn),并提供了易于使用的統(tǒng)一用戶界面、執(zhí)行環(huán)境和優(yōu)化性能。BEE可支持HPC 應(yīng)用在高性能計(jì)算系統(tǒng)和云計(jì)算平臺(tái)無差異化運(yùn)行,并支持上層工作流構(gòu)建。
美國(guó)東北大學(xué)和麻省理工學(xué)院林肯實(shí)驗(yàn)室聯(lián)合針對(duì)科學(xué)計(jì)算工作流提出了一種混合執(zhí)行策略Mashup[22],用來自動(dòng)平衡計(jì)算任務(wù)在常規(guī)云計(jì)算平臺(tái)(EC2)或在新型無服務(wù)器計(jì)算環(huán)境(Lambda)的執(zhí)行。實(shí)驗(yàn)表明Mashup 在執(zhí)行時(shí)間和成本降低方面均優(yōu)于最新工作流執(zhí)行引擎。
加州大學(xué)伯克利分校和紐約大學(xué)針對(duì)無服務(wù)器計(jì)算提出了一種新型編程框架Kappa[23]。Kappa 可以支持程序員在新型無服務(wù)器計(jì)算范式下表達(dá)一組短期任務(wù),使用檢查點(diǎn)機(jī)制處理函數(shù)超時(shí),并提供并發(fā)機(jī)制支持并行計(jì)算和協(xié)同。
上述工作中Mashup 和Kappa 均為面向云計(jì)算基礎(chǔ)設(shè)施的編程支持,其中計(jì)算任務(wù)的表達(dá)和編排等技術(shù)對(duì)本文工作有借鑒意義。BEE 支持HPC 算力,但僅提供了工作流表達(dá),應(yīng)用可編程性存在一定局限性。本文重點(diǎn)研究HPC 算力在融合計(jì)算應(yīng)用中的新型編程模式,相比跨域工作流系統(tǒng)更側(cè)重于HPC算力在應(yīng)用編程層面的抽象與表達(dá),可與其他類型算力接口協(xié)同提供更強(qiáng)的可編程性。
本文定義了HPC 算力的如下基本抽象:
隊(duì)列:表示計(jì)算資源,具備的屬性包括所屬集群名稱、總核數(shù)、當(dāng)前運(yùn)行核數(shù)、當(dāng)前排隊(duì)核數(shù)。隊(duì)列為計(jì)算資源的基本單位。
應(yīng)用:表示應(yīng)用資源,具備的屬性包括所屬集群、版本、可用隊(duì)列、執(zhí)行環(huán)境設(shè)置信息。一個(gè)計(jì)算任務(wù)可執(zhí)行的基本條件是計(jì)算資源上部署有應(yīng)用資源。
作業(yè):表示計(jì)算任務(wù),具備的屬性包括應(yīng)用、計(jì)算核數(shù)、輸入?yún)?shù)和數(shù)據(jù)、輸出數(shù)據(jù)、狀態(tài)。一個(gè)作業(yè)的狀態(tài)包含排隊(duì)、運(yùn)行、完成三個(gè)值。
數(shù)據(jù):為計(jì)算任務(wù)的輸入和輸出,具備的屬性為作業(yè)、存儲(chǔ)位置。數(shù)據(jù)在融合計(jì)算編程中將是HPC 算力與業(yè)務(wù)其他流程連接的重要樞紐。
HPC 算力抽象的關(guān)系如圖1 所示,數(shù)據(jù)是HPC算力服務(wù)的輸入和輸出,數(shù)據(jù)計(jì)算通過作業(yè)執(zhí)行,作業(yè)向隊(duì)列申請(qǐng)并獲取計(jì)算資源,必要時(shí)進(jìn)入排隊(duì)狀態(tài),當(dāng)資源滿足時(shí)調(diào)用應(yīng)用啟動(dòng)計(jì)算任務(wù),待計(jì)算完畢通過數(shù)據(jù)進(jìn)入應(yīng)用業(yè)務(wù)的下一個(gè)流程。對(duì)于整體應(yīng)用業(yè)務(wù)編程,此過程為異步執(zhí)行。
圖1 HPC 算力抽象Fig.1 Abstraction in HPCaaF
基于高性能計(jì)算環(huán)境的HPC 算力編程模式以計(jì)算函數(shù)庫(kù)為具體實(shí)現(xiàn)形式,采用Python 編程語(yǔ)言。
Python 已經(jīng)成為大數(shù)據(jù)處理和人工智能應(yīng)用的主流編程語(yǔ)言,提供基于Python 編程語(yǔ)言的計(jì)算函數(shù)庫(kù)更有利于融合計(jì)算中HPC 算力資源表達(dá);同時(shí),Python 程序可以通過Jupyter[24-25]筆記形式進(jìn)行共享和重現(xiàn),便于應(yīng)用業(yè)務(wù)的協(xié)同。
計(jì)算函數(shù)庫(kù)的主要函數(shù)定義如表3。
表3 主要計(jì)算函數(shù)定義Table 3 Function definition
在HPC 算力編程模式實(shí)現(xiàn)中,待解決的關(guān)鍵技術(shù)問題如下:
(1)用戶認(rèn)證與授權(quán)
在高性能計(jì)算環(huán)境中,用戶需要通過環(huán)境認(rèn)證和授權(quán)方可使用環(huán)境中高性能計(jì)算資源,以作業(yè)日志作為資源核算的重要依據(jù)。
高性能計(jì)算環(huán)境采用多源用戶認(rèn)證與授權(quán)技術(shù)[26],不僅支持環(huán)境用戶通過命令行、WEB 接口、領(lǐng)域社區(qū)和業(yè)務(wù)平臺(tái)認(rèn)證訪問環(huán)境計(jì)算資源,而且基于OAuth和Token 技術(shù)支持第三方領(lǐng)域社區(qū)和業(yè)務(wù)平臺(tái)的用戶訪問環(huán)境計(jì)算資源。
不同于平臺(tái)服務(wù)的多用戶運(yùn)行模式,計(jì)算程序往往是單用戶運(yùn)行模式;而多源用戶認(rèn)證與授權(quán)技術(shù)需要采用回調(diào)機(jī)制確保認(rèn)證安全,因此融合計(jì)算程序難以憑借用戶名和密碼在程序中完成高性能計(jì)算環(huán)境的認(rèn)證過程,需要新的技術(shù)方案在兼容已有認(rèn)證體系同時(shí)支撐計(jì)算函數(shù)庫(kù)安全訪問HPC 算力資源。
當(dāng)前可借鑒的技術(shù)方案為GITHUB 提供的基于Token 的登錄方式[27]。用戶可通過GITHUB 網(wǎng)站根據(jù)需求設(shè)置參數(shù)并生成Token,然后在命令行等運(yùn)行環(huán)境中通過Token 訪問GITHUB 的各項(xiàng)接口功能。
(2)HPC 算力評(píng)估
HPC 算力評(píng)估是融合計(jì)算應(yīng)用中判定一個(gè)計(jì)算任務(wù)是否需要HPC 算力支撐的重要決策依據(jù),是實(shí)現(xiàn)融合計(jì)算應(yīng)用高效率、低成本目標(biāo)的關(guān)鍵。
國(guó)家高性能計(jì)算環(huán)境建設(shè)團(tuán)隊(duì)在十三五項(xiàng)目執(zhí)行期間提出高性能計(jì)算環(huán)境資源評(píng)價(jià)標(biāo)準(zhǔn)[28],立足于單一計(jì)算集群量化評(píng)價(jià)集群計(jì)算服務(wù)水平并形成規(guī)范,但缺乏針對(duì)單個(gè)算例的分析評(píng)測(cè)方法。論文相關(guān)工作Mashup 面向云計(jì)算環(huán)境提出了計(jì)算任務(wù)執(zhí)行的量化定義,作為選取最優(yōu)目標(biāo)計(jì)算資源的重要依據(jù),可供本文后續(xù)進(jìn)一步工作借鑒。
當(dāng)前實(shí)際應(yīng)用業(yè)務(wù)中,HPC 算力評(píng)估尚主要依靠應(yīng)用業(yè)務(wù)人員的經(jīng)驗(yàn),一般從資源和成本兩個(gè)層面考慮。資源層面,當(dāng)計(jì)算所需的硬件資源(如加速卡)或應(yīng)用軟件資源僅在HPC 算力中具備時(shí),優(yōu)先考慮使用HPC 算力資源;成本層面,主要包括時(shí)間成本和花銷成本,其中時(shí)間成本主要考慮計(jì)算加速比和排隊(duì)時(shí)間兩個(gè)重要因素。
(3)計(jì)算任務(wù)編排
應(yīng)用業(yè)務(wù)流程中往往包含多個(gè)HPC 計(jì)算任務(wù),他們或可獨(dú)立運(yùn)行,或存在數(shù)據(jù)依賴,通過計(jì)算任務(wù)編排可優(yōu)化融合計(jì)算應(yīng)用業(yè)務(wù)中的多個(gè)HPC 計(jì)算任務(wù)執(zhí)行。
文獻(xiàn)[29]提出的Brane 框架使用直觀的領(lǐng)域特定語(yǔ)言DSL 表達(dá)任務(wù)編排邏輯,幫助具有有限編程經(jīng)驗(yàn)的終端用戶自行編寫應(yīng)用程序,實(shí)現(xiàn)跨計(jì)算設(shè)施的任務(wù)編排和應(yīng)用構(gòu)建。文獻(xiàn)[30]提出的BEE 編排系統(tǒng)通過調(diào)度組件和與不同計(jì)算資源的交互組件實(shí)現(xiàn)云和HPC 組件任意組合的通信,從而支持跨資源的復(fù)雜工作流實(shí)現(xiàn)。
HPC 算力編程模型下的計(jì)算任務(wù)編排可借鑒已有科學(xué)工作流中的任務(wù)編排技術(shù),并重點(diǎn)解決一個(gè)核心問題,即以應(yīng)用為單位,考慮HPC 集群排隊(duì)的實(shí)際情況,如何編排其中多個(gè)HPC 計(jì)算任務(wù),使得整體計(jì)算完成時(shí)間最小。
HPC 算力編程模式參考體系結(jié)構(gòu)如圖2 所示。
圖2 HPC 算力編程模式參考體系結(jié)構(gòu)Fig.2 HPC as a function reference architecture
參考體系結(jié)構(gòu)自底向上分為四層:
物理層:物理層是由支撐HPC 算力的高性能計(jì)算資源和網(wǎng)絡(luò)構(gòu)成。高性能計(jì)算資源包括通用計(jì)算系統(tǒng)和國(guó)產(chǎn)異構(gòu)計(jì)算系統(tǒng)。目前高性能計(jì)算資源之間通過互聯(lián)網(wǎng)相連,“東數(shù)西算”高速專網(wǎng)的建成有望大大提升整體HPC 算力效率。
連接層:在物理網(wǎng)絡(luò)之上建立虛擬疊加網(wǎng)絡(luò),通過智能路由在現(xiàn)有網(wǎng)絡(luò)條件下優(yōu)化數(shù)據(jù)傳輸,并提供SSL 數(shù)據(jù)加密傳輸?shù)劝踩e措。
服務(wù)層:采用微服務(wù)架構(gòu),通過資源驅(qū)動(dòng)、分布式消息總線等技術(shù)聚合跨地域、跨組織、不同體系結(jié)構(gòu)的高性能計(jì)算資源,形成統(tǒng)一的資源信息存儲(chǔ);并通過授權(quán)管理、數(shù)據(jù)傳輸、智能調(diào)度、服務(wù)監(jiān)控等技術(shù)實(shí)現(xiàn)計(jì)算任務(wù)和數(shù)據(jù)的智能分發(fā)和協(xié)同工作,提供統(tǒng)一的高性能計(jì)算服務(wù)。
表達(dá)層:通過REST 風(fēng)格編程接口、接口網(wǎng)關(guān)服務(wù)面向應(yīng)用提供網(wǎng)絡(luò)服務(wù)接口,提供用戶認(rèn)證與授權(quán)、接口安全檢測(cè)機(jī)制等保障網(wǎng)絡(luò)服務(wù)接口的安全。基于應(yīng)用編程接口提供計(jì)算函數(shù)庫(kù),支持應(yīng)用業(yè)務(wù)編程與高性能計(jì)算環(huán)境交互完成HPC 計(jì)算任務(wù)和數(shù)據(jù)的管理。
本文依托國(guó)家高性能計(jì)算環(huán)境初步實(shí)現(xiàn)了原型系統(tǒng),并應(yīng)用于風(fēng)暴潮實(shí)時(shí)預(yù)測(cè)工作。風(fēng)暴潮是沿海近岸的一種巨大的海洋危害,風(fēng)暴潮實(shí)時(shí)預(yù)報(bào)系統(tǒng)[31]能夠?qū)︼L(fēng)暴潮進(jìn)行快速準(zhǔn)確的實(shí)時(shí)預(yù)報(bào),可以在一定程度上降低風(fēng)暴潮帶來的經(jīng)濟(jì)損失和人員傷亡。其預(yù)報(bào)流程如圖3。首先抓取特定區(qū)域的實(shí)時(shí)觀測(cè)數(shù)據(jù);然后以實(shí)時(shí)觀測(cè)數(shù)據(jù)為驅(qū)動(dòng),計(jì)算區(qū)域內(nèi)風(fēng)場(chǎng)、浪場(chǎng)、水位高度等變化情況;將計(jì)算數(shù)據(jù)進(jìn)行格式轉(zhuǎn)化,并通過多種方式對(duì)實(shí)時(shí)預(yù)報(bào)數(shù)據(jù)進(jìn)行可視化表達(dá)。
圖3 風(fēng)暴潮預(yù)測(cè)基本流程Fig.3 Storm surge forecasting workflow
其中,臺(tái)風(fēng)數(shù)據(jù)抓取和數(shù)據(jù)可視化由于聯(lián)網(wǎng)需求運(yùn)行于云計(jì)算平臺(tái),而數(shù)據(jù)生成和處理的計(jì)算過程可根據(jù)算力評(píng)估確定。
本文測(cè)試基于中國(guó)科學(xué)院先導(dǎo)專項(xiàng)“地球大數(shù)據(jù)科學(xué)工程”建設(shè)的專用計(jì)算基礎(chǔ)設(shè)施[32]提供的云計(jì)算平臺(tái)資源,以及國(guó)家高性能計(jì)算環(huán)境提供的HPC 算力資源。同時(shí),該專用計(jì)算基礎(chǔ)設(shè)施提供的高性能計(jì)算資源已集成于國(guó)家高性能計(jì)算環(huán)境,可通過共享存儲(chǔ)與云計(jì)算平臺(tái)共享應(yīng)用數(shù)據(jù)。
由圖4 可見,潮汐模式計(jì)算40 核并行最優(yōu);耦合模式計(jì)算160 核并行最優(yōu),因此采用HPC 算力;耦合文件生成、潮汐文件生成和計(jì)算結(jié)果處理時(shí)間因商業(yè)軟件MATLAB 的需求在本測(cè)試中考慮使用HPC 算力。
圖4 核心模式計(jì)算并行測(cè)試Fig.4 Kernel modules parallel testing
應(yīng)用核心計(jì)算運(yùn)行時(shí)間6,300 秒(1 小時(shí)45 分鐘),各階段運(yùn)行時(shí)間如圖5 所示。假設(shè)云主機(jī)具備HPC 相同的計(jì)算能力,按單節(jié)點(diǎn)40 核并行估算,預(yù)計(jì)計(jì)算在云主機(jī)中完成需要16,211 秒(4 小時(shí)30 分11 秒)。相比估算的云主機(jī)運(yùn)行時(shí)間,混合算力可縮短計(jì)算時(shí)間約61%。
圖5 風(fēng)暴潮預(yù)測(cè)各階段運(yùn)行時(shí)間Fig.5 Storm surge forecasting testing
在國(guó)家“東數(shù)西算”戰(zhàn)略背景下,論文提出了一種新型HPC 算力編程模式,旨在充分發(fā)揮HPC 算力優(yōu)勢(shì),提高“東數(shù)西算”算力基礎(chǔ)設(shè)施的可編程性。論文實(shí)現(xiàn)了原型系統(tǒng),并初步應(yīng)用于風(fēng)暴潮實(shí)時(shí)預(yù)測(cè)工作。
未來工作將基于HPC 算力編程模式原型系統(tǒng),進(jìn)一步解決用戶認(rèn)證與授權(quán)、HPC 算力評(píng)估、計(jì)算任務(wù)編排等關(guān)鍵問題,并通過實(shí)際應(yīng)用于科研業(yè)務(wù)流程開展優(yōu)化工作。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。