文/魯永泉 高鵬東
如何管理好,使用好龐大的計算設(shè)備和資源對所有HPC中心的管理者來說,都是一個非常重要和困難的問題。一般來說,國內(nèi)的很多單位都是將HPC中心作為一個獨立的部門進(jìn)行管理,甚至?xí)oHPC中心賦予一定的行政級別,以便更好地進(jìn)行設(shè)備維護(hù)和用戶管理。因此,國內(nèi)的大部分HPC中心往往都維持了一個龐大的運營和管理團(tuán)隊。這無疑加重了所在單位的負(fù)擔(dān),尤其是資金上的壓力。很多高校和科研單位,在投入巨額資金建立了高性能HPC中心之后,都會出現(xiàn)缺乏應(yīng)用和終端用戶的情況,面對后期運營中出現(xiàn)的各種問題,往往都是苦不堪言。
縱觀國內(nèi)外HPC中心的普遍發(fā)展模式,不論在中國還是美國,都是一個需要資金持續(xù)投入的動態(tài)過程。技術(shù)發(fā)展帶來的工藝和設(shè)備更新要求HPC中心必須有新的投入,而龐大設(shè)備的維護(hù)和管理費用對HPC中心來說更是一個必須的持續(xù)投入。國外高性能發(fā)展的初期、國內(nèi)HPC中心目前的運營狀況,都是如此。在缺少高附加值應(yīng)用和終端客源的情況下,大多數(shù)HPC中心依靠自己的力量都難以為繼,都不得不依靠政府長期的支持和不斷的投入。如果缺少了政府的支持,將舉步維艱。中國傳媒大學(xué)高性能計算中心在可持續(xù)發(fā)展上,走出了一條獨具特色的產(chǎn)學(xué)研一體化道路。
中國傳媒大學(xué)高性能計算中心自2006年成立以來,同樣遇到了上述問題。由于投入經(jīng)費預(yù)算的限制,高性能計算中心僅設(shè)置4個專職的科研人員編制。中心工作人員除了進(jìn)行高性能計算相關(guān)領(lǐng)域的研究開發(fā),以及相關(guān)專業(yè)博士碩士研究生的教學(xué)培養(yǎng)外,還要負(fù)責(zé)管理和維護(hù)面向全校師生開放的高性能計算平臺。因此,如何盡可能地減少系統(tǒng)管理人員的工作負(fù)擔(dān),使其能夠從繁冗瑣碎的日常管理工作中擺脫出來,同時有效提高高性能計算平臺管理工作的自動化程度,降低計算集群的使用門檻,是傳媒大學(xué)高性能計算中心在運行一段時間后,中心管理人員不得不思考的一個重要問題。
在對國內(nèi)外現(xiàn)有集群管理系統(tǒng)軟件進(jìn)行充分的調(diào)研之后,中心人員發(fā)現(xiàn)目前現(xiàn)有的集群管理系統(tǒng)軟件種類繁多,這些管理軟件在功能上都不盡相同,大都只是實現(xiàn)了集群系統(tǒng)的某個方面的管理功能。對于集群的管理員來說,需要的是針對集群系統(tǒng)全方位、各個層面的統(tǒng)一管理。因此,管理員往往不得不在各種不同的集群管理軟件之間來回切換。而且,大多數(shù)集群管理軟件還都是以命令行、配置文件的方式進(jìn)行操作,這進(jìn)一步加大了管理和使用的集群系統(tǒng)的難度。尤其對于集群的終端用戶來說,他們可能都是某些應(yīng)用領(lǐng)域的專家,專業(yè)知識十分豐富,但由于不熟悉Linux下命令行的操作方式或由于任務(wù)提交過程過于復(fù)雜,使得這些老師的使用受到了極大的影響,有些人甚至因此放棄了對集群的使用。
鑒于集群管理和使用中存在的實際困難,中心的科研人員在深入分析比較了加拿大Platform公司的LSF、Platform Rocks以及香港聯(lián)科公司的CHESS軟件之后,決定不局限于現(xiàn)有的商業(yè)集群管理軟件,轉(zhuǎn)而立足于自身技術(shù)實力,根據(jù)中國傳媒大學(xué)師生使用集群的實際情況,開發(fā)具有自主知識產(chǎn)權(quán)的集群管理系統(tǒng)軟件。
COMS (Cluster Optimization and Management System)集群優(yōu)化管理系統(tǒng)軟件正是在這樣的背景下產(chǎn)生的,是中心人員經(jīng)過近兩年時間刻苦鉆研的結(jié)果。在2008年初,COMS v1.0誕生了。COMS v1.0整合了分散于操作系統(tǒng)、集群系統(tǒng)管理、作業(yè)調(diào)度管理、狀態(tài)監(jiān)控等軟件中的多種管理功能,實現(xiàn)了對集群多個層次的統(tǒng)一管理,將集群所有節(jié)點從異構(gòu)的、松散的狀態(tài)整合成一個緊密的具有單一映像的“虛擬超級計算機”,實現(xiàn)對集群系統(tǒng)資源有效的管理維護(hù)。為用戶和管理員提供一個友好的Web界面,有效降低了集群系統(tǒng)的使用及管理難度。
在推出該版本之前,中心科研人員對其進(jìn)行了嚴(yán)格測試,而且還將其作為中國傳媒大學(xué)高性能計算平臺的管理系統(tǒng)為全校師生服務(wù)了長達(dá)半年之久,成功經(jīng)受住了各種并行應(yīng)用的考驗。
COMS作為一個專業(yè)性很強的業(yè)務(wù)系統(tǒng)。它的實現(xiàn)充分體現(xiàn)了各個子系統(tǒng)之間相對獨立性,而且每個子系統(tǒng)也都采用了N-Tier的軟件架構(gòu),實現(xiàn)了用戶界面和業(yè)務(wù)邏輯的分離。當(dāng)用戶界面接收到通過Web瀏覽器發(fā)出的請求以后,首先是對數(shù)據(jù)進(jìn)行必要的預(yù)處理,然后才調(diào)用業(yè)務(wù)邏輯層模塊進(jìn)行處理,待處理完成后,再由用戶界面層加載相應(yīng)的頁面模板動態(tài)生成HTML頁面,并返回給用戶。這不僅增強了系統(tǒng)的可維護(hù)性,還允許用戶定制適合自己風(fēng)格的界面,從而有效地提高系統(tǒng)的易用性。另外,在用戶界面的開發(fā)上使用了AJAX技術(shù),極大改善了系統(tǒng)的用戶體驗。
隨著COMS軟件的不斷完善,功能的日趨豐富,在中心工作人員對外的學(xué)術(shù)交流中,COMS系統(tǒng)受到了越來越多業(yè)內(nèi)人士的廣泛關(guān)注。因此,COMS作為中心人員辛勤工作的結(jié)晶,走上產(chǎn)業(yè)化的道路已經(jīng)成為必然。
對于中心的科研成果向社會生產(chǎn)力轉(zhuǎn)化的問題,學(xué)校給予了大力支持。中國傳媒大學(xué)十分重視調(diào)動學(xué)校的科技、教育和人才資源,并逐步加強科技教育與經(jīng)濟(jì)的結(jié)合,加速科技成果的轉(zhuǎn)化和產(chǎn)業(yè)化,有力的促進(jìn)了首都的經(jīng)濟(jì)建設(shè)和社會發(fā)展,取得了重要的產(chǎn)業(yè)化成就。
2009年4月,DELL公司和中心合作,為中科院空間中心提供了一套1024個處理器的高性能計算平臺。其中,DELL公司負(fù)責(zé)提供所有的硬件設(shè)備,中心負(fù)責(zé)系統(tǒng)所有軟件的部署和培訓(xùn),并進(jìn)行Linpack基準(zhǔn)測試。在系統(tǒng)部署過程中,中心研究人員發(fā)現(xiàn)并克服了DELL官方網(wǎng)站提供的網(wǎng)卡驅(qū)動程序存在不穩(wěn)定等問題。而且在有限的時間內(nèi),在Linpack基準(zhǔn)測試中跑出了并行效率為84.07%的最好成績。該成績使得空間中心的這套集群在2009年11月公布的中國高性能計算機TOP100排行上名列第45位。排名靠前的計算集群的規(guī)模都要遠(yuǎn)遠(yuǎn)大于空間中心的計算集群規(guī)模。此次合作標(biāo)志著中國傳媒大學(xué)高性能計算中心研發(fā)的集群系統(tǒng)管理軟件COMS正式得到了國際IT設(shè)備制造商DELL的認(rèn)可。之后,中心還先后與DELL公司合作,為中科院研究生院、中科院大氣物理研究所、中科院理論物理研究所、中央民族大學(xué)、北京市信息職業(yè)技術(shù)學(xué)院、燕山大學(xué)、內(nèi)蒙古科技大學(xué)等一批國內(nèi)知名高校和科研單位的高性能計算平臺建設(shè)提供技術(shù)支持與服務(wù)。
COMS系統(tǒng)充分體現(xiàn)了中國傳媒大學(xué)高性能計算中心在高性能計算領(lǐng)域的科研實力,不僅為中心和學(xué)校贏得了榮譽,而且也使中心乃至傳媒大學(xué)得到了國內(nèi)更多高性能計算應(yīng)用領(lǐng)域用戶的了解和肯定。
正是憑借用戶對COMS系統(tǒng)的認(rèn)可,中心得以和中國地震局地球物理研究所在“國家地震網(wǎng)絡(luò)計算應(yīng)用系統(tǒng)”以及中科院空間中心在“空間天氣網(wǎng)格EScience示范項目”上開展了進(jìn)一步深入的合作。2009年初,在經(jīng)過中國地震局地球物理研究所對COMS系統(tǒng)嚴(yán)格的考察之后,雙方簽署了關(guān)于建設(shè)“國家地震網(wǎng)絡(luò)計算應(yīng)用系統(tǒng)”的協(xié)議。由中心負(fù)責(zé)為中國地震局開發(fā)直接服務(wù)于我國地震監(jiān)測與預(yù)報的網(wǎng)絡(luò)科技計算環(huán)境。該系統(tǒng)主要是基于地震行業(yè)內(nèi)外集群計算資源、觀測數(shù)據(jù)資源和地學(xué)知識資源,通過地球科學(xué)計算模型的并行重構(gòu)和計算應(yīng)用軟件的規(guī)范化設(shè)計,采用網(wǎng)絡(luò)的形式為科學(xué)研究、地震預(yù)報和經(jīng)濟(jì)建設(shè)提供高性能計算能力和遠(yuǎn)程服務(wù)。
國家地震網(wǎng)絡(luò)計算應(yīng)用系統(tǒng),如圖1所示,是由集群計算系統(tǒng)、應(yīng)用門戶系統(tǒng)、資源管理系統(tǒng)和地學(xué)計算應(yīng)用系統(tǒng)等構(gòu)成。在中國地震局已有的地震信息系統(tǒng)基礎(chǔ)上,擴(kuò)充網(wǎng)絡(luò)數(shù)據(jù)傳輸、存儲、交換及處理等能力,依托地球物理研究所集群服務(wù)器,建立并行超級計算系統(tǒng),通過門戶系統(tǒng),使各個計算應(yīng)用系統(tǒng)形成一個整體,構(gòu)成具有一定并行處理能力的地震應(yīng)用網(wǎng)絡(luò)計算示范系統(tǒng),使用戶能夠通過網(wǎng)絡(luò)遠(yuǎn)程訪問應(yīng)用節(jié)點,共享節(jié)點的并行計算、數(shù)據(jù)信息和應(yīng)用軟件等資源。該系統(tǒng)目前共支持國家地震行業(yè)中地球物理、地震預(yù)測、地質(zhì)研究、地殼應(yīng)力等方面的三十多種專業(yè)計算應(yīng)用服務(wù)。
圖1 國家地震網(wǎng)絡(luò)計算應(yīng)用系統(tǒng)
2009年底,中心和中科院空間中心在前期高性能計算平臺建設(shè)成功合作的基礎(chǔ)上,就中科院E-Science示范項目“空間天氣網(wǎng)格”的建設(shè)達(dá)成一致,并簽署了合作協(xié)議,由中心承擔(dān)中科院空間中心的EScience示范項目“空間天氣網(wǎng)格”建設(shè),并為空間中心承擔(dān)的國家重大科技基礎(chǔ)設(shè)施項目“東半球空間環(huán)境地基綜合監(jiān)測子午鏈(簡稱子午工程)”提供技術(shù)支持與服務(wù)。
在“空間天氣網(wǎng)格”E-Science示范項目建設(shè)中,主要是充分利用現(xiàn)有的探測數(shù)據(jù)和建模產(chǎn)品,以空間天氣網(wǎng)格為主要載體,充分利用實時數(shù)據(jù)、高性能計算與可視化設(shè)備等先進(jìn)手段或工具,進(jìn)行空間天氣事件的分析和預(yù)測。中心科研人員根據(jù)中科院空間中心的實際需求,為其量身打造了一款“網(wǎng)格應(yīng)用管理系統(tǒng)GAMS”。該系統(tǒng)能夠?qū)⒎植际降挠嬎阗Y源、存儲資源、數(shù)據(jù)資源、信息資源、知識資源和專家資源實現(xiàn)全面的共享,并提供給用戶透明的資源或者應(yīng)用使用。
對于終端用戶或者應(yīng)用來說,網(wǎng)格應(yīng)用管理系統(tǒng)GAMS就好像是一臺超大型的虛擬計算機,通過在個人、組織和資源之間實現(xiàn)安全、協(xié)調(diào)的資源共享,創(chuàng)建出虛擬的動態(tài)組織。此外,網(wǎng)格應(yīng)用管理系統(tǒng)基于Web的友好界面,使得終端用戶可以完全不理會系統(tǒng)底層復(fù)雜的網(wǎng)絡(luò)連接和應(yīng)用實現(xiàn),而輕松享受技術(shù)發(fā)展和進(jìn)步所帶來的無盡便利。
如圖2所示,是E-Science示范項目“空間天氣網(wǎng)格”L1-磁層-電離層因果鏈物理模式數(shù)值磁層庫的使用界面?!皣业卣鹁W(wǎng)絡(luò)計算應(yīng)用系統(tǒng)”和“空間天氣網(wǎng)格E-Science示范項目”是中國傳媒大學(xué)高性能計算中心在高性能計算領(lǐng)域繼COMS系統(tǒng)之后,產(chǎn)學(xué)研一體化繼續(xù)深入的另外兩個成功案例。這兩個項目的建設(shè),不僅充分得到了最終用戶的充分肯定,而且為整合我國地震和空間天氣領(lǐng)域現(xiàn)有的設(shè)備、計算資源、數(shù)據(jù)資源以及人力資源做出了貢獻(xiàn)。
圖2 E-Science示范項目“空間天氣網(wǎng)格”