文/中國科學(xué)院高能物理研究所(北京 100039) 中國科學(xué)院計劃財務(wù)局(北京 100864)
數(shù)據(jù)密集型網(wǎng)格示范站點建設(shè)與應(yīng)用取得良好效果*
文/中國科學(xué)院高能物理研究所(北京 100039) 中國科學(xué)院計劃財務(wù)局(北京 100864)
中國科學(xué)院,知識創(chuàng)新工程重大項目,數(shù)據(jù)密集型網(wǎng)格
近年來,隨著科學(xué)研究規(guī)模的日益擴(kuò)大,科學(xué)家需要采集海量數(shù)據(jù)用于研究和解決復(fù)雜的科學(xué)問題,而科學(xué)數(shù)據(jù)呈數(shù)量級增長對計算技術(shù)提出了更大的挑戰(zhàn)。數(shù)據(jù)密集型網(wǎng)格平臺建立在網(wǎng)格技術(shù)基礎(chǔ)上,是一種對海量數(shù)據(jù)進(jìn)行高效分析處理的有效工具,在物理、化學(xué)、生物科學(xué)、醫(yī)學(xué)、核能技術(shù)、石油探勘、航天工程等眾多領(lǐng)域具有廣泛的應(yīng)用前景,并得到了快速推廣。2008年,中科院啟動了知識創(chuàng)新工程重大項目“數(shù)據(jù)密集型網(wǎng)格平臺示范站點”(英文名稱:Data Intensive Grid Platform),項目以高能物理所為依托單位,聯(lián)合計算技術(shù)所、網(wǎng)絡(luò)信息中心及研究生院等單位共同承擔(dān)。
項目以學(xué)科實際應(yīng)用的持續(xù)需求為牽引,采用成熟先進(jìn)的網(wǎng)格中間件搭建和整合數(shù)據(jù)網(wǎng)格資源,建立了由1 760個CPU核、617.3TB磁盤存儲組成的計算資源網(wǎng)格環(huán)境,已成為國際高能物理網(wǎng)格平臺WLCG(Worldwide LHC Computing Grid)的重要組成部分,并實現(xiàn)了與中國國家網(wǎng)格(CNGrid)的互操作,有效支持了與歐洲粒子物理中心、法國國家核物理與粒子物理研究所計算中心、美國國家費米實驗室等國際上重要的科研機(jī)構(gòu)以及國內(nèi)多家研究機(jī)構(gòu)之間的合作。該網(wǎng)格站點運行穩(wěn)定,任務(wù)飽滿,在國際高能物理網(wǎng)格系統(tǒng)的200多個站點中被評為‘Leadership’站點。
項目建設(shè)的數(shù)據(jù)密集型網(wǎng)格平臺已成功應(yīng)用于高能物理、地球動力學(xué)及生物信息學(xué)等若干領(lǐng)域,并成為多領(lǐng)域科學(xué)計算的重要支撐系統(tǒng)。在粒子物理計算領(lǐng)域,超環(huán)面儀器實驗(ATLAS)是運行在LHC(Large Hadron Collider)上最大規(guī)模的實驗之一,數(shù)據(jù)密集型網(wǎng)格平臺為中國物理學(xué)家參與該大型國際合作項目提供了高性能計算環(huán)境。緊湊型繆子螺線管探測器實驗(CMS)則是類似于ATLAS的另一個大型LHC實驗項目,數(shù)據(jù)密集型網(wǎng)格平臺同樣為中國科學(xué)家參與CMS物理分析提供了必要的支撐條件。數(shù)據(jù)密集型網(wǎng)格平臺每年為ATLAS和CMS實驗提供約500萬CPU小時的機(jī)時,完成400余萬個計算作業(yè),在希格斯粒子尋找和性質(zhì)研究、超對稱粒子的尋找、超對稱破缺共振態(tài)的尋找、W和Z玻色子特性研究以及top夸克的特性研究,μ+ μ–研究、J/y、?極化研究做出了重要成果。
大連化學(xué)物理所利用數(shù)據(jù)密集型網(wǎng)格平臺進(jìn)行了具有高度序列一致性但不同三維結(jié)構(gòu)的蛋白折疊機(jī)理理論研究。該研究進(jìn)行了大規(guī)模的、一系列不同溫度下的分子動力學(xué)模擬,通過計算找到了蛋白質(zhì)折疊的過渡態(tài),發(fā)現(xiàn)了主導(dǎo)蛋白質(zhì)折疊規(guī)律的重要相互作用,對于認(rèn)知蛋白質(zhì)折疊的機(jī)理,序列、結(jié)構(gòu)和功能之間的關(guān)系具有非常重要的意義,為進(jìn)一步人工設(shè)計和改造蛋白質(zhì)奠定了一定的理論基礎(chǔ)。
此外,項目根據(jù)網(wǎng)格平臺的需求研究開發(fā)了多網(wǎng)格作業(yè)管理系統(tǒng),實現(xiàn)了不同網(wǎng)格平臺間的互操作。項目開發(fā)了基于異構(gòu)介質(zhì)的存儲系統(tǒng)、分布式海量數(shù)據(jù)存儲系統(tǒng)、網(wǎng)格運行監(jiān)控系統(tǒng)等并得到較好的應(yīng)用。
基于該項目所取得的成果,項目組將進(jìn)一步致力于推進(jìn)數(shù)據(jù)密集型網(wǎng)格平臺的實用化和產(chǎn)業(yè)化工作。數(shù)據(jù)密集型網(wǎng)格平臺將繼續(xù)以學(xué)科實際應(yīng)用的持續(xù)需求為牽引,與信息技術(shù)的最新發(fā)展緊密結(jié)合,采用成熟先進(jìn)的網(wǎng)格中間件建立和整合數(shù)據(jù)網(wǎng)格資源,形成e-Science示范平臺,通過高效合理的運維管理保證網(wǎng)格平臺的穩(wěn)定運行,并為大科學(xué)工程、國際合作等科學(xué)計算需求提供優(yōu)質(zhì)服務(wù)。
*本文由中科院計劃財務(wù)局項目管理處茹加(rujia@cashq.ac. cn)、高能物理所科技處王曉輝共同組織撰寫
2012年5月22日