国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于材料數(shù)值計(jì)算大數(shù)據(jù)的材料輻照機(jī)理發(fā)現(xiàn)

2021-11-22 02:00任帥陳丹丹儲(chǔ)根深白鶴李慧昭何遠(yuǎn)杰胡長(zhǎng)軍
大數(shù)據(jù) 2021年6期
關(guān)鍵詞:級(jí)聯(lián)原子尺度

任帥,陳丹丹,儲(chǔ)根深,白鶴,李慧昭,何遠(yuǎn)杰,胡長(zhǎng)軍

1.北京科技大學(xué)計(jì)算機(jī)與通信工程學(xué)院,北京 100083;2.智能超算融合應(yīng)用技術(shù)教育部工程研究中心,北京 100083

1 引言

在材料輻照效應(yīng)領(lǐng)域,高性能計(jì)算軟件在模擬過程中會(huì)實(shí)時(shí)產(chǎn)生數(shù)值計(jì)算數(shù)據(jù)。這些數(shù)值計(jì)算數(shù)據(jù)不僅數(shù)目巨大、關(guān)聯(lián)性強(qiáng),而且不同計(jì)算尺度、不同服役環(huán)境下的數(shù)據(jù)之間是相互關(guān)聯(lián)的。同時(shí),這些數(shù)據(jù)中蘊(yùn)含著材料從微觀機(jī)理到宏觀性能的規(guī)律,具有量大、關(guān)聯(lián)復(fù)雜、類型豐富的典型大數(shù)據(jù)特征(如圖1所示),是具有寶貴價(jià)值的。除了具有典型大數(shù)據(jù)特征,這些數(shù)據(jù)還具有領(lǐng)域特殊性。從反應(yīng)堆材料生命周期的角度來看,首先,數(shù)據(jù)類型豐富。從具體的設(shè)計(jì)、服役到壽命終止,都會(huì)產(chǎn)生大量的類型多樣的數(shù)據(jù),這些數(shù)據(jù)是典型的大數(shù)據(jù)。其次,關(guān)聯(lián)復(fù)雜,反應(yīng)堆材料的使用壽命與各個(gè)服役階段息息相關(guān)。優(yōu)異的服役性能離不開精確的系統(tǒng)測(cè)試,離不開大量的工藝參數(shù)調(diào)控,更離不開合適的成分、結(jié)構(gòu)設(shè)計(jì),因此,各個(gè)階段之間的數(shù)據(jù)關(guān)聯(lián)關(guān)系極其復(fù)雜。最后,具有時(shí)序性。反應(yīng)堆材料的服役周期長(zhǎng)達(dá)幾十年,且隨著使用時(shí)間增長(zhǎng),材料性能在不同的時(shí)效作用下也會(huì)呈現(xiàn)不同的特點(diǎn),數(shù)據(jù)版本多種多樣,使得反應(yīng)堆材料輻照數(shù)據(jù)具有顯著的時(shí)序性特點(diǎn)。

圖1 典型大數(shù)據(jù)特征

基于上述分析,筆者提出了材料數(shù)值計(jì)算大數(shù)據(jù)(big data of material simulation,MSBD)的概念,在超級(jí)計(jì)算機(jī)上已通過準(zhǔn)確性驗(yàn)證的材料數(shù)值建模和模擬軟件會(huì)產(chǎn)生大量的數(shù)值計(jì)算數(shù)據(jù),這些數(shù)據(jù)具有數(shù)目巨大、關(guān)聯(lián)復(fù)雜、類型豐富等典型的大數(shù)據(jù)特征;同時(shí)這些數(shù)據(jù)具有類型豐富、時(shí)序性等領(lǐng)域特殊性。材料數(shù)值計(jì)算大數(shù)據(jù)是一類典型的工業(yè)大數(shù)據(jù),對(duì)材料輻照效應(yīng)的研究具有重要意義。依托現(xiàn)有的超算資源(如天河、神威、曙光等大型超級(jí)計(jì)算機(jī)),輔以專用數(shù)據(jù)庫(kù)實(shí)現(xiàn),材料數(shù)值計(jì)算大數(shù)據(jù)不僅可以用于材料領(lǐng)域機(jī)器學(xué)習(xí)、知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘,也可以用于發(fā)展新的建模技術(shù),例如用于材料計(jì)算模型的改進(jìn)、材料多尺度模型耦合等。具體地講,材料數(shù)值計(jì)算大數(shù)據(jù)可用于以下幾個(gè)方面。例如,級(jí)聯(lián)碰撞后,材料內(nèi)部原子離開原始晶格位置,聚集在一起形成不同形態(tài)的原子團(tuán)簇微觀缺陷,這些缺陷在材料內(nèi)部不容易滑移,因此容易引起材料硬化和脆化,從而影響反應(yīng)堆壽命。這些團(tuán)簇的尺寸只有幾納米,目前的實(shí)驗(yàn)手段只能實(shí)現(xiàn)靜態(tài)的觀察,因此對(duì)于這些團(tuán)簇的形成機(jī)理尚不清楚。聚類的方法通常用于數(shù)據(jù)模式識(shí)別,因此可通過基于聚類的方法對(duì)級(jí)聯(lián)碰撞特定時(shí)間步產(chǎn)生的材料數(shù)值計(jì)算大數(shù)據(jù)進(jìn)行分析,挖掘級(jí)聯(lián)碰撞數(shù)據(jù)中不同類型的團(tuán)簇,進(jìn)而研究團(tuán)簇類型和數(shù)量與實(shí)驗(yàn)條件之間的關(guān)系,從而探究團(tuán)簇類型和數(shù)量對(duì)材料性能的影響。又如,在新材料發(fā)現(xiàn)方面,基于物理模型的數(shù)值模擬計(jì)算被用于預(yù)測(cè)新材料已經(jīng)有很多年的歷史,然而,這些模型在處理大規(guī)模、多維度問題時(shí),往往需要占用大量的計(jì)算資源,且非常耗時(shí)。此外,隨著合金元素的增加,基于物理模型的勢(shì)函數(shù)建模越來越困難,通常來講,一種勢(shì)函數(shù)模型的構(gòu)建時(shí)間需要2~3年。機(jī)器學(xué)習(xí)在處理多維問題上表現(xiàn)優(yōu)異,基于機(jī)器學(xué)習(xí)方法和材料數(shù)值計(jì)算大數(shù)據(jù)對(duì)原子體系的模擬參數(shù)和勢(shì)能進(jìn)行擬合,保留必要的物理參數(shù),隱藏復(fù)雜的物理研究過程,從而改進(jìn)現(xiàn)有建模技術(shù)。

2 材料數(shù)值計(jì)算大數(shù)據(jù)相關(guān)工作

近年來,大規(guī)模高性能材料數(shù)值計(jì)算模擬在材料研究中起著越來越重要的作用,是現(xiàn)今進(jìn)行材料研究不可或缺的手段之一。尤其對(duì)于實(shí)驗(yàn)條件復(fù)雜且實(shí)驗(yàn)成本高昂的材料輻照效應(yīng)研究而言,實(shí)驗(yàn)前先通過材料模擬軟件對(duì)材料進(jìn)行篩選,在大幅節(jié)省科研成本的同時(shí),提高材料研究安全性[1-4]。高性能計(jì)算技術(shù)的發(fā)展使得材料輻照效應(yīng)模擬無論在時(shí)間尺度還是空間尺度都取得了突破性進(jìn)展[5]。隨著軟件尺度規(guī)模的擴(kuò)大,產(chǎn)生的數(shù)據(jù)越來越多,材料數(shù)值計(jì)算大數(shù)據(jù)的高效存儲(chǔ)與分析成為材料數(shù)值計(jì)算研究的新焦點(diǎn)。

首先,在材料輻照效應(yīng)模擬過程中,材料模擬軟件會(huì)產(chǎn)生海量的數(shù)值計(jì)算數(shù)據(jù)[6]。從不同模擬軟件的維度來看,分子動(dòng)力學(xué)軟件用于原子尺度結(jié)構(gòu)演化過程的模擬,一次大規(guī)模級(jí)聯(lián)碰撞模擬產(chǎn)生的原子尺度數(shù)據(jù)在1 GB以上,這些數(shù)據(jù)將被用于蒙特卡洛模擬軟件的短程演化;蒙特卡洛模擬軟件產(chǎn)生的原子結(jié)構(gòu)數(shù)據(jù)將被傳遞給團(tuán)簇動(dòng)力學(xué)軟件,并由其對(duì)原子結(jié)構(gòu)進(jìn)行長(zhǎng)程演化,一次大規(guī)模的輻照效應(yīng)團(tuán)簇動(dòng)力學(xué)模擬產(chǎn)生的數(shù)據(jù)約100 GB,這些數(shù)據(jù)被用于位錯(cuò)動(dòng)力學(xué)等更大尺度的模擬。因此,材料數(shù)值計(jì)算大數(shù)據(jù)不僅數(shù)目巨大,而且各軟件產(chǎn)生的數(shù)據(jù)之間是彼此緊密關(guān)聯(lián)的。從單個(gè)軟件的模擬行為角度來看,不僅可以對(duì)不同類型的物理過程進(jìn)行模擬,也可以針對(duì)同一類型的物理過程進(jìn)行不同實(shí)驗(yàn)條件下的模擬。例如,分子動(dòng)力學(xué)軟件既可以進(jìn)行晶內(nèi)原子級(jí)聯(lián)碰撞的模擬,也可以進(jìn)行晶界析出強(qiáng)化的模擬;既可以進(jìn)行高能中子下的級(jí)聯(lián)碰撞模擬,也可以進(jìn)行低能中子下的級(jí)聯(lián)碰撞模擬。蒙特卡洛模擬軟件既可以實(shí)現(xiàn)級(jí)聯(lián)碰撞的退火模擬,也可以對(duì)材料晶粒形核、長(zhǎng)大過程進(jìn)行模擬,還可以實(shí)現(xiàn)級(jí)聯(lián)碰撞的析出模擬等。從各軟件產(chǎn)生的材料數(shù)值計(jì)算大數(shù)據(jù)來看,數(shù)據(jù)類型更是極為復(fù)雜。每個(gè)軟件的每一次計(jì)算過程都會(huì)有不同的輸入數(shù)據(jù)、過程數(shù)據(jù)、結(jié)果數(shù)據(jù)、后處理數(shù)據(jù)等,不同軟件之間的這些數(shù)據(jù)還存在復(fù)雜的關(guān)聯(lián)關(guān)系。例如前面提到的,分子動(dòng)力學(xué)軟件的模擬結(jié)果數(shù)據(jù)作為蒙特卡洛模擬軟件的輸入數(shù)據(jù),蒙特卡洛模擬軟件的結(jié)果數(shù)據(jù)或者后處理數(shù)據(jù)則作為團(tuán)簇動(dòng)力學(xué)軟件的輸入數(shù)據(jù),依此類推。綜上所述,材料輻照效應(yīng)數(shù)值計(jì)算大數(shù)據(jù)具有顯著的數(shù)目巨大、關(guān)聯(lián)復(fù)雜的特點(diǎn)。

其次,這些數(shù)據(jù)對(duì)于材料輻照效應(yīng)模擬的研究具有重要價(jià)值。這些數(shù)據(jù)蘊(yùn)含了模擬材料輻照過程的物理模型信息、計(jì)算模型信息,合理收集這些數(shù)據(jù)并進(jìn)行研究對(duì)于改進(jìn)現(xiàn)有模型具有重要的研究?jī)r(jià)值。例如在材料輻照效應(yīng)級(jí)聯(lián)碰撞模擬中,級(jí)聯(lián)碰撞結(jié)果數(shù)據(jù)通常為所有原子的坐標(biāo)數(shù)據(jù),與初始晶體的原子坐標(biāo)數(shù)據(jù)(如獲取Frenkel缺陷對(duì)的數(shù)量)進(jìn)行對(duì)比分析,可以對(duì)高能粒子輻照后的材料結(jié)構(gòu)變化有初步的認(rèn)識(shí)。如果進(jìn)一步分析結(jié)果數(shù)據(jù),還可以得到級(jí)聯(lián)碰撞后產(chǎn)生的團(tuán)簇類型和數(shù)量信息,從而對(duì)原子尺度的輻照效應(yīng)有一個(gè)更加清晰和直觀的認(rèn)識(shí)。此外,模擬軟件計(jì)算結(jié)果往往存在不穩(wěn)定性,這種不穩(wěn)定性也是反映在結(jié)果數(shù)據(jù)中的。對(duì)多次模擬的結(jié)果數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,可以為改進(jìn)模擬軟件的穩(wěn)定性提供指導(dǎo)。除了結(jié)果數(shù)據(jù)具有很重要的研究?jī)r(jià)值,級(jí)聯(lián)碰撞過程數(shù)據(jù)同樣是值得研究的。過程數(shù)據(jù)反映了材料輻照效應(yīng)模擬的整個(gè)演變過程,最直觀的用途是用于計(jì)算結(jié)束后模擬過程的可視化。由于數(shù)據(jù)量過大,還可以針對(duì)過程數(shù)據(jù)的可視化方法進(jìn)行研究,例如對(duì)實(shí)時(shí)的可視化方法的研究等都離不開過程數(shù)據(jù)。除此之外,隨著機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等方法近些年取得突破性發(fā)展,可以將這些方法用于材料數(shù)值計(jì)算大數(shù)據(jù)的研究中,例如,可以對(duì)輸入數(shù)據(jù)和結(jié)果數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系進(jìn)行挖掘。

近幾年已有一些基于材料數(shù)值計(jì)算大數(shù)據(jù)開展的研究工作被報(bào)道。例如,Bhardwaj U等人[7-9]使用聚類的方法開展了對(duì)分子力學(xué)(molecular dynamics,MD)級(jí)聯(lián)碰撞數(shù)據(jù)的分析研究。Podryabinkin E V等人[10]、Pilania G等人[11]通過機(jī)器學(xué)習(xí)對(duì)勢(shì)函數(shù)庫(kù)進(jìn)行學(xué)習(xí),開發(fā)用于勢(shì)函數(shù)計(jì)算的機(jī)器學(xué)習(xí)模型,在保證原有精度的基礎(chǔ)上將計(jì)算時(shí)間減少幾個(gè)數(shù)量級(jí)。Jia W L等人[12]把勢(shì)函數(shù)機(jī)器學(xué)習(xí)模型跟MD模擬軟件LAMMPS集成起來,擴(kuò)大了原有的計(jì)算規(guī)模。Kawamura T等人[6]基于模擬的過程數(shù)據(jù),開發(fā)了一種名為“In-Situ PBVR”的可視化軟件,首次實(shí)現(xiàn)了大規(guī)模核反應(yīng)堆仿真的實(shí)時(shí)可視化。汪岸等人[13]針對(duì)數(shù)值核反應(yīng)堆數(shù)據(jù)的特點(diǎn)進(jìn)行了論述,提出了數(shù)值計(jì)算大數(shù)據(jù)在多個(gè)領(lǐng)域的應(yīng)用需求。

然而,關(guān)于材料數(shù)值計(jì)算大數(shù)據(jù)研究?jī)r(jià)值的認(rèn)識(shí)仍然處于起步階段。另外,由于這些數(shù)值計(jì)算數(shù)據(jù)數(shù)目巨大、關(guān)聯(lián)復(fù)雜,以及考慮到其所具有的領(lǐng)域價(jià)值等因素,材料數(shù)值計(jì)算大數(shù)據(jù)存儲(chǔ)還沒有一個(gè)很好的解決方案。這是因?yàn)椴牧蠑?shù)值計(jì)算大數(shù)據(jù)的存儲(chǔ)要考量軟件類型、模擬行為、數(shù)據(jù)類型等多個(gè)維度的因素,這些數(shù)據(jù)既有獨(dú)立性又有相似性,而且還需要研究人員對(duì)相關(guān)的材料領(lǐng)域具有專業(yè)的認(rèn)識(shí)。例如,國(guó)際原子能機(jī)構(gòu)(International Atomic Energy Agency,IAEA)給出了一種材料數(shù)值計(jì)算大數(shù)據(jù)的存儲(chǔ)方案,該方案被用于收集世界各地的MD數(shù)值計(jì)算大數(shù)據(jù),受到研究人員的廣泛關(guān)注。然而,面向多尺度模擬軟件的統(tǒng)一數(shù)據(jù)存儲(chǔ)方案目前仍然是個(gè)空白。本文針對(duì)材料多尺度數(shù)值計(jì)算大數(shù)據(jù)的特點(diǎn),設(shè)計(jì)了一種適用于材料多尺度數(shù)值計(jì)算大數(shù)據(jù)的存儲(chǔ)與管理框架,并基于該數(shù)據(jù)庫(kù)框架,結(jié)合機(jī)器學(xué)習(xí)等算法,實(shí)現(xiàn)了其在改進(jìn)材料多尺度模擬中的應(yīng)用。

3 材料數(shù)值計(jì)算大數(shù)據(jù)的特點(diǎn)

由前面給出的材料數(shù)值計(jì)算大數(shù)據(jù)定義可知,材料數(shù)值計(jì)算大數(shù)據(jù)具有數(shù)目巨大、類型豐富、領(lǐng)域特殊性等特點(diǎn)。為了進(jìn)一步說明,以反應(yīng)堆壓力容器Fe基材料多尺度模擬為例,對(duì)材料輻照效應(yīng)模擬軟件MISA-MD和MISA-SCD的模擬結(jié)果進(jìn)行了統(tǒng)計(jì)(見表1),軟件均已開源。其中,MISA-MD用來模擬Fe基材料在原子尺度受到中子轟擊后產(chǎn)生的原子級(jí)聯(lián)碰撞過程,MISA-SCD用于更高空間尺度的模擬,即級(jí)聯(lián)碰撞后產(chǎn)生的材料微觀缺陷的演化過程?;谶@兩個(gè)軟件的數(shù)值計(jì)算數(shù)據(jù),概括材料數(shù)值計(jì)算大數(shù)據(jù)的特點(diǎn)如下。

表1 反應(yīng)堆壓力容器Fe基材料模擬軟件數(shù)值計(jì)算大數(shù)據(jù)

(1)數(shù)目巨大。材料輻照效應(yīng)模擬軟件在模擬過程中會(huì)產(chǎn)生大量的數(shù)據(jù),僅完成一次物理過程模擬的數(shù)據(jù)量就達(dá)到MB、GB甚至TB。本算例中MISA-MD選取的模擬時(shí)間為26 ps,約40000個(gè)時(shí)間步,box尺寸為80c0×80c0×80c0,其中c0為晶格常數(shù)。完成一次級(jí)聯(lián)碰撞演化過程模擬產(chǎn)生的數(shù)據(jù)量約1.5 GB。MISA-SCD選取的模擬時(shí)間為105s,約5億個(gè)時(shí)間步,box尺寸為3 μm3,完成一次團(tuán)簇演化過程模擬產(chǎn)生的數(shù)據(jù)量約為100 GB。對(duì)于如此龐大的數(shù)據(jù)量,如果沒有一個(gè)合理的數(shù)據(jù)存儲(chǔ)體系,這些數(shù)據(jù)將很難被高效地存儲(chǔ)和分析。

(2)關(guān)聯(lián)性強(qiáng)。本例中MISA-MD與MISA-SCD的材料模擬過程是緊密關(guān)聯(lián)的,兩者分別被用來模擬不同尺度的缺陷演化。MISA-MD只能模擬原子尺度的級(jí)聯(lián)碰撞現(xiàn)象,要想進(jìn)一步模擬后續(xù)缺陷演化現(xiàn)象,目前常采用的辦法是材料多尺度模擬,即將原子尺度的級(jí)聯(lián)碰撞數(shù)據(jù)傳遞給MISA-SCD軟件并作為初始輸入,然后才能進(jìn)行更高尺度的模擬。因此,在材料多尺度模擬過程中,不同尺度軟件產(chǎn)生的數(shù)據(jù)是緊密關(guān)聯(lián)的。

(3)蘊(yùn)含價(jià)值。材料數(shù)值計(jì)算大數(shù)據(jù)蘊(yùn)含著材料演化過程的物理、化學(xué)信息,而非毫無意義的數(shù)據(jù)。MISA-MD產(chǎn)生的數(shù)值計(jì)算大數(shù)據(jù)包含了級(jí)聯(lián)碰撞后的原子種類和坐標(biāo),通過聚類等方法對(duì)這些數(shù)據(jù)進(jìn)行識(shí)別,將相似的結(jié)構(gòu)歸為一類,可以獲得級(jí)聯(lián)碰撞后的團(tuán)簇種類和數(shù)量。而這些團(tuán)簇的種類和數(shù)量可以作為初始輸入傳遞給MISA-SCD進(jìn)行后續(xù)演化模擬。此外,由于隨機(jī)數(shù)的存在,材料輻照效應(yīng)模擬往往具有一定的隨機(jī)性。通過對(duì)同一實(shí)驗(yàn)條件下的模擬結(jié)果進(jìn)行多次統(tǒng)計(jì),獲得模擬次數(shù)與缺陷數(shù)量的關(guān)系,可以對(duì)MISA-MD的結(jié)果穩(wěn)定性進(jìn)行評(píng)估。獲得穩(wěn)定的模擬結(jié)果是材料多尺度軟件間實(shí)現(xiàn)正確耦合的前提。

(4)類型豐富。根據(jù)物理過程、尺度的不同,材料可以有很多種類型。首先,同一尺度的軟件可以用來模擬不同的物理過程,從而得到不同的材料數(shù)值計(jì)算大數(shù)據(jù)。例如,MISA-MD可以被用來模擬不同合金原子級(jí)聯(lián)碰撞過程,也可以被用來模擬合金原子在晶界偏聚對(duì)晶界強(qiáng)化、脆化的作用,還可以被用來模擬液態(tài)合金系統(tǒng)在凝固過程中的空位形成特性等。其次,不同尺度軟件模擬得到的數(shù)值計(jì)算大數(shù)據(jù)也不同。例如MISA-MD得到的是原子類型及其坐標(biāo)信息,而MISA-SCD得到的是原子團(tuán)簇類型及其數(shù)量信息。數(shù)據(jù)類型不同給數(shù)據(jù)存儲(chǔ)方式的選擇帶來了挑戰(zhàn)。

(5)領(lǐng)域特殊性。由于空間尺度和時(shí)間尺度跨度很大,材料從原子尺度到宏觀性能預(yù)測(cè)的模擬過程并不是一個(gè)軟件能實(shí)現(xiàn)的。通常采用材料多尺度模擬的方法,使用不同的軟件來模擬不同尺度的材料演化過程,然后將這些多尺度軟件從低尺度到高尺度耦合起來,實(shí)現(xiàn)從原子尺度到微觀再到介觀甚至宏觀的模擬。除此之外,材料從設(shè)計(jì)到投入使用要經(jīng)歷成分設(shè)計(jì)、微觀組織調(diào)控、工業(yè)測(cè)試、服役等多道工序,這決定了全周期的材料數(shù)值計(jì)算大數(shù)據(jù)具有時(shí)序性。因此,材料數(shù)值計(jì)算大數(shù)據(jù)具有多尺度、時(shí)序性等材料領(lǐng)域特殊性。

除上述特點(diǎn),材料數(shù)值計(jì)算大數(shù)據(jù)還具有數(shù)值計(jì)算所帶來的不同于傳統(tǒng)大數(shù)據(jù)和實(shí)驗(yàn)數(shù)據(jù)的特點(diǎn)。首先,材料數(shù)值計(jì)算大數(shù)據(jù)以數(shù)值類數(shù)據(jù)為主;其次,由于浮點(diǎn)運(yùn)算的存在,材料數(shù)值計(jì)算大數(shù)據(jù)并非完全的精確數(shù)據(jù);最后,并行執(zhí)行的非確定性、隨機(jī)的非確定性以及離散的非確定性導(dǎo)致材料數(shù)值計(jì)算大數(shù)據(jù)中帶有非確定性的數(shù)據(jù)。這些特點(diǎn)為材料數(shù)值計(jì)算大數(shù)據(jù)的研究、管理和分析帶來了傳統(tǒng)大數(shù)據(jù)不曾面臨的挑戰(zhàn)。

4 材料數(shù)值計(jì)算大數(shù)據(jù)存儲(chǔ)體系

為了有效收集、利用材料輻照效應(yīng)模擬過程中產(chǎn)生的數(shù)值計(jì)算大數(shù)據(jù),需要解決材料數(shù)值計(jì)算大數(shù)據(jù)的采集、存儲(chǔ)與管理、處理與分析以及隱私和安全等大數(shù)據(jù)技術(shù)問題。本文提出了一種適用于材料數(shù)值計(jì)算的數(shù)值計(jì)算大數(shù)據(jù)存儲(chǔ)體系(numerical calculation data storage architecture,NDSA)。該體系涵蓋包含不同尺度軟件的數(shù)值計(jì)算大數(shù)據(jù),主要有MD、KMC(kinetic Monte Carlo)、SCD等主要數(shù)據(jù)庫(kù)。這里所用的軟件為北京科技大學(xué)與中國(guó)原子能科學(xué)研究院聯(lián)合自主研發(fā)的材料輻照效應(yīng)多尺度模擬軟件,包括分子動(dòng)力學(xué)軟件MISA-MD、動(dòng)力學(xué)蒙特卡洛模擬軟件MISA-AKMC、隨機(jī)團(tuán)簇動(dòng)力學(xué)軟件MISA-SCD。目前這幾款軟件均已實(shí)現(xiàn)開源。

在數(shù)據(jù)庫(kù)組織上,按照不同尺度的模擬軟件進(jìn)行組織。每個(gè)模擬尺度的數(shù)值計(jì)算大數(shù)據(jù)庫(kù)中還包含程序模擬的多個(gè)生命周期的數(shù)據(jù),如軟件輸入?yún)?shù)集合、模擬結(jié)果、模擬分析結(jié)果等。通過這樣的兩層組織,形成了多尺度模擬軟件的大數(shù)據(jù)體系,形成了雙重維度(材料多尺度模擬維度和數(shù)值計(jì)算生命周期維度)的數(shù)據(jù)關(guān)聯(lián)存儲(chǔ)。由于在模擬中,有時(shí)候參數(shù)(如合金的比例)是不定的,且隨著模擬的增加,數(shù)據(jù)也會(huì)大量增加,數(shù)據(jù)庫(kù)需具備高擴(kuò)展性。此外,材料數(shù)值計(jì)算大數(shù)據(jù)的結(jié)構(gòu)大多不固定。MongoDB框架可以為Web應(yīng)用提供可擴(kuò)展的高性能數(shù)據(jù)存儲(chǔ),其文檔類似于JSON對(duì)象,在使用時(shí)也更加靈活。對(duì)于模擬的結(jié)果數(shù)據(jù)文件,由于其數(shù)量很大,如果存放在數(shù)據(jù)庫(kù)中,可能會(huì)導(dǎo)致數(shù)據(jù)庫(kù)冗雜和效率降低,因此,這些文件采用文件存儲(chǔ)服務(wù)進(jìn)行管理。文件存儲(chǔ)采用分布式對(duì)象存儲(chǔ)MinIO技術(shù)方案,該技術(shù)方案具有可靠性(糾刪碼機(jī)制自動(dòng)容錯(cuò))、高可用性(在一半節(jié)點(diǎn)宕機(jī)時(shí)仍可保證服務(wù)可用)、可擴(kuò)展性強(qiáng)(由于分布式特點(diǎn),大數(shù)據(jù)量下可擴(kuò)展至多個(gè)節(jié)點(diǎn))等優(yōu)點(diǎn),比文件系統(tǒng)更可靠,便于文件的管理與遷移。使用對(duì)象存儲(chǔ)技術(shù)為數(shù)值計(jì)算大數(shù)據(jù)管理帶來很大的便捷性,在獲取一個(gè)文件時(shí)不需要提供文件在文件系統(tǒng)中的具體位置,而是通過請(qǐng)求對(duì)象存儲(chǔ)服務(wù)獲得一個(gè)統(tǒng)一資源定位符(uniform resorce locator,URL)。其多節(jié)點(diǎn)的特性使得數(shù)據(jù)的安全與訪問速度得到保障,扁平結(jié)構(gòu)便于快速地獲取數(shù)據(jù)。其彈性擴(kuò)容特性使得在后期對(duì)其進(jìn)行擴(kuò)容變得更方便。MinIO方案專為性能和S3 API設(shè)計(jì),非常適用于對(duì)安全性有嚴(yán)格要求的大型私有云環(huán)境。下面以MD為例,對(duì)材料數(shù)值計(jì)算大數(shù)據(jù)存儲(chǔ)與管理技術(shù)進(jìn)行介紹。

MD數(shù)據(jù)庫(kù)共包括5個(gè)集合,即輸入?yún)?shù)集合simulation、結(jié)果數(shù)據(jù)集合output_file、一次模擬后處理的集合analysis、多次模擬后處理的集合multi analysis和MD作業(yè)運(yùn)行的集合job。各集合之間的關(guān)聯(lián)關(guān)系如圖2所示。output_file集合及analysis集合分別見表2和表3。

圖2 MD數(shù)值計(jì)算大數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)設(shè)計(jì)

表2 output_file集合

表3 analysis集合

采用以上數(shù)據(jù)存儲(chǔ)與管理技術(shù),可以將不同尺度的數(shù)值計(jì)算大數(shù)據(jù)存入數(shù)據(jù)庫(kù),形成完整的材料輻照效應(yīng)多尺度數(shù)值計(jì)算大數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)具有高擴(kuò)展性。數(shù)據(jù)庫(kù)中保存的各尺度軟件的參數(shù)、結(jié)果、后處理等數(shù)據(jù),可用于機(jī)器學(xué)習(xí)及多尺度模型改進(jìn)等后續(xù)相關(guān)研究。

以一次analysis集合為例,向analysis集合插入一條“結(jié)果后處理分析”文檔的語法如下:

5 基于多尺度數(shù)值計(jì)算大數(shù)據(jù)的挖掘分析

為了更好地理解材料數(shù)值計(jì)算大數(shù)據(jù)的價(jià)值,本節(jié)以典型核反應(yīng)堆壓力容器材料Fe-1.5%wtCu合金的兩個(gè)分子動(dòng)力學(xué)模擬實(shí)例加以說明。本實(shí)例所用的軟件為材料輻照效應(yīng)分子動(dòng)力學(xué)模擬軟件MISA-MD,該軟件能夠模擬的粒子數(shù)規(guī)模達(dá)到4×1012,為目前國(guó)內(nèi)外能夠模擬的第二大規(guī)模的分子動(dòng)力學(xué)軟件[14-15]。在“天河二號(hào)”的英特爾平臺(tái)上,與LAMMPS軟件包相比,MISA-MD的內(nèi)存占用僅為前者的40%[5]。目前該款軟件已經(jīng)完成開源。

5.1 基于XGBoost算法的Frenkel缺陷對(duì)數(shù)預(yù)測(cè)

在對(duì)相同宏觀參數(shù)下的原子體系進(jìn)行多次MD級(jí)聯(lián)碰撞模擬時(shí),首先需通過隨機(jī)數(shù)種子對(duì)所有粒子的速度大小和方向進(jìn)行初始化,根據(jù)麥克斯韋速度分布定律可知,對(duì)于同一宏觀條件的粒子體系,各個(gè)粒子的狀態(tài)是時(shí)刻變化的。因此,每一次模擬需使用不同的隨機(jī)數(shù)種子,使得該宏觀參數(shù)下體系的多種粒子微觀狀態(tài)可以得到充分考慮。在所有宏觀參數(shù)一致的情況下,級(jí)聯(lián)碰撞模擬得到的Frenkel缺陷的數(shù)目并非完全相同,而是在一定范圍內(nèi)波動(dòng)。過去的做法通常需要多次執(zhí)行同一宏觀條件下的模擬然后取平均,例如,對(duì)于1000×1000×1000的box,使用32個(gè)節(jié)點(diǎn),共512個(gè)核,每次模擬程序都需要運(yùn)行2~5 h,且獲得模擬結(jié)果后,還需要使用最短距離標(biāo)記法獲取缺陷的信息,整個(gè)流程不僅耗費(fèi)超算計(jì)算資源,而且時(shí)間跨度也長(zhǎng)。本文基于MD數(shù)值計(jì)算大數(shù)據(jù)中的Frenkel缺陷提出一種更高效的Frenkel缺陷對(duì)計(jì)算方法。

本文采用機(jī)器學(xué)習(xí)中的集成學(xué)習(xí)來實(shí)現(xiàn)上述功能,集成學(xué)習(xí)通過構(gòu)建結(jié)合多個(gè)學(xué)習(xí)器來完成學(xué)習(xí)任務(wù),最后的結(jié)果由多個(gè)學(xué)習(xí)器共同決定。本文選取的算法是XGBoost[16],它將許多樹模型集成在一起,由這些樹模型共同決定結(jié)果。

首先使用XGBoost訓(xùn)練所有MISAMD模擬的數(shù)據(jù),使用訓(xùn)練完的模型對(duì)未知的模擬進(jìn)行缺陷對(duì)數(shù)預(yù)測(cè)。每次模擬中的box大小、晶格常數(shù)以及合金比例都為固定值,而在這些模擬之間,只有能量、入射角度、隨機(jī)數(shù)、時(shí)間步長(zhǎng)這些參數(shù)是不同的,因此將這些參數(shù)組合成特征向量,以[能量,x,y,z, 隨機(jī)數(shù), 時(shí)間步長(zhǎng)]的形式。基于上述方法,對(duì)多組數(shù)據(jù)進(jìn)行預(yù)測(cè),并將其與真實(shí)值進(jìn)行比較,缺陷對(duì)預(yù)測(cè)值與真實(shí)值對(duì)比見表4。由表4可知,預(yù)測(cè)值與真實(shí)值很接近,這驗(yàn)證了該方法的有效性。

表4 缺陷對(duì)預(yù)測(cè)值與真實(shí)值

5.2 基于并查集算法的級(jí)聯(lián)碰撞團(tuán)簇劃分方法

級(jí)聯(lián)碰撞模擬后,由于能量粒子的撞擊,材料原子離開原本的晶格位置,從而發(fā)生移位,而后進(jìn)一步演化發(fā)生聚集或湮滅,形成原子或空位團(tuán)簇。團(tuán)簇過多或過大會(huì)使得材料力學(xué)性能產(chǎn)生降級(jí),從而威脅反應(yīng)堆設(shè)施的安全,例如形成空洞?;贛D數(shù)值計(jì)算大數(shù)據(jù)庫(kù)中的.dump數(shù)據(jù),采用并查集算法,可以實(shí)現(xiàn)對(duì)團(tuán)簇的有效劃分。

數(shù)據(jù)集采用的晶體結(jié)構(gòu)均為體心立方晶體(BCC),元素都是鐵(Fe)元素,晶格常數(shù)為2.85532,box大小均為[80, 80, 80],它的含義是x、y、z方向上都是80倍的晶格常數(shù),即80個(gè)晶格點(diǎn)。實(shí)驗(yàn)環(huán)境在600 K的溫度下,根據(jù)入射中子能量的不同,時(shí)間步數(shù)有10000個(gè)和100000個(gè)兩種,總的時(shí)間步數(shù)有41000個(gè)和131000個(gè)兩種。MISA-MD運(yùn)行時(shí),每隔1000個(gè)時(shí)間步輸出一個(gè)結(jié)果,這里選取最后一個(gè)時(shí)間步的結(jié)果。每個(gè)時(shí)間步的結(jié)果數(shù)據(jù)都是.dump坐標(biāo)數(shù)據(jù),里面包含1024000個(gè)原子坐標(biāo)。

在上述實(shí)驗(yàn)環(huán)境下,數(shù)據(jù)涵蓋不同能量、不同角度,且每種能量每種角度都進(jìn)行了多次模擬。數(shù)據(jù)包括從10 keV、30 keV、50 keV 3種不同的能量,角度分為122、135、235這3個(gè)方向,每種都進(jìn)行了50次模擬,最終有450次模擬數(shù)據(jù)。

常規(guī)做法是將每個(gè)缺陷看成一個(gè)單缺陷的團(tuán)簇,然后遍歷其他所有缺陷,將指定距離內(nèi)的缺陷加入該團(tuán)簇,進(jìn)行缺陷的合并。這看起來并不復(fù)雜,但是當(dāng)數(shù)據(jù)量大時(shí),若采用常規(guī)方法來解決,往往時(shí)間復(fù)雜度過大,因?yàn)樗枰磸?fù)查找一個(gè)缺陷所在的團(tuán)簇,導(dǎo)致不能很好地解決該問題。因此在這里采用并查集算法來解決。并查集 采用一種樹形數(shù)據(jù)結(jié)構(gòu)來處理這種不相交集合的問題。并查集算法有兩種操作:合并(把兩個(gè)不相交的集合合并為一個(gè)集合)、查詢(查詢兩個(gè)元素是否在同一個(gè)集合)。將所有元素合并完之后,森林中有幾棵樹,就有幾種集合。因?yàn)椴⒉榧臄?shù)據(jù)結(jié)構(gòu)為樹形,所以樹的高度越高,時(shí)間復(fù)雜度也越高。這里選取的是優(yōu)化的并查集算法。

如偽代碼1所示,首先設(shè)置一個(gè)大小與缺陷總數(shù)相同的根節(jié)點(diǎn)數(shù)組root,它的含義為該缺陷所屬團(tuán)簇的編號(hào),初始時(shí),每個(gè)缺陷被視為單獨(dú)的一個(gè)團(tuán)簇,因此初始數(shù)組的值為自身編號(hào)。再設(shè)置一個(gè)大小與缺陷總數(shù)相同的數(shù)組height,它表示以當(dāng)前節(jié)點(diǎn)為根節(jié)點(diǎn)的樹的高度,因?yàn)槌跏紩r(shí)每個(gè)缺陷都是一個(gè)團(tuán)簇,也就是一棵樹,所以初始時(shí)樹的高度都為1。接下來計(jì)算任意兩個(gè)缺陷之間的距離,在計(jì)算的過程中需要判斷這兩種缺陷的類型。如果這兩個(gè)缺陷都是間隙原子或者一個(gè)是間隙原子、一個(gè)是空位,且它們的距離在一倍晶格常數(shù)(第二近鄰)內(nèi),就認(rèn)為它們屬于同一個(gè)團(tuán)簇;如果兩個(gè)缺陷都是空位,且它們的距離在倍晶格常數(shù)(第三近鄰)內(nèi),就認(rèn)為它們屬于一個(gè)團(tuán)簇。如圖 3所示,此時(shí)缺陷2和缺陷9在距離閾值內(nèi),第一步先查找兩個(gè)缺陷的根節(jié)點(diǎn),在查找的過程中,將向上經(jīng)過的所有缺陷的根節(jié)點(diǎn)都設(shè)為最上層那個(gè)缺陷,也就是都直接接到根節(jié)點(diǎn)上,這被稱為路徑壓縮,可以減少樹的高度,使得以后向上查找根節(jié)點(diǎn)時(shí)速度更快。獲取根節(jié)點(diǎn)后,根據(jù)height數(shù)組判斷兩個(gè)根節(jié)點(diǎn)的樹的高度,將高度小的樹接到高度大的樹上,如果樹高一樣,則任意將一棵樹接到另一棵樹上作為孩子節(jié)點(diǎn)。遍歷根節(jié)點(diǎn)數(shù)組,若根節(jié)點(diǎn)相同的缺陷為一棵樹上的,則將根節(jié)點(diǎn)相同的缺陷劃分到一個(gè)團(tuán)簇中,從而獲取缺陷可以劃分的所有團(tuán)簇。將獲得的所有團(tuán)簇信息(包括團(tuán)簇中缺陷坐標(biāo)、缺陷對(duì)數(shù)、缺陷類型(間隙或者空位)等)存儲(chǔ)到團(tuán)簇?cái)?shù)據(jù)庫(kù)中,最初獲得了4483個(gè)團(tuán)簇。

圖3 并查集算例演示

偽代碼1 使用優(yōu)化的并查集劃分團(tuán)簇

5.3 基于聚類算法的KMC長(zhǎng)程演化類環(huán)狀原子簇發(fā)現(xiàn)

通過對(duì)數(shù)值計(jì)算大數(shù)據(jù)庫(kù)中的MISAKMC長(zhǎng)程演化團(tuán)簇?cái)?shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)了材料輻照效應(yīng)中的類環(huán)狀團(tuán)簇。選取的特征向量為缺陷團(tuán)簇中各缺陷與幾何中心的距離,以及每?jī)蓚€(gè)缺陷與幾何中心形成的夾角。考慮到幾何形狀經(jīng)旋轉(zhuǎn)、放大及縮小后,形狀仍然是相同的,這里每隔5°形成一維數(shù)據(jù),共36維數(shù)據(jù);對(duì)于距離,每次將所有距離除以當(dāng)前團(tuán)簇的最大值,進(jìn)行歸一化處理,每隔0.025形成一維數(shù)據(jù),共40維數(shù)據(jù),因此特征向量包含76維數(shù)據(jù),如圖4所示。選取HDBSCAN(hierarchical density-based spatial clustering of applications with noise)聚類算法對(duì)團(tuán)簇進(jìn)行識(shí)別。它是一種基于密度聚類的無監(jiān)督的聚類算法,不需要已經(jīng)標(biāo)記的數(shù)據(jù),也無須事先知道要?jiǎng)澐值念悇e數(shù)。它可以對(duì)不同密度的團(tuán)簇進(jìn)行聚類,可以忽略噪聲,且效率較高。團(tuán)簇聚類的結(jié)果如圖5所示。從圖5可以看到,將所有的缺陷團(tuán)簇分為幾種不同的類別,每種顏色代表一種類別,每種類別的團(tuán)簇的幾何形狀相同或相近?;谠摲椒ǎP者在KMC長(zhǎng)程演化數(shù)據(jù)中發(fā)現(xiàn)了一些類環(huán)狀的團(tuán)簇,如圖6所示,這一發(fā)現(xiàn)驗(yàn)證了之前報(bào)道的材料輻照實(shí)驗(yàn)中缺陷團(tuán)簇的出現(xiàn)[17-18]。

圖4 團(tuán)簇特征提取方法

圖5 團(tuán)簇識(shí)別結(jié)果

圖6 KMC長(zhǎng)程演化產(chǎn)生的類環(huán)狀團(tuán)簇識(shí)別結(jié)果

5.4 基于神經(jīng)網(wǎng)絡(luò)的勢(shì)函數(shù)模型AIPM

勢(shì)函數(shù)計(jì)算是材料多尺度模擬關(guān)鍵的一環(huán),MD和KMC中粒子速度、位置的更新,以及SCD中多元組分材料參數(shù)的計(jì)算,均離不開勢(shì)函數(shù)模型。過去常用的勢(shì)函數(shù)模型通常包含兩種,一種基于第一性原理,另一種基于經(jīng)驗(yàn)函數(shù)。前者往往計(jì)算復(fù)雜,且對(duì)于多元組分而言,第一性原理勢(shì)函數(shù)的構(gòu)建過程非常復(fù)雜;后者雖然在效率上有所提高,但精度往往不夠,而對(duì)多元合金組分的經(jīng)驗(yàn)勢(shì)函數(shù)構(gòu)建過程則更加困難。

針對(duì)上述問題,基于第一性原理數(shù)值計(jì)算大數(shù)據(jù),提出了一種基于機(jī)器學(xué)習(xí)的方法對(duì)原子體系模擬參數(shù)及勢(shì)能之間進(jìn)行擬合的勢(shì)函數(shù)模型AIPM(artificial intelligence based potential model)。這里選取Fe-Cu二元合金體系,基于原子坐標(biāo)進(jìn)行機(jī)器學(xué)習(xí)模型的特征提取,如圖7所示。首先按照最近鄰法對(duì)原子鄰域進(jìn)行劃分,并以該原子為中心,建立局域坐標(biāo)系,第一近鄰和第二近鄰分別設(shè)置為x、y坐標(biāo),二者的向量積作為z坐標(biāo),于是可以得到每個(gè)原子的坐標(biāo),將這些坐標(biāo)作為神經(jīng)網(wǎng)絡(luò)的輸入。這里選取3層神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),如圖8所示,每層的節(jié)點(diǎn)數(shù)依次為15、10、6,擬合得到體系內(nèi)一個(gè)原子的勢(shì)能,然后針對(duì)其他原子采用相同的方案進(jìn)行擬合,最后將所有的原子的勢(shì)能求和,即可得到總的原子體系的勢(shì)能。將這一勢(shì)能與數(shù)據(jù)庫(kù)中給定的經(jīng)典勢(shì)能——EAM勢(shì)能進(jìn)行比較,以驗(yàn)證模型的精度。采用AIPM模型對(duì)1000個(gè)粒子大小的Fe-Cu原子體系勢(shì)能進(jìn)行計(jì)算,驗(yàn)證了AIPM的可靠性。Fe-Cu原子體系神經(jīng)網(wǎng)絡(luò)計(jì)算結(jié)果見表5。

表5 Fe-Cu原子體系神經(jīng)網(wǎng)絡(luò)計(jì)算結(jié)果

圖7 局域坐標(biāo)系的建立方法

圖8 Fe-Cu原子體系神經(jīng)網(wǎng)絡(luò)構(gòu)建過程

6 結(jié)束語

本文首次提出了材料數(shù)值計(jì)算大數(shù)據(jù)的概念,闡述了材料數(shù)值計(jì)算大數(shù)據(jù)的特點(diǎn)及研究意義,提出了一種適用于材料數(shù)值計(jì)算的數(shù)值計(jì)算大數(shù)據(jù)存儲(chǔ)體系,并基于該數(shù)據(jù)體系,在Frenkel缺陷對(duì)計(jì)算、MD中的缺陷團(tuán)簇劃分、類環(huán)狀團(tuán)簇發(fā)現(xiàn)以及勢(shì)函數(shù)模型構(gòu)建等多個(gè)方面取得了進(jìn)展。盡管數(shù)值計(jì)算大數(shù)據(jù)很早就出現(xiàn)在研究工作中,但系統(tǒng)性的研究仍處于起步階段。隨著數(shù)值計(jì)算的規(guī)模越來越大以及技術(shù)上的瓶頸越來越多,數(shù)值計(jì)算大數(shù)據(jù)的研究在材料多尺度模擬研究中起到了越來越重要的作用,其價(jià)值有待進(jìn)一步挖掘,尤其在改進(jìn)物理模型和軟件耦合方面,數(shù)值計(jì)算大數(shù)據(jù)將成為突破多尺度模擬難點(diǎn)和挑戰(zhàn)的重要途徑和手段。

猜你喜歡
級(jí)聯(lián)原子尺度
鈾濃縮廠級(jí)聯(lián)系統(tǒng)核安全分析
實(shí)現(xiàn)級(jí)聯(lián)形狀回歸方法對(duì)視線追蹤
多供取料的Q模型級(jí)聯(lián)的數(shù)學(xué)描述
原子究竟有多???
原子可以結(jié)合嗎?
帶你認(rèn)識(shí)原子
論社會(huì)進(jìn)步的評(píng)價(jià)尺度
宇宙的尺度
9
一種新型的級(jí)聯(lián)型多電平逆變器研究
顺平县| 沙田区| 安远县| 南康市| 丰宁| 巫山县| 南靖县| 玉屏| 盘锦市| 新邵县| 宁夏| 宁安市| 蕉岭县| 同德县| 镇赉县| 大安市| 新绛县| 广宗县| 务川| 健康| 吐鲁番市| 井陉县| 将乐县| 尼勒克县| 仁化县| 忻州市| 合川市| 浮山县| 南岸区| 永清县| 汨罗市| 潼关县| 百色市| 昌平区| 泸州市| 新竹市| 靖江市| 昌邑市| 赣榆县| 富锦市| 阿合奇县|