李姿昕,張能,熊斌,胡云鳳,趙新鵬,黃海友*
1.新材料技術(shù)研究院,北京科技大學(xué),北京 100083
2.北京材料基因工程高精尖創(chuàng)新中心,北京科技大學(xué),北京 100083
3.材料基因工程北京市重點實驗室,北京科技大學(xué),北京 100083
材料是科技發(fā)展的基礎(chǔ)和先導(dǎo),隨著全球新一輪工業(yè)革命浪潮的掀起,加速材料的研發(fā)進程成為世界各國共同的追求。如何基于低成本、高可靠性的預(yù)測方法理性指導(dǎo)實驗來快速獲得定制性能的新材料成為與之相關(guān)的關(guān)鍵問題。隨著“大數(shù)據(jù)”時代的到來,以機器學(xué)習(xí)等人工智能技術(shù)為代表的材料信息學(xué)領(lǐng)域快速發(fā)展,并迅速成為材料設(shè)計與開發(fā)的有力工具。機器學(xué)習(xí)技術(shù)已經(jīng)在很多材料研究中得到了應(yīng)用。例如,Xue 等通過機器學(xué)習(xí)自適應(yīng)設(shè)計,僅實驗合成36種預(yù)測成分的合金試樣,就可以從包含約800,000種不同成分的搜索空間中找到具有極小熱滯的新型多組元Ni-Ti 基形狀記憶合金[1]。Kiyohara 等通過采用機器學(xué)習(xí)方法,僅計算不超過0.18%的晶體結(jié)構(gòu)的偏析能即可準確得到合金元素在晶界偏析的穩(wěn)定構(gòu)型[2]。Wen 等采用機器學(xué)習(xí)引導(dǎo)實驗的策略,在機器學(xué)習(xí)反饋回路的輔助下僅通過7次實驗便得到了高硬度高熵合金[3]。
機器學(xué)習(xí)技術(shù)已經(jīng)被證明可以有效地加速材料的研發(fā)進程。人類社會已經(jīng)進入了“大數(shù)據(jù)”時代,數(shù)據(jù)資源已經(jīng)得到了廣大科學(xué)研究者的重視,即使是“失敗”的數(shù)據(jù),也可以用來輔助訓(xùn)練機器學(xué)習(xí)模型來預(yù)測成功條件[4]。機器學(xué)習(xí)不僅能夠?qū)Σ牧闲阅苓M行預(yù)測,同時,借助機器學(xué)習(xí)挖掘的邊界條件等信息,也有助于推進對相關(guān)機理的認識。Stanev等就是通過機器學(xué)習(xí)研究了每個超導(dǎo)體系中預(yù)測因子的重要性,獲得了關(guān)于不同體系驅(qū)動超導(dǎo)性的物理機制[5]。
然而,這種方法取決于是否有足夠多的高質(zhì)量的數(shù)據(jù)。但是在材料科學(xué)研究中,建立準確的機器學(xué)習(xí)模型往往需要“海量”數(shù)據(jù)進行訓(xùn)練。Rahaman等建立的可對未知化學(xué)成分的鋼鐵材料Ms準確預(yù)測的機器學(xué)模型,使用了包含2 277條化學(xué)成分和Ms數(shù)據(jù)的數(shù)據(jù)庫[6];Schmidt 等人為了通過機器學(xué)習(xí)預(yù)測立方鈣鈦礦體系的熱力學(xué)穩(wěn)定性,更是構(gòu)建一個包含約250,000條DFT 計算數(shù)據(jù)集[7]。但材料科學(xué)研究面臨更普遍的情況是小數(shù)據(jù)困境,即所研究的材料對象缺乏足夠的高質(zhì)量數(shù)據(jù)。其中一個主要原因是由于數(shù)據(jù)分散造成的,Zhou 等在采用機器學(xué)習(xí)對高熵合金進行相分類研究的過程當(dāng)中,從134篇文獻當(dāng)中收集了601條數(shù)據(jù)來作為數(shù)據(jù)集[8],這大大增加了研究人員的工作量。
因此,數(shù)據(jù)庫的建設(shè)成為了信息學(xué)技術(shù)在材料科學(xué)應(yīng)用中的重要組成部分。美國在2011年奧巴馬總統(tǒng)提出材料基因組計劃時,將材料數(shù)據(jù)庫作為三大基礎(chǔ)平臺之一,其建設(shè)得到了高速發(fā)展。本文首先介紹了國內(nèi)外較為知名的材料數(shù)據(jù)庫及其使用情況;然后,分析了數(shù)據(jù)庫如何幫助機器學(xué)習(xí)技術(shù)在材料科學(xué)研究中得到廣泛應(yīng)用;最后,討論了數(shù)據(jù)庫建設(shè)和應(yīng)用中所面臨的困難及其發(fā)展趨勢。
想要實現(xiàn)材料基因組工程這一顛覆性研發(fā)新模式,數(shù)據(jù)共享與計算工具開發(fā)顯得至關(guān)重要。數(shù)據(jù)庫作為材料基因工程不可或缺的一部分,已經(jīng)得到了材料科學(xué)研究者們的重視,目前,國外較為著名的材料信息數(shù)據(jù)庫有加州大學(xué)伯克利分校的勞倫斯伯克利國家實驗室和麻省理工學(xué)院等單位聯(lián)合組建的Materials Project[9]、杜克大學(xué)組建的AFLOW[10]以及美國西北大學(xué)組建的OQMD[11-12]等。我國在科技部、工業(yè)和信息化部等部門的大力支持下,以中國材料基因工程專用數(shù)據(jù)庫為代表的材料科學(xué)數(shù)據(jù)庫在快速建設(shè)當(dāng)中,并且在機器學(xué)習(xí)應(yīng)用領(lǐng)域已經(jīng)取得了初步成果。
Materials Project(MP)計算材料數(shù)據(jù)庫平臺(https://www.materialsproject.org/),是由美國勞倫斯伯克利國家實驗室(LBNL)和麻省理工學(xué)院(MIT)等單位在2011年材料基因組計劃提出后聯(lián)合開發(fā)的開放性數(shù)據(jù)庫。如圖1所示,MP 數(shù)據(jù)庫存儲了幾十萬條包括能帶結(jié)構(gòu)、彈性張量、壓電張量等性能的第一性原理計算數(shù)據(jù)。材料體系涉及無機化合物、納米孔隙材料、嵌入型電極材料和轉(zhuǎn)化型電極材料。其中大部分的化合物都來自于Inorganic Crystal Structure Database(ICSD)無機晶體結(jié)構(gòu)數(shù)據(jù)庫,數(shù)據(jù)在收錄前會經(jīng)過檢測,所以其數(shù)據(jù)具有較高的準確性。平臺中的MP 專用計算軟件也是該數(shù)據(jù)庫的主要特色之一,目前已經(jīng)開發(fā)完成了Materials Explorer、Battery Explorer、Structure Predictor 等15個應(yīng)用程序并得到了廣泛應(yīng)用。通過這些與數(shù)據(jù)庫相關(guān)聯(lián)的軟件可在線對未知材料的性能進行預(yù)測,大大減少了實驗量,加快了材料的開發(fā)速度。
圖 1 Materials Project 數(shù)據(jù)庫數(shù)據(jù)量統(tǒng)計Fig.1 Materials Project database statistics
AFLOW 計算材料數(shù)據(jù)庫(http://www.aflowlib.org/),是由杜克大學(xué)在2011年開發(fā)的一個開放數(shù)據(jù)庫。數(shù)據(jù)庫中包含了大量第一性原理計算所得的數(shù)據(jù),如圖2所示,目前已存儲了關(guān)于無機化合物、二元合金與多元合金等超過557 043 524條涉及2 945 940種材料的結(jié)構(gòu)、性能數(shù)據(jù),其中絕大多數(shù)數(shù)據(jù)都是預(yù)測得出的,是諸多數(shù)據(jù)庫中數(shù)據(jù)含量最大的一個[13]。與Materials Project 數(shù)據(jù)庫相似,基于密度泛函理論(DFT)的量子力學(xué)計算、信息學(xué)數(shù)據(jù)挖掘和進化結(jié)構(gòu)篩選策略[10],AFLOW 計算材料數(shù)據(jù)庫運用了高通量第一性原理計算,故其擁有很好的計算性能。AFLOW 數(shù)據(jù)庫有AFLOWπ、AFLOW-ML和PAOFLOW 等共12種應(yīng)用程序可以有效地對材料的結(jié)構(gòu)、性能等進行篩選。AFLOWπ[14]通過引入第一性原理計算來獲得材料的能帶結(jié)構(gòu)、態(tài)密度、聲子色散、彈性特性、復(fù)介電常數(shù)、電子轉(zhuǎn)移系數(shù)。以減少普通用戶的技術(shù)性難題為出發(fā)點,AFLOWML[15]簡化了AFLOW的機器學(xué)習(xí)方法,提供了一個開放的RESTful API可訪問不斷更新的算法來保證各種工作流的正常運行,幫助研究人員更好地預(yù)測材料性能,推動了機器學(xué)習(xí)方法在材料中的應(yīng)用。
圖 2 AFLOW 數(shù)據(jù)庫數(shù)據(jù)量統(tǒng)計Fig.2 AFLOW database statistics
Open Quantum Materials Database (OQMD)開放量子材料數(shù)據(jù)庫(http://oqmd.org/),是由美國西北大學(xué)Chris Wolverton 團隊于2013年建立的一個基于DFT 計算的637 644種材料的熱力學(xué)性質(zhì)和結(jié)構(gòu)的數(shù)據(jù)庫,同時提供API 接口來下載數(shù)據(jù)。正如其名,OQMD 數(shù)據(jù)庫是諸多數(shù)據(jù)庫中開放程度最高的一個。在OQMD 計算平臺上,研究人員不僅可以按需搜索材料的晶體結(jié)構(gòu)、能帶和能量等性質(zhì),還可以訓(xùn)練機器學(xué)習(xí)模型,用以識別潛在的新三元化合物[16]。此外,該數(shù)據(jù)庫還可以利用元素計算法給出材料的相圖從而預(yù)測熱力學(xué)穩(wěn)定相。OQMD 計算平臺的準確性也得到了大多用戶的肯定,Scott Kirklin 等人[12]通過具體實驗對比發(fā)現(xiàn),運用OQMD 計算平臺可以基本準確地預(yù)測大多數(shù)元素的晶體結(jié)構(gòu)與形成能。
Materials Project,AFLOW和OQMD 都是基于量子力學(xué)計算建設(shè)的數(shù)據(jù)庫,這三個數(shù)據(jù)庫計算數(shù)據(jù)所基于的晶體結(jié)構(gòu)大多來自于ICSD 數(shù)據(jù)庫[17]。ICSD 無機晶體結(jié)構(gòu)數(shù)據(jù)庫(http://icsd.fizkarlsruhe.de/)的構(gòu)建是由德國波恩大學(xué)無機化學(xué)研究所Gunter Bergerhoff 教授首先提出的,自1913年創(chuàng)建以來,先后經(jīng)由波恩大學(xué)、FIZ 研究所、Gmelin研究所及美國國家標準與技術(shù)研究所(NIST)進行維護管理[18]。該數(shù)據(jù)庫建立時間較長,涵蓋了金屬、合金、陶瓷等非有機化合物的晶體結(jié)構(gòu)信息。到目前為止,數(shù)據(jù)庫中包含了超過9 千種結(jié)構(gòu)原型,共計超過21 萬種晶體結(jié)構(gòu)條目,如圖3所示,已經(jīng)形成了世界最大的無機晶體結(jié)構(gòu)數(shù)據(jù)庫。數(shù)據(jù)庫中的數(shù)據(jù)都是經(jīng)過專家團隊全面檢查后才會上傳到數(shù)據(jù)庫當(dāng)中。ICSD 每年都會更新兩次數(shù)據(jù),這些數(shù)據(jù)部分來源于出版期刊或?qū)嶒炇?,還有部分來源于計算機程序生成。用戶可通過參考文獻、化學(xué)組成、晶胞參數(shù)、對稱性以及實驗和代碼信息5種不同的方式對數(shù)據(jù)進行檢索。因此,在新材料的研究過程中,ICSD 數(shù)據(jù)庫被研究人員廣泛應(yīng)用。
圖 3 ICSD 數(shù)據(jù)庫統(tǒng)計Fig.3 ICSD database statistics
除了以上幾個著名的材料信息數(shù)據(jù)庫以外,還有一些影響力較大的數(shù)據(jù)庫。由美國國家標準與技術(shù)研究所NIST 開發(fā)的標準參考數(shù)據(jù)庫系列有百余個數(shù)據(jù)庫(https://www.nist.gov/srd/),其中材料類的有材料性能數(shù)據(jù)庫與晶體結(jié)構(gòu)數(shù)據(jù)庫等,涵蓋了腐蝕性能、高溫超導(dǎo)、熱力學(xué)性能、摩擦性能等內(nèi)容,可按需通過分子式、分子量、化合物名稱、CAS號等途徑查找,有圖譜分析、同位素計算等功能。日本國立材料科學(xué)研究所開發(fā)的MatNavi 數(shù)據(jù)庫(https://mits.nims.go.jp/),涵蓋了金屬材料、復(fù)合材料、超導(dǎo)材料、聚合物、高溫合金等材料種類的大量數(shù)據(jù)內(nèi)容。除基礎(chǔ)數(shù)據(jù)庫外,還包括工程數(shù)據(jù)庫(如CCT 曲線數(shù)據(jù)庫)、四個應(yīng)用與結(jié)構(gòu)材料在線數(shù)據(jù)表。用戶可通過搜索關(guān)鍵字、類別、數(shù)值等查找相應(yīng)數(shù)據(jù),有自己獨創(chuàng)的檢索系統(tǒng),其輸出方式也呈現(xiàn)多樣化。NOMAD(https://www.nomad-coe.eu/)是由歐洲卓越中心(European Centre of Excellence)開發(fā)的,該數(shù)據(jù)庫中的數(shù)據(jù)部分來自世界各地的研究人員與實驗室,也有部分來自于其他數(shù)據(jù)庫,如AFLOWlib和OQMD。該數(shù)據(jù)庫的主要特色為可暫存研究人員的代碼和數(shù)據(jù),用戶可以對比世界各地研究人員的計算結(jié)果,從而可以更好地研究材料的結(jié)構(gòu)性能,這一特點使NOMAD 數(shù)據(jù)庫從眾多高通量計算平臺中脫穎而出。由日本科學(xué)技術(shù)公司(JST)與瑞典物相數(shù)據(jù)系統(tǒng)(MPDS)于1995年合作創(chuàng)立的PAULING FILE 數(shù)據(jù)庫(http://www.paulingfile.com/),主要應(yīng)用于無機材料的設(shè)計與開發(fā)。該數(shù)據(jù)庫在建立之初就是希望能夠應(yīng)用于材料數(shù)據(jù)挖掘中,能夠發(fā)現(xiàn)可以應(yīng)用于材料設(shè)計的新模式。Material Connexion數(shù)據(jù)庫(https://www.materialconnexion.com/)由George M.Beylerian 創(chuàng)立,數(shù)據(jù)庫中包含了碳基材料、水泥基材料、陶瓷材料、玻璃材料、金屬材料、天然材料、高分子材料、材料工藝在內(nèi)的超過一萬條材料數(shù)據(jù)。這是一個將材料學(xué)家與設(shè)計師直接聯(lián)系起來的創(chuàng)新材料咨詢服務(wù)機構(gòu)。它不僅包含大量的館藏與數(shù)據(jù)庫,還有專業(yè)的研究團隊提供咨詢服務(wù)與線下材料圖書館,設(shè)計師可以親自感受、挑選各種新材料。由美國佛羅里達大學(xué)Hennig 課題組創(chuàng)建和管理的Materials Web(https://www.materialsweb.org/)是一個以在線存儲二維材料電子結(jié)構(gòu)為主的數(shù)據(jù)庫。用戶可免費獲取數(shù)據(jù)庫中約700 余條二維材料和1萬余條層狀體材料的結(jié)構(gòu)、電子和熱力學(xué)數(shù)據(jù),數(shù)據(jù)庫還支持生成VASP 工作流和表征材料結(jié)構(gòu)特征,未來還將引入機器學(xué)習(xí)工具方便科研人員進行材料科學(xué)研究。Matdat(https://www.matdat.com/)是由MATDAT LLC的創(chuàng)始人Robert Basan 創(chuàng)立的一個綜合平臺,它包括一個材料性能數(shù)據(jù)庫,一個超過12 000條信息的關(guān)于實驗室、供貨商、制造商名錄與即將開放的研究數(shù)據(jù)儲存平臺。其中,材料性能數(shù)據(jù)庫包括鋁合金、鈦合金等600多種材料的1 500多條信息。而像SpringerMaterials[19],Materials Cloud[20],COD[21]和ChemSpider[22]等數(shù)據(jù)庫,在其相關(guān)領(lǐng)域也有一定的影響力。
表1 主要材料科學(xué)數(shù)據(jù)庫對比Table1 Comparison of major material science databases
相較于國外一些著名的材料數(shù)據(jù)庫而言,我國在這方面起步較晚。為了更有效地應(yīng)用和積累科學(xué)數(shù)據(jù),在1987年,中國科學(xué)院牽頭正式啟動科學(xué)數(shù)據(jù)資源建設(shè)。經(jīng)過多年發(fā)展,2019年全面改版的中國科學(xué)院數(shù)據(jù)云門戶網(wǎng)站(http://www.csdb.cn/)投入運行。目前,數(shù)據(jù)庫中包括1 144個數(shù)據(jù)集,訪問人數(shù)超過了16 000 萬,下載量更是高達2 000TB。這其中由中國科學(xué)院金屬研究所承建的“材料學(xué)科領(lǐng)域基礎(chǔ)科學(xué)數(shù)據(jù)庫”(http://www.matsci.csdb.cn/)是國內(nèi)最全面的材料科學(xué)數(shù)據(jù)庫之一,主要包括金屬材料、無機非金屬材料、閃爍材料、碳化硅材料、納米材料和有機高分子材料等子數(shù)據(jù)庫。目前材料科學(xué)主題數(shù)據(jù)擁有數(shù)據(jù)總量7萬余條。其中金屬材料節(jié)點6萬余條,無機非金屬材料節(jié)點數(shù)據(jù)1萬余條,涵蓋了材料的熱學(xué)、力學(xué)和電學(xué)等各種性能,其數(shù)據(jù)來源主要以手冊、期刊文獻數(shù)據(jù)為主,極大地促進了新技術(shù)與學(xué)科領(lǐng)域的融合發(fā)展。
我國從2001年開始逐步啟動了科學(xué)數(shù)據(jù)共享工程。以國家科技部“十一五”基礎(chǔ)條件平臺項目“材料科學(xué)數(shù)據(jù)共享與服務(wù)平臺建設(shè)”為依托的“國家材料科學(xué)數(shù)據(jù)共享網(wǎng)”(http://www.materdata.cn/)便是其中的一項重點工程。目前已整合了全國各地30余家科研單位的數(shù)據(jù)資源,其中包括了3 000種鋼鐵材料及材料基礎(chǔ)的高質(zhì)量數(shù)據(jù)近11 萬條,數(shù)據(jù)庫中以材料體系劃分,分為了材料基礎(chǔ)、有色金屬材料及特種合金、黑色金屬材料、復(fù)合材料、有機高分子材料、無機非金屬材料、信息材料、能源材料、生物醫(yī)學(xué)材料、天然材料及制品、建筑材料和道路交通材料12個大類。國家材料科學(xué)數(shù)據(jù)共享網(wǎng)的建設(shè)為材料研究領(lǐng)域提供了數(shù)據(jù)共享服務(wù)與應(yīng)用支撐。
2016年,由北京科技大學(xué)牽頭建立的“材料基因工程專用數(shù)據(jù)庫(MGED)”(http://www.mgedata.cn/)是一個基于材料基因工程的思想和理念建設(shè)的數(shù)據(jù)庫和應(yīng)用軟件一體化系統(tǒng)平臺。截至目前,該數(shù)據(jù)庫平臺包含的催化材料、鐵性材料、特種合金、生物醫(yī)用材料以及材料熱力學(xué)和動力學(xué)數(shù)據(jù)庫等各類材料數(shù)據(jù)的總量超過了76 萬條,累計查看量超過2 萬次。該平臺包括了基于云計算模式的材料高通量第一性原理計算軟件以及融合數(shù)據(jù)庫的材料數(shù)據(jù)挖掘計算網(wǎng)絡(luò)平臺,可以實現(xiàn)批量作業(yè)的自動生成,并且可以對計算的結(jié)果進行自動處理、解析和數(shù)據(jù)匯交。除此之外,該平臺還包含了論文信息輔助提取軟件,使用人員可以使用該軟件提取所閱讀的論文當(dāng)中的實驗數(shù)據(jù),從而可以為該平臺的材料數(shù)據(jù)庫填充材料數(shù)據(jù)。平臺包含在線數(shù)據(jù)挖掘系統(tǒng),可直接調(diào)用數(shù)據(jù)庫數(shù)據(jù)開展數(shù)據(jù)挖掘和機器學(xué)習(xí)。
除此之外,國內(nèi)還建成了很多專項數(shù)據(jù)庫,包括國家納米科學(xué)中心建立的納米研究專業(yè)數(shù)據(jù)庫、北京科技大學(xué)牽頭建立的國家材料環(huán)境腐蝕科學(xué)數(shù)據(jù)中心、中國科學(xué)院化學(xué)研究所承擔(dān)建設(shè)的高分子材料科學(xué)數(shù)據(jù)資源節(jié)點等。這些數(shù)據(jù)庫雖然使用范圍相對較小,但是在特定的研究領(lǐng)域具有很強的針對性。
如今,在“大數(shù)據(jù)”時代中,數(shù)據(jù)是進行材料科學(xué)研究的基礎(chǔ),而采用機器學(xué)習(xí)進行材料研究的時候,更是需要龐大數(shù)據(jù)量的支持,材料信息數(shù)據(jù)庫可以非常便捷地儲存和利用現(xiàn)有的嚴重碎片化的材料數(shù)據(jù)[23]。材料數(shù)據(jù)庫作為材料基因工程的核心技術(shù)之一,在材料基因工程領(lǐng)域研究中具有不可忽視的作用,同時也為研究中數(shù)據(jù)的獲取提供了便捷。數(shù)據(jù)庫在機器學(xué)習(xí)研究過程當(dāng)中具有不同的應(yīng)用方式。
采用數(shù)據(jù)庫中的數(shù)據(jù)作為訓(xùn)練集來訓(xùn)練機器學(xué)習(xí)模型,這是數(shù)據(jù)庫在機器學(xué)習(xí)研究當(dāng)中最廣泛的應(yīng)用方式。機器學(xué)習(xí)往往需要大量數(shù)據(jù)來訓(xùn)練模型,而數(shù)據(jù)庫可以提供大量的數(shù)據(jù)支持。Tehrani 等以Materials Project 數(shù)據(jù)庫中的3 246個彈性模量作為訓(xùn)練集訓(xùn)練的模型,通過對晶體結(jié)構(gòu)數(shù)據(jù)庫中118 287個化合物進行預(yù)測,得到了由支持向量機回歸確定的最大體模量和最大剪切模量的材料,選擇典型化合物進行合成測量后發(fā)現(xiàn)誤差小于10%[24]。不只是理論計算類數(shù)據(jù)庫在機器學(xué)習(xí)中有著重大應(yīng)用,實驗類的數(shù)據(jù)庫也具有不可忽視的作用。Agrawal 等利用NIMS的數(shù)據(jù)庫中的實驗數(shù)據(jù),通過對特征選擇和預(yù)測建模在內(nèi)的不同數(shù)據(jù)科學(xué)技術(shù)在鋼材疲勞性能中的應(yīng)用進行探討,發(fā)現(xiàn)一些先進的數(shù)據(jù)分析技術(shù)可以在預(yù)測精度上取得顯著提高,成功地證明了這種數(shù)據(jù)挖掘工具可用于按預(yù)測鋼鐵疲勞強度的潛力順序?qū)Τ煞趾凸に噮?shù)進行排名,并實際開發(fā)了相應(yīng)的預(yù)測模型[25]。Stanev 等在超導(dǎo)臨界溫度的機器學(xué)習(xí)建模研究中,其數(shù)據(jù)集來自于NIMS 創(chuàng)建和維護的SuperCon 數(shù)據(jù)庫,所建立的模型具有較強的預(yù)測能力,樣本外推準確率約為92%[5]。
除了作為訓(xùn)練集,還可以將數(shù)據(jù)庫中的數(shù)據(jù)作為測試集來檢驗訓(xùn)練完成的機器學(xué)習(xí)模型的性能,采用第一性原理計算的數(shù)據(jù)訓(xùn)練的機器學(xué)習(xí)模型可以有效地預(yù)測晶體化合物的振動性質(zhì)[26]。在這個研究中,將振動性質(zhì)的預(yù)測值和NIST 數(shù)據(jù)庫中的實驗值進行了對比,發(fā)現(xiàn)預(yù)測結(jié)果與實驗結(jié)果之間的一致性是顯著的。這表明該模型可以有效并且快速地預(yù)測晶體化合物的振動性質(zhì)。
機器學(xué)習(xí)模型也可以對數(shù)據(jù)庫中的材料進行性能預(yù)測。Cheon 等將通過三維晶體結(jié)構(gòu)的原子位置訓(xùn)練好的機器學(xué)習(xí)模型應(yīng)用于Materials Project 數(shù)據(jù)庫中的5萬余個無機晶體材料后,可以識別出1 173個二維層狀材料和487個由弱鍵一維分子鏈組成的材料。對于大多數(shù)不清楚是二維或一維材料的材料,這個模型識別材料的數(shù)量增加了一個數(shù)量級[27]。
很多數(shù)據(jù)庫都內(nèi)置了高通量計算框架或勢庫,可以間接為機器學(xué)習(xí)研究提供數(shù)據(jù)支持。在AFLOW數(shù)據(jù)庫的高通量計算框架下,結(jié)合機器學(xué)習(xí)方法評估了大約400個半導(dǎo)體氧化物和氟化物與立方鈣鈦礦結(jié)構(gòu)在0、300和1000K 下的力學(xué)穩(wěn)定性。找到了92種在高溫下力學(xué)穩(wěn)定的化合物,其中36種未在以往的文獻中提及[28]。采用MGED 數(shù)據(jù)庫中的晶格反演勢庫結(jié)合機器學(xué)習(xí),可以在大約50 萬個候選合金中快速找到具有最高相變熵變的Cu-Al 基形狀記憶合金,同時得到了部分合金元素對合金相變熵變的影響規(guī)律[29]。
數(shù)據(jù)庫可以將碎片化數(shù)據(jù)整合,并不斷積累,為材料研究提供數(shù)據(jù)支持。在機器學(xué)習(xí)輔助鎳基單晶高溫合金晶格錯配度預(yù)測的研究中[30],其數(shù)據(jù)集來源于文獻摘錄。而在利用機器學(xué)習(xí)算法訓(xùn)練實驗數(shù)據(jù)預(yù)測粉末冶金材料燒結(jié)密度的研究中[31],數(shù)據(jù)則來源于實驗室積累以及文獻收集。這些研究的數(shù)據(jù)雖然來源于文獻以及實驗室的收集,但是為了指導(dǎo)未來的合金設(shè)計,都被收集在了國家材料科學(xué)數(shù)據(jù)共享網(wǎng)中。該數(shù)據(jù)庫中的所有數(shù)據(jù)均經(jīng)過所屬單位和文獻出處信息的驗證,保證了質(zhì)量的可靠性。
對于材料數(shù)據(jù)庫來說,通過第一性原理等高性能、高通量的材料計算進行材料理論數(shù)據(jù)獲取,并結(jié)合實驗數(shù)據(jù)和經(jīng)驗數(shù)據(jù),再利用信息化技術(shù)對大規(guī)模、多源異構(gòu)的材料數(shù)據(jù)進行處理分析,由此才能對材料數(shù)據(jù)庫所存儲的數(shù)據(jù)進行充分的挖掘和利用[32]。目前,常用的高通量計算框架包括Materials Project和AFLOW 等都具有較高的入門門檻。因此,高通量計算軟件的發(fā)展也變得刻不容緩。
上海鞍面智能科技有限公司的LASP 軟件利用最新的高效神經(jīng)網(wǎng)絡(luò)勢能面方法來進行勢能面模擬計算,解決了諸如晶體結(jié)構(gòu)預(yù)測、相變動力學(xué)、反應(yīng)路徑預(yù)測等許多復(fù)雜的反應(yīng)路徑及材料體系中的問題。高巖濤等人[33]基于第一性原理,利用平面波基組、贗勢方法進行電子結(jié)構(gòu)計算、分子動力學(xué)模擬,研發(fā)了GPU 加速計算平臺PWMat,其比相同的CPU 軟件(例如PEtot)的計算速度要快20倍左右,能夠在平臺上面實現(xiàn)4 000 電子以上體系的模擬計算。中國科學(xué)院計算機網(wǎng)絡(luò)信息中心的楊小渝等人研發(fā)了高通量材料計算平臺MatCloud,以及高通量材料計算數(shù)據(jù)庫MatCloudLib[34]。具有晶體結(jié)構(gòu)建模、圖形化界面的流程設(shè)計、性質(zhì)預(yù)測、結(jié)果分析、數(shù)據(jù)提取與查詢、與計算資源的集成等特色,并且可以完成對計算結(jié)果的可視化分析及展示。王宗國等人[35]以Fe-Al和Al-Ti 體系為例,采用MatCloud的特色工作流技術(shù)快速篩選出了摻雜的穩(wěn)定結(jié)構(gòu),相較于遍歷篩選,計算量分別減少了66%和84%。而由北京航空航天大學(xué)的孫志梅等人開發(fā)的計算平臺ALKEMIE 同樣包含計算平臺MATTER STUDIO(MS)以及數(shù)據(jù)庫DATAVAULT (DV)兩個部分,并且可以全自動地進行建模、運行以及數(shù)據(jù)分析。其中MS 計算平臺集成了第一性原理、熱力學(xué)、經(jīng)典分子動力學(xué)及動態(tài)蒙特卡洛模擬等計算引擎,DV 數(shù)據(jù)庫當(dāng)中的材料結(jié)構(gòu)數(shù)據(jù)超過了18 萬條,計算完成的材料性能數(shù)據(jù)超過1 萬條。
材料數(shù)據(jù)是材料科學(xué)研究的基礎(chǔ),隨著“材料基因工程”的提出與實施,材料科學(xué)數(shù)據(jù)呈現(xiàn)出爆炸式增長的態(tài)勢。對于材料數(shù)據(jù)庫來說,其最主要的作用之一就是積累材料數(shù)據(jù),為材料計算和實驗提供數(shù)據(jù)支撐。所以已有研究數(shù)據(jù)的積累對于材料數(shù)據(jù)庫的建立是十分必要的。但是國內(nèi)在數(shù)據(jù)庫方面的資源儲備量遠遠不如美國、歐洲、日本等發(fā)達國家,我國的材料科學(xué)數(shù)據(jù)庫處于建設(shè)初期,還無法很好地為材料科學(xué)研究者們服務(wù),還無法滿足應(yīng)用的需求。
目前,中國材料信息數(shù)據(jù)庫的建設(shè)與應(yīng)用面臨著很大的挑戰(zhàn),主要表現(xiàn)在以下幾個方面。
(1)數(shù)據(jù)庫的數(shù)據(jù)量遠遠不夠。相較于一些發(fā)達國家而言,中國的材料科學(xué)數(shù)據(jù)庫在建設(shè)方面起步較晚,數(shù)據(jù)積累量遠遠不足,已有的幾個國家級數(shù)據(jù)庫中的數(shù)據(jù)不夠豐富,還處于建設(shè)初期。在“大數(shù)據(jù)”時代背景下,相比于其他領(lǐng)域數(shù)據(jù)量的積累速度,材料領(lǐng)域的數(shù)據(jù)量積累速度也較慢。
(2)數(shù)據(jù)質(zhì)量評價方法與機制亟需完善。失敗實驗的數(shù)據(jù)依舊可以為研究工作提供其應(yīng)有的價值,但是,錯誤的數(shù)據(jù)只會阻礙研究的進展。無論國內(nèi)國外,在數(shù)據(jù)庫建立之初都會將數(shù)據(jù)的質(zhì)量列為重中之重。但是,錯誤的數(shù)據(jù)難免會存在,這就需要材料科學(xué)工作者們嚴格把關(guān),將錯誤的數(shù)據(jù)拒之門外,為機器學(xué)習(xí)研究減少“噪音”的影響。
(3)明確數(shù)據(jù)分類。材料根據(jù)不同的分類方式有很多類別,材料數(shù)據(jù)的分類應(yīng)該根據(jù)權(quán)威的材料分類體系進行劃分。同時,還應(yīng)該加強年輕學(xué)生和科研工作者對材料分類的學(xué)習(xí),在進行數(shù)據(jù)收集的時候就可以避免分類混亂,減少日后數(shù)據(jù)庫的維護成本。
(4)材料數(shù)據(jù)的獲取過程較為復(fù)雜。無論是材料計算數(shù)據(jù)還是實驗數(shù)據(jù),對工藝參數(shù)都顯得十分敏感,往往一些工藝參數(shù)的微小變化,就可以使得同種材料的數(shù)據(jù)產(chǎn)生巨大差異。在進行數(shù)據(jù)收集的時候,還需要嚴格數(shù)據(jù)格式,明確數(shù)據(jù)來源以及數(shù)據(jù)的生產(chǎn)條件。
(5)數(shù)據(jù)的共享程度仍有待提高。在現(xiàn)在這個“大數(shù)據(jù)”時代,已經(jīng)有很多科研機構(gòu)和生產(chǎn)單位意識到了數(shù)據(jù)的重要性。不同的研究單位往往都擁有自己的數(shù)據(jù)庫,但是,這些數(shù)據(jù)庫的共享程度非常低,并且很多都是單一性能或者單一材料體系,無法形成一個系統(tǒng)的綜合類材料信息數(shù)據(jù)庫。而且數(shù)據(jù)格式也具有其自身的特色,這也影響了其共享程度。
(6)數(shù)據(jù)知識產(chǎn)權(quán)問題依舊嚴峻。這也是造成數(shù)據(jù)共享程度較低的一個主要原因。“大數(shù)據(jù)”時代,數(shù)據(jù)是一筆很大的“財富”,而對這筆“財富”的知識產(chǎn)權(quán)屬性和保護還沒有一個明確的法律界定,很多研究工作者也不愿意無償貢獻數(shù)據(jù),尤其是一些生產(chǎn)單位的數(shù)據(jù),更是涉及到了其商業(yè)機密。
(7)生產(chǎn)數(shù)據(jù)的收集有很大的困難。一些生產(chǎn)數(shù)據(jù)會涉及到生產(chǎn)單位的核心技術(shù)或者商業(yè)機密。但是部分不涉密數(shù)據(jù)的收集力度依舊不大,很多數(shù)據(jù)庫在這方面存在很大空白。
(8)數(shù)據(jù)的收集、更新,與數(shù)據(jù)庫的維護需要專業(yè)人員監(jiān)管?,F(xiàn)在一些數(shù)據(jù)庫的數(shù)據(jù)收集、更新與數(shù)據(jù)庫的維護是由青年學(xué)生和研究工作者完成的,但是部分學(xué)生和研究工作者對材料科學(xué)領(lǐng)域的知識理解得不夠深刻和系統(tǒng),在進行數(shù)據(jù)庫建設(shè)的時候往往會造成很多失誤,影響了數(shù)據(jù)庫中的數(shù)據(jù)質(zhì)量和數(shù)據(jù)庫的建設(shè)進度,所以需要專業(yè)人員進行監(jiān)管。
材料信息數(shù)據(jù)庫的建設(shè)刻不容緩,由于近年來“材料基因工程”的提出與發(fā)展,數(shù)據(jù)庫的建設(shè)與發(fā)展也受到了極大的關(guān)注。中國在材料科學(xué)研究領(lǐng)域已經(jīng)積累了大量的數(shù)據(jù),但是,這些數(shù)據(jù)還沒有很好地被收集起來,加大材料數(shù)據(jù)收集和共享力度顯得十分重要。而在收集數(shù)據(jù)的過程當(dāng)中應(yīng)該對數(shù)據(jù)質(zhì)量嚴格把關(guān),對數(shù)據(jù)格式嚴格要求,對數(shù)據(jù)知識產(chǎn)權(quán)問題加強管理,提高數(shù)據(jù)庫中數(shù)據(jù)的質(zhì)量和共享程度。高通量材料計算和高通量制備與表征是“大數(shù)據(jù)”時代補充材料信息數(shù)據(jù)庫數(shù)據(jù)量的有效手段,發(fā)展高通量計算平臺、高通量制備技術(shù)和高通量表征技術(shù)可以有效緩解數(shù)據(jù)收集困難的情況,同時也可以降低材料數(shù)據(jù)收集過程的復(fù)雜程度,增加相同工藝參數(shù)下材料的數(shù)據(jù)量。中國現(xiàn)在材料信息數(shù)據(jù)庫的建設(shè)屬于“邊建設(shè)邊使用”,數(shù)據(jù)庫的建設(shè)是一項長期的工作,應(yīng)該優(yōu)先建立一些熱門材料體系的專題材料數(shù)據(jù)庫,優(yōu)先解決國家科技重大專項和國防建設(shè)急需數(shù)據(jù)研究的情況。由于數(shù)據(jù)庫建設(shè)是材料基因工程領(lǐng)域中重要的一環(huán),同時中國數(shù)據(jù)庫的發(fā)展與發(fā)達國家相比還有較大差距,因此,中國的材料數(shù)據(jù)庫建設(shè)還具有很大的發(fā)展空間。
本文對國內(nèi)外材料信息數(shù)據(jù)庫的建設(shè)情況和使用情況進行了簡單的介紹??偟膩碚f,材料基因組工程領(lǐng)域作為一個新興的科學(xué)研究領(lǐng)域,已經(jīng)取得了初步成效。材料基因工程作為顛覆性技術(shù),想要實現(xiàn)新材料研發(fā)周期縮短一半、研發(fā)成本降低一半的目標就離不開數(shù)據(jù)庫的支撐。在過去約10年間的發(fā)展中,材料科學(xué)數(shù)據(jù)庫的發(fā)展情況呈現(xiàn)出“百家爭鳴”的態(tài)勢,眾多材料學(xué)研究者都認識到了數(shù)據(jù)的重要性。因此,未來幾年中國材料科學(xué)數(shù)據(jù)庫在建設(shè)和應(yīng)用上將迎來一個快速發(fā)展時期。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。