尹海清,姜 雪,張瑞杰,劉國權(quán),鄭清軍,曲選輝,3
(1.北京科技大學(xué)鋼鐵共性技術(shù)協(xié)同創(chuàng)新中心,北京100083)
(2.美國肯納金屬有限公司,賓夕法尼亞州15650)
(3.北京科技大學(xué)新材料技術(shù)研究院,北京100083)
材料數(shù)據(jù)在材料創(chuàng)新發(fā)展中的作用與存在問題的思考
尹海清1,姜 雪1,張瑞杰1,劉國權(quán)1,鄭清軍2,曲選輝1,3
(1.北京科技大學(xué)鋼鐵共性技術(shù)協(xié)同創(chuàng)新中心,北京100083)
(2.美國肯納金屬有限公司,賓夕法尼亞州15650)
(3.北京科技大學(xué)新材料技術(shù)研究院,北京100083)
材料數(shù)據(jù)是材料基因組計劃的三大核心工具之一,近年來在國際上引起強烈關(guān)注,美國、日本等國相繼資助了大型數(shù)據(jù)庫建設(shè)和數(shù)據(jù)分析的項目。材料數(shù)據(jù)的準(zhǔn)確性與完整性,是數(shù)據(jù)分析與挖掘的根本保障,并直接影響材料數(shù)據(jù)庫的建設(shè)以及材料數(shù)據(jù)價值的深度開發(fā)和應(yīng)用。材料大數(shù)據(jù)的特征主要表現(xiàn)在材料屬性的高維以及屬性間的復(fù)雜關(guān)聯(lián)關(guān)系,在材料數(shù)據(jù)分析挖掘中應(yīng)重視與材料領(lǐng)域知識的充分結(jié)合,以及離群點分析上的學(xué)科特點及需求特殊性。而材料數(shù)據(jù)相關(guān)的基礎(chǔ)教育,尤其是在本科階段數(shù)學(xué)與計算機相關(guān)基礎(chǔ)課程的設(shè)置,則成為今后材料數(shù)據(jù)成為材料創(chuàng)新發(fā)展手段的保障。本文就材料基因工程框架下材料數(shù)據(jù)長久發(fā)展進程中目前亟待重視和解決的問題加以討論。
材料數(shù)據(jù);材料基因工程;數(shù)據(jù)質(zhì)量;數(shù)據(jù)挖掘;基礎(chǔ)教育
數(shù)據(jù)在當(dāng)今時代發(fā)展中的作用是不容置疑的,由于計算機和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,數(shù)字化的信息以及數(shù)據(jù)傳輸已經(jīng)成為社會發(fā)展的基礎(chǔ),而數(shù)據(jù)分析已成為國家安全、經(jīng)濟發(fā)展和風(fēng)險分析等的重要手段,曾有人預(yù)言,支撐數(shù)據(jù)傳輸?shù)碾娏ο到y(tǒng)如果出現(xiàn)全球性的停電,將對人類造成毀滅性打擊。
科學(xué)技術(shù)的發(fā)展決定了一個國家發(fā)展的加速度??茖W(xué)數(shù)據(jù)包括人文與社會科學(xué)數(shù)據(jù)和自然科學(xué)數(shù)據(jù)兩大不同類別,后者以其專業(yè)性強、理論知識抽象復(fù)雜等特點,成為很小眾的學(xué)科,受眾群體相對少數(shù)且集中。國家科技部科技基礎(chǔ)條件平臺中心自21世紀(jì)初,支持了一批科學(xué)數(shù)據(jù)平臺建設(shè)項目,建設(shè)了地理、天文、生物、遙感、醫(yī)學(xué)、材料等領(lǐng)域的數(shù)據(jù)庫,其中材料數(shù)據(jù)庫包括兩大數(shù)據(jù)庫,即中國腐蝕與防護網(wǎng)和材料科學(xué)數(shù)據(jù)共享網(wǎng)。這些數(shù)據(jù)庫成為各領(lǐng)域發(fā)展與應(yīng)用的重大基礎(chǔ)資源。2009年發(fā)表在科學(xué)雜志上的?科學(xué)發(fā)現(xiàn)的第四范式?[1]中提出,數(shù)據(jù)科學(xué)是繼理論分析、計算模擬和實驗以外的第四種科學(xué)發(fā)現(xiàn)的范式,將數(shù)據(jù)正式定義為科學(xué)發(fā)現(xiàn)的新模式。
美國于2011年6月由總統(tǒng)發(fā)布了“先進制造伙伴計劃”,該框架中最為重要的一部分是“材料基因組計劃”(Materials Genome Initiative,MGI),受到全球的關(guān)注。材料基因組計劃,在中國又被稱作材料基因工程,是以計算模擬、實驗表征與數(shù)據(jù)作為三大工具(如圖1所示),基于材料理論,推動材料研發(fā)從試錯法向以計算為牽引的創(chuàng)新設(shè)計的轉(zhuǎn)型,以期達到加速材料研發(fā)進程、降低研發(fā)成本的目標(biāo)。材料基因組計劃自發(fā)布后獲得了國內(nèi)外材料領(lǐng)域?qū)<覍W(xué)者們的高度關(guān)注,美國資助了Materials Project等第一性原理計算相關(guān)的以電池材料為代表的功能材料數(shù)據(jù)庫[2],日本批復(fù)了材料信息學(xué)的國家級項目“Material Research on information integration”Initiative(Mi2i)[3],我國在過去的五年時間里展開了多次高層次的討論,并推動形成了“十三五”期間科技部等部門的國家重點研發(fā)項目的大力度支持。
圖1 材料基因工程可以理解為構(gòu)建在材料知識基礎(chǔ)上的計算、實驗和數(shù)據(jù)三大工具的創(chuàng)新融合Fig.1 Materials Genome Initiative is the innovative combination of computation,experimentation and data,based on the materials knowledge
目前,材料基因工程被業(yè)界大多數(shù)學(xué)者認(rèn)識是一種新的方法論。由于材料計算與實驗表征,早已經(jīng)成為材料研究的兩大基本手段,因此,對于材料數(shù)據(jù)的研究,被認(rèn)為是材料基因工程研究的最具可能的亮點。然而,材料數(shù)據(jù),就數(shù)量而言,尚未達到生物、地理、高能物理等領(lǐng)域的大數(shù)據(jù)的數(shù)量規(guī)模,但材料種類眾多,影響因素錯綜復(fù)雜,數(shù)據(jù)關(guān)系尚待明確和梳理,本文擬對材料數(shù)據(jù)的發(fā)展及存在的潛在問題進行較為深入的討論,以期進一步明晰材料基因組計劃在材料研發(fā)創(chuàng)新思維的實施上的行動方案。
根據(jù)材料數(shù)據(jù)的來源,可分為計算數(shù)據(jù)、實驗數(shù)據(jù)和生產(chǎn)數(shù)據(jù)等3類,數(shù)據(jù)經(jīng)過收集整合并存儲于數(shù)據(jù)庫、數(shù)據(jù)倉庫及云存儲,并進一步用于數(shù)據(jù)的應(yīng)用服務(wù)和深加工,其邏輯關(guān)系如圖2所示。本文重點討論材料數(shù)據(jù)及其在應(yīng)用中的關(guān)鍵點或易被忽略之處。
圖2 材料數(shù)據(jù)及其應(yīng)用的邏輯關(guān)系Fig.2 Correlation between materials data and application
2.1 數(shù)據(jù)的準(zhǔn)確性
數(shù)據(jù)的質(zhì)量是決定數(shù)據(jù)庫及其應(yīng)用的根本要素。
目前,大部分材料數(shù)據(jù)是從公開發(fā)表的文章、手冊等收集得來,包括已商業(yè)化的無機材料晶體結(jié)構(gòu)數(shù)據(jù)庫(Inorganic Crystal Structure Database,ICSD)與Pauling file等。盡管正在開展的高通量計算與高通量制備表征的研究在今后會產(chǎn)生自動化流程數(shù)據(jù),在今后相當(dāng)長的一段時間里,收集數(shù)據(jù)仍是數(shù)據(jù)來源主流。這就對數(shù)據(jù)收集者和數(shù)據(jù)庫的管理提出了很高的要求。
數(shù)據(jù)的數(shù)值超過可能的取值范圍或不合理的數(shù)值等明顯錯誤,通過數(shù)據(jù)庫建設(shè)時對數(shù)據(jù)的規(guī)范性約束,在存儲等環(huán)節(jié)可以被計算機自動識別發(fā)現(xiàn)。然而由于數(shù)據(jù)錄入人員的疏忽等原因造成的數(shù)值的非明顯錯誤,對于存有大量數(shù)據(jù)的數(shù)據(jù)集,管理者和使用者是難以發(fā)現(xiàn)的,至今國際上尚無明確的方法或技術(shù)能夠?qū)Σ牧蠑?shù)據(jù)庫中大量數(shù)據(jù)的準(zhǔn)確性進行逐一把關(guān)或驗證,而此類數(shù)據(jù)的存在,對今后的數(shù)據(jù)分析與挖掘的準(zhǔn)確性的影響不容忽視。
因此,數(shù)據(jù)規(guī)范的建設(shè),對于不同材料的數(shù)據(jù)的整合是關(guān)鍵而有效的,同時,數(shù)據(jù)生產(chǎn)者和收集人的知識水平和工作態(tài)度是數(shù)據(jù)庫質(zhì)量的保證。今后,數(shù)據(jù)采集的自動化操作,可能成為解決問題的手段之一,但由于目前實驗數(shù)據(jù)的完整采集,生產(chǎn)環(huán)節(jié)數(shù)據(jù)記錄的人工介入,以及計算的跨尺度需要等現(xiàn)狀或問題,可知數(shù)據(jù)采集的自動化過程尚需時日。
2.2 數(shù)據(jù)的完整性
數(shù)據(jù)的完整性指的是一條數(shù)據(jù)包含的信息的完整性。
材料基因工程的新材料設(shè)計、現(xiàn)有材料性能提升以及新工藝的優(yōu)化,對材料信息完整性的需求是不同的。如以選材和材料替代為目的的數(shù)據(jù)需求,材料的成分與性能數(shù)據(jù)是核心,數(shù)據(jù)來源的可靠性可以成為評價數(shù)據(jù)質(zhì)量的有效標(biāo)準(zhǔn)。而以發(fā)現(xiàn)新材料為目的的數(shù)據(jù)需求,則對材料數(shù)據(jù)的內(nèi)容的完整性提出了更高要求,僅僅有成分與性能數(shù)據(jù)是遠遠不夠的,需包括計算的邊界條件和初始條件、模型、算法等,實驗工藝及其詳細參數(shù),表征方法及設(shè)備的基本參數(shù)指標(biāo)等。我們基于國家材料科學(xué)數(shù)據(jù)共享網(wǎng)的建設(shè)經(jīng)驗與教訓(xùn),制定了?材料數(shù)據(jù)提交規(guī)范?(草案)[4],對計算數(shù)據(jù)、實驗數(shù)據(jù)和生產(chǎn)數(shù)據(jù)所應(yīng)包括的內(nèi)容提出了通用格式規(guī)范。
數(shù)據(jù)的完整性與數(shù)據(jù)的準(zhǔn)確性相輔相成,信息缺失的不完整數(shù)據(jù)在數(shù)據(jù)清洗中將被過濾掉。一條數(shù)據(jù),如果出現(xiàn)信息缺失,那么該條數(shù)據(jù)的質(zhì)量是不夠好的,如果關(guān)鍵內(nèi)容缺失,那么該數(shù)據(jù)的質(zhì)量將被視為不合格的。只有信息完整,對數(shù)據(jù)準(zhǔn)確性的評價,以及重復(fù)性驗證才有可能,正如在眾多領(lǐng)域的實驗研究中形成的共識,即實驗結(jié)果如果不能被重復(fù)出來,往往結(jié)果被質(zhì)疑,甚至被認(rèn)為是錯誤或無效的。
2.3 數(shù)據(jù)的數(shù)量與科學(xué)覆蓋面
大數(shù)據(jù)的概念在當(dāng)今時代已是耳熟能詳?shù)男g(shù)語了。對于材料數(shù)據(jù),其產(chǎn)生途徑難以形成測繪衛(wèi)星或正負(fù)離子對撞機產(chǎn)生數(shù)據(jù)的規(guī)模,在數(shù)據(jù)量上難以同高能物理等領(lǐng)域的數(shù)據(jù)量相提并論,但材料數(shù)據(jù)間關(guān)聯(lián)關(guān)系的復(fù)雜性是材料數(shù)據(jù)能夠被稱之為大數(shù)據(jù)的核心,同時MGI強調(diào)的高通量計算與高通量實驗的發(fā)展與應(yīng)用,將成為材料數(shù)據(jù)量快速增長的途徑之一。梅宏院士曾指出,真正的大數(shù)據(jù)應(yīng)該體現(xiàn)在多源數(shù)據(jù)的融合,絕不僅僅是數(shù)據(jù)的“海量”[5]。數(shù)據(jù)融合與數(shù)據(jù)倉庫(Data Warehouse)、數(shù)據(jù)一體化(Data Integration)不同。它的目的不是將一個企業(yè)(Enterprise)或組織的所有數(shù)據(jù)集中在一起并標(biāo)準(zhǔn)化而產(chǎn)生唯一的真相(Single Truth)。它是以產(chǎn)生決策智能為目標(biāo)將多種數(shù)據(jù)源中的相關(guān)數(shù)據(jù)提取、融合、梳理整合成一個分析數(shù)據(jù)集[6]。
除了數(shù)據(jù)量,材料數(shù)據(jù)的覆蓋面及其科學(xué)性和系統(tǒng)性是影響材料數(shù)據(jù)分析處理質(zhì)量但常常為人們忽略的因素。因為如果數(shù)據(jù)大量集中在某些方面,則會造成盲人摸象的現(xiàn)象,導(dǎo)致分析結(jié)果的偏差和應(yīng)用上的誤導(dǎo)。而數(shù)據(jù)的科學(xué)性和系統(tǒng)性,往往是領(lǐng)域?qū)<也拍芙o出的正確定義和范疇,單純的數(shù)據(jù)專家是難以勝任的,因此,在材料領(lǐng)域,同其他自然科學(xué)領(lǐng)域一樣,領(lǐng)域?qū)<遗c數(shù)據(jù)專家的緊密合作,是促進數(shù)據(jù)成為科學(xué)發(fā)現(xiàn)第四范式的基礎(chǔ)要素。
綜上,材料數(shù)據(jù)的質(zhì)量是數(shù)據(jù)應(yīng)用的基礎(chǔ)與根本保證,直接影響數(shù)據(jù)共享、知識應(yīng)用及價值提取,其關(guān)系如圖3所示。
圖3 數(shù)據(jù)質(zhì)量與數(shù)據(jù)存儲及數(shù)據(jù)挖掘質(zhì)量的關(guān)系Fig.3 Correlation among the data quality,data storage and quality of material data mining
數(shù)據(jù)分析與挖掘的質(zhì)量受材料數(shù)據(jù)質(zhì)量的影響,并直接影響數(shù)據(jù)的應(yīng)用(圖3)。例如基于計算數(shù)據(jù)的分析,眾所周知,計算往往是對真實環(huán)境進行了簡化或特定理想條件下獲得的,如果分析方法或模型選取不當(dāng),數(shù)據(jù)分析時勢必造成誤差的累積,導(dǎo)致數(shù)據(jù)分析的結(jié)果難以令人信服。因此,同計算結(jié)果需要實驗驗證的作用相同,材料數(shù)據(jù)分析挖掘結(jié)果的實驗驗證,是今后數(shù)據(jù)分析人員的工作重點之一。
3.1 數(shù)據(jù)分析挖掘與材料知識的融合
當(dāng)數(shù)據(jù)分析與挖掘方法應(yīng)用于材料科學(xué)領(lǐng)域時,只有基于材料科學(xué)的基礎(chǔ)知識、自身特點以及發(fā)展規(guī)律的數(shù)據(jù)分析與挖掘,才有可能得出有價值的結(jié)果。材料數(shù)據(jù)的分析早在20世紀(jì)就已經(jīng)應(yīng)用在不同材料研發(fā)上了,但數(shù)據(jù)量較小,多數(shù)來源于實驗室自產(chǎn)數(shù)據(jù)。
在大數(shù)據(jù)時代,材料數(shù)據(jù)量的絕對數(shù)值相對較小,但數(shù)據(jù)間的復(fù)雜關(guān)系的融入使得在分析和處理過程中需要更多的專業(yè)人員的介入,并將相應(yīng)的關(guān)系在分析模型和算法中體現(xiàn)出來[6]。在MGI高通量計算上,Gerbrand Cedar教授[7,8]帶領(lǐng)團隊構(gòu)建了Material project數(shù)據(jù)庫,用于電池材料設(shè)計,并取得了顯著成果,已發(fā)現(xiàn)幾種性能優(yōu)異的成分。Stefano Curtarolo等[9,10]構(gòu)建了Aflow數(shù)據(jù)庫,并以特征值(descriptor)作為篩選的依據(jù),目前,研究中所用的特征值基本是單一參數(shù),而基于多參數(shù)組合的特征值的數(shù)據(jù)分析將是今后研究的方向之一??绯叨扔嬎闶荕GI架構(gòu)下材料計算的研究方向之一,在材料制備過程中,單一工序的參數(shù)優(yōu)化難以獲得系統(tǒng)最終性能的最優(yōu),而數(shù)據(jù)分析與挖掘,是目前研究者正在嘗試的實現(xiàn)跨尺度計算和實驗過程的系統(tǒng)優(yōu)化的手段與技術(shù)。Agrawal A等[11]基于日本國家材料研究所(NIMS)的數(shù)據(jù)研究金屬材料的高溫疲勞性能,用成分和工藝的數(shù)據(jù),采用多項技術(shù)來預(yù)測鋼的疲勞性能,發(fā)現(xiàn)采用神經(jīng)網(wǎng)絡(luò)、決策樹以及多元多項式回歸等技術(shù)可以得到較為理想的預(yù)測精度。Singh S等[12]利用人工神經(jīng)網(wǎng)絡(luò)與貝葉斯算法等方法,實現(xiàn)了對鋼的工藝過程的參數(shù)優(yōu)化和成分對最終性能的作用規(guī)律的揭示。Jae Hoon Jeong等[13]采用降維和線性回歸技術(shù)確定了材料成分、中間階段性能和最終性能間的相關(guān)關(guān)系。
然而對數(shù)據(jù)含義的理解不足,或數(shù)據(jù)集選取不當(dāng),可能會導(dǎo)致不符合材料科學(xué)規(guī)律的結(jié)果出現(xiàn)。例如Agrawal A等[11]對不同影響因素的重要性分析時得到的一個結(jié)論是回火溫度的重要性高于固溶處理溫度,顯然這與材料知識相悖,分析其原因在于,回火溫度較固溶溫度的波動大,而作者選擇了幾種不同材料的數(shù)據(jù),回火處理可能是低溫、中溫或者高溫回火,回火溫度相差可達幾百度。
因此,作為材料數(shù)據(jù)的分析挖掘的第一步,依據(jù)材料基本知識對數(shù)據(jù)集進行初步認(rèn)識和預(yù)處理,是保證分析質(zhì)量的主要步驟。
3.2 離群點的分析
離群點是指在數(shù)值上遠離數(shù)值的一般水平的極端大值和極端小值,也稱為歧異值,由于離群值跳躍度比較大,會直接影響分析模型的擬合精度,因此常被認(rèn)為是壞的數(shù)據(jù)而在數(shù)據(jù)清洗中丟棄。然而,材料科學(xué)與工程的研究與應(yīng)用發(fā)展到今天的水平,從數(shù)據(jù)中尋找主流已經(jīng)難于滿足向國際一流水平前進的需求了,而在一些關(guān)鍵點上發(fā)現(xiàn)問題并形成突破往往是當(dāng)前的思路,如對最低值的分析,可以發(fā)現(xiàn)問題存在和影響規(guī)律、作用機理等。Paul Raccuglia等[14]從失敗的實驗數(shù)據(jù)中發(fā)現(xiàn)了規(guī)律,就充分證實了這一點。在材料學(xué)科中,關(guān)鍵點往往存在于一些離群點上,在微觀組織的圖像分析上尤為明顯,即在相界、晶界和界面等處,在數(shù)據(jù)分析中為簡化起見,如果直接用一條簡單曲線代替,使原有界面上的信息都丟失了[15]??梢姡x群點分析,在材料大數(shù)據(jù)的分析中顯得尤為重要,可能成為服務(wù)于材料優(yōu)化設(shè)計的有效手段。
MGI作為IT和互聯(lián)網(wǎng)技術(shù)發(fā)展下的新的材料研究方法論,具有典型交叉學(xué)科的發(fā)展特點。MGI對材料計算與實驗表征的融合提出了更高的要求,而兩者在新材料設(shè)計開發(fā)的時效性的需求下形成的高通量技術(shù),以及鋼鐵等材料生產(chǎn)中設(shè)備的數(shù)據(jù)自動采集功能,則將數(shù)據(jù)科學(xué)引入材料研究和生產(chǎn)中,引導(dǎo)材料研究人員以一種全新的方法來開展研究??梢姡琈GI要求計算、實驗與數(shù)據(jù)三者融合,對材料工作者的能力要求顯著提高,沿用原有的教育教學(xué)方案已經(jīng)不能滿足MGI實施的需求。因此應(yīng)從本科生教學(xué)入手,開展相關(guān)專業(yè)課程的建設(shè),尤其是數(shù)據(jù)及其分析處理的知識。因為相比材料計算和實驗,數(shù)據(jù)分析與挖掘是一個全新的課程,尤其對于材料制備加工,將材料成分、組織與復(fù)雜工藝相結(jié)合,研究變得很復(fù)雜,僅憑對單一參數(shù)的優(yōu)化,無法獲得最終性能與工藝的最優(yōu)方案,而基于數(shù)據(jù)的分析可以考慮多個參數(shù)的作用,形成一個全局性的解決思路。
在課程的設(shè)置上,加入數(shù)據(jù)分析與挖掘的內(nèi)容,不僅要考慮數(shù)據(jù)處理技術(shù),而且需要這些技術(shù)在材料或相關(guān)科學(xué)中應(yīng)用的示例,使之真正成為一門數(shù)據(jù)挖掘技術(shù)在材料科學(xué)中的應(yīng)用課程。同時因為數(shù)據(jù)分析與挖掘技術(shù)大量涉及計算機和數(shù)學(xué)等方面的知識,相應(yīng)地在這些基礎(chǔ)課程的學(xué)習(xí)過程中需要加大難度。
在授課教師的選拔和教師隊伍的建設(shè)上,需要一支具有交叉學(xué)科知識、勇于創(chuàng)新精神、肯于和善于不斷學(xué)習(xí)新知識新技術(shù)的人才隊伍。不同于金屬結(jié)構(gòu)材料計算中多尺度計算的跨層次的要求,也不同于功能材料的第一性原理計算結(jié)果的單一參數(shù)作為判據(jù)的篩選,材料數(shù)據(jù)的分析與挖掘作為一門相對獨立的方向時,由于數(shù)據(jù)的生產(chǎn)途徑和代表的含義不同,其研究內(nèi)容覆蓋了幾乎材料研究的所有內(nèi)容,即成分、工藝、組織、性能及服役等材料五要素間的復(fù)雜關(guān)系和交互影響。
因此,作為一個全新的材料研究方法論,材料基因工程的基礎(chǔ)教育開展的難度是不容忽視的,但其意義重大,關(guān)乎材料創(chuàng)新發(fā)展的步伐。抓住信息時代的機遇,培養(yǎng)能夠滿足時代需求的材料人才,是材料基因工程得以長期發(fā)展的關(guān)鍵基礎(chǔ)設(shè)施。
材料基因組計劃與大數(shù)據(jù)計劃在美國的相繼提出,催生了中國的材料基因工程熱,繼而出現(xiàn)材料數(shù)據(jù)熱,使材料數(shù)據(jù)的發(fā)展獲得了新生。然而,對于材料數(shù)據(jù)的理解和材料大數(shù)據(jù)的理解,仍處于初級階段,甚至對于數(shù)據(jù)的整合和數(shù)據(jù)庫的建設(shè),仍理解為一件很簡單的事,使得在材料數(shù)據(jù)庫的建設(shè)初期,就出現(xiàn)因材料專家對數(shù)據(jù)庫專家的過高且不現(xiàn)實的要求而導(dǎo)致工作進程推動緩慢的情況。因此,個人觀點認(rèn)為,對材料數(shù)據(jù)存在虛熱,需要等待降溫后留下的一批真正熱愛材料數(shù)據(jù)的人,將材料數(shù)據(jù)扎實而穩(wěn)步地開展下去。
材料數(shù)據(jù)的整合是數(shù)據(jù)挖掘的基礎(chǔ),而挖掘是數(shù)據(jù)儲備后的延伸工作。目前數(shù)據(jù)分析與挖掘技術(shù)在應(yīng)用于材料科學(xué)領(lǐng)域時,需要與材料理論知識以及現(xiàn)有發(fā)展成果相結(jié)合,在方法選擇和建模等步驟中都要將材料已有成果抽象化進行考慮。這就需要材料學(xué)科專業(yè)人員的大量介入和對數(shù)據(jù)分析處理的知識儲備。然而,由于目前基礎(chǔ)教育尚未跟進數(shù)據(jù)時代的發(fā)展,導(dǎo)致一個較為普遍的情況是材料與數(shù)據(jù)分析人員的需求無法對接,材料專業(yè)人員在數(shù)據(jù)分析上的知識匱乏導(dǎo)致雙方的協(xié)同難以盡快推進。
材料數(shù)據(jù)的發(fā)展不是孤立的。數(shù)據(jù)來源于材料計算模擬和實驗表征,本身被賦予了材料的含義及其與其他知識與數(shù)據(jù)的復(fù)雜關(guān)系,材料數(shù)據(jù)最終將成為材料知識的載體,成為新材料發(fā)現(xiàn)和發(fā)展的基礎(chǔ)和手段。以需求出發(fā)的材料知識的抽象化和數(shù)字化可能成為今后的發(fā)展趨勢之一。
依托于大量材料數(shù)據(jù)庫資源和不斷激增的數(shù)據(jù),對材料數(shù)據(jù)的研究和分析挖掘正在成為新的材料研發(fā)模式。包括數(shù)據(jù)準(zhǔn)確性和完整性的材料數(shù)據(jù)質(zhì)量,以及基于對材料知識充分理解的材料數(shù)據(jù)的分析挖掘的質(zhì)量,是決定材料數(shù)據(jù)作為研發(fā)新模式的發(fā)展進程的關(guān)鍵。材料數(shù)據(jù)分析挖掘要求材料知識與計算機和數(shù)學(xué)知識的高度融合,從本科生的基礎(chǔ)教育抓起,才能保證新的研發(fā)模式的充分應(yīng)用和可持續(xù)發(fā)展。
致 謝 本研究得到了國家科技部科技基礎(chǔ)條件平臺建設(shè)項目“材料科學(xué)數(shù)據(jù)共享網(wǎng)”(2005DKA32800)、國家高技術(shù)研究發(fā)展計劃(“863”計劃)“基于材料基因工程的高性能材料設(shè)計、制備與表征技術(shù)”(2015 AA034201)、國家重點研發(fā)計劃項目“材料基因工程專用數(shù)據(jù)庫和材料大數(shù)據(jù)技術(shù)”(2016YFB0700503),北京市科技計劃項目(D16110300240000)以及美國肯納金屬有限公司的支持。
References
[1] Hey T,Tansley S,Tolle K.The Fourth Paradigm:Data-Intensive Sci-entific Discovery[M].Washington:2009:109-130.
[2] The White House.[EB/OL].[2016-08-01].https:// www.whitehouse.gov/blog/2016/08/01/materials-genome-initiative-first-five-years.
[3] Austin T.Materials Discovery[J],2016(3):1-12.
[4] 材料科學(xué)數(shù)據(jù)共享網(wǎng)[EB/OL].(2016-07-01)[2017-01-10] http://matsec.ustb.edu.cn/uploadFiles/shujutijiao.pdf.
[5] Nosengo N.Nature[J],2016,533:22-26.
[6] Jain A,Persson K,Ceder G.APL Materials[J],2016,4(053102): 1-14.
[7] Jain A,Ong S P,Hautier G,et al.APL Materials[J],2013,1 (1):011002.
[8] Richards WD,Tsujimura T,Miara L J,et al.Nature Communications [J],2016,7:11009.
[9] Curtarolo S,Hart G L,Nardelli M B,et al.Nat Mater[J],2013(12): 191-201.
[10]Perim E,Lee D,Liu Y,et al.Nat Commun[J],2016,7:12315.
[11]Agrawal A,Deshpande P D,Cecen A,et al.Integrating Materials and Manufacturing Innovation[J],2014,3:8-26.
[12]Singh S,Bhadeshia H,MacKay D,et al.Ironmak Steelmak[J],1998 (25):355-365.
[13]Jeong J H,Ryu S K,Park S J,et al.Computational Materials Science [J],2015(100):21-30.
[14]Raccuglia P,Elbert K C,Adler P D F,et al.Nature[J],2016 (533):73-77.
[15]Rajan K.Informatics for Materials Science and Engineering[M]. Elsevier Inc.,2013:21-23.
(編輯 惠 瓊)
Role of Materials Data in Materials Innovation Development and Thoughts on the Existing Problems
YIN Haiqing1,JIANG Xue1,ZHANG Ruijie1,LIU Guoquan1,ZHENG Qingjun2,QU Xuanhui1,3
(1.Collaborative Innovation Center of Steel Technology,University of Science and Technology Beijing,Beijing 100083,China)
(2.Kennametal Inc.,Pennsylvania 15650,USA)
(3.Institute for Advanced Materials and Technology,University of Science and Technology Beijing,Beijing 100083,China)
The materials data is one ofthe three key tools in materials genome initiative(MGI),which has been attrac-ting great attention worldwide.Projects on large scale databases construction and data mining have been implemented in US,Japan and other countries.The accuracy and integrity ofthe materials data are the foundation ofdata analysis and min-ing and they willdirectly influence the quality ofdatabase construction and deep extraction of the data value.The main fea-tures of materials data are high dimensions of materials attributes and complex interactive relationships.It?s worth noting that the data mining should be associated with domain knowledge of materials and the typical requirement of materials on the outlier analysis.Education on materials data and related disciplines,especially the college education on math and IT technology,will be the basic guarantee for the data being as the paradigm of innovation.The problems to be settled con-cerning the long term development of materials data were discussed in this paper.
materials data;materials genome initiative;data quality;data mining;college education
N37
A
1674-3962(2017)06-0401-05
2016-12-08
科技部“863”計劃項目(2015AA034201);國家重點研發(fā)計劃項目(2016YFB0700503);北京市科技計劃項目(D16110300240000)
尹海清,女,1971年生,教授,博士生導(dǎo)師,Email: hqyin@ustb.edu.cn
10.7502/j.issn.1674-3962.2017.06.01