楊 麗,蘇 航,柴 鋒,羅小兵,段琳娜
(1. 鋼鐵研究總院工程用鋼研究所,北京 100081)(2. 北京鋼研新材科技有限公司,北京 100081)(3. Institute of Iron and Steel, RWTH Aachen University, Aachen 52072, Germany)
20世紀60年代IBM數(shù)據(jù)庫管理產(chǎn)品IMS技術(shù)的推出,為數(shù)據(jù)庫的發(fā)展奠定了基礎(chǔ)。隨后,各國先后開始建立材料數(shù)據(jù)庫,為材料標準、科研數(shù)據(jù)提供結(jié)構(gòu)化的儲存途徑以及信息查詢等功能。
2011年美國提出發(fā)展材料基因工程,即數(shù)據(jù)庫、高通量計算方法與高通量實驗方法三大要素,為加速材料的智能設(shè)計作技術(shù)支撐。材料數(shù)據(jù)庫的作用和地位隨之變得更加突出:一方面,材料數(shù)據(jù)庫可為高通量實驗以及高通量計算結(jié)果提供海量數(shù)據(jù)存儲空間;另一方面,材料數(shù)據(jù)庫為高通量計算提供參數(shù),或通過挖掘數(shù)據(jù)庫中的知識模型,指導材料設(shè)計。
數(shù)據(jù)挖掘是數(shù)據(jù)庫發(fā)現(xiàn)知識模型的重要方法,是一個通過從不完全的、有噪聲的、模糊的、隨機的大型數(shù)據(jù)庫中,發(fā)現(xiàn)隱含的、未知的、可能有用的并且最終能被理解的模式的重要過程。雖然早在20世紀初期基于數(shù)據(jù)挖掘的數(shù)學基礎(chǔ)就已基本成熟,但直到計算機的出現(xiàn)和計算能力的提升,大數(shù)據(jù)分析、數(shù)據(jù)挖掘等操作才變得更加切實可行。將數(shù)據(jù)挖掘方法應(yīng)用到材料數(shù)據(jù)庫的規(guī)律學習中,是指導新材料設(shè)計開發(fā)的一個重要手段。
本文針對國內(nèi)外材料數(shù)據(jù)庫和數(shù)據(jù)庫技術(shù)的發(fā)展應(yīng)用現(xiàn)狀進行了綜述,根據(jù)材料研發(fā)和理性設(shè)計新模式的發(fā)展需求,討論了構(gòu)建材料基因工程所需的材料數(shù)據(jù)庫和數(shù)據(jù)挖掘技術(shù)目前存在的問題和未來發(fā)展方向。
以歐美、日韓等為代表的發(fā)達和新興工業(yè)國家從20世紀七八十年代起,先后開始發(fā)展材料數(shù)據(jù)庫,目前都已擁有一定數(shù)量的材料數(shù)據(jù)庫,涵蓋了黑色金屬、有色金屬、高溫材料、復(fù)合材料、陶瓷材料、橡膠、核工業(yè)材料、功能材料等各種材料的成分、相圖、晶體結(jié)構(gòu)、性能參數(shù)等數(shù)據(jù)[1-3]。我國也從20世紀80年代開始由科研院所、企業(yè)自主建立了大量不同規(guī)模、分散獨立的材料數(shù)據(jù)庫,如鋼鐵研究總院的合金鋼數(shù)據(jù)庫、中國航發(fā)北京航空材料研究院的航空材料數(shù)據(jù)庫、北京有色金屬研究總院的有色金屬數(shù)據(jù)庫、清華大學的新材料數(shù)據(jù)庫、西北工業(yè)大學的復(fù)合材料數(shù)據(jù)庫、北京機電研究所的材料熱處理數(shù)據(jù)庫等上百個專業(yè)材料的數(shù)據(jù)庫[4]。
根據(jù)存儲數(shù)據(jù)種類的不同,材料數(shù)據(jù)庫主要分為:材料熱力學和相圖數(shù)據(jù)庫、晶體結(jié)構(gòu)數(shù)據(jù)庫(如無機晶體學數(shù)據(jù)庫(ICSD))、材料性能數(shù)據(jù)庫(標準或?qū)嶒?、工藝性能數(shù)據(jù)庫(如熱處理數(shù)據(jù)庫、金屬切削數(shù)據(jù)庫等)、特殊性能數(shù)據(jù)庫(如腐蝕數(shù)據(jù)庫和疲勞數(shù)據(jù)庫)、專用數(shù)據(jù)庫(如航空材料數(shù)據(jù)庫、汽車材料數(shù)據(jù)庫)等。根據(jù)存儲數(shù)據(jù)形式的不同,數(shù)據(jù)庫可分為數(shù)值型、文獻型和文獻/數(shù)值綜合型。根據(jù)存儲數(shù)據(jù)的服務(wù)模式,可分為離線型數(shù)據(jù)庫和在線型數(shù)據(jù)庫。由于早期建立的傳統(tǒng)材料數(shù)據(jù)庫主要是離線型,多服務(wù)于研究機構(gòu)或組織的數(shù)據(jù)存儲和研究,存在規(guī)模小、用戶局限性高、商業(yè)化程度不高等缺點,因而其更新和應(yīng)用受到人力、物力的限制,甚至部分數(shù)據(jù)庫逐漸銷聲匿跡。
隨著web網(wǎng)絡(luò)技術(shù)的普及和快速發(fā)展,國內(nèi)外較活躍的材料科學數(shù)據(jù)庫開始以在線方式管理和服務(wù),提高了材料數(shù)據(jù)庫的商業(yè)化程度,強化了對用戶的服務(wù)膜式。在線數(shù)據(jù)庫的主要優(yōu)勢是更易推廣和數(shù)據(jù)共享,通過將數(shù)據(jù)庫商品化為外部機構(gòu)提供有償服務(wù),間接推動了數(shù)據(jù)庫的應(yīng)用和全面快速發(fā)展。目前,國際知名的商業(yè)化材料在線數(shù)據(jù)庫有美國的MatWeb和ASM International、瑞士的Total Materia、日本的NIMS、德國的Key to Steel等,詳情如表1所示[5]。
表1 國際知名在線材料科學數(shù)據(jù)庫[5]
我國材料數(shù)據(jù)庫的商業(yè)化發(fā)展也隨著移動互聯(lián)網(wǎng)的興起得到極大提速。以鋼研·新材道、材易通、歐冶知鋼為代表的一批在線數(shù)據(jù)庫服務(wù)平臺先后出現(xiàn)。其中鋼研·新材道的“全球鋼材高端云服務(wù)”是依托于鋼鐵研究總院國內(nèi)頂尖研發(fā)團隊和65年的技術(shù)積淀建立起來的材料大數(shù)據(jù)和云服務(wù)平臺,其Atsteel在線材料數(shù)據(jù)庫包含上千個國內(nèi)外標準、上萬個牌號的材料性能數(shù)據(jù),以材料大數(shù)據(jù)和定制研發(fā)為核心理念,致力于技術(shù)市場化的“互聯(lián)網(wǎng)+”之路,為中高端材料用戶提供研、產(chǎn)、檢、造、用的全產(chǎn)業(yè)鏈服務(wù)。成都材智科技有限公司建立的MatAI材料智能設(shè)計平臺具有能夠根據(jù)用戶需求提供數(shù)據(jù)管理和新材料設(shè)計優(yōu)化等新功能。
傳統(tǒng)材料數(shù)據(jù)庫的主要功能是數(shù)據(jù)存儲和數(shù)據(jù)管理,同時還提供數(shù)據(jù)檢索服務(wù),方便用戶快速獲取感興趣的數(shù)據(jù)信息。例如日本的NIMS數(shù)據(jù)庫就專門配套建立了MatNavi檢索系統(tǒng),使用戶可以根據(jù)關(guān)鍵字/數(shù)值、樹形節(jié)點對數(shù)據(jù)庫的相關(guān)內(nèi)容進行檢索。美國MatWeb數(shù)據(jù)庫也提供了基于數(shù)值、關(guān)鍵內(nèi)容、類別的檢索方法。我國鋼研·新材道的Atsteel在線材料數(shù)據(jù)庫增強了數(shù)據(jù)庫的檢索功能,除了以關(guān)鍵字、材料牌號檢索的方式外,還提供成分、性能的區(qū)間范圍值及其他多參數(shù)組合的高級檢索功能,滿足用戶的各種檢索需求。
美國提出的材料基因工程理念,形成了材料數(shù)據(jù)庫的新發(fā)展方向。目前,歐美國家建立材料基因工程數(shù)據(jù)庫,除了發(fā)展新學科的獨立材料數(shù)據(jù)庫外,更希望搭建一個包含各種硬件、軟件和專用數(shù)據(jù)傳輸標準的數(shù)據(jù)共享平臺,如美國正在建設(shè)的Globus數(shù)據(jù)庫平臺[6]。通過特殊的信息工程技術(shù),保證大數(shù)據(jù)易存儲和搜尋等功能,既可將各地分散的傳統(tǒng)材料數(shù)據(jù)庫連入整個材料基因數(shù)據(jù)庫共享平臺,又可鼓勵科研人員上傳、發(fā)布新的科學成果,共享數(shù)據(jù)集;通過合理的材料數(shù)據(jù)庫傳輸標準設(shè)計,滿足各學科的數(shù)據(jù)存儲需求和應(yīng)用;而且通過數(shù)據(jù)庫平臺的軟件集成進行在線計算,實現(xiàn)數(shù)據(jù)自動收集和數(shù)據(jù)挖掘,如Material Project平臺。
促進材料基因工程數(shù)據(jù)庫建設(shè)和發(fā)展的關(guān)鍵是數(shù)據(jù)共享。美國在數(shù)據(jù)共享方面采取了很多措施,21世紀初期為了促進“人類基因組”項目數(shù)據(jù)庫的建立,鼓勵科學家快速分享DNA數(shù)據(jù),提倡在24 h內(nèi)上傳到公共GenBank數(shù)據(jù)庫中[7]。隨著材料基因工程理念的提出,美國科學技術(shù)政策局(OSTP)和美國國際開發(fā)署(USAID)于2013年和2016年先后出臺了“公共訪問計劃”,要求由OSTP和USAID等資助的科學研究數(shù)據(jù)需要在一定時間內(nèi)公開,使公眾、企業(yè)和其他科學人員能夠獲取[8]。美國國家科學基金委(NSF)也推出了“宣傳和共享研究結(jié)果”的政策,鼓勵科學人員能夠共享在NSF資助的工作過程中創(chuàng)建或收集的主要數(shù)據(jù)、樣本、實物和其他材料[9]。我國的科學數(shù)據(jù)共享工程自2001年底啟動了氣象科學數(shù)據(jù)共享試點以來,已在24個部門開展了相應(yīng)的科學數(shù)據(jù)共享工作。整體而言,目前國內(nèi)外的數(shù)據(jù)共享工作,主要是先通過科研聯(lián)盟進行再不斷擴散,并建立數(shù)據(jù)貢獻積分制度顯示不同科研用戶的數(shù)據(jù)貢獻率,從而間接反映其在相關(guān)領(lǐng)域的成果和影響力。
為了保護共享數(shù)據(jù)的權(quán)利和所屬,目前國內(nèi)外的共享數(shù)據(jù)庫平臺借鑒期刊論文模式,為每個上傳的科學數(shù)據(jù)(集)注冊唯一的DOI標識符,促進數(shù)據(jù)的保存、參考和引用[10]。美國材料數(shù)據(jù)平臺(MDF)建立的可以發(fā)布數(shù)據(jù)以及查詢數(shù)據(jù)的共享數(shù)據(jù)庫平臺Globus,就是基于DOI對數(shù)據(jù)進行標識。通過該平臺,可以搜索MDF連接的各種數(shù)據(jù)庫/數(shù)據(jù)集里面保存的所有計算和實驗數(shù)據(jù),包括NanoMine、PPPDB、Khazana Polymers、Khazana VASP、JANAF、SLUCHI(VASP)、Crystallography Open Database、Classical Interatomic Potentials、XAFS Data Library、OQMD等十幾個數(shù)據(jù)庫。我國也積極推動共享數(shù)據(jù)庫、在線數(shù)據(jù)庫的發(fā)展,搭建了“材料科學數(shù)據(jù)共享網(wǎng)”平臺,集合了分布在全國各地的30余家科研單位的海量數(shù)據(jù)資源,包括黑色金屬、有色金屬、復(fù)合金屬、有機高分子、無機非金屬等各類材料科學數(shù)據(jù),為國家基礎(chǔ)條件建設(shè)提供了雄厚的材料科學數(shù)據(jù)資源共享服務(wù)與應(yīng)用支撐[11]。該平臺目前也是通過提供標準的數(shù)據(jù)DOI注冊系統(tǒng)以及數(shù)據(jù)采集標準,保證上傳數(shù)據(jù)的標識性和結(jié)構(gòu)化。近年來,隨著區(qū)塊鏈技術(shù)的不斷成熟和發(fā)展,已有一些將區(qū)塊鏈技術(shù)引入到材料數(shù)據(jù)庫中的設(shè)想,實現(xiàn)對數(shù)據(jù)來源的標記,進行數(shù)據(jù)的版權(quán)保護,激發(fā)大家共享數(shù)據(jù)的熱情。
高質(zhì)量的共享材料數(shù)據(jù)對于材料基因工程具有重要的意義,不僅可以作為模擬計算的輸入?yún)?shù),也可以作為知識發(fā)現(xiàn)的樣本數(shù)據(jù),還可以為發(fā)現(xiàn)新的理論和技術(shù)提供線索。因此,數(shù)據(jù)的可信度是構(gòu)建材料數(shù)據(jù)庫時需要關(guān)注的一個重要問題。目前的主要解決方法是:一方面通過領(lǐng)域?qū)<一驍?shù)據(jù)庫專員進行數(shù)據(jù)審核,并提供領(lǐng)域?qū)<艺J證碼,保證數(shù)據(jù)的可信度;另一方面建立完整規(guī)范的統(tǒng)計數(shù)據(jù)質(zhì)量控制體系,通過進行相似數(shù)據(jù)的對比,判斷數(shù)據(jù)的可信度或進行數(shù)據(jù)補充和修復(fù)[12]。
除了數(shù)據(jù)共享、存儲和查詢外,材料基因工程的數(shù)據(jù)庫還需要加強對分散的、已建立的數(shù)據(jù)庫進行整合、利用,通過軟件集成實現(xiàn)數(shù)據(jù)自動收集功能,為大數(shù)據(jù)的學習和數(shù)據(jù)挖掘提供數(shù)據(jù),指導新材料的研發(fā)。因此,材料基因工程的材料數(shù)據(jù)庫開始發(fā)展如數(shù)據(jù)庫匹配、數(shù)據(jù)自動收集、在線可視化、在線集成計算、在線分析等新功能。
2.3.1 數(shù)據(jù)庫的匹配功能
數(shù)據(jù)庫的自動匹配技術(shù)是將人工智能技術(shù)、模式識別等數(shù)據(jù)挖掘方法應(yīng)用到材料數(shù)據(jù)庫中,建立數(shù)據(jù)庫之間的數(shù)據(jù)關(guān)聯(lián)性,是數(shù)據(jù)挖掘技術(shù)在材料數(shù)據(jù)庫中的一個成功應(yīng)用。在數(shù)據(jù)庫“云”概念的基礎(chǔ)上,通過數(shù)據(jù)庫的自動匹配算法可以實現(xiàn)“云”中的分布式數(shù)據(jù)庫、異構(gòu)數(shù)據(jù)庫或多類型文件之間的連接,如圖1所示[13]。
圖1 數(shù)據(jù)庫匹配技術(shù)流程圖[13]Fig.1 Flow chart of data matching procedure[13]
數(shù)據(jù)庫自動匹配功能的主要優(yōu)勢是可以解決不同材料數(shù)據(jù)庫之間存在的數(shù)據(jù)結(jié)構(gòu)差異性、各國材料標準牌號和命名方式的不一致性、數(shù)據(jù)上傳文件格式的多樣性以及單一數(shù)據(jù)庫中的信息不完整性等問題。在材料數(shù)據(jù)庫中使用數(shù)據(jù)自動匹配技術(shù),可以實現(xiàn)“小數(shù)據(jù)”到整個數(shù)據(jù)庫系統(tǒng)的關(guān)聯(lián),獲取相近材料的完整性能數(shù)據(jù),是“小數(shù)據(jù)”換“大數(shù)據(jù)”的共享過程,也是實現(xiàn)分散數(shù)據(jù)庫之間關(guān)聯(lián)的一個重要方法。
德國的Key to Steel以及Matmatch等部分商業(yè)化在線數(shù)據(jù)庫具有一定的多國牌號對照匹配查詢以及數(shù)據(jù)庫中相似材料的查詢功能,但應(yīng)用范圍比較窄,僅適用于國內(nèi)外產(chǎn)品牌號數(shù)據(jù)信息的對比。而我國的Atsteel數(shù)據(jù)庫配套開發(fā)了多國鋼鐵材料牌號的自動匹配技術(shù)和功能,既可以實現(xiàn)各國相似材料牌號之間的關(guān)聯(lián)匹配,還可以實現(xiàn)標準數(shù)據(jù)庫、實驗數(shù)據(jù)庫、私有數(shù)據(jù)庫等不同數(shù)據(jù)庫之間的關(guān)聯(lián)查詢。目前該項數(shù)據(jù)匹配技術(shù)已經(jīng)推廣到鋼鐵材料的焊材匹配應(yīng)用中,可以為焊接母材與焊材的匹配提供合適的材料選擇方案。以460 MPa強度級別的系列鋼材為例,基于北京鋼研新材科技有限公司的鋼鐵數(shù)據(jù)庫和焊接數(shù)據(jù)庫,利用數(shù)據(jù)匹配技術(shù)進行了母材和焊材的匹配設(shè)計,如表2所示??梢娡ㄟ^數(shù)據(jù)匹配技術(shù)為母材設(shè)計匹配的焊材,基本與《焊材手冊》推薦的相同強度級別的材料相吻合。其中,由于新的焊材數(shù)據(jù)庫包含了最新的焊材牌號,因而數(shù)據(jù)匹配算法給出的很多結(jié)果是一些新的焊材牌號。目前國外還沒有見到有任何關(guān)于母材-焊材匹配計算的相關(guān)報道,而且國外的焊材數(shù)據(jù)庫也較少,大多為焊接工藝數(shù)據(jù)庫。
表2 基于數(shù)據(jù)匹配的母材-焊材匹配計算結(jié)果
瑞士Total Materia數(shù)據(jù)庫開發(fā)的SmartComp材料智能判斷功能相當于一種匹配檢索功能,主要是通過對來自光譜儀或其他分析來源獲得的金屬化學成分進行智能識別,獲得對應(yīng)的材料金屬牌號,為材料的智能識別和數(shù)據(jù)庫自動分辨數(shù)據(jù)提供了新思路和方向。
2.3.2 數(shù)據(jù)庫的數(shù)據(jù)收集和輸出功能
數(shù)據(jù)的收集功能決定了數(shù)據(jù)庫的發(fā)展規(guī)模和活力。建立數(shù)據(jù)的自動收集和輸出功能,實現(xiàn)數(shù)據(jù)庫與高通量實驗、高通量計算的連接,是材料基因工程數(shù)據(jù)庫發(fā)展的另一個重要方向。
互聯(lián)網(wǎng)、云數(shù)據(jù)技術(shù)的發(fā)展在一定程度上為數(shù)據(jù)的收集、積累提供了支撐。共享數(shù)據(jù)庫通過提供數(shù)據(jù)自主上傳的接口,可實現(xiàn)用戶自服務(wù)的數(shù)據(jù)收集上傳功能。國家材料環(huán)境腐蝕平臺建立了“腐蝕大數(shù)據(jù)”和環(huán)境數(shù)據(jù)的大通量高密度采集、無線傳輸及入庫的功能,可實現(xiàn)數(shù)據(jù)庫數(shù)據(jù)的自動積累。目前國內(nèi)外團隊開始研究新型軟件,可自動通過閱讀材料科學實驗論文獲取晶體結(jié)構(gòu)等相關(guān)信息,為數(shù)據(jù)的自動收集提供了便利[14]。但是如何通過論文信息的數(shù)字化識別全面獲取數(shù)據(jù)、數(shù)據(jù)來源及實驗條件,也是需要考慮的一個重要問題。
面對用戶對數(shù)據(jù)庫的輸出需求,目前一些在線數(shù)據(jù)庫可根據(jù)用戶權(quán)限有針對性地為用戶進行數(shù)據(jù)分析、建模計算從而提供相關(guān)數(shù)據(jù)及格式的輸出功能。MatWeb數(shù)據(jù)庫就為用戶提供以CSV、Excel等格式輸出數(shù)據(jù)庫中數(shù)據(jù)的服務(wù),方便用戶線下對數(shù)據(jù)進行對比分析。此外,還提供輸出包含材料參數(shù)的通用計算軟件專用格式文件,可直接應(yīng)用于Solidworks、ANSYS、COMSOL等軟件的結(jié)構(gòu)材料計算建模中。
2.3.3 數(shù)據(jù)庫的在線集成計算和分析功能
材料基因工程數(shù)據(jù)庫的另一個重要發(fā)展方向是能夠在數(shù)據(jù)庫的基礎(chǔ)上實現(xiàn)在線分析、軟件集成計算以及數(shù)據(jù)結(jié)果自動存儲等功能。
通過在線集成第一性原理、熱動力學等成熟的材料計算軟件或程序進行計算,能夠為數(shù)據(jù)庫補充大量的材料結(jié)構(gòu)、性能、相變等特征參量,而計算獲得的數(shù)據(jù)同樣能夠用于數(shù)據(jù)挖掘和指導新材料的開發(fā)。在材料基因工程計劃中,美國能源部(DOE)牽頭伯克利實驗室負責建立的Material Project就是一個數(shù)據(jù)庫集成平臺,其包含了600 000多種材料和數(shù)據(jù),提供了第一性原理的材料計算平臺,允許用戶對計算數(shù)據(jù)進行共享,目前已有超過20 000名用戶利用該平臺進行新材料設(shè)計和優(yōu)化。杜克大學創(chuàng)建的AFLOWlib數(shù)據(jù)庫,利用AFLOW材料高通量計算算法,通過在線集成VASP、ESPRESSO等軟件,實現(xiàn)了對已知材料電子分布、晶體結(jié)構(gòu)、能量計算以及新型材料結(jié)構(gòu)的自動預(yù)測,并可自動存儲計算結(jié)果到數(shù)據(jù)庫體系中,通過高通量計算不斷擴充數(shù)據(jù)庫的數(shù)據(jù)量[15]。目前該數(shù)據(jù)庫已有106數(shù)量級的不同材料,其中有超過108數(shù)量級的材料性能數(shù)據(jù)是通過計算獲得的。美國西北大學推出的開放量子材料數(shù)據(jù)庫(OQMD)、中國的MatCloud高通量材料集成設(shè)計平臺也具有相似的工作機制,通過調(diào)用VASP或CASTEP等第一性原理軟件在超級計算機上進行大批量計算,再將相應(yīng)的計算結(jié)果保存到數(shù)據(jù)庫中,最終通過大數(shù)據(jù)分析來指導新材料設(shè)計[16]。日本NIMS開發(fā)的COMPOThermo在線計算軟件,通過集成界面熱導率數(shù)據(jù)庫,可制定特殊熱性能要求的復(fù)合材料。目前材料數(shù)據(jù)庫集成第一性原理計算軟件主要在功能材料的設(shè)計領(lǐng)域獲得了較多成功的應(yīng)用,同時在復(fù)雜的結(jié)構(gòu)材料設(shè)計方面也有一定的應(yīng)用。
此外,材料數(shù)據(jù)庫也開始考慮數(shù)據(jù)的在線可視化、在線分析等功能。成都材智科技有限公司建立的MatAI材料數(shù)據(jù)管理平臺可根據(jù)需求建立集成基礎(chǔ)的數(shù)據(jù)對比分析、數(shù)據(jù)統(tǒng)計和可視化工具的材料數(shù)據(jù)庫,以便在線進行散點圖的分析、曲線的對比和統(tǒng)計的可視化。目前,一些數(shù)據(jù)庫還可通過對熱力學計算軟件的集成連接,利用獲得的材料熱力學數(shù)據(jù),配合數(shù)據(jù)庫中其他數(shù)據(jù)共同進行數(shù)據(jù)挖掘和分析[17]。
數(shù)據(jù)挖掘基本流程為:確定目標→數(shù)據(jù)庫取樣→數(shù)據(jù)預(yù)處理→數(shù)據(jù)挖掘建模→知識獲取和解析→應(yīng)用,如圖2所示[18]。將清洗預(yù)處理后的樣本數(shù)據(jù)分為3類:訓練型數(shù)據(jù)、驗證型數(shù)據(jù)和測試型數(shù)據(jù),再用于模型學習、驗證和測試。
圖2 數(shù)據(jù)挖掘的基本流程[18]Fig.2 Flow chart for data mining procedure[18]
一個完整的數(shù)據(jù)挖掘算法通常是由模型結(jié)構(gòu)、評分函數(shù)、搜索方法、數(shù)據(jù)管理技術(shù)幾個基本模塊組合構(gòu)成[19]。例如一個反向傳播神經(jīng)網(wǎng)絡(luò)(BP-ANN)數(shù)據(jù)挖掘算法通常是由神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)、誤差平方函數(shù)、參數(shù)梯度下降尋優(yōu)等模塊構(gòu)成。組合不同的模型結(jié)構(gòu)、評分函數(shù)、搜索方法等可以生成數(shù)量龐大的挖掘算法。此外,降維方法也被應(yīng)用到數(shù)據(jù)處理中,如主成分分析(PCA)法就常被用于微觀組織形貌等的降維處理,使得微觀組織能夠作為輸入變量參與數(shù)據(jù)挖掘?qū)W習,從而通過回歸、神經(jīng)網(wǎng)絡(luò)或其他模型方法最終建立工藝-微觀結(jié)構(gòu)-性能關(guān)系[20]。
數(shù)據(jù)挖掘的方法根據(jù)任務(wù)目的可分為預(yù)測性和描述性方法,根據(jù)學習方式可分為監(jiān)督學習和無監(jiān)督學習方法。在材料科學領(lǐng)域,目前常用的數(shù)據(jù)挖掘算法主要有:回歸、分類、聚類、智能優(yōu)化,如圖3所示[21]。其中,神經(jīng)網(wǎng)絡(luò)和支持向量機是機器學習的兩大主要流派,既可用于回歸又可用于分類和優(yōu)化。
圖3 材料科學中常用的數(shù)據(jù)挖掘算法[21]Fig.3 The data mining algorithms used in material science[21]
神經(jīng)網(wǎng)絡(luò)最初起源于1957年Rosenblatt發(fā)明的單層感知機,隨著非線性問題需求的增加,多層神經(jīng)網(wǎng)絡(luò)不斷發(fā)展。神經(jīng)網(wǎng)絡(luò)基本原理是利用權(quán)重連接輸入層、隱藏層、輸出層之間的組合神經(jīng)單元,并不斷訓練連接的權(quán)值直至計算結(jié)果足夠逼近預(yù)期值,從而解決復(fù)雜的計算問題。隨著多層神經(jīng)網(wǎng)絡(luò)的發(fā)展應(yīng)用,深度學習的概念被提出,卷積神經(jīng)網(wǎng)絡(luò)、解積神經(jīng)網(wǎng)絡(luò)等更復(fù)雜的神經(jīng)網(wǎng)絡(luò)算法也隨之出現(xiàn),如圖4所示[22]。
圖4 不同類型的多層神經(jīng)網(wǎng)絡(luò)[22]Fig.4 Various multi-layers neural networks[22]
支持向量機(SVM)是由Cortes和Vapnik等于1995年首先提出的,屬于二分類模型算法,其基本原理是通過線或者超平面實現(xiàn)樣本集在二維或三維空間里面的間隔最大化[23]。相較于其他分類統(tǒng)計算法對大樣本數(shù)據(jù)量的要求和難以解決復(fù)雜的高維度問題,SVM在解決小樣本、非線性及高維度的數(shù)據(jù)模式識別時也能獲得較好的結(jié)果,表現(xiàn)出了許多特有的優(yōu)勢,并能夠被推廣應(yīng)用到函數(shù)擬合等其他機器學習問題中。
隨著大數(shù)據(jù)的發(fā)展和計算機軟硬件實力的提高,90年代末期數(shù)據(jù)挖掘方法就已經(jīng)開始被大量應(yīng)用到材料科學研究及生產(chǎn)控制過程中,如材料性能預(yù)測和優(yōu)化、新材料設(shè)計開發(fā)、生產(chǎn)過程的監(jiān)控等方面。
3.2.1 材料性能預(yù)測和優(yōu)化
數(shù)據(jù)挖掘在材料性能預(yù)測和優(yōu)化方面的應(yīng)用最為廣泛。其中多層神經(jīng)網(wǎng)絡(luò)算法是使用較多的一種數(shù)據(jù)挖掘算法,常配合不同的優(yōu)化算法進行解的快速搜索,如非線性最小二乘法、批梯度下降算法、沖量批梯度下降法、遺傳算法等。常規(guī)性能預(yù)測算法基本思路是:假定已知某材料的一組性能指標P與X個因子之間的相關(guān)性,利用數(shù)據(jù)庫中n個樣本的實驗數(shù)據(jù)集,設(shè)置各因子的可變范圍以及約束條件,通過數(shù)據(jù)挖掘的方法,建立P與X之間的線性或非線性關(guān)系,并據(jù)此指導材料的單一或多目標優(yōu)化。目前,數(shù)據(jù)挖掘在材料的強度[24]、沖擊韌性[25]、淬透性[26]、疲勞和蠕變[27]等相關(guān)性能預(yù)測方面已有大量的應(yīng)用。
基于熱軋鋼板的成分、熱軋工藝(溫度、變形、道次)等實際數(shù)據(jù),Yang等[28]通過3層前饋神經(jīng)網(wǎng)絡(luò)模型,結(jié)合貝葉斯對權(quán)值進行優(yōu)化訓練的方法,獲得了誤差較小的拉伸強度預(yù)測結(jié)果。Powar等[29]通過11-5-7的3層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),建立了包含30CrMoNiV5-11的元素成分、奧氏體化溫度和時間、冷卻時間t8/5等的輸入層,與由屈服強度、抗拉強度、伸長率以及珠光體、貝氏體和殘余奧氏體的體積分數(shù)等構(gòu)成的輸出層之間的關(guān)系模型,且相關(guān)性系數(shù)R大于90%。針對相變誘導塑性(TRIP)鋼,Bhattacharyya等[30]利用11-15-1的3層神經(jīng)網(wǎng)絡(luò)模型,采用雙曲正切函數(shù)作為傳遞函數(shù),獲得了包含C,Si,Mn,P,Al,Nb,Cr的質(zhì)量分數(shù)、臨界區(qū)退火溫度和時間、貝氏體等溫轉(zhuǎn)變溫度和時間的11個輸入層節(jié)點到殘余奧氏體含量的預(yù)測模型。Liu等[31, 32]利用前饋神經(jīng)網(wǎng)絡(luò)模型對Nb-Si基高溫合金的微觀組織與性能之間的關(guān)聯(lián)關(guān)系進行了挖掘?qū)W習,建立了基于Nb5Si3的體積分數(shù)、形貌、尺度等微觀組織變量對抗拉強度、斷裂韌性等實現(xiàn)預(yù)測的模型。
遺傳算法-神經(jīng)網(wǎng)絡(luò)(GA-ANN)結(jié)合算法被應(yīng)用到了某FeCrNiMn奧氏體不銹鋼體積模量的預(yù)測中,且該預(yù)測結(jié)果與基于密度泛函理論(DFT)的第一性原理的計算結(jié)果非常接近,證明了GA-ANN算法預(yù)測的精準性[33]。此外,在已獲得的第一性原理計算結(jié)果數(shù)據(jù)基礎(chǔ)上利用隨機森林等方法構(gòu)建數(shù)據(jù)挖掘模型,獲取知識模型和重要的影響因素后,即可代替第一性原理計算直接預(yù)測Ni基、Co基高溫合金摻雜元素的置換能和幾何結(jié)構(gòu),間接節(jié)約了材料性能計算和設(shè)計的時間[34]??梢姡瑪?shù)據(jù)挖掘為第一性原理計算的加速提供了另一種思路和方向。
3.2.2 材料特征曲線擬合
數(shù)據(jù)挖掘算法在材料特征曲線的擬合方面也有著廣泛的應(yīng)用。Haque等[27]利用神經(jīng)網(wǎng)絡(luò),對獲得的大量實驗數(shù)據(jù)進行擬合,建立了不同馬氏體含量的系列雙相鋼的腐蝕疲勞裂紋擴展速率da/dN與應(yīng)力強度因子變化量ΔK的關(guān)系模型,實現(xiàn)了其在雙相鋼腐蝕疲勞裂紋擴展速率預(yù)測中的應(yīng)用。
在熱塑性變形方面,通過對材料流變應(yīng)力應(yīng)變實驗數(shù)據(jù)的學習,針對不同材料成分,可擬合和預(yù)測應(yīng)變速率和溫度條件下對應(yīng)的高溫熱壓縮時的流變應(yīng)力應(yīng)變曲線和本構(gòu)方程,以及動態(tài)再結(jié)晶的體積分數(shù)和晶粒尺寸,從而為后期鍛造過程的多場耦合建模、應(yīng)力應(yīng)變計算和組織預(yù)測模擬提供精準的材料本構(gòu)方程[35]。然而,利用數(shù)據(jù)挖掘的模型分析成分對流變應(yīng)力的影響還有待進一步深入的研究。
在焊接方面,數(shù)據(jù)挖掘算法除了被應(yīng)用到材料焊接后的性能預(yù)測(如熱影響區(qū)的硬度[36]),還被應(yīng)用到了焊接熱源形狀參數(shù)的擬合預(yù)測中。例如通過對實際鎢極惰性氣體保護焊接(GTAW)過程中獲得的不同焊接條件(如電流、焊接速度)下雙橢圓體熱源尺寸數(shù)據(jù)集進行數(shù)據(jù)挖掘,可較好地擬合出焊接熱源形狀參數(shù)變化情況,并預(yù)測未知焊接條件下的形狀結(jié)果[37]。通過擬合預(yù)測熱源模型,能夠為焊接過程的有限元模擬提供精準的熱源輸入模型,保證了更準確的溫度場計算結(jié)果。
3.2.3 質(zhì)量預(yù)測及生產(chǎn)監(jiān)控
基于風險最低原則,常采用支持向量機、決策樹、神經(jīng)網(wǎng)絡(luò)等分類算法對材料生產(chǎn)過程參數(shù)進行在線異常監(jiān)控以及質(zhì)量預(yù)測。
在鋼生產(chǎn)過程中的表面質(zhì)量分類和缺陷在線預(yù)測控制方面,數(shù)據(jù)挖掘算法已經(jīng)獲得了較多的實際應(yīng)用,基本上能保證預(yù)測和監(jiān)控精準度在90%以上[38]。其基本監(jiān)控流程是:通過在線缺陷圖像信息采集,獲取缺陷圖片的幾何特征(如長度、正方度、面積等)、圖片的灰度數(shù)據(jù)、織構(gòu)特征信息(能量、粗糙度、對比度、方向等)等表征參數(shù),再利用數(shù)據(jù)挖掘中的分類算法和優(yōu)化算法組合建模,快速實現(xiàn)缺陷的鑒定、識別和分類[39]。
分類算法還被廣泛應(yīng)用到焊接質(zhì)量預(yù)測控制等相關(guān)方面。通過決策樹分類模型,根據(jù)焊接過程中的電流和電壓信號可以實現(xiàn)對焊接效果(有氣孔、完好、過燒)的評價,對焊接效果等級進行分類和在線監(jiān)控[40];結(jié)合聚類和神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法,可基于數(shù)據(jù)庫中焊接缺陷分類結(jié)果,判斷影響焊接穩(wěn)定性的因素[41];利用支持向量機可對焊接的高熱輸入風險進行在線評估和預(yù)測[42]。
此外,對材料服役過程的缺陷診斷,也能夠使用分類算法。決策樹和支持向量機等就被應(yīng)用到對滾動軸承缺陷的分類和診斷工作中,通過前期數(shù)據(jù)的學習和模型建立,使得根據(jù)軸承的震動信號就可自動實現(xiàn)對缺陷狀況的診斷[43]。
3.2.4 微觀組織的識別和分類
與指紋識別功能類似,數(shù)據(jù)挖掘方法也開始被應(yīng)用到對材料微觀組織照片的識別和分類中,使得組織信息能夠數(shù)字化,為高通量實驗或數(shù)據(jù)庫的非結(jié)構(gòu)化文件的分類和關(guān)聯(lián)提供了新的思路和方向。
Decost等[44]利用支持向量機算法實現(xiàn)了對黃銅、球墨鑄鐵、灰口鑄鐵、亞共析鋼、高溫合金、退火孿晶等不同系列微觀組織照片的識別和分類,以便對存放有大量材料組織照片的數(shù)據(jù)庫進行分類管理。此外,Gola等[45]利用支持向量機算法也實現(xiàn)了對金相組織照片和透射電鏡照片中出現(xiàn)的馬氏體、貝氏體和珠光體的基體組織進行分類。
此外,數(shù)據(jù)挖掘方法以及PCA等降維方法也開始被應(yīng)用到了三維場離子顯微鏡分析中,以獲得更精準的數(shù)據(jù)結(jié)果[46]。PCA主要是通過對數(shù)據(jù)進行特征值分析,確定出需要保留的主成分個數(shù),舍棄其他數(shù)據(jù)冗余和噪聲,從而實現(xiàn)數(shù)據(jù)的降維。PCA是目前圖像處理較為常用的降維方法。
數(shù)據(jù)挖掘過程不需要考慮參數(shù)之間復(fù)雜的物理和化學意義,就可以直接從材料數(shù)據(jù)庫中挖掘出有價值的知識或模式,它能夠充分發(fā)揮材料數(shù)據(jù)庫甚至小數(shù)據(jù)量在材料設(shè)計中的作用。在材料基因工程項目的推動下,數(shù)據(jù)挖掘在材料設(shè)計中的應(yīng)用不斷被深入和拓展。
根據(jù)材料基因工程理念,數(shù)據(jù)挖掘算法未來可以被集成、應(yīng)用到材料數(shù)據(jù)庫以及高通量計算平臺中,通過對材料成分-工藝-組織-性能數(shù)據(jù)規(guī)律和知識的自動學習,進行多參數(shù)、多目標的優(yōu)化計算,能夠大大提高材料設(shè)計速度,降低設(shè)計成本,更好地指導材料性能預(yù)測或新材料設(shè)計。目前,基于材料數(shù)據(jù)庫和高通量計算結(jié)果,數(shù)據(jù)挖掘技術(shù)已經(jīng)開始成功運用到了功能材料等新材料的設(shè)計和開發(fā)中。徐一斌團隊[47]在數(shù)據(jù)庫基礎(chǔ)上,通過支持向量機、回歸等機器學習方法獲得了高界面熱阻的材料組合,并結(jié)合高通量薄膜制備技術(shù),制備出了目前世界上隔熱性能最高的無機納米復(fù)合薄膜。
數(shù)據(jù)挖掘算法的復(fù)雜性以及材料數(shù)據(jù)庫中相關(guān)參數(shù)的多樣性,決定了數(shù)據(jù)分析是一個需要多學科知識交匯和大量經(jīng)驗積累的過程。Agrawal等[48]基于NIMS數(shù)據(jù)庫中的鋼鐵材料疲勞數(shù)據(jù)庫,建立了針對材料疲勞強度設(shè)計的知識模型,對比了十幾種數(shù)據(jù)挖掘組合算法的精準性,包括線性回歸、決策樹、支持向量機、人工神經(jīng)網(wǎng)絡(luò)、模型樹等,并獲得了包括材料成分、工藝參數(shù)、缺陷分布等25個輸入?yún)?shù)對疲勞強度的正負相關(guān)性影響,如圖5所示。因此,如何在已有材料數(shù)據(jù)庫中確定自變量和因變量,并選擇合適的數(shù)據(jù)挖掘算法,如何從獲得的結(jié)果中讀取知識,以及如何判斷數(shù)據(jù)挖掘獲得知識的準確性,是數(shù)據(jù)挖掘過程中需要深入研究的問題。
圖5 25個不同參數(shù)與疲勞強度相關(guān)性的關(guān)系[48]Fig.5 The relationship between 25 inputs and correlation with fatigue strength[48]
確保數(shù)據(jù)挖掘結(jié)果準確性的一個重要因素是材料數(shù)據(jù)庫的數(shù)據(jù)可靠性。因此,在建立材料數(shù)據(jù)庫的過程中通常要求設(shè)置數(shù)據(jù)審查機制,以保證數(shù)據(jù)庫中所有上傳數(shù)據(jù)的正確性。當然在數(shù)據(jù)挖掘過程中,通過數(shù)據(jù)預(yù)處理可以對噪聲點、異常值進行清洗,一定程度上能夠減小數(shù)據(jù)誤差造成的分析結(jié)果偏差。然而,除了利用成功的實驗數(shù)據(jù)進行數(shù)據(jù)挖掘和分析外,失敗或不成功的實驗數(shù)據(jù)用于預(yù)測新材料的合成也獲得了較高的準確性[49],大幅提高了新材料研發(fā)的可能性。
在材料基因工程中,數(shù)據(jù)挖掘需要與材料數(shù)據(jù)庫以及高通量計算相互結(jié)合、協(xié)同發(fā)展,才能更好地發(fā)揮其對材料加速設(shè)計的作用和意義。
(1)數(shù)據(jù)庫作為數(shù)據(jù)管理和存儲技術(shù),為數(shù)據(jù)挖掘和高通量計算提供了輸入?yún)?shù)。材料數(shù)據(jù)庫目前已逐步從孤立的離線數(shù)據(jù)庫向在線數(shù)據(jù)庫和共享數(shù)據(jù)庫方向發(fā)展,但其結(jié)構(gòu)化、標準化等方面還有待改善。逐步發(fā)展起來的數(shù)據(jù)庫云理念結(jié)合數(shù)據(jù)匹配算法方便了分布式數(shù)據(jù)庫之間的連接,為數(shù)據(jù)庫結(jié)構(gòu)差異性問題提供了解決途徑。同時,需要進一步擴大數(shù)據(jù)量以實現(xiàn)材料數(shù)據(jù)庫的規(guī)模化進而提高數(shù)據(jù)挖掘結(jié)果的精準性。
(2)數(shù)據(jù)挖掘可為材料數(shù)據(jù)庫提供數(shù)據(jù)分析技術(shù)和方法,從已有的數(shù)據(jù)中發(fā)現(xiàn)知識和規(guī)律,加速材料設(shè)計。通過完善材料數(shù)據(jù)庫中的材料成分、工藝、組織、性能數(shù)據(jù),再利用數(shù)據(jù)挖掘技術(shù)可建立成分-工藝-組織-性能之間的關(guān)系模型。掌握從海量的數(shù)據(jù)中選擇合適的樣本數(shù)據(jù)、建立參數(shù)的相關(guān)性,并精準地提取規(guī)律和解釋知識,是數(shù)據(jù)挖掘技術(shù)在材料設(shè)計中深入應(yīng)用需要重點關(guān)心的方面。
(3)數(shù)據(jù)庫與數(shù)據(jù)挖掘技術(shù)的結(jié)合、數(shù)據(jù)庫匹配、數(shù)據(jù)自動收集、在線可視化、在線計算、在線分析等數(shù)據(jù)庫新功能的拓展,將使材料基因工程數(shù)據(jù)庫發(fā)展成為一個綜合性平臺,既是數(shù)據(jù)庫平臺,也是計算平臺和數(shù)據(jù)分析平臺。目前數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)庫中的應(yīng)用大多都是線下操作,而且數(shù)據(jù)樣本的大小和數(shù)據(jù)的精準性也影響著數(shù)據(jù)挖掘的結(jié)果。未來,通過在材料基因數(shù)據(jù)庫中直接集成嵌入數(shù)據(jù)挖掘算法,進行數(shù)據(jù)在線自動學習、異常數(shù)據(jù)清洗、知識提取,以便更好地支撐材料設(shè)計,提高研發(fā)效率。