国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據驅動的機器學習在電化學儲能材料研究中的應用

2022-03-23 08:46施思齊涂章偉鄒欣欣孫拾雨楊正偉
儲能科學與技術 2022年3期
關鍵詞:電化學儲能機器

施思齊,涂章偉,鄒欣欣,孫拾雨,楊正偉,劉 悅,4

(1上海大學材料科學與工程學院;2上海大學材料基因組工程研究院;3上海大學計算機工程與科學學院;4上海市智能計算系統(tǒng)工程技術研究中心,上海 200444;5之江實驗室,浙江 杭州 311100)

作為能源互聯(lián)網的關鍵環(huán)節(jié),以鋰/鈉離子電池為代表的儲能電池正處在與信息產業(yè)深度融合的階段,目前的發(fā)展目標是突破儲能電池能量密度低、電池安全性差、大電流充放電能力不足以及使用壽命短等方面的瓶頸并進一步拓寬其應用場景[1]。然而,儲能電池的綜合性能受各類材料的復雜構效關系共同影響,如電極脫嵌鋰過程的結構演化[2]、電解質的離子輸運機制[3]和電極與電解質間的界面性質[4]等,這為儲能電池的研發(fā)和性能提升帶來了挑戰(zhàn)。

早期的儲能電池研發(fā)是基于經驗主義的實驗方法,涉及人工合成、材料表征和性能分析等步驟,耗時長且成本高。于是,研究人員進一步發(fā)展了基于物理化學定律的理論研究方法[5],但該方法在解決許多電化學儲能材料科學問題時往往過于復雜,難以求解。后來,隨著材料科學、物理學和計算機科學的交叉與融合,微觀-介觀-宏觀尺度的計算模擬方法逐漸興起,包括第一性原理計算、分子動力學模擬、蒙特卡羅模擬、CALPHAD方法、相場模擬和有限元模擬等[6]。這些方法涵蓋了不同的空間和時間尺度范圍,在可充電電池領域得到了廣泛的應用[7-8]。然而,計算模擬方法依賴于材料的微觀結構和高性能計算設備,其計算速度和準確性仍然受到限制,且該方法每次往往只能對材料的單一性能進行研究與優(yōu)化,很難同時篩選或設計出綜合性能優(yōu)異的電化學儲能材料。近幾年,隨著實驗、理論和計算數(shù)據的大量積累以及高效、準確的人工智能技術的迅速發(fā)展,材料科學研究進入了第四科學范式[9-10],即數(shù)據驅動的材料科學研究,有望實現(xiàn)儲能電池的高效研發(fā)。

如圖1所示,數(shù)據驅動的材料科學利用傳統(tǒng)實驗、理論和計算模擬方法積累的大量數(shù)據,借助數(shù)據驅動的人工智能方法對電化學儲能材料的性能驅動機制進行建模和分析,以加速新型高性能電化學儲能材料的研發(fā)與設計。目前,作為數(shù)據驅動的人工智能方法的典型代表之一,機器學習已經被廣泛應用于材料的性能預測和新材料發(fā)現(xiàn)[11-18]。機器學習在電池領域的應用可以追溯到1999 年Salkind等[19]使用模糊邏輯方法來確定電池的充電狀態(tài)和健康狀態(tài)。隨后,Ceder 等[20-22]利用機器學習技術預測材料晶體結構并用于汽車電池鋰基材料的發(fā)現(xiàn)。2011 年,美國政府提出了“材料基因組計劃”(materials genome initiative,MGI)[23],其目標之一便是通過機器學習方法將“實驗”、“計算”和“數(shù)據”相結合,以快速開發(fā)出清潔能源系統(tǒng)的相關材料[24-25]。自此,以數(shù)據驅動的機器學習方法助力電化學儲能材料研發(fā)的工作不斷涌現(xiàn)出來。已有一些優(yōu)秀綜述從不同的角度介紹了電化學儲能材料領域中機器學習的研究現(xiàn)狀。例如,Guo等[26]從材料原子建模的角度,介紹了機器學習在固態(tài)電池材料的勢能函數(shù)構建、性能預測和逆向設計中的應用;陳翔等[27]從多尺度電池應用的角度,評述了機器學習與微觀、介觀和宏觀尺度的理論或實驗融合的方法在電池材料的研究現(xiàn)狀;Lombardo 等[28]從材料研發(fā)到電池實際應用的角度,總結了機器學習在電池制造、材料表征和電池診斷等方面的研究進展;劉悅等[29]從機器學習工作流程的角度,綜述了機器學習在充電電池材料領域的應用現(xiàn)狀,并分析和總結了機器學習方法在材料領域應用普遍面臨的三大挑戰(zhàn)問題和相應的解決策略。

圖1 電池研發(fā)四大范式:實驗、理論、計算和數(shù)據驅動Fig.1 Four paradigms of battery research and development:Experimentation,theory,computation and data driven

在MGI的推動下,電化學儲能材料數(shù)據被不斷產生和積累,包括結構化數(shù)據和非結構化數(shù)據。其中,結構化數(shù)據一般能夠形式化存儲在數(shù)據表格中,且每列都有具體的含義;非結構化數(shù)據則通常指結構化數(shù)據之外的一切數(shù)據,包括節(jié)點和邊組成的圖形數(shù)據、像素點組成的圖像數(shù)據和字符組成的文本數(shù)據。然而,利用這些異構數(shù)據來驅動電化學儲能材料的研發(fā),對機器學習建模過程中的數(shù)據表示、模型選擇、評估與應用提出了新的挑戰(zhàn)。本文以不同類型數(shù)據驅動的機器學習在電化學儲能材料研發(fā)中的應用為主線,全面介紹了可用于電化學儲能材料研究的材料數(shù)據資源,并指出了其未來發(fā)展方向;重點總結了結構化數(shù)據驅動下機器學習的工作流程及其在電極和電解質材料的性能預測與成分優(yōu)化、電池健康狀態(tài)評估的應用現(xiàn)狀,以及非結構化數(shù)據驅動下機器學習在材料性能預測、表征圖像分析和文獻文本挖掘等方面的相關工作;系統(tǒng)厘清了機器學習在電化學儲能材料領域應用所面臨的三大矛盾,并結合機器學習的最新發(fā)展提出了相應的調和策略;最后,對全文內容進行了總結。

1 電化學儲能材料的數(shù)據資源

過去若干年里,全世界范圍內材料研究學者們通過實驗測量和計算模擬積累了大量的材料數(shù)據,由此建立了大量可用于電化學儲能材料研究的涵蓋材料結構與性能的數(shù)據庫(表1)。電化學儲能材料中重要的性能如脫/嵌鋰電位、熱力學穩(wěn)定性和化學穩(wěn)定性等均可從密度泛函計算得到的能量、電子結構等信息中獲得,因此包含這些信息的通用型材料數(shù)據庫都可用于電化學儲能材料本征性質的研究[30]。從這些材料數(shù)據庫中能夠得到電化學儲能材料的實驗或計算的原始數(shù)據,為數(shù)據驅動的機器學習提供樣本。

表1 主要的材料數(shù)據庫及其數(shù)據特點Table 1 Main material databases and data characteristics

實驗測量作為沿用至今的材料科學研究關鍵手段之一,對材料的研發(fā)起著至關重要的作用??茖W工作者們通過對文獻中實驗測量數(shù)據的收集,建立了一些材料數(shù)據庫,其中包含了化學組成、材料結構、文獻引用等基本信息。劍橋結構數(shù)據庫(cambridge structural database,CSD)由英國劍橋大學Kennard 等在1965 年創(chuàng)建,從文獻中收錄了115萬種小分子有機物和金屬有機化合物晶體結構數(shù)據,其中包含了晶胞參數(shù)、原子坐標和引用文獻等[31-33]。德國波恩大學Bergerhoff 等[34]在1983年創(chuàng)建了無機晶體結構數(shù)據庫(inorganic crystal structure database,ICSD)來作為劍橋結構數(shù)據庫的補充,收錄了1913年以來出版的21萬多條實驗表征的無機晶體結構詳細信息,包含化學名稱、化學式、礦物名、晶胞參數(shù)、空間群、原子坐標、原子占位及文獻引用等[35]。1995年,日本科學技術廳等[36]單位合作組建了Paulina Film 項目,收集了從1900 年至今超過35000 種出版物中的無機材料數(shù)據,包含了35 萬個晶體結構、5 萬個相圖和15 萬條物理性能。為了有效地應用和積累科學數(shù)據,我國在1987 年由中國科學院牽頭正式啟動科學數(shù)據資源建設。其中,中國科學院金屬研究所承建的“材料學科領域基礎科學數(shù)據庫”,(http://www.matsci.csdb.cn/)擁有金屬材料數(shù)據6萬余條和無機非金屬材料數(shù)據1萬余條,涵蓋了材料的熱學、力學和電學等各種性能。2001 年我國開始逐步啟動科學數(shù)據共享工程,其中北京科技大學建設的“國家材料科學數(shù)據共享網”(http://www.materdata.cn/)匯集了全國30余家科研單位包括有色金屬材料、有機高分子材料和能源材料等超過60萬條材料科學數(shù)據。雖然這些基于實驗測量的材料數(shù)據庫記錄的數(shù)據可靠且直觀,但是獲得這些數(shù)據的成本高昂。

隨著計算機算力的提升,材料研究模式開始以“經驗試錯法”到基于“材料基因”設計方法轉變,期間催生了許多高通量材料計算平臺和數(shù)據庫。勞倫斯伯克利國家實驗室Ceder 等[37]在2011 年創(chuàng)立Materials Project 數(shù)據庫,存儲了75 萬多種材料,涉及無機化合物、分子、納米孔隙材料、嵌入型電極材料和轉化型電極材料以及包括9萬多條能帶結構、彈性張量、壓電張量等性能的第一性原理計算數(shù)據。2012 年,杜克大學Curtarolo 等[38]發(fā)布了AFLOWlib 計算材料數(shù)據庫,存儲了包括無機化合物、二元合金與多元合金等超過356萬種材料結構和7億條第一性原理計算的材料性能數(shù)據,是諸多數(shù)據庫中數(shù)據量最大的一個。2013 年,西北大學Wolverton 等[39]推出了開放量子材料數(shù)據庫(open quantum materials database,OQMD),通過DFT計算了102萬種材料的熱力學和結構特性,其中以鈣鈦礦數(shù)據居多。以上三個數(shù)據庫的數(shù)據都是從無機晶體結構數(shù)據庫衍生而來,不同之處在于其所包含的虛擬材料的數(shù)量[40]。相比于國外,國內的材料計算數(shù)據庫發(fā)展較晚。2016 年,北京科技大學牽頭建立的“材料基因工程專用數(shù)據庫”(http://www.mgedata.cn/),包含超過76 萬條催化材料、特種合金及其材料熱力學和動力學等數(shù)據;2020年,中國科學院物理研究所等單位創(chuàng)建的Atomly數(shù)據庫(http://atomly.net/#matdata),包含從ICSD數(shù)據庫和DFT 計算得到的18 萬個無機晶體結構并計算其詳細的電子結構信息以及熱力學相圖。這些基于計算的數(shù)據庫擁有著龐大的數(shù)據量,使得數(shù)據驅動的材料研究得到迅速的發(fā)展。

然而,電化學儲能材料的研發(fā)需要考慮離子輸運性質、能量密度、充放電速率等特定的材料性能,上述通用數(shù)據庫往往不能滿足這些需求。因此,專門為電化學儲能材料建立的數(shù)據庫開始被研究與使用。例如,中國科學院物理研究所在2018年推出了電池材料離子輸運數(shù)據庫(http://eol.iphy.ac.cn/bmd/),采用鍵價方法計算得到了2 萬多條無機晶體化合物離子遷移勢壘數(shù)據,可快速篩選已知結構化合物中離子遷移勢壘較低的潛在快離子導體。本課題組于2020 年發(fā)布了電化學儲能材料高通量計算平臺(https://matgen.nscc-gz.cn/solidElectrolyte/),集成了晶體結構幾何分析(CAVD)[41]、鍵價和計算(BVSE)、多精度融合算法[42]和相穩(wěn)定性計算等程序,并基于CAVD 和BVSE 構建了包含2.9 萬條數(shù)據的離子輸運特性數(shù)據庫[43],能夠為下游的機器學習任務提供相應的學習樣本,如圖2所示。為構建全面系統(tǒng)的電化學儲能材料數(shù)據庫,本團隊正在引入相圖計算、蒙特卡洛、相場模擬和連續(xù)介質等模塊以進一步為該領域的研究提供技術支持。

圖2 電化學儲能材料高通量計算平臺總覽Fig.2 Overview of high-throughput computing platform for electrochemical energy storage materials

綜上所述,國內外各研究機構和團隊建立了各種各樣的通用和專用材料數(shù)據庫,為數(shù)據驅動的電化學儲能材料研發(fā)提供了豐富的數(shù)據資源。進一步,為支持數(shù)據驅動的電化學儲能材料研發(fā),還可以在以下三個方面對數(shù)據庫建設進行完善。

第一,目前建立的電化學儲能材料相關數(shù)據庫收集的數(shù)據資源不夠系統(tǒng)全面,無法滿足儲能電池的研發(fā)需求。一方面,在研究過程中只有小部分結果理想的數(shù)據被發(fā)表了出來,還存在大量失敗實驗數(shù)據并未公開,這些反例數(shù)據已經被證明能夠輔助機器學習發(fā)現(xiàn)新材料[44]。因此,在搜集成功數(shù)據的同時,可以鼓勵研究人員有針對性地將失敗的實驗結果保留。另一方面,現(xiàn)有電化學儲能材料數(shù)據庫中的材料數(shù)據尺度單一,儲能電池的綜合性能不僅與材料的本征性質相關,也與材料的微觀形貌、外界環(huán)境場及器件的宏觀構造等因素相互耦合[30]。因而可以建立電化學儲能材料DFT計算參數(shù)庫、分子動力學模擬參數(shù)庫、相場模擬參數(shù)庫、組分表征數(shù)據庫、表界面數(shù)據庫和結構表征數(shù)據庫,為機器學習在電化學儲能材料的應用提供多尺度數(shù)據。

第二,上述數(shù)據庫主要包含了材料的結構和性能數(shù)據,通常由材料專家從中提取結構化數(shù)據或者把材料結構表示為非結構化圖形數(shù)據作為機器學習模型的數(shù)據集。對于圖像和文本類型的非結構化數(shù)據還無法從已有的材料數(shù)據庫中獲取。圖像數(shù)據主要儲存在材料測試機構中,通常無法公開獲取。文本數(shù)據分散在各大材料科學出版物中,從海量文獻中標記集成可用于機器學習的數(shù)據非常困難,且?guī)缀鯖]有開源具有標注信息的材料文本數(shù)據集。因此,有必要建立開源的材料圖像數(shù)據庫和文本數(shù)據庫,推動非結構化數(shù)據驅動的電化學儲能材料研發(fā)應用。

第三,對于數(shù)據的使用者來說,數(shù)據的質量決定著機器學習模型的上限。實驗測量的數(shù)據質量主要受材料缺陷、污染物和實驗條件以及實驗設備的不確定性影響;計算模擬的數(shù)據質量主要與計算模擬方法本身的精度相關。在數(shù)據集成過程中,不同來源數(shù)據的誤差相結合,使得材料數(shù)據的質量更加難以確定[45],如晶體的形成能,其計算值和實驗值顯著不同[46]。此外,研究人員在實驗或計算過程中關注的參量具有差異性,收集材料數(shù)據時可能存在數(shù)據記錄不一致的問題,造成了數(shù)據集的稀疏性。因而急需設計電化學儲能材料數(shù)據質量檢測方法,以提升機器學習模型的性能。

總之,通過上述方案能夠優(yōu)化完善材料數(shù)據資源,為材料數(shù)據和領域知識創(chuàng)建可持續(xù)的生態(tài)系統(tǒng),從而促進數(shù)據驅動下的電化學儲能新材料發(fā)現(xiàn)。

2 電化學儲能材料數(shù)據驅動的機器學習

本節(jié)將對電化學儲能材料中結構化和非結構化數(shù)據驅動的機器學習建模和應用分別進行系統(tǒng)地介紹,重點分析其存在的困難和挑戰(zhàn)。

2.1 結構化電化學儲能材料數(shù)據驅動的機器學習

目前機器學習在電化學儲能材料領域的應用大多數(shù)是基于結構化數(shù)據驅動的,這需要針對特定的目標屬性選取合適的描述符,并對其進行結構化表示,構建學習樣本,進行機器學習建模和應用。具體工作流程如圖3 所示。首先,可以使用實驗測量、計算模擬或者直接從現(xiàn)有的材料數(shù)據庫中收集材料原始數(shù)據,并從中提取合適的描述符,這些描述符一般包括材料結構、化學成分和材料性能等;其次,經過特征選擇或者特征轉換將描述符數(shù)據集轉換為學習樣本;然后,通過選擇合適的機器學習算法并調整最優(yōu)超參數(shù),模擬條件屬性與目標屬性之間的映射關系;最后,研究人員可以利用這些模型來預測材料的性質或指導新材料的發(fā)現(xiàn),如液態(tài)/固態(tài)電解質和電極材料的性能預測與成分優(yōu)化以及電池健康狀態(tài)評估。

圖3 結構化數(shù)據驅動的機器學習在電化學儲能材料應用的工作流程[29]Fig.3 Workflow of structured data-driven machine learning in energy storage material application[29]

2.1.1 數(shù)據收集

電化學儲能材料內部的微觀結構與材料性能之間的關系紛繁復雜,任何一種性能都與多種因素耦合相關。從實驗或者計算中收集到與目標屬性相關的材料原始數(shù)據之后,還需要從中選取合適的描述符構建數(shù)據集。一般來說,相似的材料對應的描述符也要相似且數(shù)量和獲取成本盡可能低[47]。然而,目前還沒有普遍認可的描述符選擇方法,其很大程度上依賴于研究者的領域知識。

針對特定的性能選取合適的描述符有助于建立更精確的模型,從而實現(xiàn)對電化學儲能材料性能的精準預測。Sendek 等[48]根據原子的位置、質量、電負性和半徑計算了與離子導電性相關的20 個表征晶體局域原子排列和化學環(huán)境的描述符,進而利用邏輯回歸算法對鋰離子電池固體電解質離子電導率的高低進行分類;趙倩等[49]基于離子傳導相關因素的分析,通過整合全局及局域離子傳導環(huán)境對離子傳導快慢的影響,構建了一套分層編碼晶體結構基描述符框架,包含組成、結構、傳導通道、離子分布和特殊離子5個部分共32個描述符,并采用偏最小二乘分析(PLS)方法成功地預測了立方相Li-Argyrodites的激活能;王愛平等[50]提取了有機溶劑小分子性質、最高占據分子軌道、最低未占據分子軌道和偶極矩以及官能團的原子性質共13 個描述符,使用梯度提升決策樹(GBDT)預測了溶劑與LiOH 分子的結合能,發(fā)現(xiàn)磷酸酯溶劑能夠顯著加快Li-O電池的反應動力學。這些工作都是以目標屬性為導向,依靠材料專家對材料體系的認知來選取的描述符。

材料專家針對不同材料性質所選取的描述符往往不能完全通用,這導致描述符的可擴展性差。為了將無機材料原始數(shù)據轉換為機器學習算法所需的學習樣本,Ward 等[51]根據材料的物理和化學性質提出了一套通用的描述符計算框架,包括化學計量屬性、元素屬性統(tǒng)計、電子結構屬性和離子化合物屬性共145個描述符。這些描述符在電化學儲能材料性能預測研究中已經得到了成功的應用[52-55]。例如,Rajendra 等[52]通過上述框架得到273 個描述符,開發(fā)了預測電極電壓的機器學習模型,為鈉/鉀離子電池篩選了近5000 種候選電極材料;Jo 等[53]和Choi 等[54]利用上述框架和Voronoi 鑲嵌方法[56]分別提取了145個化學描述符和126個結構描述符并構建機器學習模型來預測鈉離子固態(tài)電解質的力學性能;Verduzco 等[55]通過選取元素屬性、元素分數(shù)、化學計量屬性、價軌道和實驗溫度共105個描述符設計了基于隨機森林的主動學習方法,用于預測石榴石型固態(tài)電解質離子電導率。上述工作證明了該描述符計算框架在無機材料性能預測的適用性。

為了提高描述符的計算效率,一些研究人員開發(fā)了計算工具包對現(xiàn)有的描述符計算方法進行集成。如Ward 等[57]結合前期的工作基礎[51]開發(fā)了基于Python 的特征生成方法庫Matminer,其中包含了47 個不同的特征提取模塊,能夠生成數(shù)千個物理相關的描述符,大大降低了描述符計算的難度。Himanen等[58]創(chuàng)建了一個對原子結構進行編碼的描述符庫DScribe,包含庫侖矩陣[59]、Ewald 和矩陣[60]、正弦矩陣[60]、多體張量表示(MBTR)[61]、原子中心對稱函數(shù)(ACSF)[62]和原子位置平滑重疊(SOAP)[63]等結構描述符,并通過周期性晶體的形成能和有機分子的離子電荷預測來說明其適用性。

總的來說,上述工作的推出加速了結構化描述符的構建,為后續(xù)的機器學習模型提供了可靠的數(shù)據集。但是,目前材料樣本量少且描述符的選取存在稀疏性、不相關性和冗余性導致小樣本高維度問題,從而影響模型的性能。此外,盡管目前已經開發(fā)了一些集成式的描述符計算工具,但是儲能材料性能影響因素的復雜性導致能夠適用于任意目標屬性的通用描述符提取方案還未實現(xiàn)。

2.1.2 特征工程

由于描述符的選擇往往取決于材料專家知識,這些描述符通常存在稀疏性、不相關性和冗余性,導致模型性能較差。因此,特征工程是機器學習模型構建中的一個重要步驟,包括特征轉換和特征選擇。特征轉換是把高維特征空間映射到低維特征空間的方法,在降低特征維度的同時特征數(shù)值也會改變。特征選擇是從全部特征中選擇一個特征子集,以降低樣本維度,進而提高機器學習模型的預測精度和泛化性能。目前,已有學者從數(shù)據的角度利用現(xiàn)有的統(tǒng)計或機器學習方法進行純數(shù)據驅動的特征轉換或選擇,試圖從電化學儲能材料眾多描述符中挑選出材料可解釋、預測精度高的描述符。

2.1.2.1 特征轉換

特征轉換方法主要有主成分分析[64]和線性判別分析[65]。主成分分析通過線性投影并使得所投影的維度上數(shù)據的方差最大,以降低數(shù)據集的維數(shù)、提高可解釋性的同時最大限度地減少信息丟失[64]。線性判別分析是將一個高維空間中的數(shù)據投影到一個較低維的空間中,且投影后要保證各個類別的類內方差小而類間均值差別大[65]。這兩種方法一般用于儲能電池的系統(tǒng)診斷。如Banguero 等[66]將主成分分析模型應用于與電池儲能系統(tǒng)的容量、內阻和開路電壓相關的參數(shù)集處理;Wang 等[67]利用主成分分析對電動汽車動力電池一致性多參數(shù)評價;Chen 等[68]基于線性判別分析的分類模型識別鋰離子電池故障。

2.1.2.2 特征選擇

特征選擇方法可以分為過濾式、包裹式和嵌入式三大類[69]。過濾式特征選擇方法使用基于統(tǒng)計理論和信息論的評分標準(例如距離函數(shù)、統(tǒng)計相關系數(shù)和互信息等)評估相關特征的重要性并進行排序,然后在機器學習模型中使用得分高的特征子集[70],如圖4(a)所示。該方法具有簡單和高效的優(yōu)點,然而,其特征選擇過程與機器學習模型分離,忽略了所選特征子集對模型性能的影響,這通常會導致模型的預測精度較低[71]。包裹式特征選擇方法首先根據預先定義的搜索策略(如窮舉法,遺傳算法等)生成若干初始候選特征子集,其次訓練一個特定的機器學習模型來評估每個候選特征子集,保留一些候選特征子集并用于生成下一組特征子集,該過程反復進行,直到選定的特征子集滿足迭代停止條件[72](模型預測精度或循環(huán)次數(shù)),如圖4(b)所示。該方法能夠選擇出具備高精度預測性能的最優(yōu)特征子集,但往往以計算時間和復雜度為代價[73]。與包裹式方法類似,嵌入式方法同樣與特定的機器學習模型綁定。但不同的是,該方法通過在目標函數(shù)和建模過程中引入正則化系數(shù)或隨機因素實現(xiàn)模型構建和特征選擇的協(xié)同(例如偏最小二乘分析、LASSO和隨機森林),簡化了特征選擇的過程,但受限于特定的機器學習模型,普適性有待提高[74]。

圖4 特征選擇方法工作流程[75]:(a)過濾式;(b)包裹式Fig.4 Workflow of feature selection method[75]:(a)filter;(b)wrapper

在電化學儲能材料性能預測研究中,包裹式方法由于考慮了特征對模型性能的影響已被廣泛地應用。例如,Sendek 等[48]采用窮舉策略從20 個結構化描述符中選擇了5個描述符,利用邏輯回歸對鋰離子電導率的高低進行分類;Gharagheizi 等[76]采用順序搜索策略成功篩選出10 個關鍵描述符,并建立最小二乘支持向量機(LSSVM)模型預測離子液體電導率;Wu 等[77]利用順序搜索方法從111 個描述符中選擇了23 個關鍵描述符,采用高斯核嶺回歸模型預測FCC 溶質擴散勢壘。嵌入式方法在選擇特征的同時可以根據特征的重要性進行排序,使得專家可以更有針對性地進行材料設計,對于電化學儲能材料的研究有著重要意義。例如,Shandiz等[78]為339 條硅酸鹽陰極材料樣本構建了9 個描述符,利用極大隨機化樹(ERT)預測其晶系結構,發(fā)現(xiàn)晶胞體積是最重要的特征。趙倩等[49,79]通過分層編碼晶體結構描述符為50 條立方相Li-Argyrodites樣本構建了32 個描述符,并借助偏最小二乘分析(PLS)方法推斷各描述符與激活能之間的因果關系。

另外,過濾式和包裹式方法組合也是一種有效的特征選擇方法,這種方法可以從數(shù)據的不同角度對特征進行處理[80]。例如Hsu 等[81]先通過計算效率高的過濾器從原始數(shù)據集中選擇候選描述符,然后通過更準確的包裹器進一步優(yōu)化得到訓練樣本。在電化學儲能材料研究領域,劉悅等[75]首次提出了一種融合加權評分領域專家知識的多層級特征選擇方法,其方法框架如圖5所示。該方法將過濾式和包裹式方法相結合自動去除稀疏、不相關和冗余特征,在特征選擇過程中引入領域專家知識,消除了關鍵特征被刪除的風險,并在四個電池材料數(shù)據集上進行了實驗,顯示出比其他方法更好的預測性能。

圖5 融合加權評分領域專家知識的多層級特征選擇方法框架[75]Fig.5 Multi-level feature selection method framework combining weighted scoring domain expert knowledge[75]

總之,許多結構化數(shù)據不僅維數(shù)高且樣本量小,導致機器學習模型的過擬合,降低了模型的泛化能力。這也是電化學儲能材料科學中需要特征工程的重要原因。然而,由于特征選擇方法復雜多樣,且涉及的超參數(shù)和策略也需要手動設置和調整。例如過濾式方法需要設置所選特征的數(shù)量和過濾閾值;包裹式方法需要指定子集搜索策略以生成候選特征子集;嵌入式方法需要優(yōu)化機器學習算法的超參數(shù)以獲得更好的性能。這將導致沒有相關經驗的材料專家不易使用這些方法。另外,特征工程僅僅通過特征空間的分布來選擇描述符,這可能使得一些關鍵描述符重要度被弱化,導致學習結果與領域知識不一致。

2.1.3 機器學習建模與應用

目前,機器學習在儲能電池領域得到了廣泛的應用,其優(yōu)越性在時間效率和預測精度上都得到了證明。其中,各種算法具有不同的特點和適應范圍,選擇合適的機器學習算法是構建機器學習模型的關鍵步驟,這極大地影響了其預測的準確性和泛化能力[82]。當前常用于儲能電池研發(fā)的機器學習方法如表2所示。下面介紹這些方法在儲能電池應用中的最新進展。

表2 常用于儲能電池研發(fā)的機器學習模型對比Table 2 Comparison of machine learning models commonly used in energy storage battery research and development

2.1.3.1 液態(tài)電解質研究中的應用

液態(tài)電解質是電池的重要組成部分,它在正負極之間傳輸離子的同時也起著阻礙電子傳導的作用,對電池的性能至關重要[96]。機器學習已經被成功用于液態(tài)電解質化學穩(wěn)定性、離子與溶劑的配位能預測以及溶劑成分優(yōu)化?;瘜W成分之間的穩(wěn)定性和兼容性是在配置電解液時需要考慮的基本參數(shù),Lee 等[93]將機器學習方法與傳統(tǒng)反應指數(shù)相結合開發(fā)了神經網絡回歸模型并準確預測了93 種電解質溶劑和氧化還原介質之間化學穩(wěn)定性。離子與溶劑的配位能是影響離子輸運的重要因素之一[97],Ishikawa等[89]計算了70種溶劑分別與5種堿族元素的配位能,選擇了13 個離子和溶劑相關描述符并采用高斯過程回歸預測元素配位能。電解質添加劑及其成分的優(yōu)化組合是實現(xiàn)高壓電池長循環(huán)性能的有效方法,Duong等[94]選擇電解質添加劑比例、負極和正極的容量比及循環(huán)次數(shù)作為輸入參數(shù),使用人工神經網絡模型預測電池容量并成功地找到性能優(yōu)異的電解質成分。

2.1.3.2 固態(tài)電解質研究中的應用

近年來,固態(tài)電解質因比液態(tài)電解質具有更好的安全性、更高的能量密度和更長的壽命備受關注[1]。利用機器學習對其離子電導率、化學組成和帶隙進行預測是一個研究熱點。離子電導率是衡量一種材料是否可以用作固體電解質的重要指標之一,Xu 等[83]收集127 種實驗合成的NASICON 和LISICON材料并利用包裹式特征選擇方法選取7個簡單描述符,然后通過邏輯回歸模型預測離子電導率。提高材料離子電導率的常見策略是摻雜添加劑或混合異質材料,Homma 等[90]通過實驗制備了15 個多相三元Li3PO4-Li3BO3-Li2SO4混合物樣本,使用高斯過程回歸的貝葉斯優(yōu)化成功找到離子電導率性能優(yōu)異的三元相化學組成比例。此外,帶隙也是影響固體電解質性能的關鍵因素,Wang 等[92]從Materials Project 數(shù)據庫中收集了286 個具有計算帶隙的石榴石結構并選取28 個描述符來訓練XGBoost 模型,最后篩選出12 個潛在的石榴石型固態(tài)電解質材料。

2.1.3.3 電極材料研究中的應用

電極材料的平均電壓、體積變化、界面反應能、初始放電容量、庫侖效率和電極制造參數(shù)對電池綜合性能有著重要的影響,通過實驗和計算來獲得這些性質總是困難和昂貴的,因此有必要通過機器學習對其進行預測。電極材料的平均電壓和充放電時的體積變化分別影響著電池的能量密度和安全性能,Moses 等[95]從Materials Project 數(shù)據庫收集了4860個材料,通過電極的化學計量以及Matminer工具包生成了306個描述符,使用神經網絡模型預測電極材料充放電時的平均電壓和體積變化。為了探尋鋰金屬負極的枝晶生長和高反應性導致電池循環(huán)效率低和安全性差的原因,劉波等[84]計算了100 種LLZOM 化合物的界面反應能,將摻雜元素的15 個相關特性視為描述符,通過支持向量集和核嶺回歸模型對界面穩(wěn)定性和反應能進行準確預測。富鋰層狀氧化物正極材料在充放電過程中由于不可逆相變導致其結構穩(wěn)定性降低、容量衰減和電壓下降,Kireeva 等[85]收集了99 種富鋰層狀氧化物正極材料,選擇化學成分、原子性質、合成方法和實驗條件作為描述符,使用支持向量機模型成功預測了富鋰層狀氧化物的初始放電容量和庫侖效率。此外,由于電極的制造過程、電極漿料特性和涂層參數(shù)強烈影響電池的性能和壽命,Duquesnoy等[88]制備了144 個涂層電極,通過主成分分析、K均值聚類和高斯樸素貝葉斯分類器方法相結合,從而預測了與特定制造參數(shù)相關的電極異質性。

2.1.3.4 電池健康狀態(tài)評估中的應用

電池健康狀態(tài)的評估對于電池系統(tǒng)的平穩(wěn)可靠運行至關重要。而電池老化是一個復雜的過程,涉及陽極、陰極和電解質/電極界面的許多電化學反應。另外,溫度和負載等操作條件也會影響電池老化過程[98]。目前機器學習技術已被成功應用于預測電池的容量和健康狀態(tài),以確保設備可靠運行和及時維護。Nagulapati 等[86]使用18650 個電池充放電數(shù)據,利用高斯過程回歸和支持向量機模型將放電循環(huán)過程中的電壓、電流和溫度數(shù)據相關聯(lián)預測電池容量,并通過組合多電池數(shù)據集的方法提高了模型的預測精度。與常用的電流-電壓數(shù)據相比,電化學阻抗譜通過測量電流對電壓擾動的響應來獲得寬頻率范圍內的阻抗,包含有關材料特性、界面現(xiàn)象和電化學反應的豐富信息。Zhang等[91]收集了2萬多個商業(yè)鋰離子電池的電化學阻抗譜,使用高斯過程回歸模型將整個阻抗譜作為輸入,準確預測了不同溫度下電池健康狀態(tài)和剩余使用壽命。大幅度延長電池使用壽命的關鍵挑戰(zhàn)是減少所需實驗的數(shù)量和持續(xù)時間,Attia等[99]通過彈性網絡早期模型結合貝葉斯優(yōu)化算法,從前100個循環(huán)的電化學測量數(shù)據預測了最終循環(huán)壽命并有效地探測充電協(xié)議的參數(shù)空間。

綜上所述,通過提取材料的結構特征、元素屬性和實驗環(huán)境等結構化描述符建立機器學習模型,能夠指導研究人員設計和優(yōu)化液態(tài)/固態(tài)電解質和電極材料以及評估電池的健康狀態(tài)。然而,由于其內部復雜的電化學行為,電化學儲能材料的微觀結構和材料性能之間常常存在復雜的非線性關系,導致線性模型性能較差,而神經網絡等非線性模型的復雜性高可解釋性差,且一般需要大量數(shù)據進行訓練。因此,還需要研究人員對結構化數(shù)據驅動的電化學儲能材料研發(fā)進行進一步的探索。

2.2 非結構化電化學儲能材料數(shù)據驅動的機器學習

隨著對電化學儲能材料的深入研究,能夠通過材料結構、表征技術和科學文獻中得到大量的圖形、圖像和文本等非結構數(shù)據。這些數(shù)據含有非常豐富的材料信息,但傳統(tǒng)的機器學習方法難以對其處理。作為機器學習的重要組成部分,深度學習能夠從非常原始的非結構化圖形和圖像數(shù)據中提取信息,實現(xiàn)自動模型參數(shù)估計(即“端到端”學習),從而避免繁瑣但重要的描述符設計[100-101]。此外,通過文本挖掘和自然語言處理技術能夠從非結構化的文本中提取材料的數(shù)據和知識,為進一步數(shù)據挖掘和分析提供數(shù)據集。

2.2.1 基于圖形的材料性能預測

近年來,圖深度學習(graph deep learning)因能夠對任意大小和形狀的圖形進行“端到端”學習,無需研究人員構建繁瑣而重要的描述符受到了材料領域越來越多的關注。

起初,圖深度學習被應用在分子體系的性能預測中[102-103],隨后被用于周期性晶體體系[104-108]。工作流程如圖6 所示,首先需要獲取材料結構數(shù)據集,一般來源于ICSD數(shù)據庫或CSD數(shù)據庫;然后對材料結構進行圖形表示,這個過程需要選擇合適的材料信息進行編碼,如原子軌道相互作用、原子屬性、鍵屬性、全局狀態(tài)和陰離子配位多面體基序等;最后通過圖深度學習模型預測材料性能。這里總結了不同材料信息嵌入下圖深度學習在材料性能預測中的應用。

圖6 圖深度學習在分子/晶體結構應用的工作流程Fig.6 Workflow of application of graph deep learning in crystal and molecular structure

2.2.1.1 原子信息嵌入

最近大多數(shù)材料圖深度學習研究是基于原子級別的圖形數(shù)據作為深度學習模型的輸入[104,107-108]。在謝天等[104]提出的晶體圖卷積神經網絡(CGCNN)中,每個晶體由一個晶體圖形表示,并且滿足原子索引置換不變性和晶胞選擇不變性,該模型準確地預測了晶體結構的形成能、帶隙、費米能和彈性特性等性能,最后通過鈣鈦礦材料說明了模型的可解釋性。Ahmad 等[109]應用CGCNN 模型篩選能夠抑制鋰金屬陽極枝晶形成的無機固體電解質。Zhou等[110]基 于CGCNN 模 型 從Materials Project 和AFLOW 材料數(shù)據庫中篩選了13 萬多種無機材料,成功預測了80 種可用于鋅離子電池的高壓正極材料。作為CGCNN 的改進模型,Park 等[108]提出了iCGCNN 模型,該模型的晶體圖包括Voronoi 鑲嵌晶體結構的信息、相鄰組成原子的顯式三體關聯(lián)以及化學鍵的表示,在預測熱力學穩(wěn)定性方面,iCGCNN的精度相較于CGCNN提高了20%。

2.2.1.2 原子和全局狀態(tài)信息嵌入

由于之前絕大多數(shù)模型是單獨基于分子或晶體數(shù)據集開發(fā)的,且缺乏對溫度和壓力等全局狀態(tài)的描述,致使模型缺少必要信息影響其預測性能。因此,Chen 等[107]提出了一個基于圖形的深度學習框架(MEGNet)并將其應用于分子和晶體結構。該模型通過將原子屬性、鍵屬性和全局狀態(tài)屬性嵌入圖神經網絡模塊中,然后通過信息傳遞過程反復更新,最終利用多層感知器預測材料性能。MEGNet在預測晶體的形成能、帶隙和彈性模量方面顯著優(yōu)于現(xiàn)有的機器學習模型。在此基礎上,該團隊還開發(fā)了一個能夠處理多保真度數(shù)據和無序材料的圖神經網絡模型[111]。該模型將數(shù)據保真度級別編碼為整數(shù)并傳遞給可訓練的保真度嵌入矩陣,并通過元素嵌入的線性組合表示無序位點。實驗結果表明該模型對于實驗帶隙預測的平均絕對誤差降低了22%~45%,但潛在限制是它依賴于大型低保真數(shù)據集來學習有效的結構表示,導致只能對少數(shù)目標屬性進行高精度預測。

2.2.1.3 多尺度材料信息嵌入

與彈性模量等力學性能相比,預測晶體材料的電子結構性質需要更詳細的材料信息,因此僅嵌入原子信息的圖深度學習模型可能性能不佳。Banjade等[106]提出了一種Atom-Motif雙圖網絡模型(AMDNet)以增強對電子結構相關材料性能的預測。該模型利用陰離子配位多面體構建結構基序圖,及基于原子的圖形一起輸入神經網絡模型。與已有的模型相比,AMDNet 預測金屬氧化物帶隙等性能更加準確。此外,原子軌道也是一種與電子結構高度相關的材料特征。Karamad 等[105]提出了一種軌道圖卷積神經網絡(OGCNN),以考慮晶體材料的原子軌道信息。該模型將原子軌道之間的鍵合信息編碼為軌道場矩陣(OFM)表示,然后將改進的節(jié)點和邊特征傳遞給CGCNN框架以進行性能預測,最后在形成能和帶隙預測方面都具有比CGCNN 更好的性能。

綜上所述,本文對圖深度學習的圖形表示方法和模型框架進行了介紹,這些框架能夠對材料的性能進行高效準確地預測,加快材料的研發(fā)速度。然而其中還存在一個基本問題:通過簡單地設置截斷距離可能導致原子間距離的微小變化使鄰居原子數(shù)量的突然變化,晶體結構中原子的連接性難以判斷。因此,圖形表示更適合于具有共價鍵的分子材料,而具有離子鍵和金屬鍵的晶體材料需要特別注意識別節(jié)點的連接性[112]。

2.2.2 材料表征圖像分析

材料內部的顯微組織結構決定著材料的性能,通過現(xiàn)代材料分析技術對其進行表征,可得到圖像類型的非結構化數(shù)據。這些數(shù)據通常需要依賴材料專家對其進行分析,從中提取出顯微化學成分、晶體結構和微觀形貌等材料信息。但是僅僅依賴材料專家自身經驗分析容易遺漏其中的隱藏信息,且耗時費力。計算機視覺領域的深度學習方法可以自動提取圖像中的特征,與材料圖像數(shù)據分析的強烈需求相吻合,有助于提高材料表征的速度和準確性。這里主要針對不同的材料表征技術,介紹深度學習在電化學儲能材料圖像數(shù)據分析的研究進展。

2.2.2.1 X射線斷層掃描圖像分割

X射線斷層掃描是一種強有力的表征方法,可以對材料的微觀結構和化學成分進行動態(tài)無損成像,提供電池運行和退化的定量或定性分析[113]。量化鋰電極中微結構的形態(tài)轉變需要嚴格和一致的分割程序,Dixit等[114]實現(xiàn)了一個基于ResNet-34的深度卷積神經網絡對鋰金屬X射線斷層掃描低對比度圖像中的鋰金屬和孔隙進行分割,以定量跟蹤鋰金屬電極和固態(tài)電解質固固界面的形態(tài)變化。與傳統(tǒng)的二值化過程相比,機器學習識別鋰金屬孔隙特征的保真度和準確性明顯提高。復合電極的微觀結構決定了電極顆粒在充放電過程中的行為,顆粒與碳/黏合劑分離的程度與容量損失相關。為了對嚴重破碎的顆粒進行識別,Jiang 等[115]使用高分辨率硬X射線納米斷層掃描對復合正極材料可視化,開發(fā)了一個掩模區(qū)域卷積神經網絡模型并自動識別和分割了650多個正極顆粒,消除了使用傳統(tǒng)圖像技術報告中表征結果存在的偏差。

2.2.2.2 拉曼高光譜成像特征提取

拉曼高光譜成像具有同時對多種化學特征進行成像的能力。同步識別鋰離子電池電極中多個光譜特征有助于將分析技術用于在線質量控制和產品開發(fā)。Baliyan 等[116]提出了一個神經網絡分析框架來自動從鋰離子電池電極拉曼高光譜數(shù)據集中識別光譜特征并分配類別標簽,從而計算容量保留系數(shù)來定量評估鋰離子電池的容量退化。該方法有效地避免了宇宙噪聲帶來的錯誤定量分析,且實現(xiàn)了對高光譜分析整個生命周期的自動化處理。

2.2.2.3 電子背散射衍射圖像晶界增強

電子背散射衍射通過分析晶粒兩側像素之間的取向來檢測多晶樣品中的晶界,可以在晶粒尺度上改善正極材料的評估和量化,這對理解鋰離子電池的鋰傳輸、速率限制和降解機制至關重要[116]。Furat 等[117]使用電子背散射衍射技術對正極材料顆粒進行成像,通過卷積神經網絡對標記的圖像進行訓練并應用于整個圖像數(shù)據,從而產生具有增強晶界的新圖像。該方法避免了常規(guī)圖像處理方法繁瑣的處理步驟和參數(shù)校正過程,實現(xiàn)了晶粒結構的有效形態(tài)表征。

總之,深度學習技術能夠從復雜的電化學儲能材料圖像數(shù)據中識別特定的特征,從而有效應用于X射線斷層掃描圖像分割、拉曼高光譜成像特征提取和電子背散射衍射圖像晶界增強。然而,深度學習模型強烈依賴于大量標記的圖像數(shù)據,以及非專業(yè)研究者對深度學習模型使用的復雜性等問題還阻礙著其在材料圖像領域的應用。此外,上述例子僅僅是對電化學儲能材料圖像本身進行了建模應用,通過深度學習技術還可以進一步地探索化學成分-介觀尺度顯微組織結構-材料性能之間的構效關系,加速材料性能預測[118]。

2.2.3 材料文本挖掘

文本挖掘是指從文本語料庫中提取有價值信息和知識的方法。近年來,材料科學的文本挖掘主要依靠自然語言處理技術和機器學習方法,從數(shù)量龐大且不斷增長的科學出版物中快速獲取非結構化科學知識,進而指導材料相關領域的研究。文本挖掘的工作流程可以概括為文本收集與解析、文本預處理、文本分析、信息提取、數(shù)據挖掘,如圖7 所示[119]。隨著文本挖掘技術的逐漸成熟,已有學者將其應用到電化學儲能材料領域,從而追蹤材料研究動態(tài)、指導材料合成和建立材料數(shù)據庫等。

圖7 文本挖掘的工作流程[119]Fig.7 Workflow of text mining[119]

2.2.3.1 追蹤研究動態(tài)

文本挖掘可幫助讀者找到某個領域的突破性論文并跟蹤最新技術的進展。Torayev 等[120]使用基于機器學習的文本挖掘技術從1800 多篇文獻中識別Li-O2電池研究領域的全球趨勢。結果顯示,該領域的電解質研究已從碳酸鹽轉向了甘醇二甲醚和二甲基亞砜,且大部分文獻都關注電池的循環(huán)穩(wěn)定性、容量和倍率性能。El-Bousiydy 等[121]使用基于關鍵字搜索文本挖掘算法,分析了1.3 萬份鋰和鈉離子電池科學文獻中研究人員的習慣,發(fā)現(xiàn)大多文獻缺乏對某些關鍵特征的系統(tǒng)報告,例如厚度、孔隙率、電解質體積、表面積和質量載荷。通過文本挖掘技術構建材料知識圖譜,能夠從海量材料科學文獻中進行信息抽取,建立實體之間的對應關系,從而自動化地提供材料科學領域信息。Nie 等[122]收集了超過290 萬篇材料領域的文章及其作者信息,結合機器學習和依賴匹配算法對材料知識圖譜中的主體進行高精度消歧,并使用剪枝策略實現(xiàn)高效信息匹配和搜索,從而構建了材料知識圖譜(MatKG)框架。利用該框架對LiFePO4進行自動化分析,關聯(lián)相關學者及其研究信息,建立了用于鋰離子電池的LiFePO4材料發(fā)展里程碑圖。

2.2.3.2 指導材料合成

優(yōu)化電解質低溫處理協(xié)議能夠最大程度地減少電池界面的不兼容性[123]。Mahbub等[124]使用基于規(guī)則和機器學習方法自動提取硫化物和氧化物的鋰固態(tài)電解質文本中實驗合成部分,然后通過神經網絡模型對每個段落中的單詞進行標記和分類,以預測句子中每個單詞的重要合成關鍵詞(例如材料名稱、操作名稱、數(shù)量、條件等),將這些分類的標記組合成一個數(shù)據庫對象并對其進一步數(shù)據挖掘以提取合成趨勢。該團隊從中識別出高電位氧化物基鋰石榴石電解質的低溫合成方法,降低了固態(tài)電解質組裝到電池過程中的界面復雜性。

2.2.3.3 建立材料數(shù)據庫

化 學 感 知 自 然 語 言 處 理 工 具 包ChemDataExtractor[125]是化學信息提取和文本處理的常用工具,在文本處理、標記化和詞性標注方面靈活而準確,能夠用于識別化學物質實體、相關屬性及其相互依賴關系。大型電池材料數(shù)據庫對于數(shù)據驅動的新材料發(fā)現(xiàn)至關重要,Huang 等[126]使用ChemDataExtractor,通過文章檢索、數(shù)據提取、數(shù)據清理、數(shù)據后處理和評估過程,從22 萬余篇電池研究論文中自動提取數(shù)據,然后創(chuàng)建了一個大型電池材料同源屬性數(shù)據庫,包括1.7 萬種化合物和對應的21萬多條電池材料屬性(容量、電壓、電導率、庫侖效率和能量)。

綜上所述,目前只有少數(shù)基于文本挖掘的工作專注于電化學儲能材料領域,其限制主要有以下三點:一是材料文本標注數(shù)據稀缺性,大多數(shù)現(xiàn)有的標注數(shù)據集都是以特定的材料領域而創(chuàng)建的,難以直接應用于其他材料體系;二是材料命名方法差異性,材料文本中存在各種專業(yè)術語,缺乏標準的命名方法容易導致歧義的產生;三是材料文本的復雜性,材料科學文本的專業(yè)性強可讀性差,使得文本處理異常困難。即使如此,隨著大型材料文本數(shù)據庫的建立和自然語言處理技術的發(fā)展,相信文本挖掘技術會對電化學儲能材料的發(fā)展起到重要的作用。

3 電化學儲能材料機器學習面臨的挑戰(zhàn)與對策

如前所述,結構化和非結構化數(shù)據驅動的機器學習模型已經在電化學儲能材料領域得到了廣泛應用,但仍存在一些問題制約著機器學習的進一步發(fā)展。本節(jié)對這些問題進行了系統(tǒng)性分析,并將其歸結為機器學習在電化學儲能材料領域應用面臨的三大矛盾,包括高維度和小樣本數(shù)據的矛盾、模型復雜性和易用性的矛盾以及學習結果與領域知識的矛盾。調和這些矛盾以提升機器學習模型在電化學儲能材料領域應用的準確性、易用性和可解釋性,將有助于進一步加速電化學儲能材料的研發(fā)與設計。

3.1 高維度與小樣本數(shù)據的矛盾與協(xié)調

電化學儲能材料數(shù)據通常是多源(如實驗數(shù)據、計算數(shù)據、生產數(shù)據和文獻數(shù)據)且異構的(如結構化和非結構化數(shù)據),不同來源數(shù)據的外部一致性很難得到保證,導致最終用于機器學習建模的數(shù)據集往往是小樣本的。尤其是文獻數(shù)據的標記難,小樣本問題更顯突出。此外,電化學儲能材料性能受多種物理/化學因素影響,研究人員總是定義大量描述符來表示復雜的材料性能驅動機制,這又導致機器學習建模使用的數(shù)據集通常是高維度的。較小的數(shù)據量和較高的維度容易使得機器學習模型過度擬合現(xiàn)有數(shù)據,從而影響機器學習模型的泛化性能和可解釋性,故電化學儲能材料領域機器學習面臨著高維度和小樣本數(shù)據的矛盾。

正如第2節(jié)中指出的,從數(shù)據的源頭抓起,注重反例數(shù)據的收集、多尺度數(shù)據的收集,積累更加豐富多樣的結構化和非結構化數(shù)據。同時,提高各種數(shù)據的集成與共享,克服其質量參差不齊、數(shù)據標注不足、缺乏有效融合以及大型標準數(shù)據集建設不足等問題,是調和上述矛盾的可行和必經途徑。從技術上來說,目前普遍的做法是通過特征工程或選擇適用于小樣本高維度數(shù)據的學習器來解決上述問題。其中,如3.1.2 節(jié)所述,特征工程方法旨在通過降低特征維度或構建“更好”的描述符來削弱高維度數(shù)據集對機器學習模型性能的負面影響。支持向量機是通過核函數(shù)將低維數(shù)據投影到高維空間中進行劃分,在形式上更容易處理高維特征的數(shù)據集[127]。例如,F(xiàn)ujimura 等[87]利用支持向量機對LISICON 型固態(tài)電解質材料的離子電導率進行預測,平均絕對誤差為0.373 S/cm。然而,在處理一些復雜的小樣本高維度數(shù)據問題時,這些方法的效果并不理想。因此,研究人員提出數(shù)據增強、主動學習和遷移學習等方法解決電化學儲能材料數(shù)據的小樣本問題來調和這一矛盾。數(shù)據增強技術基于現(xiàn)有數(shù)據,通過物理增強、統(tǒng)計學和無監(jiān)督生成模型等方法生成更多新數(shù)據[128]。例如,Naaz 等[129]設計了一種基于生成對抗網絡的數(shù)據增強方法用于預測鋰離子電池的充電狀態(tài)和健康狀態(tài);Hsu等[130]利用生成對抗網絡框架來學習和生成固體氧化物燃料電池電極的微觀結構。主動學習利用預構建的機器學習預測模型迭代地對候選化學空間進行自適應采樣,從而為代價高昂的模擬計算或實驗驗證提供最有價值的候選樣本,以加速新型高性能材料的篩選[131]。例如,Verduzco 等[55]利用主動學習方法指導高離子電導率的石榴石的合成,從而減少了30%的實驗次數(shù)。遷移學習旨在通過遷移包含在相關領域中的知識來提高目標學習器在目標領域上的性能,以減少目標學習器對目標數(shù)據集大數(shù)據量的依賴[132]。例如,Wang 等[133]基于CGCNN 的遷移學習模型在低精度PBE 數(shù)據集預訓練,到高精度HSE06 數(shù)據集進行參數(shù)微調預測晶體結構的高精度帶隙,從而克服了小數(shù)據集導致的精度低和過擬合的問題。

3.2 模型復雜性與易用性的矛盾與統(tǒng)一

機器學習的最初目標是從數(shù)據中提取可解釋的知識,并在追求算法準確性的同時強調其可解釋性[127]。以線性回歸、偏最小二乘法等多元線性模型為主的機器學習算法可以構建多個因素與目標屬性之間的線性關系,模型簡單、易于實現(xiàn)且學習結果容易理解。但是,電化學儲能材料內部復雜的電化學行為導致線性模型的預測精度通常較低,而神經網絡(NN)和支持向量機(SVM)等模型由于能夠建立影響因素與目標性能間的復雜非線性關系,在電化學儲能材料研究中得到了更廣泛的應用。然而,這些非線性模型大都是“黑箱”模型,其內部原理復雜、結果難以解釋,且通常需要大量繁瑣的調參工作才能獲得最優(yōu)性能。因此,機器學習在電化學儲能材料領域的應用中存在著模型復雜性和易用性的矛盾。

降低材料專家使用模型的復雜性和提高復雜模型的可理解性是提高模型易用性的有效途徑。自動機器學習(auto machine learning,AutoML)是在有限的計算資源內全部或部分配置適用于機器學習方法的參數(shù),主要通過隨機搜索、進化優(yōu)化、貝葉斯優(yōu)化、元學習等方法減少模型的選擇、優(yōu)化以及實現(xiàn)過程中的人工參與,從而自動構建最佳機器學習模型[134-135]。例如,Dunn 等[136]提出自動機器學習模型Automatminer 以預測無機固體材料的性能。該模型利用Matminer[57]生成特定材料的描述符,自動地執(zhí)行數(shù)據預處理和特征工程,并通過廣泛的內部數(shù)據測試來確定最佳機器學習模型。而機器學習的可解釋性是機器學習模型以人類可理解術語向人類提供解釋的能力。在計算機領域,機器學習的可解釋性可使得機器學習模型的結構和預測結果兩方面都易于理解,從而提高機器學習模型的易用性。例如:規(guī)則提取方法采用“如果輸入特征x則被歸類為y類”的解釋方式,將機器學習中隱含的知識以一種易于理解的方式表達,以提高機器學習方法的可解釋性[137]。目前,可解釋性方法還沒有在電化學儲能材料領域得到應用。未來可以引入對模型決策過程解釋的內部解釋和對模型決策結果解釋的外部解釋來共同提高機器學習應用方法的可解釋性。內部解釋一般把已訓練好的機器學習/深度學習等模型的內部決策結構(如網絡結構、參數(shù)權重、特征向量等)映射成易于理解的If-Then-Else規(guī)則或內部決策過程的權重可視化展示[138]。外部解釋可將不同的特征組合輸入到已訓練好的模型,來找到輸入特征與模型決策結果之間的關系,以發(fā)現(xiàn)模型的決策規(guī)則來提高模型的可解釋性;也可將更復雜的模型轉換為易于理解的模型,再從中抽取規(guī)則,使得抽取的規(guī)則對模型有重現(xiàn)能力[139]。此外,根據提取的規(guī)則構建概念嵌入表達,再將規(guī)則表達嵌入其他模型中,也有望在保證預測精度的前提下,提高模型的可解釋性。

3.3 模型學習結果與領域專家知識的矛盾與融合

目前,廣泛應用于電化學儲能材料發(fā)現(xiàn)和性能預測的機器學習模型大都是純數(shù)據驅動的,嚴重依賴于樣本數(shù)據進行學習,對材料領域知識的重視度不夠,導致在實際應用中仍然會出現(xiàn)機器學習結果與領域專家知識相矛盾的現(xiàn)象。針對該問題,一方面,可以通過描述符定義和選擇過程[75]將材料專家的領域知識融入到問題定義中,從而指導模型學習領域知識。例如,Li 等[140]提出了“中心-環(huán)境”(center-environment,CE)特征構建模型,通過將基本屬性集合映射到由組分和結構信息組成的基集中來構建特征,用于預測尖晶石氧化物的形成能、晶格參數(shù)和帶隙;Weng等[141]利用符號回歸得到了描述符μ/t(μ為八面體因子,t為容忍因子),并在該描述符的指導下成功地合成了五種新的氧化物鈣鈦礦;Gong 等[142]通過機器學習和理論模型相結合來預測二維金屬材料上的鋰吸附能,提高了模型的泛化能力。另一方面,在機器學習模型構建過程中嵌入領域知識是一個有效的解決方案,典型的算法有貝葉斯網絡和模糊學習。其中,貝葉斯網絡通過在訓練過程中結合先驗知識來確定網絡拓撲結構[143],而模糊學習則使用隸屬函數(shù)來整合專家經驗[144]。例如,Ren等[145]通過施加基于物理場的約束來創(chuàng)建參數(shù)化過程模型,從而將過程優(yōu)化變量與所得材料的體積和界面特性耦合起來;再添加額外的推理層將過程變量和材料屬性之間的聯(lián)系擴展到器件性能,并利用神經網絡代理模型預測電流電壓曲線;最后,通過貝葉斯網絡推斷結果優(yōu)化太陽能電池工藝參數(shù)。此外,可通過機器學習結果建立知識庫與電池材料專家先驗知識共同指導材料開發(fā)。例如,Martin等[146]提出一種將領域專家與機器學習相結合構建知識庫的方法來實現(xiàn)兩者的相互補充,從而提高專家系統(tǒng)的推理能力。

目前,絕大部分的機器學習方法是純數(shù)據驅動的,機器學習的全過程僅圍繞著提升模型精度這一單一目標展開,往往忽略了領域知識的重要性,這是導致上述三大矛盾的主要原因之一?;诖?,為充分發(fā)揮材料領域知識在機器學習建模中的作用,本團隊提出的融合加權評分領域專家知識的多層級特征選擇方法[75]和分而治之的自適應機器學習建模方法[147],已經初步證明了領域知識嵌入在改善機器學習模型預測精度和可解釋性方面的有效性。進一步地,將領域知識符號化表示為機器學習模型的前處理條件、建模約束或目標函數(shù)、后解釋規(guī)則等并嵌入到機器學習全生命周期過程中,同時結合知識、數(shù)據、算法和算力四大要素,構建具有一定可解釋性的領域知識嵌入的機器學習新模型,將有望系統(tǒng)性地解決上述三大矛盾。

4 結 語

數(shù)據驅動材料科學的最新研究表明,機器學習技術的應用可以極大地促進電化學儲能材料的設計和發(fā)現(xiàn)。本文首先介紹了可用于電化學儲能材料研究的數(shù)據資源,并對電化學儲能材料專用數(shù)據庫發(fā)展方向提出建議,如收集實驗反例數(shù)據和材料多尺度數(shù)據、共享圖像和文本等非結構化數(shù)據、設計數(shù)據質量檢測方案;隨后,詳細闡述了結構化數(shù)據驅動下的機器學習工作流程及其在電化學儲能材料領域的最新應用,以及基于圖形、圖像、文本的非結構化數(shù)據驅動下的機器學習在電化學儲能材料領域的研究進展;最后,總結了機器學習在電化學儲能材料領域應用所面臨的三大矛盾和相關的解決策略,并提出進一步構建面向機器學習全流程的“領域知識嵌入的機器學習方法”,將有望系統(tǒng)地調和上述三大矛盾。本文對機器學習在電化學儲能領域應用的總結和未來發(fā)展策略的提出,將為實現(xiàn)高性能電化學儲能材料的精準、高效研發(fā)指明方向。

猜你喜歡
電化學儲能機器
《“十四五”新型儲能發(fā)展實施方案》出臺
機器狗
考慮用戶優(yōu)先級的云儲能用電策略優(yōu)化
機器狗
電化學中的防護墻——離子交換膜
儲能: 碳中和下的新賽道
未來機器城
2018年高考中的電化學試題大掃描
電化學發(fā)光分析法測定糖尿病相關二肽
參考答案與解析
富川| 阳泉市| 灵台县| 武山县| 万盛区| 阿拉尔市| 进贤县| 广南县| 道真| 阳高县| 汶川县| 九龙县| 雷波县| 甘泉县| 亚东县| 丰都县| 文成县| 家居| 施秉县| 宁明县| 铁力市| 台东市| 揭阳市| 寿阳县| 古浪县| 慈利县| 怀仁县| 威远县| 翼城县| 合江县| 大同市| 平塘县| 大埔区| 尚志市| 黄梅县| 措勤县| 莎车县| 岐山县| 华亭县| 眉山市| 衢州市|