黃 鑫,張朝陽(yáng)
(中國(guó)工程物理研究院化工材料研究所,四川 綿陽(yáng) 621999)
為滿足現(xiàn)代武器對(duì)含能化合物綜合性能的高需求,科研人員以實(shí)驗(yàn)探索與理論計(jì)算的方式研究高性能含能化合物,產(chǎn)生了大量極具價(jià)值的包括含能化合物設(shè)計(jì)、合成、表征在內(nèi)的數(shù)據(jù)[1-4]。例如,含能化合物的分子模擬研究能夠獲得包括幾何結(jié)構(gòu)、電荷分布、熱力學(xué)性質(zhì)、爆炸/分解反應(yīng)路徑以及基于定量構(gòu)效關(guān)系(QSPR)的性能預(yù)測(cè)模型等[5-6];含能化合物的合成與表征研究能夠獲得包括化學(xué)反應(yīng)路徑與機(jī)理、分子/晶體結(jié)構(gòu)、能量安全特性、力熱性質(zhì)等數(shù)據(jù)[7-9];含能化合物在武器裝藥中涉及到配方設(shè)計(jì)和評(píng)估等研究,涵蓋了包括黏合劑、增塑劑、鍵合劑、安定劑、鈍感劑和工藝助劑等物質(zhì)的相關(guān)性能數(shù)據(jù)[10]。
這些含能化合物及其相關(guān)物的實(shí)驗(yàn)與計(jì)算數(shù)據(jù)分散在各種報(bào)告、期刊、專利、書(shū)籍、特殊文獻(xiàn)中,數(shù)據(jù)收集與數(shù)據(jù)質(zhì)量甄別困難較大;且出于數(shù)據(jù)敏感性與涉密性的原因,現(xiàn)有的含能化合物實(shí)驗(yàn)數(shù)據(jù)庫(kù)通常只向特定的組織和人員開(kāi)放訪問(wèn)權(quán)限,如北約彈藥安全信息分析中心的Energetic Materials Compendium(EMC)數(shù)據(jù)庫(kù)[11]以及德國(guó)ICT 熱化學(xué)數(shù)據(jù)庫(kù)等。盡管在醫(yī)藥[12]、化學(xué)化工[13]、能源與金屬材料[14]等開(kāi)放研究的熱點(diǎn)領(lǐng)域已經(jīng)建立了規(guī)模較大的量子化學(xué)計(jì)算數(shù)據(jù)庫(kù)并實(shí)現(xiàn)了較高程度的數(shù)據(jù)開(kāi)放共享,目前國(guó)內(nèi)外尚缺少專門(mén)的數(shù)據(jù)庫(kù)用于收集含能化合物量子化學(xué)計(jì)算產(chǎn)生的數(shù)據(jù),以供研究人員獲取與使用。隨著數(shù)據(jù)驅(qū)動(dòng)下的材料智能設(shè)計(jì)時(shí)代的到來(lái),含能化合物的量子化學(xué)理論計(jì)算、高通量虛擬篩選技術(shù)等愈發(fā)成熟,能夠?qū)崿F(xiàn)對(duì)含能化合物的結(jié)構(gòu)與性質(zhì)進(jìn)行高精度的分析和預(yù)測(cè)。在此基礎(chǔ)上建立含能化合物量子化學(xué)數(shù)據(jù)庫(kù),收集含能化合物在高精度計(jì)算水平下的量子化學(xué)數(shù)據(jù),既能夠避免大量重復(fù)性的計(jì)算研究與資源消耗,也保證了數(shù)據(jù)質(zhì)量以便于進(jìn)行深入分析及知識(shí)挖掘。
量子化學(xué)計(jì)算研究含能化合物能夠獲得的數(shù)據(jù)涵蓋面廣并且針對(duì)特定的能量安全性質(zhì),很難進(jìn)行詳盡的列舉,感興趣的研究人員可以參考Peter Politzer等[15]以及肖鶴鳴教授課題組[16-17]出版的含能化合物理論計(jì)算與設(shè)計(jì)專著。量子化學(xué)計(jì)算是一種包含必要物理過(guò)程的嚴(yán)格方法,能夠提供含能化合物分子設(shè)計(jì)的微觀尺度信息,因此選擇高精度的含能化合物量子化學(xué)計(jì)算數(shù)據(jù)、建立含能化合物量子化學(xué)計(jì)算數(shù)據(jù)庫(kù),對(duì)于含能化合物的智能分子設(shè)計(jì)具有重要意義。
本文主要總結(jié)并梳理近年來(lái)量子化學(xué)計(jì)算所獲得的含能化合物關(guān)鍵性結(jié)構(gòu)和性質(zhì)數(shù)據(jù)種類、數(shù)據(jù)庫(kù)與高通量虛擬篩選相結(jié)合的含能化合物分子設(shè)計(jì),以期為含能化合物量子化學(xué)計(jì)算數(shù)據(jù)的產(chǎn)生與標(biāo)準(zhǔn)化制定、數(shù)據(jù)庫(kù)的概念設(shè)計(jì)及潛在的實(shí)際應(yīng)用提供有益的參考。此外,以本課題組開(kāi)發(fā)的含能化合物量子化學(xué)高通量計(jì)算平臺(tái)(EM Studio)與含能化合物量子化學(xué)數(shù)據(jù)的數(shù)據(jù)庫(kù)(EM Database)為例,提供含能化合物量子化學(xué)數(shù)據(jù)從產(chǎn)生、收集與開(kāi)放共享的具體案例。
數(shù)據(jù)質(zhì)量是數(shù)據(jù)庫(kù)建設(shè)的重點(diǎn)工作,包括數(shù)據(jù)的準(zhǔn)確性、合規(guī)性、完整性、及時(shí)性、一致性等維度。量子化學(xué)計(jì)算基于量子力學(xué)的基本原理和方法研究化學(xué)問(wèn)題,通過(guò)對(duì)物理過(guò)程的精確計(jì)算和預(yù)測(cè)得到材料的性質(zhì)。含能化合物結(jié)構(gòu)和性能的研究不僅涉及到從常規(guī)狀態(tài)到高溫高壓的極端條件,也涉及到從基態(tài)到快速反應(yīng)的燃燒和爆轟過(guò)程。量子化學(xué)計(jì)算作為理解、預(yù)測(cè)以及設(shè)計(jì)含能化合物的基礎(chǔ)方法,其準(zhǔn)確性對(duì)于所生成數(shù)據(jù)的有效性極為重要。從頭算和半經(jīng)驗(yàn)方法、密度泛函方法等均在含能化合物的研究中獲得應(yīng)用,其中基態(tài)下分子與晶體的結(jié)構(gòu)與性質(zhì)研究最為基礎(chǔ)。研究人員也提出了基于量子化學(xué)計(jì)算結(jié)果的定量構(gòu)效關(guān)系模型,例如基于表面靜電勢(shì)的密度校正模型[18]、基于等鍵反應(yīng)的生成焓計(jì)算模型[19]、基于引發(fā)鍵解離能的感度預(yù)測(cè)模型[20]等。適用于含能化合物(包括共價(jià)、離子化合物等)的量子化學(xué)計(jì)算理論方法與性質(zhì)預(yù)測(cè)模型不同,其中對(duì)含有CHNO 元素的中性分子的方法發(fā)展較為成熟。下面以含有CHNO 元素的中性含能分子為例,梳理量子化學(xué)計(jì)算所能夠得到的基礎(chǔ)量子化學(xué)計(jì)算數(shù)據(jù)。
目前,研究人員廣泛使用包括GAUSSIAN、ORCA、VMD、Multiwfn 等程序軟件完成含能分子的量子化學(xué)計(jì)算與結(jié)果處理。借助統(tǒng)計(jì)熱力學(xué)理論,可以獲得含能分子在不同溫度下的性質(zhì)參數(shù),如焓、熵、自由能、生成熱、比熱等性質(zhì)。由于密度泛函方法的結(jié)果可靠、計(jì)算耗時(shí)較低,因此在含能化合物的結(jié)構(gòu)優(yōu)化、振動(dòng)分析以及熱力學(xué)性質(zhì)計(jì)算方面獲得了廣泛使用。密度泛函方法的泛函與基組選擇對(duì)于計(jì)算耗時(shí)以及結(jié)果的準(zhǔn)確性有重要影響,研究人員對(duì)計(jì)算方法的選擇并沒(méi)有統(tǒng)一標(biāo)準(zhǔn)。例如,廣泛使用的泛函包括交換相關(guān)泛函PBE、雜化泛函B3LYP、PBE0、M06 系列,經(jīng)驗(yàn)彌散泛函wB97XD 等;對(duì)基組的選擇則有Pople系列基組以及Dunning 相關(guān)一致性基組等。而對(duì)于某些熱力學(xué)參數(shù)進(jìn)行高精度的計(jì)算,則需要使用組合方法,例如CCSD(T)外推至CBS 完備基組方法以及Gaussian-4(G4)組合方法等。
分子的幾何結(jié)構(gòu)數(shù)據(jù)主要記錄了分子中每個(gè)原子的元素種類和三維空間區(qū)域中的坐標(biāo)值,可以進(jìn)一步得到鍵長(zhǎng)、鍵角、二面角、分子密度、體積、表面積等信息。其記錄格式有多種,能夠被計(jì)算化學(xué)軟件讀取的通用文件格式包括xyz 文件格式、pdb 文件格式、mol文件格式等。
密度泛函計(jì)算方法將電子密度作為最基本的參量,用于描述和確定分子體系的性質(zhì)。通過(guò)電子密度能夠與勢(shì)能及能量有關(guān)的性質(zhì)建立關(guān)聯(lián),包括前線軌道能級(jí)(最高占據(jù)軌道能量EHOMO、最低未占據(jù)軌道能量ELUMO、能級(jí)差)、化學(xué)鍵級(jí)、原子電荷、分子極矩、電離能等。
含能分子的反應(yīng)性包括熱穩(wěn)定性、機(jī)械感度等。對(duì)于熱穩(wěn)定性而言,鍵解離能的數(shù)值代表了化學(xué)鍵的強(qiáng)弱,與熱分解性質(zhì)具有關(guān)聯(lián)性。對(duì)于機(jī)械感度而言,分子的靜電勢(shì)反映了分子的電荷分布、極值點(diǎn)以及正負(fù)電荷分離的情況,而不均衡的靜電勢(shì)分布往往導(dǎo)致亞穩(wěn)定性與機(jī)械感度高。
熱力學(xué)性質(zhì)主要分為兩類,其數(shù)值與計(jì)算所規(guī)定的熱力學(xué)系綜條件(溫度和壓力)有關(guān),分別為在絕對(duì)零度條件下計(jì)算得到的分子生成焓、零點(diǎn)振動(dòng)能、焓值、吉布斯自由能,以及經(jīng)過(guò)溫度和壓力校正后的特定溫度與壓力條件下的上述數(shù)據(jù)。
密度泛函計(jì)算方法能夠得到包括基態(tài)和激發(fā)態(tài)的譜學(xué)性質(zhì)。例如,使用微擾理論方法能夠得到包括紅外、Raman 在內(nèi)的振動(dòng)光譜數(shù)據(jù)以及包括NMR 在內(nèi)的磁譜數(shù)據(jù);而使用電子/中子激發(fā)計(jì)算則能夠獲得非平衡態(tài)的譜學(xué)性質(zhì)數(shù)據(jù)。
由此可見(jiàn),量子化學(xué)以及結(jié)果的進(jìn)一步處理計(jì)算能夠獲得種類豐富的數(shù)據(jù)信息。這也對(duì)數(shù)據(jù)的產(chǎn)生與收集提出了具體的要求:首先,計(jì)算方法可靠性的驗(yàn)證是保證數(shù)據(jù)質(zhì)量的前提,需要在計(jì)算研究中選擇具有魯棒性的方法以獲得有意義的數(shù)據(jù);其次,數(shù)據(jù)的收集需要設(shè)計(jì)專用的表結(jié)構(gòu)與編碼規(guī)則,實(shí)現(xiàn)標(biāo)準(zhǔn)化與規(guī)范化。
數(shù)據(jù)庫(kù)是為滿足具體的信息要求而設(shè)計(jì)的一個(gè)邏輯相關(guān)數(shù)據(jù)及其描述的共享集。數(shù)據(jù)庫(kù)含有大量數(shù)據(jù)集、能滿足多用戶同時(shí)使用。除大量的紙質(zhì)印刷版數(shù)據(jù)集手冊(cè)外,現(xiàn)階段分子與材料的數(shù)據(jù)庫(kù)主要為可開(kāi)放獲取的網(wǎng)絡(luò)資源,表1 匯總了其中的部分?jǐn)?shù)據(jù)庫(kù)網(wǎng)絡(luò)資源,其主要分為計(jì)算和實(shí)驗(yàn)兩大類型。而從所收錄的數(shù)據(jù)信息做區(qū)分,大致分為如下4 類:(1)計(jì)算模擬 數(shù) 據(jù) 庫(kù),包 括Materials Project、AFLOWlib、Pub-ChemQC、Open Quantum Materials Database(OQMD)等;(2)分子信息學(xué)庫(kù),包括GDB、ChEMBL、ChemSpider、PubChem 等;(3)晶體結(jié)構(gòu)信息庫(kù),包括CSD、ICSD 等;(4)化學(xué)反應(yīng)信息庫(kù),包括Reaxys、Sci-Finder、USPTO/Lowe 等[21]。與之相比,現(xiàn)有的含能化合物數(shù)據(jù)庫(kù)數(shù)量有限且獲取難度較高,目前能夠公開(kāi)獲取的含能化合物性能數(shù)據(jù)主要集中在紙質(zhì)印刷版數(shù)據(jù)手冊(cè)中。表2 總結(jié)了部分含能化合物及其相關(guān)物綜合性能的數(shù)據(jù)手冊(cè)信息,其中收錄的數(shù)據(jù)以分子或者晶體的實(shí)驗(yàn)性質(zhì)結(jié)果為主,且不同手冊(cè)的數(shù)據(jù)所采用測(cè)試標(biāo)準(zhǔn)不同、數(shù)值間差異化比較顯著,數(shù)據(jù)質(zhì)量的甄別困難較高。而基于分子模擬,尤其是量子化學(xué)計(jì)算的含能化合物數(shù)據(jù)集尚未見(jiàn)報(bào)道。
表1 可開(kāi)放獲取的分子與材料的數(shù)據(jù)庫(kù)Table 1 Open access databases of molecules and materials
表2 部分含能化合物及其相關(guān)物綜合性能的數(shù)據(jù)手冊(cè)Table 2 Handbooks of properties of some energetic compounds and related materials
材料傳統(tǒng)的高通量篩選研究方式以實(shí)驗(yàn)為主,遵循與“設(shè)計(jì)-制造-測(cè)試-分析”的DMTA 循環(huán)模式類似的研發(fā)步驟,處理樣品數(shù)量大,危險(xiǎn)系數(shù)高、研究周期長(zhǎng)、測(cè)試數(shù)據(jù)波動(dòng)廣且需要大量的資源投入;與之相比,高通量虛擬篩選能夠以高效的方式對(duì)化合物的結(jié)構(gòu)設(shè)計(jì)空間(~1026數(shù)量級(jí))進(jìn)行探索。結(jié)合特定的篩選標(biāo)準(zhǔn)與自動(dòng)化技術(shù),能夠更進(jìn)一步提升研發(fā)效率、縮短DMTA 循環(huán)周期,將化合物的設(shè)計(jì)效率推向新的高度。
高通量虛擬篩選流程通常由3 個(gè)步驟組成[30]:首先,基于電子結(jié)構(gòu)以及熱力學(xué)參數(shù)的計(jì)算獲得包含材料性質(zhì)的虛擬數(shù)據(jù)集;然后,通過(guò)合理的存儲(chǔ)形式將這些性質(zhì)信息在數(shù)據(jù)庫(kù)系統(tǒng)中進(jìn)行收集;最后基于所關(guān)注的特定性能對(duì)虛擬數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)分析或篩選、從中得到性質(zhì)新穎的材料或者獲得具有符合統(tǒng)計(jì)規(guī)律以及物理意義的新認(rèn)識(shí)。必須指出的是,整個(gè)高通量虛擬篩選流程需要得到實(shí)驗(yàn)驗(yàn)證,以證明所構(gòu)建的流程具有準(zhǔn)確合理性。這樣的反饋機(jī)制有利于構(gòu)建更高質(zhì)量的數(shù)據(jù)集以及提升篩選流程的預(yù)測(cè)能力與泛化性質(zhì)。
含能化合物的高通量虛擬篩選研究,以含有CHNOF 元素的中性分子與晶體為主。由于有實(shí)驗(yàn)報(bào)道的含能化合物數(shù)量有限(不超過(guò)104),目前含能化合物虛擬數(shù)據(jù)集的構(gòu)建方式主要有2 種:基于啟發(fā)式的母體-取代基分子生成算法獲得數(shù)據(jù)集、以及合并含能與非含能化合物的擴(kuò)展數(shù)據(jù)集?;趩l(fā)式的母體-取代基分子生成工作方面,張朝陽(yáng)課題組[31]從劍橋晶體數(shù)據(jù)庫(kù)中收集并篩選了超過(guò)6 萬(wàn)種包含苯環(huán)結(jié)構(gòu)的CHNO 分子的晶體結(jié)構(gòu),在結(jié)構(gòu)拆分獲得母體/取代基的基礎(chǔ)上進(jìn)行了分子生成,獲得108數(shù)量級(jí)的潛在分子;在此基礎(chǔ)上建立了基于生成焓、密度、鍵解離能以及分子平面度的篩選模型用于評(píng)估分子的性能(如圖1a 所示)。結(jié)果表明,目標(biāo)分子集合(A2)中六硝基苯是含苯環(huán)結(jié)構(gòu)含能化合物中能量水平最高的而三氨基三硝基苯(TATB)具有最優(yōu)的能量與安全綜合性能。劉英哲等[32]以母體-取代基分子生成了約105數(shù)量級(jí)的含有CHNOF 元素的分子數(shù)據(jù)集,建立虛擬篩選模型最終獲得綜合性能的10 個(gè)潛在的含能化合物結(jié)構(gòu)(如圖1b 所示)。相似的母體-取代基研究思路也被用于設(shè)計(jì)零氧平衡的籠型骨架含能分子[33]。宋思維等[34]使用母體-取代基分子生成的模式獲得約103數(shù)量級(jí)的含有氮雜環(huán)的分子數(shù)據(jù)集,建立虛擬篩選模型獲得潛在的高能低感熔鑄含能化合物。
圖1 基于啟發(fā)式的母體-取代基分子生成(a)[31]以及含能材料高通量篩選(b)[32]Fig.1 Molecule generation works from heuristic base-substituent enumeration method(a)[31],and high-throughput screening of energetic materials (b)[32]
擴(kuò)展數(shù)據(jù)集方面,麥吉爾大學(xué)的郭鴻課題組[35]收集了PubChem 數(shù)據(jù)庫(kù)中的超過(guò)108個(gè)分子結(jié)構(gòu),使用高通量虛擬篩選獲得了262 種超過(guò)1.5 倍TNT 當(dāng)量的潛在含能化合物(圖2a)。四川大學(xué)蒲雪梅課題組[36]從劍橋晶體數(shù)據(jù)庫(kù)中獲得了7871 種共晶的晶體結(jié)構(gòu)數(shù)據(jù)(包括55 種含能共晶),使用圖神經(jīng)網(wǎng)絡(luò)建立了虛擬篩選模型,并針對(duì)含能共晶進(jìn)行了模型參數(shù)微調(diào)以達(dá)到更好的預(yù)測(cè)效果(圖2b)。南洋理工大學(xué)的Li Shuzhou 課 題 組[37]也 開(kāi) 發(fā) 了2 種 空 間 矩 陣 方 法,對(duì)PubChem 數(shù)據(jù)集中的CHNO 分子進(jìn)行了晶體密度以及固相生成焓的篩選,并獲得了56 種潛在的含能分子。
圖2 基于擴(kuò)展數(shù)據(jù)集的含能材料高通量篩選工作,包括PubChem 數(shù)據(jù)庫(kù)(a)[35]以及劍橋晶體數(shù)據(jù)庫(kù)(b)[36]Fig.2 High-throughput screening of energetic materials based on extended datasets,including PubChem database (a)[35]and Cambridge Crystallographic Data Centre (b)[36]
上述研究為含能化合物的設(shè)計(jì)提供了有益的研究思路,但也存在一定的局限性。首先,現(xiàn)階段含能化合物的性能預(yù)估廣泛使用經(jīng)驗(yàn)?zāi)P瞳@得預(yù)測(cè)參數(shù),如密度、生成焓、爆速等;在虛擬篩選流程中可能存在經(jīng)驗(yàn)?zāi)P偷姆夯阅懿蛔?,?dǎo)致新型含能化合物性能預(yù)測(cè)結(jié)果有較大誤差。其次,研究人員使用母體-取代基模式構(gòu)建含能化合物數(shù)據(jù)集,所選用的取代基大多數(shù)為致爆基團(tuán),導(dǎo)致生成的化合物局限于種類有限的取代基,缺少結(jié)構(gòu)的豐富性。此外,現(xiàn)階段尚缺乏開(kāi)放共享的含能分子結(jié)構(gòu)數(shù)據(jù)集,也在一定程度上限制了含能化合物的分子生成、結(jié)構(gòu)設(shè)計(jì)。
量子化學(xué)計(jì)算能夠獲得電子結(jié)構(gòu)、能量特性以及熱力學(xué)性質(zhì)的基礎(chǔ)數(shù)據(jù)[38]。與實(shí)驗(yàn)數(shù)據(jù)相比,量子化學(xué)計(jì)算結(jié)果的可重復(fù)性好、易于批量化生成與數(shù)據(jù)開(kāi)放共享。因此基于量子化學(xué)計(jì)算的高通量虛擬篩選已經(jīng)在能源材料、醫(yī)藥等領(lǐng)域得到了應(yīng)用。例如,Nicolas Mounet 等[39]從無(wú)機(jī)化學(xué)晶體結(jié)構(gòu)數(shù)據(jù)庫(kù)(ICSD)以及晶體開(kāi)放數(shù)據(jù)庫(kù)(COD)中收集了超過(guò)10 萬(wàn)個(gè)晶體結(jié)構(gòu),然后基于高通量的密度泛函計(jì)算篩選,從中獲得了5619 種能夠剝離出二維層狀結(jié)構(gòu)的母體材料。日 本 理 化 學(xué) 研 究 所RIKEN 的Maho Nakata 等[40-41]利用PM6 以及B3LYP/6-31G*方法計(jì)算了PubChem 數(shù)據(jù)庫(kù)中收錄的9100 萬(wàn)分子的幾何結(jié)構(gòu)以及HOMO-LUMO 能隙,并利用分子指紋譜以及機(jī)器學(xué)習(xí)算法得到了HOMO-LUMO 能隙的預(yù)測(cè)模型。上述領(lǐng)域的應(yīng)用為含能化合物的量子化學(xué)虛擬篩選提供了有益的研究思路。
由此可見(jiàn),構(gòu)建含能材料專用的數(shù)據(jù)庫(kù)是高通量篩選與智能設(shè)計(jì)的前提條件。從通用的化學(xué)與材料數(shù)據(jù)庫(kù)中提取子結(jié)構(gòu)、使用母體-取代基的分子生成構(gòu)建虛擬的含能化合物的設(shè)計(jì)空間,是現(xiàn)階段主要采用的2 種技術(shù)途徑。然而上述方法存在較大的局限性:首先,含能化合物的能量與安全性能很少在通用數(shù)據(jù)庫(kù)中收錄,可開(kāi)放獲取的數(shù)據(jù)條目有限;其次,界定有機(jī)化合物為含能化合物的標(biāo)準(zhǔn)主要是含有致爆基的子結(jié)構(gòu)或者基于分子結(jié)構(gòu)的爆轟性質(zhì)預(yù)測(cè)模型外推,這些篩選標(biāo)準(zhǔn)的可靠性需要進(jìn)一步驗(yàn)證;此外,含能材料的量子化學(xué)計(jì)算是一種構(gòu)建數(shù)據(jù)庫(kù)的優(yōu)勢(shì)途徑,數(shù)據(jù)包括分子以及晶體2 種體系,現(xiàn)階段含能晶體結(jié)構(gòu)的理論計(jì)算尚有待系統(tǒng)的方法驗(yàn)證并制定基準(zhǔn)方法。
對(duì)于含能材料性能的實(shí)驗(yàn)測(cè)試,國(guó)內(nèi)外均建立了較為系統(tǒng)的國(guó)家軍用標(biāo)準(zhǔn),對(duì)樣品狀態(tài)、測(cè)試方法以及數(shù)據(jù)收集的規(guī)范化提出了規(guī)定。對(duì)于含能化合物的量子化學(xué)計(jì)算,研究體系包括分子和晶體,研究人員使用的理論方法多樣,且計(jì)算結(jié)果在文獻(xiàn)中呈現(xiàn)方式以及必要數(shù)據(jù)條目的完備性差異大。量子化學(xué)計(jì)算數(shù)據(jù)庫(kù)的建立,首先需要確定研究體系以及適用于該體系的理論方法與預(yù)測(cè)模型,進(jìn)而選擇精度高且成本低的計(jì)算方法,針對(duì)性地建立數(shù)據(jù)生成與格式化存儲(chǔ)的標(biāo)準(zhǔn)與規(guī)范;其次,與化學(xué)與材料的通用數(shù)據(jù)庫(kù)不同,含能材料數(shù)據(jù)庫(kù)主要收錄含能化合物的結(jié)構(gòu)與性質(zhì)數(shù)據(jù),因此開(kāi)發(fā)時(shí)需要對(duì)含能化合物進(jìn)行界定,選擇的標(biāo)準(zhǔn)包括分子的性質(zhì)(包括元素組成、密度、爆速等),以及能量安全性質(zhì)數(shù)值等。例如,對(duì)于元素類型僅限CHNO 的中性分子,使用B3LYP/6-31G(d,p)方法進(jìn)行分子幾何結(jié)構(gòu)的優(yōu)化,以及使用CBS-4M 方法進(jìn)行分子能量的分析是目前比較可靠的量子化學(xué)計(jì)算方法;而使用K-J 方程也能夠較為準(zhǔn)確地獲得爆轟性質(zhì)數(shù)據(jù)[42]。
量子化學(xué)計(jì)算含能化合物能夠獲得種類豐富的性質(zhì)數(shù)據(jù)(詳見(jiàn)第1 部分),構(gòu)建數(shù)據(jù)庫(kù)需要對(duì)選擇數(shù)據(jù)模型以結(jié)構(gòu)化地組織與收錄數(shù)據(jù)。關(guān)系數(shù)據(jù)模型以關(guān)系表的形式組織數(shù)據(jù),具有很高的數(shù)據(jù)獨(dú)立性,是目前數(shù)據(jù)庫(kù)主流的數(shù)據(jù)模型。使用關(guān)系數(shù)據(jù)模型建立的數(shù)據(jù)庫(kù)需要滿足特定的規(guī)范,常見(jiàn)的關(guān)系數(shù)據(jù)庫(kù)需要滿足至第三范式的條件即可(即數(shù)據(jù)表不存在重復(fù)組(滿足第一范式)、不存在部分依賴(滿足第二范式)以及不存在傳遞依賴(滿足第三范式))。
數(shù)據(jù)庫(kù)設(shè)計(jì)包括概念結(jié)構(gòu)設(shè)計(jì)與邏輯結(jié)構(gòu)設(shè)計(jì)。關(guān)系數(shù)據(jù)庫(kù)的設(shè)計(jì)通常使用實(shí)體(Entity)-聯(lián)系(Relationship)的E-R 圖對(duì)數(shù)據(jù)庫(kù)進(jìn)行概念結(jié)構(gòu)設(shè)計(jì)。含能化合物與量子化學(xué)計(jì)算數(shù)據(jù)之間的聯(lián)系包括一對(duì)一、一對(duì)多的情況。以CL-20 為例,由于─NO2的旋轉(zhuǎn)存在多種穩(wěn)定的分子構(gòu)象,因此化合物名稱和構(gòu)象存在一對(duì)多的關(guān)系;而每一種構(gòu)象與對(duì)應(yīng)的幾何結(jié)構(gòu)數(shù)據(jù)等則存在一對(duì)一的關(guān)系。因此需要進(jìn)行E-R 圖對(duì)數(shù)據(jù)庫(kù)進(jìn)行邏輯結(jié)構(gòu)設(shè)計(jì),并在數(shù)據(jù)庫(kù)中創(chuàng)建數(shù)據(jù)表、關(guān)系表及其他數(shù)據(jù)庫(kù)對(duì)象。
含能化合物量子化學(xué)計(jì)算數(shù)據(jù)庫(kù)的設(shè)計(jì)也要滿足應(yīng)用于數(shù)據(jù)的管理和檢索,進(jìn)而實(shí)現(xiàn)結(jié)構(gòu)和性質(zhì)的關(guān)系模型等數(shù)據(jù)應(yīng)用的實(shí)際需求。數(shù)據(jù)的查詢與獲取功能包括分子結(jié)構(gòu)的精確匹配查詢、子結(jié)構(gòu)查詢、數(shù)值參數(shù)的查詢、嵌套查詢,查詢結(jié)果的分組、排序、合并等。
為滿足數(shù)據(jù)的管理和檢索,常用的數(shù)據(jù)庫(kù)管理系統(tǒng)以關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)為主。數(shù)據(jù)庫(kù)管理系統(tǒng)提供數(shù)據(jù)定義、數(shù)據(jù)操縱、數(shù)據(jù)完整性檢查、數(shù)據(jù)安全保護(hù)、數(shù)據(jù)庫(kù)存取與訪問(wèn),并提供應(yīng)用開(kāi)發(fā)程序與數(shù)據(jù)庫(kù)的接口。結(jié)構(gòu)化查詢語(yǔ)言(Structured Query Language,SQL)是用于關(guān)系數(shù)據(jù)庫(kù)查詢的結(jié)構(gòu)化語(yǔ)言,其功能包括數(shù)據(jù)查詢、數(shù)據(jù)操縱、數(shù)據(jù)定義和數(shù)據(jù)控制4 個(gè)部分。
關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)分為2 類:一類是桌面數(shù)據(jù)庫(kù),用于小型的單機(jī)應(yīng)用程序,例如Access、FoxPro 和Excel 等;另一類是服務(wù)器數(shù)據(jù)庫(kù),主要適用于大型的多用戶數(shù)據(jù)管理,包括Oracle、SQL Server、DB2、Sybase 等大型關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng),以及包括MySQL、PostgreSQL、SQLite 等小型關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)。這些常見(jiàn)的數(shù)據(jù)庫(kù)管理系統(tǒng)能夠?qū)崿F(xiàn)格式化數(shù)據(jù)的增刪改查操作與日常維護(hù)管理。
3.4.1 數(shù)據(jù)集擴(kuò)展
含能化合物的能量與安全性質(zhì)最受關(guān)注,因此這些性能數(shù)據(jù)有必要在作為量子化學(xué)計(jì)算結(jié)果的擴(kuò)展,在數(shù)據(jù)庫(kù)中收錄。使用量子化學(xué)計(jì)算無(wú)法直接得到上述能量與安全性質(zhì)的數(shù)據(jù),包括爆速、爆壓、機(jī)械感度等。因此需要采用后量化構(gòu)效關(guān)系模型用于含能化合物多種性質(zhì)的預(yù)測(cè)。構(gòu)效關(guān)系模型所需的參數(shù)主要由量子化學(xué)計(jì)算產(chǎn)生的電子結(jié)構(gòu)、波函數(shù)文件分析得到。
3.4.2 前端應(yīng)用程序設(shè)計(jì)于開(kāi)發(fā)
基于Java、PHP、VB/ASP.NET、Visual C#、Python等程序語(yǔ)言設(shè)計(jì)數(shù)據(jù)庫(kù)前端應(yīng)用程序,實(shí)現(xiàn)可視化界面設(shè)計(jì)、項(xiàng)目部署以及定制化的功能實(shí)現(xiàn)。
3.4.3 數(shù)據(jù)開(kāi)放共享
量子化學(xué)計(jì)算產(chǎn)生的數(shù)據(jù)屬于基礎(chǔ)研究結(jié)果,且數(shù)據(jù)質(zhì)量高、可重復(fù)性好,便于在公開(kāi)平臺(tái)實(shí)現(xiàn)較高程度的數(shù)據(jù)開(kāi)放共享。筆者也希望以此種方式推動(dòng)含能化合物研發(fā)的范式變革、加速研發(fā)效率、降低資源投入。
3.4.4 應(yīng)用開(kāi)發(fā)實(shí)例
針對(duì)含能化合物量子化學(xué)計(jì)算數(shù)據(jù)的產(chǎn)生、數(shù)據(jù)收集標(biāo)準(zhǔn)等問(wèn)題,本課題組近年來(lái)分別開(kāi)發(fā)并建立了能夠在高性能計(jì)算集群上穩(wěn)定運(yùn)行的含能材料高通量計(jì)算交互式應(yīng)用系統(tǒng)(Energetic Materials Studio,EM Studio)[43]用于實(shí)現(xiàn)含能化合物的高通量量子化學(xué)計(jì)算以及爆轟性質(zhì)預(yù)測(cè);此外,開(kāi)發(fā)并建立了含能化合物量子化學(xué)計(jì)算數(shù)據(jù)采集與數(shù)據(jù)庫(kù)管理系統(tǒng)(EM Database),用于結(jié)構(gòu)化收集存儲(chǔ)含有CHNO 元素的中性含能分子的量子化學(xué)計(jì)算數(shù)據(jù)以及爆轟參數(shù)(圖3)。潛在含能分子結(jié)構(gòu)主要是通過(guò)文獻(xiàn)整理以及母體-取代基的方式完成,而對(duì)于分子含能與否的界定,則按照密度與爆速不亞于TNT 作為標(biāo)準(zhǔn)(即密度值1.648 g·cm-3,爆速值6950 m·s-1)。數(shù)據(jù)庫(kù)中的數(shù)據(jù)也會(huì)隨著計(jì)算方法的進(jìn)步、更準(zhǔn)確有效方法的確認(rèn)而不斷更新。
圖3 EM Studio 以及EM Database 的應(yīng)用程序界面[42]Fig.3 User interfaces of EM Studio program and EM Database program[42]
綜上所述,數(shù)據(jù)庫(kù)技術(shù)與含能材料量子化學(xué)計(jì)算的結(jié)合需要解決量子化學(xué)計(jì)算標(biāo)準(zhǔn)與數(shù)據(jù)模型、數(shù)據(jù)庫(kù)設(shè)計(jì)、數(shù)據(jù)庫(kù)管理系統(tǒng)選擇、數(shù)據(jù)集擴(kuò)展與應(yīng)用技術(shù)開(kāi)發(fā)等技術(shù)挑戰(zhàn)?,F(xiàn)階段對(duì)于含有CHNO 元素的中性含能分子的量子化學(xué)計(jì)算以及爆轟性質(zhì)預(yù)測(cè)方法可靠性高,易于通過(guò)高通量計(jì)算的方式進(jìn)行分子設(shè)計(jì)與性質(zhì)預(yù)測(cè)。此外,使用關(guān)系型數(shù)據(jù)庫(kù)收錄含能分子的結(jié)構(gòu)與性質(zhì)參數(shù)數(shù)據(jù),以可視化用戶界面的方式實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)收錄條目的開(kāi)放獲取也得到了實(shí)現(xiàn)。EM Studio 與EM Database 的實(shí)現(xiàn)證明了該技術(shù)方案的可行性。
未來(lái)含能化合物的數(shù)據(jù)庫(kù)設(shè)計(jì)與應(yīng)用需面向高性能含能化合物的實(shí)際需求,以高能、穩(wěn)定、綠色為導(dǎo)向。在此對(duì)其設(shè)計(jì)與開(kāi)發(fā)做以下兩方面的展望:首先,含能化合物的性能與穩(wěn)定性數(shù)據(jù)極為重要,但是現(xiàn)有預(yù)測(cè)模型的普適性仍需使用大量含能分子進(jìn)行廣泛驗(yàn)證,進(jìn)而保證所產(chǎn)生數(shù)據(jù)的認(rèn)可度。其次,數(shù)據(jù)庫(kù)所收錄的數(shù)據(jù)規(guī)模應(yīng)盡可能大、性質(zhì)條目盡可能全面,進(jìn)而有利于含能化合物綜合性能的設(shè)計(jì)。
本文總結(jié)了含能化合物的量子化學(xué)理論計(jì)算、高通量虛擬篩選技術(shù)、以及數(shù)據(jù)庫(kù)技術(shù)。含能化合物的量子化學(xué)理論計(jì)算能夠?qū)崿F(xiàn)對(duì)含能化合物的結(jié)構(gòu)與性質(zhì)進(jìn)行高精度的分析和預(yù)測(cè)。在此基礎(chǔ)上建立含能化合物量子化學(xué)數(shù)據(jù)庫(kù),收集含能化合物在高精度計(jì)算水平下的量子化學(xué)數(shù)據(jù),具有重要意義與實(shí)際價(jià)值。
含能化合物量子化學(xué)數(shù)據(jù)庫(kù)的設(shè)計(jì)及應(yīng)用應(yīng)考慮分子與材料的通用性數(shù)據(jù)信息、以及含能材料領(lǐng)域重點(diǎn)關(guān)注的能量與穩(wěn)定性的專用性數(shù)據(jù)信息,具有鮮明的特色性。對(duì)其做如下展望:(1)含能化合物的量子化學(xué)理論計(jì)算在方法選擇、數(shù)據(jù)呈現(xiàn)方式上沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)。因此數(shù)據(jù)庫(kù)的設(shè)計(jì)需要在計(jì)算基準(zhǔn)方法與數(shù)據(jù)模型角度進(jìn)行規(guī)定,并且隨著計(jì)算方法的進(jìn)步、更準(zhǔn)確更有效方法的確認(rèn)而不斷更新;(2)數(shù)據(jù)庫(kù)與高通量虛擬篩選相結(jié)合的含能化合物分子設(shè)計(jì)已有較多的研究報(bào)道,應(yīng)用前景廣闊;(3)相對(duì)于含能材料及其相關(guān)物性質(zhì)的數(shù)據(jù)敏感性,含能化合物量子化學(xué)計(jì)算數(shù)據(jù)易于實(shí)現(xiàn)開(kāi)放共享,是探索含能材料組成、結(jié)構(gòu)與性能關(guān)系和設(shè)計(jì)新型含能材料的重要研究基礎(chǔ);(4)含能材料的量子化學(xué)計(jì)算包括分子以及晶體,相比于分子結(jié)構(gòu)的量子化學(xué)計(jì)算,晶體結(jié)構(gòu)的理論計(jì)算方法,有待系統(tǒng)的方法驗(yàn)證并制定基準(zhǔn)方法。