王紫維 韓 民 金 彪
(1.中國科學(xué)院廣州地球化學(xué)研究所,有機地球化學(xué)國家重點實驗室,廣州,510640;2.中國科學(xué)院深地科學(xué)卓越創(chuàng)新中心,廣州,510640;3.中國科學(xué)院大學(xué),北京,100049)
化合物的屬性預(yù)測在藥物研發(fā)、材料設(shè)計、毒理學(xué)研究等領(lǐng)域發(fā)揮了重要的作用,與人類生活息息相關(guān)[1?2].化合物屬性預(yù)測的相關(guān)研究可追溯到藥物合成的早期研究,當(dāng)時主要是化學(xué)家通過重復(fù)實驗,進行測試和驗證并獲取各類化學(xué)信息,合成目標(biāo)分子[3].由于重復(fù)實驗耗時長、成本高,科學(xué)家基于構(gòu)效關(guān)系(SAR)發(fā)展出了定量-構(gòu)效關(guān)系,為化合物結(jié)構(gòu)與其性質(zhì)之間建立了數(shù)學(xué)關(guān)系框架.1962年,Hansch等首次實踐了定量-構(gòu)效關(guān)系(QSAR),成為該領(lǐng)域具有里程碑意義的事件,也是化合物屬性預(yù)測研究邁入新階段的標(biāo)志[4].隨后,Hansch 在1964年提出了Hansch 方程,這個發(fā)現(xiàn)為QSAR 模型運行提供了一種新方法.但傳統(tǒng)QSAR 模型一般使用一些常見的分子描述符來預(yù)測化合物屬性,然而化合物結(jié)構(gòu)多樣,少量的分子描述符很難全面地描述化合物的結(jié)構(gòu)信息,這使得模型很難精準(zhǔn)預(yù)測化合物性質(zhì).同時,隨著研究數(shù)據(jù)集增大、描述符增多,傳統(tǒng)的方法難以擬合化學(xué)結(jié)構(gòu)與性質(zhì)之間的復(fù)雜關(guān)系.因此,需要比傳統(tǒng)統(tǒng)計工具更先進、更強大的計算和數(shù)據(jù)分析方法.
機器學(xué)習(xí)(特別是深度學(xué)習(xí)),由于其強大的計算和數(shù)據(jù)分析能力,已被用于解決以上QSAR 研究中的問題.例如,研究人員通過機器學(xué)習(xí)或深度學(xué)習(xí)方法將三維甚至更高維分子結(jié)構(gòu)與其屬性聯(lián)系起來,彌補了傳統(tǒng)的化合物屬性預(yù)測方法的不足之處,大力推動了化合物屬性研究的發(fā)展[5?6].
近年來,機器學(xué)習(xí)在化合物屬性的預(yù)測研究上表現(xiàn)出不俗的潛力,因此這方面的研究也逐年增多.比如在理化性質(zhì)方面,在機器學(xué)習(xí)的幫助下,預(yù)測分子的原子化能、振動頻率、溶劑化自由能、計算鍵離能等,成本更低,結(jié)果準(zhǔn)確可靠,計算速度更快[7?11];在生物活性方面,建模方面逐步引入了神經(jīng)網(wǎng)絡(luò)算法、分子圖等,所構(gòu)建模型性能更優(yōu)異,結(jié)果可靠[12?14];在毒性方面,根據(jù)機器學(xué)習(xí)建立的模型可以非常有效地識別有毒分子和預(yù)測特定毒性,可篩選確認(rèn)之前未曾識別出的危險化學(xué)品[15?17].本文主要介紹機器學(xué)習(xí)在化合物屬性預(yù)測方面的應(yīng)用過程及相應(yīng)的模塊內(nèi)容,并結(jié)合應(yīng)用實例總結(jié)和展望機器學(xué)習(xí)在該應(yīng)用方面現(xiàn)存的問題和機遇.
在實際應(yīng)用中,用機器學(xué)習(xí)預(yù)測化合物屬性的整體過程如下所述,見圖1.
圖1 機器學(xué)習(xí)進行化合物屬性預(yù)測的流程Fig.1 Process for compound property prediction based on machine learning
(1)構(gòu)建數(shù)據(jù)集:數(shù)據(jù)集一般來源于公開的數(shù)據(jù)庫、實驗記錄數(shù)據(jù)、研究收集的文獻(xiàn);
(2)數(shù)據(jù)預(yù)處理;主要包括分子特征化和數(shù)據(jù)集劃分;
(3)模型構(gòu)建:主要包括模型訓(xùn)練、算法選擇、模型的應(yīng)用域、模型評估這四方面內(nèi)容;
(4)模型解釋:解釋機器學(xué)習(xí)模型的預(yù)測機制.
構(gòu)建數(shù)據(jù)集是構(gòu)建模型進行化合物屬性預(yù)測之前的必要準(zhǔn)備,模型的工作主要基于數(shù)據(jù)運行,數(shù)據(jù)集的質(zhì)量影響了模型預(yù)測結(jié)果的可靠性以及準(zhǔn)確性.目前眾多研究工作一般通過以下幾種途徑進行數(shù)據(jù)集的構(gòu)建:(1)根據(jù)實驗所得數(shù)據(jù)構(gòu)建數(shù)據(jù)集;(2)從公開的數(shù)據(jù)庫中下載研究所需要的數(shù)據(jù),并整理成數(shù)據(jù)集;(3)提取他人發(fā)表在期刊、專利中的數(shù)據(jù),整理成數(shù)據(jù)集;(4)前述3 種方式的組合形式.
實驗室所記錄的數(shù)據(jù)比較全面,是構(gòu)建數(shù)據(jù)集的來源之一.實驗所得數(shù)據(jù)一般分為紙質(zhì)記錄數(shù)據(jù)和電子記錄數(shù)據(jù),其中,電子記錄數(shù)據(jù)可用于數(shù)據(jù)集構(gòu)建和數(shù)據(jù)挖掘,但由于實驗數(shù)據(jù)為實驗者所有,大多用于進行數(shù)據(jù)存檔和知識產(chǎn)權(quán)維權(quán),難以獲得全面的數(shù)據(jù)來進行數(shù)據(jù)挖掘.同時,他人發(fā)表在期刊、專利中的數(shù)據(jù)相對于實驗所記錄的數(shù)據(jù)大多數(shù)都經(jīng)過文章作者精心篩選,沒有展示相關(guān)實驗失敗的數(shù)據(jù).失敗數(shù)據(jù)的缺乏可能會造成信息缺失,從而導(dǎo)致構(gòu)建的模型不能進行準(zhǔn)確地預(yù)測.
構(gòu)建數(shù)據(jù)集最常用的方法是從公開的數(shù)據(jù)庫獲取研究要用的數(shù)據(jù).經(jīng)過多年的發(fā)展,目前也有許多可免費獲取化學(xué)數(shù)據(jù)的公開數(shù)據(jù)庫,部分較常見的公開數(shù)據(jù)庫可見表1.
表1 常見的公開數(shù)據(jù)庫Table 1 Common public databases
1.2.1 分子特征化
分子特征化是把化合物的化學(xué)結(jié)構(gòu)編碼成機器學(xué)習(xí)算法能識別的模式.不同的分子特征化方式提取的分子信息有所差異,直接影響模型的預(yù)測效果,因此是化合物屬性預(yù)測的重要部分.常見的分子特征化方法有分子描述符、分子圖、分子線性表示、分子圖像[31],以及三維分子表面點云[32].
(1)分子描述符
分子描述符與分子結(jié)構(gòu)的關(guān)系密切,可以有效地表示相應(yīng)的化學(xué)信息[33].分子描述符按照復(fù)雜程度,可分為零維、一維、二維、三維等(見圖2)[34].零維描述符是最簡單的分子描述符,其信息含量低,可表示原子數(shù)、原子性質(zhì)總和、分子量等;一維描述符表示一些官能團、分子片段、取代基等信息,如分子量、摩爾折射率、辛醇/水分配系數(shù)的對數(shù)等;二維描述符可描述從二維分子表示計算得到的性質(zhì);三維描述符信息含量很高,可描述原子的性質(zhì)、連通性以及分子的空間構(gòu)型,可用于確定化合物的活性構(gòu)象等問題;四維描述符可以定量識別和描述分子與受體活性位點之間的相互作用[34].
圖2 同分子的不同分子表示的示例[34]Fig.2 An example of different molecular representations of the same molecule[34]
分子描述符按照定量和定性分類,可分為定量分子描述符和定性分子描述符.定量分子描述符有分子場描述符、分子形狀描述符、物理化學(xué)描述符、基于組成信息的描述符等[35].定性分子描述符一般指分子指紋,分子指紋又稱二元指紋,采用二進制編碼相關(guān)的化學(xué)信息,指紋所具有的化學(xué)信息內(nèi)容一般為化學(xué)圖中的原子、鍵類型和距離等,是化學(xué)結(jié)構(gòu)的表示,常被用于分子相似性/多樣性問題[34,36].
常見的分子指紋可主要分為基于子結(jié)構(gòu)的指紋、基于拓?fù)浠蚵窂降闹讣y和圓形指紋、藥效團指紋等[37].基于子結(jié)構(gòu)的指紋主要有MACCS 指紋[38]、PubChem 指紋、BCI 指紋、TGD 和TGT 指紋等.基于拓?fù)浠蚵窂降闹讣y主要有Daylight 指紋(Daylight fingerprint)和Tree 指紋(Tree fingerprint).圓形指紋主要有擴展連通性指紋(ECFP/Morgan Fingerprint)[39]、FCFP(Functional-Class Fingerprints)、Molprint2D[40].
常用于計算分子指紋的軟件或工具包有alvaDesc[41]、RDkit、Open Babel[42]、CDK[43]、ChemFP、OEChem TK、Molecular Operating Environment(MOE)、JChem from ChemAxon、Pipeline Pilot from Accelrys 等.
(2)分子圖
分子圖是指化合物用圖進行表示,是化合物的拓?fù)浔硎?在分子圖中,原子用節(jié)點表示,分子鍵用邊表示,示例可見圖3.分子圖降低了分子結(jié)構(gòu)表示的復(fù)雜性,可以捕捉到分子中原子核與電子間的關(guān)鍵的相互作用.此外,圖神經(jīng)網(wǎng)絡(luò)(GNN)模型從分子圖進行學(xué)習(xí)表示可以得到很好的處理效果,減少了相應(yīng)的特征工程的工作,能進行更好的分子性質(zhì)預(yù)測,如Attentive FP[44]、D-MPNN[8].
(3)分子線性表示
分子線性表示最常用的有兩種:簡化分子線性輸入規(guī)范(Simplified molecular input line entry system,SMILES)和國際化合物標(biāo)識符(International Chemical Identifier,InChI).SMILES 是一種利用ASCII 編碼表示分子結(jié)構(gòu)的線性符號,是化學(xué)家為了進行化學(xué)方面的機器計算而設(shè)計的化學(xué)符號語言,是根據(jù)相應(yīng)的規(guī)則對化學(xué)結(jié)構(gòu)簡化的二維價鍵圖[45].SMILES 既可以與化學(xué)數(shù)據(jù)庫使用,又可以節(jié)省存儲空間,為化學(xué)數(shù)據(jù)的輸入提供了一種更簡便的方式.化合物的“SMILES”字符串可通過一些軟件或程序獲得,如ChemDraw、OpenBabel、CIRpy[46](https://github.com/mcs07/CIRpy)等,同時也可以通過網(wǎng)站獲得化合物的“SMILES”字符串,如PubChem.“SMILES”字符串除了可以直接作為模型的輸入,也可以通過一些軟件或程序轉(zhuǎn)換為其他分子特征化形式,再作為模型的輸入[6,46?48].通用的SMILES 基于CANGEN算法衍生了規(guī)范的SMILES(Canonical SMILES),但其算法具有盈利性質(zhì),從而存在無法自由使用的問題.InChI[49]是一個非盈利的、免費的化學(xué)標(biāo)識,在描述分子方面具有嚴(yán)格的唯一性,在層狀設(shè)計時考慮了分子結(jié)構(gòu),容易獲得和生成,可以由InChI 軟件或者利用通用的化學(xué)繪圖軟件生成.因此,InChI 也被許多化學(xué)數(shù)據(jù)庫使用.
(4)分子圖像
分子圖像是將分子結(jié)構(gòu)或坐標(biāo)映射到圖像上后,作為模型的輸入數(shù)據(jù)用于模型訓(xùn)練,從而進行分子性質(zhì)預(yù)測[50].比如,可以通過OpenBabel、Pybel 和RDKit 等化學(xué)信息軟件將SMILES 解碼為對應(yīng)的分子二維結(jié)構(gòu),再將其生成的坐標(biāo)映射到網(wǎng)格上,形成分子圖像,示例可見圖4.對于所生成的圖像可再進行一個“灰色編碼”或者更為復(fù)雜的“顏色編碼”,表示出原子/鍵屬性,再用于卷積神經(jīng)網(wǎng)絡(luò)(CNN)算法進行訓(xùn)練[50?51].
圖4 RDkit 將化合物SMILES 轉(zhuǎn)換為分子圖像的示例Fig.4 An example of RDkit transforming SMILES into the molecular image
1.2.2 數(shù)據(jù)集劃分
整理好研究所需的數(shù)據(jù)集之后,應(yīng)及時對數(shù)據(jù)進行劃分,數(shù)據(jù)劃分對于所建機器學(xué)習(xí)模型的泛化能力有一定影響.一般,數(shù)據(jù)集按比例隨機劃分為3 部分:訓(xùn)練集、測試集、驗證集,其中,訓(xùn)練集一般用于模型的訓(xùn)練,測試集用于模型的性能評估,驗證集用于超參數(shù)的優(yōu)化[52?53].但是,研究過程中數(shù)據(jù)集劃分的具體的分配比例應(yīng)按照研究需要進行選擇,比如,有研究按8:1:1 的比例劃分成訓(xùn)練集、驗證集和測試集[47];也有研究先將數(shù)據(jù)集按4:1 的比例隨機分成兩部分:訓(xùn)練集和測試集,隨后在訓(xùn)練過程中隨機抽取10%的訓(xùn)練集數(shù)據(jù)作為驗證集數(shù)據(jù)[52].
當(dāng)機器學(xué)習(xí)應(yīng)用于分類問題時,可能會碰到數(shù)據(jù)集中各類別樣本數(shù)量分布不均衡的問題,即數(shù)據(jù)集中某一類別的樣本數(shù)量遠(yuǎn)遠(yuǎn)高于另一類.不平衡數(shù)據(jù)會影響模型的性能,因此,在數(shù)據(jù)集劃分后需對訓(xùn)練集數(shù)據(jù)進行不平衡處理.目前進行不平衡數(shù)據(jù)處理的方法主要有數(shù)據(jù)重構(gòu)和分類模型改進.
數(shù)據(jù)重構(gòu)策略可分為特征選擇和重采樣技術(shù)[54].特征選擇方法主要分成3 類:過濾式、包裹式和嵌入式.重采樣技術(shù)是通過調(diào)整多數(shù)類和少數(shù)類的分布,削弱數(shù)據(jù)集不平衡的程度,主要包括欠采樣、過采樣、混合采樣.欠采樣通過減少多數(shù)類中的樣本數(shù)量,以平衡多數(shù)類和少數(shù)類;過采樣通過增加少數(shù)類中的樣本數(shù)量,以均衡數(shù)據(jù)集;混合采樣通過將過采樣和欠采樣組合在一起,提高分類性能[52].
分類模型改進策略主要從分類算法和分類思想對不平衡數(shù)據(jù)集進行優(yōu)化和改進.分類算法主要有K 最近鄰、支持向量機、決策樹、樸素貝葉斯、神經(jīng)網(wǎng)絡(luò)算法;分類思想主要有代價敏感學(xué)習(xí)、集成學(xué)習(xí)、單類學(xué)習(xí)、主動學(xué)習(xí)[54].
1.3.1 算法選擇
模型訓(xùn)練是指通過訓(xùn)練集數(shù)據(jù)進行擬合模型、學(xué)習(xí)模型參數(shù)的過程.在這個過程,需要選擇合適的算法進行訓(xùn)練.算法是機器學(xué)習(xí)的核心內(nèi)容,沒有算法,機器學(xué)習(xí)模型將無法運行.目前,機器學(xué)習(xí)的算法按照是否有人類監(jiān)督訓(xùn)練,可分為監(jiān)督式學(xué)習(xí)、無監(jiān)督式學(xué)習(xí)、半監(jiān)督式學(xué)習(xí)、強化學(xué)習(xí)這4 個主要類型.監(jiān)督式學(xué)習(xí)可以處理有標(biāo)記的訓(xùn)練數(shù)據(jù),其算法主要有K-近鄰算法、線性回歸、邏輯回歸、支持向量機(SVM)[55]、神經(jīng)網(wǎng)絡(luò)、決策樹[56]和隨機森林(RF)[57].無監(jiān)督式學(xué)習(xí)使用的數(shù)據(jù)是沒有標(biāo)記的,其算法主要可分為聚類算法、可視化和降維算法、關(guān)聯(lián)規(guī)則學(xué)習(xí)算法.聚類算法主要有k-平均算法、分層聚類分析、最大期望算法等;可視化和降維算法主要有主成分分析(PCA)、核主成分分析(Kernel PCA)、局部線性嵌入(LLE)、t-分布隨機近臨嵌入(t-SNE);關(guān)聯(lián)規(guī)則學(xué)習(xí)算法主要有Apriori、Eclat.半監(jiān)督式學(xué)習(xí)可以處理部分標(biāo)記(大量未標(biāo)記和少量標(biāo)記)的數(shù)據(jù),其主要為監(jiān)督式學(xué)習(xí)算法與無監(jiān)督式學(xué)習(xí)算法的結(jié)合.強化學(xué)習(xí)[58]是學(xué)習(xí)到行動的一種映射,通過不斷試錯,尋找到能夠最大化預(yù)期的路徑,并對能最大化預(yù)期的行動進行獎勵,主要涉及到的策略是試錯搜索和延遲獎勵,這兩種策略是強化學(xué)習(xí)的最明顯最重要的特征.在化合物屬性預(yù)測中,常用的是監(jiān)督學(xué)習(xí)模式[59]、半監(jiān)督式學(xué)習(xí);常用的算法有隨機森林[57]、支持向量機[55]、樸素貝葉斯、神經(jīng)網(wǎng)絡(luò)、梯度提升決策樹(GBDT)、極限梯度提升算法(XGBoost)、線性回歸、決策樹[56]、邏輯回歸等算法.
1.3.2 模型應(yīng)用域
在化學(xué)信息研究中,為了更高效地進行化合物屬性的預(yù)測,通常將機器學(xué)習(xí)方法應(yīng)用于定量構(gòu)效關(guān)系中,其中涉及到的模型應(yīng)用域(AD)一般指化學(xué)空間中由描述符和模型響應(yīng)定義的一個理論域,其任務(wù)是定義一個模型可以被使用的邊界,并提供可靠的預(yù)測[60?61].當(dāng)要預(yù)測的分子在所定義的AD 范圍內(nèi)時,使用該模型進行預(yù)測才可靠,否則該模型不適用.
對于模型應(yīng)用域的表征,已有學(xué)者在這個方面進行過總結(jié),不同的學(xué)者考慮的角度不同,進行的歸類方式和描述稱呼各有不同.Kar 等[61]根據(jù)不同假設(shè)將AD 的定義方法分為6 大類:描述符空間中基于范圍的方法、基于距離的方法、幾何方法、概率密度分布、響應(yīng)變量的范圍、其他方法,而王中鈺等[62]根據(jù)AD 的概念將其分為描述符域、結(jié)構(gòu)域、機理域3 個大類,再從這3 大類中對AD 的表征方法進行細(xì)分.此外,也有一些學(xué)者提出或開發(fā)了新的應(yīng)用域表征方法或應(yīng)用域算法,如Wang 等人[63]基于指紋特異性相似性閾值,開發(fā)了新的AD 表征方法—ADfingerprint,并證明其性能優(yōu)于一些傳統(tǒng)的AD 表征方法;Berenger 等[64]對于創(chuàng)建的應(yīng)用域較為復(fù)雜并難以理解的現(xiàn)狀,提出了基于距離的Boolean 應(yīng)用域算法(DBBAD).雖然AD 表征方法的描述各有異同,但最常用的幾種表征方法一般為歐式距離、Tanimoto指數(shù)、杠桿方法、馬氏距離、核密度估計(KDE)、基于范圍的超矩形等方法.連續(xù)數(shù)據(jù)的研究,一般選用歐式距離定義模型應(yīng)用域[65];而針對二進制數(shù)據(jù)或者想要進行分子相似度的比較的研究,一般選用Tanimoto 指數(shù)定義模型應(yīng)用域[47?48].
1.3.3 模型性能評估
模型的性能評估是對所構(gòu)建的模型的泛化能力進行評估,有助于判定模型的工作性能和開發(fā)適合研究數(shù)據(jù)的最佳模型,主要包括了性能度量、評估方法、過擬合或欠擬合、超參數(shù)調(diào)優(yōu)、泛化能力這幾個方面的內(nèi)容.模型泛化能力是指所構(gòu)建的模型經(jīng)過在訓(xùn)練集數(shù)據(jù)的訓(xùn)練之后,在新數(shù)據(jù)上的適應(yīng)能力.過擬合和欠擬合都是模型泛化能力不好的行為表示.過擬合指模型過度學(xué)習(xí)訓(xùn)練集數(shù)據(jù),使得模型過為復(fù)雜,不能在除訓(xùn)練集外的數(shù)據(jù)集上得到好表現(xiàn);欠擬合指模型過為簡單,學(xué)習(xí)能力差,無法學(xué)到數(shù)據(jù)的內(nèi)在特點,無法判定其潛在的趨勢[66].
模型性能的評估方法常見的有留出法(hold-out)、交叉驗證法(cross validation)、自助法(bootstrapping).在模型評估的實際情況中,一般先用評估方法對模型進行數(shù)據(jù)集劃分,再在測試集上用評估指標(biāo)對模型性能進行評估.比如,Korkmaz[52]在研究中先用留出法將數(shù)據(jù)集劃分為80%的訓(xùn)練集和20%的測試集,之后用計算了幾個性能指標(biāo)對模型進行了性能評估.
在化合物屬性預(yù)測方面的應(yīng)用,主要可將機器學(xué)習(xí)任務(wù)分為回歸問題和分類問題兩方面.在性能度量涉及到的性能指標(biāo)方面,回歸問題和分類問題所用到的性能評價指標(biāo)并不完全一致.回歸問題常用到的評價指標(biāo)有均方根誤差(root mean squared error,RMSE)、平均絕對誤差(mean absolute error,MAE)、均方誤差(mean square error,MSE)、均方根對數(shù)誤差(root mean squared logarithmic error,RMSLE)、決定系數(shù)(coefficient of determination,R2)和預(yù)測平方相關(guān)系數(shù)(predictive squared correlation coefficient,Q2)等.分類問題常用到的評價指標(biāo)有準(zhǔn)確率(accuracy,acc)、錯誤率(error)、精確率(precision rate,p)、召回率(recall rate,r)、F1 分?jǐn)?shù)(F1-score)、ROC 曲線(receiver operating characteristic)、AUC(area under curve)等.分類問題的數(shù)據(jù)集并不一定平衡,在大多應(yīng)用情況下都會出現(xiàn)數(shù)據(jù)分布不均導(dǎo)致數(shù)據(jù)不平衡的現(xiàn)象,這種情況下,首先要在訓(xùn)練集上進行數(shù)據(jù)不平衡處理,之后再用測試集對其進行評估.針對不平衡數(shù)據(jù)集,準(zhǔn)確率往往無法作為主要的判斷指標(biāo),因此一般可采用前文所提到的精確率、召回率、F1 分?jǐn)?shù)以及均衡準(zhǔn)確率(balanced accuracy)和G-mean[54].除了上述的指標(biāo)外,還有一些其他的指標(biāo),如魯棒性、PRC(精確-召回曲線)等.在實際的應(yīng)用情況中,指標(biāo)的選擇應(yīng)根據(jù)數(shù)據(jù)的情況和研究需要來進行選擇.
模型解釋是對模型的預(yù)測機制進行解析的過程,有利于研究者做出更好的決策,并建立起對模型的理解和信任[67?68].模型根據(jù)解釋的難易程度,可以分為“白盒”模型和“黑盒”模型.“白盒”模型又可稱為可解釋性模型,創(chuàng)建其模型的算法透明度低,解釋簡單,更易被人們理解.可解釋性模型一般指由線性回歸、邏輯回歸、其他線性擴展、決策樹等算法構(gòu)建的模型.建立“黑盒”模型后再進行解釋這一行為也可稱為事后可解釋性,進行事后可解釋的方法主要可以分為兩大類:全局解釋和局部解釋,全局解釋是對模型整體進行解釋,而局部解釋是對單個預(yù)測進行解釋[69].
全局解釋的方法主要有部分依賴圖(partial dependence plot,PDP)、累積局部效應(yīng)(accumulated local effects plot,ALE)、規(guī)則提取[70]、模型蒸餾[71]、稀疏集團套索(sparse group lasso,SGL)[72]、全局Shapley值等.局部解釋的方法主要有個體條件期望(individual conditional expectation,ICE)[73]、敏感性分析、局部可解釋的模型無關(guān)闡釋(local interpretable model-agnostic explanations,LIME)[67]、Anchor[74]、基于局部規(guī)則的黑盒模型的分層相關(guān)性傳播(LRP)[75]、類激活映射(class activation mapping,CAM)、梯度加權(quán)類激活映射(Grad-CAM)[76]、SHAP(shapley additive exPlanations)[77]等.在化合物屬性預(yù)測方面,比較常用的解釋方法有PDP、ALE、ICE、Grad-CAM、Shapley Value、SHAP 等.如Zhong 等[6]利用Grad-CAM來解釋構(gòu)建的CNN 模型通過選擇分子圖像的哪些特征來進行預(yù)測.Sanches-Neto 等[46]在預(yù)測水中有機污染物自由基氧化過程的反應(yīng)速率常數(shù)的研究中,利用SHAP 方法解釋了反應(yīng)過程中相關(guān)的結(jié)構(gòu)分子特征,將氧原子所做的貢獻(xiàn)從氧原子與碳原子的比例(#O:C)的貢獻(xiàn)區(qū)分出來.
機器學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)算法可被用于量子化學(xué)性質(zhì)預(yù)測.比如,2017年,由Gilmer 等[7]提出來的應(yīng)用于分子圖的監(jiān)督學(xué)習(xí)框架——消息傳遞神經(jīng)網(wǎng)絡(luò)(message passing neural networks,MPNNs),更易理解圖的結(jié)構(gòu)數(shù)據(jù)與模型之間的關(guān)系.他們基于MPNNs 進行建模,采用QM9 數(shù)據(jù)集的數(shù)據(jù),對分子的原子化能、振動頻率、最高占據(jù)分子軌道(HOMO)、最低未占據(jù)分子軌道(LUMO)、偶極矩等性質(zhì)進行了預(yù)測,結(jié)果表明利用機器學(xué)習(xí)進行分子性質(zhì)預(yù)測的成本比密度泛函理論(DFT)計算低且計算速度更快,計算樣本誤差比DFT 小,在大型圖中應(yīng)用良好.之后,有學(xué)者在MPNNs 的基礎(chǔ)上進行改動,提出了知識嵌入消息傳遞神經(jīng)網(wǎng)絡(luò)(KEMPNN)[78].KEMPNN 在MPNN 中的消息傳遞階段添加了知識注意機制作為一項加權(quán)項,采用兩個數(shù)據(jù)集共同訓(xùn)練MPNN,并在ESOL,F(xiàn)reeSolv,Lipophilicity 以及聚合物性能數(shù)據(jù)集上進行了測評,與MPNN 進行了對比.結(jié)果表明,KEMPNN 比MPNN 的模型的預(yù)測精度更高,并且發(fā)現(xiàn)了KEMPNN 在小數(shù)據(jù)集上的預(yù)測效果可與基于描述符的方法相當(dāng)甚至更好.
溶劑化自由能與許多物理化學(xué)性質(zhì)密切相關(guān),在藥物發(fā)現(xiàn)方面有重要的影響,但溶劑化自由能的實驗數(shù)據(jù)較少,且實驗成本昂貴.盡管已經(jīng)有一些相應(yīng)的溶劑模型可預(yù)測溶劑化自由能,使得費用成本有所降低,但其準(zhǔn)確性較低.相比之下,機器學(xué)習(xí)在溶劑化自由能預(yù)測方面更具優(yōu)勢,既不會產(chǎn)生昂貴的費用,又保證了較高的溶劑化自由能預(yù)測準(zhǔn)確率[10,79].如,Yang 等[8]在MPNN 的基礎(chǔ)上構(gòu)建了一個基于定向鍵的消息傳遞方式,并結(jié)合分子水平特征和分子式構(gòu)建了新的模型D-MPNN,在FreeSolv 數(shù)據(jù)集上表現(xiàn)出比其他基準(zhǔn)模型更好的性能;Weinreich 等[9]提出了一個以核嶺回歸(KRR)算法作為監(jiān)督機器方法的自由能機器學(xué)習(xí)模型(FML),并在FreeSolv 數(shù)據(jù)集和QM9 數(shù)據(jù)集上進行了溶劑化自由能預(yù)測,模型誤差與最好的物理預(yù)測方法相當(dāng),但計算成本更低,并且可在較小數(shù)據(jù)集上達(dá)到溶劑化的實驗不確定度.需要指出的是,機器學(xué)習(xí)在溶劑化自由能預(yù)測方面存在數(shù)據(jù)稀缺的問題,深度學(xué)習(xí)的模型在小數(shù)據(jù)集上容易過擬合,性能差.鑒于此,Vermeire 等[80]基于D-MPNN 構(gòu)建了一個模型,通過引入一種結(jié)合量子化學(xué)和實驗數(shù)據(jù)的遷移學(xué)習(xí)方法使模型在溶劑化自由能預(yù)測方面的性能得到了顯著提升;Zhang 等[10]提出一個基于GNN 和3D 原子特征的深度學(xué)習(xí)(DL)模型構(gòu)架,GNN 以主領(lǐng)域聚合PNAConv 作為編碼器,并將其與遷移學(xué)習(xí)策略相結(jié)合,進行模型微調(diào)后在FreeSolv 數(shù)據(jù)集進行溶劑化自由能預(yù)測并得到了目前最好的性能,RMSE 為0.719 kcal·mol?1,MAE 為0.417 kcal·mol?1,顯著提高了GNN 模型在溶劑化自由能預(yù)測方面的學(xué)習(xí)能力,為處理小型實驗數(shù)據(jù)集提供了思考方向.
此外,機器學(xué)習(xí)在預(yù)測化合物的其他性質(zhì)方面也有不錯的表現(xiàn),以全氟化合物(PFASs)理化性質(zhì)預(yù)測為例.在全氟化合物(PFASs)理化性質(zhì)預(yù)測方面,Raza 等[11]在2019年提出了第一個利用機器學(xué)習(xí)來預(yù)測各種PFAS 結(jié)構(gòu)中的C—F 鍵解離能的應(yīng)用.這個應(yīng)用高效可靠準(zhǔn)確,訓(xùn)練數(shù)據(jù)時間短,預(yù)測C—F 鍵解離能的時間不超過1 s,偏差小于0.70 kcal·mol?1,不需量子力學(xué)計算,計算成本更低,有助于PFAS 和高效處理與去除.之后,有學(xué)者[81]于2021年構(gòu)建了一個數(shù)據(jù)庫框架,所構(gòu)建PFAS-Map 可以預(yù)測未測定的PFAS 化學(xué)品的基本物理性質(zhì),可視化PFAS 活性/性質(zhì)關(guān)系的實驗數(shù)據(jù)趨勢,發(fā)現(xiàn)隱藏的結(jié)構(gòu) -毒性關(guān)系.
機器學(xué)習(xí)在上世紀(jì)就開始用于進行生物活性預(yù)測.在20 世紀(jì)90年代,神經(jīng)網(wǎng)絡(luò)算法廣泛應(yīng)用于定量結(jié)構(gòu)-活性關(guān)系,但由于其算法的局限性,在2000年早期被SVM 和RF 取代.近些年,神經(jīng)網(wǎng)絡(luò)算法逐步改進,引起了人們的關(guān)注,發(fā)現(xiàn)改進后的神經(jīng)網(wǎng)絡(luò)算法在生物活性預(yù)測方面頗具優(yōu)勢.2015年,Ma 和Dahl 等[82]采用“原子對”描述符和“供體-受體對”描述符的并集作為描述符來訓(xùn)練模型,并將深度神經(jīng)網(wǎng)絡(luò)(DNN)的性能評估參數(shù)R2與RF 模型在15 個數(shù)據(jù)集(Merck 公司內(nèi)部的數(shù)據(jù)集)上進行比較,結(jié)果表明DNN 在大多數(shù)情況下預(yù)測性能都優(yōu)于RF 模型,在計算時間和成本方面甚至比RF 更有優(yōu)勢,可作為一種實用的QSAR 方法.但需要指出的是,該項研究也存在局限性,無法闡明分子間未完成的潛在相互作用.針對這些缺點,Wallach 等[12]建立了第一個基于結(jié)構(gòu)的深度卷積神經(jīng)網(wǎng)絡(luò)—AtomNet,可應(yīng)用于小分子生物活性預(yù)測.他們將AtomNet 與DNN 技術(shù)進行對比,發(fā)現(xiàn)AtomNet 可為目標(biāo)預(yù)測出新的活性分子,所構(gòu)建的模型能發(fā)現(xiàn)任意的分子特征,可描述配體和目標(biāo)之間的相互作用;同時,在3 個基準(zhǔn)上做了應(yīng)用,結(jié)果表明AtomNet 表現(xiàn)出色,在DUDE 基準(zhǔn)測試中有一半的目標(biāo)的AUC 為0.9,遠(yuǎn)超以前的對接方法.
此外,2019年,Cheng 和Ng[13]在前人的基礎(chǔ)上建立了ML-QSAR 模型預(yù)測全氟化合物(PFASs)的生物活性,引入了基于圖的模型,預(yù)測了OECD 名單中未經(jīng)測試的PFASs 的生物活性.在整個過程中,基于自行收集整理的PFASs 數(shù)據(jù)庫訓(xùn)練和評估了5 種機器學(xué)習(xí)模型,采用了ECFP、圖卷積、weave 特征3 種方法進行分子特征化,網(wǎng)格搜索和貝葉斯優(yōu)化技術(shù)進行超參數(shù)調(diào)優(yōu),基于距離的方法確定QSAR 模型的AD 值,結(jié)果表明,多任務(wù)神經(jīng)網(wǎng)絡(luò)模型和基于圖的圖卷積模型性能優(yōu)異,但構(gòu)建的模型不能提供有關(guān)效應(yīng)強度或劑量反應(yīng)的信息,有進一步發(fā)展的空間.此外,不同于常用于化合物活性預(yù)測的結(jié)構(gòu)-活性關(guān)系(SAR)模型,Bertoni 等[14]于2021年構(gòu)建了一個深度神經(jīng)網(wǎng)絡(luò)的集合—SigAR(signature–activity relationship)模型預(yù)測分子的生物活性,讓機器學(xué)習(xí)從化合物的CC signatures(基于一個小分子生物活性特征集合開發(fā)的分子表征方法)中學(xué)習(xí)活性特征,并用MoleculeNet 中的9 個數(shù)據(jù)集評估了SigAR.其結(jié)果表明,相較于基于化學(xué)描述符的方法,SigAR 的性能更好.
對化合物的毒性進行預(yù)測,是藥物研發(fā)的一部分,對于藥物研發(fā)的成本和成功率有重要影響.同時,化合物毒性預(yù)測也是化學(xué)品風(fēng)險評估的一部分內(nèi)容,但基于動物實驗的毒性預(yù)測,時間周期長,成本開支大.此外,人工合成化合物的種類在逐漸增多,在日常生活中隨處可見,識別危險化學(xué)品的潛在毒性是有必要的,對化合物進行毒性預(yù)測的需求在持續(xù)增長.機器學(xué)習(xí)應(yīng)用于化合物的毒性預(yù)測具有降低成本和加快研究速度的特點,因此,機器學(xué)習(xí)在化合物毒性預(yù)測方面的研究一直以來都是熱點研究領(lǐng)域,相關(guān)的研究也比較多.
2008年,美國的EPA、NIH 和FDA 開展了Tox21 計劃,這個計劃匯總了許多化合物的毒性數(shù)據(jù),推動了機器學(xué)習(xí)在預(yù)測化學(xué)品的潛在毒性和評估化學(xué)品風(fēng)險的進程.2016年,Mary 等[83]開發(fā)了適用于毒性預(yù)測的集成模型—DeepTox,并將其運用于Tox21 挑戰(zhàn)賽上.他們采用了化合物的大量的靜態(tài)特征(如,MACCS 指紋、PubChem 子結(jié)構(gòu)指紋等)和動態(tài)特征(如,ECFP 指紋、徑向2D 指紋等)作為機器學(xué)習(xí)的輸入,并對DeepTox 中的每個機器學(xué)習(xí)算法模型進行了性能評估,比較了各算法的AUC值,結(jié)果表明DNN 優(yōu)于SVM、RF、彈性網(wǎng)(ElNet).同時,由DNN 主導(dǎo)的DeepTox 應(yīng)用于預(yù)測化合物毒性,取得了Tox21 大挑戰(zhàn)的冠軍.2019年,Pu 等[84]基于機器學(xué)習(xí)技術(shù)開發(fā)了一個新的程序—eToxPred,可以直接從分子指紋預(yù)測小型化合物的毒性.eToxPred 采用額外樹(Extra Trees,ET)算法作為毒性預(yù)測的默認(rèn)分類器,并在不同的數(shù)據(jù)集上與線性判別分析(LDA),多層感知器(MLP),隨機森林(RF)算法進行了性能對比.結(jié)果表明,使用分子指紋作為輸入,基于ET 的分類器性能普遍高于LDA 和MLP,僅在一個組合數(shù)據(jù)集上略低于RF,可以非常有效地識別有毒分子和預(yù)測特定毒性.
在化合物毒性評估方面,常用結(jié)構(gòu)警報(structural alerts,SAs)作為識別危險化學(xué)品的潛在毒性的方法,但SAs 的準(zhǔn)確性有限,有時在無毒化合物中也會發(fā)現(xiàn)SAs[85].Mukherjee 等[15]引入了一個新概念——“關(guān)鍵結(jié)構(gòu)圖案”(critical structural motif,CSM),CSM 包含了SAs 的特異性.同時,他們用SMILES 字符串作為模型輸入,開發(fā)了一個基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的多輸出分類的深度學(xué)習(xí)模型--VisualTox,并在不同的化學(xué)數(shù)據(jù)上進行了訓(xùn)練,通過識別 CSM 來預(yù)測內(nèi)分泌干擾物質(zhì)(ECD)的毒性,提供了一種理解化學(xué)毒性來源的新方法.
此外,持久性有機污染物(POPs)和持久性、生物累積性和毒性物質(zhì)(PBT)對生態(tài)環(huán)境和人類健康都有重大影響,PBT/POP 類化學(xué)品也備受人們的關(guān)注.Sun 等[16]于2020年采用基于2424 個分子描述的二維表示矩陣(MDRM)作為模型輸入,開發(fā)了一個深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)模型來篩選化學(xué)品庫中潛在的PBT/POP 類物質(zhì),并采用k折交叉驗證法和專家經(jīng)驗判斷方法對模型性能進行評價,得到模型的預(yù)測精度可達(dá)90.4%.但需要指出的是,DCNN 模型是一個“黑盒”模型,基本不可得到有效的解釋.最近,Wang 等[17]利用一個包含14994 種PBT 和non-PBT 物質(zhì)的化學(xué)數(shù)據(jù)庫,基于圖注意力網(wǎng)絡(luò)(graph attention networks,GATs)架構(gòu),構(gòu)建了可篩選PBT 化學(xué)品并具有可解釋性的GAT 模型.GATs 是一種較先進的GNN,為分子圖的每個節(jié)點引入了注意權(quán)重參數(shù)(PAW),可反映節(jié)點對預(yù)測端點的貢獻(xiàn),關(guān)注與目標(biāo)任務(wù)相關(guān)的重要局部結(jié)構(gòu),具有模型可解釋性.他們在AD 表征方面,提出并采用了一種新的方法—ADFP-AC,使GAT 模型更加可靠;在模型性能方面,將具有ADFP-AC表征的GAT 模型與DCNN 模型、傳統(tǒng)的機器學(xué)習(xí)方法(如隨機森林、支持向量機)和根據(jù)不同分子特征化方法建立的QSAR 模型進行性能對比,發(fā)現(xiàn)GAT 模型的性能最佳.在建立好GAT 模型之后,他們還將其應(yīng)用在中國現(xiàn)有化學(xué)物質(zhì)清單(IECSC)上,從中確定了8 類之前未確認(rèn)的化合物類別為PBT 化學(xué)品.
目前,在構(gòu)建數(shù)據(jù)集的過程中,研究者往往面臨以下3 個問題,包括數(shù)據(jù)量不足、數(shù)據(jù)質(zhì)量不高以及數(shù)據(jù)不平衡.針對數(shù)據(jù)量不足問題,雖然前文介紹了一些相關(guān)的公開數(shù)據(jù)庫,但這些數(shù)據(jù)庫對于研究人員來說,數(shù)量還是較少,而且數(shù)據(jù)不夠全面,很多重要的化學(xué)信息被收集在商業(yè)數(shù)據(jù)庫中或其他難以獲取的數(shù)據(jù)庫中.此外,雖然公開的一些大型化學(xué)數(shù)據(jù)庫數(shù)據(jù)多,規(guī)模大,但是擁有的標(biāo)簽數(shù)據(jù)并不多.這種情況限制了監(jiān)督學(xué)習(xí)在化合物屬性預(yù)測方面進行更深入的研究[51].這些都使得研究人員無法得到足夠的數(shù)據(jù),利用機器學(xué)習(xí)在化合物屬性層面進行一個更好的突破.面臨的問題之二是數(shù)據(jù)的質(zhì)量不高.有些數(shù)據(jù)來自于實驗記錄,雖然實驗記錄數(shù)據(jù)能得到更多、更為全面的數(shù)據(jù),但公開的實驗數(shù)據(jù)如何保證質(zhì)量,也是值得思考的問題.面臨的問題之三是數(shù)據(jù)不平衡問題.雖然機器學(xué)習(xí)有許多經(jīng)典的分類算法,如樸素貝葉斯、KNN、基于神經(jīng)網(wǎng)絡(luò)的分類算法等,這些算法盡可能地保留了原數(shù)據(jù)所有的信息,但是由于這些算法的假設(shè)都是基于平衡的樣本數(shù)據(jù),所以當(dāng)數(shù)據(jù)有少數(shù)類和多數(shù)類的情況出現(xiàn)時,這些算法皆會更傾向于多數(shù)類數(shù)據(jù)[86].對此,許多學(xué)者提出了一些數(shù)據(jù)不平衡處理方法,如過采樣、欠采樣、混合采樣和特征選擇等,這些處理方法在一定程度上能夠緩解不平衡問題,但都存在不足.比如,欠采樣方法雖然簡單又效果好,但是容易忽略多數(shù)類數(shù)據(jù)的內(nèi)在特征信息,影響模型的泛化能力.
分子特征化方法是化合物屬性預(yù)測中的重點之一,決定了模型的性能和解釋.目前,分子特征化方法能夠表征的信息很多,比如,定量分子描述符可以量化Hammett 常數(shù)、偶極矩、HOMO 和LUMO 能量等信息,為化合物的性質(zhì)預(yù)測提供了良好的輸入信息.但目前還沒有可以完整表達(dá)原始分子信息的特征化方式[87].
此外,雖然分子指紋種類也頗多,但目前主要還是用二維(2D)分子指紋來做相應(yīng)的研究,高維度的分子指紋設(shè)計較為困難,這導(dǎo)致了現(xiàn)有的分子指紋種類缺少對分子立體結(jié)構(gòu)描述的三維結(jié)構(gòu)信息.對于此類問題,近些年也有學(xué)者提出了代數(shù)圖、代數(shù)拓?fù)?、微分幾何等分子三維結(jié)構(gòu)信息的表示方法,但是這些方法較為依賴分子結(jié)構(gòu)的可用性[88].分子特征化方法在描述分子的立體化學(xué)信息方面還有許多空間可以提升.
模型的可解釋性是模型的重要部分,是可信性的前提,如何讓模型的工作機制更為透明,獲得人們的理解和信任,這是值得討論和重視的.可解釋的機器學(xué)習(xí)模型沒有“黑盒”模型的特征,更易被理解,透明度高.相較于可解釋的機器學(xué)習(xí)模型,具有“黑盒”特征的機器學(xué)習(xí)模型雖然更難進行直觀的解釋,但是其性能更高,預(yù)測效果更好.因此,如何對“黑盒”模型進行更好的解釋,增加模型的可解釋性,需要更多的研究來進行探究.同時,現(xiàn)在缺乏明確的模型的可解釋性基準(zhǔn),沒有嚴(yán)格的方法來評估和比較模型解釋方法[89].
機器學(xué)習(xí)在化合物屬性預(yù)測方面的應(yīng)用不斷拓展,不僅提高了預(yù)測結(jié)果的準(zhǔn)確性,而且為評估新化學(xué)物質(zhì)的環(huán)境風(fēng)險提供了新方法.其中,深度學(xué)習(xí)算法更適用于大數(shù)據(jù)集,而機器學(xué)習(xí)算法應(yīng)用在小數(shù)據(jù)集更具優(yōu)勢.但是,機器學(xué)習(xí)在化合物屬性預(yù)測中的應(yīng)用仍存在未知和挑戰(zhàn),這些亟待解決的問題將是未來研究工作的焦點.機器學(xué)習(xí)(特別是深度學(xué)習(xí))將會與量子力學(xué)、毒理學(xué)、量子化學(xué)、電化學(xué)等深度融合,在藥物研發(fā)、毒理學(xué)研究、環(huán)境行為預(yù)測、材料研發(fā)等領(lǐng)域繼續(xù)發(fā)揮重要作用.