魏若冰,何家峰,邱曉芳,劉 旗
(廣東工業(yè)大學(xué) 信息工程學(xué)院,廣東 廣州 510006)
由于技術(shù)的發(fā)展,新化合物的合成速度加快,每年誕生的化合物數(shù)以萬(wàn)計(jì)[1-2],傳統(tǒng)的評(píng)價(jià)方法不可能對(duì)所有的化合物進(jìn)行評(píng)估。并且近年來(lái)患癌人數(shù)不斷增多[3],目前仍不清楚大多數(shù)的癌癥是由于暴露于何種致癌化合物而導(dǎo)致的。世界衛(wèi)生組織國(guó)際癌癥機(jī)構(gòu)(IARC)致癌清單中只有429 種化合物被歸為具有致癌性物質(zhì),但仍有500 余種化合物未進(jìn)行判定。傳統(tǒng)的化合物致癌性評(píng)估主要通過(guò)實(shí)驗(yàn)測(cè)試進(jìn)行,試驗(yàn)周期長(zhǎng)且成本昂貴,不確定因素過(guò)多,因此迫切需要開(kāi)發(fā)替代方法和工具來(lái)評(píng)估化合物的致癌性。
利用計(jì)算機(jī)進(jìn)行毒性預(yù)測(cè)[4]是安全評(píng)價(jià)的重要手段,能夠大幅度節(jié)省非臨床安全評(píng)價(jià)試驗(yàn)成本,提高試驗(yàn)設(shè)計(jì)的科學(xué)性和準(zhǔn)確性。隨著機(jī)器學(xué)習(xí)的不斷發(fā)展,支持向量機(jī)(SVM)、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)(Random Forest)和K-最近鄰(KNN)等機(jī)器學(xué)習(xí)算法已被廣泛用于化合物毒性預(yù)測(cè)中[5-7]。此外,對(duì)致癌性化合物的預(yù)測(cè)也有一些報(bào)道。2004年,張曉昀等人[8]用人工神經(jīng)網(wǎng)絡(luò)中誤差反向傳播網(wǎng)絡(luò)(BPNN)和徑向基函數(shù)網(wǎng)絡(luò)(RBFNN)對(duì)化合物的致癌性強(qiáng)弱進(jìn)行了分類(lèi),模型的分類(lèi)準(zhǔn)確率達(dá)到了80%以上;2005年,張振山等人[9]用PCA 對(duì)分子描述符降維,利用決策森林的方法預(yù)測(cè)化合物致癌性;在2007年,謝瑩等人[10]基于gSpan 算法,挖掘與已知毒性化合物具有相同字結(jié)構(gòu)的化合物,進(jìn)行未知化合物的毒性預(yù)測(cè);2017年,梁倩倩等人[11]基于量化構(gòu)效關(guān)系(QSAR)方法預(yù)測(cè)N-亞硝基化學(xué)物(NOCs)的致癌性,同年,閻愛(ài)俠等人[12]構(gòu)建化合物的多維描述符,分別采用4 種機(jī)器學(xué)習(xí)方法(樸素貝葉斯、隨機(jī)森林、多層感知機(jī)和支持向量機(jī)),模型的平均正確率達(dá)到74%±3%。
近年來(lái),越來(lái)越多的研究人員把目光轉(zhuǎn)向致癌化合物的研究,但是現(xiàn)有的模型評(píng)估化合物的致癌性能力有限。本研究從多個(gè)數(shù)據(jù)庫(kù)整理了化合物致癌性數(shù)據(jù),基于具有空間結(jié)構(gòu)的原子特征建立了三維圖卷積網(wǎng)絡(luò)(Spatial Graph Convolutional Network,SGCN)。
從世界衛(wèi)生組織國(guó)際癌癥機(jī)構(gòu)(IARC)致癌清單和美國(guó)環(huán)境保護(hù)局(EPA)列出的安全化合物清單(SCIL)中收集數(shù)據(jù)。為了保證數(shù)據(jù)的準(zhǔn)確性和可靠性,用以下標(biāo)準(zhǔn)來(lái)篩選和處理數(shù)據(jù):(1)IARC 致癌清單中選擇有足夠證據(jù)證明對(duì)人類(lèi)具有致癌性的化合物,剔除其他分類(lèi)中對(duì)致癌證據(jù)有限和致癌證據(jù)不足的化合物;(2)SCIL 安全化合物清單中選擇根據(jù)實(shí)驗(yàn)和建模數(shù)據(jù),已被證實(shí)不具有致癌性的化合物;(3)從上述條件篩選的數(shù)據(jù)集中剔除無(wú)法確定分子結(jié)構(gòu)的化合物。最終,獲得了341 種實(shí)驗(yàn)數(shù)據(jù),其中246 種致癌性數(shù)據(jù)為正樣本,余下95 種不具有致癌性的數(shù)據(jù)為負(fù)樣本,形成了最終的數(shù)據(jù)集。
從正負(fù)數(shù)據(jù)集中隨機(jī)抽取數(shù)據(jù):80%作為訓(xùn)練數(shù)據(jù)集(273 個(gè)分子)用于訓(xùn)練模型,10%作為驗(yàn)證數(shù)據(jù)集(34個(gè)分子)用于調(diào)整超參數(shù),10%作為測(cè)試數(shù)據(jù)集(34 個(gè)分子)用于評(píng)估模型的性能。
采用獨(dú)立熱(one-hot)對(duì)原子特征進(jìn)行編碼[13]。獨(dú)熱編碼又稱(chēng)一位有效編碼,其方法是使用N 位狀態(tài)寄存器來(lái)對(duì)N 個(gè)狀態(tài)進(jìn)行編碼,每個(gè)狀態(tài)都有獨(dú)立的寄存器位,并且在任意時(shí)候,其中只有一位有效,如圖1 所示。同時(shí),用RDKIT 計(jì)算原子和鍵的特征,包括原子的符號(hào)、原子連接的鍵的個(gè)數(shù)、原子的價(jià)態(tài)和鍵的類(lèi)型、是不是共軛、在不在環(huán)中等。
圖1 對(duì)分子圖進(jìn)行獨(dú)立熱編碼示意圖
本文中將分子的空間特性與傳統(tǒng)的GCN 相結(jié)合,去預(yù)測(cè)分子的致癌性。大多GCN 模型使用二維分子圖作為輸入,通過(guò)特征矩陣和鄰接矩陣去預(yù)測(cè)分子的性質(zhì)[14]。然而,分子性質(zhì)很大程度上受到空間中原子間相對(duì)位置影響,因此,在構(gòu)建SGCN 模型時(shí),把帶有原子坐標(biāo)的分子圖也作為輸入。
式中,A 是標(biāo)準(zhǔn)化后的鄰接矩陣,W 和b 表示權(quán)重和偏置??臻gGCN 由卷積層、特征構(gòu)造層和全連接層3 個(gè)模塊組成,如圖2 所示。
圖2 空間圖卷積流程圖
在初始化特征時(shí),節(jié)點(diǎn)的標(biāo)量特征進(jìn)行獨(dú)立熱編碼形成60 個(gè)特征,而矢量特征被初始化為零。卷積層的第一階段將每個(gè)節(jié)點(diǎn)的兩個(gè)特征融合在一起,生成中間特征。在第二階段,收集中間特征并沿著鄰域進(jìn)行匯總,從而產(chǎn)生更高級(jí)別的特征。通過(guò)卷積層,更新標(biāo)量特征和矢量特征。經(jīng)過(guò)卷積后,特征構(gòu)造層通過(guò)兩種策略收集節(jié)點(diǎn)上的特征:SGCNsum整合了節(jié)點(diǎn)上分布的所有原子特征,生成分子的標(biāo)量和矢量特征;SGCNmax選取原子特征中取值最大的作為分子特征。生成的分子特征被送到具有ReLU 激活的全連接神經(jīng)網(wǎng)絡(luò)。最后,輸出被扁平化處理后送到單層神經(jīng)網(wǎng)絡(luò)中來(lái)進(jìn)行分類(lèi)。
對(duì)比模型包括GCN、多層感知機(jī)(Multilayer Perceptron,MLP)、隨機(jī)森林(Random Forest,RF)、支持向量機(jī)(Support Vector Machines,SVM)、K-最近鄰算法(K-Nearest Neighbors,KNN)、決策樹(shù)(Decision Tree)、線性判別分析(Linear Discriminant Analysis,LDA)和XGBoost。GCN 模型由兩個(gè)卷積層和一個(gè)全連接層構(gòu)成,學(xué)習(xí)率為0.001。多層感知機(jī)中設(shè)置優(yōu)化權(quán)重設(shè)置為adam,最大迭代300 次。余下機(jī)器學(xué)習(xí)模型從scikitlearn 庫(kù)中調(diào)用,隨機(jī)森林中建立子樹(shù)的數(shù)量為20;支持向量機(jī)中核函數(shù)類(lèi)型為徑向核函數(shù),布爾值為T(mén)ruth;樸素貝葉斯分類(lèi)器中拉普拉斯平滑系數(shù)設(shè)置為1,其余模型參數(shù)均設(shè)置為默認(rèn)值。
采用10 折交叉驗(yàn)證法來(lái)評(píng)估模型的預(yù)測(cè)性能和可靠性。在10 折交叉驗(yàn)證中,先將數(shù)據(jù)集劃分為10 個(gè)大小相等的互斥子集,每個(gè)子集都盡可能保持了數(shù)據(jù)分布的一致性,之后,每次都用9 個(gè)子集作為訓(xùn)練集,余下的1 個(gè)子集作為驗(yàn)證集。然后,將交叉驗(yàn)證過(guò)程重復(fù)10 次。
式中,TP 是真陽(yáng)性,TN 是真陰性,F(xiàn)P 是假 陽(yáng)性,F(xiàn)N 是假陰性。計(jì)算總體預(yù)測(cè)準(zhǔn)確率(Acc)以對(duì)每個(gè)預(yù)測(cè)函數(shù)進(jìn)行評(píng)估。此外,為了使評(píng)價(jià)更有效,加入了查準(zhǔn)率(Pre)來(lái)進(jìn)一步驗(yàn)證模型。查準(zhǔn)率是計(jì)算模型判斷為陽(yáng)性的樣本中有多少是真正的陽(yáng)性。
在特征構(gòu)造層以?xún)煞N方式對(duì)特征進(jìn)行構(gòu)造,一種是將分布在節(jié)點(diǎn)上的所有原子特征相加(SGCNsum),形成新的矢量和標(biāo)量特征;另一種是選取最大值的原子特征作為分子特征(SGCNmax),依據(jù)范數(shù)比對(duì)矢量特征的大小。根據(jù)表1 可以看出,SGCNmax和SGCNsum在對(duì)模型準(zhǔn)確率預(yù)測(cè)在0.946~0.973 之間,查準(zhǔn)率在0.939~0.951 之間,在GCN 為基礎(chǔ)上準(zhǔn)確率和查準(zhǔn)率提高了約4.5%。在特征構(gòu)造上,對(duì)比模型SGCNmax和SGCNsum在評(píng)估參數(shù)上的值,可以發(fā)現(xiàn),SGCNsum除了在驗(yàn)證集的準(zhǔn)確率略微低于SGCNmax,其余均高于SGCNmax,所以,在對(duì)分子致癌性進(jìn)行預(yù)測(cè)時(shí),特征構(gòu)造中選取原子特征的最大值會(huì)使得模型效果偏好。
表1 模型的評(píng)估指標(biāo)
此外,還構(gòu)建了7 個(gè)預(yù)測(cè)模型作為對(duì)比,7 個(gè)模型的整體準(zhǔn)確率在0.810~0.861 之間,如表2 所示。
表2 基于原子特征和分子描述符的對(duì)比模型
在準(zhǔn)確率評(píng)估中,表現(xiàn)最好的是RF 模型為0.844;在查準(zhǔn)率評(píng)估中,表現(xiàn)最好的則是KNN 算法為0.855。在驗(yàn)證集中預(yù)測(cè)性能最好的LDA 算法在測(cè)試集中的表現(xiàn)同樣優(yōu)異,其總體預(yù)測(cè)準(zhǔn)確率為0.861,查準(zhǔn)率為0.849。除此之外,KNN 和RF 也表現(xiàn)出了較好的預(yù)測(cè)能力,KNN 在驗(yàn)證集的查準(zhǔn)率達(dá)到了0.855。對(duì)比分析表2 中的模型可以看出,驗(yàn)證集和測(cè)試集中總體預(yù)測(cè)準(zhǔn)確率和查準(zhǔn)率基本相等,表明模型不存在過(guò)擬合的現(xiàn)象。將此表模型中表現(xiàn)最好的幾個(gè)模型同SGCN 進(jìn)行對(duì)比,可以看出SGCN 表現(xiàn)出了較為優(yōu)異的性能。
在與7 種模型的對(duì)比實(shí)驗(yàn)中發(fā)現(xiàn),與SGCN 和GCN進(jìn)行對(duì)比時(shí)準(zhǔn)確率差異過(guò)大達(dá)到了0.109,考慮到所有模型提取的特征為原子特征,SGCN 中的輸入僅包括原子的特征矩陣還包括原子間的鄰接矩陣和相對(duì)位置矩陣,而在對(duì)比實(shí)驗(yàn)中輸入僅為原子特征,輸入信息量相對(duì)較少且不全面,以用分子的信息代替原子的信息作為對(duì)比模型的輸入。分子描述符[15]通過(guò)量化部分結(jié)構(gòu)和物理化學(xué)性質(zhì)來(lái)表達(dá)化合物的化學(xué)特征。使用函數(shù)調(diào)用rdkit生成數(shù)據(jù)集中所有分子的描述符,生成的描述符包含分子指紋、相對(duì)分子質(zhì)量和部分電荷等200 維特征。將分子描述符作為輸入用于7 種對(duì)比模型中,發(fā)現(xiàn)準(zhǔn)確率有明顯的上升,整個(gè)模型的準(zhǔn)確率在0.821~0.931 之間,其中驗(yàn)證集中RF 和XGBoost 的準(zhǔn)確率分別從0.829 和0.810 上升至了0.920 和0.931,除此之外DT 的準(zhǔn)確率也上升了0.6,其他模型準(zhǔn)確率沒(méi)有變化或略微下降。
本研究采用SGCN 模型對(duì)化合物進(jìn)行了致癌性預(yù)測(cè),可因此減少因條件限制而導(dǎo)致的化合物致癌性評(píng)估不足。此模型對(duì)273 種數(shù)據(jù)集和34 種外部驗(yàn)證數(shù)據(jù)集進(jìn)行毒性分類(lèi),在34 種測(cè)試集中獲得了96.9%的準(zhǔn)確率和94.4%的查準(zhǔn)率,表現(xiàn)出了評(píng)估化合物致癌性的優(yōu)異性。通過(guò)進(jìn)一步分析,發(fā)現(xiàn)用分子描述符作為特征時(shí),RF 和XGBoost 模型效果準(zhǔn)確率也達(dá)到90%以上,這兩種模型同樣也適用于化合物致癌性的分類(lèi)。將SGCN 模型用于有毒氣體分類(lèi)上,準(zhǔn)確率達(dá)到89%,說(shuō)明此模型在化合物分類(lèi)判定上也有一定的普適性。
該研究探索了基于原子空間特征結(jié)合SGCN 構(gòu)建化合物致癌性分類(lèi)模型的可行性,為化學(xué)物的健康風(fēng)險(xiǎn)評(píng)估提供依據(jù),然而收集到的樣本數(shù)和樣本類(lèi)別有限,需進(jìn)一步增加樣本量,使構(gòu)建出的模型具有更好的泛化性和穩(wěn)定性。