基于SGCN 的化合物致癌性預(yù)測(cè)模型*

2022-07-22 06:32魏若冰何家峰邱曉芳

電子技術(shù)應(yīng)用 2022年6期

魏若冰，何家峰，邱曉芳，劉旗

（廣東工業(yè)大學(xué) 信息工程學(xué)院，廣東廣州 510006）

0 引言

由于技術(shù)的發(fā)展，新化合物的合成速度加快，每年誕生的化合物數(shù)以萬(wàn)計(jì)[1-2]，傳統(tǒng)的評(píng)價(jià)方法不可能對(duì)所有的化合物進(jìn)行評(píng)估。并且近年來(lái)患癌人數(shù)不斷增多[3]，目前仍不清楚大多數(shù)的癌癥是由于暴露于何種致癌化合物而導(dǎo)致的。世界衛(wèi)生組織國(guó)際癌癥機(jī)構(gòu)（IARC）致癌清單中只有429 種化合物被歸為具有致癌性物質(zhì),但仍有500 余種化合物未進(jìn)行判定。傳統(tǒng)的化合物致癌性評(píng)估主要通過(guò)實(shí)驗(yàn)測(cè)試進(jìn)行，試驗(yàn)周期長(zhǎng)且成本昂貴，不確定因素過(guò)多，因此迫切需要開(kāi)發(fā)替代方法和工具來(lái)評(píng)估化合物的致癌性。

利用計(jì)算機(jī)進(jìn)行毒性預(yù)測(cè)[4]是安全評(píng)價(jià)的重要手段，能夠大幅度節(jié)省非臨床安全評(píng)價(jià)試驗(yàn)成本，提高試驗(yàn)設(shè)計(jì)的科學(xué)性和準(zhǔn)確性。隨著機(jī)器學(xué)習(xí)的不斷發(fā)展，支持向量機(jī)（SVM）、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)（Random Forest）和K-最近鄰（KNN）等機(jī)器學(xué)習(xí)算法已被廣泛用于化合物毒性預(yù)測(cè)中[5-7]。此外，對(duì)致癌性化合物的預(yù)測(cè)也有一些報(bào)道。2004年，張曉昀等人[8]用人工神經(jīng)網(wǎng)絡(luò)中誤差反向傳播網(wǎng)絡(luò)（BPNN）和徑向基函數(shù)網(wǎng)絡(luò)（RBFNN）對(duì)化合物的致癌性強(qiáng)弱進(jìn)行了分類(lèi)，模型的分類(lèi)準(zhǔn)確率達(dá)到了80%以上；2005年，張振山等人[9]用PCA 對(duì)分子描述符降維，利用決策森林的方法預(yù)測(cè)化合物致癌性；在2007年，謝瑩等人[10]基于gSpan 算法，挖掘與已知毒性化合物具有相同字結(jié)構(gòu)的化合物，進(jìn)行未知化合物的毒性預(yù)測(cè)；2017年，梁倩倩等人[11]基于量化構(gòu)效關(guān)系（QSAR）方法預(yù)測(cè)N-亞硝基化學(xué)物（NOCs）的致癌性，同年，閻愛(ài)俠等人[12]構(gòu)建化合物的多維描述符，分別采用4 種機(jī)器學(xué)習(xí)方法（樸素貝葉斯、隨機(jī)森林、多層感知機(jī)和支持向量機(jī)），模型的平均正確率達(dá)到74%±3%。

近年來(lái)，越來(lái)越多的研究人員把目光轉(zhuǎn)向致癌化合物的研究，但是現(xiàn)有的模型評(píng)估化合物的致癌性能力有限。本研究從多個(gè)數(shù)據(jù)庫(kù)整理了化合物致癌性數(shù)據(jù)，基于具有空間結(jié)構(gòu)的原子特征建立了三維圖卷積網(wǎng)絡(luò)（Spatial Graph Convolutional Network，SGCN）。

1 數(shù)據(jù)和方法

1.1 數(shù)據(jù)收集

從世界衛(wèi)生組織國(guó)際癌癥機(jī)構(gòu)（IARC）致癌清單和美國(guó)環(huán)境保護(hù)局（EPA）列出的安全化合物清單（SCIL）中收集數(shù)據(jù)。為了保證數(shù)據(jù)的準(zhǔn)確性和可靠性，用以下標(biāo)準(zhǔn)來(lái)篩選和處理數(shù)據(jù)：（1）IARC 致癌清單中選擇有足夠證據(jù)證明對(duì)人類(lèi)具有致癌性的化合物，剔除其他分類(lèi)中對(duì)致癌證據(jù)有限和致癌證據(jù)不足的化合物；（2）SCIL 安全化合物清單中選擇根據(jù)實(shí)驗(yàn)和建模數(shù)據(jù)，已被證實(shí)不具有致癌性的化合物；（3）從上述條件篩選的數(shù)據(jù)集中剔除無(wú)法確定分子結(jié)構(gòu)的化合物。最終，獲得了341 種實(shí)驗(yàn)數(shù)據(jù)，其中246 種致癌性數(shù)據(jù)為正樣本，余下95 種不具有致癌性的數(shù)據(jù)為負(fù)樣本，形成了最終的數(shù)據(jù)集。

1.2 數(shù)據(jù)集劃分

從正負(fù)數(shù)據(jù)集中隨機(jī)抽取數(shù)據(jù)：80%作為訓(xùn)練數(shù)據(jù)集（273 個(gè)分子）用于訓(xùn)練模型，10%作為驗(yàn)證數(shù)據(jù)集（34個(gè)分子）用于調(diào)整超參數(shù)，10%作為測(cè)試數(shù)據(jù)集（34 個(gè)分子）用于評(píng)估模型的性能。

1.3 分子編碼

采用獨(dú)立熱（one-hot）對(duì)原子特征進(jìn)行編碼[13]。獨(dú)熱編碼又稱(chēng)一位有效編碼，其方法是使用N 位狀態(tài)寄存器來(lái)對(duì)N 個(gè)狀態(tài)進(jìn)行編碼，每個(gè)狀態(tài)都有獨(dú)立的寄存器位，并且在任意時(shí)候，其中只有一位有效，如圖1 所示。同時(shí)，用RDKIT 計(jì)算原子和鍵的特征，包括原子的符號(hào)、原子連接的鍵的個(gè)數(shù)、原子的價(jià)態(tài)和鍵的類(lèi)型、是不是共軛、在不在環(huán)中等。

圖1 對(duì)分子圖進(jìn)行獨(dú)立熱編碼示意圖

1.4 SGCN

本文中將分子的空間特性與傳統(tǒng)的GCN 相結(jié)合，去預(yù)測(cè)分子的致癌性。大多GCN 模型使用二維分子圖作為輸入，通過(guò)特征矩陣和鄰接矩陣去預(yù)測(cè)分子的性質(zhì)[14]。然而，分子性質(zhì)很大程度上受到空間中原子間相對(duì)位置影響，因此，在構(gòu)建SGCN 模型時(shí)，把帶有原子坐標(biāo)的分子圖也作為輸入。

式中，A 是標(biāo)準(zhǔn)化后的鄰接矩陣，W 和b 表示權(quán)重和偏置?？臻gGCN 由卷積層、特征構(gòu)造層和全連接層3 個(gè)模塊組成，如圖2 所示。

圖2 空間圖卷積流程圖

在初始化特征時(shí)，節(jié)點(diǎn)的標(biāo)量特征進(jìn)行獨(dú)立熱編碼形成60 個(gè)特征，而矢量特征被初始化為零。卷積層的第一階段將每個(gè)節(jié)點(diǎn)的兩個(gè)特征融合在一起，生成中間特征。在第二階段，收集中間特征并沿著鄰域進(jìn)行匯總，從而產(chǎn)生更高級(jí)別的特征。通過(guò)卷積層，更新標(biāo)量特征和矢量特征。經(jīng)過(guò)卷積后，特征構(gòu)造層通過(guò)兩種策略收集節(jié)點(diǎn)上的特征：SGCNsum整合了節(jié)點(diǎn)上分布的所有原子特征，生成分子的標(biāo)量和矢量特征；SGCNmax選取原子特征中取值最大的作為分子特征。生成的分子特征被送到具有ReLU 激活的全連接神經(jīng)網(wǎng)絡(luò)。最后，輸出被扁平化處理后送到單層神經(jīng)網(wǎng)絡(luò)中來(lái)進(jìn)行分類(lèi)。

1.5 對(duì)比模型

對(duì)比模型包括GCN、多層感知機(jī)（Multilayer Perceptron，MLP）、隨機(jī)森林（Random Forest，RF）、支持向量機(jī)（Support Vector Machines，SVM）、K-最近鄰算法（K-Nearest Neighbors，KNN）、決策樹(shù)（Decision Tree）、線性判別分析（Linear Discriminant Analysis，LDA）和XGBoost。GCN 模型由兩個(gè)卷積層和一個(gè)全連接層構(gòu)成，學(xué)習(xí)率為0.001。多層感知機(jī)中設(shè)置優(yōu)化權(quán)重設(shè)置為adam，最大迭代300 次。余下機(jī)器學(xué)習(xí)模型從scikitlearn 庫(kù)中調(diào)用，隨機(jī)森林中建立子樹(shù)的數(shù)量為20；支持向量機(jī)中核函數(shù)類(lèi)型為徑向核函數(shù)，布爾值為T(mén)ruth；樸素貝葉斯分類(lèi)器中拉普拉斯平滑系數(shù)設(shè)置為1，其余模型參數(shù)均設(shè)置為默認(rèn)值。

1.6 模型評(píng)估方法

采用10 折交叉驗(yàn)證法來(lái)評(píng)估模型的預(yù)測(cè)性能和可靠性。在10 折交叉驗(yàn)證中，先將數(shù)據(jù)集劃分為10 個(gè)大小相等的互斥子集，每個(gè)子集都盡可能保持了數(shù)據(jù)分布的一致性，之后，每次都用9 個(gè)子集作為訓(xùn)練集，余下的1 個(gè)子集作為驗(yàn)證集。然后，將交叉驗(yàn)證過(guò)程重復(fù)10 次。

式中，TP 是真陽(yáng)性，TN 是真陰性，F(xiàn)P 是假陽(yáng)性，F(xiàn)N 是假陰性。計(jì)算總體預(yù)測(cè)準(zhǔn)確率（Acc）以對(duì)每個(gè)預(yù)測(cè)函數(shù)進(jìn)行評(píng)估。此外，為了使評(píng)價(jià)更有效，加入了查準(zhǔn)率（Pre）來(lái)進(jìn)一步驗(yàn)證模型。查準(zhǔn)率是計(jì)算模型判斷為陽(yáng)性的樣本中有多少是真正的陽(yáng)性。

2 結(jié)果和討論

2.1 空間GCN 特征構(gòu)造

在特征構(gòu)造層以?xún)煞N方式對(duì)特征進(jìn)行構(gòu)造，一種是將分布在節(jié)點(diǎn)上的所有原子特征相加（SGCNsum），形成新的矢量和標(biāo)量特征；另一種是選取最大值的原子特征作為分子特征（SGCNmax），依據(jù)范數(shù)比對(duì)矢量特征的大小。根據(jù)表1 可以看出，SGCNmax和SGCNsum在對(duì)模型準(zhǔn)確率預(yù)測(cè)在0.946～0.973 之間，查準(zhǔn)率在0.939～0.951 之間，在GCN 為基礎(chǔ)上準(zhǔn)確率和查準(zhǔn)率提高了約4.5%。在特征構(gòu)造上，對(duì)比模型SGCNmax和SGCNsum在評(píng)估參數(shù)上的值，可以發(fā)現(xiàn)，SGCNsum除了在驗(yàn)證集的準(zhǔn)確率略微低于SGCNmax，其余均高于SGCNmax，所以，在對(duì)分子致癌性進(jìn)行預(yù)測(cè)時(shí)，特征構(gòu)造中選取原子特征的最大值會(huì)使得模型效果偏好。

表1 模型的評(píng)估指標(biāo)

2.2 對(duì)比實(shí)驗(yàn)

此外，還構(gòu)建了7 個(gè)預(yù)測(cè)模型作為對(duì)比，7 個(gè)模型的整體準(zhǔn)確率在0.810～0.861 之間，如表2 所示。

表2 基于原子特征和分子描述符的對(duì)比模型

在準(zhǔn)確率評(píng)估中，表現(xiàn)最好的是RF 模型為0.844；在查準(zhǔn)率評(píng)估中，表現(xiàn)最好的則是KNN 算法為0.855。在驗(yàn)證集中預(yù)測(cè)性能最好的LDA 算法在測(cè)試集中的表現(xiàn)同樣優(yōu)異，其總體預(yù)測(cè)準(zhǔn)確率為0.861，查準(zhǔn)率為0.849。除此之外，KNN 和RF 也表現(xiàn)出了較好的預(yù)測(cè)能力，KNN 在驗(yàn)證集的查準(zhǔn)率達(dá)到了0.855。對(duì)比分析表2 中的模型可以看出，驗(yàn)證集和測(cè)試集中總體預(yù)測(cè)準(zhǔn)確率和查準(zhǔn)率基本相等，表明模型不存在過(guò)擬合的現(xiàn)象。將此表模型中表現(xiàn)最好的幾個(gè)模型同SGCN 進(jìn)行對(duì)比，可以看出SGCN 表現(xiàn)出了較為優(yōu)異的性能。

2.3 提取分子描述符

在與7 種模型的對(duì)比實(shí)驗(yàn)中發(fā)現(xiàn)，與SGCN 和GCN進(jìn)行對(duì)比時(shí)準(zhǔn)確率差異過(guò)大達(dá)到了0.109，考慮到所有模型提取的特征為原子特征，SGCN 中的輸入僅包括原子的特征矩陣還包括原子間的鄰接矩陣和相對(duì)位置矩陣，而在對(duì)比實(shí)驗(yàn)中輸入僅為原子特征，輸入信息量相對(duì)較少且不全面，以用分子的信息代替原子的信息作為對(duì)比模型的輸入。分子描述符[15]通過(guò)量化部分結(jié)構(gòu)和物理化學(xué)性質(zhì)來(lái)表達(dá)化合物的化學(xué)特征。使用函數(shù)調(diào)用rdkit生成數(shù)據(jù)集中所有分子的描述符，生成的描述符包含分子指紋、相對(duì)分子質(zhì)量和部分電荷等200 維特征。將分子描述符作為輸入用于7 種對(duì)比模型中，發(fā)現(xiàn)準(zhǔn)確率有明顯的上升，整個(gè)模型的準(zhǔn)確率在0.821～0.931 之間，其中驗(yàn)證集中RF 和XGBoost 的準(zhǔn)確率分別從0.829 和0.810 上升至了0.920 和0.931，除此之外DT 的準(zhǔn)確率也上升了0.6，其他模型準(zhǔn)確率沒(méi)有變化或略微下降。

3 結(jié)論

本研究采用SGCN 模型對(duì)化合物進(jìn)行了致癌性預(yù)測(cè)，可因此減少因條件限制而導(dǎo)致的化合物致癌性評(píng)估不足。此模型對(duì)273 種數(shù)據(jù)集和34 種外部驗(yàn)證數(shù)據(jù)集進(jìn)行毒性分類(lèi)，在34 種測(cè)試集中獲得了96.9%的準(zhǔn)確率和94.4%的查準(zhǔn)率，表現(xiàn)出了評(píng)估化合物致癌性的優(yōu)異性。通過(guò)進(jìn)一步分析，發(fā)現(xiàn)用分子描述符作為特征時(shí)，RF 和XGBoost 模型效果準(zhǔn)確率也達(dá)到90%以上，這兩種模型同樣也適用于化合物致癌性的分類(lèi)。將SGCN 模型用于有毒氣體分類(lèi)上，準(zhǔn)確率達(dá)到89%，說(shuō)明此模型在化合物分類(lèi)判定上也有一定的普適性。

該研究探索了基于原子空間特征結(jié)合SGCN 構(gòu)建化合物致癌性分類(lèi)模型的可行性，為化學(xué)物的健康風(fēng)險(xiǎn)評(píng)估提供依據(jù)，然而收集到的樣本數(shù)和樣本類(lèi)別有限，需進(jìn)一步增加樣本量，使構(gòu)建出的模型具有更好的泛化性和穩(wěn)定性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡