国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

MvRFM:一種用于分子性質預測的多視圖融合模型

2024-08-06 00:00:00張茹曾遠鵬林艷梅彭昱忠

摘" 要:在藥物發(fā)現(xiàn)中,分子性質測定是一項關鍵且非常具有挑戰(zhàn)性的任務。用人工智能方法可為大規(guī)模、快速測定分子性質提供一種有效的新途徑,但需要對分子進行有效表征。已有的研究通常使用一種分子表征方法進行學習和建模,得到的分子特征信息來源較單一,得到的分子特征存在片面性。為此,提出了一個新穎的、用于分子性質預測的多視圖融合模型(Multi-view Representation Fusion Model,MvRFM)。該模型基于多視圖機器學習的思想,將不同的分子表征方法或特征學習看作觀察分子的不同視圖,利用互相關分析方法計算不同視圖之間的關聯(lián)性,并使用自適應加權聯(lián)合決策策略優(yōu)化各視圖的權重。在兩個公共數(shù)據(jù)集上與8個先進的方法模型進行比較實驗,驗證了MvRFM的有效性和預測優(yōu)勢。

關鍵詞:分子性質預測;分子表征學習;多視圖學習;互相關分析方法;多視圖特征融合優(yōu)化

中圖分類號:TQ174.4+3" 文獻標識碼:A

DOI:10.16601/j.cnki.issn2096-7330.2024.02.010文章編號:2096-7330(2024)02-0062-08

收稿日期:2023-11-20

基金項目:國家自然科學基金項目(62262044);廣西自然科學基金項目(2023GXNSFAA026027);廣西中醫(yī)藥多學科交叉創(chuàng)新團隊項目(GZKJ2311)

通信作者:林艷梅,南寧師范大學助理研究員,ymlin20160714@163.com。

0" 引言

分子性質測定在藥物篩選、藥物靶向關系挖掘等藥物發(fā)現(xiàn),以及材料科學、環(huán)境分析等領域發(fā)揮著非常重要的作用[1-2]。然而,傳統(tǒng)的分子性質測定方法通常要求化學專家進行專業(yè)的生化實驗來驗證性質標簽,這需要高昂的研發(fā)成本[3]。隨著科技的進步,許多機器學習方法,如k-近鄰、隨機森林(Random Forest,RF)、支持向量機(Support Vector Machine,SVM)等,被用于建立定量結構性質關系(QSPR)模型,并取得了一定的成效[4]。這些方法可以經濟、快速、有效地進行大規(guī)模的分子性質預測,為分子性質測定提供了新的思路和方法。

近年來,一些學者嘗試將深度學習方法應用到分子性質預測研究中。在基于深度學習的分子性質預測方法中,分子可以用多種方式進行表征,如簡化分子線性輸入規(guī)范(Simplified Molecular Input Line Entry System,SMILES)、分子圖等[5]。針對不同的分子表征,可以選擇不同的深度學習模型來學習分子特征。對SMILES串的學習,受自然語言處理技術的啟發(fā),研究者使用學習序列的模型來學習分子SMILES序列中的特征和結構。例如:使用循環(huán)神經網絡(Recurrent Neural Network,RNN)[6]和卷積神經網絡(Convolutional Neural Network,CNN)[7]等模型,從SMILES序列中自動學習分子的潛在特征,以進行分子性質建模與預測;此外,Wang等[8]提出一種新的門控循環(huán)單元(Gate Recurrent Unit,GRU)神經網絡模型MSGG,并將注意力機制應用于分子子結構特征的學習,從而預測分子特性。對分子圖的學習,一些研究者使用基于圖神經網絡的模型來學習分子圖中的潛在特征。例如:Glimer等[9]提出一種監(jiān)督學習框架MPNN,該框架通過迭代傳遞消息來學習圖結構信息和節(jié)點特征,并生成分子特征用于分子性質預測;Yang等[10]在MPNN基礎上考慮了化學鍵方向,提出了D-MPNN模型來更準確地捕捉分子中原子之間的關系和化學鍵特征;Hu等[11]提出一種圖預訓練模型Pre-GNN進行分子特征學習,具有很好的泛化能力;Fang等[12]提出了一種幾何增強分子表征學習方法GEM,該方法設計了一個基于幾何學的GNN架構,同時對分子中的原子、鍵和鍵角進行建模。總的來說,這些方法都使用了單一的分子表征方法來構建深度神經網絡模型,并取得了一定的性能效果。但由于這些方法的分子特征信息來源較單一,容易造成學習分子特征片面化,以致特征信息不全面等問題。此外,基于SMILES序列的表征方法和基于分子圖的表征方法自身也存在不足。例如:基于SMILES序列的表征方法難以捕捉到分子結構的相似性,同時SMILES串并非唯一確定的,導致生成的序列會有所差異[13],從而影響特征學習的魯棒性;基于分子圖的表征方法能夠很好地學習分子的結構信息,但無法很好地表達出某些特定的化學信息,這阻礙了預測性能的提高[14]。

最近,多視圖學習框架被學者應用于分子性質預測試圖解決上述問題。該框架將每種分子表征方法或特征學習方法看作觀察分子數(shù)據(jù)的一個視圖,然后輸入搭建好的網絡模型學習多種分子視圖的特征信息。例如:Ma等[15]提出一種多視圖學習框架MVGNN,該框架通過節(jié)點中心編碼器和邊中心編碼器兩個并行階段來學習分子的拓撲結構和節(jié)點/邊的特征;Guo等[16]提出了利用圖神經網絡和遞歸神經網絡互補組合來學習分子圖和序列有效表示的多視圖模型GraSeq。然而,現(xiàn)有的多視圖分子表征學習方法仍存在局限性:(1)忽視了不同視圖特征之間的關系。由于分子組成復雜以及不同分子描述符之間的關聯(lián)性,如何充分利用各視圖特征來全面表示分子是一項具有挑戰(zhàn)性的任務。(2)忽視了不同視圖對模型的貢獻程度。大多數(shù)模型在多視圖特征融合階段將各視圖特征信息視為同等重要,如對不同的視圖假設一個相等的值,或為每個視圖分配一個固定的權重。實際上,在多視圖學習中各視圖對分子性質預測的貢獻程度是不同的。因此,合理分配多視圖學習中各視圖的權重也是必要的。

為了解決上述問題,考慮分子SMILES串和分子圖的信息,提出了一種多視圖融合的分子性質預測模型(Multi-view Representation Fusion Model,MvRFM)。MvRFM在多視圖交互模塊采用互相關分析方法計算不同視圖之間的關系,捕捉各視圖之間的相似性和差異性,從而充分利用各視圖獨有的特征。在訓練與優(yōu)化模塊采用自適應加權聯(lián)合決策策略優(yōu)化各視圖的權重,使模型關注更重要的視圖信息。

1" 相關工作

1.1" 卷積神經網絡

利用CNN來學習分子SMILES串的局部特征。CNN由輸入層、卷積層、池化層、全連接層以及輸出層組成。卷積層主要用于提取輸入數(shù)據(jù)的特征信息;池化層對上一層的輸出進行采樣;全連接層輸出最終結果,如圖1所示。CNN最大的特點是能夠在過濾器的幫助下捕獲局部依賴關系,從而學習到SMILES序列的局部表征信息。

1.2" 長短期記憶網絡

1) 遺忘門:根據(jù)當前t時刻的輸入xt和上一時刻隱藏層的狀態(tài)ht-1,通過激活函數(shù)決定哪些信息將會被遺忘;

2) 輸入門:在遺忘部分信息后,根據(jù)最新狀態(tài)補充一些有用的信息;

3) 輸出門:根據(jù)當前時刻輸入、上一時刻隱藏層的狀態(tài)ht-1,以及最新的狀態(tài)ct決定當前時刻的輸出ht。

當輸入時刻為t時,LSTM門控單元的計算過程為:

輸出門的值it為:it=σ(Wxixt+Whiht-1+Wcict-1+bi)(1)

遺忘門的值ft為:ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)(2)

當前基于單元狀態(tài)值ct為:ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)(3)

輸出門的值ot為:ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)(4)

最終LSTM單元格的輸出值ht為:ht=ottanh(ct)(5)

式(1)至式(5)中,W和b分別為權重矩陣和偏置,(Wxi,Whi,Wci,bi)、(Wxf,Whf,Wcf,bf)、(Wxc,Whc,bc)、(Wxo,Who,Wco,bo)分別為輸出門、遺忘門、狀態(tài)單元以及輸出門的權重矩陣和偏置值,σ和tanh()為激活函數(shù)。

1.3" 圖卷積神經網絡

利用圖卷積神經網絡(Graph Convolutional Network,GCN)學習分子圖結構特征。GCN是一種可以非規(guī)則的圖結構數(shù)據(jù)上進行卷積操作來學習節(jié)點信息的神經網絡。給定一個無向圖G=(V,E),其中V表示節(jié)點的集合,E表示邊的集合,則進行一次卷積操作:

H(l+1)=σ(D-12AD-12H(l)W(l)(6)

A=A+I(7)

其中,H(l)表示所有節(jié)點在第l層的特征矩陣,H(l+1)表示經過一次卷積操作之后的特征矩陣;A表示大小為|V|×|V|的鄰接矩陣,A為添加了自連接圖G的鄰接矩陣,I為單位矩陣,W(l)表示當前層卷積變換的可訓練參數(shù)矩陣,D是鄰接矩陣A的度矩陣,σ為激活函數(shù)。

2" MvRFM方法

MvRFM模型由多視圖信息獲取、多視圖特征交互以及訓練與優(yōu)化3個部分組成,如圖3所示。在多視圖信息獲取模塊中,分別利用CNN、LSTM學習和提取分子SMILES串的2種序列特征,利用GCN學習和提取分子圖結構特征,作為MvRFM模型的3種視圖信息。在多數(shù)圖特征交互模塊中,使用互相關分析方法計算視圖之間的關系,捕捉各視圖間的關聯(lián)性,以更好地利用各視圖特征信息。在訓練與優(yōu)化模塊中,對模型進行訓練以及采用自適應加權聯(lián)合決策策略對各視圖權重進行優(yōu)化。

2.1" 多視圖信息獲取

2.1.1" 分子數(shù)據(jù)預處理

SMILES串是一種按照一定規(guī)則用連續(xù)不間斷的字母和符號來表達分子結構的線性符號序列[17]。模型通常將SMILES串經過數(shù)據(jù)預處理生成的SMILES序列向量和分子圖表示作為輸入數(shù)據(jù)。

1)SMILES序列向量的生成:根據(jù)SMILES串的特點,可利用自然語言處理技術將SMILES串轉換為SMILES序列向量。首先將SMILES串中的字符串進行語義分割生成元素序列;再將元素序列中的元素與事先構建好的標簽/整數(shù)字典進行匹配生成對應的整數(shù)序列;最后通過嵌入方法生成相應的序列向量,序列向量生成的整個過程如圖4所示(圖中元素序列和整數(shù)序列各元素之間用空格分隔)。

2) 分子圖結構數(shù)據(jù)生成:圖結構數(shù)據(jù)是一種直接表達對象之間相互作用關系的數(shù)據(jù)結構,對象表示為節(jié)點,對象之間的關系用連接節(jié)點的邊表示。分子圖是一種特殊的圖結構數(shù)據(jù),其含有豐富的分子結構信息。使用開源化學信息工具包RDKit[18]將SMILES串轉換為分子圖G=(V,E),其中V和E分別表示分子中原子和化學鍵映射生成分子圖節(jié)點的集合和邊的集合。分子圖中每個節(jié)點由原子符號、原子數(shù)、形成電荷、隱性價、芳香性5個分子描述符組成。分子圖的拓撲結構可用大小為|V|×|V|的鄰接矩陣A表示。

2.1.2" 多視圖信息生成

多視圖信息獲取模塊主要是對數(shù)據(jù)預處理后的SMILES序列向量和分子圖結構數(shù)據(jù)進行特征提取。該模塊由基于SMILES序列編碼器CNN、LSTM和基于分子圖編碼器GCN組成。

1) CNN編碼器:該部分主要對輸入的SMILES序列向量進行局部特征提取,提取序列向量中的局部特征向量y1∈

Euclid Math TwoRA@ d,其中d表示向量y1的維度。首先,該編碼器搭建2個卷積層,并使用ReLU函數(shù)作為激活函數(shù)。卷積層通過滑動窗口對輸入序列數(shù)據(jù)進行卷積操作,從而提取局部特征。接著,將兩個卷積層提取的特征展平為一維向量,并通過全連接層進行特征融合和降維。最后,對特征向量進行批歸一化操作、ReLU激活函數(shù)和Dropout操作,以增強模型的非線性表達能力和減少過擬合的風險。

2) LSTM編碼器:該部分主要對輸入的SMILES序列向量進行全局特征提取,提取序列向量中的全局特征向量y2∈

Euclid Math TwoRA@ d。先由編碼器搭建3個LSTM網絡層,每個LSTM層具有一定數(shù)量的隱藏單元。LSTM層通過記憶單元和門控機制有效地捕捉序列數(shù)據(jù)中的長期依賴關系。然后,對LSTM層提取的特征向量進行批歸一化、ReLU激活函數(shù)以及Dropout操作,更好地捕捉輸入數(shù)據(jù)的非線性關系和防止過擬合現(xiàn)象出現(xiàn)。

3) GCN編碼器:該部分主要用于對輸入分子圖進行特征提取,提取分子圖的特征向量y3∈

Euclid Math TwoRA@ d。先由編碼器搭建3層GCN,GCN通過對鄰居節(jié)點信息的傳遞和聚合來有效捕捉分子圖中的結構信息。GCN層使用ReLU函數(shù)作為激活函數(shù),使模型更好捕捉數(shù)據(jù)非線性關系。然后,將GCN層提取的特征輸入最大池化層對圖中節(jié)點進行池化操作,從而獲得圖的全局特征。

2.2" 多視圖特征交互

在多視圖學習中,不同視圖之間存在著復雜且非線性的關系?;ハ嚓P分析方法是一種計算兩個信號之間相似性方法,它可以衡量兩個信號在不同時間或空間上的相關性[19]。受其啟發(fā),把不同視圖特征看作不同信號,使用互相關計算不同視圖之間的關系,捕捉不同視圖之間的相似性和差異性,從而更好地利用各視圖的特征。

先將每個視圖特征向量轉換為一個特征矩陣。接著,使用批次矩陣乘積來計算視圖之間的關系。假設兩個視圖i和j的特征向量分別為yi∈

Euclid Math TwoRA@ d和yj∈

Euclid Math TwoRA@ d,它們對應的特征矩陣分別為Vi∈

Euclid Math TwoRA@ d×d和Vj∈

Euclid Math TwoRA@ d×d,則視圖i和視圖j的關系矩陣Rij∈

Euclid Math TwoRA@ d×d可以由批次矩陣乘積計算得到,其計算式為:

Rij=Vi·VTj(8)

式中,VTj表示視圖j特征矩陣的轉置矩陣。得到關系矩陣Rij后,對其向量化并通過全連接層進行降維得到矩陣Rij,其計算式為:

Rij=fFC(vec(Rij),WFC,bFC)(9)

式中,vec(·)表示對關系矩陣Rij進行向量化操作,fFC表示全連接層,WFC和bFC分別為全連接層的可學習權重矩陣和偏置值。由此可以計算得到視圖i與其他視圖的關系矩陣集合Ri1,Ri2,…,Rin。其中,N∈{1,2,…,n}為視圖總數(shù)。最后,將關系矩陣集合拼接得到視圖i的關系矩陣Ri表達為:

Ri=Concat(Ri1,Ri2,…,Rin)(10)

同理,可以獲得所有視圖的關系矩陣集合RN=R1,R2,…,Rn。為了更全面地學習分子特征信息,將編碼器獲取到的各視圖特征向量yi與對應的關系矩陣Ri進行拼接,得到最終的視圖特征矩陣Zi,其計算式為:

Zi=Concat(yi,Ri)(11)

其中,Zi表示視圖i拼接后特征表示,Concat(·)表示拼接操作。

2.3" 訓練與優(yōu)化

1) 訓練:將多視圖特征交互模塊獲得的各視圖特征矩陣輸入到一個視圖共享的分類器fφ。經過分類器fφ后,獲取各視圖的預測值y︿i為:

y︿i=fφ(Zi,Wpred,bpred)(12)

其中,Wpred和bpred為分類器fφ的可學習矩陣和偏置。根據(jù)各視圖的預測值y︿以及相應的真實標簽label,將第i個視圖的損失表示為Li(y︿i,label),則基于交叉熵的總視圖損失函數(shù)Lmulti為:

Lmulti=∑Ni=1Li(y︿i,label)(13)

其中,N為總視圖數(shù),N={1,2,…,n}。

2) 優(yōu)化:大多數(shù)現(xiàn)有多視圖學習模型假設各視圖對模型的貢獻程度是相同的,并為每個視圖分配一個固定的權重。實際上,不同視圖會因不同的數(shù)據(jù)樣本而提供不同的貢獻程度。為此,使用自適應加權聯(lián)合決策策略進行權重優(yōu)化,每個視圖在訓練后會被分配一個不同的權重值來表示該視圖在當前任務中的貢獻程度。使用自適應加權聯(lián)合決策策略的總損失函數(shù)L,其算式為:

L=∑Ni=1aγiLi(y︿i,label)s.t.aT1=1,a≥0(14)

其中,ai表示視圖i權重值,γ為ai的冪指數(shù)參數(shù)。接著,對ai進行優(yōu)化。其優(yōu)化目標為: mina∑Ni=1aγiLi(y︿i,label)(15)

對式(12)使用拉格朗日乘子可以得到a的最優(yōu)解:

L(a,λ)=∑Ni=1aγiLi(y︿i,label)-λ(∑Niai-1)(16)

分別取a和λ的偏導數(shù),并將其分量設為零:

Lai=γaγ-1iLi-λ=0Lλ=1-∑Ni=1λ=0(17)

可以得到ai=Liγλ11-γ,λ=∑Ni=1Liγ11-γ1-γ。將λ代入ai的表達式中,可以得到ai的更新方程:

ai=L11-γi∑Ni=1L11-γi(18)

其中,γgt;1為冪指數(shù)參數(shù)。由此,為每個視圖分配了一個合理的權重。

3" 結果與分析

3.1" 數(shù)據(jù)集

在評估MvRFM性能的實驗中,使用了來自MoleculeNet[20]中的BACE[21]與BBBP[22]兩個基準數(shù)據(jù)集進行實驗。

BACE:這是一個二分類數(shù)據(jù)集,它提供了一組人類b-分泌酶1(BACE-1)的抑制劑的定量(IC50)和定性(二進制標簽)結合結果。

BBBP:這是一個二分類數(shù)據(jù)集,該數(shù)據(jù)集來自一項關于血腦屏障滲透性的建模和預測的研究。血腦屏障滲透問題是針對中樞神經系統(tǒng)的藥物開發(fā)時長期存在的一個問題。

3.2" 基線模型

MvRFM與8個最先進的方法模型進行比較。這些方法模型根據(jù)不同的分子表征方法分為基于SMILES序列編碼的方法、基于圖結構編碼的方法和基于多視圖學習方法3種類型。其中,Mol2Vec[23]和SchNet[24]為基于SMILES序列編碼的方法;MPNN、D-MPNN、Pre-GNN、GEM[25]為基于圖結構編碼的方法;MVGNN和Graseq是基于多視圖學習方法。

3.3" 實驗設置表1" 參數(shù)設置

參數(shù)設置

Embedding size of CNN,LSTM,GCN64

Number of CNN layers2

Number of LSTM layers3

Number of GCN layers3

Hidden size in classifier layers[200,300,2]

Epoch1000

Batch size32

Learning rate0.001

OptimizerAdam

實驗參考文獻[15]和[24]的實驗設置,使用AUC-ROC作為所有實驗的評價指標。該評價指標值越高表示模型預測性能越好;使用scaffold拆分法將數(shù)據(jù)集按照0.10.10.8的比例分成訓練、驗證和測試集。相比隨機拆分法,scaffold拆分法是將結構上不同的分子分離成不同的集合。因此,scaffold拆分法更合理,更具有挑戰(zhàn)性。

本研究的所有實驗均在配有24GB NVIDIA GeForce RTX 3090顯卡的GPU服務器上運行。MvRFM具體參數(shù)設置見表1。

3.4" 實驗結果與分析

實驗結果見表2和表3。

分析表2和表3,得到以下結論:

(1)所提出的MvRFM方法在BBBP和BACE數(shù)據(jù)集中均優(yōu)于所有的對比基線模型,且在BBBP和BACE數(shù)據(jù)集上取得的AUC-ROC 值分別為95.3%和86.1%。這實驗結果證明了MvRFM的有效性。

(2)對比基于SMILES序列編碼模型, MvRFM相比Mol2Vec、SchNet在BACE數(shù)據(jù)集上的性能分別提高了5.1%和11.4%,在BBBP數(shù)據(jù)集上的性能分別提高了10.3%和10.4%。對比基于圖結構編碼模型,MvRFM相比MPNN、D-MPNN、Pre-GNN、GEM在BACE數(shù)據(jù)集上的性能分別提高了4.9%、1.4%、1.3%、0.8%,在BBBP數(shù)據(jù)集上的性能分別提高了4.0%、3.4%、3.8%、22.9%。相比基于SMILES序列編碼和基于圖結構編碼的方法,MvRFM同時學習了分子序列信息和分子圖結構信息,這表明了多視圖學習能夠帶來更多額外的信息補充,以提高性能的提升。

(3)對比基于多視圖學習方法,MvRFM相比MVGNN和Graseq在BACE數(shù)據(jù)集上的性能分別提高0.1%和2.6%,在BBBP數(shù)據(jù)集上的性能分別提高了1.5%和1.1%。對于僅關注圖結構信息的多視圖方法MVGNN,MvRFM結合了分子的序列信息和圖結構信息,這更有利于模型學習分子不同表征信息。相比關注序列信息和圖結構信息的多視圖方法GraSeq,MvRFM采用互相關改進多視圖特征交互模塊,有效地學習了各視圖之間的關系,使得模型能夠更加充分利用分子的不同視圖信息進行預測。

3.5" 消融實驗與分析

為了驗證多視圖特征交互模塊中互相關分析方法(COR)的作用,設計了消融實驗。其中,CAT表示特征融合模塊沒有使用互相關方法,(CAT+COR)表示特征融合模塊使用互相關方法,實驗結果見表4。

表4" 消融結果比較

模型

BACE數(shù)據(jù)集BBBP數(shù)據(jù)集

AUC-ROC/%AUC-ROC/%

CAT84.093.5

(CAT+COR)86.495.3

由表4中的實驗結果觀察到CAT相比(CAT+COR)在BACE數(shù)據(jù)集上下降2.4%。在BBBP數(shù)據(jù)集上下降了1.8%。該結果證明了互相關在多視圖特征交互的過程中能夠很好地完成各視圖之間的信息交互和特征表達。

4" 結論

提出的MvRFM模型是一種多視圖融合學習的分子性質預測模型。相比單視圖的模型和方法,MvRFM同時學習了分子SMILES串和分子圖結構信息,從不同視角理解和分析分子的性質和行為,有助于獲得更豐富的特征表示和提高模型的泛化能力;相比已有的多視圖模型,MvRFM不僅充分考慮了多個視圖的信息,同時,采用互相關分析方法計算不同視圖之間的關系,捕捉不同視圖之間的相似性和差異性,以及在預測階段采用自適應加權聯(lián)合決策策略優(yōu)化各視圖的權重。在基準數(shù)據(jù)集上與基準模型的結果進行了比較驗證,結果表明MvRFM模型更有性能優(yōu)勢。在未來的工作中,可考慮更多視圖信息,并將其擴展到分子性質預測的回歸任務中,以預測分子的具體屬性值。此外,還可以考慮將其應用于藥物發(fā)現(xiàn)領域,幫助研究人員提高藥物發(fā)現(xiàn)的效率和準確率。

參考文獻:

[1]" LI Z,JIANG M J,WANG S,et al. Deep learning methods for molecular representation and property prediction[J].Drug Discovery Today,2022:103373.

[2]" 李淹博,江俊,羅毅.面向分子科學的數(shù)據(jù)智能[J].科學通報,2023,68(17):2184-2196.

[3]" LI C Y, WANG J M, NIU Z M, et al. A spatial-temporal gated attention module for molecular property prediction based on molecular geometry[J].Briefings in Bioinformatics,2021,22(5):bbab078.

[4]" ZHU W M, ZHANG Y, ZHAO D C, et al. HiGNN:a hierarchical informative graph neural network for molecular property prediction equipped with feature-wise attention[J].Journal of Chemical Information and Modeling,2022,63(1):43-55.

[5]" LI Z, JIANG M J, WANG S, et al. Deep learning methods for molecular representation and property prediction[J].Drug Discovery Today,2022:103373.

[6]" WANG S, LI Z, ZHANG S G, et al. Molecular property prediction based on a multichannel substructure graph[J].IEEE Access,2020,8:18601-18614.

[7]" KARPOV P, GODIN G, TETKO I V. Transformer-CNN:swiss knife for QSAR modeling and interpretation[J].J Cheminform,2020,12(1):17.

[8]" WANG S, LI Z, ZHANG S,et al. Molecular property prediction based on a multichannel substructure graph[J].IEEE Access,2020,8:18601-18614.

[9]" GILMER J, SCHOENHOLZ S S, RILEY P F,et al.Neural message passing for quantum chemistry[C]//International Conference on Machine Learning.PMLR,2017:1263-1272.

[10] YANG K, SWANSON K, JIN W, et al. Analyzing learned molecular representations for property prediction[J].Journal of Chemical Information and Modeling,2019,59(8):3370-3388.

[11]HU W, LIU B, GOMES J,et al. Strategies for pre-training graph neural networks[J].arXiv preprint arXiv,1905.12265,2019.

[12]FANG X, LIU L, LEI J, et al. Geometry-enhanced molecular representation learning for property prediction[J].Nature Machine Intelligence,2022,4(2):127-134.

[13]WU Z X, JIANG D J, WANG J,et al. Knowledge-based BERT:a method to extract molecular features like computational chemists[J].Briefings in Bioinformatics,2022,23(3):bbac131.

[14]PENG Y Z, ZHANG Z Q, JIANG Q Z, et al. TOP:towards better toxicity prediction by deep molecular representation learning[C]//2019 IEEE International Conference on Bioinformatics and Biomedicine (BIBM).IEEE,2019:318-325.

[15]MA H, BIAN Y, RONG Y,et al. Multi-view graph neural networks for molecular property prediction[J].arXiv preprint arXiv,2005:13607,2020.

[16]GUO Z C, YU W H, ZHANG C X, et al. GraSeq:graph and sequence fusion learning for molecular property prediction[C]//Proceedings of the 29th ACM International Conference on Information amp; Knowledge Management,2020:435-443.

[17]MA R, ZHANG Y D,WANG X Y, et al. MORN:Molecular Property Prediction Based on Textual-Topological-Spatial Multi-View Learning[C]//Proceedings of the 31st ACM International Conference on Information amp; Knowledge Management,2022:1461-1470.

[18]BENTO A P, HERSEY A, FLix E, et al. An open source chemical structure curation pipeline using RDKit[J].Journal of Cheminformatics,2020,12:1-16.

[19]TANG W, HE F Z, LIU Y. TCCFusion:an infrared and visible image fusion method based on transformer and cross correlation[J].Pattern Recognition,2023,137:109295.

[20]WU Z Q, RAMSUNDAR B, FEINBERG E N, et al. MoleculeNet:a benchmark for molecular machine learning[J].Chemical Science,2018,9(2):513-530.

[21]SUBRAMANIAN G, RAMSUNDAR B, PANDE V, et al. Computational modeling of β-secretase 1 (BACE-1) inhibitors using ligand based approaches[J].Journal of Chemical Information and Modeling,2016,56(10):1936-1949.

[22]MARTINS I F,TEIXEIRA A L, PINHEIRO L, et al. A bayesian approach to in silico blood-brain barrier penetration modeling[J].Journal of Chemical Information and Modeling,2012,52(6):1686-1697.

[23]JAEGER S, FULLE S, TURK S. Mol2vec:unsupervised machine learning approach with chemical intuition[J].Journal of Chemical Information and Modeling,2018,58(1):27-35.

[24]SCHTK K, KINDERMANS P J, SAUCEDA FELIX H E,et al. Schnet:a continuous-filter convolutional neural network for modeling quantum interactions[J].Advances in Neural Information Processing Systems,2017,30.

[25]FANG X M, LIU L H, LEI J Q, et al. Geometry-enhanced molecular representation learning for property prediction[J].Nature Machine Intelligence,2022,4(2):127-134.

[責任編輯:黃天放]

卓尼县| 葫芦岛市| 华亭县| 永丰县| 海宁市| 株洲市| 永靖县| 寿宁县| 定边县| 灵台县| 邵武市| 阿勒泰市| 天等县| 沾益县| 台中市| 中宁县| 凌海市| 淅川县| 津南区| 临漳县| 乌兰县| 延长县| 衡东县| 湖北省| 潍坊市| 汾西县| 武威市| 且末县| 荔浦县| 蕲春县| 孟村| 巴彦县| 镇沅| 大方县| 涿州市| 庄河市| 苍山县| 酒泉市| 雷波县| 建水县| 黔西县|