国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

非線性子空間驅(qū)動下的耐藥性預(yù)測方法

2024-10-31 00:00:00董云云張源榕龔怡豐白玉潔常云青楊炳乾楊紫婷徐雙強彥
關(guān)鍵詞:特征融合

摘要:癌癥的耐藥性預(yù)測任務(wù)已經(jīng)成為精準(zhǔn)醫(yī)學(xué)領(lǐng)域前瞻性研究方向之一。針對現(xiàn)有耐藥性預(yù)測方法難以深度表征藥物和細(xì)胞系之間協(xié)同關(guān)系的問題,提出一種非線性子空間驅(qū)動下的耐藥性預(yù)測方法NLS-DRP(NonlinearSubspace-Driven Drug Resistance Prediction)。NLS-DRP包括Cell 分支、Drug 分支和協(xié)同融合三個關(guān)鍵學(xué)習(xí)模塊,分別用于構(gòu)建非線性子空間提取細(xì)胞系特征,拆分藥物結(jié)構(gòu)提取子序列特征,設(shè)計非線性協(xié)同空間融合細(xì)胞系和藥物特征;最后,通過融合三個模塊的特征,實現(xiàn)細(xì)胞系對藥物的耐藥性預(yù)測。在癌癥藥物敏感性基因組學(xué)和癌癥細(xì)胞系百科全書兩個公開數(shù)據(jù)集上進(jìn)行實驗,結(jié)果表明所提NLS-DRP 模型顯著優(yōu)于對比的基準(zhǔn)方法,取得了0.945 8 的皮爾遜相關(guān)系數(shù)(PCC)值和0.924 2 的斯皮爾曼相關(guān)系數(shù)(SCC)值,驗證了本文方法的有效性。

關(guān)鍵詞:圖神經(jīng)網(wǎng)絡(luò);特征融合;非線性子空間;智能用藥

中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:0253-2395(2024)05-0982-11

0 引言

精準(zhǔn)醫(yī)療旨在有效整合臨床數(shù)據(jù)、基因組學(xué)以及其他組學(xué)等多組學(xué)數(shù)據(jù),以發(fā)現(xiàn)具有預(yù)后生物標(biāo)志物的信息,為患者制定個性化治療方案[1-2]。然而,腫瘤內(nèi)部和腫瘤間的異質(zhì)性導(dǎo)致不同患者對同一藥物的反應(yīng)差異較大,這成為制約精準(zhǔn)醫(yī)療惠及患者的一大難題[3]。耐藥性預(yù)測通過對病原體基因組序列和表達(dá)等因素進(jìn)行分析和建模,協(xié)助醫(yī)生制定最優(yōu)化的治療方案,提供重要的用藥反饋和參考,已成為精準(zhǔn)醫(yī)學(xué)領(lǐng)域前瞻性研究方向之一。耐藥性預(yù)測涉及基因組學(xué)、轉(zhuǎn)錄組學(xué)和蛋白質(zhì)組學(xué)等多個領(lǐng)域[4],傳統(tǒng)的預(yù)測方法主要包含統(tǒng)計學(xué)方法[5]以及機器學(xué)習(xí)算法[6-9]等。傳統(tǒng)方法的主要缺點是依賴于特定的實驗數(shù)據(jù),難以處理多個藥物間的相互作用。由于數(shù)據(jù)樣本有限和特征維度高的問題,此類方法易產(chǎn)生過擬合現(xiàn)象,導(dǎo)致預(yù)測精度有限。

隨著人工智能技術(shù)的迅速發(fā)展,基于深度學(xué)習(xí)的耐藥性預(yù)測方法克服了傳統(tǒng)方法的局限性。CDRscan 模型[10]作為早期采用深度學(xué)習(xí)方法預(yù)測藥物反應(yīng)的模型,基于基因組圖譜和藥物結(jié)構(gòu)圖譜來預(yù)測細(xì)胞系對抗癌藥物的敏感程度。DeepDSC 模型[11]將細(xì)胞系的基因特征和藥物的化學(xué)信息進(jìn)行整合,用于預(yù)測耐藥性。SWnet 模型[12]將基因表達(dá)、基因突變和化合物的化學(xué)結(jié)構(gòu)集成在多任務(wù)卷積架構(gòu)中,實現(xiàn)了耐藥性預(yù)測任務(wù)。上述研究將深度學(xué)習(xí)引入了耐藥性預(yù)測任務(wù)中,然而忽略了藥物本身的拓?fù)浣Y(jié)構(gòu),DeepCDR[13]是首個將圖卷積神經(jīng)網(wǎng)絡(luò)用于預(yù)測癌癥藥物反應(yīng)的深度模型,它整合了癌細(xì)胞的多組學(xué)特征并探索藥物的內(nèi)在化學(xué)結(jié)構(gòu),提出了用于識別特定癌癥類型中相關(guān)潛在基因的探索策略。tCNNs 模型[14]引入了雙卷積神經(jīng)網(wǎng)絡(luò),預(yù)測藥物與癌細(xì)胞系之間的相互作用。MOLI[15]將體細(xì)胞突變、拷貝數(shù)畸變和基因表達(dá)數(shù)據(jù)作為輸入,整合起來進(jìn)行藥物耐藥性反應(yīng)預(yù)測。DeepTTA[16]基于Transformer在藥物特征提取中通過神經(jīng)網(wǎng)絡(luò)對轉(zhuǎn)錄組特征建模進(jìn)行耐藥性預(yù)測。

以上研究通過分析細(xì)胞系的基因表達(dá)數(shù)據(jù)和藥物的分子結(jié)構(gòu)信息,預(yù)測不同細(xì)胞系對特定抗癌藥物的敏感性。然而上述方法主要是對藥物分子和細(xì)胞系結(jié)構(gòu)分別進(jìn)行建模,提取藥物和細(xì)胞系特征進(jìn)行耐藥性預(yù)測任務(wù),尚未考慮到“ 細(xì)胞系- 藥物”關(guān)聯(lián)對藥物反應(yīng)的影響,導(dǎo)致模型無法從數(shù)據(jù)中學(xué)習(xí)到關(guān)聯(lián)規(guī)律。除此之外,傳統(tǒng)的耐藥性預(yù)測任務(wù)通常只通過不同的分支結(jié)構(gòu)從整體的細(xì)胞系和藥物中提取特征,忽略了細(xì)胞系和藥物中的子結(jié)構(gòu)特征。

癌癥患者病情的發(fā)展與耐藥性之間存在著緊密的依賴關(guān)系,因此藥物與細(xì)胞系之間的相互作用對耐藥性預(yù)測任務(wù)至關(guān)重要??紤]到藥物分子結(jié)構(gòu)和細(xì)胞系拓?fù)浣Y(jié)構(gòu)的復(fù)雜關(guān)聯(lián)以及細(xì)胞系和藥物中的子結(jié)構(gòu),本文提出了非線性子空間驅(qū)動下的耐藥性預(yù)測(Nonlinear Sub?space-Driven Drug Resistance Prediction,NLSDRP)方法。NLS-DRP 模型基于藥物分子和細(xì)胞系的獨特結(jié)構(gòu)構(gòu)建了Cell 分支和Drug 分支,提出非線性子空間來提取細(xì)胞系的潛在特征,引入頻繁連續(xù)子序列來提取藥物子序列特征;同時,設(shè)計非線性協(xié)同空間融合表征算法捕獲兩者潛在關(guān)聯(lián),融合細(xì)胞系和藥物的特征信息;最后,利用相關(guān)線性函數(shù)進(jìn)行耐藥性預(yù)測任務(wù)。

本文主要工作如下:

(1)結(jié)合藥物分子表達(dá)和細(xì)胞系拓?fù)浣Y(jié)構(gòu)間潛在關(guān)聯(lián),提出非線性子空間驅(qū)動下的耐藥性預(yù)測模型,用于預(yù)測細(xì)胞系中的藥物反應(yīng);

(2)構(gòu)建非線性子空間驅(qū)動下的Cell 分支、提取藥物子序列特征的Drug 分支和非線性協(xié)同空間驅(qū)動下的特征學(xué)習(xí)網(wǎng)絡(luò),實現(xiàn)“細(xì)胞系-藥物”特征空間映射和協(xié)同融合;

(3)與五種先進(jìn)的算法進(jìn)行了對比實驗。實驗結(jié)果表明,NLS-DRP 模型在癌癥藥物敏感性基因組學(xué)(Genomics of Drug Sensitivity in Can?cer,GDSC)和癌癥細(xì)胞系百科全書(Cancer Cell Line Encyclopedia,CCLE)數(shù)據(jù)集上取得了更精準(zhǔn)的預(yù)測結(jié)果。

1 非線性子空間驅(qū)動下的耐藥性預(yù)測模型

考慮到藥物分子表達(dá)和細(xì)胞系拓?fù)浣Y(jié)構(gòu)通常具有復(fù)雜的關(guān)聯(lián),傳統(tǒng)的特征提取方法往往忽略了細(xì)胞系和藥物之間的相互作用,導(dǎo)致其潛在鏈接丟失,無法捕獲藥物和細(xì)胞系之間的關(guān)聯(lián)規(guī)律。本文提出了端到端的非線性子空間驅(qū)動下的耐藥性預(yù)測方法,其總體框架如圖1所示。NLS-DRP 模型由非線性子空間映射下的Cell 特征提取,Drug 子序列特征提取和特征融合模塊組成。

1.1 非線性子空間映射下的Cell分支

本文構(gòu)建了非線性子空間映射下的Cell 分支,如圖1(a)所示。首先,基于細(xì)胞系中獨特的通路對細(xì)胞系進(jìn)行結(jié)構(gòu)化表示,構(gòu)建細(xì)胞系非線性子空間(Nonliner Subspace);其次,提出了一種基于細(xì)胞系處理的非線性子空間編碼器(Nonliner Subspace Encoder),用于提取非線性子空間中基因的相互作用;最后,將非線性子空間編碼器得到的特征表示輸入Transformer 得到Cell 空間表征。

1.1.1 細(xì)胞系非線性子空間構(gòu)建

在模型訓(xùn)練之前對細(xì)胞系C 進(jìn)行結(jié)構(gòu)化表示,利用細(xì)胞系中獨特的通路,將細(xì)胞系劃分為多個子細(xì)胞系C(C1,C2,C3,…,Cn)。本文基于細(xì)胞系中的基因- 基因相互作用,構(gòu)建非線性空間,將每個子細(xì)胞系中特有的結(jié)構(gòu)映射為非線性子空間,在非線性子空間中基于基因之間的關(guān)聯(lián)性構(gòu)建同構(gòu)圖G (X,A),將基因映射為節(jié)點v;將基因之間的關(guān)聯(lián)表示為邊e。其中同構(gòu)圖G 中,X 是基因的特征表示,其每一行對應(yīng)于一種基因的特征;A 是圖G 的鄰接矩陣,表示基因- 基因相互作用,代表圖中節(jié)點的總連通性。

1. 1. 2 非線性子空間特征提取

為了提取非線性子空間的全局信息,本文構(gòu)建了非線性子空間編碼器來捕獲細(xì)胞系特征和基因- 基因相互作用,對節(jié)點特征和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)建模,提取前一層的節(jié)點信息和節(jié)點間的鏈接,對于頂點vi,逐個計算它的鄰居vj 與其之間的相似系數(shù)eij:

‖eij=LeakyReLU (γT ) [Whi ‖Whj ] , (1)

其中|| 表示向量拼接操作,W,γ 分別為不同的權(quán)重參數(shù),激活函數(shù)設(shè)計為LeakyReLU, hi 為當(dāng)前節(jié)點vi 的特征表示,hj 為鄰居節(jié)點vj 的特征表示。為了更合理地分配權(quán)重,對每個節(jié)點的表示進(jìn)行編碼,將中心節(jié)點與鄰居節(jié)點計算出來的相關(guān)度進(jìn)行softmax 歸一化處理,得到歸一化注意分?jǐn)?shù)αij:

αij = softmaxj (eij )=exp (eij )/Σk ∈ Si exp (eik ), (2)

其中S 是圖中節(jié)點個數(shù)。本文使用歸一化注意分?jǐn)?shù)αij 反映鄰居節(jié)點信息的重要程度,利用消息傳遞機制對相鄰節(jié)點的特征進(jìn)行傳播,通過對鄰居節(jié)點hj 的聚合來傳播節(jié)點的信息,從而更新每個中心節(jié)點hi 的狀態(tài)。如公式(3)所示,得到更新后的特征表示h→i:

h→i = σ (Σj∈ SiαijΨhj ), (3)

其中Ψ 是可學(xué)習(xí)的權(quán)重參數(shù),σ 是一種非線性激活函數(shù),S 是圖中節(jié)點個數(shù)。非線性子空間的特征可表示為Ec = Σi = 1N h→i,N 為非線性子空間的個數(shù)。

1.1.3 Cell空間表征

本文使用由多頭自注意力層和全連接前饋網(wǎng)絡(luò)組成的Transformer 編碼器對非線性子空間捕獲到的特征進(jìn)行編碼,利用多頭自注意力機制對特征進(jìn)行交互,融合多個子空間的特征表示,挖掘細(xì)胞系內(nèi)多個非線性子空間的一致性特征,多頭自注意力層的輸出按公式(4)輸入到全連接前饋層中得到Cell 空間表征FC:

FC = max (0,Attention (Ec )W1 + b1 )W2 + b2,(4)

其中W1,W2 是可學(xué)習(xí)參數(shù),b1,b2 為偏置。

1.2 Drug子序列特征提取分支

本文構(gòu)建了一個Drug 子序列特征提取分支,以藥物分子的特殊結(jié)構(gòu)為基礎(chǔ),對藥物信息進(jìn)行特征提取,如圖1(b)所示。首先,對藥物分子結(jié)構(gòu)進(jìn)行子序列提??;其次,針對提取的子序列提出了內(nèi)容和位置embedding;最后,將經(jīng)過內(nèi)容和位置embedding 得到的子序列表征輸入到Transformer 編碼器進(jìn)行融合編碼得到Drug 空間表征。

1.2.1 頻繁連續(xù)子序列挖掘

本文引入了頻繁連續(xù)子序列挖掘(Frequentcontinuous subsequence mining,F(xiàn)CS)[17] 方法,基于簡化分子線性輸入規(guī)范(Simplified molecularinput line entry system, SMILES)藥物分子結(jié)構(gòu)將藥物分解為一組明確的子結(jié)構(gòu)序列。FCS 如算法1 所示。本研究將包含初始SMILS 標(biāo)記的集合記作A,將已經(jīng)標(biāo)記的藥物集合記為D,ξ為指定頻率閾值。FSC 算法對于A 中的每個標(biāo)記進(jìn)行迭代處理,在每次迭代中,算法掃描D,尋找頻率最高的連續(xù)標(biāo)記對(M,N),當(dāng)(M,N)的頻率高于指定的閾值ξ,在D 中將所有(M,N)的出現(xiàn)替換為組合標(biāo)記(MN),將新的組合標(biāo)記(MN)添加到A 中;如果(M,N)的頻率低于閾值ξ,迭代停止。最終FCS 算法輸出更新后的D 和A。

FCS 算法旨在識別和組合在藥物SMILES序列中頻繁出現(xiàn)的子序列。通過這種方式,它揭示了藥物分子的重要亞結(jié)構(gòu)特征。FCS 算法首先將藥物分子序列分解為亞結(jié)構(gòu),即較小的、有意義的序列片段。對輸入的SMILES 字符串進(jìn)行分子解析和標(biāo)準(zhǔn)化處理,確保分子結(jié)構(gòu)的一致性。通過對藥物分子的遍歷,提取由相鄰原子和鍵組成的子結(jié)構(gòu),構(gòu)建子結(jié)構(gòu)庫。這種分解基于識別序列中重復(fù)出現(xiàn)的模式或子序列,這些子序列可能對理解藥物與蛋白質(zhì)之間的相互作用具有重要意義。為了提取有意義的子結(jié)構(gòu),F(xiàn)CS 算法通過搜索子結(jié)構(gòu)庫中的組合,根據(jù)預(yù)設(shè)的評價準(zhǔn)則選擇最具代表性的子結(jié)構(gòu)序列,將子結(jié)構(gòu)表示為子序列。算法通過設(shè)置一個頻率閾值ξ 來確定子序列的重要性。只有那些出現(xiàn)頻率高于此閾值的子序列才會被考慮。此外,算法專注于連續(xù)子序列,即那些在序列中連續(xù)出現(xiàn)的部分。通過利用大量的未標(biāo)記數(shù)據(jù),F(xiàn)CS 算法能夠識別難以發(fā)現(xiàn)的重要子結(jié)構(gòu)。這種方法提升了子結(jié)構(gòu)挖掘的質(zhì)量并增強了算法在耐藥性方面的預(yù)測能力。

1.2.2 基于內(nèi)容嵌入和位置編碼的藥物子序列提取方法

本文提出了一種挖掘藥物子序列的內(nèi)容嵌入和位置編碼的方法,用于處理SMILES 藥物分子結(jié)構(gòu)中相鄰子結(jié)構(gòu)之間復(fù)雜的化學(xué)關(guān)系,該方法將每個子結(jié)構(gòu)Cd 嵌入到一個潛在特征向量Ed 中。

具體而言,將子序列結(jié)構(gòu)Cd 映射為一個矩陣M,M 的任意一列j 代表一種藥物序列的子結(jié)構(gòu)。內(nèi)容嵌入模塊通過可學(xué)習(xí)的字典查找矩陣W dcont ∈ R? × l 將每個藥物子序列的化學(xué)特征M dj 編碼為一個具有豐富化學(xué)信息的向量表示,以捕獲其結(jié)構(gòu)信息,其中,? 為每個子結(jié)構(gòu)潛在嵌入的大小,l 為藥物子結(jié)構(gòu)的總數(shù)量;位置編碼模塊通過查找字典W dpos ∈ R ? × Θd,為每個子結(jié)構(gòu)分配一個位置編碼向量,表示其在分子中的相對位置,捕獲當(dāng)前特征在整個子序列中的相對位置信息,其中,Idj∈ RΘd 是一個One-Hot 向量,Θd 是藥物子序列的最大長度。任意藥物E dj內(nèi)容嵌入和位置編碼的結(jié)果如公式(5)所示:

E dj = W dcont M dj + W dpos Idj。(5)

藥物子序列的特征可表示為ED = Σj = 1K E dj ,其中K 為非線性子空間的個數(shù)。

綜合內(nèi)容嵌入和位置編碼,能夠有效地處理SMILES 藥物分子結(jié)構(gòu)中的復(fù)雜化學(xué)關(guān)系,更準(zhǔn)確地捕捉藥物分子的結(jié)構(gòu)特征,為后續(xù)的藥物分子分析和預(yù)測任務(wù)提供更有力的特征表達(dá)。

1.2.3 藥物特征融合

為了進(jìn)一步融合藥物特征并深入理解藥物分子的結(jié)構(gòu)特征,將特征向量Ed 傳入Trans?former 編碼器。通過利用Transformer 的多頭自注意機制,學(xué)習(xí)不同藥物子序列特征的相關(guān)性,增強了模型對藥物特征的提取和理解能力,獲得了藥物結(jié)構(gòu)的特征表示FD:

FD = max (0,Attention (Ed ) μ1 + β1 ) μ2 + β2,(6)

其中μ1,μ2 是可學(xué)習(xí)參數(shù),β1,β2 為偏置。

1.3 非線性協(xié)同空間特征融合

基于細(xì)胞系和藥物之間的相互作用,本文提出了一個非線性協(xié)同空間,如圖1(c)所示,用于對細(xì)胞系和藥物之間的相互作用建模,該模塊將經(jīng)過非線性子空間編碼器編碼的細(xì)胞系特征和經(jīng)過子序列嵌入模塊得到的藥物特征共同輸入?yún)f(xié)同空間中,融合得到細(xì)胞系- 藥物特征。

考慮到基因與藥物間的復(fù)雜特征及其關(guān)聯(lián),本文將細(xì)胞系特征和藥物子序列特征映射到非線性協(xié)同空間內(nèi),構(gòu)建異構(gòu)圖G(' X',A')。其中,X ' 是基因節(jié)點和藥物節(jié)點特征之和,X ' = EC ∪ ED,A' 是圖G' 的鄰接矩陣,代表節(jié)點間的關(guān)聯(lián)性。將非線性子空間編碼器獲取的細(xì)胞系特征映射為基因節(jié)點VGene;將經(jīng)過內(nèi)容嵌入和位置編碼后的藥物子序列特征映射為藥物節(jié)點VDrug,將基因間相互作用,藥物間相互作用和基因和藥物之間的相互作用分別映射為圖G' 中的鏈接EGene、EDrug 和EGene - Drug。其中V =VDrug ∪ VGene,E = EGene - Drug。將構(gòu)建的異構(gòu)圖輸入到非線性子空間編碼器中,如算法2 所示。在算法2 中,使用隨機矩陣初始化異構(gòu)圖的節(jié)點嵌入表示,對于每一個節(jié)點Vi,計算其與鄰居節(jié)點Vj 之間的注意力分?jǐn)?shù),使用注意力分?jǐn)?shù)更新節(jié)點Vi 嵌入表示EU。

本文通過將細(xì)胞系和藥物的特征在協(xié)同空間內(nèi)融合,能夠更全面地捕捉它們之間的復(fù)雜相互作用。通過基因和藥物之間的相互作用建立不同節(jié)點之間的鏈接,從而更好地理解它們之間的復(fù)雜關(guān)系。通過非線性子空間編碼器學(xué)習(xí)不同節(jié)點的嵌入表示,捕捉節(jié)點之間的復(fù)雜關(guān)系,自適應(yīng)地分配注意力權(quán)重來捕捉節(jié)點之間的重要性和關(guān)聯(lián)性,通過融合不同類型的特征,挖掘異構(gòu)圖的局部和全局上下文信息,實現(xiàn)不同類型節(jié)點之間的信息交互和傳播,從而提高預(yù)測和推理性能。

非線性協(xié)同空間的特征表示為FU =Σk = 1N EU,其中N 為異構(gòu)圖中節(jié)點的個數(shù)。

綜上,本文將藥物特征、細(xì)胞系特征和細(xì)胞系- 藥物融合特征輸入到多層感知機(Multilay?er Perceptron,MLP)中,利用MLP 的非線性建模能力,從多種特征FC,F(xiàn)D,F(xiàn)U 中提取相關(guān)信息,計算IC50 值。具體地,通過將FC,F(xiàn)D,F(xiàn)U 的特征輸入到MLP 中,利用MLP 的多個隱藏層和非線性激活函數(shù),從特征中提取相關(guān)信息,學(xué)習(xí)特征之間的復(fù)雜關(guān)系和權(quán)重分配,充分利用不同特征之間的非線性關(guān)系,提取特征的高階表示,建立藥物特征、細(xì)胞系特征和藥物-基因融合特征與IC50 值之間的關(guān)聯(lián),進(jìn)行耐藥性預(yù)測。

2 實驗及結(jié)果

2.1 數(shù)據(jù)集介紹

在本研究中,采用Genomics of Drug Sensi?tivity in Cancer2(GDSC2)、Cancer Cell Line En?cyclopedia(CCLE)[18]數(shù)據(jù)集進(jìn)行實驗。

GDSC2 數(shù)據(jù)庫包含了大量關(guān)于不同癌癥細(xì)胞系對多種抗癌藥物反應(yīng)的數(shù)據(jù)。這些數(shù)據(jù)涵蓋了近700 個癌癥細(xì)胞系對約251 種抗癌藥物的反應(yīng),總計近7.5 萬個藥物敏感性實驗數(shù)據(jù)。GDSC 提供了各種癌癥細(xì)胞系的全基因組數(shù)據(jù),包括基因表達(dá)、拷貝數(shù)變異(Copy NumberVariation,CNV)、基因突變等,這些數(shù)據(jù)記錄了細(xì)胞系對不同藥物的敏感性。

CCLE 收集了36 種癌癥細(xì)胞系的基因組學(xué)數(shù)據(jù),這些細(xì)胞系來源于21 種不同的人體組織,記錄了不同癌癥細(xì)胞系對藥物的反應(yīng),用于衡量細(xì)胞系對藥物的敏感性。CCLE 數(shù)據(jù)集包含491 個同時具備基因表達(dá)、突變、拷貝數(shù)變異以及藥物反應(yīng)數(shù)據(jù)的癌癥細(xì)胞系。

本文從CCLE 數(shù)據(jù)集中提取了基因組變異、基因表達(dá)、蛋白質(zhì)表達(dá)等數(shù)據(jù),用于識別與癌癥發(fā)展相關(guān)的關(guān)鍵基因和信號通路;利用GDSC2 記錄的Pubchem ID 從Pubchem 數(shù)據(jù)庫中提取SMILES 描述符。其中,基因突變的數(shù)據(jù)反映了遺傳變異,這些變異可能與癌癥發(fā)展和藥物敏感性相關(guān),可用于識別癌癥驅(qū)動基因和潛在的治療靶點;基因表達(dá)數(shù)據(jù)顯示了細(xì)胞內(nèi)不同基因的活躍程度,通常通過RNA 測序獲得,可以揭示細(xì)胞系的生物學(xué)特性和藥物響應(yīng);拷貝數(shù)變異是指基因組DNA 片段數(shù)量的變化,可能導(dǎo)致基因劑量的改變,CNV 在許多癌癥類型中普遍存在,與癌癥的發(fā)展和藥物敏感性有關(guān);而SMILES 字符串通??梢苑从吵鏊幬锓肿咏Y(jié)構(gòu)的特征,通過將SMILES 表示的藥物分子特征與癌癥細(xì)胞系的特征相結(jié)合,模型可以理解藥物與生物靶標(biāo)的相互作用。

最終本文根據(jù)癌癥類型從KEGG(KyotoEncyclopedia of Genes and Genomes)[19]通路數(shù)據(jù)庫中篩選數(shù)據(jù),剔除掉重復(fù)路徑和代謝路徑后,最終選定34 條與癌癥相關(guān)的通路,包括170種藥物,580 個細(xì)胞系,共計98 600 個IC50 值。由于部分細(xì)胞系缺失,最終參與計算的IC50 值為82 833 個。

2.2 實驗細(xì)節(jié)

本文使用RTX Nvidia 4090 GPU,基于Py?Torch 框架進(jìn)行訓(xùn)練和測試。將原始數(shù)據(jù)集按80%、10%、10% 的比例劃分為訓(xùn)練集、測試集和驗證集。采用Adam 優(yōu)化器來更新模型參數(shù)。實驗中將Batchsize 設(shè)置為128;Learningrate 設(shè)置為1×10-4;Dropout 設(shè)置為0.1;實驗中使用了6 層的Transformer 編碼器,我們?yōu)門ransformer 編碼器設(shè)置了16 個注意力頭,并將隱藏層的維度設(shè)置為256;此外本文還構(gòu)建了非線性子空間編碼器,我們將每個非線性子空間編碼器的編碼器層數(shù)設(shè)置為3 層,使用8 個注意力頭,本文將第一個非線性子空間編碼器的隱藏層數(shù)設(shè)置為8,第二個的隱藏層數(shù)設(shè)置為256。

為了驗證本文所提出模型的有效性,將實驗劃分為分類和回歸任務(wù)?;貧w任務(wù)采用MLP 層進(jìn)行預(yù)測,使用均方根誤差作為損失函數(shù)來衡量預(yù)測結(jié)果與真實值之間的差異;分類任務(wù)采用交叉熵作為損失函數(shù)來度量預(yù)測結(jié)果與真實標(biāo)簽之間的差異。

2.3 評價指標(biāo)

對于回歸預(yù)測模型,使用均方根誤差(RootMean Squared Error,RMSE)來評價精度水平;為了衡量IC50 的真實值與預(yù)測值的線性相關(guān)關(guān)系,使用皮爾遜相關(guān)系數(shù)(Pearson CorrelationCoefficient,PCC)、斯皮爾曼相關(guān)系數(shù)(Spear?man Rank Correlation Coefficient,SCC)作為回歸指標(biāo)。

RMSE 測量預(yù)測值與真實值之間的差值,其中n 為數(shù)據(jù)個數(shù),oi 為第i 個樣本的基真值,yi為第i 個樣本的預(yù)測值,如式(7)所示。

2.4 實驗結(jié)果

本文與近期流行的耐藥性預(yù)測深度模型MOLI、tCNNS、CDRscan、DeepCDR 和Deep?TTA 等進(jìn)行了對比,結(jié)果如表1 所示。相對于其他方法, NLS-DRP 方法顯示出更高的PCC、SCC 和AUC(Area Under Curve)值,同時具有最低的RMSE 值。與已有的深度方法相比,本文提出的NLS-DRP 方法專注于提取藥物的非線性子空間特征和細(xì)胞系的子序列特征,能夠聚焦于捕捉藥物和基因之間內(nèi)在結(jié)構(gòu)信息,具備更好地預(yù)測性能。

本文利用NLS-DRP 模型預(yù)測未知細(xì)胞系的耐藥性。為此使用了包含561 個細(xì)胞系和238 種藥物的已知藥物- 細(xì)胞系相互作用來訓(xùn)練NLS-DRP 模型,并將該模型應(yīng)用于預(yù)測GDSC2 數(shù)據(jù)庫中缺失的藥物- 細(xì)胞系。圖2 展示了按藥物分組的GDSC2 數(shù)據(jù)庫中預(yù)測的IC50值的分布情況,藥物根據(jù)其在細(xì)胞系中的平均預(yù)測IC50 值進(jìn)行了排序。該結(jié)果圖直觀展示了前10 個“敏感性”藥物以及最后10 個“耐藥性”藥物。在這里,IC50 值較低表示藥物的治療效果較好,被稱為“敏感性”,IC50 值較高的藥物則被歸類為“耐藥性”。與預(yù)期一致,實驗證明在多種細(xì)胞系實驗和癌癥治療中bortezomib 是最有效的藥物之一[20]。

2.5 可視化結(jié)果

2.5.1 回歸結(jié)果 。

圖3 的可視化結(jié)果呈現(xiàn)了NLS-DRP 模型在藥物反應(yīng)回歸任務(wù)中的表現(xiàn)。通過散點圖的形式對真實值與預(yù)測值的分布情況進(jìn)行可視化,結(jié)果顯示,所提出的NLS-DRP 模型對于大量隨機樣本都表現(xiàn)出了良好的預(yù)測性能。

2.5.2 分類結(jié)果。

本節(jié)對提出的NLS-DRP 模型和對比模型在藥物反應(yīng)中進(jìn)行了分類任務(wù)的性能測試,采用受試者工作特征曲線(Receiver OperatingCharacteristic, ROC)和精確率- 召回率曲線(Precision-Recall, PR)作為評價指標(biāo),如圖4 所示。在本節(jié)中,根據(jù)Iorio 等[21]提供的每種藥物的閾值,對IC50 進(jìn)行了二值化處理。盡管數(shù)據(jù)集存在較為嚴(yán)重的不平衡(約1∶7),但NLSDRP在AUC 和PR 分?jǐn)?shù)上明顯優(yōu)于其他四種方法,分別達(dá)到0.862 和0.532。

2.6 消融實驗。

本研究致力于將藥物結(jié)構(gòu)和基因編碼進(jìn)行非線性空間協(xié)同的深度模型的構(gòu)建。為此,提出了一種構(gòu)建非線性子空間的方法,以提取基因信息;構(gòu)建了非線性協(xié)同空間用于融合基因- 藥物特征;設(shè)計了非線性子空間編碼器用于提取信息表征。本節(jié)中,對非線性子空間、非線性協(xié)同空間的構(gòu)建、非線性子空間編碼的有效性進(jìn)行了評估。

2.6.1 非線性子空間的消融實驗 。

在本次消融實驗中,對非線性子空間的構(gòu)建對模型的影響進(jìn)行了評估。具體地,將細(xì)胞系中的基因信息映射為圖結(jié)構(gòu),而非通過癌癥通路對細(xì)胞系進(jìn)行劃分,并評估了該方法與本文方法(基于癌癥通路構(gòu)建非線性子空間)的性能差異,對比結(jié)果如表2 所示。結(jié)果顯示,相較于本文提出的癌癥通路構(gòu)建非線性子空間的方法,直接映射細(xì)胞系結(jié)構(gòu)進(jìn)入編碼器導(dǎo)致模型的RMSE 增加,同時PCC 和SCC 降低。進(jìn)一步驗證了基于癌癥通路的非線性子空間構(gòu)建方法對于準(zhǔn)確提取細(xì)胞系特征的重要性。通過使用癌癥通路來劃分細(xì)胞系,能夠更好地捕捉基因之間的相互作用和關(guān)聯(lián)性,從而提高編碼器的性能。

2.6.2 非線性協(xié)同空間的消融實驗

在本次消融實驗中,對非線性協(xié)同空間在模型中的影響進(jìn)行了評估。探究了將細(xì)胞系特征和藥物子序列特征直接輸入Transformer 模型的方式,而非構(gòu)建協(xié)同空間。對比結(jié)果如表2所示。

結(jié)果顯示,與本文提出的模型相比,對比方式導(dǎo)致了模型的RMSE 增加,同時PCC 和SCC減少。相比之下,本文提出的模型采用了非線性協(xié)同空間來處理細(xì)胞系特征和藥物子序列特征,能夠更好地捕捉細(xì)胞系和藥物之間的復(fù)雜關(guān)系,并提取出具有更豐富表征能力的特征,提高模型的整體性能。

2.6.3 非線性子空間編碼器的消融實驗

在本研究中,構(gòu)建了提取非線性子空間特征的編碼器,模型構(gòu)建過程考慮了幾種常用的模型,包括圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks,GNN)[22],圖卷積網(wǎng)絡(luò)(Graph Convolutional Net?work,GCN)[23]和圖注意力網(wǎng)絡(luò)(Graph Atten?tion Network,GAT)[24],本次消融實驗探索使用不同的編碼器對模型整體性能的影響。此外,為了證明非線性子空間編碼器對模型的有效性,消融實驗中去除了非線性子空間,將高維數(shù)據(jù)的特征直接嵌入到低維的空間當(dāng)中,以此來對比非線性子空間在模型中的作用。對比結(jié)果如圖5 所示。結(jié)果顯示,直接將特征嵌入到低維空間中的性能均低于使用非線性子空間編碼器,證明了本文中提出的非線性子空間編碼器的有效性。而在不同的非線性子空間的對比中,相比于GNN,使用GAT 作為非線性子空間編碼器導(dǎo)致RMSE 降低了3.324%,同時PCC和SCC 分別提升了1.079% 和3.691%,結(jié)果表明GAT 網(wǎng)絡(luò)在本次實驗中對非線性子空間的編碼具有優(yōu)勢。GAT 利用注意力機制有效地捕捉了節(jié)點之間的重要關(guān)系,更準(zhǔn)確地學(xué)習(xí)和表示非線性子空間的特征。通過使用GAT 網(wǎng)絡(luò)作為編碼器,模型能夠更好地提取和表達(dá)特征信息,從而在整體上實現(xiàn)更好的性能。

2.6.4 非線性子空間編碼器時間復(fù)雜度分析

本文將基于圖的非線性拓?fù)浣Y(jié)構(gòu)映射到非線性子空間內(nèi),將每個子細(xì)胞系中特有的結(jié)構(gòu)映射為非線性子空間,在非線性子空間中基于基因之間的關(guān)聯(lián)性構(gòu)建同構(gòu)圖G (X,A)。在本文中,將非線性子空間中映射的圖結(jié)構(gòu)輸入到非線性子空間編碼器中,使用|V| 表示節(jié)點數(shù),|E| 表示邊的數(shù)量,使用F 表示原始的特征維度,F(xiàn)′ 表示非線性子空間輸出的特征維度。

非線性子空間編碼器的時間復(fù)雜度可以分為對每個節(jié)點的特征映射和對注意力頭的注意力計算兩部分。對于任意一個節(jié)點而言,非線性子空間編碼器節(jié)點的原始輸入維度映射到輸出維度,則對單獨節(jié)點而言,映射復(fù)雜度為O ( F × F' )。

而對于輸入的非線性子空間而言,非線性子空間內(nèi)的所有節(jié)點都需要進(jìn)行 特征維度的映射,則計算復(fù)雜度為O ( |V | × F × F' )。在計算圖中的注意力權(quán)重時,非線性子空間編碼器計算圖中每一條邊的注意力系數(shù),將其特征維度映射為一個實數(shù),則對于單個注意力頭而言,計算復(fù)雜度為O ( E × F' )。綜上所述,K 個注意力頭的非線性子空間編碼器的計算復(fù)雜度為O ( |V | FF'+ KEF' )。

3 結(jié)論

本文提出了一種名為NLS-DRP 的端到端耐藥性預(yù)測模型,這是首個將藥物結(jié)構(gòu)和基因編碼進(jìn)行非線性空間協(xié)同的深度模型。NLS-DRP 中提出非線性子空間提取細(xì)胞系的潛在特征,引入頻繁連續(xù)子序列來提取藥物子序列特征,設(shè)計非線性協(xié)同空間融合表征算法捕獲兩者潛在關(guān)聯(lián)。與現(xiàn)有的預(yù)測模型相比,NLS-DRP 模型在多個數(shù)據(jù)集上取得較好的耐藥性預(yù)測性能。然而NLSDRP模型尚未考慮生成任務(wù),后續(xù)的研究將結(jié)合生成任務(wù),通過將預(yù)測融入生成過程,為藥物研發(fā)帶來更多可能性。

參考文獻(xiàn):

[1] BHINDER B, GILVARY C, MADHUKAR N S, et al.Artificial Intelligence in Cancer Research and PrecisionMedicine[J]. Cancer Discov, 2021, 11(4): 900-915. DOI:10.1158/2159-8290.CD-21-0090.

[2] LOOMANS-KROPP H A, UMAR A. Cancer Preventionand Screening: The Next Step in the Era of PrecisionMedicine[J]. NPJ Precis Oncol, 2019, 3: 3. DOI:10.1038/s41698-018-0075-9.

[3] WANG X, ZHANG H Y, CHEN X Z. Drug Resistance andCombating Drug Resistance in Cancer[J]. Cancer DrugResist, 2019, 2(2): 141-160. DOI: 10.20517/cdr.2019.10.

[4] BAPTISTA D, FERREIRA P G, ROCHA M. Deep Learningfor Drug Response Prediction in Cancer[J]. Brief Bioinform,2021, 22(1): 360-379. DOI: 10.1093/bib/bbz171.

[5] LIU C Y, WEI D, XIANG J, et al. An Improved AnticancerDrug-response Prediction Based on an EnsembleMethod Integrating Matrix Completion and Ridge Regression[J]. Mol Ther Nucleic Acids, 2020, 21: 676-686.DOI: 10.1016/j.omtn.2020.07.003.

[6] GAO Y N, LYU Q, LUO P, et al. Applications of MachineLearning to Predict Cisplatin Resistance in LungCancer[J]. Int J Gen Med, 2021, 14: 5911-5925. DOI:10.2147/IJGM.S329644.

[7] ZHANG H X, CHI M, SU D Q, et al. A Random ForestbasedMetabolic Risk Model to Assess the Prognosis andMetabolism-related Drug Targets in Ovarian Cancer[J].Comput Biol Med, 2023, 153: 106432. DOI: 10.1016/j.compbiomed.2022.106432.

[8] YUAN S, CHEN Y C, TSAI C H, et al. Feature SelectionTranslates Drug Response Predictors from CellLines to Patients[J]. Front Genet, 2023, 14: 1217414.DOI: 10.3389/fgene.2023.1217414.

[9] SHARMA A, RANI R. Ensembled Machine LearningFramework for Drug Sensitivity Prediction[J]. IET SystBiol, 2020, 14(1): 39-46. DOI: 10.1049/iet-syb.2018.5094.

[10] CHANG Y, PARK H, YANG H J, et al. Cancer Drug Response Profile Scan (CDRscan): A Deep LearningModel that Predicts Drug Effectiveness from CancerGenomic Signature[J]. Sci Rep, 2018, 8: 8857. DOI:10.1038/s41598-018-27214-6.

[11] LI M, WANG Y K, ZHENG R Q, et al. DeepDSC: aDeep Learning Method to Predict Drug Sensitivity ofCancer Cell Lines[J]. IEEE/ACM Trans Comput BiolBioinform, 2021, 18(2): 575-582. DOI: 10.1109/TCBB.2019.2919581.

[12] ZUO Z R, WANG P L, CHEN X W, et al. SWnet: aDeep Learning Model for Drug Response Predictionfrom Cancer Genomic Signatures and CompoundChemical Structures[J]. BMC Bioinformatics, 2021, 22(1): 434. DOI: 10.1186/s12859-021-04352-9.

[13] LIU Q, HU Z Q, JIANG R, et al. DeepCDR: a HybridGraph Convolutional Network for Predicting CancerDrug Response[J]. Bioinformatics, 2020, 36(Suppl_2):i911-i918. DOI: 10.1093/bioinformatics/btaa822.

[14] LIU P F, LI H J, LI S, et al. Improving Prediction ofPhenotypic Drug Response on Cancer Cell Lines UsingDeep Convolutional Network[J]. BMC Bioinformatics,2019, 20(1): 408. DOI: 10.1186/s12859-019-2910-6.

[15] SHARIFI-NOGHABI H, ZOLOTAREVA O, COLLINSC C, et al. MOLI: Multi-omics Late Integration withDeep Neural Networks for Drug Response Prediction[J]. Bioinformatics, 2019, 35(14): i501-i509. DOI:10.1093/bioinformatics/btz318.

[16] JIANG L K, JIANG C Z, YU X Y, et al. DeepTTA: aTransformer-based Model for Predicting Cancer DrugResponse[J]. Brief Bioinform, 2022, 23(3): bbac100.DOI: 10.1093/bib/bbac100.

[17] HUANG K X, XIAO C, GLASS L M, et al. MolTrans:Molecular Interaction Transformer for Drug-target InteractionPrediction[J]. Bioinformatics, 2021, 37(6): 830-836. DOI: 10.1093/bioinformatics/btaa880.

[18] BARRETINA J, CAPONIGRO G, STRANSKY N, et al.The Cancer Cell Line Encyclopedia Enables PredictiveModelling of Anticancer Drug Sensitivity[J]. Nature, 2012,483(7391): 603-607. DOI: 10.1038/nature11003.

[19] KANEHISA M, GOTO S. KEGG: Kyoto Encyclopediaof Genes and Genomes[J]. Nucleic Acids Res, 2000, 28(1): 27-30. DOI: 10.1093/nar/28.1.27.

[20] KOZALAK G, BüTüN ?, TOYRAN E, et al. Reviewon Bortezomib Resistance in Multiple Myeloma and PotentialRole of Emerging Technologies[J]. Pharmaceuticals,2023, 16(1): 111. DOI: 10.3390/ph16010111.

[21] IORIO F, KNIJNENBURG T A, VIS D J, et al. A Landscapeof Pharmacogenomic Interactions in Cancer[J]. Cell,2016, 166(3): 740-754. DOI: 10.1016/j.cell.2016.06.017.

[22] ZHOU J, CUI G Q, HU S D, et al. Graph NeuralNetworks: A Review of Methods and Applications[J].AI Open, 2020, 1: 57-81. DOI: 10.1016/j. aiopen.2021.01.001.

[23] ZHANG S, TONG H H, XU J J, et al. Graph ConvolutionalNetworks: A Comprehensive Review[J]. ComputSoc Netw, 2019, 6(1): 11. DOI: 10.1186/s40649-019-0069-y.

[24] VELI?KOVI? P, CUCURULL G, CASANOVA A, etal. Graph Attention Networks[EB/OL]. arXiv Preprint:1710.10903, 2017. https://arxiv.org/abs/1710.10903.

基金項目:國家自然科學(xué)基金(62306206;62102280);山西省重點研發(fā)計劃項目(202101010101007;202102020101001);山西省基礎(chǔ)研究計劃資助項目(202203021212207;20210302124167)

猜你喜歡
特征融合
多特征融合的粒子濾波紅外單目標(biāo)跟蹤
基于稀疏表示與特征融合的人臉識別方法
一種“客觀度量”和“深度學(xué)習(xí)”共同驅(qū)動的立體匹配方法
多特征融合的紋理圖像分類研究
語譜圖傅里葉變換的二字漢語詞匯語音識別
基于多特征融合的圖像匹配算法
人體行為特征融合與行為識別的分析
基于移動端的樹木葉片識別方法的研究
科技資訊(2017年11期)2017-06-09 18:28:13
基于SIFT特征的港口內(nèi)艦船檢測方法
融合整體與局部特征的車輛型號識別方法
道真| 措勤县| 曲阜市| 蓬莱市| 延长县| 宝清县| 崇州市| 名山县| 布拖县| 昂仁县| 福贡县| 日喀则市| 纳雍县| 昌图县| 基隆市| 偃师市| 扎赉特旗| 岚皋县| 青冈县| 鸡泽县| 柘城县| 兴仁县| 东港市| 四川省| 荃湾区| 佛学| 静海县| 安吉县| 湖州市| 顺平县| 泊头市| 武夷山市| 库车县| 天等县| 都兰县| 安国市| 威远县| 临江市| 方城县| 房山区| 竹山县|