王皓白,沈昕,黃尉健,陳可佳,3+
1.南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,南京210023
2.南京郵電大學(xué) 理學(xué)院,南京210023
3.江蘇省大數(shù)據(jù)安全與智能處理重點(diǎn)實(shí)驗(yàn)室(南京郵電大學(xué)),南京210023
蛋白質(zhì)是生命活動(dòng)的主要承擔(dān)者,蛋白質(zhì)相互作用才能發(fā)揮個(gè)體的功能并參與到生化過程中。由于生物實(shí)驗(yàn)的成本較高、實(shí)驗(yàn)條件苛刻和結(jié)果假陽性概率較大,發(fā)現(xiàn)蛋白質(zhì)之間的潛在交互是一個(gè)很大的挑戰(zhàn)。因此,研究者構(gòu)建了以蛋白質(zhì)為節(jié)點(diǎn)、相互作用為邊的蛋白質(zhì)交互(protein-protein interaction,PPI)網(wǎng)絡(luò),并設(shè)計(jì)精確且高通量的算法來識別和預(yù)測蛋白質(zhì)的交互作用[1-2]。這樣既能有效指導(dǎo)實(shí)驗(yàn)、縮短檢測周期,又能輔助檢測藥物靶標(biāo)、攻克疑難雜癥。
隨著PPI數(shù)據(jù)種類的不斷豐富、規(guī)模的不斷擴(kuò)大[3],出現(xiàn)了使用機(jī)器學(xué)習(xí)進(jìn)行蛋白質(zhì)序列編碼[4-7]、PPI 網(wǎng)絡(luò)表示[8]、蛋白質(zhì)功能預(yù)測[9]和復(fù)合物識別[10]的方法。特別在PPI 預(yù)測任務(wù)中,學(xué)習(xí)算法旨在捕捉蛋白質(zhì)節(jié)點(diǎn)的拓?fù)涮匦裕源送茢嗟鞍踪|(zhì)之間是否存在交互。PPI網(wǎng)絡(luò)分析的早期工作以矩陣分解[11]和隨機(jī)游走[12-13]為主。圖神經(jīng)網(wǎng)絡(luò)(如GCN[14]、GAT[2]、Graph-SAGE[1]等模型)隨后也應(yīng)用于PPI 網(wǎng)絡(luò),該模型能夠有效結(jié)合節(jié)點(diǎn)自身的生物屬性與網(wǎng)絡(luò)拓?fù)涮匦?,在許多下游任務(wù)中性能顯著。
盡管上述模型展現(xiàn)出圖表示學(xué)習(xí)的強(qiáng)大能力,但其嵌入精度仍受限于歐氏空間的維數(shù)和計(jì)算復(fù)雜度[15]。PPI 網(wǎng)絡(luò)具有無標(biāo)度屬性,滿足強(qiáng)冪律分布并呈現(xiàn)類似樹狀的層次結(jié)構(gòu)。例如,在圖1 的Bio-GRID 蛋白質(zhì)交互網(wǎng)絡(luò)中,節(jié)點(diǎn)的最大和最小度數(shù)分別為1 188 和2,平均度數(shù)為37.187,滿足強(qiáng)冪律分布。以往模型難以學(xué)到這一層次結(jié)構(gòu)。
圖1 BioGRID 蛋白質(zhì)交互網(wǎng)絡(luò)Fig.1 PPI network of BioGRID
最近,以雙曲空間嵌入為代表的流形表示學(xué)習(xí)成為新的發(fā)展趨勢[16]。它假設(shè)高維圖數(shù)據(jù)的分布近似于某個(gè)低維流形,可通過學(xué)習(xí)由距離逆向推斷節(jié)點(diǎn)間的連接關(guān)系。雙曲空間可近似為n叉樹的連續(xù)版本,其空間指數(shù)擴(kuò)張的幾何特性與PPI 網(wǎng)絡(luò)特征高度貼合。因此,本文將雙曲空間的圖嵌入方法應(yīng)用于PPI 網(wǎng)絡(luò),不僅可以由隱變量的距離判斷節(jié)點(diǎn)的相似性,還能根據(jù)各節(jié)點(diǎn)的范數(shù)確定網(wǎng)絡(luò)的潛在層次結(jié)構(gòu)(即節(jié)點(diǎn)間的相關(guān)性)[15-17]。
本文提出一種在雙曲空間中的變分圖自編碼器,用于蛋白質(zhì)編碼。該模型采用兩個(gè)雙曲圖卷積網(wǎng)絡(luò)(hyperbolic graph convolutional networks,HGCN)[18]作為編碼器,計(jì)算隱藏層的均值和方差,并利用多個(gè)雙曲空間的不同曲率捕捉網(wǎng)絡(luò)的層次結(jié)構(gòu),區(qū)分各節(jié)點(diǎn)的低維表示。其中,雙曲圖卷積操作主要分為三步:(1)通過切平面對節(jié)點(diǎn)特征做歐氏-雙曲空間的轉(zhuǎn)換;(2)通過注意力機(jī)制在雙曲空間上進(jìn)行鄰居節(jié)點(diǎn)聚合;(3)通過不同曲率構(gòu)建不同層的HGCN,并據(jù)此設(shè)計(jì)非線性激活函數(shù)。模型采用Fermi-Dirac 函數(shù)做解碼器,在雙曲空間上使用內(nèi)積運(yùn)算重構(gòu)網(wǎng)絡(luò)。最終,在重構(gòu)的PPI網(wǎng)絡(luò)上實(shí)現(xiàn)PPI預(yù)測、蛋白質(zhì)功能預(yù)測等下游任務(wù)。
圖表示學(xué)習(xí)是指將圖中的節(jié)點(diǎn)轉(zhuǎn)化為能保留原始圖結(jié)構(gòu)的低維稠密向量,更好用于節(jié)點(diǎn)分類、鏈接預(yù)測等下游任務(wù)。與傳統(tǒng)的基于矩陣分解和隨機(jī)游走的方法相比,圖神經(jīng)網(wǎng)絡(luò)模型能夠較好地結(jié)合拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)語義特征,廣泛應(yīng)用于圖表示學(xué)習(xí)中。經(jīng)典的圖神經(jīng)網(wǎng)絡(luò)包括GCN[14]、GAT[2]和Graph-SAGE[1]模型等。GCN[14]以鄰接矩陣和節(jié)點(diǎn)特征為輸入,并通過聚合一階鄰居節(jié)點(diǎn)做圖卷積運(yùn)算,得到節(jié)點(diǎn)的低維稠密向量表示。GAT[2]模型在聚合鄰居節(jié)點(diǎn)上做進(jìn)一步改進(jìn),計(jì)算各鄰居對中心節(jié)點(diǎn)的影響力,以此作為注意力權(quán)系數(shù),得到鄰節(jié)點(diǎn)的加權(quán)求和表示。GraphSAGE[1]模型則是將學(xué)習(xí)單一節(jié)點(diǎn)嵌入轉(zhuǎn)化為學(xué)習(xí)節(jié)點(diǎn)聚合函數(shù),并通過抽樣指定鄰居個(gè)數(shù),解決了節(jié)點(diǎn)分布各異的問題。后來,Kipf 等人[19]提出變分圖自編碼器(variational graph auto-encoder,VGAE)模型,以GCN 為編碼器,計(jì)算網(wǎng)絡(luò)數(shù)據(jù)的分布,并通過隨機(jī)采樣作為隱變量,由內(nèi)積解碼得到算法輸出。在PPI 網(wǎng)絡(luò)表示學(xué)習(xí)研究中,早期方法多致力于解決鄰接矩陣的稀疏性,計(jì)算蛋白質(zhì)相似性矩陣[11]。Cho 等人[20]提出Mashup 模型,在整合而成的多物種蛋白質(zhì)網(wǎng)絡(luò)上采用帶重啟機(jī)制的隨機(jī)游走算法,通過不同物種在相同蛋白質(zhì)上相似的生化屬性學(xué)習(xí)蛋白質(zhì)節(jié)點(diǎn)的特征。近年來,圖神經(jīng)網(wǎng)絡(luò)開始運(yùn)用于PPI 網(wǎng)絡(luò)的研究。Luck 等人[3]比較了LINE、DeepWalk、node2vec 和SDNE 在PPI 預(yù)測任務(wù)上的優(yōu)劣。一些基于深度神經(jīng)網(wǎng)絡(luò)的模型進(jìn)一步結(jié)合了蛋白質(zhì)的生物特征與網(wǎng)絡(luò)結(jié)構(gòu)特征。例如:deepNF 模型[21]采用深度自編碼器,將不同物種的異構(gòu)蛋白質(zhì)網(wǎng)絡(luò)整合成通用的低維表示。Yao 等人[10]通過無監(jiān)督的VGAE 模型,進(jìn)一步利用無損放縮的自編碼器,學(xué)習(xí)蛋白質(zhì)網(wǎng)絡(luò)的低維表示,實(shí)現(xiàn)蛋白質(zhì)復(fù)合物的識別。Kulmanov 等人[9]設(shè)計(jì)DeepGO 算法,將蛋白質(zhì)的氨基酸序列和其在網(wǎng)絡(luò)中的結(jié)構(gòu)特征有效結(jié)合,通過多層神經(jīng)網(wǎng)絡(luò)得到節(jié)點(diǎn)的低維嵌入。Hu 等人[22]分別在節(jié)點(diǎn)級自監(jiān)督預(yù)訓(xùn)練和圖級多任務(wù)半監(jiān)督預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),同時(shí)捕捉網(wǎng)絡(luò)的局部和整體表示。由于蛋白質(zhì)可能參與多個(gè)生化過程,存在多種相互作用,Ioannidis 等人[23]在多關(guān)系蛋白質(zhì)網(wǎng)絡(luò)上構(gòu)建模型學(xué)習(xí)其表示。
單個(gè)蛋白質(zhì)一般通過不同的相互作用參與到多種生化反應(yīng)中,使得PPI 網(wǎng)絡(luò)具有顯著的層次結(jié)構(gòu),節(jié)點(diǎn)間度的差異較大。雙曲空間能反映異構(gòu)拓?fù)鋄13,24]特征,即節(jié)點(diǎn)數(shù)量隨著其與根節(jié)點(diǎn)的距離呈指數(shù)級增長。因此,雙曲空間上的節(jié)點(diǎn)嵌入可有效區(qū)分度數(shù)差異較大的節(jié)點(diǎn),突出中樞(hub)節(jié)點(diǎn)的主導(dǎo)地位。Krioukov 等人[25]首次從理論上證明雙曲模型在復(fù)雜網(wǎng)絡(luò)分析上的有效性,建立雙曲表示學(xué)習(xí)的上游模型。Papadopoulos 等人[26]進(jìn)一步說明雙曲距離在分析復(fù)雜網(wǎng)絡(luò)演化的實(shí)用性。不過,上述模型僅學(xué)習(xí)到數(shù)據(jù)的淺層嵌入[15,27],而且沒有使用節(jié)點(diǎn)的自身屬性。最近以HGCN 模型[24]為代表的雙曲神經(jīng)網(wǎng)絡(luò)模型[18,28]驗(yàn)證了結(jié)合節(jié)點(diǎn)屬性和結(jié)構(gòu)的方法在具有層次結(jié)構(gòu)圖上的節(jié)點(diǎn)分類和圖分類任務(wù)中表現(xiàn)更加出色。
本文提出了一種蛋白質(zhì)表示學(xué)習(xí)方法Protein-HVGAE(hyperbolic graph auto-encoder for protein interaction networks),用于蛋白質(zhì)鏈接預(yù)測和功能預(yù)測,總體框架如圖2 所示。該模型在雙曲空間上構(gòu)建VGAE,采用兩層HGCN 對蛋白質(zhì)進(jìn)行編碼,充分學(xué)習(xí)網(wǎng)絡(luò)層次結(jié)構(gòu)的特性(節(jié)點(diǎn)范數(shù)),以及節(jié)點(diǎn)間的相似性(節(jié)點(diǎn)距離)。這里,A表示PPI 網(wǎng)絡(luò)的鄰接矩陣(adjacency matrix,維數(shù)為n×n,其中n為蛋白質(zhì)節(jié)點(diǎn)的數(shù)量),X表示網(wǎng)絡(luò)中蛋白質(zhì)節(jié)點(diǎn)的特征矩陣(feature matrix,維度為n×d,d為節(jié)點(diǎn)特征向量的維度),將矩陣A與矩陣X做內(nèi)積作為HGCN 的輸入。
圖2 Protein-HVGAE 的框架圖Fig.2 Framework of Protein-HVGAE
HGCN[18]是圖卷積模型在雙曲空間上的實(shí)現(xiàn),其核心在于通過歐氏切平面實(shí)現(xiàn)雙曲空間上未定義的復(fù)雜向量運(yùn)算,并由不同的曲率區(qū)分度數(shù)差異較大的節(jié)點(diǎn)。其中,雙曲空間包含多個(gè)等距同構(gòu)的雙曲模型[28],選取內(nèi)積和度規(guī)定義簡明、數(shù)值計(jì)算穩(wěn)定的洛倫茲模型(又名雙曲面模型),學(xué)習(xí)復(fù)雜網(wǎng)絡(luò)的隱變量表示。
2.1.1 雙曲-歐氏變換
2.1.2 隱藏層變換
將節(jié)點(diǎn)的歐氏特征映射至雙曲空間后,每一層HGCN 中的向量變換均在雙曲空間實(shí)現(xiàn),操作如下:
為減少信息損失,以上操作均在各個(gè)節(jié)點(diǎn)的切平面上實(shí)現(xiàn)。為了更好地逼近網(wǎng)絡(luò)的層次結(jié)構(gòu),各層HGCN 采用不同的曲率,并通過將當(dāng)前的歐氏輸出轉(zhuǎn)化為下一層的雙曲輸入,實(shí)現(xiàn)層與層間的平滑過渡。由于曲率各異,原點(diǎn)是相鄰層所在的兩個(gè)雙曲空間中唯一相同的坐標(biāo),在其上做切平面進(jìn)行特征映射。令-1/Kl-1,-1/Kl分別為l-1和l層上的雙曲曲率,則雙曲空間中的非線性激活函數(shù)為:
VGAE 是變分貝葉斯和圖神經(jīng)網(wǎng)絡(luò)的結(jié)合。根據(jù)變分貝葉斯原理:對于任一觀察變量xk都存在一個(gè)利用xk得到隱變量的后驗(yàn)分布q(zi|xi)。假設(shè)節(jié)點(diǎn)滿足正態(tài)分布,即q(zi|X,A)=N(zi|μi,diag(σ2i)),則對于整個(gè)網(wǎng)絡(luò)而言:
其中,Z為隱變量,A為鄰接矩陣,X為特征矩陣。
根據(jù)隱變量zi的分布,可通過采樣獲得其具體數(shù)值。再利用隱變量zi的內(nèi)積進(jìn)行解碼,重構(gòu)鄰接矩陣:
損失函數(shù)由重構(gòu)網(wǎng)絡(luò)損失和隱變量分布誤差構(gòu)成,通過交叉熵函數(shù)以及后驗(yàn)分布與正態(tài)分布的KL散度進(jìn)行度量,即:
其中,Eq(Z|X,A)[lgp(A|Z)]為交叉熵函數(shù),而KL[q(Z|X,A)|p(Z)]則是KL 散度。
算法1HVGAE 的偽代碼
本文在多個(gè)物種的PPI 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),通過鏈接預(yù)測和節(jié)點(diǎn)分類這兩個(gè)下游任務(wù),觀察Protein-HVGAE 的表示能力和泛化能力。
本文選取人類和酵母菌的三個(gè)蛋白質(zhì)交互作用數(shù)據(jù)集:STRING-Human[12]、BioGRID[20]和STRINGYeast[12]。為了減少噪聲對數(shù)據(jù)的影響,僅保留置信度大于0.7 的交互作用。各數(shù)據(jù)集的統(tǒng)計(jì)信息見表1。
表1 3 個(gè)PPI數(shù)據(jù)集的統(tǒng)計(jì)信息Table 1 Statistics of 3 PPI networks
HVGAE 模型使用Adam 方法進(jìn)行優(yōu)化,分批次訓(xùn)練,批大小設(shè)置為5 000,迭代次數(shù)為200 次,學(xué)習(xí)率設(shè)置為0.01。實(shí)驗(yàn)使用兩層HGCN 嵌入層,每層的嵌入維度大小設(shè)置為128。為各對比方法均采用其原始論文中提供的最優(yōu)參數(shù),為了便于比較,每種方法的嵌入維度也設(shè)置為128。實(shí)驗(yàn)將每個(gè)PPI 網(wǎng)絡(luò)按照8∶2 的比例將數(shù)據(jù)集劃分為訓(xùn)練集和測試集。
獲得蛋白質(zhì)表示之后,直接用于PPI 預(yù)測和蛋白質(zhì)功能預(yù)測的下游任務(wù)。實(shí)驗(yàn)選擇常用的AUC(area under the curve)和AP(average precision)作為PPI 預(yù)測性能的評價(jià)指標(biāo),并采用Macro-F1 作為蛋白質(zhì)功能預(yù)測的評價(jià)指標(biāo)。
本文選取了一系列圖表示學(xué)習(xí)方法進(jìn)行對比實(shí)驗(yàn),詳細(xì)介紹如下:
(1)Deepwalk[29]首次提出基于隨機(jī)游走進(jìn)行網(wǎng)絡(luò)表示學(xué)習(xí),通過隨機(jī)游走獲取k-hop 領(lǐng)域內(nèi)的節(jié)點(diǎn)對構(gòu)成節(jié)點(diǎn)序列,然后使用skip-gram 算法學(xué)習(xí)節(jié)點(diǎn)的表示。
(2)node2vec[12]是Deepwalk 的改進(jìn)版本,主要的區(qū)別是在隨機(jī)游走時(shí)結(jié)合廣度優(yōu)先搜索和深度優(yōu)先搜索的策略,根據(jù)概率轉(zhuǎn)移矩陣進(jìn)行游走。
(3)Struc2vec[30]與前兩個(gè)基于近鄰相似假設(shè)的方法不同,考慮了非近鄰的節(jié)點(diǎn)也可能擁有很高的結(jié)構(gòu)相似性。
(4)GAE(graph auto-encoders)[19]是一種無監(jiān)督學(xué)習(xí)框架,通過編碼器學(xué)習(xí)低維向量,然后通過解碼器重構(gòu)圖數(shù)據(jù)。
(5)VGAE[19]和GAE 不同,編碼器學(xué)到的不是樣本的低維向量表示,而是低維向量表示的分布。
3.4.1 PPI預(yù)測
為了公平比較,首先去除網(wǎng)絡(luò)的節(jié)點(diǎn)屬性,比較了6 個(gè)模型在無節(jié)點(diǎn)屬性的PPI網(wǎng)絡(luò)下的鏈接預(yù)測表現(xiàn),如表2 所示(表中*表示在無節(jié)點(diǎn)屬性情況下的預(yù)測結(jié)果)。
表2 PPI預(yù)測任務(wù)上的結(jié)果比較(數(shù)據(jù)無節(jié)點(diǎn)屬性)Table 2 Comparison of PPI prediction performance on datasets without node features 單位:%
結(jié)果表明,HVGAE 在3 個(gè)數(shù)據(jù)集上的性能均優(yōu)于其他模型,在BioGRID 數(shù)據(jù)集的優(yōu)勢最為顯著。這表明HVGAE 能夠適應(yīng)不同物種的PPI網(wǎng)絡(luò)。
隨后,恢復(fù)PPI 網(wǎng)絡(luò)的節(jié)點(diǎn)屬性,觀察3 種模型GAE、VGAE 和HVGAE 在STRING-Human 和Bio-GRID 數(shù)據(jù)集下的預(yù)測結(jié)果(見表3)。其中,*表示在無節(jié)點(diǎn)屬性情況下的預(yù)測結(jié)果。
表3 PPI預(yù)測任務(wù)上的結(jié)果比較(數(shù)據(jù)包含節(jié)點(diǎn)屬性)Table 3 Comparison of PPI prediction performance on datasets with node features 單位:%
與預(yù)期相同,在添加節(jié)點(diǎn)屬性后,各個(gè)方法的預(yù)測性能均有所提高??傮w來說,與歐氏空間的圖神經(jīng)網(wǎng)絡(luò)模型相比,HVGAE 的性能在3 個(gè)數(shù)據(jù)集上均有明顯提升;而其余模型之間的性能差異并不顯著,且在不同數(shù)據(jù)集上排名有所波動(dòng)。進(jìn)一步說明,合適的幾何度量有助于學(xué)習(xí)準(zhǔn)確的低維表示。
3.4.2 蛋白質(zhì)功能預(yù)測
本文還在蛋白質(zhì)功能預(yù)測(即節(jié)點(diǎn)分類)任務(wù)中觀察各方法的嵌入效果。本文將蛋白質(zhì)的節(jié)點(diǎn)屬性轉(zhuǎn)化為功能標(biāo)簽用于分類,并選用Marco-F1[2]作為多標(biāo)簽分類的評價(jià)指標(biāo)。表4 列出了在兩個(gè)數(shù)據(jù)集上6種方法的蛋白質(zhì)功能預(yù)測結(jié)果。
表4 蛋白質(zhì)功能識別任務(wù)上的Marco-F1 比較Table 4 Comparison of Marco-F1 in protein function recognition task 單位:%
為了進(jìn)一步研究雙曲空間是否在層次結(jié)構(gòu)的網(wǎng)絡(luò)上更具嵌入優(yōu)勢,本文還在異構(gòu)率和雙曲率[12]兩方面量化網(wǎng)絡(luò),以比較HVGAE 和VGAE 的性能。異構(gòu)率刻畫了網(wǎng)絡(luò)的無標(biāo)度屬性,節(jié)點(diǎn)度數(shù)差異較大的強(qiáng)冪律分布的網(wǎng)絡(luò)異構(gòu)率較高。由于隱藏的層次結(jié)構(gòu)無法直接提取[15],實(shí)驗(yàn)使用Gromov[31]提出的雙曲率刻畫網(wǎng)絡(luò)中隱含的類樹狀結(jié)構(gòu)[15,18,31]。層次結(jié)構(gòu)越顯著,雙曲率越低。由此可見,異構(gòu)率和雙曲率兩個(gè)指標(biāo)呈反比。
使用PPI 預(yù)測任務(wù)進(jìn)行比較,通過定義式(15)的優(yōu)化率來表示HVGAE 對VGAE 在AUC 指標(biāo)上的提升程度。
其中,AUCH和AUCE分別為HVGAE 和VGAE 在PPI預(yù)測任務(wù)上的AUC 值。本文使用雙坐標(biāo)圖反映HVGAE 在3 個(gè)數(shù)據(jù)集上的優(yōu)化率,以及各個(gè)網(wǎng)絡(luò)對應(yīng)的異構(gòu)率/雙曲率(圖3)。
圖3 HVGAE 對VGAE 的優(yōu)化率Fig.3 Optimization rate of HVGAE to VGAE
實(shí)驗(yàn)結(jié)果驗(yàn)證了優(yōu)化率滿足與異構(gòu)率成正比、與雙曲率呈反比的特點(diǎn)。同時(shí),在無標(biāo)度屬性和層次結(jié)構(gòu)最為顯著的BioGRID 數(shù)據(jù)集上,HVGAE 的性能提升最大,符合先驗(yàn)知識。
此外,圖表示學(xué)習(xí)的結(jié)果還受到嵌入維數(shù)的影響。為了觀察VGAE 在不同幾何空間下的最優(yōu)嵌入,本文采用BioGRID 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),設(shè)置輸出層維數(shù)分別為32、16、12、8 和6,比較VGAE 在雙曲和歐氏空間上的重構(gòu)精度(圖4)。
圖4 不同嵌入維數(shù)下HVGAE 和VGAE 的比較Fig.4 Comparison of HVGAE and VGAE with different embedding dimensions
結(jié)果表明,當(dāng)嵌入維度貼近于數(shù)據(jù)潛在的真實(shí)分布(16 維)時(shí),HVGAE 相較于VGAE 有明顯的提升(高達(dá)5.4 個(gè)百分點(diǎn))。當(dāng)對維度進(jìn)一步壓縮,其預(yù)測精度始終優(yōu)于VGAE。這進(jìn)一步驗(yàn)證了雙曲空間在高維數(shù)據(jù)的表示上信息損失率更低,因此更適用于刻畫復(fù)雜網(wǎng)絡(luò)的內(nèi)在幾何空間。
實(shí)驗(yàn)最后分析了HVGAE 中的曲率,以驗(yàn)證模型的穩(wěn)定性和優(yōu)化潛力。對于HGCN,不同層曲率的設(shè)置有助于在降維過程中逐層逼近蛋白質(zhì)網(wǎng)絡(luò)內(nèi)在的幾何拓?fù)浣Y(jié)構(gòu)[18]。本文通過調(diào)整-lgK,便于研究曲率對3 個(gè)PPI 網(wǎng)絡(luò)嵌入精度的影響(見圖5)。
圖5 曲率分析Fig.5 Curvature analysis
由于人類PPI 網(wǎng)絡(luò)的層次結(jié)構(gòu)較高,隨著曲率降低,PPI 預(yù)測的AP 指數(shù)呈上升趨勢,尤其是層次結(jié)構(gòu)最高的BioGRID 數(shù)據(jù)集,AP 整體提升達(dá)到1 個(gè)百分點(diǎn)。對于酵母蛋白網(wǎng)絡(luò),曲率下降反而減損了嵌入精度。這一現(xiàn)象與曲率的性質(zhì)相吻合(即K趨向∞為歐幾里德空間)。
本文提出了一種蛋白質(zhì)表示學(xué)習(xí)模型,即雙曲變分圖自編碼器Protein-HVGAE,充分發(fā)揮HGCN 和VGAE 在具有層次結(jié)構(gòu)網(wǎng)絡(luò)中的學(xué)習(xí)能力。在不同物種的PPI 數(shù)據(jù)集上和多個(gè)下游任務(wù)中,本文方法均優(yōu)于現(xiàn)有方法,驗(yàn)證了模型在諸如PPI 網(wǎng)絡(luò)等具有無標(biāo)度特性和較高層次結(jié)構(gòu)圖上的優(yōu)勢。未來工作中,將進(jìn)一步研究基于HVGAE 的預(yù)訓(xùn)練方法[8]以進(jìn)一步獲得多物種PPI網(wǎng)絡(luò)的共性特征。