国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于知識圖譜嵌入與深度學(xué)習(xí)的藥物不良反應(yīng)預(yù)測

2024-03-04 06:05吳菊華李俊鋒
關(guān)鍵詞:分類器圖譜實體

吳菊華,李俊鋒,陶 雷

(廣東工業(yè)大學(xué) 管理學(xué)院, 廣東 廣州 510520)

藥物不良反應(yīng)(Adverse Drug Reaction, ADR)是全球重要的公共衛(wèi)生問題,是導(dǎo)致死亡的重大原因之一[1]。全球范圍內(nèi)因ADR導(dǎo)致的傷殘或死亡患者每年近80萬例,占所有入院患者的3.6%[2]。在美國,每年約200余萬名住院患者發(fā)生嚴(yán)重ADR,造成5 284億美元經(jīng)濟損失,約占當(dāng)年醫(yī)療總支出的16%[3]。我國每年也有超過250萬人因ADR入院, 其中死亡人數(shù)高達(dá)19.2萬人[4];2018年中國藥品不良反應(yīng)監(jiān)測網(wǎng)絡(luò)收到149.9萬份藥品不良反應(yīng)/事件報告[5],且數(shù)量呈逐年增長趨勢。盡管藥物在被批準(zhǔn)上市之前,經(jīng)過嚴(yán)格試驗,但由于樣本數(shù)量及試驗時間限制,許多嚴(yán)重ADR直到藥物上市后才出現(xiàn)[6]。此外,高達(dá)50%與ADR相關(guān)的住院,可以通過避免不適當(dāng)?shù)奶幏絹眍A(yù)防[7]。因此,如何有效識別和預(yù)測藥物潛在的不良反應(yīng),預(yù)防ADR發(fā)生以及降低經(jīng)濟損失,提高臨床用藥的合理性和安全性,是當(dāng)前智慧健康醫(yī)療領(lǐng)域的一個研究重點[8-9]?;诖?,本文開發(fā)一種基于知識圖譜嵌入和深度學(xué)習(xí)的ADR預(yù)測模型,并與多種常用基準(zhǔn)模型及已有研究結(jié)果進行對比分析,同時檢驗本文預(yù)測模型的有效性和穩(wěn)定性。本文的貢獻可以概括如下。

(1) 本文結(jié)合知識圖譜嵌入和深度學(xué)習(xí)開發(fā)了一種穩(wěn)定且高效的ADR預(yù)測模型,將所有類型ADR進行統(tǒng)一預(yù)測,減少過往研究需要為每種ADR單獨開發(fā)預(yù)測模型的冗余工作量,提高預(yù)測效率和精度。

(2) 本文通過對比評估不同嵌入策略對ADR分類模型的影響,選擇最佳嵌入策略,所開發(fā)的ADR預(yù)測模型能夠有效預(yù)測藥物潛在的不良反應(yīng),為醫(yī)生在用藥時提供建議,提高患者的用藥安全。

1 相關(guān)研究

根據(jù)世界衛(wèi)生組織的定義,藥物不良反應(yīng)是指在使用正常劑量的藥物用于預(yù)防、診斷、治療疾病或調(diào)節(jié)生理機能過程中,出現(xiàn)有害和非預(yù)期的且與用藥目的無關(guān)的反應(yīng)[10];且ADR可能是藥物化學(xué)物質(zhì)與蛋白質(zhì)反應(yīng)的結(jié)果[11]。早期對于ADR的研究,主要基于自發(fā)報告系統(tǒng)(Spontaneous Reporting Systems,SRSs) 的臨床案例數(shù)據(jù)[7,12],使用比例失衡分析[13]等方法評估藥物與ADR之間的關(guān)聯(lián)性和因果性,以挖掘相關(guān)藥物不良反應(yīng)信號。但SRSs的數(shù)據(jù)往往是不完整或不準(zhǔn)確的,可能會導(dǎo)致研究結(jié)果有所偏差;此外加之?dāng)?shù)據(jù)量有限,缺乏對數(shù)據(jù)的深度挖掘,使得早期基于簡單統(tǒng)計方法的研究結(jié)論缺乏說服力[14]。隨著人工智能技術(shù)日趨成熟和生物醫(yī)學(xué)數(shù)據(jù)量不斷增長,一方面,研究人員基于文獻、ADR報告等文本數(shù)據(jù),結(jié)合自然語言處理技術(shù)挖掘藥物潛在的不良反應(yīng)[15-17];另一方面,基于藥物的化學(xué)、生物學(xué)以及表型特征,使用機器學(xué)習(xí)或深度學(xué)習(xí)方法進行ADR預(yù)測研究[18-21]?;谖谋就诰虻难芯砍S糜谧R別和監(jiān)測相關(guān)ADR,其假定相關(guān)ADR已出現(xiàn),但無法預(yù)測藥物潛在的ADR;而基于藥物特征和機器學(xué)習(xí)的ADR預(yù)測研究,有助于探索藥物未知的ADR,這也是本文的研究主題。

機器學(xué)習(xí)相關(guān)方法能夠提升ADR預(yù)測效果,但這些研究仍存在可改進的關(guān)鍵點:(1) 未考慮藥物之間關(guān)聯(lián)關(guān)系,可能導(dǎo)致有用信息丟失;(2) 使用大量獨熱編碼的特征數(shù)據(jù),而高維稀疏特征矩陣降維難度大,模型計算效率低;(3) 絕大多數(shù)需要為每種ADR單獨構(gòu)建分類器。而知識圖譜(Knowledge Graph, KG)這種由節(jié)點和關(guān)系構(gòu)成的特殊網(wǎng)絡(luò)結(jié)構(gòu)及其嵌入技術(shù),通過將實體嵌入連續(xù)低維的特征空間,捕獲特征實體之間非結(jié)構(gòu)化語義關(guān)系,在不同類型信息之間實現(xiàn)融合和計算,能有效緩解高維稀疏特征數(shù)據(jù)帶來的計算低效問題,提高分類器預(yù)測性能[22-24]。

近年來,知識圖譜及其嵌入技術(shù)逐漸被應(yīng)用于藥物研究領(lǐng)域的知識發(fā)現(xiàn)和知識庫構(gòu)建,這些研究通過獲取藥物特征數(shù)據(jù),構(gòu)建含有不同類型節(jié)點的知識圖譜,通過知識圖譜嵌入技術(shù)結(jié)合分類模型進行相關(guān)研究主題的目標(biāo)預(yù)測。基于 KG的ADR預(yù)測,相關(guān)典型研究如表1所示。通過文獻綜述,當(dāng)前研究仍存在以下有待改進的要點:(1) 使用KG中未出現(xiàn)的“drug-ADR”組合作為ADR預(yù)測模型的負(fù)樣本,但KG中不存在的“drug-ADR”組合可能只是目前尚未被發(fā)現(xiàn)[21];(2) 使用簡單的機器學(xué)習(xí)模型;(3) 所覆蓋的藥物數(shù)量較少,特征局限于藥物靶點和適應(yīng)癥,諸如酶和載體蛋白之類的重要信息尚未在先前的研究中使用。

表1 相關(guān)典型研究Table 1 Relevant typical studies

基于此,本文采用知識圖譜嵌入與深度學(xué)習(xí)相結(jié)合的方法實現(xiàn)ADR預(yù)測,除靶點和適應(yīng)癥之外,還整合了酶和載體蛋白信息構(gòu)建知識圖譜;并開發(fā)一個強大的深度神經(jīng)網(wǎng)絡(luò),提高ADR的預(yù)測性能。

2 數(shù)據(jù)與方法

在本文提出的方法中,參考文獻[25]和[26],將藥物的副作用(Side Effect) 視為ADR。鑒于結(jié)合藥物的生物學(xué)特征和表型特征能夠提升ADR預(yù)測模型性能[18,25],從DrugBank(v5.18)[30]和SIDER(v4.1)[31]數(shù)據(jù)庫分別選擇靶點(Target) 、載體(Transporter) 、酶(Enzyme) 等生物學(xué)特征和適應(yīng)癥(Indication) 和不良反應(yīng)(ADR) 等表型特征,以及藥物(drug) 作為知識圖譜實體節(jié)點。然后,為規(guī)避為每種ADR構(gòu)建單獨分類器所增加的沉重工作量,將ADR預(yù)測視作一個統(tǒng)一的二分類問題,并使用“drug-ADR”組合和“drug-Indication”組合分別作為分類模型的正樣本和負(fù)樣本,樣本標(biāo)簽分別記作“1”和“0”。由此開發(fā)一個基于知識圖譜嵌入和深度學(xué)習(xí)的ADR預(yù)測模型,通過5次重復(fù)實驗,檢驗卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)模型穩(wěn)定性。最后,以藥物性腎功能損傷為例進行預(yù)測,并通過真實世界數(shù)據(jù)驗證模型預(yù)測的有效性。具體研究思路如圖1所示。

圖1 ADR預(yù)測研究框架Fig.1 Research framework of ADR prediction

2.1 數(shù)據(jù)來源與知識圖譜構(gòu)建

DrugBank數(shù)據(jù)庫涵蓋豐富的生物和化學(xué)信息學(xué)資源,SIDER數(shù)據(jù)庫收錄了1 430種藥物,6 000余種副作用。通過下載DrugBank中xml數(shù)據(jù)文件和SIDER中tsv文件,使用Python程序解析并獲得藥物的相關(guān)特征數(shù)據(jù)。根據(jù)藥物解剖治療化學(xué)代碼(Anatomical Therapeutic Chemical, ATC) 整合2個數(shù)據(jù)庫的相關(guān)數(shù)據(jù),并篩選至少具有1種藥物特征的藥物記錄。最終構(gòu)建5類三元組:<drug, hasTransporter, Transporter>、<drug, hasADR, ADR>、<drug, hasEmzyme,Emzyme>、<drug, hasTarget, Target>、<drug,hasIndication, Indication>;將三元組儲存至Neo4j圖數(shù)據(jù)庫,獲得可視化知識圖譜,如圖2所示。該圖譜共包含了7 916種drug、5 454種ADR以及158 121個三元組,具體如表2所示。

圖2 ADR知識圖譜中的部分實體和關(guān)系Fig.2 Local entities and relationships in the knowledge graph

表2 ADR知識圖譜包含的實體、關(guān)系及其數(shù)量Table 2 Entities, relationships and quantities included in the ADR knowledge graph

2.2 知識圖譜嵌入模型

知識圖譜嵌入技術(shù)逐漸被應(yīng)用于預(yù)測研究[22],其中基于張量分解的DistMult[32]模型和HolE[33]模型應(yīng)用最為廣泛。DistMult模型通過實體之間的雙線性變換來描述實體之間的語義相關(guān)性,其中頭實體和尾實體分別由向量h和t表示,關(guān)系由向量r表示;關(guān)系矩陣Mr=diag(r)對潛在因子之間的成對相互作用進行建模,使用fr(h,t)=hTMrt作為評分函數(shù)。HolE模型以DistMult模型為基礎(chǔ),在實體之間引入循環(huán)相關(guān)運算,以捕獲成對實體的組成表示,使用fr(h,t)=rT(h*t) 作為評分函數(shù),式中* 為循環(huán)相關(guān)運算。上述2種嵌入模型均以最小化評分函數(shù)作為目標(biāo),以獲得實體和關(guān)系的有效嵌入向量。

2.3 CNN分類模型

研究設(shè)計了一個具有2個卷積層,4個全連接層的CNN模型,如圖3所示。由于ReLU激活函數(shù)計算效率和收斂速度等特性遠(yuǎn)高于sigmoid、Tanh等函數(shù);因此,卷積層和全連接層均使用ReLU激活函數(shù)。同時,為使得每一層神經(jīng)網(wǎng)絡(luò)的輸入保持相同分布和提高網(wǎng)絡(luò)優(yōu)化效率,卷積層均使用批歸一化處理(Batch Normalization) ,模型具體參數(shù)如表3所示。本文使用式(1) 所示的二元交叉熵作為模型訓(xùn)練的損失函數(shù),式中:n為訓(xùn)練樣本總數(shù),yi為 樣本i的真實標(biāo)簽,^yi為樣本i被預(yù)測為類別 “1” 的概率值;通過模型訓(xùn)練,獲取參數(shù)W和b的最優(yōu)值。

圖3 用于ADR預(yù)測的CNN模型結(jié)構(gòu)圖Fig.3 CNN model structure diagram for ADR prediction

表3 CNN模型參數(shù)Table 3 Parameters of CNN model

采用邏輯回歸(Logistic Regression, LR) 、K近鄰(k-Nearest Neighbor, KNN) 、決策樹(Decision Tree,DT) 、隨機森林(Random Forest, RF) 、樸素貝葉斯(Naive Bayes, NB) 、梯度提升決策樹(Gradient Boosting Decision Tree, GBDT) 等6種基準(zhǔn)模型進行對比分析,上述模型被廣泛應(yīng)用于ADR預(yù)測[8]。

3 實驗與結(jié)果分析

3.1 模型評價指標(biāo)

本文采用混淆矩陣計算召回率(Recall) 、準(zhǔn)確率(Accuracy, ACC) 、精確率(Precision,P) 、F1值(F1-Score,F1) 和曲線下面積(Areas Under the Curve,AUC) 作為模型的評價指標(biāo)。

3.2 知識圖譜嵌入及樣本向量表示

嵌入操作基于Python語言,調(diào)用AmpliGraph工具庫實現(xiàn)。在嵌入操作前,需要確定ADR預(yù)測模型的訓(xùn)練集和測試集;訓(xùn)練集被用于知識圖譜嵌入操作和ADR預(yù)測模型訓(xùn)練,測試集被用于評估ADR預(yù)測模型的預(yù)測性能。

知識圖譜中正樣本為119 233個,負(fù)樣本為12 498個(見表4) 。由于正負(fù)樣本數(shù)量相差1個數(shù)量級,故以負(fù)樣本的總數(shù)為基礎(chǔ),按照9:1的比例,將負(fù)樣本隨機劃分為11 249個訓(xùn)練樣本和1 249個測試樣本,并隨機從正樣本中取1 249個作為測試樣本;則測試集包含正負(fù)樣本各1 249個;訓(xùn)練集包括117 984個正樣本和11 249個負(fù)樣本。為解決訓(xùn)練集樣本不平衡問題,采用過采樣(Oversampling) 將負(fù)樣本復(fù)制10倍。樣本劃分結(jié)果如表4所示。

表4 用于知識圖譜嵌入以及ADR分類器訓(xùn)練和測試的數(shù)據(jù)Table 4 Data used for KG embedding and ADR classifier training and testing

本文在知識圖譜嵌入過程中,采用不同的嵌入策略獲得嵌入向量。并分別使用hD、tA、tI表示實體drug、ADR和Indication的嵌入向量,通過頭實體向量減去尾實體向量,構(gòu)造出ADR分類器正負(fù)樣本的表示向量,如表5所示。分別使用Xp、Xn表示正樣本和負(fù)樣本,其中Xp對 應(yīng)“d rug-ADR ”組合,Xn對應(yīng)“drug-Indication”組合,Xp和Xn共同構(gòu)成分類器的實驗數(shù)據(jù)集。

表5 ADR分類器部分樣本的表示向量(DistMult, dim=20)Table 5 Representation vector of partial samples of ADR classifier(DistMult, dim=20)

3.3 嵌入維度對比分析

本文通過組合不同嵌入模型和不同嵌入維度(10至800) ,探索不同嵌入策略對基準(zhǔn)ADR分類模型在測試集上預(yù)測性能的影響。如圖4所示,在不同嵌入模型下,隨著嵌入維度增大,各基準(zhǔn)模型在測試集上的AUC值也逐漸增大;并且ACC、F1指標(biāo)值也存在不同程度的波動增大;Recall值沒有明顯增大,相對穩(wěn)定。然而,當(dāng)嵌入維度大于400時,各基準(zhǔn)模型的AUC、ACC、F1指標(biāo)值趨于穩(wěn)定。通過綜合分析,適當(dāng)增大嵌入維度,能夠在一定程度上提升ADR分類模型的預(yù)測性能。同時,為避免分類器出現(xiàn)過擬合和實驗硬件設(shè)備資源浪費,本文選擇400維為最佳嵌入維度,并結(jié)合CNN模型進行ADR預(yù)測。

圖4 不同嵌入維度下各基準(zhǔn)ADR分類模型在測試集上的性能表現(xiàn)Fig.4 The performance of each baseline ADR classification model on the test set with different embedding dimensions

3.4 分類模型對比分析

基于Python語言,使用scikit-learn和深度學(xué)習(xí)框架Tensorflow2.0開發(fā)ADR分類模型,6種基準(zhǔn)模型將使用默認(rèn)參數(shù)。固定嵌入維度為400維,通過嵌入模型獲得樣本的表示向量,并將其輸入到ADR分類模型進行訓(xùn)練和預(yù)測,各分類模型在測試集上的預(yù)測結(jié)果如表6所示。綜合分析發(fā)現(xiàn),在DistMult嵌入模型下,CNN分類模型在測試集上的AUC值為0.942,優(yōu)于所有基準(zhǔn)模型。

表6 嵌入維度為400時各ADR預(yù)測模型比較Table 6 Comparison of ADR prediction models when the embedding dimension is 400

3.5 模型穩(wěn)定性評估

研究采用5次重復(fù)實驗,評估CNN模型的穩(wěn)定性。具體步驟:(1) 設(shè)定隨機種子,構(gòu)建訓(xùn)練集和測試集;(2) 采用“DistMult模型+400維”組合策略進行嵌入操作;(3) 將所得樣本表示向量用于CNN分類模型訓(xùn)練和預(yù)測。結(jié)果如表7所示,本文CNN模型的AUC平均值為0.957,比Zhang等[26]的研究(平均AUC=0.863)高出0.094,提升了10.89%;F1均值為0.890,Recall均值為0.913,各指標(biāo)值波動較小。同時,ROC曲線(見圖5)表現(xiàn)也非常穩(wěn)定,表明本文所開發(fā)的CNN模型具有較高穩(wěn)定性。

圖5 CNN模型5次重復(fù)實驗在測試集上的ROC曲線Fig.5 ROC curve of five repeated experiments of CNN model

表7 5次重復(fù)實驗CNN模型在測試集上的表現(xiàn)Table 7 The performance of the CNN model on the test set for five repeated experiments

3.6 預(yù)測模型驗證

本文通過現(xiàn)實世界數(shù)據(jù),對 CNN模型的有效性進行檢驗。以“腎損傷”或“kidney injury”為關(guān)鍵詞,在中國知網(wǎng)、PubMed等文獻數(shù)據(jù)庫中隨機檢索相關(guān)的ADR研究,獲得5個未被SIDER數(shù)據(jù)庫收錄的“ d rug-ADR”組合;將其作為輸入,使用CNN模型進行預(yù)測。結(jié)果顯示(見表8),真實樣本被預(yù)測為“陽性”的概率平均值為0.972,表明本文的CNN模型能夠有效預(yù)測實驗樣本集之外的樣本。

表8 使用CNN模型對文獻中的drug-ADR組合的預(yù)測結(jié)果Table 8 Prediction results of drug-ADR pairs in literature through CNN model

3.7 與先進研究對比分析

由于目前缺乏用于檢驗ADR預(yù)測模型性能的標(biāo)準(zhǔn)數(shù)據(jù)集,本文將從所覆蓋的藥物、ADR種類數(shù)量,以及預(yù)測模型的AUC值等方面,與相關(guān)典型研究進行對比(見表9)。通過對比分析,本文開發(fā)的CNN模型的AUC高于相關(guān)研究所提供的結(jié)果,預(yù)測性能更好。同時,本文的實驗數(shù)據(jù)集包含7 916種藥物和5 454種ADR,所覆蓋的藥物信息多于絕大多數(shù)同類研究。此外,以往的研究大多需要針對每個ADR單獨構(gòu)建預(yù)測模型,增加了ADR預(yù)測任務(wù)的工作量;相比之下,本文通過構(gòu)建藥物知識圖譜,使用知識圖譜嵌入技術(shù)將藥物、ADR等實體編碼成特征向量;最終使用一個統(tǒng)一的CNN模型對各“ d rug-ADR”組合進行預(yù)測,以評估該組合存在“hasADR”關(guān)系的概率,這極大減少了模型數(shù)量。Zhang等[26]的研究使用了類似的方法進行ADR預(yù)測,然而其所覆蓋的藥物僅有3 632種,并且所表現(xiàn)出的AUC值相對較低;Joshi等[25]的研究在文獻[26]的基礎(chǔ)上增加了藥物通路(Pathways)和基因(Gene) 特征,但其ADR預(yù)測模型的平均AUC僅為0.912,仍存在提升的空間。本文通過選擇更具代表性的藥物特征,從而開發(fā)出更高性能的ADR預(yù)測模型。

表9 與現(xiàn)有典型研究對比Table 9 Comparison with advanced ADR prediction models

4 結(jié)語

針對既往ADR預(yù)測模型研究的預(yù)測精度低、需要為每種ADR單獨構(gòu)建分類器導(dǎo)致工作量繁重等問題,本文將不同類型ADR預(yù)測簡化為一個二分類問題,并開發(fā)一個基于知識圖譜嵌入和深度學(xué)習(xí)的CNN預(yù)測模型。本文的預(yù)測模型比已有研究的預(yù)測精度更高,此外通過真實世界數(shù)據(jù)驗證模型預(yù)測結(jié)果的有效性和可行性,有望在臨床安全用藥中發(fā)揮重要的輔助作用。下一步研究將考慮使用類似的方法,對中成藥潛在的不良反應(yīng)進行研究;或以患者為中心,評估導(dǎo)致臨床患者發(fā)生ADR的潛在風(fēng)險因素,并預(yù)測患者在具體用藥情況下出現(xiàn)特定ADR的風(fēng)險程度;或探究不同場景下的ADR預(yù)測模型。

猜你喜歡
分類器圖譜實體
繪一張成長圖譜
前海自貿(mào)區(qū):金融服務(wù)實體
BP-GA光照分類器在車道線識別中的應(yīng)用
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
補腎強身片UPLC指紋圖譜
兩會進行時:緊扣實體經(jīng)濟“釘釘子”
振興實體經(jīng)濟地方如何“釘釘子”
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
主動對接你思維的知識圖譜