董鵬 李曉瑛 李軍蓮 唐小利
基于語(yǔ)義謂詞優(yōu)化的疾病因果關(guān)系發(fā)現(xiàn)*
董鵬 李曉瑛 李軍蓮 唐小利
(北京協(xié)和醫(yī)學(xué)院/中國(guó)醫(yī)學(xué)科學(xué)院/醫(yī)學(xué)信息研究所/圖書(shū)館,北京 100005)
挖掘PubMed生物醫(yī)學(xué)文獻(xiàn)中蘊(yùn)含的疾病因果關(guān)系,能夠?yàn)榧膊☆A(yù)防、診療提供參考,促使建立更好的疾病預(yù)防和治療措施。本研究提出基于SemRep語(yǔ)義謂詞優(yōu)化的疾病因果關(guān)系抽取方法,構(gòu)建了包含50個(gè)語(yǔ)義謂詞的疾病因果關(guān)系語(yǔ)義謂詞表,自動(dòng)抽取259 434條疾病因果關(guān)系對(duì),揭示疾病之間的單向因果關(guān)系和雙向因果關(guān)系,并結(jié)合可視化圖形直觀呈現(xiàn)。最終驗(yàn)證了優(yōu)化語(yǔ)義謂詞的方法提升SemRep對(duì)疾病因果關(guān)系抽取效果的可行性,能夠有效地從大規(guī)模生物醫(yī)學(xué)文獻(xiàn)中抽取疾病因果關(guān)系,也為其他領(lǐng)域的語(yǔ)義關(guān)系精準(zhǔn)發(fā)現(xiàn)提供借鑒。
語(yǔ)義謂詞優(yōu)化;疾病因果關(guān)系發(fā)現(xiàn);SemRep
疾病與疾病之間存在因果關(guān)系,即當(dāng)一種疾病發(fā)生時(shí),可能會(huì)后繼引發(fā)一種甚至一系列的疾病。揭示疾病因果關(guān)系,可以闡釋疾病發(fā)生、發(fā)展的機(jī)理,并促使建立更好的疾病預(yù)防和治療措施[1-2]。當(dāng)前,研究人員已經(jīng)使用基因組學(xué)、表型組學(xué)等科學(xué)數(shù)據(jù),從分子層面開(kāi)展疾病的歸因研究,探索疾病之間的因果關(guān)系或其他關(guān)聯(lián)關(guān)系。隨著研究不斷深入,生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)受到研究人員的重視和應(yīng)用。生物醫(yī)學(xué)文獻(xiàn)不但記載了科學(xué)實(shí)驗(yàn)的過(guò)程與結(jié)果,還記載了人類治療疾病的臨床診療經(jīng)驗(yàn),蘊(yùn)含大量的疾病因果關(guān)系。準(zhǔn)確、細(xì)粒度的揭示文獻(xiàn)中蘊(yùn)含的疾病因果關(guān)系,可以提升文獻(xiàn)的利用價(jià)值,促進(jìn)生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)與科學(xué)數(shù)據(jù)的有效融合。
從PubMed文獻(xiàn)數(shù)據(jù)中抽取生物醫(yī)學(xué)語(yǔ)義關(guān)系,可以用于揭示疾病、藥物、蛋白質(zhì)、基因等醫(yī)學(xué)實(shí)體之間的關(guān)聯(lián)關(guān)系,支撐臨床和科研任務(wù)。在具有大量醫(yī)學(xué)知識(shí)資源積累(敘詞表、本體等)、規(guī)則構(gòu)建精準(zhǔn)的生物醫(yī)學(xué)領(lǐng)域,基于規(guī)則的語(yǔ)義關(guān)系抽取方法具有良好的效果[3]?;谝?guī)則的方法主要借助已有知識(shí)積累,與共現(xiàn)分析、人工制定語(yǔ)義關(guān)系模板相結(jié)合抽取語(yǔ)義關(guān)系,原理簡(jiǎn)單、過(guò)程清晰、結(jié)果易懂。
SemRep[4-5]由美國(guó)國(guó)立醫(yī)學(xué)圖書(shū)館(NLM)基于一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)(Unified Medical Language System,UMLS)[6]開(kāi)發(fā),結(jié)合了自然語(yǔ)言處理技術(shù)與UMLS中包含的結(jié)構(gòu)化生物醫(yī)學(xué)領(lǐng)域知識(shí),使用基于規(guī)則的方法從PubMed文獻(xiàn)數(shù)據(jù)中抽取種類廣泛的生物醫(yī)學(xué)語(yǔ)義關(guān)系,并以S-P-O三元組模式進(jìn)行格式化表示與存儲(chǔ)。其中,主語(yǔ)和賓語(yǔ)來(lái)自UMLS專家詞典中的歸一化名詞概念;語(yǔ)義謂詞來(lái)自UMLS語(yǔ)義網(wǎng)絡(luò)中的58種規(guī)范語(yǔ)義關(guān)系類型[6]。SemRep以簡(jiǎn)單易用和高效的特點(diǎn)被廣泛用于生物醫(yī)學(xué)實(shí)體間的語(yǔ)義關(guān)系抽取和發(fā)現(xiàn),如治療/因果關(guān)系[7]、臨床決策[8]、矛盾知識(shí)識(shí)別[9-10]等。
在已有研究中,SemRep表現(xiàn)為53%~83%的準(zhǔn)確率和42%~53%的召回率,錯(cuò)誤分析顯示,語(yǔ)義謂詞識(shí)別不準(zhǔn)是導(dǎo)致SemRep抽取結(jié)果錯(cuò)誤的重要原因[11-13]。SemRep通過(guò)自動(dòng)篩選主語(yǔ)、賓語(yǔ)和規(guī)范化謂詞實(shí)現(xiàn)語(yǔ)義關(guān)系自動(dòng)抽取,然而具體有哪些文本語(yǔ)義謂詞被SemRep識(shí)別、歸并到“CAUSES”中,并且這些文本語(yǔ)義謂詞表示疾病間因果關(guān)系的準(zhǔn)確率如何,因其高度封裝,使用者不得而知?;诖?,本研究計(jì)劃對(duì)SemRep識(shí)別、抽取出的文本語(yǔ)義謂詞進(jìn)行評(píng)估、篩選,通過(guò)優(yōu)化語(yǔ)義謂詞的方法來(lái)解決SemRep在抽取特定語(yǔ)義關(guān)系時(shí)語(yǔ)義謂詞識(shí)別不準(zhǔn)的問(wèn)題,以期提升SemRep自動(dòng)抽取疾病因果關(guān)系的準(zhǔn)確率和文獻(xiàn)中蘊(yùn)含疾病因果關(guān)系的發(fā)現(xiàn)效果。
本研究通過(guò)語(yǔ)義分析和實(shí)驗(yàn)評(píng)估方法,在SemRep解析、識(shí)別出的語(yǔ)義謂詞中篩選表達(dá)疾病間因果關(guān)系較為準(zhǔn)確的語(yǔ)義謂詞,實(shí)現(xiàn)語(yǔ)義謂詞優(yōu)化,提升SemRep自動(dòng)抽取疾病因果關(guān)系的效果,進(jìn)而在生物醫(yī)學(xué)文獻(xiàn)中自動(dòng)抽取和發(fā)現(xiàn)疾病因果關(guān)系。本研究的基礎(chǔ)數(shù)據(jù)來(lái)自SemMedDB(Semantic MEDLINE Database)[14],這是一個(gè)大型語(yǔ)義關(guān)系數(shù)據(jù)庫(kù),以三元組結(jié)構(gòu)化形式保存了SemRep工具對(duì)PubMed全部文獻(xiàn)數(shù)據(jù)的語(yǔ)義關(guān)系解析結(jié)果,僅可用于非商業(yè)用途。
生物醫(yī)學(xué)文獻(xiàn)中的實(shí)體關(guān)系表達(dá)主要依賴自然語(yǔ)言中能夠表示語(yǔ)義關(guān)系的語(yǔ)義謂詞,通過(guò)這些語(yǔ)義謂詞,不但可以確定實(shí)體間存在關(guān)聯(lián)關(guān)系,還可以確定其關(guān)系類型,具有較好的關(guān)系揭示效果[15-16]。基于此,本研究通過(guò)對(duì)SemRep識(shí)別出的文本謂詞進(jìn)行評(píng)估、篩選,提升SemRep自動(dòng)抽取疾病因果關(guān)系的效果,并發(fā)現(xiàn)生物醫(yī)學(xué)文獻(xiàn)中蘊(yùn)含的疾病因果關(guān)系。
為實(shí)現(xiàn)研究目標(biāo),本研究設(shè)計(jì)了基于語(yǔ)義謂詞優(yōu)化的疾病因果關(guān)系發(fā)現(xiàn)總體思路(見(jiàn)圖1),主要包括如下3個(gè)步驟。①對(duì)來(lái)源數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,構(gòu)建研究所需的數(shù)據(jù)集。②在參考謂詞中提取語(yǔ)義特征詞,并在基礎(chǔ)數(shù)據(jù)集中獲取更多的謂詞模式。通過(guò)實(shí)驗(yàn)評(píng)估,在獲取的全部謂詞模式中篩選出表達(dá)疾病間因果關(guān)系較為準(zhǔn)確的語(yǔ)義謂詞,完成語(yǔ)義謂詞優(yōu)化與疾病因果關(guān)系抽取。③分析、解讀抽取的疾病因果關(guān)系,實(shí)現(xiàn)基于語(yǔ)義謂詞優(yōu)化的疾病因果關(guān)系發(fā)現(xiàn)。
3.1.1 數(shù)據(jù)預(yù)處理
SemMedDB中的每條關(guān)系數(shù)據(jù)都含有豐富的字段內(nèi)容[17],除三元組外,還包括三元組相關(guān)句子、謂詞坐標(biāo)等信息。疾病關(guān)系數(shù)據(jù)篩選和整理步驟如下。
首先,通過(guò)對(duì)主語(yǔ)和賓語(yǔ)的語(yǔ)義類型篩選,只保留“SUBJECT_SEMTYPE”和“OBJECT_SEMTYPE”語(yǔ)義類型為“dsyn”(疾?。ⅰ癿obd”(精神疾?。?、“neop”(腫瘤)的關(guān)系對(duì);篩選規(guī)范化謂詞“PREDICATE”,通過(guò)語(yǔ)義謂詞“PREDICATE =‘ISA’”,排除“屬種關(guān)系”的疾病對(duì)。
其次,通過(guò)主語(yǔ)和賓語(yǔ)的NOVELTY屬性值為1,排除泛指疾病名稱,如“Disease”;同時(shí)發(fā)現(xiàn)NOVELTY屬性值為0的情況下,仍有泛指疾病名稱,如“Malignant Neoplasms”“Neoplasm”“Infection”等,進(jìn)行剔除。另外,在數(shù)據(jù)檢查中發(fā)現(xiàn)句子中的形容詞“l(fā)ittle”被識(shí)別為“Little’s Disease”(李特爾氏病,痙攣性大腦性兩側(cè)癱),一并剔除。
最后,獲得1 268 284條疾病關(guān)系對(duì),將其保存在關(guān)系型數(shù)據(jù)庫(kù)中,作為本研究的基礎(chǔ)數(shù)據(jù)集。SemRep處理后的關(guān)系數(shù)據(jù)對(duì)語(yǔ)義謂詞進(jìn)行了自動(dòng)歸并,輸出結(jié)果不包括文本謂詞,本研究根據(jù)輸出結(jié)果中的文本句和文本謂詞起止坐標(biāo),使用SQL語(yǔ)言編程提取出了文本謂詞。
3.1.2 SemRep疾病因果關(guān)系抽取評(píng)估
為評(píng)估SemRep自動(dòng)抽取疾病因果關(guān)系的效果,本研究創(chuàng)建了小型測(cè)試數(shù)據(jù)集。在基礎(chǔ)數(shù)據(jù)集中隨機(jī)抽取500篇文獻(xiàn),獲取其中的全部疾病關(guān)系對(duì),數(shù)據(jù)的判別標(biāo)注工作請(qǐng)2名專家背對(duì)背完成,根據(jù)文本句審核、判別關(guān)系對(duì)是否屬于疾病因果關(guān)系,有疑異的標(biāo)注結(jié)果由2名專家當(dāng)面討論后達(dá)成一致。最終測(cè)試數(shù)據(jù)集中有疾病關(guān)系對(duì)741個(gè),其中疾病因果關(guān)系對(duì)304個(gè)。另外,對(duì)304個(gè)疾病因果關(guān)系對(duì)中的語(yǔ)義謂詞進(jìn)行分析和準(zhǔn)確率評(píng)估,獲得表達(dá)疾病間因果關(guān)系的語(yǔ)義謂詞28個(gè)。
本研究使用了準(zhǔn)確率(Precision)、召回率(Recall)以及綜合評(píng)價(jià)指標(biāo)F值(F-Measure)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估。在測(cè)試數(shù)據(jù)集中,SemRep自動(dòng)抽取疾病因果關(guān)系的準(zhǔn)確率、召回率和F值分別為85.34%、53.62%、65.86%。人工審核中注意到,在某些情況下規(guī)范語(yǔ)義謂詞“CAUSES”影響了SemRep自動(dòng)抽取疾病因果關(guān)系的結(jié)果,即某些語(yǔ)義謂詞未被歸并到“CAUSES”中或被歸并到“CAUSES”中的一些謂詞不能準(zhǔn)確表示疾病因果關(guān)系。因此,在基于SemRep解析結(jié)果的人工審核抽取中補(bǔ)充了部分語(yǔ)義謂詞,并得到95.49%的準(zhǔn)確率、83.55%的召回率和89.12%的F值。實(shí)驗(yàn)表明,SemRep工具可以支持疾病因果關(guān)系抽取工作,并可以通過(guò)篩選、優(yōu)化語(yǔ)義謂詞提升SemRep工具自動(dòng)抽取疾病因果關(guān)系的性能。
本研究中語(yǔ)義謂詞優(yōu)化的流程如下。
首先,在表達(dá)疾病因果關(guān)系的參考謂詞中提取語(yǔ)義特征詞。一部分參考謂詞來(lái)自Xu等[18]揭示的26個(gè)高準(zhǔn)確率的語(yǔ)義謂詞;另一部分參考謂詞是自本研究測(cè)試數(shù)據(jù)集中獲取的28個(gè)語(yǔ)義謂詞。匯總、去重后共獲得參考謂詞49個(gè),這些謂詞大多以詞組形式存在,從中提取了49個(gè)參考謂詞中的語(yǔ)義特征詞,如參考謂詞“due to”中的語(yǔ)義特征詞“due”。
其次,根據(jù)語(yǔ)義特征詞在基礎(chǔ)數(shù)據(jù)集中篩選更多的謂詞形式。在基礎(chǔ)數(shù)據(jù)集中,包含語(yǔ)義特征詞的文本謂詞都會(huì)被提取。請(qǐng)2名專家對(duì)提取的謂詞在“是否為合理的謂詞形式”和“是否可以表達(dá)疾病因果關(guān)系”兩個(gè)方面進(jìn)行背對(duì)背的審核,有疑異的結(jié)果由專家當(dāng)面討論后達(dá)成一致。根據(jù)審核結(jié)果清洗文本謂詞:剔除字節(jié)數(shù)超長(zhǎng)、明顯不合理謂詞形式,如“heart disease and dementia were the risk factors of this disease”;剔除不能表達(dá)疾病因果關(guān)系的謂詞形式,如“cause decrease”“cause a change”;剔除錯(cuò)誤抽取的謂詞形式,如根據(jù)語(yǔ)義特征詞“owing”提取出的“following”。最終共獲得可以表示疾病間因果關(guān)系的語(yǔ)義謂詞56個(gè)。
再次,為定量揭示每個(gè)語(yǔ)義謂詞表達(dá)疾病因果關(guān)系的準(zhǔn)確率,在基礎(chǔ)數(shù)據(jù)集中分別為每個(gè)語(yǔ)義謂詞隨機(jī)抽取50個(gè)疾病因果關(guān)系對(duì)(部分謂詞的關(guān)系對(duì)總數(shù)不足50條),按上一步驟中人工審核的方式評(píng)估每個(gè)語(yǔ)義謂詞的準(zhǔn)確率,其中準(zhǔn)確率不低于80%的謂詞有36個(gè),準(zhǔn)確率不低于60%的謂詞有42個(gè),準(zhǔn)確率不低于40%的語(yǔ)義謂詞50個(gè),以這些語(yǔ)義謂詞構(gòu)建疾病因果關(guān)系語(yǔ)義謂詞表,實(shí)現(xiàn)語(yǔ)義謂詞優(yōu)化。
最后,在測(cè)試數(shù)據(jù)集上檢驗(yàn)基于語(yǔ)義謂詞表自動(dòng)抽取疾病因果關(guān)系的效果。將謂詞表中的謂詞按最低準(zhǔn)確率分別為80%、60%、40%進(jìn)行評(píng)估實(shí)驗(yàn),分別使用了36個(gè)、42個(gè)和50個(gè)語(yǔ)義謂詞。實(shí)驗(yàn)結(jié)果如表1所示,隨著使用的語(yǔ)義謂詞準(zhǔn)確率下降,疾病因果關(guān)系抽取的準(zhǔn)確率呈下降趨勢(shì),召回率和F值呈上升趨勢(shì)。三次測(cè)試的準(zhǔn)確率分別比未優(yōu)化語(yǔ)義謂詞的自動(dòng)抽取結(jié)果(85.34%)提高了13.63%、12.74%和8.31%。通過(guò)實(shí)驗(yàn),確定通過(guò)優(yōu)化語(yǔ)義謂詞提高SemRep自動(dòng)抽取疾病因果關(guān)系準(zhǔn)確率的方法可行。
與Xu等[18]揭示的26個(gè)語(yǔ)義謂詞相比,語(yǔ)義謂詞表的謂詞更多,覆蓋更多疾病因果關(guān)系表示形式,可以從文本中抽取更多的疾病因果關(guān)系對(duì)。與SemRep的規(guī)范謂詞相比,語(yǔ)義謂詞表包括被歸并到非“CAUSES”且可以表示疾病因果關(guān)系的語(yǔ)義謂詞,如分別具有90%和80%準(zhǔn)確率的“risk factor”和“l(fā)ed”被分別歸一化為“PREDISPOSES”和“AFFECTS”;同時(shí),發(fā)現(xiàn)SemRep歸一化謂詞“CAUSES”中個(gè)別語(yǔ)義謂詞表示疾病間因果關(guān)系的準(zhǔn)確率較低,如“because of”在測(cè)試中的準(zhǔn)確率僅有36%,排除這些謂詞有助于提高SemRep自動(dòng)抽取疾病因果關(guān)系的效率。
疾病因果關(guān)系抽取中,使用語(yǔ)義謂詞表中準(zhǔn)確率不低于80%的36個(gè)語(yǔ)義謂詞與基礎(chǔ)數(shù)據(jù)集中的文本謂詞自動(dòng)匹配,只有兩者完全匹配的疾病對(duì)才會(huì)被選中。最終共自動(dòng)抽取259 434條疾病因果關(guān)系三元組,保存于關(guān)系型數(shù)據(jù)庫(kù)中。
通過(guò)對(duì)抽取結(jié)果的統(tǒng)計(jì)分析,發(fā)現(xiàn)兩種疾病間除存在一種疾病導(dǎo)致另一種疾病的單向因果關(guān)系外,還存在兩種疾病互為病因的雙向因果關(guān)系,例如文獻(xiàn)(PMID:17438881)中表述“Endothelial dysfunction is an important factor leading to atherosclerosis,Hypertension and heart failure”,認(rèn)為內(nèi)皮功能障礙(Endothelial dysfunction)可以引發(fā)高血壓(Hypertensive disease);亦有文獻(xiàn)(PMID:16715652)報(bào)道高血壓可以引發(fā)內(nèi)皮功能障礙,如“Hypertension causes Endothelial dysfunction”。這種情況在本研究中被認(rèn)為是兩種疾病間的雙向因果關(guān)系,并將頻次較高的疾病關(guān)系對(duì)作為正向因果關(guān)系、頻次較低的關(guān)系對(duì)作為反向因果關(guān)系。
3.3.1 單向高頻疾病因果關(guān)系
未經(jīng)過(guò)人工審核的疾病因果關(guān)系自動(dòng)抽取結(jié)果存在錯(cuò)誤數(shù)據(jù),為減少錯(cuò)誤數(shù)據(jù)干擾,本研究利用關(guān)系對(duì)在文獻(xiàn)中的共現(xiàn)頻次進(jìn)行篩選,認(rèn)為頻次不低于10次的單向疾病因果關(guān)系對(duì)可信度較高,最終篩選得到疾病因果關(guān)系對(duì)41 724對(duì),涉及1 796種疾病。為便于展示,研究中僅對(duì)頻次不低于100次的33種疾病因果關(guān)系進(jìn)行可視化(見(jiàn)圖2)。圖中疾病左側(cè)為“因”、右側(cè)為“果”,連線粗細(xì)表示相應(yīng)疾病因果關(guān)系的頻次高低。
圖2中,與失明(Blind Vision)相關(guān)的疾病因果關(guān)系頻次最高,揭示最大致盲因素來(lái)自沙眼(Trachoma)和糖尿病性黃斑水腫(Diabetic macular edema)等疾病,失明往往作為這些疾病不斷進(jìn)展的嚴(yán)重后果;其次揭示高同型半胱氨酸血癥(Hyperhomocysteinemia)同時(shí)是心血管疾病(Cardiovascular Diseases)和動(dòng)脈粥樣硬化(Atherosclerosis)的致病因素。圖2同樣直觀揭示引發(fā)急性腎衰竭(Kidney Failure,Acute)、慢性腎衰竭(Kidney Failure,Chronic)和終末期腎衰竭(End stage renal failure)的疾病。
3.3.2 雙向疾病因果關(guān)系
本研究篩選了共現(xiàn)頻次不低于10次的雙向疾病因果關(guān)系對(duì),認(rèn)為這些關(guān)系對(duì)是雙向高頻疾病因果關(guān)系,共涉及56種疾病。作為雙向高頻疾病因果關(guān)系的示例,研究中繪制了肥胖癥(Obesity)和高血壓(Hypertensive disease)的加權(quán)雙向疾病因果關(guān)系圖(見(jiàn)圖3)。其中權(quán)重由關(guān)系對(duì)在文獻(xiàn)中的出現(xiàn)頻次確定,連線方向表示疾病因果關(guān)系的方向,連線的粗細(xì)由正方頻次與反向頻次之和決定。
肥胖癥作為一種常見(jiàn)的代謝病,已發(fā)展成為全球流行病。與肥胖癥有雙向高頻因果關(guān)系的疾病有8種,肥胖癥與非胰島素依賴型糖尿?。―iabetes Mellitus,Non-Insulin-Dependent_Obesity)的因果關(guān)系最為密切,肥胖癥可通過(guò)引發(fā)脂肪組織炎癥導(dǎo)致胰島素抵抗和長(zhǎng)期的非胰島素依賴型糖尿病,而反向關(guān)系的非胰島素依賴型糖尿病導(dǎo)致肥胖癥觀點(diǎn)雖然被確切記載于文獻(xiàn)中,但缺少可以支持這一觀點(diǎn)的機(jī)理研究,這個(gè)發(fā)現(xiàn)可能為相關(guān)研究提供參考。
眾所周知,高血壓(Hypertensive disease)是心血管疾?。–ardiovascular Diseases)和腦血管意外(Cerebrovascular accident)的重要病因。在反向因果關(guān)系中,心血管疾病作為高血壓的罕見(jiàn)病因,通過(guò)影響人體免疫系統(tǒng)或心血管異常而導(dǎo)致高血壓;約75%的患者會(huì)因?yàn)槟X血管意外(中風(fēng)或卒中)導(dǎo)致中風(fēng)性高血壓。這些因果關(guān)系可以為疾病的臨床診療提供參考。
在進(jìn)一步的分析中發(fā)現(xiàn),一些疾病間的正向與反向因果關(guān)系的共現(xiàn)頻次存在較大差異,本研究將這種情況稱為雙向高頻差疾病因果關(guān)系,并通過(guò)計(jì)算方法量化=(-)/,為正反向頻次的頻差值,表示正向頻次,表示反向頻次。研究中分析了反向頻次低于10且頻差大于10的雙向高頻差疾病因果關(guān)系,以期發(fā)現(xiàn)兩種疾病間因果關(guān)系的不確定性,為臨床、科研提供研究方向。排除錯(cuò)誤數(shù)據(jù)后,表2展示了前10組雙向高頻差的疾病因果關(guān)系。
結(jié)合關(guān)系對(duì)出處文獻(xiàn),對(duì)表2中的雙向疾病因果關(guān)系進(jìn)行分析,可以發(fā)現(xiàn)疾病因果關(guān)系的不確定性。如阻塞性睡眠呼吸暫停(Sleep Apnea,Obstructive)是一種常見(jiàn)的睡眠障礙,肥胖癥(Obesity)已被明確是引發(fā)阻塞性睡眠呼吸暫停的主要危險(xiǎn)因素,但對(duì)于阻塞性睡眠呼吸暫停導(dǎo)致肥胖癥的研究成果較少,有待研究人員進(jìn)行更多研究。另外,大量流行病學(xué)文獻(xiàn)已經(jīng)證實(shí),哮喘(Asthma)與肥胖癥(Obesity)互為因果關(guān)系,但兩者之間相互引發(fā)的作用機(jī)制被認(rèn)為尚不夠深入和明確。
本研究主要完成兩部分工作:①評(píng)估、篩選SemRep識(shí)別出的文本語(yǔ)義謂詞,獲取表達(dá)疾病因果關(guān)系準(zhǔn)確率較高的謂詞模式,構(gòu)建疾病因果關(guān)系語(yǔ)義謂詞表,實(shí)現(xiàn)語(yǔ)義謂詞優(yōu)化,提升SemRep自動(dòng)抽取疾病因果關(guān)系的效果。②基于語(yǔ)義謂詞表自動(dòng)抽取疾病因果關(guān)系,發(fā)現(xiàn)生物醫(yī)學(xué)文獻(xiàn)中的疾病因果關(guān)系。研究意義在于從語(yǔ)義層面細(xì)粒度地揭示生物醫(yī)學(xué)文獻(xiàn)中的特定語(yǔ)義關(guān)系,可以提升生物醫(yī)學(xué)研究人員對(duì)大規(guī)模生物醫(yī)學(xué)文獻(xiàn)的利用效率,有助于探索更佳的臨床治療方案和疾病防控機(jī)制。此外,以S-P-O三元組形式提供機(jī)器可理解、可計(jì)算、可推理的結(jié)構(gòu)化疾病因果關(guān)系數(shù)據(jù),有助于促進(jìn)生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)與科學(xué)數(shù)據(jù)在語(yǔ)義層面的有效融合,為進(jìn)一步探索疾病間的潛在因果關(guān)系、提出疾病因果關(guān)系假設(shè),提供良好的數(shù)據(jù)基礎(chǔ),助力疾病“歸因研究”。對(duì)應(yīng)用SemRep自動(dòng)發(fā)現(xiàn)醫(yī)學(xué)實(shí)體間特定語(yǔ)義關(guān)系等相關(guān)研究,本文所使用的方法具有可移植性和適用性。在后續(xù)研究中,將探索、改進(jìn)語(yǔ)義謂詞的優(yōu)化方法和流程,在充分利用現(xiàn)有豐富醫(yī)學(xué)知識(shí)和語(yǔ)義規(guī)則的基礎(chǔ)上,實(shí)現(xiàn)大規(guī)模生物醫(yī)學(xué)文獻(xiàn)中的疾病因果關(guān)系精準(zhǔn)發(fā)現(xiàn)。
[1] BACH J F. Causality in medicine[J]. Comptes Rendus Biologies,2019,342(3/4):55-57.
[2] 徐靜汶,李曉彬,王學(xué)習(xí),等. 疾病因果邏輯關(guān)系的辯證思維[J]. 醫(yī)學(xué)與哲學(xué),2013,34(6):1-3,18.
[3] 李芳,劉勝宇,劉崢. 生物醫(yī)學(xué)語(yǔ)義關(guān)系抽取方法綜述[J]. 圖書(shū)館論壇,2017,37(6):61-69.
[4] RINDFLESCH T C,F(xiàn)ISZMAN M. The interaction of domain knowledge and linguistic structure in natural language processing:interpreting hypernymic propositions in biomedical text[J]. Journal of Biomedical Informatics,2003,36(6):462-477.
[5] 丁云軒,閆雷. 數(shù)據(jù)挖掘軟件SemRepr的評(píng)價(jià)[J]. 中華醫(yī)學(xué)圖書(shū)情報(bào)雜志,2008,17(6):71-75.
[6] 李曉瑛,李軍蓮,李丹亞. 一體化醫(yī)學(xué)語(yǔ)言系統(tǒng)及其在知識(shí)發(fā)現(xiàn)中的應(yīng)用研究[J]. 數(shù)字圖書(shū)館論壇,2019,4(9):24-29.
[7] BAKAL G,TALARI P,KAKANI E V,et al. Exploiting semantic patterns over biomedical knowledge graphs for predicting treatment and causative relations[J]. Journal of Biomedical Informatics,2018,82:189-199.
[8] MORID M A,F(xiàn)ISZMAN M,RAJA K,et al. Classification of clinically useful sentences in clinical evidence resources[J]. Journal of Biomedical Informatics,2016,60:14-22.
[9] ROSEMBLAT G,F(xiàn)ISZMAN M,SHIN D,et al. Towards a characterization of apparent contradictions in the biomedical literature using context analysis[J]. Journal of Biomedical Informatics,2019,98:103275.
[10] 王雪,楊雪梅,李沛鑫,等. 基于語(yǔ)義模型的藥物矛盾知識(shí)發(fā)現(xiàn)[J]. 情報(bào)雜志,2020,39(7):159-165.
[11] AHLERS CB,F(xiàn)ISZMAN M,DEMNER-FUSSHMAN D,et al. Extracting semantic predications from Medline citations for pharmacogenomics[C]//Pacific Symposium on Biocomputing2007. Hackensack:World Scientific,2007:209-220.
[12] HRISTOVSKI D,DINEVSKI D,KASTRIN A,et al. Biomedical question answering using semantic relations[J]. BMC Bioinformatics,2015,16:6.
[13] KILICOGLU H,ROSEMBLAT G,F(xiàn)ISZMAN M,et al. Broad-coverage biomedical relation extraction with SemRep[J]. BMC Bioinformatics,2020,21:188.
[14] KILICOGLU H,SHIN D,F(xiàn)ISZMAN M,et al. SemMedDB:a PubMed-scale repository of biomedical semantic predications[J]. Bioinformatics,2012,28(23):3158-3160.
[15] 王秀艷,崔雷. 應(yīng)用關(guān)鍵動(dòng)詞抽取生物醫(yī)學(xué)實(shí)體間語(yǔ)義關(guān)系研究綜述[J]. 現(xiàn)代圖書(shū)情報(bào)技術(shù),2011(9):21-27.
[16] KILICOGLU H,ROSEMBLAT G,F(xiàn)ISZMAN M,et al. Constructing a semantic predication gold standard from the biomedical literature[J]. BMC Bioinformatics,2011,12:486.
[17] NLM. SemMedDB Database Details[EB/OL].[2022-09-19]. https://lhncbc.nlm.nih.gov/ii/tools/SemRep_SemMedDB_SKR/dbinfo.html.
[18] XU R,LI L,WANG Q. dRiskKB:a large-scale disease-disease risk relationship knowledge base constructed from biomedical text[J]. BMC Bioinformatics,2014,15:105.
Disease Causality Discovery Based on Semantic Predicates Optimization
DONG Peng LI XiaoYing LI JunLian TANG XiaoLi
( Institute of Medical Information/Medical Library, Chinese Academy of Medical Sciences & Peking Union Medical College, Beijing 100005, P. R. China )
Exploring the causality of disease in Pubmed biomedical literature can provide reference for prevention, diagnosis and treatment of disease, further improve relative measure for disease prevention and treatment. This study proposes a disease causality extraction method based on SemRep semantic predicate optimization, constructs a disease causal relationship semantic predicate table containing 50 semantic predicates, automatically extracts 259 434 disease causal relationship pairs, reveals the one-way causal relationship and two-way causal relationship between diseases, and visually presents them with visual graphics. Finally, the feasibility of optimizing semantic predicates to improve the effect of SemRep on disease causal relationship extraction is verified, which can effectively extract disease causal relationship from large-scale biomedical literature, and also provide reference for accurate discovery of semantic relationship in other fields.
Semantic Predicates Optimization; Disease Causality Discovery; SemRep
(2022-10-20)
G203
10.3772/j.issn.1673-2286.2022.11.007
董鵬,李曉瑛,李軍蓮,等. 基于語(yǔ)義謂詞優(yōu)化的疾病因果關(guān)系發(fā)現(xiàn)[J]. 數(shù)字圖書(shū)館論壇,2022(11):19-25.
董鵬,男,1986年生,碩士研究生,館員,研究方向:醫(yī)學(xué)知識(shí)組織與知識(shí)發(fā)現(xiàn)。
李曉瑛,女,1982年生,博士,副研究員,研究方向:醫(yī)學(xué)知識(shí)組織與知識(shí)發(fā)現(xiàn)。
李軍蓮,女,1972年生,博士,研究館員,研究方向:醫(yī)學(xué)知識(shí)組織與信息處理。
唐小利,女,1966年生,碩士,研究館員,通信作者,研究方向:醫(yī)學(xué)信息服務(wù)與情報(bào)分析,E-mail:tang.xiaoli@imicams.ac.cn。
* 本研究得到中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)與健康科技創(chuàng)新工程重大協(xié)同創(chuàng)新項(xiàng)目“生物醫(yī)學(xué)文獻(xiàn)信息保障與集成服務(wù)平臺(tái)”(編號(hào):2021-I2M-1-033)資助。