国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語義關系的疾病知識提取系統(tǒng)

2015-06-27 08:26:03吳曉芳楊志豪林鴻飛
計算機工程 2015年1期
關鍵詞:謂詞生物醫(yī)學語義

吳曉芳,楊志豪,林鴻飛,王 健

(大連理工大學計算機科學與技術學院,遼寧大連116024)

基于語義關系的疾病知識提取系統(tǒng)

吳曉芳,楊志豪,林鴻飛,王 健

(大連理工大學計算機科學與技術學院,遼寧大連116024)

在生物醫(yī)學領域,通過知識提取過程從海量的生物醫(yī)學文獻中提取疾病、基因和藥物之間的關系并可視化顯示,可以為臨床醫(yī)學實驗提供有效的假設檢驗,推動生物醫(yī)學科技的發(fā)展。為此,提出一種基于語義關系的以疾病為中心的疾病、基因和藥物間的知識提取系統(tǒng)。利用SemRep得到特定主題Medline文獻的語義輸出,通過顯著信息提取算法提取SemRep的語義輸出關系。對照OMIM和GHR在線數(shù)據(jù)庫進行評估,實驗結果顯示該顯著信息提取系統(tǒng)的準確率可達0.76。

知識提取;語義關系提取;顯著信息提取算法;SemRep工具;語義輸出;網(wǎng)絡圖可視化

1 概述

生物醫(yī)學文獻持續(xù)不斷的增長給傳統(tǒng)的信息檢索技術帶來極大的挑戰(zhàn)。有效的醫(yī)學文獻檢索,尤其是從海量的生物醫(yī)學文獻中發(fā)現(xiàn)顯著的疾病、基因、藥物之間的關聯(lián)信息對生物醫(yī)學工作者在臨床試驗和病患診療方面有極大的幫助。傳統(tǒng)的人工閱讀大量文獻費時費力且效果甚微,在如今的數(shù)字化信息時代已經(jīng)不再適用。雖然早先的信息檢索技術已經(jīng)應用到生物醫(yī)學領域的知識提取,但是信息檢索算法的有效性并沒有得到很好的評估[1]。文獻[2]從Medline中抽取有用的關系,簡潔地概括出原始文獻的主要信息。文獻[3]提出了一個自動從文獻集中提取摘要的算法Combo,該算法提取了與某一特定疾病相關的基因。文獻[4]在之前實驗基礎上又提出了一個用于決策支持的文本摘要生成方法。為了跟蹤最新的醫(yī)學研究領域的工作進展,生物醫(yī)學文獻的高效檢索,有效關系的提取和展示對臨床決策支持[5]來說尤為重要。自動摘要方法[6]在信息提取中有較好的效果,但是自動摘要最終形成的依然是文本形式,不夠直觀。因此,需要有效基于語義關系抽取的算法來從大量的生物醫(yī)學文獻中提取出重要的實體關聯(lián)信息,并用可視化的方法將該關聯(lián)信息呈現(xiàn)給醫(yī)學工作者。

與以往研究不同,本文提出一個基于語義關系的以疾病為中心的疾病、基因和藥物間的知識提取系統(tǒng)。該系統(tǒng)利用從Medline生物醫(yī)學數(shù)據(jù)庫檢索到的相關疾病的語料集,運用SemRep工具處理得到相關疾病語料集的語義輸出。通過顯著信息提取算法篩選出以疾病為中心的疾病、基因和藥物三者之間重要的關聯(lián)信息,并以網(wǎng)絡關系圖的形式呈現(xiàn)給生物醫(yī)學工作者。

2 系統(tǒng)方法

2.1 系統(tǒng)流程

系統(tǒng)流程如圖1所示。

圖1 系統(tǒng)流程

對于特定的疾病,從PubMed上檢索到2003年-2013年與疾病相關的文獻集。針對疾病和基因、疾病和藥物給出不同的檢索語句,檢索得到相應的文獻集。

通過SemRep工具處理文獻集得到相應的語義輸出。SemRep能夠從Medline語料的句子中抽取出2個實體之間的關聯(lián)關系。如果一個句子中存在多個實體詞和關系連接詞,那么SemRep通過算法給每個關系打分,取分數(shù)最高的連接關系作為語義輸出。

用KL散度、RlogF矩陣顯著信息評價算法分別對謂詞關系、謂詞關系連接的實體語義類型進行篩選,利用PredScal平衡前2種算法間的數(shù)值差,綜合3種算法共同完成對疾病和基因、疾病和藥物顯著信息的提取。

最后將提取得到的以疾病為中心的顯著信息網(wǎng)絡圖可視化,在系統(tǒng)界面中呈現(xiàn)給用戶。

2.2 文獻語料處理工具SemRep

SemRep[7]是一個基于規(guī)則自動從文獻中識別關系預測的自然語言處理系統(tǒng)。SemRep集成了MetaMap規(guī)范化的概念實體,并通過謂詞關系將不同的實體概念連接起來。此外,SemRep為每個實體詞定義了相關的語義類型,方便特征選取和語義類型過濾。SemRep提取的關系是根據(jù)UMLS的規(guī)則進行輸出的,其原始結果中包含有很多條目,主要用到其中的實體名、語義類型和謂詞關系部分。

例如,對于句子:

Expression levels of CBX7 inversely correlate with the progression of tumor stage and grade in urothelial carcinomas of the bladder,suggesting that downregulation of CBX7 indicates aggressive urothelial carcinoma phenotype.

SemRep可以得到如下的語義輸出:

SE|18984978|RESULTS|ab|5|relation|5|1||| gngm,aapp|gngm|23492|CBX7|CBX7||||1000|53 |56|VERB|PART_OF||71|79|2|1|C0007138| Carcinoma,Transitional Cell|neop|neop|||urothelial carcinomas||||981|84|104

這里主要關注的是關聯(lián)信息[8]:

CBX7|gngm|PART_OF|urothelial carcinomas| neop

CBX7是一種參與調控細胞增殖衰老的轉錄抑制因子。從得到的輸出可以看出,CBX7轉錄抑制因子是癌細胞病變因子的組成部分。

關聯(lián)信息是一個三元組(概念1|語義類型, Predication,概念2|語義類型)[9],概念1和概念2是UMLS的超級敘詞表中定義的概念,每個概念包含該概念的標準化表示、概念標示符(Concept Unique Identifier,CUI)和語義類型。UMLS的語義網(wǎng)絡中共定義了54中謂詞關系(PART_OF是其中之一)。利用SemRep可以從一個句子中得到出一個或多個語義輸出,通過一定的算法,對得到的語義輸出進行打分,選取得分高的語義輸出作為該句的關聯(lián)信息。從文獻中所有的句子里抽取出關聯(lián)信息集,進一步運用顯著信息提取算法進行篩選。

2.3 實驗數(shù)據(jù)

以膀胱癌(Carcinoma of bladder)為例,介紹實驗中用到的數(shù)據(jù)集以及顯著信息提取算法的實現(xiàn)。

(1)與Carcinoma of bladder相關的基因方面的文獻集A

(“2003/01/01”[Publication Date]:“2013/07/31”[Publication Date])AND(Urinary Bladder Neoplasms/ genetics[majr] AND Urinary Bladder Neoplasms/ etiology[majr])AND English[la]AND humans[mh]

(2)與Carcinoma of bladder相關的藥物方面的文獻集B

(“2003/01/01”[Publication Date]:“2013/07/31”[Publication Date])AND Urinary Bladder Neoplasms [mh noexp]AND drug therapy[sh]AND Clinical Trial [pt]AND English[Lang]AND humans[mh]

這2組查詢語句檢索了從2003年-2013年的Medline文獻。與基因相關的文獻集A設定了基因和膀胱病因學等限制詞,檢索得到與膀胱癌相關的基因類的文獻。與藥物相關的文獻集B設定了藥物、臨床治療和膀胱病因學等限制詞,檢索得到與膀胱癌相關的藥物類文獻。通過上面2組查詢語句,從PubMed上下載對應的Medline文獻集。

2.4 顯著信息評價算法

為了實現(xiàn)有用信息的提取,本文實驗中使用了3種顯著信息提取算法,自動地從SemRep的輸出結果中篩選出查詢的疾病與基因、藥物之間的關聯(lián)關系,排除掉繁多的相關性弱的關系。這3種顯著信息提取算法介紹如下:

(1)KL散度

KL散度[10],又叫相對熵,在信息論中用于衡量2個概率分布的相對距離。在這里對關系謂詞在疾病數(shù)據(jù)集A中的概率P和關系謂詞在所有數(shù)據(jù)集B中的概率Q作為要衡量的2個概率。相對距離大的關系謂詞表示在該疾病數(shù)據(jù)集中有比較突出的作用,從而通過得到的KLD(Kullback-Leibler Divergence)得分值對關系謂詞進行排名,得到關系謂詞的篩選結果。

其中,x代表一個關系謂詞;P(x)代表關系謂詞x在分布P中的概率;Q(x)代表關系謂詞x在分布Q中的概率。例如,關系謂詞ASSOCIATED_WITH在分布P中的概率為0.290,在分布Q中的概率為0.076,那么關系謂詞ASSOCIATED_WITH的KLD值為0.560 3。

KLD算法中分布Q的統(tǒng)計數(shù)據(jù)選取了2003年1月1日-2013年7月31日之間所有的Medline文獻集。

(2)RlogF

RlogF矩陣[11]旨在得到SemRep輸出中同一個關系謂詞相關度較高的語義類型,用函數(shù)R表示。關系謂詞在做統(tǒng)計的時候受限于它在SemRep中的語義類型。

把檢索詞Carcinoma of bladder的語義類型neop作為種子語義類型。因為數(shù)據(jù)集是跟Carcinoma of bladder直接相關的,所以得到的語義類型中定有很多的neop,排除掉該語義類型的影響,從而能更好地篩選出與該語義類型相關聯(lián)的非種子語義類型。

其中,條件概率(P(relevant|patterni))是在語料A中出現(xiàn)的與關系謂詞直接相關的實體的語義類型的個數(shù)(包含重復的部分)與所有出現(xiàn)的語義類型個數(shù)的比例。

例如,如果與關系謂詞ASSOCIATED_WITH共現(xiàn)的非種子語義類型 gngm在文獻集 A中出現(xiàn)107次,所有與關系謂詞ASSOCIATED_WITH共現(xiàn)的非種子語義類型共有171個(包含重復的部分),那么關系謂詞ASSOCIATED_WITH的RlogF值為4.22。

(3)PredScal

RlogF算法得到的值會遠遠超過KLD算法得到的值,在衡量一個關系的時候,RlogF的結果占很大的比例。為了共同引用2種算法的思想,引入一個尺度函數(shù)p作為平衡因子來調整2個函數(shù)在同一數(shù)據(jù)集中的計算結果。

在這個計算中,c代表不同的關系謂詞個數(shù)。例如,如果數(shù)據(jù)集中有16個不同的關系謂詞,那么PredScal的平衡因子值0.25。

以上3種算法結合起來共同完成對SemRep的輸出結果的信息提取,用Summa算法來表示每個謂詞關系的分值,運算結果表示為summa。

對于SemRep輸出中的每一個關系,將謂詞和語義類型分別通過算法KLD和RlogF篩選出來,通過算法PredScal來矯正2個結果數(shù)值間的成倍差距。這樣每個關系都有一個Summa值來作為它們的顯著程度的量化。

3 實驗與評價

實驗中基因部分的信息提取共得到與疾病Carcinoma of bladder相關的基因54個。參照Online Mendelian Inheritance in Man(OMIM)和 Genetics Home Reference(GHR)中的基因文獻記錄進行標注,在得到的54個基因中有41個與疾病Carcinoma of bladder在OMIM和GHR里有關聯(lián)關系。由此計算得出,實驗提取結果的準確率為0.76。而SemRep語料中抽取的實體之間的關系準確率為0.73,召回率為0.55,綜合分類率F值為0.63[12],本文顯著信息提取算法的準確率有所提升。

3.1 疾病與基因的關系

運用KLD算法得到了與Carcinoma of bladder相關的關系謂詞,通過對關系謂詞排序篩選出前5個得分最高的實驗結果,見表1。從表1可以看出關系謂詞ASSOCIATED_WITH得分最高,這說明在疾病Carcinoma of bladder與基因的關系中,它們之間的相互作用關系,由ASSOCIATED_WITH關系詞所連接的關系尤其重要。生物醫(yī)學工作者可以從這個關系中尋找到與該疾病相關的基因,從而更有效地找到治療該疾病的基因方法。

表1 KLD算法得到的前5個關系謂詞(與基因相關)

運用RlogF算法得到了與Carcinoma of bladder相關的謂詞以及語義類型之間的關系排名,篩選出前5個得分最高的實驗結果,見表2。從表2可以看出語義類型gngm與關系謂詞ASSOCIATED_WITH得分最高,這說明在疾病Carcinoma of bladder與基因之間的相互作用關系中,由謂詞ASSOCIATED_ WITH所連接的實體類型為gngm的關系最為突出。語義類型gngm是Gene or Genome的縮寫,代表基因類。從結果中可以看出,運用顯著信息提取算法有效地篩選出了跟疾病相關的基因。

表2 RlogF算法得到的數(shù)據(jù)(與基因相關)

以上2種算法,用PredScal算法做權衡后,得到疾病與基因相關的Summa的排名結果,見表3。

表3 Summa信息提取的前5個結果(與基因相關)

3.2 疾病與藥物的關系

運用KLD算法得到了與Carcinoma of bladder相關的謂詞,通過對關系謂詞排序篩選出前5個得分最高的實驗結果,見表4。從表中4可以看出關系謂詞TREATS得分最高,這說明在疾病Carcinoma of bladder與藥物之間的相互作用中,由謂詞TREATS所連接的關系尤其重要,通過KLD算法有效地找到了治療疾病的相關藥物。

表4 KLD算法得到的前5個關系謂詞(與藥物相關)

運用RlogF算法得到了與Carcinoma of bladder相關的謂詞以及語義類型之間的關系排名,篩選出前5個得分最高的實驗結果,如表5所示。從表5中可以看出語義類型phsu與關系謂詞TREATS得分最高。這說明,在疾病與基因之間的相互作用關系中,由謂詞TREATS所連接的實體類型為phsu的關系最為突出。語義類型 phsu是 Pharmacologic Substance的縮寫,代表藥物學物質。結果表明,顯著信息提取算法有效地篩選出了能治療疾病Carcinoma of bladder的藥物。

表5 RlogF算法得到的數(shù)據(jù)(與藥物相關)

以上2種算法,用PredScal算法做權衡后,得到疾病與藥物相關的 Summa的排名結果,如表6所示。

表6 Summa信息提取的前5個結果(與藥物相關)

3.3 基因與藥物的關系

通過 Summa算法得到了疾病 Carcinoma of bladder分別與基因、藥物的相關關系實體集合。對得到的基因和疾病詞對依次在SemRep數(shù)據(jù)庫中進行檢索,得到了基因和藥物之間的關聯(lián)關系。表7為選取的部分相關的基因和藥物。

表7 部分基因和藥物的關聯(lián)關系

4 系統(tǒng)描述

4.1 JUNG工具包

系統(tǒng)可視化用到的 JUNG[13](Java Universal Network/Graph framework)是一個Java開源項目,其目的在于為開發(fā)關于圖或網(wǎng)絡結構的應用程序提供一個易用、通用的基礎架構。在系統(tǒng)實現(xiàn)過程中,使用JUNG功能調用,可以方便地構造圖或網(wǎng)絡的數(shù)據(jù)結構。應用經(jīng)典算法如聚類、最短路徑、最大流量等,編寫和測試用戶自己的算法,以及可視化的顯示數(shù)據(jù)的網(wǎng)絡圖。

4.2 系統(tǒng)界面

圖2中的網(wǎng)絡圖是以疾病Carcinoma of bladder為中心的疾病和基因、藥物的關聯(lián)信息。

淺色的結點表示的是跟疾病相關的基因,深色的結點表示的是跟疾病相關的藥物。同時,部分基因和藥物的關聯(lián)關系也在圖中展示出。

圖2 系統(tǒng)初始化顯示及結點詳細信息顯示

對于整個網(wǎng)絡圖,編輯欄可以選擇整體移動(TRANSFORMING)和部分選取(PICKING)功能。在選擇(PICKING)功能,選擇圖中的任何一個結點,在底部面板的Details display欄顯示該結點的詳細信息,包括實體所在的PubMed文檔號和包含該實體的句子。在Search node搜索框,輸入一個疾病,便可手動檢索疾病,并將該結點移至面板中心,在底部顯示該結點的詳細信息。左邊的復選框用于單獨顯示某個模塊、關系的單獨子圖。例如,選擇Gene模塊中的ASSOCIATED_WITH就可以單獨顯示與疾病相關的基因,這些基因跟疾病之間的謂詞關系為ASSOCIATED_WITH。單個關系的子圖可以更方便用戶找到與疾病有顯著關系的基因和藥物,有針對性地對得到的關系進行分析,提高生物醫(yī)學工作者的查詢效率。

5 結束語

信息提取在生物醫(yī)學領域發(fā)展迅速,信息時代的科技發(fā)展需要高效的工具作為輔助。本文在提出信息提取算法的基礎上,以疾病為中心,將疾病、基因和藥物三者信息集成在可視化系統(tǒng)中。該系統(tǒng)有利于醫(yī)學工作者快速了解跟疾病相關的基因信息,并能根據(jù)得到的藥物信息對病情進行有效的分析和診斷。在算法方面,結果的準確率還有欠缺,下一步將研究改進方向并應用到信息提取中,完善系統(tǒng)功能。

[1] Hersh W R,Hickam D H.How Well Do Physicians Use Electronic Information Retrieval Systems?[J].The Journal of the American Medical Association,1998, 280(15):1347-1352.

[2] Kilicoglu H,Fiszman M,Rodriguez A,et al.Semantic MEDLINE:A WebApplicationforManagingthe Results of Pub Med Searches[C]//Proceedings of the 3rd International Symposium for Semantic Mining in Biomedicine.[S.l.]:IEEE Press,2008:69-76.

[3] Workman T E,Hurdle J F.Dynamic Summarization of Bibliographic-based Data[J].BMC Medical Informatics and Decision Making,2011,11(1).

[4] Workman T E,Fiszman M,Hurdle J F.Text Summarization as a Decision Support Aid[J].BMC Medical Informatics and Decision Making,2012,12(1).

[5] Fraser C,Murray A,Burr J.Identifying Observational Studies of Surgical Interventions in Medline and Embase[J].BMC Medical Research Methodology,2006,6(1).

[6] 廖 濤,劉宗田,王 利.多主題文本摘要抽取的研究與實現(xiàn)[J].計算機工程,2011,37(6):21-23.

[7] Rindflesch T C,Fiszman M,Libbus B.Semantic Interpretation for the Biomedical Research Lite-rature[M].[S.l.]: Springer,2005.

[8] Fiszman M,Rindflesch T C,Kilicoglu H.Abstraction Summarization for Managing the Biomedical Research Literature[C]//Proceedings of Workshop on Computational Lexical Semantics.[S.l.]:Springer,2004:76-83.

[9] 商 玥,林鴻飛,楊志豪.利用語義關系抽取生成生物醫(yī)學文摘的算法[J].計算機科學與探索,2011, 5(11):1027-1036.

[10] Kullback S,Leibler R A.On Information and Sufficiency[J].The Annals of Mathematical Statistics, 1951,22(1):79-86.

[11] Riloff E.Automatically Generating Extraction Patterns from Untagged Text[C]//Proceedings of National Conference on Artificial Intelligence.[S.l.]:Springer, 1996:1044-1049.

[12] Ahlers C B,Fiszman M,Demner F D,et al.Extracting Semantic Predications from Medline Citations for Pharmacogenomics[C]//Proceedings of Pacific Symposium on Biocomputing.[S.l.]:Springer,2006:209-210.

[13] O’Madadhain J,Fisher D,White S,et al.The Jung(Java Universal Network/Graph)Framework[D].Irvine, USA:University of California,2003.

編輯 顧逸斐

Disease Knowledge Extraction System Based on Semantic Relation

WU Xiaofang,YANG Zhihao,LIN Hongfei,WANG Jian
(School of Computer Science and Technology,Dalian University of Technology,Dalian 116024,China)

In the biomedical field,knowledge summarization can greatly promote the innovation of biomedical science and technology.Dynamic summarization can provide novel clinical experimental hypothesis by extracting the links among diseases,genes,drugs from the mass of biomedical literature and visualizing it.This paper presents a system which summarizes the salient relations by the salient extraction algorithm using the specific subject Medline corpus by SemRep semantic output.Experimental results show that the precise of experimental result is 0.76 referring to OMIM and GHR online databases.

knowledge extraction;semantic relation extraction;significant information extraction algorithm;SemRep tool;semantic output;network diagram visualization

1000-3428(2015)01-0284-05

A

TP311

10.3969/j.issn.1000-3428.2015.01.054

國家自然科學基金資助項目(61070098,61272373,61340020);中央高?;究蒲袠I(yè)務費專項基金資助項目(DUT13JB09);國家社會科學基金資助項目(08BTQ025)。

吳曉芳(1989-),女,碩士研究生,主研方向:知識發(fā)現(xiàn),文本挖掘;楊志豪,副教授、博士、博士生導師;林鴻飛,教授、博士、博士生導師;王 健,副教授。

2013-12-30

2014-03-14 E-mail:xfwu@mail.dlut.edu.cn

中文引用格式:吳曉芳,楊志豪,林鴻飛,等.基于語義關系的疾病知識提取系統(tǒng)[J].計算機工程,2015,41(1): 284-288.

英文引用格式:Wu Xiaofang,Yang Zhihao,Lin Hongfei,et al.Disease Knowledge Extraction System Based on Semantic Relation[J].Computer Engineering,2015,41(1):284-288.

猜你喜歡
謂詞生物醫(yī)學語義
芻議“生物醫(yī)學作為文化”的研究進路——兼論《作為文化的生物醫(yī)學》
科學與社會(2022年4期)2023-01-17 01:20:04
靈長類生物醫(yī)學前沿探索中的倫理思考
科學與社會(2021年4期)2022-01-19 03:29:50
被遮蔽的邏輯謂詞
——論胡好對邏輯謂詞的誤讀
黨項語謂詞前綴的分裂式
西夏研究(2020年2期)2020-06-01 05:19:12
語言與語義
國外生物醫(yī)學文獻獲取的技術工具:述評與啟示
圖書館建設(2018年5期)2018-07-10 09:46:44
LED光源在生物醫(yī)學中的應用分析
“上”與“下”語義的不對稱性及其認知闡釋
也談“語言是存在的家”——從語言的主詞與謂詞看存在的殊相與共相
外語學刊(2016年4期)2016-01-23 02:33:55
認知范疇模糊與語義模糊
阳曲县| 赣榆县| 宣威市| 盈江县| 普兰店市| 泽普县| 兴国县| 彭阳县| 兰考县| 平乡县| 泰和县| 皋兰县| 阿拉善左旗| 马山县| 武鸣县| 尼木县| 扶余县| 清原| 什邡市| 百色市| 辉县市| 桐柏县| 齐齐哈尔市| 顺昌县| 道真| 嘉祥县| 玉树县| 兴山县| 涞水县| 简阳市| 武乡县| 汉川市| 盐津县| 黔南| 新乡市| 涿鹿县| 渑池县| 开江县| 江川县| 虞城县| 修武县|