陳 波,呂 晨,魏小梅
(1.湖北文理學(xué)院 文學(xué)院,湖北 襄陽 441053;2.武漢大學(xué) 計(jì)算機(jī)學(xué)院,湖北 武漢 430072)
生物文本的語義標(biāo)注在生物文本挖掘和信息抽取領(lǐng)域非常重要。它有助于提高自動(dòng)檢索的精度和有效性[1-3]。但是,不含語義信息的資源為進(jìn)一步的實(shí)體識別和關(guān)鍵詞提取帶來了很多難題,而這些信息是醫(yī)生亟需的,比如:基因表觀遺傳學(xué)(Gene Epigenetics)、腫瘤(Oncology)等。
近年來,語義標(biāo)注在生物標(biāo)注領(lǐng)域越來越受到重視[4-6]。面向生物文本挖掘(Biomedical Text Mining),本文提出了一個(gè)新的語義表示模型“遞歸有向圖”。該模型可以很好地描述或推導(dǎo)出生物文本復(fù)雜句型中的生物概念關(guān)系。本文致力于建構(gòu)一個(gè)大規(guī)模的標(biāo)注生物語料庫——“the biomedical token semantic association(bioTSA)”,可以表示出文本中所有詞語(tokens)的語義關(guān)系。該語料庫的語料數(shù)據(jù)來源于BioNLP2009公開評測任務(wù)和BioNLP2013 GE公開評測任務(wù)的訓(xùn)練集。
當(dāng)前依存結(jié)構(gòu)是最流行的分析方法之一,基于依存結(jié)構(gòu)的許多文本分析研究都取得了很大的進(jìn)展[7-8]。其他相關(guān)的標(biāo)注研究,例如Kulick[2]研發(fā)的Framework,集成了樹庫(Treebank)和命題庫(Propbank),包含了句法結(jié)構(gòu)和謂詞論元結(jié)構(gòu);又如Kim[3]研發(fā)的語義標(biāo)注和事件標(biāo)注系統(tǒng)。然而在分析生物文本時(shí)遇到了很多難題,其中有很多特殊句式,例如:后置定語、復(fù)雜名詞短語、動(dòng)補(bǔ)結(jié)構(gòu)等,很難分析出正確的中心詞,這就導(dǎo)致下一步的實(shí)體關(guān)系抽取的錯(cuò)誤傳播。
我們對面向生物文本的分析提出了一個(gè)新的方法——“遞歸有向圖”。在前期的工作中,我們已經(jīng)耗費(fèi)了三年時(shí)間建構(gòu)了一個(gè)基于特征結(jié)構(gòu)的三萬句規(guī)模的中文句子級語義標(biāo)注語料庫[9],它大大豐富了中文語義資源。本文嘗試運(yùn)用遞歸有向圖來進(jìn)行英文的生物文本的語義標(biāo)注。本文中,我們選取后置定語作為研究對象。第一部分討論了我們提出的標(biāo)注方法;第二部分對生物文本中的后置定語句進(jìn)行了標(biāo)注;第三部分總結(jié)了整個(gè)標(biāo)注研究,包括標(biāo)注數(shù)據(jù)、標(biāo)注的一致性問題等;第四部分是結(jié)論。
特征結(jié)構(gòu)并非一個(gè)新的術(shù)語,在很多領(lǐng)域都常見,比如生成語音學(xué)[10]、生成短語結(jié)構(gòu)語法[11]、詞匯功能語法[12]等。我們借用特征結(jié)構(gòu)的術(shù)語來提出一個(gè)新的模型,它可以形式化為遞歸有向圖。我們關(guān)注于更好的語義關(guān)系的描述,運(yùn)用該方法針對生物文本可以更完整地表示語義關(guān)系。
一個(gè)短語或者句子可以表示為若干個(gè)特征結(jié)構(gòu)的集合。一個(gè)特征結(jié)構(gòu)可表示成一個(gè)由實(shí)體(Entity)、特征(Feature)和特征值(Value)組成的三元組(Triple)的集合:[實(shí)體,特征,特征值]。遞歸有向圖詳見圖1。
一個(gè)特征三元組(feature structure triple)形式上可以表示為兩個(gè)“節(jié)點(diǎn)”(node)和連接它們的一條“邊”(edge)。實(shí)體或特征值表示為兩個(gè)“節(jié)點(diǎn)”,特征表示為兩個(gè)“節(jié)點(diǎn)”之間的“邊”。這樣,一個(gè)特征結(jié)構(gòu)三元組可看成是一個(gè)“圖”(graph),兩個(gè)節(jié)點(diǎn)之間的方向是從特征值指向?qū)嶓w,因此表現(xiàn)為一個(gè)“有向圖”(directed graph)。一個(gè)特征三元組反映一對語義關(guān)聯(lián),實(shí)體作為中心詞(the head),特征值依存于實(shí)體[13]。由于特征結(jié)構(gòu)允許嵌套和多重關(guān)聯(lián),因此可表示為“有向的遞歸圖”(recursive directed graph)。根據(jù)前期的研究[9,13],它更適用于復(fù)雜語義關(guān)系的抽取。
(1)gene expression①加粗并加下劃線的詞語為中心詞,僅加粗的詞語為文章討論的詞語,下同。from the HTLV-I LTR
圖1 特征結(jié)構(gòu):遞歸有向圖
圖2 例1特征結(jié)構(gòu)圖
例1是帶有介詞短語的復(fù)雜名詞短語,在生物文本中該類結(jié)構(gòu)很常見。該例中,實(shí)體是“gene expression”,特征是“from”,特征值是“the HTLV-I LTR”。例1由三個(gè)特征三元組構(gòu)成,圖2是例1的特征結(jié)構(gòu)圖。
Triple1-1:[expression, ,gene];
Triple1-2:[expression,from,the HTLV - I LTR];
Triple1-3:[HTLV -I LTR, ,the].
(2)Regulation of T1expression during induction of monocytic differentiation by okadaic acid
例2是一篇生物論文的標(biāo)題,由連續(xù)的8個(gè)名詞構(gòu)成的復(fù)雜名詞短語,這個(gè)句型比例1更加復(fù)雜,其中,很多語義關(guān)系是相互關(guān)聯(lián)、交錯(cuò)復(fù)雜的。例2由6個(gè)特征三元組構(gòu)成:
Triple2-1:[regulation,during,induction];
Triple2-2:[regulation,of,expression];
Triple2-3:[induction,of,differentiation];
Triple2-4:[differentiation,by,okadaic acid];
Triple2-5:[expression, ,T1];
Triple2-6:[differentiation,,monocytic].
在 Triple2-2中,“expression”是實(shí)體“regulation”的特征值,同時(shí),在 Triple2-5中,“expression”是實(shí)體,它的特征值是“T1”。單詞“differentiation”也是同樣的情況,在Triple2-3中充當(dāng)特征值,在Triple2-4中充當(dāng)實(shí)體。因此,在特征結(jié)構(gòu)模型中,一個(gè)節(jié)點(diǎn)可以是多重語義關(guān)系的節(jié)點(diǎn)。圖3是例2的特征結(jié)構(gòu)圖。
圖3 例2特征結(jié)構(gòu)圖
跟形容詞相似,后置定語的功能是修飾和描寫名詞或名詞短語[14],后置定語的用法是復(fù)雜多變的。在生物文本中后置定語句型非常常見。從句法來說,它大致可分為三種類型:1、小句充當(dāng)后置定語,例如:who,whom,which,whose等等;2、短語充當(dāng)后置定語,例如:不定式短語、現(xiàn)在分詞短語、過去分詞短語、形容詞短語、介詞短語等等;3、單個(gè)詞充當(dāng)后置定語。在三種類型中,現(xiàn)在分詞短語、過去分詞短語和介詞短語充當(dāng)后置定語的情況會(huì)為自動(dòng)分詞帶來很多難題。特別是很難確定后置定語修飾的到底是哪一個(gè)中心詞,這會(huì)導(dǎo)致下一步的實(shí)體關(guān)系的抽取。我們標(biāo)注了113篇生物文本,包含906個(gè)句子,其中有82個(gè)后置定語句,比例占9%。例3至例5是標(biāo)注生物文本數(shù)據(jù)中典型的后置定語例句:
(3)T10 mRNA levels were superinduced in cellstreated with both okadaic acid and cycloheximide,whereas inhibition of protein synthesis had little,if any,effect on okadaic acid -induced T11 transcription.
例3中,后置定語是過去分詞短語“treated with both okadaic acid and cycloheximide”,它修飾的中心詞“cell”,兩者的語義關(guān)系是“受事——謂語”。例3中的后置定語可以描述為3個(gè)特征結(jié)構(gòu)三元組,圖4是例3的特征結(jié)構(gòu)圖。
Triple3-1:[treated, ,cells];
Triple3-2:[treated,with,okadaic acid];
Triple3-3:[treated,with,cycloheximide].
(4)Suppression of signals required for activation of transcription factor NF-kappa B in cellsconstitutively expressing the HTLV -I Tax protein.
圖4 例3特征結(jié)構(gòu)圖
例4中,后置定語由現(xiàn)在分詞短語“constitutively expressing the HTLV-I Tax protein”充當(dāng),但是它的中心詞不能確定,有3個(gè)名詞可能是中心詞:“activation”,或“transcription factor”,或“cells”。如果僅僅考慮距離,應(yīng)該是“cells”;但是根據(jù)語義關(guān)系,“transcription factor”應(yīng)該是正確的中心詞。例4中的后置定語可以描述為6個(gè)特征結(jié)構(gòu)三元組,圖5是例4的特征結(jié)構(gòu)圖。
Triple4-1:[expressing, ,the HTLV -I Tax protein];
Triple4-2:[expressing, ,constitutively];
Triple4-3:[expressing, ,transcription factor];
Triple4-4:[transcription factor, ,NF -kappa B];
Triple4-5:[transcription factor,in,cells];
Triple4-6:[activation,of,transcription factor].
圖5 例4特征結(jié)構(gòu)圖
(5)In contrast,in a number of multiple myeloma cell lines,representing differentiated,plasma cell- like B cells,PU.1DNA binding activity,mRNA expression,and Pu box-dependent transactivation were absent or detectable at a very low level.
例5中,很難確定充當(dāng)后置定語的動(dòng)詞“binding”的賓語是哪個(gè)單詞,有可能是單詞“activity”,或者“activity,mRNA expression”,或者“activity,mRNA expression,and Pu box-dependent transactivation”。根據(jù)語義關(guān)系,“binding”的主語是“DNA”,因此它的賓語應(yīng)該是“activity”。例5中的后置定語可以描述為3個(gè)特征結(jié)構(gòu)三元組,圖6是例5的特征結(jié)構(gòu)圖。
Triple5-1:[DNA, ,PU.1];
Triple5-2:[binding, ,DNA];
Triple5-3:[binding, ,activity].
圖6 例5特征結(jié)構(gòu)圖
后置定語比其他句型更容易導(dǎo)致錯(cuò)誤。我們僅僅標(biāo)注了82個(gè)后置定語句并總結(jié)了主要的三種情況。運(yùn)用特征結(jié)構(gòu)模型可以解決這個(gè)難題,并且可以表示生物文本中更多的語義信息。
我們從BioNLP’09公開評測任務(wù)中選擇了113篇生物語料,11篇摘要,從BioNLP2013 GE評測任務(wù)中選擇了102篇文本。我們建構(gòu)了一個(gè)包含906句的小規(guī)模生物語義標(biāo)注資源,關(guān)注的是句子中語義關(guān)系的標(biāo)注。
標(biāo)注人員小組包括20名博士和碩士,分別來自語言學(xué)、生物信息和計(jì)算機(jī)專業(yè)。標(biāo)注培訓(xùn)包括標(biāo)注方法、標(biāo)注的一致性、標(biāo)注平臺的使用和標(biāo)注語例。標(biāo)注者獨(dú)立工作,因?yàn)樘卣鹘Y(jié)構(gòu)的標(biāo)注僅需要確定語義關(guān)系,標(biāo)注的一致性達(dá)到95%,這個(gè)結(jié)果是比較好的。每周我們會(huì)交叉檢查該階段的標(biāo)注結(jié)果以避免人為錯(cuò)誤。
我們提出的特征結(jié)構(gòu)模型可以形式化為表示語義關(guān)系的“可遞歸的有向圖”。它是一個(gè)成功的嘗試用于生物的文本。下一步的工作,我們將擴(kuò)大生物語料庫。與其他方法相比,特征結(jié)構(gòu)更適合于抽取生物文本中的服裝語義關(guān)系,可以描述更多的語義關(guān)系,并允許多重語義關(guān)聯(lián)。標(biāo)注結(jié)構(gòu)表明,特征結(jié)構(gòu)的標(biāo)注更有效,精度也更高。應(yīng)用方面,我們的研究對生物文本挖掘有一定的意義,研究結(jié)果可以用于自動(dòng)問答、關(guān)系抽取等領(lǐng)域。
[1] PYYSALO S,GINTER F,HEIMONEN J,et al.BioInfer:A corpus for information extraction in the biomedical domain[J].BMC Bioinformatics,2007,8(1):50-73.
[2] KULICK S,BIES A,LIBERMAN M,et al.Integrated annotation for biomedical information extraction[C]//Proc of the Human Language Technology Conference and the Annual Meeting of the North American Chapter of the Association for Computational Linguistics(HLT/NAACL).Boston:Association for Computational Linguistics,2004:61 -68.
[3] KIM J D,OHTA T,TSUJII J.Corpus annotation for mining biomedical events from literature[J].BMC Bioinformatics,2008,9(1):10 -34.
[4] YAKUSHIJI A,MIYAO Y,TATEISI Y,et al.Biomedical infor-mation extraction with predicate-argument structure pat-terns[C]//Proceedings of the first International Symposium on Semantic Mining in Biomedicine(SMBM),Hinxton,Cambridgeshire,UK,April.2005.
[5] SPASIC I,ANANIADOU S,MCNAUGHT J,et al.Text mining and ontologies in biomedicine:making sense of raw text[J].Briefings in bioinformatics,2005,6(3):239 -251.
[6] COHEN A M,HERSH W R.A survey of current work in bio-medical text mining[J].Briefings in bioinformatics,2005,6(1):57-71.
[7] ZHANG Y,NIVRE J.Transition-based dependency parsing with rich non-local features[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies:short papers-Volume 2.Boston:Association for Computational Linguistics,2011:188 -193.
[8] MELUK I.Dependency Syntax:Theory and Practice[M].Herndon:SUNY Press,1988.
[9] CHEN B,WU H M,LV C,et al.Semantic labeling of Chinese serial verb sentences based on feature structure[J].Lecture Notes in Computer Science,2013,8229(1):784 -790.
[10] KENSTOWICZ M,KISSEBERTH C.Generative Phonology[M].New York:Academic Press,1979.
[11] GAZDAR G.Generalized Phrase Structure Grammar[M].Cambridge:Harvard University Press,1985.
[12] DALRYMPLE M.Lexical Functional Grammar[M].New York:Academic Press,2001.
[13] CHEN B,JI D,LV C.Building a Chinese semantic resource based on feature structure[J].International Journal of Computer Processing of Languages,2012,24(1):95 -101.
[14] LU J,LU K.Research on syntactic characteristics of computer English and its English to Chinese translation Strategy[C]//Proc of 2013 Fifth International Conference on the Computational and Information Sciences(ICCIS).Los Alamitos:IEEE Computer Society,2013:1867-1870.