古凌嵐,孫素云
(廣東輕工職業(yè)技術(shù)學(xué)院 計(jì)算機(jī)工程系,廣東 廣州510300)
近年來(lái),本體的應(yīng)用越來(lái)越廣泛,如語(yǔ)義網(wǎng)、搜索引擎、知識(shí)工程、信息提取等領(lǐng)域,而本體的構(gòu)建是本體應(yīng)用的基礎(chǔ)和關(guān)鍵,盡管目前已有許多本體構(gòu)建工具,能夠提供本體建立和校驗(yàn)等功能,但完全依靠人工進(jìn)行本體領(lǐng)域知識(shí)的獲取 (包括搜集領(lǐng)域概念、定義概念間關(guān)系),不僅費(fèi)時(shí)費(fèi)力,而且無(wú)法保持本體的更新。因此,本體學(xué)習(xí)技術(shù)應(yīng)運(yùn)而生。
本體學(xué)習(xí)是指利用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)等技術(shù)自動(dòng)或半自動(dòng)地從已有的數(shù)據(jù)資源中獲取期望的本體[1]。由文獻(xiàn) [1]可知,本體學(xué)習(xí)主要任務(wù)是定義概念和概念關(guān)系 (分類關(guān)系和非分類關(guān)系),而概念關(guān)系學(xué)習(xí)為高層任務(wù),其中分類關(guān)系體現(xiàn)了兩個(gè)概念之間的包含關(guān)系 (上下位關(guān)系),非分類關(guān)系則是除上下位以外的關(guān)系。非分類關(guān)系學(xué)習(xí)包括提取所涉及的概念對(duì)、進(jìn)行關(guān)系語(yǔ)義標(biāo)注兩方面。
目前多數(shù)本體學(xué)習(xí)研究致力于術(shù)語(yǔ)和分類關(guān)系抽取,相對(duì)而言,非分類關(guān)系的抽取更加困難,同時(shí)得到的關(guān)注也較少。本體構(gòu)造中發(fā)現(xiàn)得到的非分類關(guān)系多數(shù)是人類本體工程師標(biāo)注所得。現(xiàn)有方法主要有兩種:基于模式的方法和基于關(guān)聯(lián)規(guī)則的方法,國(guó)內(nèi)對(duì)中文本體學(xué)習(xí)的研究多集中于后者。
基于模式的方法[2]是通過(guò)分析領(lǐng)域相關(guān)文本,歸納出頻繁使用的語(yǔ)言模式作為規(guī)則,而后作為文本中詞序列匹配的模式,來(lái)識(shí)別相應(yīng)的關(guān)系。Hearst等人率先提出詞匯—句法模式方法,利用手工構(gòu)造的模式實(shí)現(xiàn)了自動(dòng)地抽取關(guān)系。這種方法的主要問(wèn)題是:①關(guān)系抽取的效果受限于模式是否完備;②機(jī)械地使用模式匹配,導(dǎo)致所獲取的關(guān)系中包含大量無(wú)用概念對(duì)。
基于關(guān)聯(lián)規(guī)則的方法是一種常用方法,它是利用最初在數(shù)據(jù)庫(kù)領(lǐng)域定義的關(guān)聯(lián)規(guī)則,由Maedche等率先應(yīng)用于本體學(xué)習(xí),繼而以概念層次為背景知識(shí),用來(lái)發(fā)現(xiàn)概念間非分類關(guān)系的方法。文獻(xiàn) [2]也是基于這種思想抽取概念間的非分類關(guān)系。這種方法的缺點(diǎn)是,只能判斷概念間是否存在關(guān)系,無(wú)法對(duì)關(guān)系進(jìn)行語(yǔ)義標(biāo)注。
上述方法主要局限于共現(xiàn)規(guī)則和頻率統(tǒng)計(jì),而本體是領(lǐng)域知識(shí)語(yǔ)義的形式化標(biāo)志,且所用的數(shù)據(jù)資源是文本,因此,引入語(yǔ)義和句子語(yǔ)法分析開(kāi)展非分類關(guān)系學(xué)習(xí)將更為有效。文獻(xiàn) [3]通過(guò)提取 “主謂賓”結(jié)構(gòu),構(gòu)建 [動(dòng)詞概念]和 [概念 動(dòng)詞]檢索模式,實(shí)現(xiàn)了自動(dòng)獲取非分類關(guān)系,并用動(dòng)詞標(biāo)記關(guān)系。文獻(xiàn) [4]基于依存語(yǔ)法中動(dòng)詞為中心的思想,提出了擴(kuò)展的關(guān)聯(lián)規(guī)則方法,通過(guò)提取“主謂賓”結(jié)構(gòu)的概念對(duì)和動(dòng)詞,發(fā)現(xiàn)關(guān)系和標(biāo)記關(guān)系。但以上研究提取中文非分類關(guān)系時(shí),僅考慮了單句結(jié)構(gòu),且忽略了詞間的語(yǔ)義關(guān)聯(lián)。
針對(duì)現(xiàn)有方法中存在的抽取正確率低、缺少語(yǔ)義標(biāo)注問(wèn)題,在文獻(xiàn) [3-4]基礎(chǔ)上,本文針對(duì)中文非分類關(guān)系抽取,提出了一種基于語(yǔ)義依存分析的方法,通過(guò)分析語(yǔ)句中成分的語(yǔ)義角色和依存關(guān)系,發(fā)現(xiàn)動(dòng)詞為中心的、具有語(yǔ)義依存關(guān)系的詞匯框架,并以語(yǔ)義相似度為依據(jù),識(shí)別中文本體概念間的非分類關(guān)系,實(shí)現(xiàn)對(duì)關(guān)系的語(yǔ)義標(biāo)注。該方法克服了關(guān)聯(lián)規(guī)則無(wú)法標(biāo)識(shí)關(guān)系名稱缺點(diǎn),以及僅考慮概念對(duì)和動(dòng)詞共現(xiàn)詞頻所帶來(lái)的關(guān)系抽取性能問(wèn)題。
語(yǔ)義角色是謂詞與論元的語(yǔ)義關(guān)系。常見(jiàn)的語(yǔ)義角色有施事、受事、與事、結(jié)果、工具和處所等。從語(yǔ)義上看,一個(gè)論元的語(yǔ)義角色分配主要取決于謂詞語(yǔ)義。例如:“我拿了一本書”,其中 “拿”為謂詞,“我”為施事者,“書”為受事者。
語(yǔ)義角色標(biāo)注是在句法分析基礎(chǔ)上,對(duì)句子中的詞語(yǔ)序列分組,并按照語(yǔ)義角色對(duì)它們進(jìn)行分類[5]。該方法不對(duì)整個(gè)句子進(jìn)行詳細(xì)的語(yǔ)義分析,而是以動(dòng)詞框架為考察對(duì)象,只標(biāo)注與謂詞相關(guān)論元的語(yǔ)義角色,這些論元作為此謂詞的框架中一部分被賦予了一定的語(yǔ)義含義,從而反映出句子中的謂詞與其它成分間的語(yǔ)義關(guān)系。
語(yǔ)義角色標(biāo)注的基本單元可以是句法成分[6]、短語(yǔ)[6]、詞[6]或者依存關(guān)系[7]等等。目前實(shí)現(xiàn)方式有兩種,一是建立在短語(yǔ)結(jié)構(gòu)句法分析方法的基礎(chǔ)之上,如基于統(tǒng)計(jì)的學(xué)習(xí)方法[8];另一種使用依存句法分析結(jié)果進(jìn)行語(yǔ)義角色標(biāo)注[7],兩者分析效果相近。
依存語(yǔ)法是一個(gè)用詞之間的依存關(guān)系 (dependency relationship)來(lái)描述語(yǔ)言結(jié)構(gòu)的框架,又稱從屬關(guān)系語(yǔ)法。由法國(guó)語(yǔ)言學(xué)家L.Tesniere最先提出,其核心思想是以謂語(yǔ)動(dòng)詞為中心,研究句子中其它成分與謂詞的依存關(guān)系。依存語(yǔ)法認(rèn)為,句子中詞與詞之間的關(guān)系是有方向的,一個(gè)詞支配另一個(gè)詞,則稱這種支配與被支配的關(guān)系為依存關(guān)系,支配詞又被稱為被支配詞的中心詞,通??杀憩F(xiàn)所在短語(yǔ)的主要語(yǔ)法、語(yǔ)義特征。
依存語(yǔ)法將句子結(jié)構(gòu)表示為詞對(duì)的二元關(guān)系。而句子成分間相互支配與被支配、依存與被依存的現(xiàn)象普遍存在于漢語(yǔ)的詞匯 (合成語(yǔ))、短語(yǔ)、單句、復(fù)合直到句群的各級(jí)能夠獨(dú)立運(yùn)用的語(yǔ)言單位之中,這一特點(diǎn)為依存關(guān)系的普遍性[9]。依存語(yǔ)法分析的目的是發(fā)現(xiàn)詞語(yǔ)間的語(yǔ)義聯(lián)系,根據(jù)依存語(yǔ)法5條公理[10],在一個(gè)完整的句子中,所有語(yǔ)義聯(lián)系相互交織的結(jié)果將句子的線性結(jié)構(gòu)層次化,構(gòu)造成為語(yǔ)義依存樹(shù)的形式,從而反映出句子中各成分間的語(yǔ)義修飾關(guān)系,且與成分的物理位置無(wú)關(guān)。
依存語(yǔ)法分析方法目前已較成熟,利用已有的依存句法分析器 (這里采用哈爾濱工業(yè)大學(xué)信息檢索研究中心開(kāi)發(fā)的依存句法分析器,目前該分析器對(duì)依存弧的標(biāo)記準(zhǔn)確率達(dá)到86%以上),可進(jìn)行句子語(yǔ)法分析,并以此為基礎(chǔ)發(fā)現(xiàn)依存關(guān)系,最終生成依存樹(shù)。例如:“家庭是孩子的第一個(gè)課堂?!狈治龅玫降囊来鏄?shù)如圖1所示。其中 “是”句子的中心詞 (核心關(guān)系HED),“家庭”與中心詞有主謂依存關(guān)系 (SBV),“課堂”則與中心詞有動(dòng)賓依存關(guān)系 (VOB),另外,還有定中關(guān)系 (ATT)、介賓關(guān)系 (POB)等。
依存樹(shù)將形式化的語(yǔ)法規(guī)則和約束表述為結(jié)點(diǎn)、邊,以及它們所攜帶的信息,使得對(duì)句子的依存分析轉(zhuǎn)化為尋找句子中的一組依存對(duì)。
非分類關(guān)系一般由動(dòng)詞及與之相關(guān)的兩個(gè)概念構(gòu)成,可有以下定義。
圖1 依存樹(shù)
定義1 非分類關(guān)系形式表示為:R=<Cpre,Vrel,Csuc>,其中Cpre,Csuc均為本體概念 (依存樹(shù)中依存于中心詞的名詞或名詞詞組),稱Cpre為關(guān)系R前驅(qū)概念,Csuc為關(guān)系R后繼概念,Vrel(中心詞)是關(guān)系R的語(yǔ)義標(biāo)注。
由定義1,對(duì)于中心詞、主語(yǔ)、賓語(yǔ)構(gòu)成主干結(jié)構(gòu)的句子,如 “渦輪噴氣發(fā)動(dòng)機(jī)主要用于超聲速飛機(jī)?!本渥又械姆欠诸愱P(guān)系可以表述為:< “渦輪噴氣發(fā)動(dòng)機(jī)”,“用于”,“超聲速飛機(jī)”>,即主語(yǔ) (“渦輪噴氣發(fā)動(dòng)機(jī)”)為前驅(qū)概念,而對(duì)于用中心詞、施事者、受事者描述主干結(jié)構(gòu)的句子,則施事者為前驅(qū)概念。
本文以本體概念集為學(xué)習(xí)種子,查找充當(dāng)語(yǔ)句所含動(dòng)詞框架中不同語(yǔ)義角色的概念對(duì),而后計(jì)算動(dòng)詞框架的語(yǔ)義相似度來(lái)識(shí)別非分類關(guān)系。通過(guò)加入句子結(jié)構(gòu)和語(yǔ)義關(guān)系因素,來(lái)改善文獻(xiàn) [3-4]方法的不足。該方法包括3個(gè)方面:①對(duì)文集進(jìn)行語(yǔ)義依存分析,獲得已標(biāo)記的句子集合;②分析句法結(jié)構(gòu),提取動(dòng)詞框架構(gòu)成的句子主干;③計(jì)算語(yǔ)義相似度,發(fā)現(xiàn)非分類關(guān)系。
根據(jù)中文術(shù)語(yǔ)特點(diǎn),對(duì)于未標(biāo)注語(yǔ)料集進(jìn)行初步篩選。采用中國(guó)科學(xué)院計(jì)算技術(shù)研究所開(kāi)發(fā)的ICTCLAS對(duì)文本進(jìn)行分詞,將每條語(yǔ)句切分為一組具有詞性標(biāo)注信息的中文組詞及符號(hào),去掉對(duì)于句子意思表述無(wú)貢獻(xiàn)的詞,如感嘆詞、語(yǔ)氣詞、助詞等。而后利用基于漢語(yǔ)的依存語(yǔ)法分析器 (采用哈爾濱工業(yè)大學(xué)信息檢索研究中心開(kāi)發(fā)的中文依存句法分析器,該分析器能夠?qū)崿F(xiàn)詞性標(biāo)注、語(yǔ)義角色標(biāo)注、依存語(yǔ)法分析等功能),給定語(yǔ)料集中的一個(gè)句子作為輸入,產(chǎn)生一棵標(biāo)注了依存關(guān)系、語(yǔ)義角色的語(yǔ)法分析樹(shù),由依存關(guān)系確定句子中以動(dòng)詞中的從屬關(guān)系框架,而語(yǔ)義角色標(biāo)注則確定該從屬關(guān)系框架中相對(duì)應(yīng)的語(yǔ)義角色。
通過(guò)語(yǔ)義依存分析,對(duì)文集句子成分的語(yǔ)義角色、依存語(yǔ)法信息實(shí)現(xiàn)標(biāo)記,從而獲得文集中句子的語(yǔ)義依存結(jié)構(gòu)信息。
由于中文語(yǔ)法的復(fù)雜性,一個(gè)復(fù)雜句子的依存信息結(jié)構(gòu)也會(huì)相當(dāng)龐大,如果直接對(duì)完整句子進(jìn)行分析處理,工作量巨大并且沒(méi)有必要。依存語(yǔ)法認(rèn)為每個(gè)句子都以動(dòng)詞為中心的從屬關(guān)系結(jié)構(gòu),則保留句中謂語(yǔ) (中心動(dòng)詞)、及其主語(yǔ)、賓語(yǔ) (對(duì)于缺少主語(yǔ)或賓語(yǔ)的動(dòng)詞框架,因無(wú)法確定中心詞所涉及的另一個(gè)概念,不作考慮)框架,或是謂詞 (中心動(dòng)詞)、及其施事者、受事者 (類似地,過(guò)濾掉缺少施事者或受事者的動(dòng)詞框架)角色,構(gòu)成句子的主體架構(gòu),而且非分類關(guān)系抽取關(guān)注的是概念 (名詞或名詞詞組)之間的關(guān)系,因此,將句子進(jìn)行剪切,以去掉噪音,得到由中心詞、主語(yǔ)、賓語(yǔ)以及主語(yǔ)/賓語(yǔ)附屬成分 (依存于主語(yǔ)/賓語(yǔ)和主語(yǔ)/賓語(yǔ)依存的詞為附屬成分),或是中心詞、施事者、受事者以及施事者/受事者附屬成分所形成的動(dòng)詞框架構(gòu)成的句子主干 (當(dāng)句子為復(fù)句時(shí),句子主干可能包含多個(gè)動(dòng)詞框架,僅考慮直接依存于中心詞的成分,會(huì)遺漏可能的非分類關(guān)系),且依存于中心詞的成分應(yīng)是名詞 (詞組),用于非分類關(guān)系抽取。由于中文句法分析器是以詞為單位進(jìn)行句子成分的,而中文本體概念多為復(fù)合詞,在上述句子修剪過(guò)程中,將保留依存于主干成分的詞,作為主干成分的一部分,以提高抽取效率。動(dòng)詞框架提取算法描述:
輸入:標(biāo)記語(yǔ)義依存信息的句子集合S;
輸出:動(dòng)詞框架組成的句子主干集合S′;
(1)若S為空,則退出;
(2)對(duì)于S中的任一句子s,查找中心詞 (核心關(guān)系HED)V;
(3)若s中同時(shí)有依存于V的SBV、VOB依存關(guān)系的角色Rs,Rv,則提取由V、Rs、Rv構(gòu)成的動(dòng)詞框架;
(4)若s中還同時(shí)有施事者、受事者語(yǔ)義角色Ra0,Ra1,且為名詞 (詞組),則V、Ra0、Ra1構(gòu)成的動(dòng)詞框架;
(5)若句子s存在與V并列 (并列關(guān)系 W)的中心詞Va,則轉(zhuǎn)步驟 (3);否則將s中所提取的動(dòng)詞框架集構(gòu)成句子s的主干加入S′,轉(zhuǎn)步驟 (1)。
為了便于理解算法,給出動(dòng)詞框架提取的具體示例:
例1:處理器通過(guò)軟盤控制器才能訪問(wèn)軟盤驅(qū)動(dòng)器。
例2:一個(gè)硬盤一般由多個(gè)盤片組成。
例3:網(wǎng)絡(luò)技術(shù)利用高速互聯(lián)網(wǎng),為我們提供一體化的信息服務(wù)。
例1是主謂賓結(jié)構(gòu)的句子,依存語(yǔ)法分析的結(jié)果如圖2所示?!霸L問(wèn)”為中心詞,“處理器”為主語(yǔ) (SBV關(guān)系),“驅(qū)動(dòng)器”為賓語(yǔ) (VOB關(guān)系),均依存于 “訪問(wèn)”,而“軟盤”依存于 “驅(qū)動(dòng)器”,提取的句子主干為 “處理器訪問(wèn)軟盤驅(qū)動(dòng)器?!薄6?屬于另一類句子,采用中心詞、施事者、受事者框架提取句子主干更為適合,其依存結(jié)構(gòu)信息如圖3所示。由圖可知, “組成”是中心詞, “硬盤”是施事者 (A0),而 “由”是受事者 (A1), “盤片”是“由”的附屬成分,提取的句子主干為 “硬盤由盤片組成”。例3是復(fù)句,其中 “利用”和 “提供”是并列關(guān)系 (W),可提取句中的兩個(gè)動(dòng)詞框架,即 “網(wǎng)絡(luò)技術(shù)”, “利用”,“高速互聯(lián)網(wǎng)”和 “網(wǎng)絡(luò)技術(shù)”,“提供”,“信息服務(wù)”。
通過(guò)對(duì)文集中句子進(jìn)行語(yǔ)義角色標(biāo)注、依存語(yǔ)法分析及句子主干提取,得到了標(biāo)注有句法結(jié)構(gòu)信息、語(yǔ)義關(guān)系的、由動(dòng)詞框架刻畫句子的文本。
對(duì)于經(jīng)過(guò)語(yǔ)義依存分析和句子主干提取的句子集,可表示為S= {F1,F(xiàn)2,…,F(xiàn)m},F(xiàn)i(i=1,2,…,m)為動(dòng)詞框架,表示為Fi= {Ei1,Ei2,Ei3},Eij是框架元素(謂詞,主語(yǔ)/施事者,或賓語(yǔ)/受事者),且Eij= (rij,fij,mij)(j=1,2,3),其中rij表示語(yǔ)義角色 (依存關(guān)系),fij表示詞性,mij表示語(yǔ)義 (HowNet提供的語(yǔ)義描述)??蚣茉仄ヅ錂?quán)重定義為:對(duì)于元素Ei1和Ei2,若ri1和ri2,fi1和fi2,mi1和mi2均相同,則匹配權(quán)重為1;若ri1和ri2,mi1和mi2相同,但fi1和fi2不同,則匹配權(quán)重為0.6;否則為0。語(yǔ)義相似度計(jì)算公式如下
利用式 (1)計(jì)算句集中動(dòng)詞框架的語(yǔ)義相似度,當(dāng)大于相似度閾值的動(dòng)詞框架出現(xiàn)頻率達(dá)到某一閾值時(shí),則認(rèn)為語(yǔ)義角色所對(duì)應(yīng)的本體概念間具有非分類關(guān)系,中心詞即關(guān)系名稱。
非分類關(guān)系的抽取是發(fā)現(xiàn)概念對(duì)及語(yǔ)義標(biāo)注的過(guò)程,其基本思路如圖4所示。另外,通過(guò)依存分析中標(biāo)注的同位關(guān)系 (APP),還可以發(fā)現(xiàn)同義關(guān)系。
非分類關(guān)系學(xué)習(xí)是在已構(gòu)建本體概念集,語(yǔ)料集已經(jīng)過(guò)無(wú)用詞過(guò)濾處理的前提下進(jìn)行的。具體算法步驟:
(1)利用中文依存語(yǔ)法分析器對(duì)語(yǔ)料集進(jìn)行分析,得到句子語(yǔ)義依存結(jié)構(gòu)集合S;
(2)根據(jù)語(yǔ)言學(xué)規(guī)則,提取句子主干,得到由動(dòng)詞框架組成的句子主干集合S′;
(3)從本體概念集C中任取一個(gè)概念Ck,若C為空或概念均已標(biāo)記,則轉(zhuǎn) (7);
圖4 非分類關(guān)系抽取流程
(4)在S中搜索包含Ck,且Ck充當(dāng)主語(yǔ)/施事者或賓語(yǔ)/受事者角色的所有動(dòng)詞框架F1,F(xiàn)2,…,F(xiàn)m,計(jì)算Fi、Fj(1≤i,j≤m)的語(yǔ)義相似度,若存在相似度大于閾值λ,則為候選框架,并加入候選框架集合CF中;否則轉(zhuǎn) (3);
(5)若CF中某候選框架個(gè)數(shù)達(dá)到給定閾值ω,且C中存在與框架中賓語(yǔ)/受事者或主語(yǔ)/施事者角色的概念相似度超過(guò)閾值δ的概念Cl,則Ck、Cl具有非分類關(guān)系,根據(jù)依存結(jié)構(gòu)確定前趨概念、后繼概念,并用中心詞賦予關(guān)系語(yǔ)義標(biāo)注,同時(shí)對(duì)C中Ck、Cl標(biāo)記;
(6)若S中存在Ck、Cl的同位關(guān)系詞,則作為Ck、Cl的同義關(guān)系,加入其同義詞集合,并在C中作相應(yīng)標(biāo)記;轉(zhuǎn) (3);
(7)結(jié)束。
若第 (4)步出現(xiàn)Ck與句中多個(gè)動(dòng)詞框架有依存關(guān)系時(shí),將看作新的候選非分類關(guān)系,另行計(jì)算。第 (5)步中概念相似度計(jì)算采用了文獻(xiàn) [8]的本體概念匹配算法。
由于目前沒(méi)有標(biāo)準(zhǔn)的中文語(yǔ)料庫(kù),實(shí)驗(yàn)采用了復(fù)旦大學(xué)文本分類語(yǔ)料庫(kù)中計(jì)算機(jī)專業(yè)領(lǐng)域作為測(cè)試文集。該語(yǔ)料庫(kù)多來(lái)源于新聞或互聯(lián)網(wǎng)科普類,具有信息量大、覆蓋面廣、用語(yǔ)規(guī)范特點(diǎn),從而使得實(shí)驗(yàn)結(jié)果具有較強(qiáng)的代表性。
從測(cè)試文集中選取了95個(gè)與計(jì)算機(jī)相關(guān)的概念作為實(shí)驗(yàn)本體概念集,設(shè)句子語(yǔ)義相似度閾值為0.53,對(duì)測(cè)試文集進(jìn)行了非分類關(guān)系的抽取。為了測(cè)試實(shí)驗(yàn)的有效性,采用基于關(guān)聯(lián)規(guī)則統(tǒng)計(jì)[1]、基于 “主謂賓”結(jié)構(gòu)提取概念對(duì)及關(guān)聯(lián)動(dòng)詞的方法 (簡(jiǎn)稱基于 “主謂賓”結(jié)構(gòu))、本文提出的方法分別進(jìn)行了實(shí)驗(yàn),并通過(guò)正確率計(jì)算對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了比較,其結(jié)果如表1所示。正確率的計(jì)算方式是正確抽取的非分類關(guān)系數(shù)與測(cè)試文集中所有的非分類關(guān)系數(shù)之比。
表1 3種方法的實(shí)驗(yàn)結(jié)果對(duì)比
從實(shí)驗(yàn)結(jié)果來(lái)看,本文提出的方法抽取正確率明顯要高,并發(fā)現(xiàn)了同義關(guān)系。這是由于通過(guò)語(yǔ)義依存分析,提取了由動(dòng)詞框架構(gòu)成的句子主干,剔除了句子中對(duì)關(guān)系抽取的干擾因素,從而提高了正確率。而加入依存于主/賓語(yǔ)的附屬成分在一定程度上避免了分詞造成的錯(cuò)誤,如:例1句中 “軟盤驅(qū)動(dòng)器”用自動(dòng)分詞將會(huì)誤切分成 “軟盤/n驅(qū)動(dòng)器/n”,使得復(fù)合概念的非分類關(guān)系抽取更為有效。
跟蹤分析抽取過(guò)程發(fā)現(xiàn),影響實(shí)驗(yàn)效果的主要因素有:①測(cè)試文本的選取。選擇不當(dāng)將導(dǎo)致召回率低,非分類關(guān)系對(duì)識(shí)別效率下降。如新聞?lì)愇谋局信c專業(yè)領(lǐng)域密切相關(guān)的內(nèi)容偏少,因此,應(yīng)以科普類或?qū)I(yè)研究類文章為主。②句子中心詞的選用。有些動(dòng)詞 (如 “是”、“使”)作為中心詞時(shí),所構(gòu)成的非分類關(guān)系多是錯(cuò)誤的,例如,句子“數(shù)據(jù)庫(kù)管理系統(tǒng)是一種系統(tǒng)軟件?!?,抽取后得到< “數(shù)據(jù)庫(kù)管理系統(tǒng)”,“是”,“系統(tǒng)軟件”>,顯然數(shù)據(jù)庫(kù)管理系統(tǒng)與系統(tǒng)軟件是上下位的分類關(guān)系。而以 “是”為謂語(yǔ)的句子是一種常見(jiàn)的中文句子結(jié)構(gòu),因此,有必要針對(duì)中心詞建立一個(gè)停用詞表。
另外,實(shí)驗(yàn)中同義關(guān)系的抽取不是很理想,主要原因是語(yǔ)法分析標(biāo)注同位關(guān)系時(shí),因中文表述方式的多樣性而無(wú)法正確識(shí)別,如,“能力成熟度模型 (CMM)”表述方式被識(shí)別為同位關(guān)系,但是 “CMM (能力成熟度模型)”將被標(biāo)注為其它關(guān)系。
本文提出了一種基于語(yǔ)義依存分析的中文非分類關(guān)系抽取方法。該方法將語(yǔ)義角色標(biāo)注和依存關(guān)系分析相結(jié)合,從句中提取中心詞和與之依存的語(yǔ)義角色構(gòu)成的動(dòng)詞框架,通過(guò)計(jì)算動(dòng)詞框架的語(yǔ)義相似度,獲得充當(dāng)不同語(yǔ)義角色的概念間非分類關(guān)系,并用中心詞標(biāo)注之。下一步將進(jìn)一步探討,如何結(jié)合中文語(yǔ)法特點(diǎn),更有效地利用句子語(yǔ)義依存結(jié)構(gòu)中的信息,提高關(guān)系抽取的效果。
[1]DU Xiaoyong,LI Man,WANG Shan.A survey on ontology learning research [J].Journal of Software,2006,17 (9):1837-1847(in Chinese).[杜小勇,李曼,王珊.本體學(xué)習(xí)研究綜述 [J].軟件學(xué)報(bào),2006,17 (9):1837-1847.]
[2]XIANG Yang,ZHANG Bo,HAN Jie.Agent driven intelligent construction of Chinese ontology [J].Computer Engineering and Applications,2009,45 (10):133-137 (in Chinese).[向陽(yáng),張波,韓婕.Agent驅(qū)動(dòng)的中文本體智能構(gòu)建研究 [J].計(jì)算機(jī)工程與應(yīng)用,2009,45 (10):133-137.]
[3]WANG Suihua,ZHAO Ailing,MA Weiwei.Approach to extracting non-taxonomic relationships for Chinese ontology from web [J].Computer Engineering and Design,2010,31 (2):451-454(in Chinese).[王歲花,趙愛(ài)玲,馬巍巍.從 Web中提取中文本體非分類關(guān)系的方法 [J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31 (2):451-454.]
[4]WEN Chun,SHI Zhaoxiang,XIN Yuan.Chinese Non-taxonomic relation extraction based on extended association rule[J].Computer Engineering,2009,35 (24):63-65 (in Chinese).[溫春,石昭祥,辛元.基于擴(kuò)展關(guān)聯(lián)規(guī)則的中文非分類關(guān)系抽取 [J].計(jì)算機(jī)工程,2009,35 (24):63-65.]
[5]Johansson R,Nugues P.The effect of syntactic representation on semantic role labeling[C].Manchester,UK:Proc of the 22nd International Conference on Computational Linguistics,2008.
[6]CHEN Yaodong,WANG Ting,CHEN Huowang.Shallow semantic parsing research [J].Journal of Computer Research and Development,2008,45 (zl):321-325 (in Chinese).[陳耀東,王挺,陳火旺.淺層語(yǔ)義分析研究 [J].計(jì)算機(jī)研究與發(fā)展,2008,45 (zl):321-325.]
[7]CHE Wanxiang,LI Zhenghua,HU Yuxuan,et al.A cascaded syntactic and semantic dependency parsing system [C].Manchester,UK:Proc of CoNLL,2008.
[8]LIU Ting,CHE Wanxiang,LI Sheng.Semantic role labeling with maximum entropy classifier[J].Journal of Software,2007,18 (3):565-573(in Chinese).[劉挺,車萬(wàn)翔,李生.基于最大熵分類器的語(yǔ)義角色標(biāo)注 [J].軟件學(xué)報(bào),2007,18 (3):565-573.]
[9]PENG Hui,SHI Zhongzhi.Matching algorithm of semantic web service based on similarity of ontology concepts [J].Computer Engineering,2008,34 (15):51-53 (in Chinese). [彭暉,史忠植.基于本體概念相似度的語(yǔ)義Web服務(wù)匹配算法[J].計(jì)算機(jī)工程,2008,34 (15):51-53.]
[10]LIU Huaijun,CHE Wanxiang,LIU Ting.Feature engineering for Chinese semantic role labeling [J].Journal of Chinese Information Processing,2007,21 (1):79-84 (in Chinese).[劉懷軍,車萬(wàn)翔,劉挺.中文語(yǔ)義角色標(biāo)注的特征工程[J].中文信息學(xué)報(bào),2007,21 (1):79-84.]
[11]LIU Baoyan,LIN Hongfei,ZHAO Jing.Chinese sentence similarity computing based on improved edit-distance and dependency grammar [J].Computer Applications and Software,2008,25 (7):33-34 (in Chinese). [劉寶艷,林鴻飛,趙晶.基于改進(jìn)編輯距離和依存文法的漢語(yǔ)句子相似度計(jì)算 [J].計(jì)算機(jī)應(yīng)用與軟件,2008,25 (7):33-34.]
[12]Ciramita M.Unsupervised learning of semantic relations between concepts of a molecular biology ontology [C].Edinburgh,UK:Proc of the 19th International Joint Conference on Artificial Intelligence,2005.
[13]Kavalec M,Svatek V.A study on automated relation labeling in ontology learning [C].Ontology Learning From Text:Methods Evaluation and Applications.Amsterdam:IOS Press,2005.
[14]WEN Xu,ZHANG Yu.Syntactic structure parsing based Chinese question classification [J].Journal of Chinese Information Processing,2006,20 (2):33-39 (in Chinese). [文勖,張宇.基于句法結(jié)構(gòu)分析的中文問(wèn)題分類 [J].中文信息學(xué)報(bào),2006,20 (2):33-39.]
[15]YANG Jianming.Ontology learning method based on semantic dependency [D].Hefei:University of Science and Technology of China,2008(in Chinese).[楊建明.基于語(yǔ)義依存的本體學(xué)習(xí)方法 [D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2008.]