單曉歡,齊鑫傲,宋寶燕,張浩林
遼寧大學 信息學院,沈陽 110036
隨著信息技術(shù)的飛速發(fā)展以及互聯(lián)網(wǎng)的普及應(yīng)用,網(wǎng)絡(luò)數(shù)據(jù)正以指數(shù)級的速度增長,網(wǎng)絡(luò)已經(jīng)成為最大的數(shù)據(jù)倉庫之一,且大量數(shù)據(jù)在網(wǎng)絡(luò)上以自然語言的形式呈現(xiàn)[1]。但是自然語言本身具有高度的歧義性和多樣性,歧義性體現(xiàn)在相同的實體指稱在不同上下文中可以指不同的實體,例如阿里巴巴可以表示阿里巴巴集團、阿里巴巴(阿拉伯小說人物)、阿里巴巴(歌曲名)、阿里巴巴(書名);而多樣性是指同一實體在文本中會有不同的指稱,如馬爸爸、風清揚、Jack Ma都指阿里巴巴集團創(chuàng)始人馬云。如果能夠消除上述歧義,將網(wǎng)絡(luò)數(shù)據(jù)與知識庫連接起來,將更有助于人們理解網(wǎng)絡(luò)數(shù)據(jù)的語義信息,有效利用網(wǎng)絡(luò)數(shù)據(jù)進行數(shù)據(jù)分析,同時像Dbpedia、YAGO這樣的實體知識庫也可以不斷擴充,使其知識更豐富,而實現(xiàn)這一步的關(guān)鍵便是實體消歧技術(shù)。
實體消歧指的是識別文本中的歧義實體指稱(命名實體),并為這些實體指稱在眾多的候選實體中匹配出最終的目標實體[2],其在智能問答[3]、語義搜索[4]以及推薦系統(tǒng)[5]等諸多領(lǐng)域都有廣泛應(yīng)用。實體消歧可分為基于無監(jiān)督聚類的實體消歧[6],其把所有實體指稱按其指向的目標實體進行聚類;以及基于實體鏈接的實體消歧[7],此類方法利用知識庫獲取候選實體列表,并將實體指稱鏈接到與之最相似的實體上。近年來,隨著知識圖譜的廣泛應(yīng)用,基于實體鏈接的消歧方法成為解決消歧任務(wù)的主流方法,因此本文采用此類方法實現(xiàn)實體消歧。
本文針對現(xiàn)有方法進行研究發(fā)現(xiàn),普遍存在的問題包括:僅考慮單一實體指稱與其候選之間的語義關(guān)系,而忽略了同一文本中不同實體指稱候選之間的聯(lián)系,因此只能實現(xiàn)局部消歧(單實體指稱消歧);利用候選實體構(gòu)建圖時,忽略了實體影響力及候選實體間的相似度對實體消歧的影響;將無歧義實體指稱及其候選實體亦作為圖節(jié)點,增加了后續(xù)圖計算的復雜性,進而對消歧的效率產(chǎn)生影響。
針對上述問題,本文提出一種融合多特征圖及實體影響力的實體消歧方法(entity disambiguation method combining multi-feature graph and entity influence,ED_MG&EI),該方法綜合局部消歧與協(xié)同消歧的優(yōu)勢,有效實現(xiàn)同一文本多實體指稱的整體消歧,本文主要內(nèi)容如下:
(1)基于候選實體的多特征圖構(gòu)建。本文以金融領(lǐng)域為特定領(lǐng)域,對現(xiàn)有知識庫進行預(yù)處理,提取金融類別相關(guān)關(guān)鍵詞三元組,構(gòu)建金融領(lǐng)域知識庫;針對金融活動類文本,提取待消歧實體指稱,融合多種特征提取語義信息并通過相似度計算,篩選候選實體作為頂點集合,利用知識庫三元組信息獲取候選實體間2-hop內(nèi)的關(guān)系作為邊集合,同時計算候選實體間的相似度作為邊權(quán)值,進而將多特征信息充分融合到圖模型中,完成多特征圖構(gòu)建。
(2)提出基于實體影響力的消歧方法,該方法既考慮不同指稱候選之間的關(guān)聯(lián)性,又將局部消歧的消歧信息轉(zhuǎn)化為實體影響力,作為消歧計算的衡量指標之一。在消歧過程中,采用動態(tài)決策策略,利用PageRank算法,并結(jié)合實體影響力計算多特征圖中候選實體的綜合評分,進而獲得可信度較高的消歧結(jié)果。
目前,基于實體鏈接的消歧方法主要有局部實體消歧和協(xié)同實體消歧兩類。局部實體消歧通常只利用實體指稱與候選實體的上下文信息的特征表示,計算兩者之間的相似度,進而選出目標實體。由于傳統(tǒng)特征方法[8]多為啟發(fā)式算法,需手工設(shè)計有效特征,且難以調(diào)整,進而無法獲取更深層次的語義和結(jié)構(gòu)信息。近年來,采用神經(jīng)網(wǎng)絡(luò)進行局部消歧的思想逐漸興起,Sun等人[9]提出了一種基于記憶網(wǎng)絡(luò)的實體消歧方法,該方法通過注意機制從周圍的語境中自動找到重要線索,并利用這些線索進行實體消歧,不依賴任何手動設(shè)計的特性。為了有效地學習模型參數(shù),其需要大量的訓練數(shù)據(jù)。Deeptype[10]是一種將符號信息集成到帶有類型系統(tǒng)的神經(jīng)網(wǎng)絡(luò)推理過程中以實現(xiàn)實體消歧的方法,其能夠?qū)⒔Y(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)進行整合,在英語、法語、德語以及西班牙語上具有較理想的消歧效果。Alokaili等人[11]提出了一種基于長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),用于編碼目標地理實體的上下文,進而實現(xiàn)地理實體消歧,其在英語和西班牙語兩個注釋語料庫上對方法進行了評估。
協(xié)同實體消歧認為同一文本中不同實體指稱存在語義關(guān)聯(lián)性,進而推斷其候選實體之間也具有依賴關(guān)系,在局部消歧基礎(chǔ)上增加協(xié)同策略,結(jié)合這種關(guān)系進行綜合計算,以提升實體消歧性能。文獻[12]提出了一種結(jié)合語義表示學習的基于圖的實體鏈接模型,基于RDF數(shù)據(jù)訓練的語義向量構(gòu)造了一個實體相關(guān)圖,并在圖上利用PageRank算法計算實體指稱的正確候選實體。近年來,也有相關(guān)算法[13-14]將深度學習與圖方法結(jié)合,將構(gòu)建的實體圖輸入到圖神經(jīng)網(wǎng)絡(luò)中學習,此類方法消歧效率較高,但文檔較多訓練起來工程很大。文獻[15]為解決短文本稀疏性造成概念化困難的問題,通過度量術(shù)語之間的相關(guān)性、選擇信息術(shù)語并對信息術(shù)語進行優(yōu)先排序,以突出其辨別能力,減少噪聲干擾。Jia等人[16]提出了一種層次語義相似模型,該模型基于實體指稱上下文、實體描述和類別等多個信息源來尋找實體指稱與目標實體的語義匹配。實體鏈接標注系統(tǒng)ABACO[17]假定標注的實體與文檔的主題一致,以解決名稱歧義問題。根據(jù)候選實體在知識圖中的中心性和與文檔主題的文本相似度對其進行評分,進而剔除最差的候選實體。
本文針對特定領(lǐng)域,從財經(jīng)網(wǎng)、南方財富網(wǎng)、搜狐財經(jīng)等網(wǎng)站爬取金融領(lǐng)域相關(guān)語料,獲得經(jīng)過人工標注、數(shù)據(jù)清洗、事件抽取而最終生成的待消歧實體指稱集,并在此基礎(chǔ)上進行研究,實現(xiàn)參與金融活動要素的實體消歧。因為金融相關(guān)文本表達的信息主要是金融交易或投資之間的關(guān)系,所以命名實體識別后的實體指稱項(待消歧實體)為參與金融活動要素的企業(yè)及與企業(yè)相關(guān)的個人實體。
CN-DBpedia[18]是由復旦大學知識工場實驗室研發(fā)并維護的大規(guī)模通用領(lǐng)域結(jié)構(gòu)化百科,是國內(nèi)最早推出的也是目前最大規(guī)模的開放百科中文知識圖譜,涵蓋數(shù)千萬實體和數(shù)億級的關(guān)系。CN-DBpedia主要從中文百科類網(wǎng)站(如百度百科、互動百科、中文維基百科等)的純文本頁面中提取信息,經(jīng)過濾、融合、推斷等操作后,最終形成高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù),即Dump數(shù)據(jù)集。
Dump數(shù)據(jù)集中有mention2entity信息110萬+、摘要信息400萬+、標簽信息1 980萬+、infobox信息4 100萬+。Dump數(shù)據(jù)中的摘要信息、標簽信息以及涵蓋大量三元組關(guān)系、語義信息的infobox信息,適用于圖節(jié)點及關(guān)系的挖掘;而mention2entity數(shù)據(jù)包含的信息則更注重表示實體對應(yīng)的不同含義,即可能是具有相同字面表示的所有可能含義或者是現(xiàn)實中存在同一實體的不同別名的情況,因此這種數(shù)據(jù)對于候選實體生成具有一定的過濾作用。
由于本文只針對金融領(lǐng)域的實體消歧進行研究,因此從P2P(網(wǎng)絡(luò)借貸)、小額貸款、互聯(lián)網(wǎng)支付等金融新業(yè)態(tài)角度研究,通過人工定義關(guān)鍵詞知識體系,從CN-DBpedia數(shù)據(jù)中提取金融類別相關(guān)關(guān)鍵詞三元組,構(gòu)建金融特定領(lǐng)域知識庫,分別生成mention2entity_finance數(shù)據(jù)和Dump_finance數(shù)據(jù),并將抽取的三元組關(guān)系批量導入到Neo4j圖數(shù)據(jù)庫中進行存儲及管理。同時,為了有效提高候選實體的挖掘效率,本文將mention2entity_finance數(shù)據(jù)進行預(yù)處理,遍歷該數(shù)據(jù)集,將具有唯一含義的實體對三元組提取并生成mention2entity_finance_one-to-one數(shù)據(jù)集,用于驗證實體指稱是否只具有唯一候選實體;將剩余的三元組繼續(xù)存儲在mention2entity_finance數(shù)據(jù)集中,即該數(shù)據(jù)集中實體指稱具有多個候選實體。
研究發(fā)現(xiàn),同一文本下不同實體指稱的高相關(guān)性,導致對應(yīng)的不同候選集合之間也具有一定的語義聯(lián)系,且這種語義聯(lián)系對消除實體歧義具有一定的作用[2],為此本文將候選實體及其之間的聯(lián)系構(gòu)建為有向加權(quán)圖G=(V,E,LV,W)表示,其中V為節(jié)點集合,表示不同實體指稱的候選實體及候選實體的1-hop鄰居實體;E表示邊集合,由不同實體指稱的候選實體之間的語義關(guān)系組成;LV則為節(jié)點標簽屬性集合;W表示邊權(quán)值集合,候選實體之間的關(guān)聯(lián)度通過邊權(quán)值表示,權(quán)值越大,則表明兩候選實體之間越相似。
2.2.1 候選實體篩選
對于候選實體的生成,首先將文本中所有識別出的實體指稱項組成集合M={m1,m2,…,mn},其中n表示文本中實體指稱項的個數(shù)。然后針對每個實體指稱項mi,在預(yù)處理的知識庫三元組數(shù)據(jù)中搜索與之同名的頭實體,將對應(yīng)的尾實體集合作為該實體指稱的候選集Ei={ei1,ei2,…},同理獲得全部實體指稱的候選集合H={E1,E2,…,Es},其中每個候選實體即為多特征圖的節(jié)點。
如果知識庫(mention2entity_finance_one-to-one及mention2entity_finance)中沒有同名實體,則把相應(yīng)的實體指稱項歸為空實體。如果從mention2entity_finance_one-to-one獲得實體指稱的候選實體,則表明該候選實體為唯一的無歧義候選,將這類候選實體直接作為實體消歧結(jié)果,不再構(gòu)建于圖中,進而降低了圖的規(guī)模并簡化了后續(xù)圖計算的復雜度。其余實體則具有多個候選實體,為避免過多候選實體對實體消歧效率產(chǎn)生的影響,本文選取top-k個候選實體作為構(gòu)建多特征圖的節(jié)點,當候選實體個數(shù)小于等于k時,選取指稱項所有的候選實體作為它最終的候選實體;當候選實體個數(shù)大于k時,定義指稱項與候選實體的相似度為指稱相似度,選取相似度最大的k個候選實體作為最終的候選實體。本文指稱相似度由衡量字符串特征的編輯距離語法相似度以及表示語義特征的上下文語義相似度構(gòu)成。
(1)表示字符串特征的編輯距離語法相似度
編輯距離(edit distance,ED)是兩個字符串之間,由一個字符串通過替換、插入和刪除等一系列操作轉(zhuǎn)換成另一個字符串所需的最少編輯操作代價。用EDm,ei(x,y)來表示字符串m和ei之間的編輯距離,其中x和y分別表示m和ei的長度。為統(tǒng)一量綱,本文對編輯距離進行歸一化處理,如式(1)所示。當m和ei完全相同時,NED=0;反之,當m和ei完全不同時,NED=1,即NED(m,ei)∈[0,1]。
本文利用編輯距離對兩字符串間的接近或相似程度進行衡量,將歸一化的編輯距離轉(zhuǎn)換為詞語間的語法相似度,如式(2)所示,其值越大,表明兩字符串的編輯距離越小,則越相似。
(2)表示語義特征的上下文語義相似度
編輯距離只反映了m和ei之間的字符串特征,未考慮任何語義特征,然而考慮到同一個實體所處的上下文環(huán)境相似,本文利用實體指稱的上下文和候選實體在知識庫中的上下文之間的文本特征計算實體指稱與候選實體的相似性。對于m和ei之間的文本特征,采用經(jīng)典的向量空間模型(vector space model,VSM)進行計算,通過空間上的相似性直觀易懂地表達語義的相似度。
首先對實體指稱和候選實體的上下文進行分詞、停用詞去除等預(yù)處理,再利用詞袋模型將2個文本表示為向量,并計算2個向量之間的余弦值作為實體指稱與候選實體的文本語義相似度,計算公式如式(3):
其中,X表示實體指稱m上下文的詞向量,Y表示候選實體ei的詞向量,X·Y表示向量內(nèi)積,||X||表示向量長度。
本文將上述兩種相似度的線性組合作為實體指稱與候選實體之間的指稱相似度,如式(4)所示:
2.2.2 候選實體關(guān)系挖掘
實體關(guān)系屬性是候選實體的重要屬性之一,這種屬性可以直接通過多特征圖中的邊表示。本文構(gòu)建的領(lǐng)域知識庫的Dump_finance數(shù)據(jù)中含有豐富的關(guān)系屬性,本文通過檢索頭、尾實體為候選實體的三元組,獲得候選實體間的關(guān)系屬性,從而使候選實體相互連通形成網(wǎng)絡(luò)圖。具體過程為對每個實體指稱的候選實體集合中的每個元素分別與其他候選實體集合中的所有元素進行關(guān)系查找,如果兩者之間存在直接三元組或者具有2-hop的路徑,則認為兩候選實體之間存在關(guān)系,對應(yīng)多特征圖中兩節(jié)點之間生成連接的邊。為豐富消歧信息,提高實體消歧的準確性,在多特征圖的構(gòu)建過程中,既考慮了候選實體間的直接關(guān)系,又將2-hop內(nèi)的間接關(guān)系體現(xiàn)在圖中。
2.2.3 基于上下文語義相似度的權(quán)值計算
因為候選實體本身帶有一定的描述信息,利用該語義信息可以計算不同實體指稱的候選實體間的相似度,從而生成節(jié)點之間的邊權(quán)值。本文將候選實體的描述文本表示為其上下文的文本向量,通過文本向量間的距離衡量不同指稱的候選間的相似程度,其值由式(3)的余弦相似度計算所得。
綜上,本文將構(gòu)建的具有節(jié)點標簽且能表示候選實體間語義關(guān)系及相似程度的有向加權(quán)圖稱之為多特征圖??紤]某些實體指稱只有唯一候選實體,這類無歧義候選實體即為消歧結(jié)果,無需構(gòu)建于圖中,簡化了圖的大小和后續(xù)圖計算的復雜度。如圖1所示,多特征圖中節(jié)點由候選實體及候選實體之間的2-hop間接關(guān)系組成,邊由不同實體指稱的候選實體間的語義關(guān)系組成。圖1中方形節(jié)點為實體指稱,虛線表示實體指稱與候選實體的對應(yīng)關(guān)系,其上的權(quán)值為指稱相似度,將作為候選實體節(jié)點的權(quán)值,因此本文構(gòu)建的多特征圖中不包含實體指稱。
圖1 多特征圖示例Fig.1 Example of multi-feature graph
本文利用協(xié)同消歧的思想,即同一段文本的實體指稱語義相近,推斷知識庫中的候選實體語義也相近[12]。同時在眾多實體指稱的候選實體中,唯一候選實體作為無歧義候選,其與其他實體指稱的候選實體的關(guān)聯(lián)性對確定目標實體具有一定的影響,因此本文將唯一候選實體與其他候選實體的關(guān)聯(lián)性作為節(jié)點的影響特征。
對無歧義候選實體集合Ei′中的元素分別與圖中其他候選實體集合Ei中的每個元素進行關(guān)系查找,通過檢索特定金融領(lǐng)域知識庫的Dump_finance數(shù)據(jù)中的三元組,如果E′i中的元素與Ei中的元素之間存在直接三元組,說明該候選實體與唯一候選實體之間有關(guān)聯(lián),則增加圖中相應(yīng)候選實體的影響特征,每出現(xiàn)一個三元組則影響特征值加θ,其中θ∈(0,1)。
與此同時,實體指稱與候選實體之間的指稱相似度也作為衡量該候選實體影響力的因素之一,因此實體影響力的具體定義如下。
定義1(實體影響力)無歧義候選的影響特征值與指稱相似度之和。
本文利用多特征圖的多屬性特征,確定圖中候選實體選擇的兩種因素,一種是候選實體影響力,包括無歧義候選的影響特征和指稱相似度,反映候選實體在圖中的影響力大??;另一種是利用PageRank算法計算節(jié)點的重要程度。
PageRank算法是基于實現(xiàn)網(wǎng)頁重要性排序的一種算法。本文將圖中的節(jié)點對應(yīng)為實體概念,然后通過PageRank算法捕捉圖模型中各個節(jié)點的重要程度。常規(guī)的PageRank算法只考慮了出入度的平均分配,即某個節(jié)點的PageRank值為它入度節(jié)點集中每個入度節(jié)點的PageRank值除以它們的出度邊數(shù)之和。本文將PageRank計算公式進行修改,以適應(yīng)本文的有向加權(quán)圖,每個入度節(jié)點給出的值大小不再是平均分配,而是引入多特征圖中代表候選實體間相似度的邊權(quán)值,按權(quán)值占比大小分配,具體公式如下:
其中,N為節(jié)點數(shù),M(ei)表示鏈入ei節(jié)點的集合,N(ej)表示鏈出ej節(jié)點的集合,W(ej,ei)是節(jié)點ej、ei之間邊權(quán)值,d為阻尼因子,一般取0.85。達到平穩(wěn)狀態(tài)時的PR值表示了各節(jié)點的重要程度。
本文綜合考慮實體影響力及節(jié)點的重要程度進行消歧。在消歧過程中,采用動態(tài)決策策略依次對每個實體指稱進行消歧,計算所有節(jié)點的PageRank值,將各節(jié)點的影響力與PageRank值相加,作為候選實體的綜合評分,分數(shù)越高的候選實體越優(yōu)先消歧;若出現(xiàn)不同指稱中多個候選的綜合評分相同,則選擇候選個數(shù)最多的實體指稱優(yōu)先消歧。每確定一個實體指稱的目標實體,則對多特征圖中節(jié)點進行修剪,將該實體指稱的其他候選實體從多特征圖中移除,以減少后續(xù)的計算量,具體算法如算法1所示。圖1最終的消歧結(jié)果如圖2所示。
圖2 消歧結(jié)果Fig.2 Disambiguation results
算法1ED_MG&EI Algorithm
Input:G,每個節(jié)點的影響力
Output:mention_entity_Dic(實體指稱對應(yīng)的目標實體)
Begin
1.對圖G計算PageRank;
2.將每個節(jié)點的影響力加到其PageRank值上;
3.獲取PageRank值+影響力最高的候選實體entity;
4.將entity對應(yīng)實體指稱mention的其他候選實體以及相關(guān)邊從G中移除并在mention_entity_Dic中添加mention_entity_Dic[MENTION]=entity;
5.若mention_entity_Dic中的實體指稱沒有完全確定,返回1;
6.返回mention_entity_Dic;
End
本文基于pycharm在Windows10環(huán)境下實現(xiàn)。實驗采用從財經(jīng)網(wǎng)、南方財富網(wǎng)、搜狐財經(jīng)、新浪微博等網(wǎng)站爬取的金融活動文本為數(shù)據(jù)集。人工選取包含歧義實體較多的500篇文本,其中200篇作為訓練數(shù)據(jù),訓練指稱相似度中編輯距離語法相似度與上下文語義相似度的最優(yōu)權(quán)值參數(shù),300篇作為測試數(shù)據(jù)分析實驗方法性能。語料預(yù)處理過程采用分詞工具完成,包括分詞、去停用詞等過程。人工標記出與金融活動相關(guān)的公司實體和個人實體,通過命名實體識別可從文本中識別出共1 230個實體指稱,通過人工方式標注了所有實體指稱對應(yīng)的正確實體(含NIL實體)。
本文采用準確率(Precision)、召回率(Recall)、F值三種評價指標,對提出方法的有效性進行驗證。
實驗1特征參數(shù)的設(shè)置分析
將200篇文本構(gòu)成的訓練數(shù)據(jù)用于訓練生成權(quán)值參數(shù)的最優(yōu)解,在指稱相似度中包含語法特征和語義特征兩種,分別分配給兩特征參數(shù)α和β,令α和β相加得1。測試實驗使得兩個特征同時發(fā)揮最大作用,通過對準確率Precise的分析,確定式(4)中α和β的最優(yōu)值,如圖3所示,當α=0.40、β=0.60時,準確率達到最大值。
圖3 參數(shù)設(shè)置Fig.3 Parameter setting
實驗2利用不分類候選生成圖和去除無歧義候選的多特征圖消歧的實驗結(jié)果對比
實驗2將所有實體指稱生成的候選集都作為圖節(jié)點,構(gòu)建不分類候選生成圖;按候選實體分類將包含多個候選實體的實體指稱對應(yīng)的候選集作為圖節(jié)點,構(gòu)建多特征圖。表1為利用不分類候選生成圖和去除無歧義候選的多特征圖進行消歧的結(jié)果,由于本文多特征圖中去除了無歧義候選,有效降低了圖的規(guī)模,同時將節(jié)點影響力及節(jié)點的重要程度作為節(jié)點的綜合評分,有效提高了消歧的準確性。
表1 不分類候選生成圖和多特征圖的實驗結(jié)果對比Table 1 Comparison of results between unclassified candidate generating graph and multi-feature graph單位:%
實驗3局部消歧、協(xié)同消歧和本文的集成消歧實驗結(jié)果對比
為分析多種特征的有效性,本實驗在基線系統(tǒng)的基礎(chǔ)上分別疊加局部消歧、協(xié)同消歧和本文結(jié)合兩種策略產(chǎn)生的集成實體消歧方法,三種方法與基線系統(tǒng)進行對比,實驗結(jié)果如表2所示。
表2 消歧策略實驗結(jié)果對比Table 2 Comparison of experimental results of disambiguation strategies 單位:%
實驗4無向無權(quán)圖與本文有向加權(quán)圖方法實驗結(jié)果對比
本文在現(xiàn)有圖方法的基礎(chǔ)上進行改進,將圖變換成精度更高、信息更豐富的有向加權(quán)圖,知識庫三元組的頭節(jié)點及尾節(jié)點提供有向邊,圖節(jié)點之間的相似性及語義關(guān)系為邊提供權(quán)值,有向加權(quán)圖使PageRank的計算結(jié)果更準確,實驗進行有向加權(quán)圖和無向無權(quán)圖方法對比,實驗結(jié)果如表3所示。
表3 無向無權(quán)圖和本文有向加權(quán)圖方法實驗結(jié)果對比Table 3 Comparison of experimental results between undirected unweighted graph method and proposed directed weighted graph method 單位:%
實驗5不同領(lǐng)域數(shù)據(jù)集對比
本文針對特定領(lǐng)域,在金融活動相關(guān)文本中提取實體,分析非法金融活動,在金融新業(yè)態(tài)角度研究非法金融活動的界定,構(gòu)建金融領(lǐng)域知識庫輔助消歧,因此相較于其他領(lǐng)域,金融領(lǐng)域文本的實體消歧效果更理想,實驗結(jié)果如表4所示。
表4 不同領(lǐng)域?qū)嶒灲Y(jié)果對比Table 4 Comparison of experimental results in different fields單位:%
實驗6不同方法實驗結(jié)果對比
實驗在金融領(lǐng)域數(shù)據(jù)集上復現(xiàn)了張濤等人[19]和高艷紅等人[20]的方法,張濤等人[19]提出了一種基于圖模型的維基概念相似度計算方法,有效地捕捉實體指稱項文本與候選實體間的語義相似度。但圖構(gòu)建沒有充分利用特征的表達,影響相似度計算。高艷紅等人[20]提出了一種融合多特征的解決方案,將語義相似度融合到圖模型中,但由于其構(gòu)建的實體指稱-候選實體圖僅能對單一實體指稱進行消歧,不適用于文本中多實體指稱的集成消歧。本文針對上述問題,將無歧義候選實體去除,以降低圖規(guī)模,同時綜合考慮字符串特征、語義特征、實體影響力以及節(jié)點的重要程度等特征因素,以獲得可信度較高的消歧結(jié)果,實驗結(jié)果對比如表5所示。
表5 本文方法與其他方法實驗結(jié)果對比Table 5 Experimental results of this method compared with other methods 單位:%
本文對特定領(lǐng)域的實體消歧問題進行了研究,提出了一種融合多特征圖及實體影響力的領(lǐng)域?qū)嶓w消歧方法。以金融領(lǐng)域為例,首先構(gòu)建金融領(lǐng)域知識庫,然后針對金融活動類文本,提取待消歧實體指稱,利用構(gòu)建的金融知識庫,融合字符串及語義的相似特征,實體影響力及節(jié)點重要程度等特征屬性構(gòu)建多特征圖;最后采用動態(tài)決策策略,利用PageRank算法,并結(jié)合實體影響力計算多特征圖中候選實體的綜合評分,進而獲得可信度較高的消歧結(jié)果。實驗結(jié)果驗證了提出方法在特定領(lǐng)域?qū)嶓w消歧的精確度。