国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向科技人才情報(bào)的多策略組合模型同名消歧方法*

2018-09-03 09:53
通信技術(shù) 2018年8期
關(guān)鍵詞:科技人才知識庫向量

劉 林

( 杭州電子科技大學(xué) 計(jì)算機(jī)學(xué)院,浙江 杭州 310018)

0 引 言

近年來,隨著科技成果轉(zhuǎn)化產(chǎn)業(yè)的發(fā)展,企業(yè)對科技成果轉(zhuǎn)化的需求日益擴(kuò)大。它們急需尋找到合適的科技人才來解決企業(yè)技術(shù)難題,因此搭建一個(gè)面向企業(yè)的科技人才搜索引擎具有重要的現(xiàn)實(shí)意義。網(wǎng)絡(luò)爬蟲是搜索引擎最重要的數(shù)據(jù)來源。然而,由于數(shù)據(jù)的多源異構(gòu)性,采集的數(shù)據(jù)往往存在一定的噪音,如科技人才的同名歧義現(xiàn)象等。如果對同名歧義數(shù)據(jù)不做消歧處理,那么將無法保證搜索結(jié)果的準(zhǔn)確性。

當(dāng)前的同名消歧方法主要有以下三種。一是基于向量空間模型的聚類消歧方法,如楊欣欣通過抽取網(wǎng)頁中與人名相關(guān)的特征及命名實(shí)體,利用二階段聚類算法實(shí)現(xiàn)同名消歧[1];辛濤提出利用待消歧人名的組合特征,通過層次凝聚聚類(Hierarchical Agglomerative Clustering,HAC)算法來實(shí)現(xiàn)同名消歧[2]。二是基于社會網(wǎng)絡(luò)的聚類消歧方法,如郎君利用檢索結(jié)果中共現(xiàn)人名構(gòu)建社會網(wǎng)絡(luò),并結(jié)合譜分割算法和模塊度指標(biāo)進(jìn)行聚類實(shí)現(xiàn)同名消解[3];2014年,Mohammad-Hossein等人提出的CSLR方法是通過合著者構(gòu)建社會網(wǎng)絡(luò),并結(jié)合姓名模糊度因子進(jìn)行聚類實(shí)現(xiàn)同名消歧[4]。三是基于實(shí)體鏈接的消歧方法,如Peng通過計(jì)算待消歧人物文本與知識庫實(shí)體文本的相似度,實(shí)現(xiàn)實(shí)體鏈接的映射以達(dá)到消歧目的[5];寧博通過抽取中文維基百科等知識庫形成實(shí)體對象,并與待消歧對象進(jìn)行鏈接以實(shí)現(xiàn)重名消歧[6]。

基于向量空間模型的聚類消歧方法將不同的特征組合在一起,沒有考慮不同特征之間的區(qū)分度問題?;谏鐣W(wǎng)絡(luò)的聚類消歧方法僅使用了人名的社會關(guān)系特性,適用性一般?;趯?shí)體鏈接的消歧方法對知識庫信息的完整性要求過高。此外,以上的同名消歧方法,初始條件只有人名這單一信息,消歧外延過大。為此,本文通過工作單位這一具有高區(qū)分度的特征來縮小消歧外延,將同名消歧問題具體化到姓名相同、單位不同的科技人才歧義消解問題上,并利用科技人才的成果信息(包括學(xué)術(shù)論文、專利和科研項(xiàng)目)組合多個(gè)消歧策略,提出了一種基于多策略組合模型(Combination Model of Multi-Strategy,CMMS)的消歧方法。

1 流程框架及數(shù)據(jù)準(zhǔn)備

為了搭建科技人才搜索引擎,本文利用分布式爬蟲技術(shù)從互聯(lián)網(wǎng)上采集海量的科技成果,包括學(xué)術(shù)論文、專利和科研項(xiàng)目,并從中提取作者、負(fù)責(zé)人及其工作單位等信息,經(jīng)過必要的數(shù)據(jù)預(yù)處理形成待消歧數(shù)據(jù)集。同時(shí),將采集的科技成果進(jìn)行向量化表示,以便后續(xù)計(jì)算成果相似度時(shí)使用。另外,從高校和科研院所官方網(wǎng)站采集科技人才信息,構(gòu)建科技人才知識庫。整個(gè)流程框架如圖1所示。

圖1 流程框架

1.1 數(shù)據(jù)預(yù)處理

從科技成果中提取作者或負(fù)責(zé)人的工作單位后發(fā)現(xiàn),關(guān)于單位信息有很多噪音。

一種情況是單位之間具有包含關(guān)系,如從專利《一種基于文檔評分模型和相關(guān)度的學(xué)術(shù)論文搜索排序方法》(申請?zhí)枺篊N201710461109.9)中抽取得到科研人才徐小良的工作單位是杭州電子科技大學(xué),從學(xué)術(shù)論文《基于RSS空間線性相關(guān)的WLAN位置指紋定位算法》中抽取得到科技人才徐小良的工作單位是杭州電子科技大學(xué)計(jì)算機(jī)學(xué)院。針對此種情況,直接依據(jù)單位之間的包含關(guān)系進(jìn)行消歧,認(rèn)為他們屬于同一個(gè)現(xiàn)實(shí)實(shí)體。

另一種情況是工作單位出現(xiàn)曾用名。由于時(shí)代的發(fā)展,很多高校和科研院所都存在改名或合并的情況。如果一位科技人才在某一個(gè)單位工作的時(shí)間較長,且在該單位改名前后都有成果發(fā)表,那么從成果中提取科技人才時(shí)就會出現(xiàn)錯誤。比如,從科技成果中可以提取到“嚴(yán)義,杭州電子工業(yè)學(xué)院”和“嚴(yán)義,杭州電子科技大學(xué)”。實(shí)際上,杭州電子工業(yè)學(xué)院在2004年改名為杭州電子科技大學(xué)。為了避免這種情況的發(fā)生,本文利用分布式爬蟲技術(shù)采集現(xiàn)有的高校和科研院所名單及其改名或合并信息,并對抽取得到的科技人才的工作單位進(jìn)行規(guī)范化處理,一律使用現(xiàn)用名替代曾用名。這也屬于一種同名消歧的方法。

1.2 成果向量化表示

為了計(jì)算科技成果之間的相似度,需要將它們進(jìn)行向量化表示。本文采用詞向量模型Word2vec表示科研人才的成果。首先,通過海量的語料庫訓(xùn)練詞向量;其次,構(gòu)建語義化的科技成果向量;最后,計(jì)算成果之間的相似度,用于同名消歧。

成果向量化表示的具體步驟如下。

(1)構(gòu)建語料庫。語料庫由學(xué)術(shù)論文、專利和科研項(xiàng)目三項(xiàng)成果組成。鑒于每一種成果都有很多屬性,只選取強(qiáng)特征屬性。因此,選取了學(xué)術(shù)論文的標(biāo)題、摘要和關(guān)鍵詞3個(gè)屬性,選取了專利的標(biāo)題和摘要2個(gè)屬性,選取了科研項(xiàng)目的標(biāo)題、中文摘要和中文主題詞3個(gè)屬性。選好屬性后,將屬性的內(nèi)容以字符串拼接的形式構(gòu)成一段文本,該段文本就表示一項(xiàng)成果,從而形成了一個(gè)大型的語料庫。

(2)處理語料庫。訓(xùn)練詞向量前,需要對語料庫進(jìn)行分詞、過濾停用詞和提取特征詞的處理。準(zhǔn)確的分詞需要高效的分詞算法和高質(zhì)量的詞庫。結(jié)巴分詞滿足了需求,是目前最好的Python中文分詞工具包,分詞準(zhǔn)確、運(yùn)行速度快且占用資源少[7]。中文中有許多使用廣泛但實(shí)際意義不大的詞,如“的”“了”和“這”等,被稱為停用詞(Stop Words)。分詞時(shí),需要將這些停用詞過濾掉。對于這類停用詞,網(wǎng)絡(luò)上有許多公開的停用詞庫,如哈工大停用詞庫、百度停用詞庫等。在成果文本中,還有很多類似“基于”“研究”“提出”和“方法”等高頻詞。這些詞不僅不能反映成果文本的特征,還影響語義表達(dá)的準(zhǔn)確性,因此分詞時(shí)也需要剔除。剔除這類詞可以構(gòu)建自定義的停用詞庫來完成。經(jīng)過公開的停用詞庫和自定義的停用詞庫過濾后,將得到處理后的分詞結(jié)果。同時(shí),本文通過提取科技成果的關(guān)鍵詞或主題詞構(gòu)建科技領(lǐng)域詞典,用該科技詞典來進(jìn)行成果的特征詞提取。

(3)訓(xùn)練詞向量。語料庫處理完成后,可以訓(xùn)練詞向量。本文采用Google開源的詞向量表示工具Word2vec,并選擇CBOW模型訓(xùn)練語料庫,設(shè)置詞向量的維度為300維,最后輸出詞向量文件。

(4)生成成果向量。將每項(xiàng)成果的所有特征詞所對應(yīng)的詞向量相加,就得到了該項(xiàng)成果的向量表示。最終得到的成果向量如圖2所示。

圖2 成果向量

2 基于多策略組合模型的科技人才消歧方法

如上所述,本文的消歧對象是姓名相同、單位不同的科技人才。由于數(shù)據(jù)的多源異構(gòu)性,通過網(wǎng)絡(luò)爬蟲采集的科技人才難免會出現(xiàn)同名歧義的問題。為了解決這一問題,本文在已采集的科研人才信息基礎(chǔ)上,通過組合多個(gè)策略構(gòu)建決策模型,以對姓名相同、單位不同的科技人才進(jìn)行消歧,即多策略組合模型(Combination Model of Multi-Strategy,CMMS)。所考慮的消歧策略包括實(shí)體鏈接、成果時(shí)間窗、成果合著者和成果相似度。為了便于描述,設(shè)兩個(gè)姓名相同、單位不同的科研人才分別為 P1和 P2。

2.1 基于實(shí)體鏈接的消歧策略

實(shí)體鏈接消歧策略是一種將待消歧對象與現(xiàn)實(shí)世界中的實(shí)體進(jìn)行匹配鏈接以達(dá)到消歧目的的方法[8]。該方法的重點(diǎn)和難點(diǎn)是構(gòu)建現(xiàn)實(shí)世界實(shí)體對象的知識庫。本文采用分布式爬蟲技術(shù),從高校和科研院所官方網(wǎng)站采集科技人才信息構(gòu)建科技人才知識庫,并以月為周期進(jìn)行更新和增量采集,確保構(gòu)建的知識庫信息及時(shí)準(zhǔn)確。

本文的初始條件是已知待消歧對象的姓名和工作單位,因此在進(jìn)行實(shí)體鏈接時(shí),只需要對姓名和工作單位進(jìn)行匹配即可。

判斷規(guī)則如下:

(1)若P1與知識庫中的的姓名和單位相匹配,則認(rèn)為是P1的實(shí)體鏈接;若P2與知識庫中的的姓名和單位相匹配,則認(rèn)為是 P2的實(shí)體鏈接。因?yàn)楹褪遣煌膶?shí)體,所以認(rèn)為P1和P2是不同的人。

(2)當(dāng)P1和P2中只要有一個(gè)沒有實(shí)體連接,則無法判斷P1和P2是否為同一人,需要進(jìn)一步利用其他策略進(jìn)行判斷。

該策略是一個(gè)很好的消歧策略,能直截了當(dāng)?shù)貙?shí)現(xiàn)一些待消歧對象的消歧。但是,科技人才的范疇十分廣泛。高校和科研院所的工作人員只是科技人才的一部分,企業(yè)和其他機(jī)構(gòu)同樣擁有大量的科技人才。由于隱私性等原因,采集這些科技人才的信息十分困難。因此,該策略的局限性顯而易見,其消歧效果直接受知識庫數(shù)據(jù)規(guī)模的影響。

圖3 成果時(shí)間窗之間的關(guān)系

2.2 基于成果時(shí)間窗的消歧策略

成果時(shí)間集是指一個(gè)科技人才已取得的所有科技成果的年份的集合。將這些年份數(shù)字按照從小到大進(jìn)行排序,選取最早和最晚的年份作為端點(diǎn),將端點(diǎn)及其內(nèi)部的所有年份構(gòu)成的年份窗口叫作成果時(shí)間窗。具體地,對于學(xué)術(shù)論文,選取該論文被出版的刊期年份;對于專利,選取專利的公開日年份;對于科研項(xiàng)目,選取項(xiàng)目的實(shí)施年份。

任何兩個(gè)科技人才的成果時(shí)間窗都具有相離、相交、包含三種關(guān)系,如圖3所示。

現(xiàn)實(shí)世界中,一個(gè)科技人才在某一時(shí)間段內(nèi)只能擁有一個(gè)正式的工作單位??萍既瞬旁诠ぷ鲉挝凰〉玫某晒麣w單位所有。因此,可以根據(jù)科技人才所取得的成果的時(shí)間窗來判斷兩個(gè)姓名相同單位不同的科技人才在現(xiàn)實(shí)世界中是否為同一個(gè)人。

設(shè)P1和P2的成果時(shí)間窗分別為ATW1和ATW2,判斷規(guī)則如下。

(1)若ATW1和ATW2交集的元素個(gè)數(shù)大于2,則認(rèn)為P1和P2不可能為同一個(gè)人,即P1和P2是兩個(gè)人。

(2)若ATW1和ATW2交集的元素的個(gè)數(shù)小于或等于2,則無法判斷P1和P2是否為同一個(gè)人,需要利用其他策略進(jìn)行判斷。

該策略利用了科技人才成果時(shí)間窗的互斥屬性來實(shí)現(xiàn)排歧,但是它無法消除工作單位發(fā)生變動的同名科技人才的歧義問題。

2.3 基于成果合著者的消歧策略

人們在進(jìn)行科研活動時(shí),往往以課題組或科研團(tuán)隊(duì)的形式進(jìn)行。這種形式在科技成果上的表現(xiàn)就是一項(xiàng)科技成果有多個(gè)參與者。從待消歧對象的科技成果中抽取成果合著者,構(gòu)成成果合著者集合。具體實(shí)現(xiàn)時(shí),將使用二層合著者關(guān)系挖掘合著者,如圖4所示。

圖4 二層成果合著者

設(shè)P1的直接合著者構(gòu)成的集合為A,二層合著者構(gòu)成的集合為A',P2的直接合著者構(gòu)成的集合為B,二層合著者構(gòu)成的集合為B',判斷規(guī)則如下:

(1)只要 A∩ B、A ∩ B'、A'∩ B、A'∩ B'有一個(gè)不為空集,即P1和P2有成果合著者,則認(rèn)為P1和P2是同一個(gè)人。

(2)若 A ∩B、A ∩B'、A'∩ B、A'∩ B'都為空集,則無法判斷P1和P2是否為同一個(gè)人,需要利用其他策略進(jìn)行判斷。

該策略依據(jù)“物以類聚,人以群分”的思想,通過待消歧對象的學(xué)術(shù)網(wǎng)絡(luò)實(shí)現(xiàn)消歧。然而,它僅僅利用了關(guān)系網(wǎng)絡(luò)這單一屬性,消歧效果并不顯著。

2.4 基于成果相似度的消歧策略

通常情況下,一個(gè)科技人才的研究方向會隨著時(shí)代的發(fā)展發(fā)生一些變化,但是其研究領(lǐng)域是不會發(fā)生重大變化的。比如,從建筑領(lǐng)域轉(zhuǎn)到醫(yī)療領(lǐng)域,概率是極低的,可以認(rèn)為幾乎不可能。基于以上的現(xiàn)實(shí)情況可以認(rèn)為,一個(gè)科技人才在其成果時(shí)間窗內(nèi)所取得的成果都是屬于某一個(gè)研究領(lǐng)域的,即其成果具有很高的相似度。根據(jù)這個(gè)結(jié)論,可以通過計(jì)算兩個(gè)姓名相同、單位不同的科技人才的成果相似度來進(jìn)行消歧。

為了計(jì)算成果之間的相似度,首先需要將成果進(jìn)行向量化表示。本文采用詞向量模型Word2vec表示科研人才的成果。成果向量化表示后,采用余弦相似度來計(jì)算成果之間的相似度。設(shè)P1和P2的成果集分別為 AC1=(x1,…,xi,…,xm)和 AC2=(y1,…,yj,…,yn),其中m、n表示成果的個(gè)數(shù)。兩個(gè)成果xi、yj之間的相似度計(jì)算公式為:

將兩個(gè)成果集AC1和AC2中所有的成果之間的相似度計(jì)算完成后,取所有相似度的平均值作為兩個(gè)成果集之間的相似度,即:

然后,通過設(shè)定的相似度閾值θ可以進(jìn)行判斷了,具體規(guī)則如下:

(1)若sim(AC1,AC2)≥θ,則認(rèn)為P1和P2是同一個(gè)人;

(2)若sim(AC1,AC2)<θ,則認(rèn)為P1和P2是兩個(gè)人。

該策略利用科技人才的研究領(lǐng)域具有極強(qiáng)的固定性這一現(xiàn)象將其成果向量化表示。運(yùn)用計(jì)算成果之間的相似度來實(shí)現(xiàn)消歧,其消歧的準(zhǔn)確性直接依賴于相似度閾值的設(shè)定。

2.5 多策略組合模型消歧方法

前面分別介紹了基于實(shí)體鏈接、成果時(shí)間窗、成果合著者和成果相似度的消歧策略。然而,每個(gè)策略都有其局限性:基于實(shí)體鏈接的消歧策略的效果依賴于知識庫的數(shù)據(jù)規(guī)模;基于成果時(shí)間窗的消歧策略無法實(shí)現(xiàn)對工作單位發(fā)生變動的同名科技人才進(jìn)行消歧;基于成果合著者的消歧策略效果一般;基于成果相似度的消歧策略的準(zhǔn)確性取決于相似度閾值的設(shè)定。鑒于上述原因,將以上的4種消歧策略進(jìn)行組合,提出了多策略組合模型CMMS的消歧方法,其組合形式如圖5所示。

圖5 多策略組合模型組織形式

當(dāng)對兩個(gè)姓名相同、單位不同的科研人才P1和P2進(jìn)行消歧時(shí),首先將他們與科技人才知識庫進(jìn)行匹配。若在知識庫中找到了他們的實(shí)體鏈接,則可以判定P1和P2屬于兩個(gè)不同的實(shí)體;若沒有匹配到實(shí)體鏈接,則判斷他們的成果時(shí)間窗的交集是否大于2。若大于2,則判定他們屬于兩個(gè)實(shí)體;若不大于2,則判斷他們有無成果合著者。若有成果合著者,則認(rèn)為P1和P2是同一個(gè)實(shí)體;否則,利用成果相似度來消歧。若成果相似度小于θ,判定他們屬于不同的實(shí)體;若成果相似度不小于θ,判定他們屬于同一實(shí)體。

然而,姓名相同、單位不同的科技人才往往有很多,將單位不同的某一姓名的科技人才構(gòu)成的集合稱為該姓名所對應(yīng)的偽集合。之所以稱為偽集合,是因?yàn)榧侠锩娴脑乜赡苤貜?fù)。不妨設(shè)該偽集合的元素個(gè)數(shù)為n。那么,消歧將擴(kuò)展為對n個(gè)姓名相同、單位不同的科技人才的消歧。

消歧過程實(shí)際上就轉(zhuǎn)化為:

(1)從偽集合中任選兩個(gè)元素Pi和Pj,通過模型進(jìn)行判斷;

(2)若Pi和Pj為同一個(gè)人,則將他們合并,偽集合的元素個(gè)數(shù)變?yōu)閚-1;重復(fù)步驟(1),直至所有的元素之間都通過模型進(jìn)行了判斷;

(3)若Pi和Pj為兩個(gè)人,則將偽集合裂變成兩個(gè)子偽集合,重復(fù)步驟(1),直至所有的元素之間都通過模型進(jìn)行了判斷。

根據(jù)排列組合原理,很容易得到進(jìn)行判斷的次數(shù)在n-1到Cn2之間。

3 實(shí)驗(yàn)設(shè)計(jì)及分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)數(shù)據(jù)來源于第2章所述的待消歧數(shù)據(jù)集。由于數(shù)據(jù)量巨大,本文選取10個(gè)姓名所對應(yīng)的偽集合作為實(shí)驗(yàn)數(shù)據(jù)并進(jìn)行了人工消歧,數(shù)據(jù)如表1所示。同時(shí),將消歧過程中未與其他待消歧對象合并的對象稱為獨(dú)立實(shí)體,與其他待消歧對象合并的對象稱為非獨(dú)立實(shí)體。例如,在消歧前偽集合為(A,B,C),消歧后的結(jié)果為(A,BC),則稱A為獨(dú)立實(shí)體,B和C為非獨(dú)立實(shí)體。

表1 實(shí)驗(yàn)數(shù)據(jù)

3.2 評價(jià)指標(biāo)

本實(shí)驗(yàn)采用實(shí)體消歧方法中最常用的查準(zhǔn)率P、召回率R和綜合評價(jià)指標(biāo)F1作為評價(jià)指標(biāo)。針對一個(gè)偽集合,設(shè)TP表示被消歧模型判定為獨(dú)立實(shí)體且實(shí)際上也是獨(dú)立實(shí)體的個(gè)數(shù),F(xiàn)P表示被消歧模型判定為獨(dú)立實(shí)體而實(shí)際上卻是非獨(dú)立實(shí)體的個(gè)數(shù),TN表示被模型判定為非獨(dú)立實(shí)體且實(shí)際上也是非獨(dú)立實(shí)體的個(gè)數(shù),F(xiàn)N表示被消歧模型判定為非獨(dú)立實(shí)體而實(shí)際上卻是獨(dú)立實(shí)體的個(gè)數(shù)。

評價(jià)指標(biāo)的計(jì)算公式如下:

式(3)、式(4)和式(5)中,P表示查準(zhǔn)率,R表示召回率,F(xiàn)1是結(jié)合查準(zhǔn)率和召回率的綜合評價(jià)指標(biāo)。

3.3 實(shí)驗(yàn)分析

本文從兩個(gè)角度對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析:一是相似度閾值θ的設(shè)定;二是將本文提出的多策略組合模型與基于成果聚類的消歧方法Word2vec+HAC及文獻(xiàn)[4]中提出的CSLR方法在實(shí)驗(yàn)數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn)。其中,Word2vec+HAC利用基于Python平臺的scikit-learn機(jī)器學(xué)習(xí)包實(shí)現(xiàn),CLSR方法根據(jù)文獻(xiàn)[4]中提供的下載程序?qū)崿F(xiàn)。

3.3.1 相似度閾值θ的設(shè)定

使用表1中的實(shí)驗(yàn)數(shù)據(jù),完成對相似度閾值的設(shè)定。通過枚舉法對成果向量之間的夾角β從15°到75°、步長為5°進(jìn)行實(shí)驗(yàn)。結(jié)果如表2所示,其中P值、R值和F1值都表示平均值。

表2 實(shí)驗(yàn)結(jié)果

可以看出,當(dāng)相似度的閾值在0.50~0.57時(shí),P值、R值和F1值較好。當(dāng)相似度閾值很大時(shí),只有兩個(gè)待消歧對象的成果非常相似時(shí),模型才會判定他們屬于同一實(shí)體。然而,如果一個(gè)科技人才從事科技活動的時(shí)間很長,雖然其研究領(lǐng)域幾乎不會發(fā)生重大轉(zhuǎn)變,但是其研究方向會隨著時(shí)代發(fā)生相應(yīng)變化,這樣就會導(dǎo)致本應(yīng)該合并的消歧對象沒有合并。當(dāng)相似度閾值設(shè)置很小時(shí),雖然能避免上述情況,但往往又會造成過度合并的情況。因此,在后面的實(shí)驗(yàn)中,將相似度閾值設(shè)定為0.50和0.57的平均值,即0.535。

3.3.2 CMMS與其他兩種方法的對比實(shí)驗(yàn)

將本文的CMMS方法與Word2vec+HAC方法和CLSR方法進(jìn)行對比實(shí)驗(yàn)。其中,Word2vec+HAC使用基于Python平臺的scikit-learn機(jī)器學(xué)習(xí)包實(shí)現(xiàn),CLSR方法根據(jù)文獻(xiàn)[4]中提供的下載程序?qū)崿F(xiàn),實(shí)驗(yàn)結(jié)果如表3所示。為了更直觀顯示實(shí)驗(yàn)效果,使用柱狀圖進(jìn)行表示,如圖6所示。

可知,CMMS方法的平均查準(zhǔn)率、平均召回率和平均F1值都優(yōu)于其他兩種方法。Word2vec+HAC和CSLR方法的三項(xiàng)評價(jià)指標(biāo)較為接近。

表3 實(shí)驗(yàn)結(jié)果

圖6 實(shí)驗(yàn)結(jié)果柱狀圖

4 結(jié) 語

針對目前同名消歧方法只考慮單一策略且消歧外延過大的問題,本文通過工作單位這一具有高區(qū)分度的特征來縮小消歧外延,將同名消歧問題具體化到姓名相同、單位不同的科技人才歧義消解問題上,并利用科技人才的成果信息,組合了實(shí)體鏈接、成果時(shí)間窗、成果合著者和成果相似度四個(gè)消歧策略,提出了一種基于多策略組合模型的消歧方法。實(shí)驗(yàn)結(jié)果表明,該方法取得了較好的同名消歧效果。同時(shí),在實(shí)驗(yàn)過程中發(fā)現(xiàn),知識庫在消歧中的作用很大,可以保障準(zhǔn)確度。因此,如何找到更高效的方法來豐富和擴(kuò)充知識庫以提高消歧效率,值得進(jìn)一步研究。

猜你喜歡
科技人才知識庫向量
向量的分解
漢語近義詞辨析知識庫構(gòu)建研究
聚焦“向量與三角”創(chuàng)新題
南陽市中小企業(yè)科技人才發(fā)現(xiàn)、培養(yǎng)、激勵機(jī)制研究
基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
科技人才是發(fā)展的推動力
寧陜農(nóng)業(yè)科技人才助產(chǎn)業(yè)脫貧
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
衛(wèi)星狀態(tài)智能診斷知識庫設(shè)計(jì)方法
司法| 顺平县| 鄱阳县| 山东省| 应城市| 阜南县| 石林| 吴川市| 宣武区| 石阡县| 临海市| 民乐县| 中山市| 任丘市| 鄱阳县| 韶关市| 永川市| 邻水| 都安| 屏边| 高尔夫| 彭阳县| 海丰县| 永泰县| 通化县| 阿鲁科尔沁旗| 分宜县| 交城县| 遵义县| 北票市| 凤翔县| 兴化市| 黔江区| 合肥市| 贵定县| 河西区| 沅江市| 凤山县| 湘潭市| 榆中县| 德阳市|