鄭才松,季 鐸,蔡?hào)|風(fēng)
(沈陽(yáng)航空航天大學(xué)知識(shí)工程中心,沈陽(yáng)110136)
隨著經(jīng)濟(jì)社會(huì)的發(fā)展,領(lǐng)域分工的日益明細(xì)化,專家在我們的日常工作生活中發(fā)揮著越來(lái)越大的作用。獲取專家信息,進(jìn)行加工整理,進(jìn)而構(gòu)建專家知識(shí)庫(kù)也逐漸引起人們的關(guān)注。很多機(jī)構(gòu)和部門也都在著手專家知識(shí)庫(kù)的構(gòu)建工作。人們之所以對(duì)專家知識(shí)庫(kù)的構(gòu)建如此熱衷,原因就在于專家知識(shí)庫(kù)無(wú)論對(duì)于個(gè)人還是機(jī)構(gòu)來(lái)講,都能在某種程度上提供較大的便利。比如對(duì)于科研人員來(lái)講,他們可以通過(guò)專家知識(shí)庫(kù)獲取某一領(lǐng)域的論文,從而解決科研中遇到的難題,促進(jìn)科研工作的順利開展。對(duì)于一些需要論文評(píng)審工作的機(jī)構(gòu)來(lái)講,可以通過(guò)專家知識(shí)庫(kù)的專家推薦功能,自動(dòng)地為投遞的論文選擇合適的專家評(píng)審。然而在專家知識(shí)庫(kù)的使用過(guò)程中,普遍存在這樣的問(wèn)題,當(dāng)用戶輸入專家名字時(shí),往往會(huì)發(fā)現(xiàn)很多不相關(guān)的同名專家論文出現(xiàn)在搜索結(jié)果中,使得用戶無(wú)法獲取原本所需的論文。如何降低這種由于重名現(xiàn)象所造成的影響,發(fā)揮專家知識(shí)庫(kù)的最大效能,成為研究者關(guān)注的問(wèn)題。于是,“同名區(qū)分”開始被提出,并且吸引了大批專家學(xué)者的關(guān)注。所謂“同名區(qū)分”,簡(jiǎn)單的講就是把給定的同一作者名字的文章集合劃分為若干類,使得每一類內(nèi)的文章的作者是同一個(gè)人[1]。本文在總結(jié)了以往的研究成果基礎(chǔ)上,提出基于系統(tǒng)融合的專家同名區(qū)分方法。經(jīng)實(shí)驗(yàn)證實(shí),該方法取得了較好的效果。本文結(jié)構(gòu)如下:首先介紹同名區(qū)分的相關(guān)研究工作,這部分主要是在總結(jié)以往同名區(qū)分的方法,以及本文提出基于系統(tǒng)融合的同名區(qū)分方法的背景。接下來(lái)介紹重名論文相似度計(jì)算的兩個(gè)方法。一個(gè)是從論文合作者關(guān)系角度出發(fā)的相似度計(jì)算方法,另一個(gè)是從內(nèi)容角度出發(fā)的相似度計(jì)算方法。再就是本文核心工作——基于系統(tǒng)融合的層次聚類方法。這部分對(duì)層次聚類方法和系統(tǒng)融合的方法做了詳細(xì)介紹。再接下來(lái)工作就是實(shí)驗(yàn),對(duì)所提方法進(jìn)行驗(yàn)證。最后對(duì)本文所提方法進(jìn)行總結(jié)。這部分包括方法存在的不足及其未來(lái)改進(jìn)的思路。
當(dāng)前的同名區(qū)分方法,基本上是將問(wèn)題轉(zhuǎn)化為機(jī)器學(xué)習(xí)的分類或聚類問(wèn)題。這些方法根據(jù)對(duì)訓(xùn)練數(shù)據(jù)的依賴程度大致分為兩大類:有監(jiān)督的同名區(qū)分方法,無(wú)監(jiān)督的同名區(qū)分方法。
在有監(jiān)督的同名區(qū)分方法中,文獻(xiàn)[2]使用了樸素貝葉斯方法和支持向量機(jī)方法。樸素貝葉斯方法通過(guò)計(jì)算某位作者寫某篇論文的后驗(yàn)概率進(jìn)行區(qū)分,支持向量機(jī)則將論文分到離他距離最近的作者類別中。兩種方法使用了包括合作者名字、論文關(guān)鍵詞和論文發(fā)表期刊關(guān)鍵詞等論文信息。文獻(xiàn)[3]提出了k-way譜聚類,分析了各個(gè)論文屬性如合作者、論文題目和發(fā)表期刊對(duì)同名區(qū)分的作用,除此之外還考慮了其他特征的影響,比如數(shù)據(jù)集的大小和特征權(quán)重。
在無(wú)監(jiān)督學(xué)習(xí)的同名區(qū)分方法中,文獻(xiàn)[4]基于主題模型進(jìn)行同名區(qū)分。文獻(xiàn)[5]將合作者關(guān)系看作是同名區(qū)分中比較有效的特征。該方法通過(guò)收集論文合作者關(guān)系,將這些關(guān)系用于聚類過(guò)程中進(jìn)行相似度計(jì)算。該文作者通過(guò)實(shí)驗(yàn)證明了合作者關(guān)系對(duì)于同名區(qū)分的有效性。文獻(xiàn)[6]通過(guò)將論文標(biāo)題提交給搜索引擎,將返回結(jié)果的網(wǎng)址信息作為論文的特征。然后通過(guò)余弦相似度計(jì)算論文相似度,利用聚類的方法將作者區(qū)分開。文獻(xiàn)[7]提出了一種基于圖算法的同名區(qū)分框架,將論文信息用圖來(lái)表示,通過(guò)尋找圖中路徑來(lái)計(jì)算相似度,最終根據(jù)聚類算法達(dá)到同名區(qū)分的目的。
總結(jié)以上研究方法,發(fā)現(xiàn)它們存在以下不足:一是選取特征較為單一,二是即使選取特征較多,特征之間沒(méi)能夠很好的融合在一起。這兩方面不足使得當(dāng)前的同名區(qū)分方法不能夠取得較好的效果。同時(shí),由于文獻(xiàn)數(shù)據(jù)的復(fù)雜性,也使得同名區(qū)分相比其他問(wèn)題存在以下幾個(gè)難點(diǎn):
(1)數(shù)據(jù)分布不均衡問(wèn)題。在同一作者的所有文獻(xiàn)中,往往出現(xiàn)一個(gè)作者論文占絕大多數(shù),而其他幾個(gè)同名作者僅有幾篇的情況。這種數(shù)據(jù)不均衡的問(wèn)題使得很多同名區(qū)分方法效果不明顯。
(2)作者論文信息不全問(wèn)題。我們很難得到所有的屬性信息,比如作者單位,郵箱等對(duì)區(qū)分其重要作用的信息大部分情況下是缺失的。
(3)各種屬性特征在區(qū)分中所起作用的不同,如合作者、Email、單位信息等強(qiáng)特征,本身具有很好的區(qū)分作用,而標(biāo)題和摘要信息相對(duì)來(lái)說(shuō)區(qū)分效果就弱一點(diǎn)。如果直接將這些特征簡(jiǎn)單的融合,導(dǎo)致強(qiáng)特征被弱特征擾亂,反而使準(zhǔn)確率下降。
結(jié)合以往研究成果,考慮到工程實(shí)踐的需要,本文提出基于系統(tǒng)融合的同名區(qū)分方法。系統(tǒng)融合一般分為模型的融合和結(jié)果的融合。本文用到的是結(jié)果的融合。首先從合作者關(guān)系和內(nèi)容兩個(gè)角度出發(fā),分別計(jì)算論文相似度,對(duì)論文進(jìn)行聚類。然后對(duì)聚類結(jié)果進(jìn)行融合。由于這種融合在一定程度上考慮到合作者關(guān)系本身存在的不足,這一不足在內(nèi)容方面得到彌補(bǔ),因而效果較好。
本文從合作者關(guān)系和內(nèi)容兩個(gè)角度出發(fā),進(jìn)行同名區(qū)分的研究。首先要做的工作就是計(jì)算論文相似度。下面分別介紹一下從這兩個(gè)角度出發(fā)的相似度計(jì)算方法。
同名區(qū)分研究中,合作者關(guān)系具有很強(qiáng)的區(qū)分作用。對(duì)于同一名字的兩篇論文來(lái)講,如果兩篇文章還有其它共同的作者,那么這兩篇論文的作者是同一個(gè)人的可能性就比較大。在這方面研究中,清華大學(xué)王建勇提出了 GHOST[7]算法,效果比較好。本文借鑒了該算法中的一部分?,F(xiàn)介紹一下相似度計(jì)算的整個(gè)過(guò)程。
整個(gè)過(guò)程分為三步:合作者圖構(gòu)建,路徑的查找,相似度計(jì)算。
合作者圖構(gòu)建:同一作者的論文集合D由一個(gè)無(wú)向圖G={V,E}來(lái)表示,其中每一個(gè)結(jié)點(diǎn)v∈V代表一個(gè)作者,每一個(gè)無(wú)向邊代表一個(gè)合作關(guān)系。每一個(gè)被區(qū)分的作者被認(rèn)為是不同的結(jié)點(diǎn),其余作者則只用一個(gè)點(diǎn)表示。
路徑的查找:如果兩篇論文存在合作者,那么兩個(gè)代表同名作者的點(diǎn)就可以通過(guò)一條或多條路徑聯(lián)系起來(lái)。因此,首要工作就是尋找不超過(guò)某個(gè)長(zhǎng)度的簡(jiǎn)單路徑。深度優(yōu)先搜索是一個(gè)尋找簡(jiǎn)單路徑的有效方法。通過(guò)這種方法尋找代表同名作者的點(diǎn)之間的所有路徑,從中選擇長(zhǎng)度小于4的路徑(稱之為有效路徑)。
相似度計(jì)算:基于以下的幾個(gè)假設(shè)利用所有的有效路徑計(jì)算兩個(gè)代表同名作者的點(diǎn)之間的相似度。①在所有的有效路徑中,最短的路徑往往是最有象征意義的。②兩個(gè)結(jié)點(diǎn)之間的路徑越多,兩個(gè)結(jié)點(diǎn)就越相似。③“六度分隔理論”揭示了每對(duì)作者都有相對(duì)大的概率聯(lián)系在一起,即使他們不是同一個(gè)人。這表明相對(duì)長(zhǎng)的路徑的貢獻(xiàn)應(yīng)該被減弱。假設(shè)結(jié)點(diǎn)有m(i,j)條有效路徑,并且路徑nth的長(zhǎng)度是ln,那么通過(guò)下面公式計(jì)算相似度:
摘要是文獻(xiàn)內(nèi)容的高度概括與總結(jié),根據(jù)不同的文獻(xiàn)作者研究的領(lǐng)域不同,這些領(lǐng)域特征性的詞匯一般會(huì)在文獻(xiàn)摘要中出現(xiàn),所以可以利用摘要屬性來(lái)解決同名區(qū)分問(wèn)題。
摘要信息屬于文本信息,在計(jì)算中首先將文獻(xiàn)中的摘要信息分詞,之后采用經(jīng)典文本聚類的方法計(jì)算摘要間的相似度,本文選用TF-IDF[8]模型來(lái)計(jì)算摘要相似度。
W1、W2分別表示文獻(xiàn)摘要D1和D2的特征空間向量。
在論文相似度計(jì)算基礎(chǔ)上,進(jìn)行聚類分析,本文選擇了比較常用的聚類方法-層次聚類。在對(duì)合作者關(guān)系聚類結(jié)果和摘要內(nèi)容聚類結(jié)果分析基礎(chǔ)上,采用系統(tǒng)融合的方法,對(duì)聚類結(jié)果進(jìn)行融合。下面分別詳細(xì)介紹層次聚類和系統(tǒng)融合方法。
層次聚類是一種比較常用的聚類方法,這種方法的優(yōu)點(diǎn)在于可以不限定最終的聚類數(shù)目,這與同名區(qū)分之前無(wú)法預(yù)知作者數(shù)量的情況是相符的。
本文采用基于自底向上的凝聚層次聚類方法。該方法將每個(gè)對(duì)象作為一個(gè)單獨(dú)的原子簇,之后按照相似度度量,將相似度最大的合并在一起,直到聚類結(jié)果不再變化或者終止條件滿足時(shí)聚類結(jié)束。聚類過(guò)程如下:
(1)獲取最初相似度矩陣D;
(2)查找相似矩陣D中相似度最大的兩個(gè)點(diǎn),將它們合并到一起作為一個(gè)點(diǎn);
(3)重新計(jì)算新點(diǎn)與其他點(diǎn)之間的相似度;
(4)重復(fù)2和3,直到最后點(diǎn)個(gè)數(shù)不再變化為止。
系統(tǒng)融合(System Combination,SC)技術(shù)是一項(xiàng)系統(tǒng)級(jí)甚至模型級(jí)的優(yōu)化技術(shù),利用多個(gè)系統(tǒng)或者多個(gè)模型的融合與優(yōu)化策略實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ)而提升整個(gè)系統(tǒng)的性能。通常系統(tǒng)融合的實(shí)現(xiàn)可以分為兩類:一類是在多個(gè)系統(tǒng)的輸出中擇優(yōu)選擇輸出結(jié)果;另一類是擇優(yōu)選擇多個(gè)模型的中間知識(shí)實(shí)現(xiàn)新的最佳輸出。
本文系統(tǒng)融合屬于第一類,是在合作者關(guān)系和摘要內(nèi)容各自聚類結(jié)果基礎(chǔ)上的結(jié)果性融合,目的在于解決單純靠合作者關(guān)系無(wú)法解決的合作者較少的情況。
定義合作者關(guān)系聚類結(jié)果集合H={h1,h2,…,hx}(其中 h1,h2,…,hx表示各類簇集合,集合內(nèi)元素是論文編號(hào))。
定義摘要內(nèi)容聚類結(jié)果集合Z={z1,z2,…,zm}(其中z1,z2,…,hm表示各類簇集合,集合內(nèi)元素是論文編號(hào))。
定義系統(tǒng)融合聚類結(jié)果集合R={r1,r2,…,rn}(其中 r1,r2,…,rn表示各類簇集合,集合內(nèi)元素是論文編號(hào))。
具體融合規(guī)則如下:
對(duì)于Z內(nèi)的每個(gè)集合,在H內(nèi)尋找其子集,如果存在的話,將獲得子集進(jìn)行合并,加入到H集合內(nèi),同時(shí)在H內(nèi)將獲得的各個(gè)子集刪除,則得到R。
偽代碼如表1
表1 系統(tǒng)融合方法偽代碼
為了測(cè)試同名區(qū)分方法的有效性,通常需要構(gòu)建一個(gè)測(cè)試文獻(xiàn)數(shù)據(jù)集,它應(yīng)該滿足以下幾個(gè)條件:①選擇的作者名字具有代表性,包含常用名和比較生僻的名字。常用名一般來(lái)講同名較多,進(jìn)行區(qū)分難度較大,生僻名字一般同名較少,不需要區(qū)分或區(qū)分難度較小;②文獻(xiàn)數(shù)目要有一定的代表性,不同的作者發(fā)表的文章數(shù)會(huì)有差異,有的作者發(fā)表論文較多,有的發(fā)表較少;③包含不同的作者類型,如一些作者會(huì)在多個(gè)學(xué)校兼職,一些作者只在一個(gè)學(xué)校任職。
本文在選取測(cè)試集時(shí),充分考慮了以上條件,作了針對(duì)性的選擇,從2 000名作者中選擇100個(gè)作者作為測(cè)試集。測(cè)試集共包含5 432篇論文。抽樣中以專家發(fā)表論文數(shù)量PF以及所屬單位數(shù)量CF為重要依據(jù),當(dāng)PF*CF較高時(shí)代表該名字的專家,重名率較高,相反則重名率較低。論文在選擇專家時(shí)主要從該數(shù)值排序中人工選擇專家。比如“李華”屬于常用名,重名現(xiàn)現(xiàn)象比較嚴(yán)重,測(cè)試集中共包含120個(gè)單位個(gè)人,對(duì)應(yīng)185篇論文。“高聚林”屬于比較生僻的名字,測(cè)試集中共有1單位個(gè)人,對(duì)應(yīng)37篇論文。本文共標(biāo)注了100個(gè)不同名字對(duì)應(yīng)于1 900個(gè)不同的人。
本文借鑒信息檢索中的評(píng)測(cè)方法,定義了準(zhǔn)確率(precision),召回率(recall)和F值。測(cè)試語(yǔ)料中同一作者集合中人工標(biāo)注的類P=(P1,P2,…,Pm).聚類結(jié)果 C={C1,C2,…,Cn}。Ci為任意聚類簇,Pj為人工標(biāo)注類。
對(duì)于任意聚類簇Ci和人工標(biāo)注類Pj:
對(duì)于每個(gè)聚類簇Ci:
最終的F值為
本文選取100個(gè)同名作者的論文作為測(cè)試語(yǔ)料,分別計(jì)算出各個(gè)作者聚類之后獲得的F值,取平均值。
表2 聚類結(jié)果
從表2中結(jié)果來(lái)看,摘要相對(duì)合作者來(lái)講,明顯是較弱特征,因而所獲F值比合作者低近13個(gè)百分點(diǎn)。其原因在于摘要僅僅是在內(nèi)容層次上對(duì)論文的一種表示,不同作者有很大的可能性寫內(nèi)容相關(guān)性很大的論文,因而僅僅憑摘要是無(wú)法評(píng)價(jià)兩篇論文是否是同一作者所寫的。合作者具有很強(qiáng)的區(qū)分作用,兩篇論文有合作者基本上可以判定屬于同一作者,當(dāng)然不排除合作者重名現(xiàn)象的存在,但是僅僅靠有無(wú)合作者就評(píng)價(jià)兩篇論文是不是同一個(gè)人所寫也是不合理的,這就涉及到有的作者可能曾在多個(gè)單位任職,發(fā)表文章沒(méi)有共同合作者也是有很大可能的。對(duì)于論文合作者較少的情況,合作者表現(xiàn)就更不佳了。所以合作者也有其自身的局限性。當(dāng)把兩者融合之后,F(xiàn)值比單純用合作者有了近1.5個(gè)百分點(diǎn)的提升。這是因?yàn)檎獌?nèi)容角度彌補(bǔ)了合作者的不足,對(duì)于論文合作者較少情況,摘要是有一定可能性把它們聚集在一起,這就在一定程度上彌補(bǔ)了合作者的不足。
系統(tǒng)融合時(shí)主要是對(duì)單純論文合作者不能處理的情況所做的改進(jìn)。論文合作者不能處理情況一般是合作者數(shù)量較少的情況?,F(xiàn)具體分析合作者數(shù)量對(duì)系統(tǒng)融合聚類結(jié)果影響。用t代表合作者數(shù)量。結(jié)果如圖1所示。
圖1 F值隨合作者數(shù)量t的變化
由圖1中數(shù)據(jù)可以看出,當(dāng)t=3時(shí),系統(tǒng)融合結(jié)果最好。
本文針對(duì)同名區(qū)分問(wèn)題,提出基于系統(tǒng)融合的同名區(qū)分方法。實(shí)驗(yàn)表明,該方法取得了較好的效果。同時(shí)本文也存在以下不足和改進(jìn)之處。首先,在測(cè)試數(shù)據(jù)集的構(gòu)建方面,在標(biāo)注測(cè)試數(shù)據(jù)集的時(shí)候,只是標(biāo)注了中文文獻(xiàn),并沒(méi)有標(biāo)注英文文獻(xiàn),有一定局限性。其次,在特征選擇方面,選擇的特征相對(duì)較少。最后,聚類算法僅僅選擇了層次聚類,應(yīng)該嘗試其它聚類算法。
針對(duì)實(shí)驗(yàn)中出現(xiàn)的問(wèn)題,將來(lái)的研究將從三方面展開,一是標(biāo)注測(cè)試數(shù)據(jù)集時(shí),同時(shí)標(biāo)注英文文獻(xiàn)。二是在特征選取上,選取論文更多的特征,比如關(guān)鍵詞,標(biāo)題,期刊。三是在聚類算法上,選擇其他聚類算法,比如近鄰傳播聚類方法。進(jìn)行各種聚類算法結(jié)果比較,選擇較好的聚類算法?;蛘吒鞣N聚類算法的融合,選擇效果較好的融合方法。
[1]蒲旭,王建勇,范曉明.GHOST:作者名字排歧系統(tǒng)[J].計(jì)算機(jī)研究與發(fā)展,2010,47:512 -515.
[2]Han H,Giles L,Zha H,et al.Two supervised learning approaches for name disambiguation in author citations[C]//Proceedings of ACM/IEEE Joint Conference on Digital Libraries,Tuscon,AZ,USA,2004:296 -305.
[3]Han H,Zha H,Giles C L.Name disambiguation in author citations using a K-way spectral clustering method[C]//Proceedings of the 5th ACM/IEEE-CS joint conference on Digital libraries(JCDL'05),New York,NY,USA,2005,ACM:334 -343.
[4]Song Y,Huang J,Councill I G,et al.Efficient topicbased unsupervised name disambiguation[C]//Proceedings of ACM/IEEE Joint Conference on Digital Libraries,Vancouver,British Columbia Canada,2007:342-351.
[5]Kang I S,Na S H,Lee S,et al.On co-authorship for author disambiguation[J].Information Processing &Management,2009,45(1):84 -97.
[6]Tan Y F,Kan M Y,Lee D.Search engine driven author disambiguation[C]//Proceedings of ACM/IEEE Joint Conference on Digital Libraries,2006:314 -315.
[7]Fan X,Wang J,Lv B,et al.GHOST:an effective graph-based framework for name distinction[C]//Proceeding of the 17th ACM conference on Information and knowledge management,2008,ACM:1449 -1450.
[8]Salton G,Buckley C.Term-weighting approaches in automatic text retrieval[J].Information Processing &Management,1988,24(5):513 -523.