尹寶生 宋芷薇
摘 要:科技文獻網(wǎng)絡(luò)是一種特殊的復(fù)雜信息網(wǎng)絡(luò),每一篇文獻都有對應(yīng)的標(biāo)題、作者、刊物、關(guān)鍵詞、引文等信息,從而形成了以文獻為中心,其他對象通過文獻鏈接在一起的星型網(wǎng)絡(luò)結(jié)構(gòu)。聚類分析是基于文獻進行技術(shù)脈絡(luò)信息抽取工作的重要手段之一。本文在傳統(tǒng)層次聚類算法的基礎(chǔ)上,融合了文獻網(wǎng)絡(luò)所特有的引文信息,從而有效的改善了施引文獻和被引文獻之間的聚類效果?;谌f方數(shù)據(jù)庫抓取的文獻進行了聚類實驗,標(biāo)準(zhǔn)化互信息(NMI)值有明顯提升,為后續(xù)文獻技術(shù)脈絡(luò)分析工作打下了良好的研究基礎(chǔ)。
關(guān)鍵詞:自然語言處理 聚類算法 科技文獻 技術(shù)脈絡(luò)分析
中圖分類號:TP391.1 文獻標(biāo)識碼:A 文章編號:1003-9082(2019)07-000-02
引言
科技創(chuàng)新的不斷出現(xiàn)與發(fā)展是科技革命發(fā)生的必然前提。每年期刊和會議上都會涌現(xiàn)出大量優(yōu)秀的文獻,而技術(shù)創(chuàng)新往往是對已有技術(shù)的反復(fù)推演之后的邏輯重組,對特定領(lǐng)域已有的科技文獻進行技術(shù)脈絡(luò)信息抽取與分析,總結(jié)科學(xué)技術(shù)的涌現(xiàn),發(fā)展和分裂,這既能快速地掌握特定領(lǐng)域過去的發(fā)展情況,也能對后續(xù)研究者選擇研究方起到有指引作用,無論在科學(xué)研究方面還是在實際工程方面,對科技文獻進行快速自動化的技術(shù)脈絡(luò)梳理都顯得尤為重要。
現(xiàn)實世界中存在很多信息網(wǎng)絡(luò),如文獻信息網(wǎng)絡(luò)、社交網(wǎng)絡(luò)、醫(yī)療網(wǎng)絡(luò)、交通網(wǎng)絡(luò)等[1]。近年來,基于文獻信息網(wǎng)絡(luò)進行的研究有很多,如專家發(fā)現(xiàn)、相似文獻推薦、同名作者排歧、作者合作關(guān)系預(yù)測、作者性別預(yù)測、學(xué)術(shù)主題挖掘、領(lǐng)域異常檢測、技術(shù)脈絡(luò)分析等研究。技術(shù)脈絡(luò)分析主要是研究網(wǎng)絡(luò)中的對象如何形成不同的簇,簇與簇之間是如何演變的。具體難點主要體現(xiàn)在以下三個方面:(1)中文文獻圖譜少之又少,如何構(gòu)建高質(zhì)量的中文文獻圖譜。(2)如何構(gòu)建大規(guī)模學(xué)術(shù)知識庫,構(gòu)建學(xué)術(shù)知識點的發(fā)展脈絡(luò)。(3)如何將技術(shù)脈絡(luò)進行可視化展示,清晰的展示技術(shù)的演變關(guān)系。
對某一特定領(lǐng)域的技術(shù)脈絡(luò)梳理的一個關(guān)鍵步驟是對復(fù)雜信息網(wǎng)絡(luò)中的對象進行聚類,形成不同的簇,并分析各簇之間的連接關(guān)系,好的聚類效果對后續(xù)的技術(shù)脈絡(luò)分析與處理起到至關(guān)重要的作用。科技文獻的題錄信息屬于短文本,與長文本相比,短文本語言表達簡潔,攜帶信息較少,描述信息較弱,這就增加了科技文獻聚類的難度[2],如何對有限信息的短文本進行信息抽取與快速聚類是一個值得討論的課題。針對這一問題,近年來,涌現(xiàn)一些相關(guān)的文獻計量分析系統(tǒng),如AMiner、Citespace、VOSViewer、Citeseer、Hiscite等。
一、相關(guān)研究
文獻信息網(wǎng)絡(luò)中的連接分為兩種,一種是強連接,另一種是弱連接,通常弱連接比強連接更有價值,弱連接更能促進兩個簇之間的信息流動[3],對于每一篇文獻,都有作者集合、關(guān)鍵詞集合、引文集合的鏈接,這些集合的鏈接類型都屬于強連接,它們之間可以形成以文獻為中心,其他類型為屬性的星型網(wǎng)絡(luò)模式,從自然語言理解角度分析文獻,弱連接對找到簇間關(guān)系非常有意義。
現(xiàn)有的文獻計量分析系統(tǒng)大部分是針對英文文獻進行處理與分析,并且大部分是基于文檔層面的關(guān)鍵詞詞頻統(tǒng)計、共現(xiàn)詞分析及共引分析,只要關(guān)鍵詞在文獻中出現(xiàn)或該文獻被其他文獻引用,便為之計數(shù),并沒有從自然語言處理角度對文獻的語義進行分析。SimRank算法[4]通過基于鏈接的方法來評估對象之間的相似性,然后使用圖聚類方法來產(chǎn)生聚類[5],但文獻信息網(wǎng)絡(luò)中的對象進行兩兩相似度評價比較耗費時間和空間。Yizhou Sun等人提出的RankClus算法[6],該算法利用文獻的刊物和作者信息,是一種基于排名的迭代算法,排名和聚類可以相互影響,在每個聚類中排名高的對象更有助于明晰化聚類。Yizhou Sun等人提出的NetClus[7]算法也是基于排名的聚類,是一種軟聚類,每個對象可以柔性地屬于多個聚類。
國內(nèi)對文獻技術(shù)脈絡(luò)分析的研究較少。要一璐等人通過抽取關(guān)鍵詞及其語義關(guān)系構(gòu)建知識脈絡(luò)[8],將文獻中的關(guān)鍵詞作為核心,抽取關(guān)鍵詞之間的同義關(guān)系、上下位關(guān)系以及共現(xiàn)關(guān)系,以關(guān)鍵詞為結(jié)點,關(guān)鍵詞之間的關(guān)系為邊,構(gòu)建科技文獻知識脈絡(luò)。李信等人利用文獻的標(biāo)題,從學(xué)術(shù)文本詞匯功能的角度出發(fā),考慮科研文獻中詞匯的語義功能,設(shè)計并實現(xiàn)了一個基于詞匯功能識別的科研文獻分析系統(tǒng)[9]。
本文在利用文獻題錄信息的基礎(chǔ)上,融合被引文獻和施引文獻間的引文信息對傳統(tǒng)層次聚類算法進行改進,從而有效的改善聚類的文獻簇生成效果。
二、算法描述
1.聚類算法的選擇
目前已有很多成熟的聚類方法,但沒有任何一種聚類算法可以普遍適用于各種多維數(shù)據(jù)集所呈現(xiàn)出來的多種多樣的結(jié)構(gòu)[10]。聚類本質(zhì)上是集合劃分問題,要求簇內(nèi)樣本盡可能相似,根據(jù)簇內(nèi)樣本相似度的方法判斷,聚類算法可分為以下幾類:第一類是連通性聚類,如層次聚類算法,它根據(jù)樣本之間的連通性來構(gòu)造簇,所有連通的樣本屬于一個簇;第二類是基于質(zhì)心的聚類,如K均值算法,它用一個中心向量來表示這個簇,樣本屬于的簇由它到每個簇的中心距離確定;第三類是基于概率分布的聚類,如EM算法,它根據(jù)極大似然估計進行聚類;第四類是基于密度的聚類,如DBSCAN算法,它將簇定義為空間中樣本密集的區(qū)域;第五類是基于圖的聚類,使用圖論中的方法完成聚類,由于不知道實驗所用的文獻數(shù)據(jù)集具體應(yīng)該分成幾類,也不確定簇劃分的形狀,所以采用基于聚合的凝聚層次聚類方法進行實驗。
文獻網(wǎng)絡(luò)中含有文獻的相關(guān)信息包含六類實體:文獻(P)、標(biāo)題(T)、刊物(V)、作者(A),關(guān)鍵詞(K),引文(R),對于每一篇文獻,都有標(biāo)題、刊物集合、作者集合、關(guān)鍵詞集合、引文集合的鏈接,它們都屬于鏈接類型的集合。文獻與關(guān)鍵字或標(biāo)題之間存在著“包含”和“被包含”的關(guān)系;文獻與作者之間存在著“寫作”和“被寫作”的關(guān)系;文獻與刊物之間存在著“發(fā)表”和“被發(fā)表”的關(guān)系。文獻與文獻之間存在著“引用”和“被引用”的關(guān)系。文獻網(wǎng)絡(luò)形成如圖所示的星形網(wǎng)絡(luò)結(jié)構(gòu),其中所有其它類型的對象通過文獻鏈接起來,文獻網(wǎng)絡(luò)鏈接類型如圖1所示。
圖1 文獻網(wǎng)絡(luò)鏈接類型
2.融合引文信息的凝聚層次聚類算法
凝聚層次聚類算法又稱為樹聚類算法,是一種自下而上的聚類算法,該算法試圖在不同層次對數(shù)據(jù)集進行劃分,從而形成樹形的聚類結(jié)構(gòu)[11],改進的凝聚層次聚類算法流程如下:
2.1將樣本集合中的每個樣本點當(dāng)做一個簇,計算兩兩之間的相似度。
兩篇文獻的向量分別為,,則兩篇文獻之間的余弦距離計算公式如下,余弦距離的值越小,則兩篇文獻越相似。
每一篇文獻都有若干篇參考文獻,參考文獻里面有的是前期的某種處理步驟,有的是主要研究點。通過主題模型分析,判斷具有引用關(guān)系的兩篇文獻是否屬于同一主題,是同一主題的則減小兩篇文獻之間的距離值,即提高具有引用關(guān)系且主題相同的兩篇文獻的相似度的概率值。如果兩篇文獻有引用關(guān)系,則更新兩篇文獻的余弦距離,利用新的距離矩陣進行后續(xù)計算,其中為權(quán)重系數(shù)。
2.2將距離最小的兩個簇合并成一個新的簇。
2.3重新計算新簇和所有簇之間的距離。
簇之間距離計算的方式分為單連接、全連接、平均連接,本文采用全連接的方式計算新簇與所有簇之間的距離,將兩個新簇的數(shù)據(jù)點中距離最遠的兩個數(shù)據(jù)點間的距離作為這兩個組合數(shù)據(jù)點的距離,兩個簇之間的距離就算公式如下:
2.4重復(fù)(2)(3),生成一個具有樹形結(jié)構(gòu)的聚類結(jié)果。
2.5根據(jù)簇間切分標(biāo)準(zhǔn)對聚類結(jié)構(gòu)進行切分,形成最終的簇劃分集合C。
3.聚類效果評價
某領(lǐng)域的大量文獻集中發(fā)表在少數(shù)期刊上,而其他文獻則分散在相關(guān)期刊上,并且某一期刊發(fā)表文獻方向是基本固定的,通常發(fā)表在同一刊物上的兩篇文獻比發(fā)表在不同刊物上的兩篇文獻更相似。因此,本文采用文獻發(fā)表的刊物聚類的準(zhǔn)確性作為評價標(biāo)準(zhǔn),并采用標(biāo)準(zhǔn)化互信息(NMI)[11]來評價聚類的準(zhǔn)確性,NMI主要是用來衡量輸出的簇結(jié)果中的對象是否真的屬于同一集群,NMI基本可以比較客觀地評價出一個劃分與標(biāo)準(zhǔn)劃分之間相比的準(zhǔn)確度。NMI值的范圍是0到1,NMI值越大代表聚類劃分越準(zhǔn)確。
三、實驗
1.實驗數(shù)據(jù)集
國內(nèi)缺少公開可用的中文文獻網(wǎng)絡(luò)圖譜,因此本文利用網(wǎng)絡(luò)爬蟲技術(shù),從萬方數(shù)據(jù)庫中抓取部分中文文獻數(shù)據(jù)作為實驗數(shù)據(jù)集,通過施引文獻擴展法保證文獻檢索的查全率,抓取到的文獻數(shù)據(jù)主要包含文獻的標(biāo)題、關(guān)鍵字、作者、刊物、時間、引文等信息。首先對文獻數(shù)據(jù)進行清洗,剔除掉征稿信息、會議信息、期刊雜志介紹等非文獻數(shù)據(jù)信息,重復(fù)的文獻數(shù)據(jù)信息,不完整的文獻數(shù)據(jù)信息,剩余文獻數(shù)據(jù)22180篇作為實驗數(shù)據(jù)集。
2.實驗結(jié)果分析
本文分別采用標(biāo)題(T)、關(guān)鍵詞(K)、引文信息(R)進行實驗,實驗中設(shè)置聚類的閾值t分別為0.1,0.2,權(quán)重為0.5。對中文文獻數(shù)據(jù)集進行聚類的結(jié)果如表1所示。
實驗結(jié)果表明,利用文獻的關(guān)鍵詞進行聚類的效果比利用標(biāo)題進行聚類的效果好,說明關(guān)鍵詞作為一篇論文的必要組成部分,能夠簡單、直接、全面地概括出論文的核心內(nèi)容;利用標(biāo)題和關(guān)鍵詞信息組合在一起,共同進行聚類的效果明顯比使用其中的單獨一個對象進行聚類的效果好,說明標(biāo)題和關(guān)鍵詞在一起能很大程度上反映文獻的主要研究內(nèi)容和主題;在利用文獻的標(biāo)題和關(guān)鍵詞信息的基礎(chǔ)上融入引用信息后,聚類效果提升了0.9個百分點,一篇文獻質(zhì)量高則引用量多,引用的文獻質(zhì)量也高,這些優(yōu)秀的文獻聚成一類,可以作為科技文獻的技術(shù)脈絡(luò)中的重要節(jié)點。
結(jié)束語
融合引文信息的凝聚層次聚類算法對文獻網(wǎng)絡(luò)聚類效果有一定的提升,該算法能夠快速的生成特定領(lǐng)域文獻的聚類結(jié)果,可以幫助人工快速梳理特定領(lǐng)域的重點文獻。本文使用的數(shù)據(jù)集是中文文獻數(shù)據(jù)集,中文語料分詞一直是一個難點,本實驗中的專業(yè)領(lǐng)域數(shù)據(jù)集分詞效果不是很好,有的較長的專業(yè)詞匯在分詞的時候被切分開了,后續(xù)嘗試加入更專業(yè)的包含專業(yè)領(lǐng)域的專業(yè)詞的詞典,使專業(yè)領(lǐng)域的語料分詞效果更好一些;文獻題錄信息中的作者信息也十分有價值,同一作者的研究領(lǐng)域和研究方向在一段時間內(nèi)一般比較固定,因此短期內(nèi)同一作者所發(fā)表的文獻相似度會更高;目前加入的是直接引用關(guān)系,而間接引用關(guān)系和共被引關(guān)系也可能對聚類效果有一定影響。
參考文獻
[1]SunY,HanJ.異構(gòu)信息網(wǎng)絡(luò)挖掘:原理和方法[M].段磊,朱敏,唐常杰,譯.北京:機械工業(yè)出版社,2017:1-5.
[2]高華林.基于短文本的熱點分析關(guān)鍵技術(shù)研究[D].中國人民公安大學(xué),2017.
[3]GrabowiczPA,JoséJ.Ramasco,MoroE,etal.SocialFeaturesofOnlineNetworks:TheStrengthofIntermediaryTiesinOnlineSocialMedia[J].PlosOne,2012,7(1):e29358.
[4]JehG,WidomJ.SimRank:ameasureofstructural-contextsimilarity[C]//EighthAcmSigkddInternationalConferenceonKnowledgeDiscovery&DataMining.ACM,2002.
[5]LuxburgUV.Atutorialonspectralclustering[J].StatisticsandComputing,2007,17(4):395-416.
[6]SunY,HanJ,ZhaoP,etal.RankClus:Integratingclusteringwithrankingforheterogeneousinformationnetworkanalysis[C]//AcmSigkddInternationalConferenceonKnowledgeDiscovery&DataMining.ACM,2009.
[7]SunY,YuY,HanJ.Ranking-basedclusteringofheterogeneousinformationnetworkswithstarnetworkschema[C]//AcmSigkddInternationalConferenceonKnowledgeDiscovery&DataMining.DBLP,2009.
[8]譚紅葉,要一璐,梁穎紅.基于知識脈絡(luò)的科技論文推薦[J].山東大學(xué)學(xué)報(理學(xué)版),2016,51(5).
[9]李信,程齊凱,劉興幫.基于詞匯功能識別的科研文獻分析系統(tǒng)設(shè)計與實現(xiàn)[J].圖書情報工作,2017,61(01):109-116.
[10]周濤,陸惠玲.數(shù)據(jù)挖掘中聚類算法研究進展[J].計算機工程與應(yīng)用,2012,48(12):100-111.
[11]金建國.聚類方法綜述[J].計算機科學(xué),2014,41(S2):288-293.