秦小鐵
基于科技文獻(xiàn)的概念圖自動(dòng)構(gòu)建方法
秦小鐵
在數(shù)字化科研資源環(huán)境中,通過(guò)計(jì)算機(jī)技術(shù)自動(dòng)生成某研究領(lǐng)域的概念圖,可以大大縮短用戶查找和分析信息的時(shí)間。介紹了一種自動(dòng)構(gòu)建概念圖的方法。通過(guò)提取科技文獻(xiàn)的關(guān)鍵詞,分析關(guān)鍵詞共頻現(xiàn)象,結(jié)合尋徑網(wǎng)絡(luò)映射技術(shù)來(lái)構(gòu)建概念圖。
文獻(xiàn)檢索;概念圖;共詞分析;PFNET;網(wǎng)絡(luò)映射
概念圖是一種用圖示的方式,將特定情景下的事物和事物之間的關(guān)系,直觀形象地表現(xiàn)出來(lái)[1]。對(duì)于人類利用視覺(jué)能力來(lái)理解復(fù)雜的信息,它是一種有效的知識(shí)可視化工具。利用概念圖描述網(wǎng)絡(luò)里的概念以及它們之間的關(guān)系(網(wǎng)絡(luò)由鏈接和結(jié)點(diǎn)組成,前者用來(lái)描述關(guān)系,后者來(lái)來(lái)描述概念),不僅可以為研究者提供參考,而且有助于初學(xué)者更好地掌握有關(guān)領(lǐng)域的知識(shí)。構(gòu)建概念圖時(shí),通常需要有關(guān)領(lǐng)域的專家參與,并以手工來(lái)完成。當(dāng)今時(shí)代知識(shí)飛速增長(zhǎng),多學(xué)科交叉現(xiàn)象明顯,新概念新知識(shí)更新較快,并且概念之間的關(guān)系也在相應(yīng)地不斷發(fā)生變化,依靠專家以手工方式來(lái)構(gòu)建概念圖,顯然不能滿足需求。如果能在科研文獻(xiàn)檢索過(guò)程中,通過(guò)計(jì)算機(jī)技術(shù)自動(dòng)生成概念圖,無(wú)疑可以大大縮短用戶查找和分析信息的時(shí)間。
假設(shè)一:科技文獻(xiàn)中每一個(gè)關(guān)鍵詞表示一個(gè)基本概念??萍嘉墨I(xiàn)的關(guān)鍵詞通常用來(lái)表示文獻(xiàn)的研究主題和研究者的研究方向。我們用關(guān)鍵詞作為構(gòu)建概念圖的基本實(shí)體。
假設(shè)二:如果一篇研究論文中,同時(shí)出現(xiàn)兩個(gè)關(guān)鍵詞,則表示這兩個(gè)概念間存在特定的關(guān)系。如果在同類型的文獻(xiàn)中,某兩個(gè)關(guān)鍵詞出現(xiàn)的次數(shù)多,則表示這兩個(gè)概念在該研究領(lǐng)域內(nèi)有更加密切的關(guān)系。
科研論文的目標(biāo)是解決其研究領(lǐng)域內(nèi)的某個(gè)特定問(wèn)題,而論文列出的關(guān)鍵詞是用于解決該問(wèn)題而應(yīng)用的概念、方法、理論或模型,這意味著關(guān)鍵詞間存在某種特定關(guān)系。如果兩個(gè)關(guān)鍵詞在該研究領(lǐng)域的多篇論文中出現(xiàn),說(shuō)明這兩個(gè)關(guān)鍵詞在此領(lǐng)域分析解決某個(gè)問(wèn)題過(guò)程中占據(jù)重要的地位。
概念圖自動(dòng)構(gòu)建流程主要包括三個(gè)處理過(guò)程:概念抽取、共詞分析和可視化映射。
圖1 概念圖自動(dòng)構(gòu)建流程圖
(一)概念抽取
構(gòu)建研究領(lǐng)域的概念圖,必須掌握恰當(dāng)?shù)难芯繉?duì)象。根據(jù)檢索出的相關(guān)期刊論文所列舉的關(guān)鍵詞,可以有效描述該研究領(lǐng)域的概念。但是,不同作者對(duì)同一概念的描述術(shù)語(yǔ)可能不完全一致。例如:K近鄰,K-近鄰,K-最近鄰,代表的都是同一概念。如果同義術(shù)語(yǔ)不歸一處理,那么頻率計(jì)算結(jié)果將影響到概念圖的整體結(jié)構(gòu),造成概念圖信息丟失或冗余。敘詞表是規(guī)范同義術(shù)語(yǔ)的有效字典。
敘詞表亦稱主題詞表、檢索詞典,是一種術(shù)語(yǔ)控制工具。它將標(biāo)引者、文獻(xiàn)作者和檢索者使用的自然語(yǔ)言,通過(guò)轉(zhuǎn)換,最終形成為規(guī)范化的敘詞型主題檢索語(yǔ)言。同時(shí)它是一種詞典,它可以概括某一學(xué)科領(lǐng)域,以受控的、規(guī)范化的、動(dòng)態(tài)性的敘詞(主題詞)為基本成分和以參照系統(tǒng)顯示詞間關(guān)系,用于標(biāo)引、存儲(chǔ)和檢索文獻(xiàn)。
(二)共詞分析
通過(guò)分析科技文獻(xiàn)中主題詞、關(guān)鍵詞、短語(yǔ)或在索引詞科技文本中共同出現(xiàn)的形式,統(tǒng)計(jì)短語(yǔ)或一組詞兩兩在同一篇文獻(xiàn)中出現(xiàn)的次數(shù),最終建立一個(gè)矩陣,以顯示詞之間的關(guān)聯(lián)程度。關(guān)聯(lián)的次數(shù)越多,表明他們之間的關(guān)系就越密切,“距離”也就越近[2]。
(三)可視化映射
目前應(yīng)用較多的是多維標(biāo)度技術(shù)MDS、自組織特征映射技術(shù)SOM,但這兩種方法在模仿不均勻的關(guān)系時(shí)存在不足,不能突出顯示局部關(guān)系[3]。因此,引入了尋徑網(wǎng)絡(luò)方法。
尋徑網(wǎng)絡(luò)的優(yōu)勢(shì)在于能直觀模仿不均勻的關(guān)系,保留節(jié)點(diǎn)間“突出的”關(guān)系,將局部關(guān)系更清楚的顯示出來(lái),而這是多維標(biāo)度技術(shù)和其他技術(shù)難以辦到的。
PFNET描述概念的差異程度,而共頻矩陣描述概念的相關(guān)程度。所以我們要將共頻矩陣轉(zhuǎn)換為表示概念差異的矩陣。
假設(shè)共頻矩陣為S,其元素esij表示i和j的共引頻數(shù)。從共頻矩陣S映射到概念差異矩陣W的規(guī)則:
PFNET算法中使用兩個(gè)重要參數(shù)r和q。q是指兩個(gè)節(jié)點(diǎn)鏈的中間節(jié)點(diǎn)數(shù)量,r參數(shù)是閔可夫斯基度規(guī)則(Minkowski Metric)的一個(gè)參數(shù),即計(jì)算路徑長(zhǎng)度的一個(gè)參數(shù)。r=1時(shí),等于測(cè)地距離;r=2時(shí),等于兩個(gè)點(diǎn)的歐氏距離;r=∞時(shí),等于路徑中兩個(gè)中間節(jié)點(diǎn)間的最大距離。q是一條路徑上有中間節(jié)點(diǎn)的數(shù)量。A Quirin[4]利用連通圖的最小生成樹(shù)集合和這個(gè)圖的PFNET等價(jià)的性質(zhì),提出了一種基于MST的PFNET生成算法,并引入按秩合并和路徑壓縮的分離集合數(shù)據(jù)結(jié)構(gòu),將PFNET的時(shí)間復(fù)雜度降低為O(n2*log(n))。但是,基于MST的PFNET算法中數(shù)據(jù)結(jié)構(gòu)相對(duì)復(fù)雜,實(shí)際上是典型的用空間換時(shí)間。由于依次檢查每條路徑的操作復(fù)雜度高,引入基于動(dòng)態(tài)規(guī)劃的Floyd算法的情況下,雖然時(shí)間復(fù)雜度只能降為O(n3),但是Floyd算法的數(shù)據(jù)結(jié)構(gòu)和算法結(jié)構(gòu)更加簡(jiǎn)單。所以,選擇采用基于Floyd的PFNET算法[5]。先利用Floyd算法將兩個(gè)節(jié)點(diǎn)的最短距離存入距離矩陣,最后將距離矩陣和差異矩陣對(duì)比得到PFNET。
基于Floyd的PFNET生成算法偽代碼如下:
if(dij=wij)將節(jié)點(diǎn)i和節(jié)點(diǎn)j的邊加入PFNET;
通過(guò)一個(gè)實(shí)例,繪制基于科技文獻(xiàn)的概念圖,進(jìn)行對(duì)模型的仿真。首先,進(jìn)行概念提取。我們的實(shí)驗(yàn)數(shù)據(jù)來(lái)源于CKNI中科技文獻(xiàn)。以“文本挖掘”為例。抽取174篇有關(guān)文獻(xiàn)作為分析對(duì)象,對(duì)關(guān)鍵詞進(jìn)行規(guī)范。由于文本挖掘是一個(gè)比較新的研究領(lǐng)域,各種敘詞表中未良好地收錄該領(lǐng)域的主題詞。我們根據(jù)相關(guān)文獻(xiàn)的關(guān)鍵詞做預(yù)處理,構(gòu)建一個(gè)僅針對(duì)文本挖掘的同義術(shù)語(yǔ)表來(lái)代替敘詞表。規(guī)范化關(guān)鍵詞后,篩選出在文獻(xiàn)出現(xiàn)頻率最高的21個(gè)關(guān)鍵詞。
表1 高頻關(guān)鍵詞
對(duì)這21個(gè)高頻關(guān)鍵詞做共頻分析,得到共頻矩陣S。然后,將共頻矩陣轉(zhuǎn)換為差異矩陣W,利用PFNET生成算法映射出概念圖模型。最后,借助可視化顯示工具Graphviz,繪制出粗糙概念圖。
圖2 文本挖掘領(lǐng)域高頻關(guān)鍵詞網(wǎng)絡(luò)
圖3 文本挖掘領(lǐng)域概念圖
圖2給出的是文本挖掘領(lǐng)域高頻關(guān)鍵詞網(wǎng)絡(luò),每一條邊表示一對(duì)關(guān)鍵詞共現(xiàn)。圖3是根據(jù)分析關(guān)鍵詞共頻,通過(guò)PFNET映射后得到的網(wǎng)絡(luò)。根據(jù)統(tǒng)計(jì)分析,圖2中共有140條邊,圖3中只保留了圖2中最為重要的25條邊。對(duì)比分析可以看出,圖2更清晰地反映了文本挖掘領(lǐng)域內(nèi)知識(shí)點(diǎn)的聯(lián)系。
本文提出的概念圖自動(dòng)構(gòu)建模型,包括概念提取、共詞分析、可視化映射三步驟。模型實(shí)驗(yàn)繪制出了文本挖掘領(lǐng)域的概念圖,它展示文本挖掘的知識(shí)全貌,突出顯示了學(xué)科類的知識(shí)點(diǎn)。
概念圖繪制是科研知識(shí)管理的一個(gè)重要部分。本文提出的概念圖自動(dòng)繪制能體現(xiàn)知識(shí)點(diǎn)之間的密切聯(lián)系,但還無(wú)法描述知識(shí)點(diǎn)之間具體存在什么樣的聯(lián)系。在概念提取方面,由于學(xué)科敘詞表制作的滯后,也使得概念圖自動(dòng)構(gòu)建不夠完善。敘詞表不斷更新的工作需要眾多領(lǐng)域的專家共同努力。為使概念圖更加精確,還需要研究知識(shí)點(diǎn)間具體關(guān)系的自動(dòng)識(shí)別。
[1]張學(xué)福.基于知識(shí)模型的文本信息檢索可視化研究[J].中國(guó)圖書館學(xué)報(bào),2006(5).
[2]岳洪江.基于共詞分析的國(guó)際企業(yè)研發(fā)文本知識(shí)挖掘可視化研究[J].商業(yè)研究,2008(9).
[3]Vicente P,et al.Binary Pathfinder:An improvement to the Pathfinder algorithm[J].Information Processing&Management,2006,42(6).
[4]Quirin A,et al.A new variant of the Pathfinder algorithm to generate large visual science maps in cubic time[J].Information Processing&Management,2008,44(4).
[5]Quirin A,etal.Aquick MST-basedalgorithm to obtain Pathfinder networks(infinity,n-1)[J].Journal of the AmericanSociety for In for mation Science and Technology,2008,59(12).
G254.92
A
1673-1999(2012)07-0162-03
秦小鐵(1979-),男,河南鎮(zhèn)平人,重慶科技學(xué)院圖書館助理館員。
2012-03-12