基于科技文獻(xiàn)的概念圖自動(dòng)構(gòu)建方法

2012-10-14 07:45:52秦小鐵

重慶科技學(xué)院學(xué)報(bào)（社會(huì)科學(xué)版） 2012年7期

秦小鐵

秦小鐵

在數(shù)字化科研資源環(huán)境中，通過(guò)計(jì)算機(jī)技術(shù)自動(dòng)生成某研究領(lǐng)域的概念圖，可以大大縮短用戶查找和分析信息的時(shí)間。介紹了一種自動(dòng)構(gòu)建概念圖的方法。通過(guò)提取科技文獻(xiàn)的關(guān)鍵詞，分析關(guān)鍵詞共頻現(xiàn)象，結(jié)合尋徑網(wǎng)絡(luò)映射技術(shù)來(lái)構(gòu)建概念圖。

文獻(xiàn)檢索；概念圖；共詞分析；PFNET；網(wǎng)絡(luò)映射

概念圖是一種用圖示的方式，將特定情景下的事物和事物之間的關(guān)系，直觀形象地表現(xiàn)出來(lái)［1］。對(duì)于人類利用視覺(jué)能力來(lái)理解復(fù)雜的信息，它是一種有效的知識(shí)可視化工具。利用概念圖描述網(wǎng)絡(luò)里的概念以及它們之間的關(guān)系（網(wǎng)絡(luò)由鏈接和結(jié)點(diǎn)組成，前者用來(lái)描述關(guān)系，后者來(lái)來(lái)描述概念），不僅可以為研究者提供參考，而且有助于初學(xué)者更好地掌握有關(guān)領(lǐng)域的知識(shí)。構(gòu)建概念圖時(shí)，通常需要有關(guān)領(lǐng)域的專家參與，并以手工來(lái)完成。當(dāng)今時(shí)代知識(shí)飛速增長(zhǎng)，多學(xué)科交叉現(xiàn)象明顯，新概念新知識(shí)更新較快，并且概念之間的關(guān)系也在相應(yīng)地不斷發(fā)生變化，依靠專家以手工方式來(lái)構(gòu)建概念圖，顯然不能滿足需求。如果能在科研文獻(xiàn)檢索過(guò)程中，通過(guò)計(jì)算機(jī)技術(shù)自動(dòng)生成概念圖，無(wú)疑可以大大縮短用戶查找和分析信息的時(shí)間。

一、研究假設(shè)

假設(shè)一：科技文獻(xiàn)中每一個(gè)關(guān)鍵詞表示一個(gè)基本概念?？萍嘉墨I(xiàn)的關(guān)鍵詞通常用來(lái)表示文獻(xiàn)的研究主題和研究者的研究方向。我們用關(guān)鍵詞作為構(gòu)建概念圖的基本實(shí)體。

假設(shè)二：如果一篇研究論文中，同時(shí)出現(xiàn)兩個(gè)關(guān)鍵詞，則表示這兩個(gè)概念間存在特定的關(guān)系。如果在同類型的文獻(xiàn)中，某兩個(gè)關(guān)鍵詞出現(xiàn)的次數(shù)多，則表示這兩個(gè)概念在該研究領(lǐng)域內(nèi)有更加密切的關(guān)系。

科研論文的目標(biāo)是解決其研究領(lǐng)域內(nèi)的某個(gè)特定問(wèn)題，而論文列出的關(guān)鍵詞是用于解決該問(wèn)題而應(yīng)用的概念、方法、理論或模型，這意味著關(guān)鍵詞間存在某種特定關(guān)系。如果兩個(gè)關(guān)鍵詞在該研究領(lǐng)域的多篇論文中出現(xiàn)，說(shuō)明這兩個(gè)關(guān)鍵詞在此領(lǐng)域分析解決某個(gè)問(wèn)題過(guò)程中占據(jù)重要的地位。

二、概念圖自動(dòng)構(gòu)建流程

概念圖自動(dòng)構(gòu)建流程主要包括三個(gè)處理過(guò)程：概念抽取、共詞分析和可視化映射。

圖1 概念圖自動(dòng)構(gòu)建流程圖

（一）概念抽取

構(gòu)建研究領(lǐng)域的概念圖，必須掌握恰當(dāng)?shù)难芯繉?duì)象。根據(jù)檢索出的相關(guān)期刊論文所列舉的關(guān)鍵詞，可以有效描述該研究領(lǐng)域的概念。但是，不同作者對(duì)同一概念的描述術(shù)語(yǔ)可能不完全一致。例如：K近鄰，K-近鄰，K-最近鄰，代表的都是同一概念。如果同義術(shù)語(yǔ)不歸一處理，那么頻率計(jì)算結(jié)果將影響到概念圖的整體結(jié)構(gòu)，造成概念圖信息丟失或冗余。敘詞表是規(guī)范同義術(shù)語(yǔ)的有效字典。

敘詞表亦稱主題詞表、檢索詞典，是一種術(shù)語(yǔ)控制工具。它將標(biāo)引者、文獻(xiàn)作者和檢索者使用的自然語(yǔ)言，通過(guò)轉(zhuǎn)換，最終形成為規(guī)范化的敘詞型主題檢索語(yǔ)言。同時(shí)它是一種詞典，它可以概括某一學(xué)科領(lǐng)域，以受控的、規(guī)范化的、動(dòng)態(tài)性的敘詞（主題詞）為基本成分和以參照系統(tǒng)顯示詞間關(guān)系，用于標(biāo)引、存儲(chǔ)和檢索文獻(xiàn)。

（二）共詞分析

通過(guò)分析科技文獻(xiàn)中主題詞、關(guān)鍵詞、短語(yǔ)或在索引詞科技文本中共同出現(xiàn)的形式，統(tǒng)計(jì)短語(yǔ)或一組詞兩兩在同一篇文獻(xiàn)中出現(xiàn)的次數(shù)，最終建立一個(gè)矩陣，以顯示詞之間的關(guān)聯(lián)程度。關(guān)聯(lián)的次數(shù)越多，表明他們之間的關(guān)系就越密切，“距離”也就越近［2］。

（三）可視化映射

目前應(yīng)用較多的是多維標(biāo)度技術(shù)MDS、自組織特征映射技術(shù)SOM，但這兩種方法在模仿不均勻的關(guān)系時(shí)存在不足，不能突出顯示局部關(guān)系［3］。因此，引入了尋徑網(wǎng)絡(luò)方法。

尋徑網(wǎng)絡(luò)的優(yōu)勢(shì)在于能直觀模仿不均勻的關(guān)系，保留節(jié)點(diǎn)間“突出的”關(guān)系，將局部關(guān)系更清楚的顯示出來(lái)，而這是多維標(biāo)度技術(shù)和其他技術(shù)難以辦到的。

PFNET描述概念的差異程度，而共頻矩陣描述概念的相關(guān)程度。所以我們要將共頻矩陣轉(zhuǎn)換為表示概念差異的矩陣。

假設(shè)共頻矩陣為S，其元素esij表示i和j的共引頻數(shù)。從共頻矩陣S映射到概念差異矩陣W的規(guī)則：

PFNET算法中使用兩個(gè)重要參數(shù)r和q。q是指兩個(gè)節(jié)點(diǎn)鏈的中間節(jié)點(diǎn)數(shù)量，r參數(shù)是閔可夫斯基度規(guī)則（Minkowski Metric）的一個(gè)參數(shù)，即計(jì)算路徑長(zhǎng)度的一個(gè)參數(shù)。r=1時(shí)，等于測(cè)地距離；r=2時(shí)，等于兩個(gè)點(diǎn)的歐氏距離；r=∞時(shí)，等于路徑中兩個(gè)中間節(jié)點(diǎn)間的最大距離。q是一條路徑上有中間節(jié)點(diǎn)的數(shù)量。A Quirin［4］利用連通圖的最小生成樹(shù)集合和這個(gè)圖的PFNET等價(jià)的性質(zhì)，提出了一種基于MST的PFNET生成算法，并引入按秩合并和路徑壓縮的分離集合數(shù)據(jù)結(jié)構(gòu)，將PFNET的時(shí)間復(fù)雜度降低為O(n2*log(n))。但是，基于MST的PFNET算法中數(shù)據(jù)結(jié)構(gòu)相對(duì)復(fù)雜，實(shí)際上是典型的用空間換時(shí)間。由于依次檢查每條路徑的操作復(fù)雜度高，引入基于動(dòng)態(tài)規(guī)劃的Floyd算法的情況下，雖然時(shí)間復(fù)雜度只能降為O(n3)，但是Floyd算法的數(shù)據(jù)結(jié)構(gòu)和算法結(jié)構(gòu)更加簡(jiǎn)單。所以，選擇采用基于Floyd的PFNET算法［5］。先利用Floyd算法將兩個(gè)節(jié)點(diǎn)的最短距離存入距離矩陣，最后將距離矩陣和差異矩陣對(duì)比得到PFNET。

基于Floyd的PFNET生成算法偽代碼如下：

if(dij=wij)將節(jié)點(diǎn)i和節(jié)點(diǎn)j的邊加入PFNET；

三、實(shí)驗(yàn)

通過(guò)一個(gè)實(shí)例，繪制基于科技文獻(xiàn)的概念圖，進(jìn)行對(duì)模型的仿真。首先，進(jìn)行概念提取。我們的實(shí)驗(yàn)數(shù)據(jù)來(lái)源于CKNI中科技文獻(xiàn)。以“文本挖掘”為例。抽取174篇有關(guān)文獻(xiàn)作為分析對(duì)象，對(duì)關(guān)鍵詞進(jìn)行規(guī)范。由于文本挖掘是一個(gè)比較新的研究領(lǐng)域，各種敘詞表中未良好地收錄該領(lǐng)域的主題詞。我們根據(jù)相關(guān)文獻(xiàn)的關(guān)鍵詞做預(yù)處理，構(gòu)建一個(gè)僅針對(duì)文本挖掘的同義術(shù)語(yǔ)表來(lái)代替敘詞表。規(guī)范化關(guān)鍵詞后，篩選出在文獻(xiàn)出現(xiàn)頻率最高的21個(gè)關(guān)鍵詞。

表1 高頻關(guān)鍵詞

對(duì)這21個(gè)高頻關(guān)鍵詞做共頻分析，得到共頻矩陣S。然后，將共頻矩陣轉(zhuǎn)換為差異矩陣W，利用PFNET生成算法映射出概念圖模型。最后，借助可視化顯示工具Graphviz，繪制出粗糙概念圖。

圖2 文本挖掘領(lǐng)域高頻關(guān)鍵詞網(wǎng)絡(luò)

圖3 文本挖掘領(lǐng)域概念圖

圖2給出的是文本挖掘領(lǐng)域高頻關(guān)鍵詞網(wǎng)絡(luò)，每一條邊表示一對(duì)關(guān)鍵詞共現(xiàn)。圖3是根據(jù)分析關(guān)鍵詞共頻，通過(guò)PFNET映射后得到的網(wǎng)絡(luò)。根據(jù)統(tǒng)計(jì)分析，圖2中共有140條邊，圖3中只保留了圖2中最為重要的25條邊。對(duì)比分析可以看出，圖2更清晰地反映了文本挖掘領(lǐng)域內(nèi)知識(shí)點(diǎn)的聯(lián)系。

四、結(jié)語(yǔ)

本文提出的概念圖自動(dòng)構(gòu)建模型，包括概念提取、共詞分析、可視化映射三步驟。模型實(shí)驗(yàn)繪制出了文本挖掘領(lǐng)域的概念圖，它展示文本挖掘的知識(shí)全貌，突出顯示了學(xué)科類的知識(shí)點(diǎn)。

概念圖繪制是科研知識(shí)管理的一個(gè)重要部分。本文提出的概念圖自動(dòng)繪制能體現(xiàn)知識(shí)點(diǎn)之間的密切聯(lián)系，但還無(wú)法描述知識(shí)點(diǎn)之間具體存在什么樣的聯(lián)系。在概念提取方面，由于學(xué)科敘詞表制作的滯后，也使得概念圖自動(dòng)構(gòu)建不夠完善。敘詞表不斷更新的工作需要眾多領(lǐng)域的專家共同努力。為使概念圖更加精確，還需要研究知識(shí)點(diǎn)間具體關(guān)系的自動(dòng)識(shí)別。

[1]張學(xué)福.基于知識(shí)模型的文本信息檢索可視化研究[J].中國(guó)圖書館學(xué)報(bào)，2006（5）.

[2]岳洪江.基于共詞分析的國(guó)際企業(yè)研發(fā)文本知識(shí)挖掘可視化研究[J].商業(yè)研究，2008（9）.

[3]Vicente P,et al.Binary Pathfinder:An improvement to the Pathfinder algorithm[J].Information Processing&Management,2006,42(6).

[4]Quirin A,et al.A new variant of the Pathfinder algorithm to generate large visual science maps in cubic time[J].Information Processing&Management,2008,44(4).

[5]Quirin A,etal.Aquick MST-basedalgorithm to obtain Pathfinder networks(infinity,n-1)[J].Journal of the AmericanSociety for In for mation Science and Technology,2008,59(12).

G254.92

1673-1999（2012）07-0162-03

秦小鐵（1979-），男，河南鎮(zhèn)平人，重慶科技學(xué)院圖書館助理館員。

2012-03-12

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于科技文獻(xiàn)的概念圖自動(dòng)構(gòu)建方法

一、研究假設(shè)

二、概念圖自動(dòng)構(gòu)建流程

三、實(shí)驗(yàn)

四、結(jié)語(yǔ)

一、研究假設(shè)

二、概念圖自動(dòng)構(gòu)建流程

四、結(jié)語(yǔ)