国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于科技文獻(xiàn)的概念圖自動(dòng)構(gòu)建方法

2012-10-14 07:45:52秦小鐵
關(guān)鍵詞:概念圖可視化概念

秦小鐵

基于科技文獻(xiàn)的概念圖自動(dòng)構(gòu)建方法

秦小鐵

在數(shù)字化科研資源環(huán)境中,通過(guò)計(jì)算機(jī)技術(shù)自動(dòng)生成某研究領(lǐng)域的概念圖,可以大大縮短用戶查找和分析信息的時(shí)間。介紹了一種自動(dòng)構(gòu)建概念圖的方法。通過(guò)提取科技文獻(xiàn)的關(guān)鍵詞,分析關(guān)鍵詞共頻現(xiàn)象,結(jié)合尋徑網(wǎng)絡(luò)映射技術(shù)來(lái)構(gòu)建概念圖。

文獻(xiàn)檢索;概念圖;共詞分析;PFNET;網(wǎng)絡(luò)映射

概念圖是一種用圖示的方式,將特定情景下的事物和事物之間的關(guān)系,直觀形象地表現(xiàn)出來(lái)[1]。對(duì)于人類利用視覺(jué)能力來(lái)理解復(fù)雜的信息,它是一種有效的知識(shí)可視化工具。利用概念圖描述網(wǎng)絡(luò)里的概念以及它們之間的關(guān)系(網(wǎng)絡(luò)由鏈接和結(jié)點(diǎn)組成,前者用來(lái)描述關(guān)系,后者來(lái)來(lái)描述概念),不僅可以為研究者提供參考,而且有助于初學(xué)者更好地掌握有關(guān)領(lǐng)域的知識(shí)。構(gòu)建概念圖時(shí),通常需要有關(guān)領(lǐng)域的專家參與,并以手工來(lái)完成。當(dāng)今時(shí)代知識(shí)飛速增長(zhǎng),多學(xué)科交叉現(xiàn)象明顯,新概念新知識(shí)更新較快,并且概念之間的關(guān)系也在相應(yīng)地不斷發(fā)生變化,依靠專家以手工方式來(lái)構(gòu)建概念圖,顯然不能滿足需求。如果能在科研文獻(xiàn)檢索過(guò)程中,通過(guò)計(jì)算機(jī)技術(shù)自動(dòng)生成概念圖,無(wú)疑可以大大縮短用戶查找和分析信息的時(shí)間。

一、研究假設(shè)

假設(shè)一:科技文獻(xiàn)中每一個(gè)關(guān)鍵詞表示一個(gè)基本概念??萍嘉墨I(xiàn)的關(guān)鍵詞通常用來(lái)表示文獻(xiàn)的研究主題和研究者的研究方向。我們用關(guān)鍵詞作為構(gòu)建概念圖的基本實(shí)體。

假設(shè)二:如果一篇研究論文中,同時(shí)出現(xiàn)兩個(gè)關(guān)鍵詞,則表示這兩個(gè)概念間存在特定的關(guān)系。如果在同類型的文獻(xiàn)中,某兩個(gè)關(guān)鍵詞出現(xiàn)的次數(shù)多,則表示這兩個(gè)概念在該研究領(lǐng)域內(nèi)有更加密切的關(guān)系。

科研論文的目標(biāo)是解決其研究領(lǐng)域內(nèi)的某個(gè)特定問(wèn)題,而論文列出的關(guān)鍵詞是用于解決該問(wèn)題而應(yīng)用的概念、方法、理論或模型,這意味著關(guān)鍵詞間存在某種特定關(guān)系。如果兩個(gè)關(guān)鍵詞在該研究領(lǐng)域的多篇論文中出現(xiàn),說(shuō)明這兩個(gè)關(guān)鍵詞在此領(lǐng)域分析解決某個(gè)問(wèn)題過(guò)程中占據(jù)重要的地位。

二、概念圖自動(dòng)構(gòu)建流程

概念圖自動(dòng)構(gòu)建流程主要包括三個(gè)處理過(guò)程:概念抽取、共詞分析和可視化映射。

圖1 概念圖自動(dòng)構(gòu)建流程圖

(一)概念抽取

構(gòu)建研究領(lǐng)域的概念圖,必須掌握恰當(dāng)?shù)难芯繉?duì)象。根據(jù)檢索出的相關(guān)期刊論文所列舉的關(guān)鍵詞,可以有效描述該研究領(lǐng)域的概念。但是,不同作者對(duì)同一概念的描述術(shù)語(yǔ)可能不完全一致。例如:K近鄰,K-近鄰,K-最近鄰,代表的都是同一概念。如果同義術(shù)語(yǔ)不歸一處理,那么頻率計(jì)算結(jié)果將影響到概念圖的整體結(jié)構(gòu),造成概念圖信息丟失或冗余。敘詞表是規(guī)范同義術(shù)語(yǔ)的有效字典。

敘詞表亦稱主題詞表、檢索詞典,是一種術(shù)語(yǔ)控制工具。它將標(biāo)引者、文獻(xiàn)作者和檢索者使用的自然語(yǔ)言,通過(guò)轉(zhuǎn)換,最終形成為規(guī)范化的敘詞型主題檢索語(yǔ)言。同時(shí)它是一種詞典,它可以概括某一學(xué)科領(lǐng)域,以受控的、規(guī)范化的、動(dòng)態(tài)性的敘詞(主題詞)為基本成分和以參照系統(tǒng)顯示詞間關(guān)系,用于標(biāo)引、存儲(chǔ)和檢索文獻(xiàn)。

(二)共詞分析

通過(guò)分析科技文獻(xiàn)中主題詞、關(guān)鍵詞、短語(yǔ)或在索引詞科技文本中共同出現(xiàn)的形式,統(tǒng)計(jì)短語(yǔ)或一組詞兩兩在同一篇文獻(xiàn)中出現(xiàn)的次數(shù),最終建立一個(gè)矩陣,以顯示詞之間的關(guān)聯(lián)程度。關(guān)聯(lián)的次數(shù)越多,表明他們之間的關(guān)系就越密切,“距離”也就越近[2]。

(三)可視化映射

目前應(yīng)用較多的是多維標(biāo)度技術(shù)MDS、自組織特征映射技術(shù)SOM,但這兩種方法在模仿不均勻的關(guān)系時(shí)存在不足,不能突出顯示局部關(guān)系[3]。因此,引入了尋徑網(wǎng)絡(luò)方法。

尋徑網(wǎng)絡(luò)的優(yōu)勢(shì)在于能直觀模仿不均勻的關(guān)系,保留節(jié)點(diǎn)間“突出的”關(guān)系,將局部關(guān)系更清楚的顯示出來(lái),而這是多維標(biāo)度技術(shù)和其他技術(shù)難以辦到的。

PFNET描述概念的差異程度,而共頻矩陣描述概念的相關(guān)程度。所以我們要將共頻矩陣轉(zhuǎn)換為表示概念差異的矩陣。

假設(shè)共頻矩陣為S,其元素esij表示i和j的共引頻數(shù)。從共頻矩陣S映射到概念差異矩陣W的規(guī)則:

PFNET算法中使用兩個(gè)重要參數(shù)r和q。q是指兩個(gè)節(jié)點(diǎn)鏈的中間節(jié)點(diǎn)數(shù)量,r參數(shù)是閔可夫斯基度規(guī)則(Minkowski Metric)的一個(gè)參數(shù),即計(jì)算路徑長(zhǎng)度的一個(gè)參數(shù)。r=1時(shí),等于測(cè)地距離;r=2時(shí),等于兩個(gè)點(diǎn)的歐氏距離;r=∞時(shí),等于路徑中兩個(gè)中間節(jié)點(diǎn)間的最大距離。q是一條路徑上有中間節(jié)點(diǎn)的數(shù)量。A Quirin[4]利用連通圖的最小生成樹(shù)集合和這個(gè)圖的PFNET等價(jià)的性質(zhì),提出了一種基于MST的PFNET生成算法,并引入按秩合并和路徑壓縮的分離集合數(shù)據(jù)結(jié)構(gòu),將PFNET的時(shí)間復(fù)雜度降低為O(n2*log(n))。但是,基于MST的PFNET算法中數(shù)據(jù)結(jié)構(gòu)相對(duì)復(fù)雜,實(shí)際上是典型的用空間換時(shí)間。由于依次檢查每條路徑的操作復(fù)雜度高,引入基于動(dòng)態(tài)規(guī)劃的Floyd算法的情況下,雖然時(shí)間復(fù)雜度只能降為O(n3),但是Floyd算法的數(shù)據(jù)結(jié)構(gòu)和算法結(jié)構(gòu)更加簡(jiǎn)單。所以,選擇采用基于Floyd的PFNET算法[5]。先利用Floyd算法將兩個(gè)節(jié)點(diǎn)的最短距離存入距離矩陣,最后將距離矩陣和差異矩陣對(duì)比得到PFNET。

基于Floyd的PFNET生成算法偽代碼如下:

if(dij=wij)將節(jié)點(diǎn)i和節(jié)點(diǎn)j的邊加入PFNET;

三、實(shí)驗(yàn)

通過(guò)一個(gè)實(shí)例,繪制基于科技文獻(xiàn)的概念圖,進(jìn)行對(duì)模型的仿真。首先,進(jìn)行概念提取。我們的實(shí)驗(yàn)數(shù)據(jù)來(lái)源于CKNI中科技文獻(xiàn)。以“文本挖掘”為例。抽取174篇有關(guān)文獻(xiàn)作為分析對(duì)象,對(duì)關(guān)鍵詞進(jìn)行規(guī)范。由于文本挖掘是一個(gè)比較新的研究領(lǐng)域,各種敘詞表中未良好地收錄該領(lǐng)域的主題詞。我們根據(jù)相關(guān)文獻(xiàn)的關(guān)鍵詞做預(yù)處理,構(gòu)建一個(gè)僅針對(duì)文本挖掘的同義術(shù)語(yǔ)表來(lái)代替敘詞表。規(guī)范化關(guān)鍵詞后,篩選出在文獻(xiàn)出現(xiàn)頻率最高的21個(gè)關(guān)鍵詞。

表1 高頻關(guān)鍵詞

對(duì)這21個(gè)高頻關(guān)鍵詞做共頻分析,得到共頻矩陣S。然后,將共頻矩陣轉(zhuǎn)換為差異矩陣W,利用PFNET生成算法映射出概念圖模型。最后,借助可視化顯示工具Graphviz,繪制出粗糙概念圖。

圖2 文本挖掘領(lǐng)域高頻關(guān)鍵詞網(wǎng)絡(luò)

圖3 文本挖掘領(lǐng)域概念圖

圖2給出的是文本挖掘領(lǐng)域高頻關(guān)鍵詞網(wǎng)絡(luò),每一條邊表示一對(duì)關(guān)鍵詞共現(xiàn)。圖3是根據(jù)分析關(guān)鍵詞共頻,通過(guò)PFNET映射后得到的網(wǎng)絡(luò)。根據(jù)統(tǒng)計(jì)分析,圖2中共有140條邊,圖3中只保留了圖2中最為重要的25條邊。對(duì)比分析可以看出,圖2更清晰地反映了文本挖掘領(lǐng)域內(nèi)知識(shí)點(diǎn)的聯(lián)系。

四、結(jié)語(yǔ)

本文提出的概念圖自動(dòng)構(gòu)建模型,包括概念提取、共詞分析、可視化映射三步驟。模型實(shí)驗(yàn)繪制出了文本挖掘領(lǐng)域的概念圖,它展示文本挖掘的知識(shí)全貌,突出顯示了學(xué)科類的知識(shí)點(diǎn)。

概念圖繪制是科研知識(shí)管理的一個(gè)重要部分。本文提出的概念圖自動(dòng)繪制能體現(xiàn)知識(shí)點(diǎn)之間的密切聯(lián)系,但還無(wú)法描述知識(shí)點(diǎn)之間具體存在什么樣的聯(lián)系。在概念提取方面,由于學(xué)科敘詞表制作的滯后,也使得概念圖自動(dòng)構(gòu)建不夠完善。敘詞表不斷更新的工作需要眾多領(lǐng)域的專家共同努力。為使概念圖更加精確,還需要研究知識(shí)點(diǎn)間具體關(guān)系的自動(dòng)識(shí)別。

[1]張學(xué)福.基于知識(shí)模型的文本信息檢索可視化研究[J].中國(guó)圖書館學(xué)報(bào),2006(5).

[2]岳洪江.基于共詞分析的國(guó)際企業(yè)研發(fā)文本知識(shí)挖掘可視化研究[J].商業(yè)研究,2008(9).

[3]Vicente P,et al.Binary Pathfinder:An improvement to the Pathfinder algorithm[J].Information Processing&Management,2006,42(6).

[4]Quirin A,et al.A new variant of the Pathfinder algorithm to generate large visual science maps in cubic time[J].Information Processing&Management,2008,44(4).

[5]Quirin A,etal.Aquick MST-basedalgorithm to obtain Pathfinder networks(infinity,n-1)[J].Journal of the AmericanSociety for In for mation Science and Technology,2008,59(12).

G254.92

A

1673-1999(2012)07-0162-03

秦小鐵(1979-),男,河南鎮(zhèn)平人,重慶科技學(xué)院圖書館助理館員。

2012-03-12

猜你喜歡
概念圖可視化概念
基于CiteSpace的足三里穴研究可視化分析
Birdie Cup Coffee豐盛里概念店
基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
概念圖在小學(xué)高年級(jí)寫作教學(xué)中的應(yīng)用研究
基于CGAL和OpenGL的海底地形三維可視化
幾樣概念店
“融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
學(xué)習(xí)集合概念『四步走』
聚焦集合的概念及應(yīng)用
概念圖教學(xué)功能初探
襄垣县| 霍城县| 顺昌县| 恩施市| 西乌珠穆沁旗| 诸城市| 陆丰市| 横峰县| 通州市| 故城县| 钦州市| 东海县| 蓬溪县| 从化市| 鄄城县| 云阳县| 怀柔区| 亳州市| 深圳市| 瑞丽市| 乐都县| 呼图壁县| 河源市| 利津县| 安溪县| 彰武县| 阿巴嘎旗| 绥棱县| 左云县| 扶风县| 天等县| 义乌市| 阜新| 恩施市| 阿拉善左旗| 灌云县| 迁安市| 阿图什市| 苍溪县| 博湖县| 江源县|