黃桂平 陳巧瑩 何斯娜 余舒紅 葉江彬 陳金萍
1.產(chǎn)生背景
知識圖譜的起源最早可追溯到文獻計量學和科學計量學的誕生時期。1938年Bernal制作了早期學科圖譜;1948年Ellingham手工繪制了圖表,形象地展示自然科學和技術(shù)分支學科間的關(guān)系。同年,Price用簡單的曲線可視化科學知識指數(shù)增長規(guī)律。到20世紀50年代,Garfield創(chuàng)制《科學引文索引》。并以編年體形式手工繪制引文網(wǎng)絡(luò)圖譜;隨后“文獻耦合”(兩篇文獻同引一篇或多篇相同的文獻)、“科學引文網(wǎng)絡(luò)”、“同被引”(與本文同時被作為參考文獻引用的文獻,與本文共同作為進一步研究的基礎(chǔ))、“共詞”(指一定頻率共現(xiàn)于同一語篇中的詞)、“引文可視化”等相繼被提出,科學知識可視化成為專門領(lǐng)域。近年來,因為網(wǎng)絡(luò)信息技術(shù)的飛速發(fā)展使得網(wǎng)絡(luò)信息呈爆炸式增長,造成大量信息冗余,資源重復率高,人們對知識與信息選擇更加困難,查找精確性和效率都有了很大的影響。為了解決上述問題并能可視化的展示知識及信息,科學知識圖譜應(yīng)運而生[1]。
2.含義
知識圖譜(Mapping Knowledge Domain)也被稱為科學知識圖譜、知識域可視化或知識域映射地圖,旨在描述真實世界中存在的各種實體或概念,是可視化地描述人類隨時間擁有的知識資源及其載體,繪制、挖掘、分析和顯示科學技術(shù)知識以及它們之間的相互聯(lián)系,在組織內(nèi)創(chuàng)造知識共享的環(huán)境以促進科學技術(shù)知識的合作和深入[2]。具體分為傳統(tǒng)科學計量圖譜、三維構(gòu)型圖譜、多維尺度圖譜、社會網(wǎng)絡(luò)分析圖譜、自組織映射圖譜、尋徑網(wǎng)絡(luò)分析圖譜等幾個種類。
3.原理
知識圖譜的基本原理是科學文獻、科學家、關(guān)鍵詞等分析單位的相似性分析及測度。根據(jù)不同的方法和技術(shù)可以繪制不同類型的科學知識圖譜。該方法首先,通過計算機和互聯(lián)網(wǎng)搜索引擎強大的自動查詢功能,在極短的時間里面完成對海量信息的準確查詢。其次,通過計算機對已查詢到的海量零散信息進行文獻計量統(tǒng)計分析,不僅可以通過量化模型將其以科學的、可視化的形式直觀地呈現(xiàn)出來,而且還可以發(fā)現(xiàn)它們之間的深層次關(guān)系和趨勢,為今后在該領(lǐng)域的研究提供更有力的客觀數(shù)據(jù)和科學支持。
4.特征
知識圖譜具備動態(tài)性、空間性、知識依賴性、關(guān)聯(lián)性四方面的特征[3]:
第一,動態(tài)性。這是知識圖譜區(qū)別于傳統(tǒng)知識地圖的本質(zhì)特征,它以靜態(tài)的圖譜中點與點以及連線的關(guān)系形式,揭示知識間隱含的動態(tài)結(jié)構(gòu)變化信息。
第二,空間性。知識圖譜以二維或者三維圖形展示知識之間的空間結(jié)構(gòu),通過坐落空間位置和所占據(jù)領(lǐng)域大小來標示知識所處戰(zhàn)略位置的重要程度。
第三,知識依賴性。知識圖譜與一般圖像的區(qū)別在于,一般圖像是對原材料進行直接加工所生成,而知識圖譜是建立在對知識進行數(shù)據(jù)統(tǒng)計或者文本分析后,所構(gòu)建的客觀知識綜合體的基礎(chǔ)上的再次加工處理。知識圖譜一般無法直接從原始知識材料中加工產(chǎn)生,它依賴于對原材料的再次加工。
第四,關(guān)聯(lián)性。知識圖譜可以揭示各知識點之間的相互關(guān)系,點與點在圖譜中所處的距離遠近表示它們間關(guān)系的親疏,點與點之間連線的粗細表示它們關(guān)系連接的力度大小。
5.繪制流程
知識圖譜繪制的基本繪制流程主要有數(shù)據(jù)的收集、處理與繪制以及圖譜解讀三個階段過程。
5.1數(shù)據(jù)的收集
確定并選取合適的數(shù)據(jù)源,對數(shù)據(jù)源進行采集。(在進行論文研究時主要可對CNKI、CSSCI、CSCD和萬方等文獻數(shù)據(jù)庫中抽取數(shù)據(jù)進行分析研究。)
5.2處理與繪制
選取繪圖工具繪制知識圖譜,揭示選取數(shù)據(jù)之間的深層次關(guān)系,常見的知識圖譜應(yīng)用的軟件有Bibexcel、Pajek、CiteSpace、BICOMB和SPSS、HistCite等。
5.3圖譜解讀
對于繪制的結(jié)果的圖表進行專業(yè)的解讀。
6.基本方法
知識圖譜的基本方法主要包括五種,分別是引文分析法、共被引分析法、多元統(tǒng)計分析法、詞頻分析法、社會網(wǎng)絡(luò)分析法。
6.1引文分析法
引文分析法(Citation Analysis)就是利用各種數(shù)學、統(tǒng)計學的方法,以及比較、歸納、抽象、概括等邏輯方法,對科學期刊、論文、著者等各種分析對象的引用和被引用現(xiàn)象進行分析,以便揭示其數(shù)量特征和內(nèi)在規(guī)律,達到評價、預測科學發(fā)展趨勢的一種信息計量研究方法[4]。常見的引文分析技術(shù)主要包括文獻合配分析法、影響因子分析法和共被引用分析法。
6.2共被引分析法
共被引分析法的含義是一種定量的情報研究方法,它以具有一定學科代表性的一批文章(著者或期刊)為分析對象,利用聚類分析、多維標度等多元統(tǒng)計分析方法,借助電子計算機,把眾多的分析對象之間錯綜復雜的共引網(wǎng)狀關(guān)系簡化為數(shù)目相對較少的若干類群之間的關(guān)系,并直觀地表示出來,使分析對象之間相互關(guān)系的格局清晰可辨,在此基礎(chǔ)上分析研究分析對象所代表的學科及文獻的結(jié)構(gòu)和特點[5]。主要分為共詞分析法、共作者分析法、共期刊分析法、共文獻分析法五種類型。
6.3多元統(tǒng)計分析方法
多元統(tǒng)計分析方法包括:聚類分析、主成分分析、因子分析和多維尺度分析。
6.3.1聚類分析法
聚類分析指在沒有先驗知識的條件下,采用定量方法,根據(jù)事物本身所固有的特性的親疏程度從數(shù)據(jù)分析的角度自動進行歸類,對數(shù)據(jù)給出一個更準確、細致的分類結(jié)果,是研究“物以類聚”的一種科學有效的方法。
6.3.2主成分析法
主成分分析也稱主分量分析,指把多個變量(指標)化為少數(shù)幾個綜合變量(綜合指標)的一種統(tǒng)計方法。它是一種降維方法,通過找出幾個綜合變量來代表原來眾多的變量,盡可能地反映原來所有變量的信息量,而且彼此之間互不相關(guān),從而達到簡化的目的[6]。
6.3.3因子分析法
因子分析是主成分分析的推廣,是采用降維方法,從研究原始變量相關(guān)矩陣內(nèi)部結(jié)構(gòu)出發(fā),把一些具有錯綜復雜關(guān)系的變量歸結(jié)為少數(shù)幾個綜合因子的一種多元統(tǒng)計分析方法[7]。
6.3.4多維尺度分析法
多維尺度分析又稱多維量表分析,它是將一組個體間的相異數(shù)據(jù)經(jīng)過MDS轉(zhuǎn)換成空間構(gòu)圖,且保留原始數(shù)據(jù)的相對關(guān)系。多維尺度分析依據(jù)需要分析對象的變量,把對象映射到一個特定的空間位置上,通過分析對象位置間的距離,可以揭示對象間的親疏關(guān)系。
6.4詞頻分析法
詞頻分析法是文獻計量方法中的定性分析法,通過分析某一研究領(lǐng)域文獻中的詞出現(xiàn)的頻次高低,可以確定該領(lǐng)域發(fā)展動向和研究熱點發(fā)展動向[8]。根據(jù)對象的不同分為:關(guān)鍵詞詞頻分析法、主題詞詞頻分析法、篇名詞頻分析法。
6.5社會網(wǎng)絡(luò)分析法
社會網(wǎng)絡(luò)分析又稱社會網(wǎng)或網(wǎng)絡(luò)分析,是對社會網(wǎng)絡(luò)中行為者之間的關(guān)系進行量化研究的一種具體工具。也就是說,社會網(wǎng)絡(luò)分析是測量與調(diào)查社會系統(tǒng)中各部分(點)的特征與相互間的關(guān)系(連接),將其用網(wǎng)絡(luò)的形式加以表示,進而分析其關(guān)系的模式與特征的理論、方法和技術(shù)。社會網(wǎng)絡(luò)分析可以分為兩類:一是自我中心社會網(wǎng)分析,探討個體在網(wǎng)絡(luò)中的聯(lián)結(jié)與位置;二是整體社會網(wǎng)分析,探討的是網(wǎng)絡(luò)整體的構(gòu)成與形態(tài)[9]。
7.應(yīng)用
科學知識圖譜應(yīng)用范圍廣泛,在應(yīng)用上主要分為通用知識圖譜和行業(yè)知識圖譜。通用知識圖譜面向通用領(lǐng)域,以常識性知識為主,首先考慮結(jié)構(gòu)化的百科知識,強調(diào)知識的廣度,使用者是普通用戶。而行業(yè)知識圖譜是面向某一特定領(lǐng)域,對基于行業(yè)的數(shù)據(jù)進行建構(gòu),優(yōu)先考慮的是基于語義技術(shù)的一些行業(yè)的知識庫,強調(diào)的是知識的深度,它的潛在使用者是行業(yè)的人員。知識圖譜主要是基于數(shù)據(jù)及業(yè)務(wù)的關(guān)系分析,因為是多學科的交叉融合,科學知識圖譜能在諸多研究領(lǐng)域中得到應(yīng)用,在行業(yè)上其廣泛用于金融、醫(yī)療、教育、證券投資等領(lǐng)域。對于研究方面,樂飛紅等在2002對知識圖譜的有效作用作了部分總結(jié):搜索導航,利用提供知識檢索,提高知識的復用和防止知識的冗余,從而增強檢索和獲取效率;隱型知識的轉(zhuǎn)化,發(fā)現(xiàn)知識孤島并建立聯(lián)系,促進知識共享;為知識評估提供基礎(chǔ);幫助學習者快速獲取所學知識;提供學習知識的機會;創(chuàng)造、評價知識資產(chǎn);建立對知識進行組織和管理的基礎(chǔ)設(shè)施等。
參考文獻
[1]朱游娟,《初中數(shù)學問題的全知識圖譜設(shè)計與實現(xiàn)》碩士論文
[2]劉則淵、陳悅、侯海燕等著:《科學知識圖譜:方法與應(yīng)用》人民出版社2008年版,第5頁。
[3]陳祖香:《面向科學計量分析的知識圖譜構(gòu)建與應(yīng)用研究》,2010年南京理工大學碩士學位論文,第26頁
[4]邱均平:《信息計量學》,武漢大學出版社2007年版,第315頁
[5]趙黨志:《共引分析——研究學科及其文獻結(jié)構(gòu)和特點的一種有效方法》,《情報雜志》1993年第2期,第36—42頁
[6]唐啟義、馮明光:《實用統(tǒng)計分析及其DPS數(shù)據(jù)處理系統(tǒng)》,科學出版社2002年版,第333—372頁
[7]李健生:《“引文分析法”質(zhì)疑》,《圖書情報工作》1992年第5期,第41—45、57頁
[8]馬費成、張勤:《國內(nèi)外知識管理研究熱點——基于詞頻的統(tǒng)計分析》,《情報學報》2006年第2期,第163—171
[9]李新蕊.主成分分析、因子分析、聚類分析的比較與應(yīng)用[J].山東教育學院學報,2007(6):23—26
(作者單位:福建師范大學福清分校應(yīng)用心理學研究所)