劉小樂1 馬捷2
(1.天津科技大學(xué)圖書館,天津300457;2.吉林大學(xué)管理學(xué)院,吉林長春130025)
語義網(wǎng)環(huán)境下基于本體的知識集成研究進(jìn)展
劉小樂1馬捷2
(1.天津科技大學(xué)圖書館,天津300457;2.吉林大學(xué)管理學(xué)院,吉林長春130025)
〔摘要〕本文以Web of Science數(shù)據(jù)庫為數(shù)據(jù)來源,利用文獻(xiàn)計量學(xué)方法,從文獻(xiàn)資源的著者、學(xué)科以及國家和地區(qū)分布等方面進(jìn)行統(tǒng)計分析,探討語義網(wǎng)環(huán)境下基于本體的知識集成研究進(jìn)展。同時利用CiteSpace3.7.R8可視化軟件對文獻(xiàn)的引文和關(guān)鍵詞進(jìn)行可視化分析,發(fā)現(xiàn)熱點和經(jīng)典文獻(xiàn),為進(jìn)一步的研究提供借鑒。
〔關(guān)鍵詞〕本體;知識集成;語義網(wǎng);關(guān)鍵詞共現(xiàn);文獻(xiàn)共引 與共現(xiàn)知識圖譜繪制步驟類似,利用CiteS-pace3.7.R8軟件設(shè)置相關(guān)參數(shù),在選擇Node Types(節(jié)點類型)時選擇Cited Reference(文獻(xiàn)共被引分析)。運行程序,獲得文獻(xiàn)共被引頻次表(如表3所示)和文獻(xiàn)共被引知識圖譜(如圖2所示)。在圖中結(jié)點代表參考文獻(xiàn),結(jié)點的大小能夠反映文獻(xiàn)被引頻次的高低程度,結(jié)點間連線表示文獻(xiàn)存在共被引的關(guān)系,結(jié)點間的連線越粗代表文獻(xiàn)共被引程度越高。通過文獻(xiàn)共被引分析,可以分析在這一學(xué)科領(lǐng)域的經(jīng)典文獻(xiàn)。
語義網(wǎng)是萬維網(wǎng)的延伸和擴(kuò)展,在語義網(wǎng)環(huán)境下,計算機(jī)通過語義化的信息標(biāo)注對知識進(jìn)行智能表達(dá)、自動處理,實現(xiàn)對知識的語義理解。本體是概念化形式化的說明,通過概念以及概念間的關(guān)系有效地表達(dá)不同領(lǐng)域間的通用知識。知識集成主要是對新的知識進(jìn)行識別、處理、評估以及改造,實現(xiàn)新知識與原有知識之間的交互[1],促進(jìn)知識組織化和結(jié)構(gòu)化,使得知識能夠集成發(fā)展。語義網(wǎng)環(huán)境下基于本體的知識集成能夠解決不同網(wǎng)絡(luò)信息資源的語義異構(gòu)問題[2],通過集成不同的知識結(jié)構(gòu)和不同來源的知識,為用戶提供統(tǒng)一的知識訪問接口以及智能化的知識服務(wù)。本文主要研究語義網(wǎng)環(huán)境下基于本體的知識集成,明確這一領(lǐng)域的研究進(jìn)展?fàn)顩r,通過分析為以后的研究奠定基礎(chǔ)。
本文采用的數(shù)據(jù)來源于美國科學(xué)情報研究所(ISI)出版的Web of Science中的SCI-EXPANDED,CCR-EXPANDED,IC數(shù)據(jù)庫[3]。數(shù)據(jù)的檢索策略是主題=“knowledge integration”AND主題=“ontology”,時間跨度為2003-2013年。檢出的文獻(xiàn)包括Article、Proceedings paper、Review、Editorial material、Book Chapter等類型。刪除書評等非研究性文獻(xiàn),經(jīng)過數(shù)據(jù)的篩選和精煉獲得698篇文獻(xiàn)。
1.1文獻(xiàn)著者分析
筆者對檢出的698篇文獻(xiàn)的著者進(jìn)行統(tǒng)計,通過統(tǒng)計結(jié)果分析基于本體的知識集成研究領(lǐng)域的著者發(fā)文數(shù)量,確定該研究領(lǐng)域的高產(chǎn)作者,從而能夠?qū)崿F(xiàn)這一領(lǐng)域的合作研究。同時對作者合著情況分析,了解該研究領(lǐng)域的合作團(tuán)體,從而能夠拓寬該領(lǐng)域研究的深度與廣度。根據(jù)統(tǒng)計,發(fā)表2篇以上論文的著者共有358位,發(fā)表10篇論文以上的著者共有2位,均是11篇,共有6個團(tuán)體作者。
1.2文獻(xiàn)學(xué)科分析
通過分析這一領(lǐng)域文獻(xiàn)的學(xué)科分布情況,能夠了解該領(lǐng)域主要分布的學(xué)科,利用不同學(xué)科的研究方法來拓寬該研究領(lǐng)域,同時深化在不同學(xué)科的應(yīng)用。依據(jù)統(tǒng)計,該領(lǐng)域698篇文獻(xiàn)分布在了83個學(xué)科領(lǐng)域,其中發(fā)文量超過50篇的文章主要集中在計算機(jī)科學(xué)、人工智能、信息系統(tǒng)、軟件工程、信息管理學(xué)、醫(yī)學(xué)信息學(xué)、管理科學(xué)等學(xué)科領(lǐng)域。通過分析,語義網(wǎng)環(huán)境下基于本體的知識集成類研究屬于計算機(jī)科學(xué)的文章較多,信息系統(tǒng)、軟件工程、人工智能也是在計算機(jī)技術(shù)支撐下發(fā)展起來的。計算機(jī)科學(xué)技術(shù)的發(fā)展推動基于本體的知識集成研究的發(fā)展,語義網(wǎng)、本體的發(fā)展同時豐富了計算機(jī)科學(xué)的研究。在計算機(jī)技術(shù)支撐和語義網(wǎng)環(huán)境下,基于本體的知識集成模型、分類、系統(tǒng)、管理等分布在信息系統(tǒng)、軟件工程、人工智能、管理科學(xué)等領(lǐng)域。
1.3文獻(xiàn)國家或地區(qū)分析
通過分析文獻(xiàn)的國家或者地區(qū)分布狀況,能夠幫助掌握基于本體的知識集成研究領(lǐng)域的科研分布情況,為該領(lǐng)域進(jìn)行國際的科研合作提供借鑒和應(yīng)用。依據(jù)統(tǒng)計結(jié)果,698篇文獻(xiàn)一共分布在59個國家和地區(qū),排名前10位的國家和地區(qū)共發(fā)表論文669篇,占發(fā)文總量的95.84%,美國、英國、西班牙、德國、中國、法國、意大利、加拿大、中國臺灣、澳大利亞排在前10位。美國以193篇的論文數(shù)量排在第一位,在該領(lǐng)域美國的研究遙遙領(lǐng)先,其他國家可以借鑒其研究成果,同時與相關(guān)專家和機(jī)構(gòu)進(jìn)行合作,共同深化該領(lǐng)域的發(fā)展。英國以86篇的論文數(shù)量排名第二。中國以69篇的論文數(shù)量排名在第四,與第三名只有1篇之差,中國臺灣地區(qū)以24篇論文數(shù)量排名在第九位,這樣中國共有93篇相關(guān)文章,僅次于美國。雖然中國在數(shù)量上與美國有很大的差距,但也能夠表明中國基于本體的知識集成研究在國際舞臺上占有一定的地位。需要借鑒該領(lǐng)域研究前沿國家的研究成果,密切國家合作。如表1顯示排名在前10位的國家和地區(qū)。
2.1可視化文獻(xiàn)分析軟件——CiteSpace
CiteSpace是美國德雷克塞爾大學(xué)信息科學(xué)與技術(shù)學(xué)院
表1 論文數(shù)量發(fā)表排名前10位的國家和地區(qū)
的陳超美博士開發(fā)的基于JAVA平臺的文獻(xiàn)可視化分析軟件。CiteSpace利用文獻(xiàn)間的引用關(guān)系建立節(jié)點之間的關(guān)聯(lián),通過繪制關(guān)聯(lián)知識圖譜來研究科學(xué)文獻(xiàn)。利用CiteSpace可以顯示某一學(xué)科或者是知識領(lǐng)域在一定時期的發(fā)展趨勢和動向,從而形成前沿領(lǐng)域的演進(jìn)歷程[4]。CiteSpace用節(jié)點表示文獻(xiàn),節(jié)點的大小表示文獻(xiàn)被引用次數(shù),節(jié)點越大代表該文獻(xiàn)被引用次數(shù)越多。節(jié)點間的連線表示文獻(xiàn)之間的相互引用關(guān)系,連線的粗細(xì)代表相互引用次數(shù),連線越粗代表文獻(xiàn)間相互引用次數(shù)越多[5]。本文利用CiteS-pace3.7.R8版本對國內(nèi)外基于本體的知識集成文獻(xiàn)進(jìn)行關(guān)鍵詞共現(xiàn)和文獻(xiàn)共引分析,繪制知識圖譜分析本領(lǐng)域的研究熱點和經(jīng)典文獻(xiàn),為進(jìn)一步的研究提供借鑒和指導(dǎo)。
2.2研究熱點分析
2.2.1關(guān)鍵詞共現(xiàn)知識圖譜繪制
利用CiteSpace3.7.R8軟件導(dǎo)入Web of Science數(shù)據(jù)庫檢索出的698篇文獻(xiàn)信息,同時設(shè)置相關(guān)的參數(shù)。具體設(shè)置Time Slicing(時區(qū)分割)為2003-2013年;#Years Per Slice(單個時間分區(qū)長度)設(shè)為1年;Term Source(主題詞來源)勾選Title(標(biāo)題)、Abstract(摘要)、Author Keywords(著者關(guān)鍵詞)以及Keywords Plus(擴(kuò)展關(guān)鍵詞),閾值Thresholding(c,cc,ccv)設(shè)置為(2,2,20)(4,3,20)(4,3,20);Node Types選擇Keywords即關(guān)鍵詞共現(xiàn)分析。通過運行程序得到關(guān)鍵詞頻次表(如表2)以及關(guān)鍵詞共現(xiàn)圖譜(如圖1)。在圖1中,1個結(jié)點代表1個關(guān)鍵詞,結(jié)點的大小反映關(guān)鍵詞出現(xiàn)的頻次高低程度,結(jié)點間的連線反映關(guān)鍵詞間的共現(xiàn)關(guān)系。如果結(jié)點之間的連線越粗表示兩個關(guān)鍵詞共現(xiàn)的頻次就越高,結(jié)點的年輪結(jié)構(gòu)則表示某一關(guān)鍵詞的出現(xiàn)時間。
表2 關(guān)鍵詞頻次表
圖1 關(guān)鍵詞共現(xiàn)知識圖譜
2.2.2關(guān)鍵詞共現(xiàn)分析結(jié)果——研究熱點領(lǐng)域
通過關(guān)鍵詞頻次表以及關(guān)鍵詞共現(xiàn)知識圖譜,可以分析基于本體的知識集成領(lǐng)域研究熱點。通過分析,知識集成研究熱點主要集中在以下幾個方面:
(1)語義網(wǎng)環(huán)境下基于本體的知識集成模型研究
由共現(xiàn)關(guān)鍵詞ontology(anthologies)-data Integrationknowledge-semantic web-model分析得出。
知識集成模型主要用來描述知識與知識、知識與過程以及知識與人之間的關(guān)系,指導(dǎo)如何進(jìn)行知識集成[6]。知識集成模型主要分為兩種:一種是基于認(rèn)識論的知識集成模型,主要包括顯性知識之間的集成、隱性知識之間的集成、從顯性知識到隱性知識的集成、從隱性知識到顯性知識的集成4種模型。具有代表性的是基于知識內(nèi)容的顯性知識之間的集成模型(SECⅠ模型),嚴(yán)格意義上說屬于知識創(chuàng)造模型[7]。另一種是從本體論的角度出發(fā)將知識集成分為個體知識、團(tuán)隊知識、組織知識以及組織間的知識,在不同的層面或者是同一層面對知識進(jìn)行集成,即ITOI知識集成模型[8];Reimer主要研究在語義網(wǎng)環(huán)境下如何從更高層次的語言著手建立知識集成模型[9];Nonaka的研究成果偏重知識創(chuàng)造方面的研究[10];Sabherwal研究不同類型知識的集成機(jī)制,建立了理論模型[11]。
(2)語義網(wǎng)環(huán)境下基于本體的知識集成工具研究
由共現(xiàn)關(guān)鍵詞ontology(ontologies)-integration-knowledge-semantic web-tool得出。
信息技術(shù)的發(fā)展推動了知識集成工具的進(jìn)步。語義網(wǎng)環(huán)境下基于本體的知識集成研究主要集中在計算機(jī)科學(xué)領(lǐng)域,通過分析,知識集成工具主要包括知識轉(zhuǎn)化工具、知識庫管理系統(tǒng)、知識挖掘工具以及知識集成平臺等。利用知識轉(zhuǎn)化工具和過濾、集體協(xié)作技術(shù)、語義網(wǎng)技術(shù)將隱性知識轉(zhuǎn)化成顯性知識;利用知識庫管理系統(tǒng)有效的管理顯性知識;利用知識挖掘工具將在數(shù)據(jù)庫挖掘到的重要知識進(jìn)行分析與整合;利用知識集成平臺的中間件以及多媒體技術(shù)功能進(jìn)行知識的表達(dá)、轉(zhuǎn)化和交流,實現(xiàn)知識的表達(dá)、異構(gòu)環(huán)境下知識的獲取與重用、規(guī)則推理,從而形成知識集成系統(tǒng)。
(3)語義網(wǎng)環(huán)境下基于本體的知識集成管理
由共現(xiàn)關(guān)鍵詞ontology(anthologies)-data integrationknowledge management-semantic web得出。
在知識管理領(lǐng)域?qū)χR集成的研究集中在知識集成的創(chuàng)新、知識集成的能力、知識集成的評價以及知識集成的應(yīng)用方面。語義網(wǎng)環(huán)境下基于本體的知識集成管理將計算機(jī)技術(shù)與知識管理理論有效結(jié)合,利用本體技術(shù)、語義網(wǎng)代理技術(shù)對知識集成進(jìn)行創(chuàng)新,保證知識創(chuàng)新的技術(shù)成果和應(yīng)用。語義網(wǎng)環(huán)境下,強(qiáng)化本體論的應(yīng)用研究,通過基于本體的知識集成,可以突破原有數(shù)據(jù)庫集成存在的問題和瓶頸,實現(xiàn)組織的知識管理。
(4)語義網(wǎng)環(huán)境下基于本體的知識集成系統(tǒng)設(shè)計
由ontology(anthologies)-integration-knowledge-semantic web-systems(system)-design得出。
知識集成是對知識的整合和優(yōu)化,對隱性知識和顯性知識進(jìn)行交流和協(xié)作,實現(xiàn)知識的共享。知識集成系統(tǒng)解決的關(guān)鍵問題是如何將分散的知識整合成為統(tǒng)一的知識,確保知識的擴(kuò)展性。語義網(wǎng)環(huán)境下,知識集成系統(tǒng)構(gòu)建基于建立統(tǒng)一的專家知識庫基礎(chǔ)上,將顯性知識和隱性知識整合成為標(biāo)準(zhǔn)的可以理解的本體知識。利用專門的轉(zhuǎn)化模塊,實現(xiàn)顯性知識和隱性知識的轉(zhuǎn)化,集成獨立的本體知識庫。異質(zhì)知識源的集成成為知識集成研究的一大熱點。建立知識源之間的知識互用和共享平臺,表示和挖掘已有知識源中的隱性知識同時消除已有知識源的不一致性,從而準(zhǔn)確解決問題。
2.3經(jīng)典文獻(xiàn)分析
2.3.1文獻(xiàn)共被引知識圖譜繪制
表3 文獻(xiàn)共被引頻次表
2.3.2文獻(xiàn)共被引分析——經(jīng)典文獻(xiàn)
結(jié)合表3、圖2文獻(xiàn)圖譜進(jìn)行深入分析,在語義網(wǎng)環(huán)境下,基于本體的知識集成研究論文共同被引用的頻次超過30次的有10篇,本文將共被引頻次超過50次的引文作為該領(lǐng)域研究的經(jīng)典文獻(xiàn)(如表4所示)。Ashburner Mz在2000年發(fā)表的Gene Ontology:tool for the unification of biology
圖2 文獻(xiàn)共被引知識圖譜
的文章共被引頻次最高達(dá)到178次,該文章被該領(lǐng)域內(nèi)178篇文章引用,成為經(jīng)典文獻(xiàn)。Gruber,T,R的文章是本體領(lǐng)域內(nèi)的經(jīng)典文獻(xiàn),共被引106次,Grube,T,R在該文章中詳細(xì)系統(tǒng)的定義了本體的概念。通過分析經(jīng)典文獻(xiàn)可以得出該領(lǐng)域研究的發(fā)展歷程、理論依據(jù)和技術(shù)基礎(chǔ),并提供了基因本體和生物醫(yī)學(xué)知識集成例證,為知識集成的研究提供了有利借鑒。這些經(jīng)典文獻(xiàn)在一定程度上反映了該領(lǐng)域在不同階段的研究水平。在做有關(guān)這一方面的研究時,仔細(xì)閱讀這些經(jīng)典文獻(xiàn)可以更加深入的了解該領(lǐng)域研究的基礎(chǔ)和側(cè)重點,提高研究水平。
表4 經(jīng)典文獻(xiàn)列表
本文利用CiteSpace3.7.R8文獻(xiàn)分析軟件,通過關(guān)鍵詞共現(xiàn)和文獻(xiàn)共被引分析了語義網(wǎng)環(huán)境下基于本體的知識集成研究進(jìn)展,從文獻(xiàn)資源的著者、學(xué)科以及國家和地區(qū)分布等方面統(tǒng)計分析國際上知識集成研究基本狀況,分析出該領(lǐng)域研究集中在知識集成的模型、工具、管理以及系統(tǒng)構(gòu)建等熱點領(lǐng)域,分析出5篇經(jīng)典文獻(xiàn)。在研究過程中也發(fā)現(xiàn)了知識集成領(lǐng)域研究存在的問題:首先,語義網(wǎng)環(huán)境下基于本體的知識集成研究在集成異質(zhì)知識源方面還需要構(gòu)建更加高效的異構(gòu)知識源平臺,實現(xiàn)知識結(jié)構(gòu)化程度和知識表示方法的統(tǒng)一性;其次,在實現(xiàn)知識系統(tǒng)的互操作和共享方面存在欠缺,知識的表達(dá)方式?jīng)]有統(tǒng)一的標(biāo)準(zhǔn);最后,知識集成的理論研究比較成熟,但是實際應(yīng)用方面較少,知識集成理論和實際應(yīng)用的脫節(jié)。基于本體的知識集成實踐不斷發(fā)展,研究人員需要運用不同的知識集成方法,不斷地開發(fā)新的知識集成工具,構(gòu)建基于本體的知識集成平臺,解決知識集成方面存在的問題,從而真正有效地實現(xiàn)知識集成。
參考文獻(xiàn)
[1]羅海飛,吳剛,楊金生.基于貝葉斯的文本分類方法[J].計算機(jī)工程與設(shè)計,2006,27(24):4746-4748.
[2]楊學(xué)明,劉柏嵩.基于本體的知識集成研究[J].情報雜志,2006,(5):63-65.
[3]楊國立.國外數(shù)字圖書館研究進(jìn)展:基于關(guān)鍵詞共現(xiàn)和文獻(xiàn)共被引的可視化研究[J].圖書館雜志,2012,31(6):20-25.
[4]Chen C.CiteSpaceⅡ:Detecting and visualizing emerging wends and transient patterns in scientific literature[J].Journal of the American Society for Information Science and Technology,2006,52(3):359-377.
[5]張紅巖.我國圖書館職業(yè)研究的實證分析[J].中國輕工教育,2012,(6):52-54.
[6]馬彪.國外知識集成研究綜述[J].情報理論與實踐,2007, 30(1):139-144.
[7]Grant.Prospering in dynamically competitive environments:Organization capability as knowledge integration[J].Organization Science,1996,54(4):375-387.
[8]Shin M.From knowledge theory to management practice:towards an integrated approach[J].Information Processing&Management,2001,37(2):335-355.
[9]Reimer Acknowledge integration for building organization all memories[J].Eleventh Workshop on Knowledge Acuisition,Modeling and Management,1998.
[10]Nonaka I.Adynamic theory of organizational knowledge creation[J].Organization Science,1994,5(1):14-37.
[11]Sabherwal R.Integrating specific knowledge:insights from the Kennedy space center[J].IEEET transactions on Engineering Management,2005,52(3):301-315.
(本文責(zé)任編輯:孫國雷)
The Development of Knowledge Integration Based on Ontology in Semantic Web Environment
Liu Xiaole1Ma Jie2
(1.Library,Tianjin University of Science and Technology,Tianjin 300222,China;2.School of Management,Jilin University,Changchun 130025,China)
〔Abstract〕The paper analyzed the development of knowledge integration based on ontology in semantic web environment from the author,subject,national and regional distribution of literature with literature metrology and the Web of Science database as the data source.At the same time,the author made visualization analysis of literature citations and keywords with CiteS-pace3.7.R8 visualization software for finding hot and classical literature in order to provide reference for the further study.
〔Key words〕ontology;knowledge integration;semantic web;co-word;document co-citation
作者簡介:劉小樂(1987-),女,助理館員,碩士,研究方向:數(shù)字信息資源管理、知識組織,發(fā)表論文5篇。
收稿日期:2014-10-22
〔中圖分類號〕G203;G252.8
〔文獻(xiàn)標(biāo)識碼〕A
〔文章編號〕1008-0821(2015)01-0159-05
DOI:10.3969/j.issn.1008-0821.2015.01.031