李夢(mèng)琳
摘 要:對(duì)科學(xué)論文資源實(shí)施有效的語義聚合,以提高信息檢索的精度和效率、滿足用戶信息需求、提升知識(shí)服務(wù)水平,是語義出版與知識(shí)組織研究關(guān)注的前沿問題。針對(duì)目前科學(xué)論文檢索難以滿足用戶需求的現(xiàn)狀,本文指出了科學(xué)論文語義聚合的必要性,并在SemFus語義聚合框架的基礎(chǔ)上,結(jié)合科學(xué)論文的內(nèi)容結(jié)構(gòu)特征,提出了涵蓋整個(gè)檢索流程的語義聚合模型。
關(guān)鍵詞:科學(xué)論文 語義聚合 SemFus 知識(shí)服務(wù)
在科學(xué)內(nèi)容創(chuàng)作與出版時(shí),對(duì)其中的科學(xué)知識(shí)對(duì)象與知識(shí)關(guān)系進(jìn)行鑒別和語義標(biāo)注,在不同出版物之間進(jìn)行知識(shí)點(diǎn)的鏈接與整合,支持語義化出版,成為未來科學(xué)出版的重要發(fā)展方向。隨著網(wǎng)絡(luò)信息技術(shù)的發(fā)展,全球范圍的科學(xué)活動(dòng)和科學(xué)交流日益頻繁,科學(xué)論文作為科學(xué)傳播的客體和交流的對(duì)象,數(shù)量規(guī)模呈現(xiàn)出飛速增長的態(tài)勢(shì),并且催生了多種類型的增強(qiáng)型文本,以助讀者獲取補(bǔ)充數(shù)據(jù)、拓展閱讀、增強(qiáng)理解。然而,面對(duì)這些多源、異構(gòu)、動(dòng)態(tài)、富語義的海量論文資源,目前的資源檢索系統(tǒng)還是不能滿足用戶日益復(fù)雜的信息需求,存在準(zhǔn)確率低、粗粒度、資源關(guān)聯(lián)度不夠和無法很好提供可視化檢索服務(wù)等缺點(diǎn),致使檢索結(jié)果和利用效率不盡如人意,影響資源的共建共享。歸根結(jié)底,這是因?yàn)閷?duì)于科學(xué)論文的檢索還沒有細(xì)化到“知識(shí)單元”的程度,計(jì)算機(jī)無法識(shí)別和理解論文深層次的語義內(nèi)容,系統(tǒng)無法對(duì)不同數(shù)據(jù)庫和論文中的各類型知識(shí)資源構(gòu)建關(guān)于概念、實(shí)體等的知識(shí)關(guān)聯(lián)網(wǎng)絡(luò)。
一、概念說明及相關(guān)研究
SemFus框架是一個(gè)基于JDL模型構(gòu)建的語義聚合框架,包含資源預(yù)處理、資源優(yōu)化、情景優(yōu)化、威脅評(píng)估和過程優(yōu)化五個(gè)關(guān)鍵環(huán)節(jié),描述了用戶從輸入檢索命令到獲得查詢結(jié)果中間系統(tǒng)進(jìn)行資源語義聚合的整個(gè)過程。同時(shí),SemFus框架還引入了可以規(guī)范描述科學(xué)論文內(nèi)容結(jié)構(gòu)的本體和推理規(guī)則來克服JDL模型不能解決的資源語義異構(gòu)問題。因此,本文基于SemFus框架,再結(jié)合科學(xué)論文特有的內(nèi)容結(jié)構(gòu),嘗試提出一個(gè)科學(xué)論文語義聚合模型,旨在揭示科學(xué)論文從語義描述、語義標(biāo)引、語義關(guān)聯(lián)和結(jié)果展示這一系列的語義聚合過程,挖掘資源間的內(nèi)在規(guī)律和關(guān)聯(lián),促進(jìn)資源間的語義互操性,為用戶提供精準(zhǔn)有效的知識(shí)服務(wù)。
(一)語義聚合內(nèi)涵
“語義聚合”可譯為“Semantic Aggregation”,與之相近的概念有語義融合、語義集成、語義整合等。目前學(xué)術(shù)界對(duì)“語義聚合”的概念還缺乏一致的界定,不少研究把“Aggregation”譯成“融合”,把“集成”和“整合”翻譯為“Integration”,其實(shí)這些概念都具有“將分散的資源聚集、連接在一起”的含義,其內(nèi)涵并無本質(zhì)差別,在實(shí)際應(yīng)用中也幾乎不會(huì)對(duì)其內(nèi)涵加以區(qū)分。
“語義聚合”屬于數(shù)字信息資源整合研究范疇,涵蓋圖書情報(bào)、地理信息系統(tǒng)、化學(xué)工程、計(jì)算機(jī)等各領(lǐng)域。肖希明總結(jié)目前數(shù)字資源整合方式主要有數(shù)據(jù)整合、信息整合和知識(shí)整合。數(shù)據(jù)整合是對(duì)異構(gòu)資源系統(tǒng)中異質(zhì)異類的數(shù)據(jù)在邏輯或物理上進(jìn)行有機(jī)集中,信息整合則是在前者基礎(chǔ)上對(duì)數(shù)據(jù)對(duì)象之間的關(guān)系進(jìn)行有效組織和整合,知識(shí)整合則是對(duì)信息實(shí)體中的內(nèi)在概念及概念之間的語義關(guān)系進(jìn)行表征。此外,劉曉娟總結(jié)知識(shí)融合概念的發(fā)展經(jīng)歷了“數(shù)據(jù)融合——信息融合——知識(shí)融合”的過程。由此可見,知識(shí)融合是數(shù)據(jù)融合、信息融合的高級(jí)階段。曹樹金將語義聚合模式歸為基于關(guān)系的聚合,旨在探索文本信息資源內(nèi)容所包含的概念間或?qū)嶓w間的關(guān)系,從而通過語義關(guān)系網(wǎng)絡(luò)實(shí)現(xiàn)文本、數(shù)據(jù)、服務(wù)等多類型資源的聚合。由此可見,語義聚合屬于知識(shí)聚合層面,是從語義層面上來探討異構(gòu)資源概念、實(shí)體、引用之間的關(guān)聯(lián)網(wǎng)絡(luò)。
(二)國內(nèi)外語義聚合研究
目前語義聚合的相關(guān)研究主要集中于體現(xiàn)本體的重要性。一部分研究利用本體技術(shù)來進(jìn)行資源的語義識(shí)別。Kokar等提供了本體的類描述和屬性描述,并用簡單實(shí)例對(duì)其規(guī)范化進(jìn)行了闡述,旨在將OWL本體運(yùn)用在Barwise的情境理論中,實(shí)現(xiàn)用機(jī)器可處理的語義來描述情境。另一部分研究是探討本體在異構(gòu)信息源語義集成方面的應(yīng)用。Gagnon提出一種基于本體的利用“局部—全局”本體映射的信息聚合方法來聚合異構(gòu)數(shù)據(jù)資源。國內(nèi)關(guān)于語義聚合的研究主要集中于館藏?cái)?shù)字資源的語義集合。何超和張玉峰分別從本體和Web鏈接挖掘技術(shù)這兩個(gè)角度,從數(shù)據(jù)采集層、資源描述與挖掘?qū)?、語義聚合層、可視化展示層等方面構(gòu)建了館藏資源語義聚合與可視化模型。
(三)科學(xué)論文結(jié)構(gòu)研究
目前,已普遍運(yùn)用于描述文獻(xiàn)結(jié)構(gòu)的標(biāo)簽集標(biāo)準(zhǔn)有科技期刊文檔標(biāo)簽集、圖書交換標(biāo)簽集、文本編碼協(xié)議等,主要是對(duì)文本的外在結(jié)構(gòu)進(jìn)行描述,用于內(nèi)容的存儲(chǔ)、轉(zhuǎn)換、表示與分享。近年來,為了滿足知識(shí)挖掘的需求,國內(nèi)外學(xué)界提出了多種論文內(nèi)容結(jié)構(gòu)模型和出版本體,如文獻(xiàn)構(gòu)件本體、篇章元素本體等,旨在規(guī)范描述和表示論文內(nèi)容的組成部分。由此可以反映出文獻(xiàn)語義建模從外部結(jié)構(gòu)逐步向內(nèi)容語義發(fā)展的趨勢(shì)。
二、基于JDL的SemFus框架
(一)SemFus框架的介紹及描述
JDL(Joint Directors of Laboratories)模型是美國軍方實(shí)驗(yàn)室理事聯(lián)席會(huì)下設(shè)的C3技術(shù)委員會(huì)成立的信息融合專家組提出的典型信息融合模型,是比較通用且應(yīng)用最為廣泛的功能模型。但隨著情報(bào)獲取及知識(shí)管理等新方法的提出,JDL模型已經(jīng)難以滿足實(shí)際需求。于是H.A.Noughabi等人從語義聚合流程的角度出發(fā),基于JDL模型提出了語義聚合框架SemFus。SemFus框架較嚴(yán)格地遵循了JDL模型的框架,并在其基礎(chǔ)上增加了對(duì)語義技術(shù)的使用。它首先對(duì)語義層級(jí)的定義進(jìn)行了細(xì)化,然后引入了本體和語義推理規(guī)則進(jìn)行語義表示和交互,以克服多種異構(gòu)數(shù)據(jù)源中的語義問題。為簡化操作流程,本體和推理規(guī)則都采用了資源描述框架(Resource Description Framework,RDF)作為描述語言。如圖1所示為SemFus框架。
在Level 0資源預(yù)處理階段,主要是對(duì)不同信息資源進(jìn)行評(píng)估和預(yù)測,如對(duì)資源進(jìn)行標(biāo)準(zhǔn)化處理、處理數(shù)據(jù)集的缺失值、過濾低質(zhì)量信息等。在Level 1資源優(yōu)化階段,資源對(duì)象都用RDF進(jìn)行描述,并通過RDFizer轉(zhuǎn)換成統(tǒng)一的描述格式存儲(chǔ)在RDF庫里。每種資源都通過本體的定義描述出來,并由統(tǒng)一資源標(biāo)識(shí)符(URI)予以標(biāo)識(shí)。在Level 2情景優(yōu)化階段,基于實(shí)體的定義及其關(guān)系,在語義層面上提供關(guān)系的情境描述。這一階段用于情景分析的資源除了來源于RDF庫,還可以從眾多外部的關(guān)聯(lián)數(shù)據(jù)集中獲取。在資源優(yōu)化和情景優(yōu)化過程中,每個(gè)數(shù)據(jù)源都用獨(dú)立的本體加以描述;同時(shí),為了使多源數(shù)據(jù)能夠相互比較及合并,在本地本體之上還引入共享本體,以保證各數(shù)據(jù)源之間的語義一致性。在Level 3威脅評(píng)估階段,使用語義推理機(jī)進(jìn)行語義推理,原理是利用存儲(chǔ)在規(guī)則庫中的推理規(guī)則對(duì)前面流程處理過的信息進(jìn)行推理,以明確可能存在的威脅、脆弱性、不足和機(jī)會(huì)。Level 4 過程優(yōu)化階段則負(fù)責(zé)監(jiān)控系統(tǒng)的執(zhí)行過程,根據(jù)特定的目標(biāo)配置資源,以支持任務(wù)目標(biāo)的完成。
(二)SemFus框架能更好地解決語義關(guān)聯(lián)問題
JDL模型與SemFus框架都從系統(tǒng)視角來看待信息聚合,將兩者進(jìn)行對(duì)比,可以發(fā)現(xiàn)SemFus的優(yōu)勢(shì)在于它通過利用語義技術(shù)可以克服許多語義問題,使異構(gòu)數(shù)據(jù)集成更高效。比如解決語義沖突問題、提供標(biāo)準(zhǔn)統(tǒng)一的描述規(guī)范、支持映射、語義推理、連接到關(guān)聯(lián)開放數(shù)據(jù)等,這些都是JDL模型所不具備的特征。如表1所示。
三、基于SemFus構(gòu)建科學(xué)論文語義聚合模型
由前文可知,SemFus框架在JDL模型的基礎(chǔ)上豐富了語義聚合的過程,致力于實(shí)現(xiàn)各種資源間的語義互操作。但它屬于通用型框架,只能描述資源語義聚合的宏觀流程。若想專門針對(duì)科學(xué)論文資源進(jìn)行語義聚合,還需對(duì)論文獨(dú)有的語義結(jié)構(gòu)特征來進(jìn)行單獨(dú)設(shè)計(jì)。
(一)科學(xué)論文的構(gòu)成要素
李楠從外部特征和語義特征這兩方面對(duì)學(xué)術(shù)文獻(xiàn)出版模型進(jìn)行了定義。外部特征主要指文獻(xiàn)題錄項(xiàng)(篇名、作者、機(jī)構(gòu)、關(guān)鍵詞、來源出版物等);語義特征則是指內(nèi)容元素,包括陳述型(觀點(diǎn)、假設(shè)、事實(shí)、結(jié)論等)和數(shù)據(jù)型元素(圖片、表格、公式、基礎(chǔ)數(shù)據(jù)、實(shí)驗(yàn)結(jié)果等)。
1.外部結(jié)構(gòu)特征難以滿足更精準(zhǔn)的檢索和利用需求
目前廣泛運(yùn)用于文本標(biāo)注實(shí)踐的結(jié)構(gòu)化標(biāo)準(zhǔn)主要集中于各類數(shù)字內(nèi)容標(biāo)簽集,故各學(xué)術(shù)期刊數(shù)據(jù)庫資源的檢索方式和相互關(guān)聯(lián)主要是通過文獻(xiàn)題錄項(xiàng)來實(shí)現(xiàn)的。從用戶層面來看,存在的問題是:檢索精度不高,所得的結(jié)果通常是一整篇完整的論文,用戶為了找到有價(jià)值的信息內(nèi)容仍然需要消耗很多時(shí)間來進(jìn)行選擇和閱讀,由此可見檢索效率和利用效率都比較低。而隨著大數(shù)據(jù)時(shí)代信息過載和信息孤島現(xiàn)象的出現(xiàn),用戶對(duì)信息檢索和信息利用的要求越來越高,因此繼續(xù)深入研究科學(xué)論文的語義結(jié)構(gòu),對(duì)語義層面的知識(shí)單元進(jìn)行細(xì)化和規(guī)范描述,實(shí)現(xiàn)機(jī)器可理解和異構(gòu)資源間的語義聚合,是促進(jìn)科學(xué)論文知識(shí)挖掘和知識(shí)發(fā)現(xiàn)的核心和關(guān)鍵。
2.識(shí)別和描述科學(xué)論文內(nèi)容結(jié)構(gòu)是實(shí)現(xiàn)語義聚合的基礎(chǔ)
由已有研究和SemFus模型可知,本體構(gòu)建是語義聚合的關(guān)鍵,而科學(xué)論文內(nèi)容本體是科學(xué)論文內(nèi)容結(jié)構(gòu)的規(guī)范化知識(shí)表示,因此研究科學(xué)論文的內(nèi)容結(jié)構(gòu)是構(gòu)建科學(xué)論文語義聚合模型的基礎(chǔ)。
科學(xué)論文的內(nèi)容結(jié)構(gòu)頗為復(fù)雜,一般包括背景、動(dòng)機(jī)、已有研究、研究方法、結(jié)果、討論等內(nèi)容組件。已被廣泛認(rèn)可的IMRD模型將論文主體部分劃分成了引言(Introduction)、方法(Method)、結(jié)果(Result)和討論(Discussion)四個(gè)組成部分。這一模型很普適,但劃分粒度很粗。隨后,越來越多針對(duì)這方面的研究,旨在基于相關(guān)理論和考慮不同學(xué)科特征,探尋粒度更細(xì)的科學(xué)論文內(nèi)容結(jié)構(gòu)。ABCDE模型認(rèn)為文獻(xiàn)包含注釋(Annotation)、背景(Background)、貢獻(xiàn)(Contribution)、討論(Discussion)、實(shí)體(Entity)五個(gè)部分。SALT本體在ABCDE模型基礎(chǔ)上定義了更細(xì)粒度的功能單元,包括摘要(Abstract)、動(dòng)機(jī)(Motivation)、背景(Background)、討論(Discussion)、結(jié)果(Conclusion)等。此外,修辭結(jié)構(gòu)理論本體OntoReST基于修辭結(jié)構(gòu)理論,定義了9種修辭關(guān)系,包括背景、對(duì)比、解釋、證據(jù)、判斷、動(dòng)機(jī)、序列等。
在科學(xué)論文更細(xì)粒度的知識(shí)單元?jiǎng)澐稚?,Zhang Lei基于IMRD模型,借助Swales體裁模型的語步分析以及Sperber和Wilson的關(guān)聯(lián)理論,提出了功能單元(Functional Unit)的概念,并識(shí)別和歸納出了科學(xué)論文中的41個(gè)功能單元。比如引言部分的“研究緣起”“研究意義”“提出假設(shè)”等,方法部分的“論證方法”“概述實(shí)驗(yàn)程序”“陳述變量”等,結(jié)果部分的“陳述結(jié)果”“重述假設(shè)”等,討論部分的 “解釋結(jié)果”“表明結(jié)果局限性”“指出未來研究方向”等。功能單元的系列實(shí)證研究還得出,針對(duì)一項(xiàng)特定的信息使用任務(wù),功能單元會(huì)與同一或不同組成部分的其他功能單元相關(guān)聯(lián),功能單元可以在不同程度上支持、促進(jìn)閱讀過程的每個(gè)階段(導(dǎo)航、精讀、理解、信息使用)。通過目的和功能來組織信息,利用好功能單元自身及其與信息使用任務(wù)之間的關(guān)聯(lián),可以有效地降低文獻(xiàn)檢索時(shí)間、提高文獻(xiàn)檢索準(zhǔn)確度、提高閱讀效果和效率。
因此,深入科學(xué)論文的內(nèi)容結(jié)構(gòu)進(jìn)行知識(shí)單元的語義化描述和處理,能為數(shù)字文獻(xiàn)資源提供新的知識(shí)組織方法,促使知識(shí)的處理方式從資源層面上升到認(rèn)知層面、從單純的語法處理轉(zhuǎn)變?yōu)閺?fù)雜的語義處理,順應(yīng)語義網(wǎng)和語義出版的發(fā)展趨勢(shì)。
3.多模態(tài)數(shù)據(jù)型內(nèi)容元素有助于實(shí)現(xiàn)語義增強(qiáng)
隨著語義網(wǎng)技術(shù)和出版形態(tài)的發(fā)展,論文形式愈加豐富,逐漸出現(xiàn)了圖表摘要、結(jié)構(gòu)化摘要、視頻摘要、可交互圖表、可交互式地圖、實(shí)驗(yàn)數(shù)據(jù)集等具有內(nèi)容增強(qiáng)作用的新型文獻(xiàn)模塊,使得已有研究得出的本體和模型略顯捉襟見肘。如Elsevier于2009年實(shí)施的Article of the Future項(xiàng)目,采用三欄式的用戶界面設(shè)計(jì),通過集成的3D數(shù)據(jù)可視化工具、提供與文獻(xiàn)相關(guān)的實(shí)驗(yàn)數(shù)據(jù)集等多種方式實(shí)現(xiàn)了外部特定領(lǐng)域數(shù)據(jù)庫與科學(xué)文獻(xiàn)的互聯(lián)。再如JoVE出版社于2006年創(chuàng)辦的JoVE實(shí)驗(yàn)視頻期刊,是全球首例實(shí)驗(yàn)視頻期刊,致力于以視頻方式展現(xiàn)醫(yī)學(xué)、化學(xué)、物理學(xué)等學(xué)科領(lǐng)域的研究過程與成果。這些新型的文獻(xiàn)模塊都體現(xiàn)了文獻(xiàn)語義增強(qiáng)的趨勢(shì),同時(shí)突出體現(xiàn)了讀者對(duì)于檢索精度和效度日益增長的需求。因此,在研究科學(xué)論文語義聚合的過程中,不僅要繼承傳統(tǒng)科學(xué)論文的內(nèi)容結(jié)構(gòu),還要兼顧到這些新型的內(nèi)容元素,以實(shí)現(xiàn)多模態(tài)數(shù)據(jù)型知識(shí)單元的關(guān)聯(lián)和融合。
綜上分析可得,科學(xué)論文主要由文獻(xiàn)題錄項(xiàng)、內(nèi)容結(jié)構(gòu)和多模態(tài)數(shù)據(jù)型內(nèi)容元素三部分組成。要對(duì)科學(xué)論文資源進(jìn)行語義聚合,就需要根據(jù)這三方面不同的元素特征來構(gòu)建或引用相應(yīng)的本體進(jìn)行規(guī)范化描述,以實(shí)現(xiàn)語義一致性和共享性。
(二)基于SemFus的科學(xué)論文語義聚合模型
SemFus框架是從聚合流程角度出發(fā)構(gòu)建的一個(gè)通用型語義框架。從用戶輸入檢索命令開始,數(shù)據(jù)資源進(jìn)行篩選過濾等預(yù)處理,通過RDFizer進(jìn)行一致性轉(zhuǎn)換,處理各資源間的關(guān)系并實(shí)現(xiàn)關(guān)系的聚合,最后再通過SWOT分析來決定提供給用戶的結(jié)果。本文擬參考SemFus的基本流程,嘗試結(jié)合科學(xué)論文語義結(jié)構(gòu)特征來構(gòu)建科學(xué)論文語義聚合模型,如圖2所示。
1.科學(xué)論文資源采集
首先在預(yù)處理階段,集成多種智能化、自動(dòng)化的采集方法和技術(shù)對(duì)科學(xué)論文資源進(jìn)行大規(guī)模采集,能為其語義聚合和檢索結(jié)果的可視化呈現(xiàn)提供數(shù)據(jù)基礎(chǔ)。科學(xué)論文資源主要包括期刊論文、學(xué)位論文、會(huì)議論文及一些行業(yè)知識(shí)庫、特色資源庫里的文獻(xiàn)等。
2.科學(xué)論文資源的描述、標(biāo)引與轉(zhuǎn)換
目標(biāo)優(yōu)化過程主要是對(duì)科學(xué)論文資源進(jìn)行統(tǒng)一描述和轉(zhuǎn)換。具體來說,是將來源于不同數(shù)據(jù)庫、不同網(wǎng)站的分布式異質(zhì)異構(gòu)論文資源按照統(tǒng)一的標(biāo)準(zhǔn)規(guī)范進(jìn)行原始資源的描述和組織,抽取、加工、處理和創(chuàng)建標(biāo)準(zhǔn)的元數(shù)據(jù),通過規(guī)范統(tǒng)一的元數(shù)據(jù)管理和適當(dāng)?shù)恼Z言描述科學(xué)論文資源。在描述過程中,需要通過向非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)源添加機(jī)器能夠自動(dòng)理解的結(jié)構(gòu)和語義標(biāo)注信息來表達(dá)科學(xué)論文內(nèi)部的邏輯結(jié)構(gòu)和深層語義內(nèi)涵,實(shí)現(xiàn)異構(gòu)數(shù)據(jù)源的統(tǒng)一表達(dá)和組織。以上目標(biāo)可以通過RDF(資源描述框架)和本體語言等技術(shù)得以實(shí)現(xiàn)。
3.科學(xué)論文資源語義聚合
在情景優(yōu)化階段,主要實(shí)現(xiàn)的是科學(xué)論文知識(shí)單元之間關(guān)系的聚合。這是整個(gè)模型的核心模塊,其主要功能是利用RDF或本體,增強(qiáng)論文資源的語義表達(dá)能力。前文總結(jié)的科學(xué)論文的文獻(xiàn)題錄項(xiàng)、科學(xué)論文內(nèi)容結(jié)構(gòu)和多模態(tài)數(shù)據(jù)型內(nèi)容元素三部分內(nèi)容在經(jīng)過資源描述、標(biāo)引和轉(zhuǎn)換之后,雖然各自內(nèi)部已被統(tǒng)一描述,但相互之間卻還是因資源結(jié)構(gòu)、性質(zhì)不一樣而不能很好地互聯(lián)互通。利用本體技術(shù)建立映射規(guī)則,可以很好地解決局部本體與局部本體之間、局部本體與全局本體之間存在的概念、關(guān)系、實(shí)例等各種語義沖突問題,將異質(zhì)異構(gòu)數(shù)據(jù)源聚合到統(tǒng)一的語義視圖中,實(shí)現(xiàn)語義層面的資源聚合與共建共享。
4.論文資源聚合結(jié)果可視化展示
最后的威脅評(píng)估階段主要是系統(tǒng)依靠語義推理機(jī)制來評(píng)估由前面階段得到的聚合結(jié)果的優(yōu)劣、機(jī)會(huì)和風(fēng)險(xiǎn),最終利用關(guān)聯(lián)開放數(shù)據(jù)(LOD)在人機(jī)交互界面上發(fā)布系統(tǒng)得到的最合理結(jié)果??梢暬故灸K的主要功能和作用是利用現(xiàn)有的可視化模型和工具將非空間數(shù)據(jù)的聚合結(jié)果轉(zhuǎn)換為視覺形式進(jìn)行輸出,展現(xiàn)海量論文資源之間的錯(cuò)綜復(fù)雜關(guān)系和深層次內(nèi)涵,從而幫助用戶加深對(duì)聚合結(jié)果的認(rèn)知和理解。在這里,關(guān)聯(lián)數(shù)據(jù)的語義化和關(guān)聯(lián)化的鏈接機(jī)制,能夠?yàn)檎Z義出版提供一種更為靈活的數(shù)據(jù)發(fā)布及共享方式,實(shí)現(xiàn)外部知識(shí)庫鏈接、文獻(xiàn)知識(shí)單元語義聚合等更高層次的語義出版需求。
四、思考與總結(jié)
語義聚合是關(guān)系的聚合,關(guān)聯(lián)是知識(shí)組織的核心,實(shí)現(xiàn)關(guān)聯(lián)是為了更好地組織信息和利用信息,促進(jìn)知識(shí)發(fā)現(xiàn)??茖W(xué)論文作為科學(xué)交流活動(dòng)重要的知識(shí)載體,其價(jià)值體現(xiàn)于文獻(xiàn)中蘊(yùn)含的豐富知識(shí)單元。細(xì)化科學(xué)論文的知識(shí)單元和語義結(jié)構(gòu),通過聚合流程進(jìn)行轉(zhuǎn)換和關(guān)聯(lián),可以有效地實(shí)現(xiàn)科學(xué)論文資源自動(dòng)化、智能化的深度聚合與動(dòng)態(tài)展示,提高論文資源的利用水平和用戶檢索效率。因此,本文基于一個(gè)通用型語義聚合框架SemFus,同時(shí)結(jié)合科學(xué)論文的語義特征,提出了科學(xué)論文語義聚合模型。
但是就目前的實(shí)際來看,針對(duì)科學(xué)論文資源的本體構(gòu)建工作耗時(shí)耗力,尚無通用的、完善的本體可以使用,導(dǎo)致資源難以實(shí)現(xiàn)統(tǒng)一的描述和處理。另一方面,關(guān)于科學(xué)論文論述過程中的邏輯組件特征都是通過人工進(jìn)行識(shí)別,暫時(shí)還不能解決內(nèi)容元素自動(dòng)分類和標(biāo)引的問題,而自動(dòng)化和智能化是在機(jī)器上實(shí)現(xiàn)語義聚合的先決條件。這都是未來要繼續(xù)研究和致力于實(shí)現(xiàn)的目標(biāo)。
參考文獻(xiàn):
1.肖希明,唐義.國外多領(lǐng)域數(shù)字資源整合研究進(jìn)展[J].中國圖書館學(xué)報(bào), 2013(4):26-35.
2.劉曉娟,李廣建,化柏林.知識(shí)融合:概念辨析與界說[J].圖書情報(bào)工作, 2016(13).
3.曹樹金,馬翠嫦.信息聚合概念的構(gòu)成與聚合模式研究[J].中國圖書館學(xué)報(bào), 2016(3):4-19.
4.何超,張玉峰.基于Web鏈接挖掘的館藏資源語義聚合與可視化展示研究[J]. 情報(bào)科學(xué),2015(2):115-120.
5.李楠,孫濟(jì)慶,馬卓.面向?qū)W術(shù)文獻(xiàn)的語義出版技術(shù)研究[J].出版科學(xué),2015(6):85-92.
6.Behkamal, Behshid. SemFus: Semantic fusion framework based on JDL[J]. Journal of Convergence, 2012, 152.
7.Zhang L, Kopak R, Freund L, et al. A taxonomy of functional units for information use of scholarly journal articles[J]. Proceedings of the American Society for Information Science & Technology, 2010, 47(1):1-10.
8.Kokar M M, Matheusb C J, Baclawskic K. Ontology-based situation awareness[J]. Information Fusion, 2009, 10(1):83-98.
9.Gagnon M. Ontology-based integration of data sources[C]// International Conference on Information Fusion. 2007:1-8.
(作者單位系武漢大學(xué)信息管理學(xué)院)