基于SemFus的科學(xué)論文語義聚合模型探析

2018-09-18 10:03李夢(mèng)琳

出版參考 2018年4期

李夢(mèng)琳

摘要：對(duì)科學(xué)論文資源實(shí)施有效的語義聚合，以提高信息檢索的精度和效率、滿足用戶信息需求、提升知識(shí)服務(wù)水平，是語義出版與知識(shí)組織研究關(guān)注的前沿問題。針對(duì)目前科學(xué)論文檢索難以滿足用戶需求的現(xiàn)狀，本文指出了科學(xué)論文語義聚合的必要性，并在SemFus語義聚合框架的基礎(chǔ)上，結(jié)合科學(xué)論文的內(nèi)容結(jié)構(gòu)特征，提出了涵蓋整個(gè)檢索流程的語義聚合模型。

關(guān)鍵詞：科學(xué)論文語義聚合 SemFus 知識(shí)服務(wù)

在科學(xué)內(nèi)容創(chuàng)作與出版時(shí)，對(duì)其中的科學(xué)知識(shí)對(duì)象與知識(shí)關(guān)系進(jìn)行鑒別和語義標(biāo)注，在不同出版物之間進(jìn)行知識(shí)點(diǎn)的鏈接與整合，支持語義化出版，成為未來科學(xué)出版的重要發(fā)展方向。隨著網(wǎng)絡(luò)信息技術(shù)的發(fā)展，全球范圍的科學(xué)活動(dòng)和科學(xué)交流日益頻繁，科學(xué)論文作為科學(xué)傳播的客體和交流的對(duì)象，數(shù)量規(guī)模呈現(xiàn)出飛速增長的態(tài)勢(shì)，并且催生了多種類型的增強(qiáng)型文本，以助讀者獲取補(bǔ)充數(shù)據(jù)、拓展閱讀、增強(qiáng)理解。然而，面對(duì)這些多源、異構(gòu)、動(dòng)態(tài)、富語義的海量論文資源，目前的資源檢索系統(tǒng)還是不能滿足用戶日益復(fù)雜的信息需求，存在準(zhǔn)確率低、粗粒度、資源關(guān)聯(lián)度不夠和無法很好提供可視化檢索服務(wù)等缺點(diǎn)，致使檢索結(jié)果和利用效率不盡如人意，影響資源的共建共享。歸根結(jié)底，這是因?yàn)閷?duì)于科學(xué)論文的檢索還沒有細(xì)化到“知識(shí)單元”的程度，計(jì)算機(jī)無法識(shí)別和理解論文深層次的語義內(nèi)容，系統(tǒng)無法對(duì)不同數(shù)據(jù)庫和論文中的各類型知識(shí)資源構(gòu)建關(guān)于概念、實(shí)體等的知識(shí)關(guān)聯(lián)網(wǎng)絡(luò)。

一、概念說明及相關(guān)研究

SemFus框架是一個(gè)基于JDL模型構(gòu)建的語義聚合框架，包含資源預(yù)處理、資源優(yōu)化、情景優(yōu)化、威脅評(píng)估和過程優(yōu)化五個(gè)關(guān)鍵環(huán)節(jié)，描述了用戶從輸入檢索命令到獲得查詢結(jié)果中間系統(tǒng)進(jìn)行資源語義聚合的整個(gè)過程。同時(shí)，SemFus框架還引入了可以規(guī)范描述科學(xué)論文內(nèi)容結(jié)構(gòu)的本體和推理規(guī)則來克服JDL模型不能解決的資源語義異構(gòu)問題。因此，本文基于SemFus框架，再結(jié)合科學(xué)論文特有的內(nèi)容結(jié)構(gòu)，嘗試提出一個(gè)科學(xué)論文語義聚合模型，旨在揭示科學(xué)論文從語義描述、語義標(biāo)引、語義關(guān)聯(lián)和結(jié)果展示這一系列的語義聚合過程，挖掘資源間的內(nèi)在規(guī)律和關(guān)聯(lián)，促進(jìn)資源間的語義互操性，為用戶提供精準(zhǔn)有效的知識(shí)服務(wù)。

（一）語義聚合內(nèi)涵

“語義聚合”可譯為“Semantic Aggregation”，與之相近的概念有語義融合、語義集成、語義整合等。目前學(xué)術(shù)界對(duì)“語義聚合”的概念還缺乏一致的界定，不少研究把“Aggregation”譯成“融合”，把“集成”和“整合”翻譯為“Integration”，其實(shí)這些概念都具有“將分散的資源聚集、連接在一起”的含義，其內(nèi)涵并無本質(zhì)差別，在實(shí)際應(yīng)用中也幾乎不會(huì)對(duì)其內(nèi)涵加以區(qū)分。

“語義聚合”屬于數(shù)字信息資源整合研究范疇，涵蓋圖書情報(bào)、地理信息系統(tǒng)、化學(xué)工程、計(jì)算機(jī)等各領(lǐng)域。肖希明總結(jié)目前數(shù)字資源整合方式主要有數(shù)據(jù)整合、信息整合和知識(shí)整合。數(shù)據(jù)整合是對(duì)異構(gòu)資源系統(tǒng)中異質(zhì)異類的數(shù)據(jù)在邏輯或物理上進(jìn)行有機(jī)集中，信息整合則是在前者基礎(chǔ)上對(duì)數(shù)據(jù)對(duì)象之間的關(guān)系進(jìn)行有效組織和整合，知識(shí)整合則是對(duì)信息實(shí)體中的內(nèi)在概念及概念之間的語義關(guān)系進(jìn)行表征。此外，劉曉娟總結(jié)知識(shí)融合概念的發(fā)展經(jīng)歷了“數(shù)據(jù)融合——信息融合——知識(shí)融合”的過程。由此可見，知識(shí)融合是數(shù)據(jù)融合、信息融合的高級(jí)階段。曹樹金將語義聚合模式歸為基于關(guān)系的聚合，旨在探索文本信息資源內(nèi)容所包含的概念間或?qū)嶓w間的關(guān)系，從而通過語義關(guān)系網(wǎng)絡(luò)實(shí)現(xiàn)文本、數(shù)據(jù)、服務(wù)等多類型資源的聚合。由此可見，語義聚合屬于知識(shí)聚合層面，是從語義層面上來探討異構(gòu)資源概念、實(shí)體、引用之間的關(guān)聯(lián)網(wǎng)絡(luò)。

（二）國內(nèi)外語義聚合研究

目前語義聚合的相關(guān)研究主要集中于體現(xiàn)本體的重要性。一部分研究利用本體技術(shù)來進(jìn)行資源的語義識(shí)別。Kokar等提供了本體的類描述和屬性描述，并用簡單實(shí)例對(duì)其規(guī)范化進(jìn)行了闡述，旨在將OWL本體運(yùn)用在Barwise的情境理論中，實(shí)現(xiàn)用機(jī)器可處理的語義來描述情境。另一部分研究是探討本體在異構(gòu)信息源語義集成方面的應(yīng)用。Gagnon提出一種基于本體的利用“局部—全局”本體映射的信息聚合方法來聚合異構(gòu)數(shù)據(jù)資源。國內(nèi)關(guān)于語義聚合的研究主要集中于館藏?cái)?shù)字資源的語義集合。何超和張玉峰分別從本體和Web鏈接挖掘技術(shù)這兩個(gè)角度，從數(shù)據(jù)采集層、資源描述與挖掘?qū)?、語義聚合層、可視化展示層等方面構(gòu)建了館藏資源語義聚合與可視化模型。

（三）科學(xué)論文結(jié)構(gòu)研究

目前，已普遍運(yùn)用于描述文獻(xiàn)結(jié)構(gòu)的標(biāo)簽集標(biāo)準(zhǔn)有科技期刊文檔標(biāo)簽集、圖書交換標(biāo)簽集、文本編碼協(xié)議等，主要是對(duì)文本的外在結(jié)構(gòu)進(jìn)行描述，用于內(nèi)容的存儲(chǔ)、轉(zhuǎn)換、表示與分享。近年來，為了滿足知識(shí)挖掘的需求，國內(nèi)外學(xué)界提出了多種論文內(nèi)容結(jié)構(gòu)模型和出版本體，如文獻(xiàn)構(gòu)件本體、篇章元素本體等，旨在規(guī)范描述和表示論文內(nèi)容的組成部分。由此可以反映出文獻(xiàn)語義建模從外部結(jié)構(gòu)逐步向內(nèi)容語義發(fā)展的趨勢(shì)。

二、基于JDL的SemFus框架

（一）SemFus框架的介紹及描述

JDL（Joint Directors of Laboratories）模型是美國軍方實(shí)驗(yàn)室理事聯(lián)席會(huì)下設(shè)的C3技術(shù)委員會(huì)成立的信息融合專家組提出的典型信息融合模型，是比較通用且應(yīng)用最為廣泛的功能模型。但隨著情報(bào)獲取及知識(shí)管理等新方法的提出，JDL模型已經(jīng)難以滿足實(shí)際需求。于是H.A.Noughabi等人從語義聚合流程的角度出發(fā)，基于JDL模型提出了語義聚合框架SemFus。SemFus框架較嚴(yán)格地遵循了JDL模型的框架，并在其基礎(chǔ)上增加了對(duì)語義技術(shù)的使用。它首先對(duì)語義層級(jí)的定義進(jìn)行了細(xì)化，然后引入了本體和語義推理規(guī)則進(jìn)行語義表示和交互，以克服多種異構(gòu)數(shù)據(jù)源中的語義問題。為簡化操作流程，本體和推理規(guī)則都采用了資源描述框架（Resource Description Framework，RDF）作為描述語言。如圖1所示為SemFus框架。

在Level 0資源預(yù)處理階段，主要是對(duì)不同信息資源進(jìn)行評(píng)估和預(yù)測，如對(duì)資源進(jìn)行標(biāo)準(zhǔn)化處理、處理數(shù)據(jù)集的缺失值、過濾低質(zhì)量信息等。在Level 1資源優(yōu)化階段，資源對(duì)象都用RDF進(jìn)行描述，并通過RDFizer轉(zhuǎn)換成統(tǒng)一的描述格式存儲(chǔ)在RDF庫里。每種資源都通過本體的定義描述出來，并由統(tǒng)一資源標(biāo)識(shí)符（URI）予以標(biāo)識(shí)。在Level 2情景優(yōu)化階段，基于實(shí)體的定義及其關(guān)系，在語義層面上提供關(guān)系的情境描述。這一階段用于情景分析的資源除了來源于RDF庫，還可以從眾多外部的關(guān)聯(lián)數(shù)據(jù)集中獲取。在資源優(yōu)化和情景優(yōu)化過程中，每個(gè)數(shù)據(jù)源都用獨(dú)立的本體加以描述；同時(shí)，為了使多源數(shù)據(jù)能夠相互比較及合并，在本地本體之上還引入共享本體，以保證各數(shù)據(jù)源之間的語義一致性。在Level 3威脅評(píng)估階段，使用語義推理機(jī)進(jìn)行語義推理，原理是利用存儲(chǔ)在規(guī)則庫中的推理規(guī)則對(duì)前面流程處理過的信息進(jìn)行推理，以明確可能存在的威脅、脆弱性、不足和機(jī)會(huì)。Level 4 過程優(yōu)化階段則負(fù)責(zé)監(jiān)控系統(tǒng)的執(zhí)行過程，根據(jù)特定的目標(biāo)配置資源，以支持任務(wù)目標(biāo)的完成。

（二）SemFus框架能更好地解決語義關(guān)聯(lián)問題

JDL模型與SemFus框架都從系統(tǒng)視角來看待信息聚合，將兩者進(jìn)行對(duì)比，可以發(fā)現(xiàn)SemFus的優(yōu)勢(shì)在于它通過利用語義技術(shù)可以克服許多語義問題，使異構(gòu)數(shù)據(jù)集成更高效。比如解決語義沖突問題、提供標(biāo)準(zhǔn)統(tǒng)一的描述規(guī)范、支持映射、語義推理、連接到關(guān)聯(lián)開放數(shù)據(jù)等，這些都是JDL模型所不具備的特征。如表1所示。

三、基于SemFus構(gòu)建科學(xué)論文語義聚合模型

由前文可知，SemFus框架在JDL模型的基礎(chǔ)上豐富了語義聚合的過程，致力于實(shí)現(xiàn)各種資源間的語義互操作。但它屬于通用型框架，只能描述資源語義聚合的宏觀流程。若想專門針對(duì)科學(xué)論文資源進(jìn)行語義聚合，還需對(duì)論文獨(dú)有的語義結(jié)構(gòu)特征來進(jìn)行單獨(dú)設(shè)計(jì)。

（一）科學(xué)論文的構(gòu)成要素

李楠從外部特征和語義特征這兩方面對(duì)學(xué)術(shù)文獻(xiàn)出版模型進(jìn)行了定義。外部特征主要指文獻(xiàn)題錄項(xiàng)（篇名、作者、機(jī)構(gòu)、關(guān)鍵詞、來源出版物等）；語義特征則是指內(nèi)容元素，包括陳述型（觀點(diǎn)、假設(shè)、事實(shí)、結(jié)論等）和數(shù)據(jù)型元素（圖片、表格、公式、基礎(chǔ)數(shù)據(jù)、實(shí)驗(yàn)結(jié)果等）。

1.外部結(jié)構(gòu)特征難以滿足更精準(zhǔn)的檢索和利用需求

目前廣泛運(yùn)用于文本標(biāo)注實(shí)踐的結(jié)構(gòu)化標(biāo)準(zhǔn)主要集中于各類數(shù)字內(nèi)容標(biāo)簽集，故各學(xué)術(shù)期刊數(shù)據(jù)庫資源的檢索方式和相互關(guān)聯(lián)主要是通過文獻(xiàn)題錄項(xiàng)來實(shí)現(xiàn)的。從用戶層面來看，存在的問題是：檢索精度不高，所得的結(jié)果通常是一整篇完整的論文，用戶為了找到有價(jià)值的信息內(nèi)容仍然需要消耗很多時(shí)間來進(jìn)行選擇和閱讀，由此可見檢索效率和利用效率都比較低。而隨著大數(shù)據(jù)時(shí)代信息過載和信息孤島現(xiàn)象的出現(xiàn)，用戶對(duì)信息檢索和信息利用的要求越來越高，因此繼續(xù)深入研究科學(xué)論文的語義結(jié)構(gòu)，對(duì)語義層面的知識(shí)單元進(jìn)行細(xì)化和規(guī)范描述，實(shí)現(xiàn)機(jī)器可理解和異構(gòu)資源間的語義聚合，是促進(jìn)科學(xué)論文知識(shí)挖掘和知識(shí)發(fā)現(xiàn)的核心和關(guān)鍵。

2.識(shí)別和描述科學(xué)論文內(nèi)容結(jié)構(gòu)是實(shí)現(xiàn)語義聚合的基礎(chǔ)

由已有研究和SemFus模型可知，本體構(gòu)建是語義聚合的關(guān)鍵，而科學(xué)論文內(nèi)容本體是科學(xué)論文內(nèi)容結(jié)構(gòu)的規(guī)范化知識(shí)表示，因此研究科學(xué)論文的內(nèi)容結(jié)構(gòu)是構(gòu)建科學(xué)論文語義聚合模型的基礎(chǔ)。

科學(xué)論文的內(nèi)容結(jié)構(gòu)頗為復(fù)雜，一般包括背景、動(dòng)機(jī)、已有研究、研究方法、結(jié)果、討論等內(nèi)容組件。已被廣泛認(rèn)可的IMRD模型將論文主體部分劃分成了引言（Introduction）、方法（Method）、結(jié)果（Result）和討論（Discussion）四個(gè)組成部分。這一模型很普適，但劃分粒度很粗。隨后，越來越多針對(duì)這方面的研究，旨在基于相關(guān)理論和考慮不同學(xué)科特征，探尋粒度更細(xì)的科學(xué)論文內(nèi)容結(jié)構(gòu)。ABCDE模型認(rèn)為文獻(xiàn)包含注釋（Annotation）、背景（Background）、貢獻(xiàn)（Contribution）、討論（Discussion）、實(shí)體（Entity）五個(gè)部分。SALT本體在ABCDE模型基礎(chǔ)上定義了更細(xì)粒度的功能單元，包括摘要（Abstract）、動(dòng)機(jī)（Motivation）、背景（Background）、討論（Discussion）、結(jié)果（Conclusion）等。此外，修辭結(jié)構(gòu)理論本體OntoReST基于修辭結(jié)構(gòu)理論，定義了9種修辭關(guān)系，包括背景、對(duì)比、解釋、證據(jù)、判斷、動(dòng)機(jī)、序列等。

在科學(xué)論文更細(xì)粒度的知識(shí)單元?jiǎng)澐稚?，Zhang Lei基于IMRD模型，借助Swales體裁模型的語步分析以及Sperber和Wilson的關(guān)聯(lián)理論，提出了功能單元（Functional Unit）的概念，并識(shí)別和歸納出了科學(xué)論文中的41個(gè)功能單元。比如引言部分的“研究緣起”“研究意義”“提出假設(shè)”等，方法部分的“論證方法”“概述實(shí)驗(yàn)程序”“陳述變量”等，結(jié)果部分的“陳述結(jié)果”“重述假設(shè)”等，討論部分的 “解釋結(jié)果”“表明結(jié)果局限性”“指出未來研究方向”等。功能單元的系列實(shí)證研究還得出，針對(duì)一項(xiàng)特定的信息使用任務(wù)，功能單元會(huì)與同一或不同組成部分的其他功能單元相關(guān)聯(lián)，功能單元可以在不同程度上支持、促進(jìn)閱讀過程的每個(gè)階段（導(dǎo)航、精讀、理解、信息使用）。通過目的和功能來組織信息，利用好功能單元自身及其與信息使用任務(wù)之間的關(guān)聯(lián)，可以有效地降低文獻(xiàn)檢索時(shí)間、提高文獻(xiàn)檢索準(zhǔn)確度、提高閱讀效果和效率。

因此，深入科學(xué)論文的內(nèi)容結(jié)構(gòu)進(jìn)行知識(shí)單元的語義化描述和處理，能為數(shù)字文獻(xiàn)資源提供新的知識(shí)組織方法，促使知識(shí)的處理方式從資源層面上升到認(rèn)知層面、從單純的語法處理轉(zhuǎn)變?yōu)閺?fù)雜的語義處理，順應(yīng)語義網(wǎng)和語義出版的發(fā)展趨勢(shì)。

3.多模態(tài)數(shù)據(jù)型內(nèi)容元素有助于實(shí)現(xiàn)語義增強(qiáng)

隨著語義網(wǎng)技術(shù)和出版形態(tài)的發(fā)展，論文形式愈加豐富，逐漸出現(xiàn)了圖表摘要、結(jié)構(gòu)化摘要、視頻摘要、可交互圖表、可交互式地圖、實(shí)驗(yàn)數(shù)據(jù)集等具有內(nèi)容增強(qiáng)作用的新型文獻(xiàn)模塊，使得已有研究得出的本體和模型略顯捉襟見肘。如Elsevier于2009年實(shí)施的Article of the Future項(xiàng)目，采用三欄式的用戶界面設(shè)計(jì)，通過集成的3D數(shù)據(jù)可視化工具、提供與文獻(xiàn)相關(guān)的實(shí)驗(yàn)數(shù)據(jù)集等多種方式實(shí)現(xiàn)了外部特定領(lǐng)域數(shù)據(jù)庫與科學(xué)文獻(xiàn)的互聯(lián)。再如JoVE出版社于2006年創(chuàng)辦的JoVE實(shí)驗(yàn)視頻期刊，是全球首例實(shí)驗(yàn)視頻期刊，致力于以視頻方式展現(xiàn)醫(yī)學(xué)、化學(xué)、物理學(xué)等學(xué)科領(lǐng)域的研究過程與成果。這些新型的文獻(xiàn)模塊都體現(xiàn)了文獻(xiàn)語義增強(qiáng)的趨勢(shì)，同時(shí)突出體現(xiàn)了讀者對(duì)于檢索精度和效度日益增長的需求。因此，在研究科學(xué)論文語義聚合的過程中，不僅要繼承傳統(tǒng)科學(xué)論文的內(nèi)容結(jié)構(gòu)，還要兼顧到這些新型的內(nèi)容元素，以實(shí)現(xiàn)多模態(tài)數(shù)據(jù)型知識(shí)單元的關(guān)聯(lián)和融合。

綜上分析可得，科學(xué)論文主要由文獻(xiàn)題錄項(xiàng)、內(nèi)容結(jié)構(gòu)和多模態(tài)數(shù)據(jù)型內(nèi)容元素三部分組成。要對(duì)科學(xué)論文資源進(jìn)行語義聚合，就需要根據(jù)這三方面不同的元素特征來構(gòu)建或引用相應(yīng)的本體進(jìn)行規(guī)范化描述，以實(shí)現(xiàn)語義一致性和共享性。

（二）基于SemFus的科學(xué)論文語義聚合模型

SemFus框架是從聚合流程角度出發(fā)構(gòu)建的一個(gè)通用型語義框架。從用戶輸入檢索命令開始，數(shù)據(jù)資源進(jìn)行篩選過濾等預(yù)處理，通過RDFizer進(jìn)行一致性轉(zhuǎn)換，處理各資源間的關(guān)系并實(shí)現(xiàn)關(guān)系的聚合，最后再通過SWOT分析來決定提供給用戶的結(jié)果。本文擬參考SemFus的基本流程，嘗試結(jié)合科學(xué)論文語義結(jié)構(gòu)特征來構(gòu)建科學(xué)論文語義聚合模型，如圖2所示。

1.科學(xué)論文資源采集

首先在預(yù)處理階段，集成多種智能化、自動(dòng)化的采集方法和技術(shù)對(duì)科學(xué)論文資源進(jìn)行大規(guī)模采集，能為其語義聚合和檢索結(jié)果的可視化呈現(xiàn)提供數(shù)據(jù)基礎(chǔ)。科學(xué)論文資源主要包括期刊論文、學(xué)位論文、會(huì)議論文及一些行業(yè)知識(shí)庫、特色資源庫里的文獻(xiàn)等。

2.科學(xué)論文資源的描述、標(biāo)引與轉(zhuǎn)換

目標(biāo)優(yōu)化過程主要是對(duì)科學(xué)論文資源進(jìn)行統(tǒng)一描述和轉(zhuǎn)換。具體來說，是將來源于不同數(shù)據(jù)庫、不同網(wǎng)站的分布式異質(zhì)異構(gòu)論文資源按照統(tǒng)一的標(biāo)準(zhǔn)規(guī)范進(jìn)行原始資源的描述和組織，抽取、加工、處理和創(chuàng)建標(biāo)準(zhǔn)的元數(shù)據(jù)，通過規(guī)范統(tǒng)一的元數(shù)據(jù)管理和適當(dāng)?shù)恼Z言描述科學(xué)論文資源。在描述過程中，需要通過向非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)源添加機(jī)器能夠自動(dòng)理解的結(jié)構(gòu)和語義標(biāo)注信息來表達(dá)科學(xué)論文內(nèi)部的邏輯結(jié)構(gòu)和深層語義內(nèi)涵，實(shí)現(xiàn)異構(gòu)數(shù)據(jù)源的統(tǒng)一表達(dá)和組織。以上目標(biāo)可以通過RDF（資源描述框架）和本體語言等技術(shù)得以實(shí)現(xiàn)。

3.科學(xué)論文資源語義聚合

在情景優(yōu)化階段，主要實(shí)現(xiàn)的是科學(xué)論文知識(shí)單元之間關(guān)系的聚合。這是整個(gè)模型的核心模塊，其主要功能是利用RDF或本體，增強(qiáng)論文資源的語義表達(dá)能力。前文總結(jié)的科學(xué)論文的文獻(xiàn)題錄項(xiàng)、科學(xué)論文內(nèi)容結(jié)構(gòu)和多模態(tài)數(shù)據(jù)型內(nèi)容元素三部分內(nèi)容在經(jīng)過資源描述、標(biāo)引和轉(zhuǎn)換之后，雖然各自內(nèi)部已被統(tǒng)一描述，但相互之間卻還是因資源結(jié)構(gòu)、性質(zhì)不一樣而不能很好地互聯(lián)互通。利用本體技術(shù)建立映射規(guī)則，可以很好地解決局部本體與局部本體之間、局部本體與全局本體之間存在的概念、關(guān)系、實(shí)例等各種語義沖突問題，將異質(zhì)異構(gòu)數(shù)據(jù)源聚合到統(tǒng)一的語義視圖中，實(shí)現(xiàn)語義層面的資源聚合與共建共享。

4.論文資源聚合結(jié)果可視化展示

最后的威脅評(píng)估階段主要是系統(tǒng)依靠語義推理機(jī)制來評(píng)估由前面階段得到的聚合結(jié)果的優(yōu)劣、機(jī)會(huì)和風(fēng)險(xiǎn)，最終利用關(guān)聯(lián)開放數(shù)據(jù)（LOD）在人機(jī)交互界面上發(fā)布系統(tǒng)得到的最合理結(jié)果?？梢暬故灸K的主要功能和作用是利用現(xiàn)有的可視化模型和工具將非空間數(shù)據(jù)的聚合結(jié)果轉(zhuǎn)換為視覺形式進(jìn)行輸出，展現(xiàn)海量論文資源之間的錯(cuò)綜復(fù)雜關(guān)系和深層次內(nèi)涵，從而幫助用戶加深對(duì)聚合結(jié)果的認(rèn)知和理解。在這里，關(guān)聯(lián)數(shù)據(jù)的語義化和關(guān)聯(lián)化的鏈接機(jī)制，能夠?yàn)檎Z義出版提供一種更為靈活的數(shù)據(jù)發(fā)布及共享方式，實(shí)現(xiàn)外部知識(shí)庫鏈接、文獻(xiàn)知識(shí)單元語義聚合等更高層次的語義出版需求。

四、思考與總結(jié)

語義聚合是關(guān)系的聚合，關(guān)聯(lián)是知識(shí)組織的核心，實(shí)現(xiàn)關(guān)聯(lián)是為了更好地組織信息和利用信息，促進(jìn)知識(shí)發(fā)現(xiàn)?？茖W(xué)論文作為科學(xué)交流活動(dòng)重要的知識(shí)載體，其價(jià)值體現(xiàn)于文獻(xiàn)中蘊(yùn)含的豐富知識(shí)單元。細(xì)化科學(xué)論文的知識(shí)單元和語義結(jié)構(gòu)，通過聚合流程進(jìn)行轉(zhuǎn)換和關(guān)聯(lián)，可以有效地實(shí)現(xiàn)科學(xué)論文資源自動(dòng)化、智能化的深度聚合與動(dòng)態(tài)展示，提高論文資源的利用水平和用戶檢索效率。因此，本文基于一個(gè)通用型語義聚合框架SemFus，同時(shí)結(jié)合科學(xué)論文的語義特征，提出了科學(xué)論文語義聚合模型。

但是就目前的實(shí)際來看，針對(duì)科學(xué)論文資源的本體構(gòu)建工作耗時(shí)耗力，尚無通用的、完善的本體可以使用，導(dǎo)致資源難以實(shí)現(xiàn)統(tǒng)一的描述和處理。另一方面，關(guān)于科學(xué)論文論述過程中的邏輯組件特征都是通過人工進(jìn)行識(shí)別，暫時(shí)還不能解決內(nèi)容元素自動(dòng)分類和標(biāo)引的問題，而自動(dòng)化和智能化是在機(jī)器上實(shí)現(xiàn)語義聚合的先決條件。這都是未來要繼續(xù)研究和致力于實(shí)現(xiàn)的目標(biāo)。

參考文獻(xiàn)：

1.肖希明，唐義.國外多領(lǐng)域數(shù)字資源整合研究進(jìn)展[J].中國圖書館學(xué)報(bào)， 2013（4）：26-35.

2.劉曉娟，李廣建，化柏林.知識(shí)融合：概念辨析與界說[J].圖書情報(bào)工作， 2016（13）.

3.曹樹金，馬翠嫦.信息聚合概念的構(gòu)成與聚合模式研究[J].中國圖書館學(xué)報(bào)， 2016（3）：4-19.

4.何超，張玉峰.基于Web鏈接挖掘的館藏資源語義聚合與可視化展示研究[J]. 情報(bào)科學(xué)，2015（2）：115-120.

5.李楠，孫濟(jì)慶，馬卓.面向?qū)W術(shù)文獻(xiàn)的語義出版技術(shù)研究[J].出版科學(xué)，2015（6）：85-92.

6.Behkamal， Behshid. SemFus： Semantic fusion framework based on JDL[J]. Journal of Convergence， 2012， 152.

7.Zhang L， Kopak R， Freund L， et al. A taxonomy of functional units for information use of scholarly journal articles[J]. Proceedings of the American Society for Information Science & Technology， 2010， 47（1）：1-10.

8.Kokar M M， Matheusb C J， Baclawskic K. Ontology-based situation awareness[J]. Information Fusion， 2009， 10（1）：83-98.

9.Gagnon M. Ontology-based integration of data sources[C]// International Conference on Information Fusion. 2007：1-8.

（作者單位系武漢大學(xué)信息管理學(xué)院）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于SemFus的科學(xué)論文語義聚合模型探析