陸素梅
(南京師范大學(xué)泰州學(xué)院圖書館,江蘇泰州 225300)
用戶知識(shí)獲取的高階化需求以及數(shù)字化知識(shí)發(fā)現(xiàn)技術(shù)的勃興,正推動(dòng)著數(shù)字圖書館知識(shí)服務(wù)朝向基于用戶知識(shí)期望、知識(shí)檢索習(xí)慣與知識(shí)獲取偏好的跨媒體聚合服務(wù)轉(zhuǎn)向。近年來(lái),基于語(yǔ)義關(guān)聯(lián)、領(lǐng)域概念關(guān)聯(lián)的知識(shí)發(fā)現(xiàn)技術(shù)在數(shù)字圖書館知識(shí)檢索服務(wù)中的應(yīng)用,一定程度滿足了用戶知識(shí)檢索的新需求[1-3]。然而,當(dāng)前數(shù)字圖書館知識(shí)數(shù)據(jù)呈現(xiàn)出內(nèi)在結(jié)構(gòu)弱化與無(wú)序性增長(zhǎng)的特點(diǎn),不同類型資源數(shù)據(jù)間存在較為復(fù)雜的異質(zhì)性結(jié)構(gòu),因而,面向文本語(yǔ)義的知識(shí)關(guān)聯(lián)方法僅能解決圖書館跨媒體資源檢索問(wèn)題,無(wú)法化解資源在領(lǐng)域本體意義上的異構(gòu)與互操作矛盾。依托領(lǐng)域本體構(gòu)建的理論框架,采用領(lǐng)域概念關(guān)系聚類的體系化知識(shí)聚合方法,則能夠?yàn)橛脩籼峁┘瓤蓹M向擴(kuò)散又可縱向深入的集約型、智能型與智庫(kù)型的知識(shí)服務(wù)。
本體(Ontology)源于哲學(xué)概念,用于系統(tǒng)性解釋事物(客體)的本質(zhì)[4]。后來(lái),知識(shí)工程師借用了這一概念,用來(lái)描述客體知識(shí)的本質(zhì)屬性。在知識(shí)工程范疇,本體是描述客體知識(shí)的一個(gè)概念框架,本體映射的是客體知識(shí)的概念及其相關(guān)關(guān)系的術(shù)語(yǔ)集:通過(guò)一系列術(shù)語(yǔ)(術(shù)語(yǔ)集)描述知識(shí)概念,術(shù)語(yǔ)對(duì)象或概念類型共享一個(gè)知識(shí)本體。本體具有顯著的結(jié)構(gòu)化特點(diǎn),它是本體知識(shí)庫(kù)構(gòu)建的骨架和基礎(chǔ)。目前,國(guó)內(nèi)外關(guān)于本體的研究較為廣泛,出現(xiàn)了諸多小分支,依據(jù)本體的應(yīng)用主題,主要分支有領(lǐng)域本體、常識(shí)本體、語(yǔ)言本體等[5]。
領(lǐng)域本體(Domain Ontology)是本體應(yīng)用主題的最主要分支。在知識(shí)工程范疇,領(lǐng)域本體是對(duì)領(lǐng)域概念的系統(tǒng)性描述,其描述的是某一領(lǐng)域中知識(shí)概念之間的內(nèi)在關(guān)系,包括領(lǐng)域概念、概念的屬性、概念間的關(guān)系、屬性和關(guān)系的約束等等[6]。領(lǐng)域本體具有顯著的領(lǐng)域特性,其能夠表示特定領(lǐng)域知識(shí)的系統(tǒng)性本質(zhì),因而,領(lǐng)域本體可以更為合理、更為有效地描述領(lǐng)域知識(shí)的概念體系,為領(lǐng)域知識(shí)檢索與系統(tǒng)開(kāi)發(fā)提供理論架構(gòu)。在知識(shí)工程開(kāi)發(fā)與管理中,“領(lǐng)域”并沒(méi)有明確的邊界,其可以依據(jù)本體構(gòu)建者的需求來(lái)設(shè)定,它可以是單一領(lǐng)域(通常為一個(gè)學(xué)科),也可以是多個(gè)具有一定聯(lián)系的領(lǐng)域組合,還可以是某個(gè)領(lǐng)域中的一個(gè)小分支。在實(shí)踐中,領(lǐng)域本體的構(gòu)建往往需要經(jīng)過(guò)一個(gè)不斷補(bǔ)充與反復(fù)調(diào)整的迭代過(guò)程,才能最終使領(lǐng)域本體中的概念貼近于待研究領(lǐng)域的客觀實(shí)體與關(guān)系法則[7]。故而,通過(guò)領(lǐng)域本體的構(gòu)建,可以實(shí)現(xiàn):(1)明確領(lǐng)域范疇內(nèi)的知識(shí)專業(yè)術(shù)語(yǔ)、概念關(guān)系,使其系統(tǒng)化、形式化;(2)有效溝通領(lǐng)域知識(shí),促進(jìn)知識(shí)共享與知識(shí)利用;(3)為領(lǐng)域知識(shí)的深度應(yīng)用及交叉運(yùn)用提供可能[8]。
領(lǐng)域本體在知識(shí)工程建設(shè)中的應(yīng)用越來(lái)越廣泛,從現(xiàn)有的國(guó)內(nèi)外文獻(xiàn)來(lái)看,知識(shí)領(lǐng)域本體的研究涉及化學(xué)、計(jì)算機(jī)科學(xué)、生物學(xué)、醫(yī)藥學(xué)、圖書情報(bào)學(xué)、地理學(xué)等諸多學(xué)科領(lǐng)域[9]。在圖書情報(bào)學(xué)領(lǐng)域,領(lǐng)域本體的應(yīng)用發(fā)展,或?qū)⒋龠M(jìn)了數(shù)字圖書館的服務(wù)變革。數(shù)字圖書館包含海量數(shù)據(jù),不同來(lái)源、不同專業(yè)學(xué)科、不同介質(zhì)的資源數(shù)據(jù)結(jié)合于一體,要怎樣使海量數(shù)據(jù)信息高效獲取、轉(zhuǎn)換和利用?是數(shù)字圖書館資源建設(shè)的重要命題。尤其是在學(xué)術(shù)科研領(lǐng)域,如何將多元異質(zhì)、紛繁復(fù)雜的跨媒體資源有機(jī)整合起來(lái),并深度發(fā)掘?qū)W術(shù)資源本體屬性以及多元學(xué)術(shù)資源之間的邏輯關(guān)系,以便高效實(shí)現(xiàn)學(xué)術(shù)知識(shí)統(tǒng)一認(rèn)證、聚合檢索與個(gè)性化服務(wù),具有重要的現(xiàn)實(shí)意義。毋庸置疑,領(lǐng)域本體理論為知識(shí)描述提供了構(gòu)建框架,隨著用戶對(duì)學(xué)術(shù)資源的進(jìn)階性要求,推進(jìn)跨媒體資源的領(lǐng)域本體構(gòu)建將成為知識(shí)系統(tǒng)開(kāi)發(fā)不可或缺的步驟——領(lǐng)域本體理論在數(shù)字圖書館的應(yīng)用,將大大推動(dòng)數(shù)字資源建設(shè),提高資源聚合、數(shù)據(jù)檢索以及知識(shí)服務(wù)的有效性、準(zhǔn)確性與智能性[10]。
基于領(lǐng)域本體的數(shù)字圖書館知識(shí)聚合服務(wù)是一項(xiàng)復(fù)雜的系統(tǒng)工程,既需要對(duì)跨媒體異質(zhì)資源進(jìn)行基于領(lǐng)域本體構(gòu)建的規(guī)整化處理,形成系統(tǒng)性的數(shù)字知識(shí)表示機(jī)制(基本要素),又需要在知識(shí)本體與領(lǐng)域用戶需求的聚合交互基礎(chǔ)上(中介要素),實(shí)現(xiàn)平臺(tái)化聚合輸出(載體要素)。
知識(shí)表示(knowledge representation)就是將知識(shí)客體與本體關(guān)聯(lián)起來(lái),對(duì)異構(gòu)化數(shù)據(jù)知識(shí)進(jìn)行規(guī)整化描述,以揭示知識(shí)本、客體關(guān)系的邏輯機(jī)制[11]。知識(shí)表示是數(shù)字圖書館知識(shí)聚合服務(wù)的基本要素,其核心目標(biāo)是通過(guò)對(duì)數(shù)字網(wǎng)絡(luò)知識(shí)、結(jié)構(gòu)化數(shù)據(jù)知識(shí)等客體資源予以規(guī)整化處理,析出具有代表性與顆粒度的知識(shí)本體,并創(chuàng)建本體知識(shí)庫(kù)。領(lǐng)域知識(shí)的本體表示,通常要經(jīng)過(guò)三個(gè)步驟:(1)領(lǐng)域知識(shí)客體規(guī)?;杉c篩選。在領(lǐng)域本體構(gòu)建前須先確定本體覆蓋的領(lǐng)域知識(shí)客體范圍及應(yīng)用目標(biāo)。只有在確定領(lǐng)域范圍后,才能有針對(duì)性地對(duì)知識(shí)客體進(jìn)行規(guī)?;杉⒎诸惻c篩選。(2)領(lǐng)域客體知識(shí)標(biāo)引。對(duì)領(lǐng)域客體知識(shí)進(jìn)行自動(dòng)或半自動(dòng)的多維度概念抽取,以促進(jìn)客體知識(shí)從宏觀結(jié)構(gòu)到微觀晶格的概念標(biāo)引。在特定領(lǐng)域,這些概念往往就是與領(lǐng)域相關(guān)的專業(yè)術(shù)語(yǔ):把領(lǐng)域中一些重要術(shù)語(yǔ)描述出來(lái),有利于知識(shí)工程師更好地理解領(lǐng)域本體庫(kù)構(gòu)建的目標(biāo)與應(yīng)用方向。(3)領(lǐng)域本體知識(shí)庫(kù)構(gòu)建。領(lǐng)域本體知識(shí)庫(kù)是領(lǐng)域本體知識(shí)的一個(gè)數(shù)據(jù)集,其通過(guò)描述領(lǐng)域概念間的關(guān)聯(lián)機(jī)制,將領(lǐng)域概念進(jìn)行分類組織,可實(shí)現(xiàn)領(lǐng)域本體知識(shí)模塊化[12]。
領(lǐng)域知識(shí)與用戶畫像(用戶數(shù)據(jù))的有效交互,是數(shù)字聚合服務(wù)的中介要素。在實(shí)踐中,聚合交互的實(shí)現(xiàn)需要滿足兩個(gè)要求[13]:第一個(gè)要求,即要在創(chuàng)建的領(lǐng)域本體知識(shí)庫(kù)中深度聚合領(lǐng)域關(guān)聯(lián)知識(shí)。該要求主要是為了實(shí)現(xiàn)領(lǐng)域本體知識(shí)的有序化聚類,如按照領(lǐng)域本體概念關(guān)系網(wǎng)絡(luò)對(duì)領(lǐng)域本體知識(shí)庫(kù)中同一類別的知識(shí)單元進(jìn)行信息聚類,形成深度知識(shí)聚合網(wǎng)絡(luò)。第二個(gè)要求,即要在實(shí)現(xiàn)領(lǐng)域本體知識(shí)有序化聚類的基礎(chǔ)上,促進(jìn)領(lǐng)域本體知識(shí)與用戶畫像(用戶數(shù)據(jù))的有效交互。作為數(shù)字圖書館知識(shí)聚合服務(wù)實(shí)現(xiàn)的中介要素,用戶畫像與領(lǐng)域本體知識(shí)是聚合交互的兩大核心元素,如何實(shí)現(xiàn)二者的有機(jī)映射是該模塊的核心要求。
聚合服務(wù)平臺(tái)作為數(shù)字圖書館知識(shí)聚合服務(wù)中的平臺(tái)要素(也可以說(shuō)是實(shí)踐要素、媒介要素),主要包括檢索平臺(tái)、專題庫(kù)平臺(tái)、場(chǎng)景化推送平臺(tái)等。依托聚合服務(wù)平臺(tái),數(shù)字圖書館可以為用戶呈現(xiàn)可視化的聚合檢索、專題數(shù)據(jù)庫(kù)、場(chǎng)景化推薦等知識(shí)服務(wù)。(1)檢索平臺(tái)。檢索平臺(tái)是領(lǐng)域知識(shí)聚合服務(wù)輸出的初階平臺(tái),旨在為用戶提供常態(tài)化的跨媒體聚合數(shù)據(jù)服務(wù),以最大限度對(duì)領(lǐng)域數(shù)字資源進(jìn)行模塊化聚類,實(shí)現(xiàn)基于一定約束條件的數(shù)字知識(shí)聚類輸出。(2)專題服務(wù)平臺(tái)。專題服務(wù)平臺(tái)是領(lǐng)域知識(shí)聚合服務(wù)輸出的中階平臺(tái)與核心服務(wù)窗口,旨在通過(guò)自動(dòng)跟蹤知識(shí)數(shù)據(jù)與關(guān)聯(lián)聚合,為用戶提供領(lǐng)域知識(shí)情報(bào)數(shù)據(jù)庫(kù)、專家大數(shù)據(jù)庫(kù)等智庫(kù)或?qū)n}數(shù)據(jù)庫(kù)服務(wù)。(3)場(chǎng)景化推送平臺(tái)。場(chǎng)景化推送平臺(tái)是領(lǐng)域知識(shí)聚合服務(wù)輸出的高階平臺(tái),旨在依托聚合服務(wù)交互機(jī)制,利用自媒體平臺(tái)、場(chǎng)景化智能推薦技術(shù)與情景感知技術(shù)來(lái)提供兼具實(shí)效性與人性化的知識(shí)服務(wù),以增強(qiáng)領(lǐng)域知識(shí)聚合服務(wù)的靶向性。
通過(guò)對(duì)知識(shí)聚合服務(wù)基本要素的分析,可構(gòu)建基于領(lǐng)域本體的數(shù)字圖書館知識(shí)聚合服務(wù)實(shí)現(xiàn)模型,如圖1所示,該模型由三大核心模塊組成。
圖1 基于領(lǐng)域本體的數(shù)字圖書館知識(shí) 聚合服務(wù)實(shí)現(xiàn)模型
目前,本體知識(shí)工程構(gòu)建較常用的方法有:IDEF-5法、TOVE法、Methontology方法、骨架法和七步法等,其中骨架法是一種較為簡(jiǎn)單高效的知識(shí)工程構(gòu)建方法,其基本思路是:確定知識(shí)應(yīng)用目的與范圍→對(duì)知識(shí)客體采集與分析→對(duì)知識(shí)客體標(biāo)引(實(shí)現(xiàn)知識(shí)本、客體的映射)→本體知識(shí)庫(kù)構(gòu)建?;诠羌芊?,領(lǐng)域本體知識(shí)庫(kù)的基本構(gòu)建路線如下:
第一,對(duì)領(lǐng)域知識(shí)采集與處理。(1)領(lǐng)域知識(shí)采集的技術(shù)路線。在確立領(lǐng)域范圍的基礎(chǔ)上,利用爬蟲(chóng)、知識(shí)挖掘等數(shù)據(jù)發(fā)現(xiàn)技術(shù)對(duì)分布異構(gòu)的海量多粒度知識(shí)資源進(jìn)行領(lǐng)域范疇的采集[14]:利用諸如程序調(diào)用、資源搜索、資源解析算法、情境識(shí)別跟蹤算法等爬蟲(chóng)抓取工具進(jìn)行領(lǐng)域知識(shí)采集;利用人工智能、機(jī)器學(xué)習(xí)等知識(shí)挖掘方法對(duì)非結(jié)構(gòu)化的知識(shí)數(shù)據(jù)進(jìn)行領(lǐng)域范疇識(shí)別,析出與領(lǐng)域范疇相關(guān)的知識(shí)類別、知識(shí)名稱、知識(shí)屬性、知識(shí)關(guān)系等數(shù)據(jù)。(2)領(lǐng)域知識(shí)分類的技術(shù)路線。利用聚類算法、分類算法等數(shù)學(xué)方法對(duì)領(lǐng)域知識(shí)進(jìn)行分類[15]:利用聚類算法從海量多粒度的領(lǐng)域知識(shí)數(shù)據(jù)中識(shí)別出類別、名稱、屬性與關(guān)系等具有顯著性特征的關(guān)聯(lián)數(shù)據(jù)集,構(gòu)建RDF三元組(Resource Description Framework,資源-屬性-值,一種基本的本體描述語(yǔ)言);利用分類算法對(duì)無(wú)序異構(gòu)的數(shù)據(jù)集進(jìn)行領(lǐng)域知識(shí)共現(xiàn)關(guān)系分類,生成基本的領(lǐng)域知識(shí)共現(xiàn)關(guān)系矩陣。(3)領(lǐng)域知識(shí)篩選的技術(shù)路線。借助程序模塊化技術(shù)與篩選算法對(duì)領(lǐng)域知識(shí)共現(xiàn)關(guān)系矩陣中的關(guān)系類型進(jìn)行篩選:借助程序模塊化技術(shù)對(duì)領(lǐng)域知識(shí)共現(xiàn)關(guān)系矩陣中廣泛且具有復(fù)雜相互關(guān)聯(lián)特征的非結(jié)構(gòu)化知識(shí)進(jìn)行模塊化重組;基于領(lǐng)域本體的應(yīng)用目標(biāo),利用篩選算法對(duì)模塊化的領(lǐng)域知識(shí)進(jìn)行篩選,從元數(shù)據(jù)語(yǔ)義、領(lǐng)域詞匯主題、效用等方面初步實(shí)現(xiàn)結(jié)構(gòu)化呈現(xiàn),促進(jìn)知識(shí)的螺旋式改進(jìn)。
第二,對(duì)領(lǐng)域知識(shí)概念進(jìn)行標(biāo)引。利用標(biāo)簽云軟件、映射工具對(duì)領(lǐng)域知識(shí)進(jìn)行概念抽取與標(biāo)引,賦予不同類型領(lǐng)域知識(shí)相應(yīng)的概念標(biāo)注并提取特征向量,以識(shí)別領(lǐng)域知識(shí)資源的內(nèi)在邏輯關(guān)系。概念標(biāo)引不僅是知識(shí)資源的描述,還是領(lǐng)域本體的構(gòu)建過(guò)程,其有助于促進(jìn)領(lǐng)域知識(shí)深層次隱性關(guān)聯(lián)的統(tǒng)一。如采用FCA-MERGE數(shù)據(jù)發(fā)現(xiàn)技術(shù)在客體知識(shí)與本體知識(shí)間建立映射關(guān)系的過(guò)程中,對(duì)知識(shí)客體進(jìn)行著錄、標(biāo)引,實(shí)際上就全面析出了數(shù)字圖書館知識(shí)彼此間的隱性關(guān)聯(lián),實(shí)現(xiàn)了領(lǐng)域本體知識(shí)關(guān)聯(lián)挖掘的目的;利用改進(jìn)tf-idf、互信息、PageRank等文本特征提取方法構(gòu)建“領(lǐng)域術(shù)語(yǔ)詞典”的過(guò)程,實(shí)際上就實(shí)現(xiàn)了對(duì)領(lǐng)域本體的概念抽取與術(shù)語(yǔ)描述[16]。
第三,構(gòu)建領(lǐng)域本體知識(shí)庫(kù)。領(lǐng)域本體知識(shí)庫(kù)通常呈樹(shù)狀結(jié)構(gòu),樹(shù)上的節(jié)點(diǎn)描述的是領(lǐng)域本體知識(shí)層次結(jié)構(gòu)關(guān)系[17]。知識(shí)工程師只要將分類概念的屬性值添加到各層次分類概念中,便可以清晰地體現(xiàn)領(lǐng)域概念間的關(guān)聯(lián)關(guān)系。通常領(lǐng)域本體知識(shí)庫(kù)內(nèi)的領(lǐng)域概念之間存在繼承關(guān)系、類屬關(guān)系、引證關(guān)系、等同關(guān)系、映射關(guān)系、論述關(guān)系等關(guān)聯(lián)關(guān)系。數(shù)字圖書館可利用統(tǒng)一建模語(yǔ)言(Unified Modeling Language,UML)、RSS聚合技術(shù)從不同的知識(shí)語(yǔ)境中挖掘知識(shí)資源所蘊(yùn)含的領(lǐng)域本體概念,并采用面向關(guān)鍵詞、標(biāo)題與主題圖的本體識(shí)別技術(shù),生成實(shí)體標(biāo)識(shí)一致、數(shù)據(jù)結(jié)構(gòu)一致的高質(zhì)量領(lǐng)域本體知識(shí)集合。為了提升領(lǐng)域本體知識(shí)庫(kù)質(zhì)量,數(shù)字圖書館有必要采用大數(shù)據(jù)、本體匹配映射、行為認(rèn)知、網(wǎng)絡(luò)演化分析等技術(shù),基于知識(shí)名稱、概念抽取、術(shù)語(yǔ)描述三個(gè)維度對(duì)處于不同層次的領(lǐng)域知識(shí)概念進(jìn)行深度挖掘,形成模塊化的知識(shí)網(wǎng)絡(luò)體系。
促進(jìn)用戶數(shù)據(jù)與本體知識(shí)庫(kù)之間的常態(tài)化交互是為數(shù)字圖書館用戶提供情景化、動(dòng)態(tài)化、常態(tài)化的領(lǐng)域知識(shí)服務(wù)的中介節(jié)點(diǎn)。因此,聚合交互模塊的實(shí)踐核心是要構(gòu)建領(lǐng)域本體知識(shí)與用戶畫像的交互路徑。
第一,深度領(lǐng)域知識(shí)聚合網(wǎng)絡(luò)的構(gòu)建路徑。常見(jiàn)的聚合方法有兩種[18]。一種是基于領(lǐng)域關(guān)聯(lián)體系的聚合。即基于知識(shí)概念設(shè)定聚類閾值,將知識(shí)關(guān)聯(lián)聚合與閾值過(guò)濾相結(jié)合,提高標(biāo)引知識(shí)網(wǎng)絡(luò)中個(gè)體數(shù)據(jù)的空間映射強(qiáng)度,賦予領(lǐng)域本體知識(shí)群聚性特征。一種是基于搜索引擎的關(guān)聯(lián)聚合。即憑借搜索引擎對(duì)領(lǐng)域本體知識(shí)進(jìn)行二次組織與整理,形成深度知識(shí)聚合網(wǎng)絡(luò)。
第二,用戶畫像的路徑。用戶畫像的核心工作是給用戶貼“標(biāo)簽”,通過(guò)用戶標(biāo)簽賦予用戶數(shù)據(jù)以活力。用戶畫像構(gòu)建技術(shù)主要有:基于詞袋模型的用戶畫像技術(shù)、基于知識(shí)圖譜的用戶畫像技術(shù)、基于矩陣分解的用戶畫像構(gòu)建技術(shù)等,其中基于知識(shí)圖譜的用戶畫像技術(shù)應(yīng)用較為廣泛。數(shù)字圖書館可利用平臺(tái)采集用戶小數(shù)據(jù)(包括用戶基本數(shù)據(jù)、瀏覽數(shù)據(jù)、檢索數(shù)據(jù)等),構(gòu)建面向用戶畫像的知識(shí)圖譜[19]。即通過(guò)用戶行為關(guān)鍵詞的語(yǔ)義標(biāo)引,生成可以表示用戶特性與用戶行為的標(biāo)簽組合模型。用戶畫像是一個(gè)動(dòng)態(tài)的模型,數(shù)字圖書館可以在服務(wù)過(guò)程中不斷完善用戶標(biāo)簽組合,構(gòu)建良性閉環(huán)。
第三,用戶畫像與領(lǐng)域本體知識(shí)的有效映射路徑。數(shù)字圖書館可利用大數(shù)據(jù)、機(jī)器學(xué)習(xí)等數(shù)據(jù)處理技術(shù)實(shí)現(xiàn)用戶畫像與領(lǐng)域本體知識(shí)的有效映射。新興的智能計(jì)算技術(shù)在“知識(shí)聚合—用戶畫像”交互應(yīng)用中具有重要作用:大數(shù)據(jù)、機(jī)器學(xué)習(xí)、傳感器以及越來(lái)越容易獲得的高性價(jià)比大規(guī)模云服務(wù),為數(shù)字圖書館構(gòu)建“知識(shí)聚合-用戶畫像”交互機(jī)制提供強(qiáng)有力的新工具——先進(jìn)的數(shù)據(jù)處理技術(shù),提高了數(shù)字圖書館知識(shí)本體庫(kù)與用戶知識(shí)需求間的適配程度。如數(shù)字圖書館可以結(jié)合用戶訪問(wèn)時(shí)間、訪問(wèn)地點(diǎn)及訪問(wèn)鏈接等信息構(gòu)建知識(shí)鏈接結(jié)構(gòu)序列拓?fù)鋱D,以提升用戶場(chǎng)景數(shù)據(jù)與知識(shí)資源的有效映射。
基于領(lǐng)域本體的知識(shí)聚合服務(wù)平臺(tái)是數(shù)字圖書館為用戶提供領(lǐng)域知識(shí)聚合檢索、專題數(shù)據(jù)庫(kù)、場(chǎng)景化知識(shí)推薦等多維度領(lǐng)域知識(shí)服務(wù)的終端載體。
第一,領(lǐng)域知識(shí)聚合檢索平臺(tái)的構(gòu)建與服務(wù)內(nèi)容。數(shù)字圖書館可通過(guò)統(tǒng)計(jì)圖、網(wǎng)絡(luò)圖與過(guò)濾展示等方式為用戶創(chuàng)建友好交互的可視化窗口,并通過(guò)聚合檢索引擎與檢索窗口,為用戶提供高效的領(lǐng)域資源聚合、領(lǐng)域知識(shí)鏈接、領(lǐng)域知識(shí)概念圖等檢索服務(wù)[20]。檢索服務(wù)是一項(xiàng)約束性服務(wù),數(shù)字圖書館基于本體知識(shí)庫(kù)與知識(shí)聚合、知識(shí)檢索技術(shù),在對(duì)與作者、機(jī)構(gòu)、主題相關(guān)的知識(shí)內(nèi)容進(jìn)行耦合性、定量化分析后,可為用戶提供基于約束條件的檢索服務(wù):一方面,依托領(lǐng)域知識(shí)本體庫(kù)構(gòu)建與關(guān)系結(jié)構(gòu)的演化歷程,數(shù)字圖書館可基于用戶約束條件為用戶提供模塊化的知識(shí)檢索服務(wù)。另一方面,基于不同知識(shí)單元間耦合強(qiáng)度所形成的“知識(shí)簇”、基于知識(shí)檢索工具的映射功能,可將抽象的二維檢索結(jié)果轉(zhuǎn)化為直觀的圖形數(shù)據(jù),讓用戶直觀地了解相關(guān)知識(shí)領(lǐng)域的發(fā)展軌跡,進(jìn)而探測(cè)到對(duì)其有用的知識(shí)信息。
第二,領(lǐng)域?qū)n}知識(shí)服務(wù)平臺(tái)的服務(wù)輸出與技術(shù)要求。領(lǐng)域?qū)n}知識(shí)服務(wù)平臺(tái)的服務(wù)方向可以分為領(lǐng)域各學(xué)科專題知識(shí)服務(wù)、科研專題知識(shí)服務(wù)與信息素養(yǎng)專題知識(shí)服務(wù)等[21]。領(lǐng)域各學(xué)科專題知識(shí)服務(wù)主要包括領(lǐng)域內(nèi)各個(gè)學(xué)科的資源導(dǎo)航數(shù)據(jù)庫(kù)服務(wù)、領(lǐng)域?qū)W科中的特色資源數(shù)據(jù)庫(kù)服務(wù)等;科研專題知識(shí)服務(wù)主要包括領(lǐng)域內(nèi)科研咨詢專題庫(kù)服務(wù)、科研趨勢(shì)研判專題庫(kù)服務(wù)等;信息素養(yǎng)專題服務(wù)主要包括領(lǐng)域知識(shí)聚合的各類型數(shù)據(jù)庫(kù)使用、課程信息、論文寫作、應(yīng)用軟件、投稿指南等服務(wù)。專題知識(shí)服務(wù)對(duì)數(shù)字圖書館提出了較高的技術(shù)要求,不僅要促進(jìn)具有較高關(guān)聯(lián)性與聚合性特點(diǎn)的領(lǐng)域本體知識(shí)實(shí)現(xiàn)細(xì)粒度聚類融合,還需要以關(guān)聯(lián)展示方式向用戶提供多維交互的可視化集約知識(shí)。為了實(shí)現(xiàn)基于領(lǐng)域本體的專題知識(shí)服務(wù),一方面,數(shù)字圖書館應(yīng)利用Cosine算法、EM聚類算法、IDF加權(quán)算法對(duì)領(lǐng)域范疇內(nèi)的各學(xué)科專題知識(shí)、科研專題知識(shí)、信息素養(yǎng)知識(shí)所蘊(yùn)含的深層次信息進(jìn)行解讀,生成具有個(gè)性化標(biāo)簽的專題知識(shí)網(wǎng)絡(luò)圖譜。另一方面,數(shù)字圖書館還要采用大數(shù)據(jù)技術(shù)、嵌入技術(shù)將不同類別的專題知識(shí)聚合結(jié)果以協(xié)同嵌入方式提供給用戶,使用戶能夠快速全面地理解知識(shí)聚合結(jié)果的層級(jí)關(guān)系及鏈接分布規(guī)律。
第三,場(chǎng)景化領(lǐng)域知識(shí)推薦服務(wù)的實(shí)現(xiàn)路徑。在移動(dòng)互聯(lián)網(wǎng)時(shí)代,用戶對(duì)數(shù)字圖書館知識(shí)聚合服務(wù)情境較為敏感,因此,提供與用戶知識(shí)利用情境相契合的場(chǎng)景化領(lǐng)域知識(shí)推薦服務(wù)也有必要。數(shù)字圖書館可憑借用戶畫像手段全面把握用戶對(duì)領(lǐng)域知識(shí)需求的發(fā)展趨向,利用移動(dòng)智能終端、傳感器等情境感知技術(shù),從海量的用戶使用數(shù)據(jù)中挖掘高頻使用場(chǎng)景及用戶行為軌跡,并以此為基礎(chǔ)創(chuàng)建用戶場(chǎng)景模型,以便當(dāng)用戶進(jìn)入某個(gè)特定場(chǎng)景時(shí),實(shí)時(shí)推送與需求高度匹配的領(lǐng)域知識(shí),動(dòng)態(tài)滿足用戶對(duì)領(lǐng)域知識(shí)的需求[22]。
全媒體時(shí)代,數(shù)字圖書館信息資源服務(wù)模式正不斷發(fā)生變化。數(shù)字圖書館通過(guò)領(lǐng)域本體的構(gòu)建有助于海量數(shù)字資源實(shí)現(xiàn)從“無(wú)序”到“有序”的規(guī)整化聚合——將數(shù)字資源中零散的知識(shí)碎片高精度聚合起來(lái),可幫助用戶準(zhǔn)確分析其中有價(jià)值的信息,以滿足用戶多樣化的資源需求。然而,數(shù)字圖書館要實(shí)現(xiàn)領(lǐng)域知識(shí)細(xì)粒度聚合與智能化服務(wù)輸出,需要不斷提升資源、情境的實(shí)時(shí)把控能力,不僅需要實(shí)現(xiàn)領(lǐng)域本體知識(shí)描述、概念關(guān)系聚合與知識(shí)展示的深度融合,亦需要基于用戶感知有用性、易用性的雙重維度來(lái)拓展知識(shí)聚合服務(wù)的實(shí)踐路徑,有效激活知識(shí)聚合服務(wù)的系統(tǒng)性效能。限于研究專業(yè)的局限性,本文僅為數(shù)字圖書館提供了一個(gè)基于領(lǐng)域本體的知識(shí)聚合服務(wù)理論架構(gòu),該項(xiàng)服務(wù)若要真正付諸實(shí)踐,還需要知識(shí)工程師從技術(shù)領(lǐng)域給予全方位支持。