鄭麗珺
(赤峰學(xué)院圖書館,內(nèi)蒙古 赤峰 024000)
在大數(shù)據(jù)時(shí)代,圖書館對(duì)數(shù)字資源進(jìn)行整理、轉(zhuǎn)化、搜集與輸出是其核心業(yè)務(wù)之一,應(yīng)用大數(shù)據(jù)技術(shù)和網(wǎng)絡(luò)平臺(tái)對(duì)館藏資源進(jìn)行跨媒體的整合,能夠滿足讀者日益增加的資源需求,促進(jìn)圖書館知識(shí)服務(wù)由單一的檢索向復(fù)合式跨媒體方向延伸發(fā)展。實(shí)際上,早在上個(gè)世紀(jì)90年代,美國(guó)等西方國(guó)家就嘗試過(guò)將不同類型和載體的資源進(jìn)行整合共享,提出“互助異構(gòu)”的概念,建設(shè)起大數(shù)據(jù)的資源交換平臺(tái),增強(qiáng)了館藏?cái)?shù)據(jù)資源的統(tǒng)一性[1]。結(jié)合大數(shù)據(jù)時(shí)代的環(huán)境,圖書館對(duì)館藏資源進(jìn)行跨媒體建設(shè)成為一種必然趨勢(shì),通過(guò)搭建集成資源檢索、資源整合與資源輸出為一體的數(shù)據(jù)平臺(tái),能夠?yàn)樽x者提供一站式的知識(shí)服務(wù),提高圖書館館藏資源的使用效率,優(yōu)化圖書館的知識(shí)服務(wù)質(zhì)量。
從館藏資源跨媒體知識(shí)服務(wù)的流程來(lái)看,圖書館的知識(shí)服務(wù)可分為3大模塊,即跨媒體本體模塊、跨媒體檢索技術(shù)模塊與用戶檢索模塊。
圖書館館藏資源跨媒體建設(shè)需要規(guī)范語(yǔ)義數(shù)據(jù)庫(kù),使來(lái)自不同平臺(tái)和數(shù)據(jù)庫(kù)的資源能夠被挖掘和利用,這也是實(shí)現(xiàn)館藏資源跨媒體構(gòu)建的基礎(chǔ)。具體來(lái)說(shuō),跨媒體本體模塊旨在規(guī)范資源本體的信息,并經(jīng)過(guò)數(shù)據(jù)轉(zhuǎn)換技術(shù)組建起跨媒體跨平臺(tái)的數(shù)據(jù)庫(kù),資源本體作為跨媒體知識(shí)服務(wù)的物質(zhì)基礎(chǔ),規(guī)范的本體語(yǔ)義能夠?yàn)榭缑襟w的資源庫(kù)構(gòu)建提供全局的視圖,從資源本體方面格式化并規(guī)范化數(shù)據(jù)模型。
在圖書館進(jìn)行館藏資源的跨媒體知識(shí)服務(wù)過(guò)程中,檢索技術(shù)起關(guān)鍵作用,檢索技術(shù)模塊是圖書館進(jìn)行高質(zhì)量知識(shí)服務(wù)的保障,也是館藏資源跨媒體構(gòu)建的基本載體[2]。一般來(lái)說(shuō),大數(shù)據(jù)時(shí)代應(yīng)用于跨媒體檢索方面的技術(shù)更側(cè)重于數(shù)據(jù)間的關(guān)聯(lián)與整合,重在挖掘數(shù)據(jù)間的隱藏知識(shí)和內(nèi)在關(guān)聯(lián)規(guī)律,目的在于保障資源檢索成果的全面性和完整性。對(duì)比傳統(tǒng)的單一檢索算法,跨媒體的檢索技術(shù)模塊將不同數(shù)據(jù)庫(kù)間館藏資源進(jìn)行有效整合,例如美國(guó)國(guó)家圖書館實(shí)現(xiàn)了資源庫(kù)的跨媒體鏈接,將50 個(gè)州和華盛頓哥倫比亞特區(qū)的數(shù)字資源庫(kù)、專題庫(kù)、法院檔案等整合起來(lái),形成了集成的檢索系統(tǒng),實(shí)現(xiàn)了跨媒體檢索的有效輸出。
用戶檢索模塊是圖書館知識(shí)服務(wù)的終端模塊,跨媒體的館藏資源建設(shè)與知識(shí)服務(wù)的成效需要經(jīng)過(guò)用戶檢索模塊的檢驗(yàn)。用戶檢索模塊主要包括3個(gè)功能。第一,用戶請(qǐng)求功能。用戶通過(guò)輸入關(guān)鍵詞,向圖書館檢索平臺(tái)發(fā)送請(qǐng)求,圖書館在制定的檢索算法運(yùn)轉(zhuǎn)下,實(shí)現(xiàn)跨媒體檢索和本體映射;第二,檢索成果輸出。即圖書館完成跨媒體檢索后,將與關(guān)鍵詞存在關(guān)聯(lián)的結(jié)果呈現(xiàn)出來(lái),輸出給讀者;第三,相關(guān)資源推薦?;诳缑襟w館藏資源的知識(shí)服務(wù)優(yōu)勢(shì)在于能夠根據(jù)讀者的需求,將其他數(shù)據(jù)庫(kù)中與之相關(guān)的內(nèi)容進(jìn)行推送,縱向深化面向讀者的知識(shí)服務(wù)[3],優(yōu)化讀者的檢索體驗(yàn)。
大數(shù)據(jù)時(shí)代圖書館館藏資源的跨媒體知識(shí)服務(wù)系統(tǒng)的構(gòu)建要以數(shù)據(jù)關(guān)聯(lián)為重點(diǎn),統(tǒng)一不同資源庫(kù)中知識(shí)數(shù)據(jù)的語(yǔ)義描述,揭示數(shù)據(jù)間的內(nèi)在聯(lián)系,并依據(jù)資源的關(guān)聯(lián)實(shí)現(xiàn)聚合,為規(guī)范資源互通平臺(tái)提供基礎(chǔ)與保障。筆者從資源提供層與規(guī)范層、知識(shí)粒度層、語(yǔ)義描述層與關(guān)聯(lián)實(shí)現(xiàn)層等維度,構(gòu)建了圖書館館藏資源的跨媒體知識(shí)服務(wù)系統(tǒng),突出館藏資源跨媒體整合的語(yǔ)義統(tǒng)一性處理規(guī)范[4]。
圖1 大數(shù)據(jù)時(shí)代圖書館館藏資源的跨媒體知識(shí)服務(wù)系統(tǒng)的構(gòu)建示意圖
資源提供層是圖書館跨媒體知識(shí)服務(wù)的基礎(chǔ),主要指館藏資源和其他形式知識(shí)庫(kù)的資源供給,是實(shí)現(xiàn)跨媒體語(yǔ)義關(guān)聯(lián)與數(shù)據(jù)聚合的第一步,也是滿足用戶多元化知識(shí)需求的源泉。資源規(guī)范層在接收到來(lái)自各個(gè)平臺(tái)的館藏資源后,需要對(duì)資源進(jìn)行規(guī)范化和統(tǒng)一化整理,具體來(lái)說(shuō),在這個(gè)層級(jí),圖書館需要利用數(shù)字資源統(tǒng)一描述技術(shù)對(duì)跨媒體的數(shù)據(jù)來(lái)源進(jìn)行統(tǒng)一表達(dá)格式的處理,實(shí)現(xiàn)跨媒體異構(gòu)數(shù)據(jù)源描述結(jié)構(gòu)的統(tǒng)一。目前,哈佛大學(xué)圖書館率先引入了數(shù)據(jù)資源跨媒體服務(wù)的方式,將圖書館大數(shù)據(jù)通過(guò)媒體平臺(tái)公之于眾,在資源提供層綜合了廣泛的數(shù)據(jù)庫(kù),豐富了其知識(shí)服務(wù)內(nèi)容與基礎(chǔ)。
在資源規(guī)范層對(duì)異構(gòu)知識(shí)資源進(jìn)行規(guī)范化語(yǔ)義描述的基礎(chǔ)上,知識(shí)粒度層按照知識(shí)級(jí)別對(duì)其進(jìn)行重要級(jí)別排序,并對(duì)關(guān)鍵內(nèi)容進(jìn)行細(xì)化處理,在館藏資源本體的作用之下,形成獨(dú)立的概念知識(shí)單元,可以說(shuō),每一個(gè)跨媒體館藏知識(shí)元繼承了上一級(jí)關(guān)鍵內(nèi)容的特性,并對(duì)應(yīng)了下一個(gè)知識(shí)元的特性。通過(guò)知識(shí)粒度層對(duì)關(guān)鍵內(nèi)容的處理,使跨媒體的規(guī)范性資源元數(shù)據(jù)形成了相互關(guān)聯(lián)的整體[5]。設(shè)計(jì)知識(shí)粒度層的目的在于簡(jiǎn)化復(fù)雜的跨媒體館藏資源,提取關(guān)鍵數(shù)據(jù)的特征,提升圖書館基于跨媒體館藏資源的知識(shí)服務(wù)的靈活性和即時(shí)性。
語(yǔ)義描述層是大數(shù)據(jù)時(shí)代圖書館館藏資源的跨媒體知識(shí)服務(wù)系統(tǒng)構(gòu)建體系的核心環(huán)節(jié),其目的是將跨媒體的館藏資源轉(zhuǎn)換為可被識(shí)別和整合的RDF 文件,形成能夠被計(jì)算機(jī)運(yùn)算系統(tǒng)理解的元數(shù)據(jù)集。在語(yǔ)義描述層,圖書館對(duì)資源知識(shí)元和相關(guān)信息進(jìn)行RDF形式描述,生成命名圖,并給每一命名圖分配URI,便于跨媒體資源整合平臺(tái)的識(shí)別。在具體的語(yǔ)義描述過(guò)程中,URI的賓語(yǔ)既可以是館藏資源的所屬機(jī)構(gòu)或原始鏈接,也可以是精準(zhǔn)到資源的生成者??傊?,語(yǔ)義描述層負(fù)責(zé)RDF 文件的生成與URI 的描述,為館藏資源跨媒體關(guān)聯(lián)的實(shí)現(xiàn)奠定基礎(chǔ)。
在關(guān)聯(lián)實(shí)現(xiàn)層,圖書館利用跨媒體的資源語(yǔ)義描述,將異構(gòu)的知識(shí)數(shù)據(jù)源進(jìn)行有規(guī)律的關(guān)聯(lián)和整合,形成一種立體的、語(yǔ)義化的跨媒體館藏資源體系,應(yīng)用RDF 鏈接機(jī)制保障跨媒體知識(shí)資源的有效流通與交互,降低不同館藏資源在平臺(tái)內(nèi)共享的難度,以保障圖書館知識(shí)服務(wù)的延續(xù)性。
結(jié)合上述對(duì)跨媒體館藏資源知識(shí)服務(wù)系統(tǒng)構(gòu)建的分析,筆者著重論述海量知識(shí)資源的內(nèi)在聯(lián)系,將重點(diǎn)放在跨媒體知識(shí)服務(wù)過(guò)程中知識(shí)聚合的環(huán)節(jié),這就涉及到跨媒體知識(shí)檢索技術(shù)方法的創(chuàng)新與應(yīng)用。因此,筆者對(duì)大數(shù)據(jù)時(shí)代圖書館館藏資源跨媒體知識(shí)服務(wù)的方法進(jìn)行論述,這對(duì)于提高跨媒體資源檢索與整合效率、提高知識(shí)服務(wù)精準(zhǔn)性和針對(duì)性具有積極作用。大數(shù)據(jù)時(shí)代圖書館館藏資源跨媒體知識(shí)服務(wù)的方法主要有館藏資源采集與維護(hù)、知識(shí)特征提取與語(yǔ)義關(guān)聯(lián)、跨媒體本體構(gòu)建與自學(xué)習(xí)3方面(見圖2)。
圖2 大數(shù)據(jù)時(shí)代圖書館館藏資源跨媒體知識(shí)服務(wù)的檢索框架
大數(shù)據(jù)時(shí)代,圖書館要強(qiáng)化館藏資源的采集與維護(hù)能力,一方面,圖書館可以對(duì)傳統(tǒng)紙質(zhì)資源進(jìn)行數(shù)字化轉(zhuǎn)化,豐富數(shù)據(jù)庫(kù)館藏;另一方面,圖書館也可以借助代理軟件,抓取捕捉網(wǎng)頁(yè)上的知識(shí)資源,完善數(shù)據(jù)庫(kù)中知識(shí)資源的類別與格式,為跨媒體的知識(shí)服務(wù)提供豐富全面的資源基礎(chǔ)??缑襟w館藏資源數(shù)據(jù)庫(kù)再進(jìn)一步對(duì)采集來(lái)的數(shù)據(jù)進(jìn)行分類儲(chǔ)存與統(tǒng)一性處理,便于后續(xù)的數(shù)據(jù)維護(hù),例如數(shù)據(jù)自動(dòng)更新、剔除陳舊資源等,從而保障館藏?cái)?shù)據(jù)資源庫(kù)的性能[6]??傊?,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)信息呈爆炸式增長(zhǎng),圖書館建設(shè)跨媒體的館藏資源庫(kù),要著重強(qiáng)調(diào)數(shù)據(jù)的全面采集和維護(hù),加強(qiáng)學(xué)科知識(shí)的更新與維護(hù)力度。
大數(shù)據(jù)時(shí)代圖書館館藏資源跨媒體知識(shí)服務(wù)的方法還表現(xiàn)在知識(shí)特征提取與語(yǔ)義關(guān)聯(lián),通過(guò)對(duì)跨媒體異構(gòu)知識(shí)資源的采集,圖書館要從語(yǔ)義層面進(jìn)行分析和統(tǒng)計(jì),結(jié)合本體庫(kù)對(duì)元數(shù)據(jù)進(jìn)行標(biāo)注、識(shí)別,抽取知識(shí)特征與核心概念,發(fā)現(xiàn)數(shù)據(jù)間的聯(lián)系,并將其納入語(yǔ)義庫(kù)中?;谥R(shí)特征的提取與語(yǔ)義關(guān)聯(lián),可以有效打破跨媒體帶來(lái)的資源整合瓶頸,將知識(shí)數(shù)據(jù)重新進(jìn)行分配和組合,實(shí)現(xiàn)數(shù)據(jù)資源的增值,消除語(yǔ)義鴻溝,進(jìn)一步將底層的特征向語(yǔ)義層面上映射,挖掘出知識(shí)資源隱含的價(jià)值,從而提高語(yǔ)義表述的精確度,提高知識(shí)服務(wù)的效率。
清華大學(xué)圖書館致力于打造大數(shù)據(jù)時(shí)代的數(shù)字圖書館知識(shí)服務(wù),對(duì)館藏?cái)?shù)據(jù)的知識(shí)特征提取與語(yǔ)義關(guān)聯(lián)方面進(jìn)行探索和實(shí)踐,嘗試從大數(shù)據(jù)環(huán)境中提取關(guān)鍵詞,并應(yīng)用先進(jìn)的數(shù)據(jù)挖掘技術(shù),揭示媒體特征的語(yǔ)義關(guān)聯(lián)分析關(guān)鍵詞走向,獲取更深層次更全面的關(guān)聯(lián)信息。
在圖書館館藏跨媒體知識(shí)服務(wù)過(guò)程中,資源的檢索十分重要,直接影響到知識(shí)服務(wù)成果輸出,決定了圖書館知識(shí)服務(wù)的質(zhì)量??缑襟w的語(yǔ)義檢索涉及到來(lái)自不同媒體和數(shù)據(jù)庫(kù)的多樣類型知識(shí)資源,因此很容易產(chǎn)生語(yǔ)義的歧義或重復(fù)問(wèn)題,為了提高檢索效率、優(yōu)化檢索結(jié)果,圖書館需要構(gòu)建起跨媒體的本體體系,讓低層的語(yǔ)義特征能夠向高層進(jìn)行轉(zhuǎn)化,并結(jié)合參考的本體庫(kù)進(jìn)行完善和校正,然后以提取的語(yǔ)義數(shù)據(jù)和數(shù)據(jù)關(guān)聯(lián)為基礎(chǔ),自動(dòng)構(gòu)建本體知識(shí)庫(kù),實(shí)現(xiàn)跨媒體本體的自學(xué)習(xí)功能,進(jìn)而為跨媒體知識(shí)檢索提供全局的視圖??缑襟w本體構(gòu)建與自學(xué)習(xí)有利于圖書館可視化知識(shí)服務(wù)檢索結(jié)果,提高知識(shí)服務(wù)的準(zhǔn)確性和有效率,是大數(shù)據(jù)時(shí)代圖書館館藏資源跨媒體知識(shí)服務(wù)的重要方法。
在大數(shù)據(jù)環(huán)境下,圖書館館藏跨媒體知識(shí)服務(wù)需要人才、技術(shù)和平臺(tái)3方面的保障。
英國(guó)圖書館與信息學(xué)專家認(rèn)為智慧圖書館員能夠推動(dòng)圖書館建設(shè)的發(fā)展,能夠致力于終身學(xué)習(xí)和服務(wù)系統(tǒng)創(chuàng)新。大數(shù)據(jù)時(shí)代賦予了圖書館跨媒體資源整合的重要任務(wù),它的實(shí)現(xiàn)需要信息技術(shù)的突破和理論的創(chuàng)新,因此,圖書館要推進(jìn)館藏資源跨媒體語(yǔ)義關(guān)聯(lián)聚合技術(shù)更新?lián)Q代,主動(dòng)建立學(xué)習(xí)型組織,保障跨媒體資源整合的持續(xù)開展,深化知識(shí)服務(wù)的全面改革。通過(guò)建立學(xué)習(xí)型組織,培養(yǎng)圖書館工作人員的終身學(xué)習(xí)理念,在跨媒體資源整合和語(yǔ)義關(guān)聯(lián)方面始終發(fā)揮主觀能動(dòng)性,激活圖書館人員的創(chuàng)新能力,發(fā)揮其專業(yè)素養(yǎng)優(yōu)勢(shì),推動(dòng)知識(shí)服務(wù)的技術(shù)創(chuàng)新??傊?,高素質(zhì)圖書館人員因其專業(yè)性強(qiáng)被認(rèn)為是圖書館的優(yōu)勢(shì)所在,無(wú)論在跨媒體館藏資源整合方面還在具體的知識(shí)服務(wù)過(guò)程中,圖書館員都發(fā)揮著重要作用,建設(shè)學(xué)習(xí)型圖書館人才隊(duì)伍能夠?yàn)榇髷?shù)據(jù)時(shí)代圖書館館藏資源跨媒體知識(shí)服務(wù)模式的構(gòu)建提供良好的人才基礎(chǔ)。
在大數(shù)據(jù)時(shí)代圖書館館藏資源跨媒體知識(shí)服務(wù)過(guò)程中,對(duì)數(shù)據(jù)關(guān)聯(lián)的挖掘和語(yǔ)義描述至關(guān)重要,因此,圖書館需要提升潛在語(yǔ)義關(guān)聯(lián)挖掘技術(shù)水平。一般來(lái)說(shuō),多層次樹結(jié)構(gòu)的語(yǔ)義關(guān)聯(lián)技術(shù)被得到廣泛應(yīng)用,其優(yōu)勢(shì)在于可以運(yùn)用本體知識(shí),在修復(fù)語(yǔ)義重復(fù)節(jié)點(diǎn)與集成淺層次節(jié)點(diǎn)基礎(chǔ)上,實(shí)現(xiàn)元數(shù)據(jù)上下類關(guān)系、同位關(guān)系等多種類型數(shù)據(jù)的多元關(guān)聯(lián)[7]。總之,樹結(jié)構(gòu)技術(shù)能夠充分挖掘數(shù)據(jù)的規(guī)律,提升跨媒體多特征異構(gòu)資源間的語(yǔ)義關(guān)聯(lián)知識(shí)質(zhì)量,為大數(shù)據(jù)時(shí)代圖書館館藏資源跨媒體知識(shí)服務(wù)模式的構(gòu)建提供充分的技術(shù)保障。
經(jīng)過(guò)規(guī)范化的語(yǔ)義處理,跨媒體的館藏資源形成了標(biāo)準(zhǔn)化的數(shù)據(jù)格式,便于圖書館資源存檔、分類、檢索等工作的有序開展。為了實(shí)現(xiàn)館藏資源跨媒體的無(wú)障礙流通,圖書館知識(shí)服務(wù)需要建立起廣泛的交流渠道,促進(jìn)圖書館內(nèi)部外部的經(jīng)驗(yàn)交流,使圖書館的知識(shí)服務(wù)盡快實(shí)現(xiàn)向?qū)嵺`的轉(zhuǎn)化??傊?,集成式一體化知識(shí)服務(wù)平臺(tái)能夠縮短資源流通的周期,降低資源獲取的成本,更好地提升讀者用戶的使用體驗(yàn)。
在大數(shù)據(jù)時(shí)代,開放關(guān)聯(lián)成為跨媒體館藏資源建設(shè)的實(shí)現(xiàn)方式,也是新一代語(yǔ)義互聯(lián)網(wǎng)的發(fā)展趨勢(shì),應(yīng)用開放的語(yǔ)義關(guān)聯(lián)能夠?qū)崿F(xiàn)不同類型不同結(jié)構(gòu)數(shù)據(jù)之間的規(guī)范化處理,進(jìn)一步挖掘數(shù)據(jù)間的關(guān)聯(lián),建設(shè)超文本型、圖像型等多種數(shù)字館藏資源一體化管理與服務(wù)的數(shù)據(jù)庫(kù)模型,滿足讀者用戶日趨多樣的知識(shí)需求,再通過(guò)建立廣泛的交流渠道,實(shí)現(xiàn)面向讀者用戶的知識(shí)服務(wù)。目前,在圖書館館藏資源跨媒體建設(shè)知識(shí)鏈接方面,要著重突出館藏資源質(zhì)量問(wèn)題,圖書館應(yīng)該結(jié)合自身資源特色,使跨媒體的知識(shí)服務(wù)優(yōu)勢(shì)得到彰顯,同時(shí)要重視資源標(biāo)準(zhǔn)的統(tǒng)一問(wèn)題,避免資源流通不暢等狀況。