圖書館數(shù)字資源一站式檢索模型研究

2017-09-05 08:44張衛(wèi)華??

河南圖書館學(xué)刊 2017年8期

張衛(wèi)華??

關(guān)鍵詞：一站式檢索；分布式數(shù)據(jù)庫；集中式數(shù)據(jù)庫；混合式數(shù)據(jù)庫

摘要：文章對比分析了現(xiàn)存的分布式數(shù)據(jù)庫檢索模型、集中式數(shù)據(jù)庫檢索模型、混合式數(shù)據(jù)庫檢索模型的優(yōu)缺點(diǎn)，提出了基于語義技術(shù)的圖書館資源檢索模型，并對其包含的本體字典、檢索歷史抽取庫和輸出系統(tǒng)功能做了介紹。

中圖分類號：G258文獻(xiàn)標(biāo)識碼：A文章編號：1003-1588（2017）08-0074-03

信息社會的發(fā)展，使圖書館的館藏資源越來越豐富，尤其是電子資源越來越多，不僅體現(xiàn)在數(shù)量上，在種類上也各不相同。圖書館管理系統(tǒng)的不同，導(dǎo)致各種條目信息也不同，數(shù)字資源庫有自建數(shù)據(jù)庫和引進(jìn)數(shù)據(jù)庫，尤其是引進(jìn)的數(shù)據(jù)庫種類繁多，索引系統(tǒng)和管理方式存在很大的差異，資源的管理和查找極其不便[1]，讀者獲取自己需要的信息難度比較大。如果對各個數(shù)據(jù)庫逐一檢索，信息資源的篩選是一項(xiàng)很龐大的工程，因此，目前迫切需要建立一個統(tǒng)一的信息檢索平臺，實(shí)現(xiàn)對圖書館各種資源的統(tǒng)一檢索。

1 一站式檢索功能分析

圖書館一站式信息檢索的關(guān)鍵技術(shù)在兼容上，重點(diǎn)是解決分布式異構(gòu)數(shù)字資源的整合和檢索。設(shè)計(jì)檢索平臺應(yīng)該包含數(shù)據(jù)處理子系統(tǒng)、索引子系統(tǒng)、搜索服務(wù)子系統(tǒng)、輸出子系統(tǒng)四個主要的系統(tǒng)部分，具體架構(gòu)見圖1。

數(shù)據(jù)處理子系統(tǒng)的主要功能是元數(shù)據(jù)的制作和異構(gòu)數(shù)據(jù)庫的轉(zhuǎn)換[2]。不同數(shù)據(jù)庫廠商的數(shù)據(jù)標(biāo)準(zhǔn)是不一樣的，這樣很難將關(guān)鍵詞抽出來直接使用，需要通過數(shù)據(jù)庫處理子系統(tǒng)對元數(shù)據(jù)進(jìn)行規(guī)范。該系統(tǒng)采用《分類表》《主題詞表》實(shí)現(xiàn)資源的分類和標(biāo)引，并分別從四個方面進(jìn)行整理：①單位購買的大型數(shù)據(jù)庫（CNKI、維普、超星、書生之家等）采用專門開發(fā)的工具直接制作索引，或者采用關(guān)鍵詞傳送的方式進(jìn)行檢索。②對于自建的小型數(shù)據(jù)庫采用數(shù)據(jù)庫轉(zhuǎn)換形式，統(tǒng)一到SQL SREVER數(shù)據(jù)庫統(tǒng)一索引。③外文數(shù)據(jù)庫采用關(guān)鍵詞傳送的形式，不再進(jìn)行數(shù)據(jù)轉(zhuǎn)換，但是對兩個模塊都要檢索，并整合輸出。④對數(shù)據(jù)庫采用技術(shù)一致的數(shù)據(jù)資源庫，直接進(jìn)行元數(shù)據(jù)的采集和收割。圖書館對數(shù)字資源進(jìn)行元數(shù)據(jù)的整合，放在統(tǒng)一檢索平臺中供檢索系統(tǒng)使用。

索引子系統(tǒng)的主要功能是在元數(shù)據(jù)制作完成后，對數(shù)據(jù)進(jìn)行格式化并建立索引[3]。這個系統(tǒng)主要還是管理人員進(jìn)行操作，可以對所包含的數(shù)據(jù)庫進(jìn)行配置、創(chuàng)建和優(yōu)化工作，根據(jù)單位數(shù)據(jù)庫情況的不同，建立不同的索引數(shù)據(jù)庫子庫。

搜索子系統(tǒng)的主要功能是為讀者提供檢索的頁面。讀者在檢索子系統(tǒng)里可以選擇檢索范圍，如全部、期刊、圖書、光盤等，按照事先劃分好的大類選擇檢索。讀者也可以進(jìn)行高級檢索，比如多個關(guān)鍵詞的邏輯檢索、時間段的選擇、數(shù)據(jù)庫的選擇等。另外，搜索子系統(tǒng)還有記錄用戶搜索歷史的功能，將部分檢索式進(jìn)行收錄，形成機(jī)構(gòu)知識庫并具有智能推薦功能。

輸出子系統(tǒng)的主要功能是將用戶檢索的結(jié)果輸出并進(jìn)行排序，根據(jù)相關(guān)度算法，將匹配度最高的放在前面，并且具有分類輸出的功能，如果是綜合檢索的話，應(yīng)該將不同類型的資源分類呈現(xiàn)給讀者。

2 檢索模型對比

圖書館資源一站式檢索系統(tǒng)的建設(shè)模式主要有三種：①自建。圖書館在計(jì)算機(jī)人才充裕的情況下可以自己建設(shè)一站式檢索，這樣成本較低，且符合圖書館的實(shí)際需要，易于維護(hù)和功能擴(kuò)展。②購買。資金比較充裕，技術(shù)能力卻不強(qiáng)的圖書館可以采用購買的形式搭建一站式檢索。這種建設(shè)模式基本上是購買成熟廠商的平臺，在使用的過程中部分功能可能會缺失或者浪費(fèi)，但是系統(tǒng)穩(wěn)定。③合作。這是目前最合理的一種構(gòu)建檢索平臺的形式，圖書館根據(jù)自己的需求，提出構(gòu)建的檢索模式，公司負(fù)責(zé)進(jìn)行開發(fā)，這樣針對性強(qiáng)，系統(tǒng)穩(wěn)定，但是需要的成本也高。檢索模式的不同很大程度上是數(shù)據(jù)庫組織模式的不同，對數(shù)據(jù)庫的組織一般有分布式、集中式和混合式三種。

2.1 分布式數(shù)據(jù)庫檢索模式

分布式數(shù)據(jù)庫檢索模型是直接將存在的數(shù)據(jù)庫并列，即每一個數(shù)據(jù)庫是獨(dú)立的元數(shù)據(jù)和檢索接口，圖書館僅僅做了一個統(tǒng)一的檢索界面，將用戶輸入的檢索式分別傳入各個數(shù)據(jù)庫進(jìn)行檢索，并將檢索結(jié)果匯總到一起反饋給用戶的一種模式。這種模式主要通過SRW/SRU或者Z39.50協(xié)議來實(shí)現(xiàn)（見圖2）。

這種模式的優(yōu)點(diǎn)有：①開發(fā)簡單。圖書館不需要對現(xiàn)有的數(shù)據(jù)庫進(jìn)行二次開發(fā)和元數(shù)據(jù)的收割和采集，擴(kuò)展方便，易于維護(hù)。②可以大大節(jié)約用戶的時間。讀者只需要檢索一次就可以完成對所有數(shù)據(jù)庫的檢索。這種模式的缺點(diǎn)有：①這種搜索模式?jīng)]有自己的索引庫和資源庫，僅僅是一個檢索接口，不能滿足用戶的深層次檢索和自定義檢索。②如果沒有對輸出子系統(tǒng)進(jìn)行二次權(quán)值定義的話，用戶對輸出結(jié)果的篩選工作量較大，尤其是檢索結(jié)果較多的情況下。③各個數(shù)據(jù)庫的檢索方式和標(biāo)引方式不盡相同，這樣用戶在調(diào)整檢索式進(jìn)行二次檢索的時候容易產(chǎn)生混亂。④不利于機(jī)構(gòu)知識庫的構(gòu)建。

2.2 集中式數(shù)據(jù)庫檢索模型

集中式數(shù)據(jù)庫檢索模型是指圖書館要建設(shè)一個收割程序，對所有數(shù)據(jù)庫的元數(shù)據(jù)進(jìn)行收割，形成新的索引庫。用戶將檢索式輸入新建的索引庫進(jìn)行搜索和匹配，然后將檢索結(jié)果輸出給用戶，提供給用戶的是索引庫的索引條目，用戶可通過超級鏈接查詢和使用原文（見圖3）。這種模式也是目前采用比較多的一站式檢索開發(fā)模式。

這種模式的優(yōu)點(diǎn)有：①節(jié)約檢索時間，用戶只需一次檢索即可完成所有數(shù)據(jù)庫的檢索需要。②可以實(shí)現(xiàn)布爾檢索和高級檢索功能。③圖書館能夠形成自己的索引庫，對分類詞表維護(hù)比較簡單，方便提高檢索效率。④由于索引系統(tǒng)為本地程序，方便管理和統(tǒng)一標(biāo)準(zhǔn)的制定。這種模式的缺點(diǎn)有：①相對于分布式檢索系統(tǒng)來說開發(fā)有一定的難度，對軟件和硬件的要求較高。②索引庫建立后，系統(tǒng)擴(kuò)展、接入新的子庫的工作量大，需要對元數(shù)據(jù)進(jìn)行更新，實(shí)時性差。③檢索速度會受到一定的影響。

2.3 混合式數(shù)據(jù)庫檢索模型

混合式數(shù)據(jù)庫檢索模型是采集式和分布式的有機(jī)結(jié)合體，也就是這個一站式檢索系統(tǒng)中既有分布式檢索，也有采集式檢索。即其中的某幾個數(shù)據(jù)庫是分布式的，另外幾個是采集式的，形成混合式數(shù)據(jù)庫檢索模型[4]（見圖4）。

這種模型的優(yōu)缺點(diǎn)也是上面兩種模型優(yōu)缺點(diǎn)的集中體現(xiàn)，其最大的優(yōu)點(diǎn)是增加數(shù)據(jù)庫的方便快捷度，可以快速加入新的數(shù)據(jù)資源庫，如果是自建的數(shù)據(jù)庫可以并到采集模型，如果是購買的數(shù)據(jù)庫可以加入分部模型中。這種模型的缺點(diǎn)有：①系統(tǒng)對硬件和軟件的要求較高，數(shù)據(jù)庫量較大的情況下會影響響應(yīng)速度。②檢索不統(tǒng)一，輸出結(jié)果的形式不好控制，不容易進(jìn)行分類。③查重和輸出排序的實(shí)現(xiàn)較困難，檢索噪音較大。

3 基于語義技術(shù)的檢索模型

硬件技術(shù)的發(fā)展日新月異，包括通信技術(shù)的發(fā)展，目前4G/LTE的峰值傳輸速率已達(dá)到每秒100M，而5G的峰值速率將達(dá)到每秒10G[5]。所以，

圖書館在研究模型的時候盡量要考慮系統(tǒng)的查全率和查準(zhǔn)率，將響應(yīng)速度放在次要位置。語義檢索模型可以在很大程度上解決上面三種模型的不足（見圖5）。本模型與上述模型的不同之處在于多出了本體字典和檢索歷史的學(xué)習(xí)功能。

3.1 本體字典

本體[6]包含四個最基本的建模關(guān)系：Attribute-of表達(dá)某個概念是另一個概念的屬性；Part-of表達(dá)整體與部分的關(guān)系；Kind-of表達(dá)繼承關(guān)系，相當(dāng)于上位類和下位類的關(guān)系；Instance-of表達(dá)實(shí)例與概念的關(guān)系，相當(dāng)于類和對象的關(guān)系。本體技術(shù)對抽取的數(shù)據(jù)進(jìn)行控制，形成本體詞典。

語義詞典可以清楚明白地表述詞語間的關(guān)系，并將其引入用來改善受控詞表。對搜索引擎的改進(jìn)方法可以借鑒語言學(xué)詞典中對語義關(guān)系的描述，可以用來解析自然語言，實(shí)現(xiàn)通過詞語的意思對目標(biāo)文檔進(jìn)行深入的檢索，目前北京大學(xué)建立中文概念詞典CCD已經(jīng)取得初步的成果。

一站式檢索系統(tǒng)引入本體詞典技術(shù)，將對分類表、主題詞表進(jìn)行有效的補(bǔ)充，同時本體和語義技術(shù)所包含的四個關(guān)系可以有效地對檢索者的自然語言進(jìn)行語義控制，并且判斷上位類、下位類信息，方便擴(kuò)大和縮小檢索范圍，對近義詞進(jìn)行檢索，提高查全率。其優(yōu)點(diǎn)有：①經(jīng)過本體詞典的規(guī)范，將檢索式傳輸?shù)匠槿〉脑獢?shù)據(jù)庫進(jìn)行檢索或者將本體詞直接傳輸?shù)椒植际綌?shù)據(jù)庫中進(jìn)行檢索，可以有效提高查全率。②本體是對事物本質(zhì)聯(lián)系的描述，組成的檢索式更精準(zhǔn)，可以克服分布式數(shù)據(jù)庫不能組合檢索的缺陷。③本體詞典維護(hù)簡單，一次性構(gòu)建，定期維護(hù)即可。④可以通過組合框的方式進(jìn)行勾選，選擇性地將檢索詞傳輸?shù)侥骋粋€或者幾個數(shù)據(jù)庫進(jìn)行檢索[7]。

3.2 檢索歷史抽取庫

檢索歷史可以反映一個單位或者部分用戶的使用和檢索習(xí)慣，尤其是在高校圖書館，本檢索模型可以通過本體技術(shù)從檢索歷史中抽取相關(guān)的檢索式和檢索結(jié)果，形成檢索知識庫，并抽取專業(yè)知識充實(shí)本體詞典，優(yōu)化檢索效果，實(shí)現(xiàn)學(xué)習(xí)功能。

檢索歷史庫的優(yōu)點(diǎn)有：①方便形成單位或者部門機(jī)構(gòu)知識庫，用戶的使用結(jié)果和檢索式的演變過程本身就是一種知識，本系統(tǒng)可以將優(yōu)秀的檢索式抽取并保存。②實(shí)現(xiàn)對用戶的檢索提示功能，主動將與用戶檢索相關(guān)的檢索式及檢索結(jié)果推送給用戶，供用戶使用或者改變檢索式。③縮短系統(tǒng)的響應(yīng)時間，通過歷史檢索式查詢，系統(tǒng)只需要根據(jù)上次的檢索時間進(jìn)行增量檢索即可，縮短了檢索時間。

3.3 輸出子系統(tǒng)

本體語義技術(shù)的引入，對輸出子系統(tǒng)的智能排序有很大的提高。檢索的結(jié)果是對象和實(shí)例，并且還包含實(shí)體與其之間的聯(lián)系，不再僅僅是超級鏈接和文檔的形式。通過研究深度指數(shù)和背景指數(shù)，讀者可以理解實(shí)體之間的關(guān)聯(lián)[8]，其中深度指數(shù)可以反映出實(shí)體和關(guān)系的規(guī)范化程度，背景指數(shù)可以反映出讀者感興趣的范圍。

在圖書館一站式檢索輸出排序算法中引入實(shí)體關(guān)聯(lián)模型，可以提高查全率，搜索軟件可以很好地滿足用戶的提問并體現(xiàn)出各個實(shí)體之間的關(guān)聯(lián)，在關(guān)鍵詞與實(shí)體進(jìn)行匹配的同時，進(jìn)行檢索擴(kuò)充和聯(lián)想[9]，同時還可以根據(jù)檢索結(jié)果的上下位類關(guān)系、來源數(shù)據(jù)庫、時間、數(shù)據(jù)格式等進(jìn)行分類并呈現(xiàn)給讀者，幫助讀者縮短資源的篩選時間。

4 結(jié)語

隨著信息技術(shù)的發(fā)展及移動圖書館、微圖書館等理念和技術(shù)的誕生，未來圖書館將在技術(shù)和用戶需求的驅(qū)動下，聚集更多的業(yè)務(wù)系統(tǒng)和資源類型，讓用戶在一個平臺上獲取圖書館或聯(lián)盟所有類型的資源信息，檢索平臺也將完成從信息檢索到知識檢索的轉(zhuǎn)變，更加注重網(wǎng)絡(luò)資源和區(qū)域聯(lián)盟資源的整合?；谡Z義技術(shù)的一站式檢索系統(tǒng)是圖書館知識發(fā)現(xiàn)最好的解決方案。

參考文獻(xiàn)：

[1]楊維超，劉陽，李淑霞.基于搜索引擎的一站式檢索平臺設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)與現(xiàn)代化，2012（11）：220-222.

[2]唐光前.基于.NET Remoting的分布式異構(gòu)數(shù)據(jù)庫一站式檢索系統(tǒng)模型研究[J].現(xiàn)代圖書情報(bào)技術(shù)，2006（8）：37-41.

[3]解金蘭，王雅娟.基于新門戶建設(shè)的信息資源一站式檢索服務(wù)研究[J].情報(bào)理論與實(shí)踐，2013（8）：62-65.

[4]朱志博，吳海霞.機(jī)構(gòu)聯(lián)盟知識庫建設(shè)模式[J].圖書館學(xué)刊，2012（1）：60-63.

[5]第五代互聯(lián)網(wǎng)技術(shù)[EB/OL].http：//baike.sogou.com/v299325.htm.

[6]Perez A G，Benjamins V R.Overview of Knowledge Sharing and Reuse Components：Ontologies and Problem Solving Methods[C].Proceedings of the IJCAI-99 workshop on Ontologies and Problem-Solving Methods（KRR5），1999：1-15.

[7]何美琴，陳剛.區(qū)域高校圖書館一站式書目檢索平臺研究[J].情報(bào)科學(xué)，2011（4）：560-562.

[8]Aleman-Meza B.Context-aware Semantic Association Ranking [EB/OL].http：//lsdis.cs.uga.edu/lib/download/AHASO3-SWD-Wor kshop.

[9]王清飛.基于語義技術(shù)的搜索引擎模式研究[D].鄭州：鄭州大學(xué)，2010.

（編校：崔萌）

河南圖書館學(xué)刊2017年8期

河南圖書館學(xué)刊的其它文章: 論業(yè)務(wù)外包背景下圖書館采編人員價值的實(shí)現(xiàn); 我國圖書館嬰幼兒服務(wù)已有研究分析綜述; 客家祖訓(xùn)的文獻(xiàn)資料建設(shè)和閱讀推廣; “全民閱讀”在孤兒教育中的推廣情況調(diào)查分析; 工業(yè)4.0背景下圖書館管理創(chuàng)新; 基于文獻(xiàn)傳遞數(shù)據(jù)可視化分析的電子資源采購參考決策研究

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

圖書館數(shù)字資源一站式檢索模型研究