国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

圖書館數(shù)字資源一站式檢索模型研究

2017-09-05 08:44張衛(wèi)華??
河南圖書館學(xué)刊 2017年8期

張衛(wèi)華??

關(guān)鍵詞:一站式檢索;分布式數(shù)據(jù)庫;集中式數(shù)據(jù)庫;混合式數(shù)據(jù)庫

摘要:文章對比分析了現(xiàn)存的分布式數(shù)據(jù)庫檢索模型、集中式數(shù)據(jù)庫檢索模型、混合式數(shù)據(jù)庫檢索模型的優(yōu)缺點(diǎn),提出了基于語義技術(shù)的圖書館資源檢索模型,并對其包含的本體字典、檢索歷史抽取庫和輸出系統(tǒng)功能做了介紹。

中圖分類號:G258文獻(xiàn)標(biāo)識碼:A文章編號:1003-1588(2017)08-0074-03

信息社會的發(fā)展,使圖書館的館藏資源越來越豐富,尤其是電子資源越來越多,不僅體現(xiàn)在數(shù)量上,在種類上也各不相同。圖書館管理系統(tǒng)的不同,導(dǎo)致各種條目信息也不同,數(shù)字資源庫有自建數(shù)據(jù)庫和引進(jìn)數(shù)據(jù)庫,尤其是引進(jìn)的數(shù)據(jù)庫種類繁多,索引系統(tǒng)和管理方式存在很大的差異,資源的管理和查找極其不便[1],讀者獲取自己需要的信息難度比較大。如果對各個數(shù)據(jù)庫逐一檢索,信息資源的篩選是一項(xiàng)很龐大的工程,因此,目前迫切需要建立一個統(tǒng)一的信息檢索平臺,實(shí)現(xiàn)對圖書館各種資源的統(tǒng)一檢索。

1 一站式檢索功能分析

圖書館一站式信息檢索的關(guān)鍵技術(shù)在兼容上,重點(diǎn)是解決分布式異構(gòu)數(shù)字資源的整合和檢索。設(shè)計(jì)檢索平臺應(yīng)該包含數(shù)據(jù)處理子系統(tǒng)、索引子系統(tǒng)、搜索服務(wù)子系統(tǒng)、輸出子系統(tǒng)四個主要的系統(tǒng)部分,具體架構(gòu)見圖1。

數(shù)據(jù)處理子系統(tǒng)的主要功能是元數(shù)據(jù)的制作和異構(gòu)數(shù)據(jù)庫的轉(zhuǎn)換[2]。不同數(shù)據(jù)庫廠商的數(shù)據(jù)標(biāo)準(zhǔn)是不一樣的,這樣很難將關(guān)鍵詞抽出來直接使用,需要通過數(shù)據(jù)庫處理子系統(tǒng)對元數(shù)據(jù)進(jìn)行規(guī)范。該系統(tǒng)采用《分類表》《主題詞表》實(shí)現(xiàn)資源的分類和標(biāo)引,并分別從四個方面進(jìn)行整理:①單位購買的大型數(shù)據(jù)庫(CNKI、維普、超星、書生之家等)采用專門開發(fā)的工具直接制作索引,或者采用關(guān)鍵詞傳送的方式進(jìn)行檢索。②對于自建的小型數(shù)據(jù)庫采用數(shù)據(jù)庫轉(zhuǎn)換形式,統(tǒng)一到SQL SREVER數(shù)據(jù)庫統(tǒng)一索引。③外文數(shù)據(jù)庫采用關(guān)鍵詞傳送的形式,不再進(jìn)行數(shù)據(jù)轉(zhuǎn)換,但是對兩個模塊都要檢索,并整合輸出。④對數(shù)據(jù)庫采用技術(shù)一致的數(shù)據(jù)資源庫,直接進(jìn)行元數(shù)據(jù)的采集和收割。圖書館對數(shù)字資源進(jìn)行元數(shù)據(jù)的整合,放在統(tǒng)一檢索平臺中供檢索系統(tǒng)使用。

索引子系統(tǒng)的主要功能是在元數(shù)據(jù)制作完成后,對數(shù)據(jù)進(jìn)行格式化并建立索引[3]。這個系統(tǒng)主要還是管理人員進(jìn)行操作,可以對所包含的數(shù)據(jù)庫進(jìn)行配置、創(chuàng)建和優(yōu)化工作,根據(jù)單位數(shù)據(jù)庫情況的不同,建立不同的索引數(shù)據(jù)庫子庫。

搜索子系統(tǒng)的主要功能是為讀者提供檢索的頁面。讀者在檢索子系統(tǒng)里可以選擇檢索范圍,如全部、期刊、圖書、光盤等,按照事先劃分好的大類選擇檢索。讀者也可以進(jìn)行高級檢索,比如多個關(guān)鍵詞的邏輯檢索、時間段的選擇、數(shù)據(jù)庫的選擇等。另外,搜索子系統(tǒng)還有記錄用戶搜索歷史的功能,將部分檢索式進(jìn)行收錄,形成機(jī)構(gòu)知識庫并具有智能推薦功能。

輸出子系統(tǒng)的主要功能是將用戶檢索的結(jié)果輸出并進(jìn)行排序,根據(jù)相關(guān)度算法,將匹配度最高的放在前面,并且具有分類輸出的功能,如果是綜合檢索的話,應(yīng)該將不同類型的資源分類呈現(xiàn)給讀者。

2 檢索模型對比

圖書館資源一站式檢索系統(tǒng)的建設(shè)模式主要有三種:①自建。圖書館在計(jì)算機(jī)人才充裕的情況下可以自己建設(shè)一站式檢索,這樣成本較低,且符合圖書館的實(shí)際需要,易于維護(hù)和功能擴(kuò)展。②購買。資金比較充裕,技術(shù)能力卻不強(qiáng)的圖書館可以采用購買的形式搭建一站式檢索。這種建設(shè)模式基本上是購買成熟廠商的平臺,在使用的過程中部分功能可能會缺失或者浪費(fèi),但是系統(tǒng)穩(wěn)定。③合作。這是目前最合理的一種構(gòu)建檢索平臺的形式,圖書館根據(jù)自己的需求,提出構(gòu)建的檢索模式,公司負(fù)責(zé)進(jìn)行開發(fā),這樣針對性強(qiáng),系統(tǒng)穩(wěn)定,但是需要的成本也高。檢索模式的不同很大程度上是數(shù)據(jù)庫組織模式的不同,對數(shù)據(jù)庫的組織一般有分布式、集中式和混合式三種。

2.1 分布式數(shù)據(jù)庫檢索模式

分布式數(shù)據(jù)庫檢索模型是直接將存在的數(shù)據(jù)庫并列,即每一個數(shù)據(jù)庫是獨(dú)立的元數(shù)據(jù)和檢索接口,圖書館僅僅做了一個統(tǒng)一的檢索界面,將用戶輸入的檢索式分別傳入各個數(shù)據(jù)庫進(jìn)行檢索,并將檢索結(jié)果匯總到一起反饋給用戶的一種模式。這種模式主要通過SRW/SRU或者Z39.50協(xié)議來實(shí)現(xiàn)(見圖2)。

這種模式的優(yōu)點(diǎn)有:①開發(fā)簡單。圖書館不需要對現(xiàn)有的數(shù)據(jù)庫進(jìn)行二次開發(fā)和元數(shù)據(jù)的收割和采集,擴(kuò)展方便,易于維護(hù)。②可以大大節(jié)約用戶的時間。讀者只需要檢索一次就可以完成對所有數(shù)據(jù)庫的檢索。這種模式的缺點(diǎn)有:①這種搜索模式?jīng)]有自己的索引庫和資源庫,僅僅是一個檢索接口,不能滿足用戶的深層次檢索和自定義檢索。②如果沒有對輸出子系統(tǒng)進(jìn)行二次權(quán)值定義的話,用戶對輸出結(jié)果的篩選工作量較大,尤其是檢索結(jié)果較多的情況下。③各個數(shù)據(jù)庫的檢索方式和標(biāo)引方式不盡相同,這樣用戶在調(diào)整檢索式進(jìn)行二次檢索的時候容易產(chǎn)生混亂。④不利于機(jī)構(gòu)知識庫的構(gòu)建。

2.2 集中式數(shù)據(jù)庫檢索模型

集中式數(shù)據(jù)庫檢索模型是指圖書館要建設(shè)一個收割程序,對所有數(shù)據(jù)庫的元數(shù)據(jù)進(jìn)行收割,形成新的索引庫。用戶將檢索式輸入新建的索引庫進(jìn)行搜索和匹配,然后將檢索結(jié)果輸出給用戶,提供給用戶的是索引庫的索引條目,用戶可通過超級鏈接查詢和使用原文(見圖3)。這種模式也是目前采用比較多的一站式檢索開發(fā)模式。

這種模式的優(yōu)點(diǎn)有:①節(jié)約檢索時間,用戶只需一次檢索即可完成所有數(shù)據(jù)庫的檢索需要。②可以實(shí)現(xiàn)布爾檢索和高級檢索功能。③圖書館能夠形成自己的索引庫,對分類詞表維護(hù)比較簡單,方便提高檢索效率。④由于索引系統(tǒng)為本地程序,方便管理和統(tǒng)一標(biāo)準(zhǔn)的制定。這種模式的缺點(diǎn)有:①相對于分布式檢索系統(tǒng)來說開發(fā)有一定的難度,對軟件和硬件的要求較高。②索引庫建立后,系統(tǒng)擴(kuò)展、接入新的子庫的工作量大,需要對元數(shù)據(jù)進(jìn)行更新,實(shí)時性差。③檢索速度會受到一定的影響。

2.3 混合式數(shù)據(jù)庫檢索模型

混合式數(shù)據(jù)庫檢索模型是采集式和分布式的有機(jī)結(jié)合體,也就是這個一站式檢索系統(tǒng)中既有分布式檢索,也有采集式檢索。即其中的某幾個數(shù)據(jù)庫是分布式的,另外幾個是采集式的,形成混合式數(shù)據(jù)庫檢索模型[4](見圖4)。

這種模型的優(yōu)缺點(diǎn)也是上面兩種模型優(yōu)缺點(diǎn)的集中體現(xiàn),其最大的優(yōu)點(diǎn)是增加數(shù)據(jù)庫的方便快捷度,可以快速加入新的數(shù)據(jù)資源庫,如果是自建的數(shù)據(jù)庫可以并到采集模型,如果是購買的數(shù)據(jù)庫可以加入分部模型中。這種模型的缺點(diǎn)有:①系統(tǒng)對硬件和軟件的要求較高,數(shù)據(jù)庫量較大的情況下會影響響應(yīng)速度。②檢索不統(tǒng)一,輸出結(jié)果的形式不好控制,不容易進(jìn)行分類。③查重和輸出排序的實(shí)現(xiàn)較困難,檢索噪音較大。

3 基于語義技術(shù)的檢索模型

硬件技術(shù)的發(fā)展日新月異,包括通信技術(shù)的發(fā)展,目前4G/LTE的峰值傳輸速率已達(dá)到每秒100M,而5G的峰值速率將達(dá)到每秒10G[5]。所以,

圖書館在研究模型的時候盡量要考慮系統(tǒng)的查全率和查準(zhǔn)率,將響應(yīng)速度放在次要位置。語義檢索模型可以在很大程度上解決上面三種模型的不足(見圖5)。本模型與上述模型的不同之處在于多出了本體字典和檢索歷史的學(xué)習(xí)功能。

3.1 本體字典

本體[6]包含四個最基本的建模關(guān)系:Attribute-of表達(dá)某個概念是另一個概念的屬性;Part-of表達(dá)整體與部分的關(guān)系;Kind-of表達(dá)繼承關(guān)系,相當(dāng)于上位類和下位類的關(guān)系;Instance-of表達(dá)實(shí)例與概念的關(guān)系,相當(dāng)于類和對象的關(guān)系。本體技術(shù)對抽取的數(shù)據(jù)進(jìn)行控制,形成本體詞典。

語義詞典可以清楚明白地表述詞語間的關(guān)系,并將其引入用來改善受控詞表。對搜索引擎的改進(jìn)方法可以借鑒語言學(xué)詞典中對語義關(guān)系的描述,可以用來解析自然語言,實(shí)現(xiàn)通過詞語的意思對目標(biāo)文檔進(jìn)行深入的檢索,目前北京大學(xué)建立中文概念詞典CCD已經(jīng)取得初步的成果。

一站式檢索系統(tǒng)引入本體詞典技術(shù),將對分類表、主題詞表進(jìn)行有效的補(bǔ)充,同時本體和語義技術(shù)所包含的四個關(guān)系可以有效地對檢索者的自然語言進(jìn)行語義控制,并且判斷上位類、下位類信息,方便擴(kuò)大和縮小檢索范圍,對近義詞進(jìn)行檢索,提高查全率。其優(yōu)點(diǎn)有:①經(jīng)過本體詞典的規(guī)范,將檢索式傳輸?shù)匠槿〉脑獢?shù)據(jù)庫進(jìn)行檢索或者將本體詞直接傳輸?shù)椒植际綌?shù)據(jù)庫中進(jìn)行檢索,可以有效提高查全率。②本體是對事物本質(zhì)聯(lián)系的描述,組成的檢索式更精準(zhǔn),可以克服分布式數(shù)據(jù)庫不能組合檢索的缺陷。③本體詞典維護(hù)簡單,一次性構(gòu)建,定期維護(hù)即可。④可以通過組合框的方式進(jìn)行勾選,選擇性地將檢索詞傳輸?shù)侥骋粋€或者幾個數(shù)據(jù)庫進(jìn)行檢索[7]。

3.2 檢索歷史抽取庫

檢索歷史可以反映一個單位或者部分用戶的使用和檢索習(xí)慣,尤其是在高校圖書館,本檢索模型可以通過本體技術(shù)從檢索歷史中抽取相關(guān)的檢索式和檢索結(jié)果,形成檢索知識庫,并抽取專業(yè)知識充實(shí)本體詞典,優(yōu)化檢索效果,實(shí)現(xiàn)學(xué)習(xí)功能。

檢索歷史庫的優(yōu)點(diǎn)有:①方便形成單位或者部門機(jī)構(gòu)知識庫,用戶的使用結(jié)果和檢索式的演變過程本身就是一種知識,本系統(tǒng)可以將優(yōu)秀的檢索式抽取并保存。②實(shí)現(xiàn)對用戶的檢索提示功能,主動將與用戶檢索相關(guān)的檢索式及檢索結(jié)果推送給用戶,供用戶使用或者改變檢索式。③縮短系統(tǒng)的響應(yīng)時間,通過歷史檢索式查詢,系統(tǒng)只需要根據(jù)上次的檢索時間進(jìn)行增量檢索即可,縮短了檢索時間。

3.3 輸出子系統(tǒng)

本體語義技術(shù)的引入,對輸出子系統(tǒng)的智能排序有很大的提高。檢索的結(jié)果是對象和實(shí)例,并且還包含實(shí)體與其之間的聯(lián)系,不再僅僅是超級鏈接和文檔的形式。通過研究深度指數(shù)和背景指數(shù),讀者可以理解實(shí)體之間的關(guān)聯(lián)[8],其中深度指數(shù)可以反映出實(shí)體和關(guān)系的規(guī)范化程度,背景指數(shù)可以反映出讀者感興趣的范圍。

在圖書館一站式檢索輸出排序算法中引入實(shí)體關(guān)聯(lián)模型,可以提高查全率,搜索軟件可以很好地滿足用戶的提問并體現(xiàn)出各個實(shí)體之間的關(guān)聯(lián),在關(guān)鍵詞與實(shí)體進(jìn)行匹配的同時,進(jìn)行檢索擴(kuò)充和聯(lián)想[9],同時還可以根據(jù)檢索結(jié)果的上下位類關(guān)系、來源數(shù)據(jù)庫、時間、數(shù)據(jù)格式等進(jìn)行分類并呈現(xiàn)給讀者,幫助讀者縮短資源的篩選時間。

4 結(jié)語

隨著信息技術(shù)的發(fā)展及移動圖書館、微圖書館等理念和技術(shù)的誕生,未來圖書館將在技術(shù)和用戶需求的驅(qū)動下,聚集更多的業(yè)務(wù)系統(tǒng)和資源類型,讓用戶在一個平臺上獲取圖書館或聯(lián)盟所有類型的資源信息,檢索平臺也將完成從信息檢索到知識檢索的轉(zhuǎn)變,更加注重網(wǎng)絡(luò)資源和區(qū)域聯(lián)盟資源的整合?;谡Z義技術(shù)的一站式檢索系統(tǒng)是圖書館知識發(fā)現(xiàn)最好的解決方案。

參考文獻(xiàn):

[1]楊維超,劉陽,李淑霞.基于搜索引擎的一站式檢索平臺設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)與現(xiàn)代化,2012(11):220-222.

[2]唐光前.基于.NET Remoting的分布式異構(gòu)數(shù)據(jù)庫一站式檢索系統(tǒng)模型研究[J].現(xiàn)代圖書情報(bào)技術(shù),2006(8):37-41.

[3]解金蘭,王雅娟.基于新門戶建設(shè)的信息資源一站式檢索服務(wù)研究[J].情報(bào)理論與實(shí)踐,2013(8):62-65.

[4]朱志博,吳海霞.機(jī)構(gòu)聯(lián)盟知識庫建設(shè)模式[J].圖書館學(xué)刊,2012(1):60-63.

[5]第五代互聯(lián)網(wǎng)技術(shù)[EB/OL].http://baike.sogou.com/v299325.htm.

[6]Perez A G,Benjamins V R.Overview of Knowledge Sharing and Reuse Components:Ontologies and Problem Solving Methods[C].Proceedings of the IJCAI-99 workshop on Ontologies and Problem-Solving Methods(KRR5),1999:1-15.

[7]何美琴,陳剛.區(qū)域高校圖書館一站式書目檢索平臺研究[J].情報(bào)科學(xué),2011(4):560-562.

[8]Aleman-Meza B.Context-aware Semantic Association Ranking [EB/OL].http://lsdis.cs.uga.edu/lib/download/AHASO3-SWD-Wor kshop.

[9]王清飛.基于語義技術(shù)的搜索引擎模式研究[D].鄭州:鄭州大學(xué),2010.

(編校:崔 萌)