圖書館數(shù)字資源建設(shè)中檢索技術(shù)的應(yīng)用分析及探討*

2015-12-09 07:38:46黃振江

菏澤學(xué)院學(xué)報 2015年2期

黃振江

(菏澤醫(yī)學(xué)?？茖W(xué)校，山東菏澤274000)

引言

檢索技術(shù)的應(yīng)用是在圖書館建設(shè)發(fā)展過程中對電子資源查詢和整合的重要方式，也是提高學(xué)生信息素養(yǎng)和技能的必要手段．因此，檢索技術(shù)的應(yīng)用是教育界十分關(guān)注的課題．

1 高校文獻檢索技術(shù)的發(fā)展情況

從目前來看，我國多數(shù)高校圖書館電子資源建設(shè)及其文獻檢索教學(xué)處在一個相對基礎(chǔ)的階段，檢索技術(shù)運用程度還很淺顯，并不能全面滿足用戶的需求．因此，非常有必要對當(dāng)前幾種重要的檢索技術(shù)進行分析探討，以此提升電子資源建設(shè)中檢索技術(shù)運用的程度，從而讓用戶快速有效查詢其所需要的信息，如果高校圖書館想實現(xiàn)這一目標(biāo)，首先要對圖書館數(shù)字資源建設(shè)中存在的分布式異構(gòu)存儲問題進行解決．唯有真正的解決了這個問題，才能夠為用戶提供一體化服務(wù)體驗，從而全面滿足用戶的需求．

2 目前常見的信息檢索技術(shù)

2．1 SFX技術(shù)

SFX即通常所說的特效．這是一種新型的數(shù)字資源聚合軟件系統(tǒng)．其最早是由比利時的H·薩姆堡爾等人提出．后隨著更多學(xué)者的加入，才實現(xiàn)了該信息系統(tǒng)建設(shè)方面的進一步優(yōu)化．這種技術(shù)的誕生在行業(yè)內(nèi)備受關(guān)注，同時也吸引了諸多數(shù)字圖書館的目光．目前在全球來說，使用這種技術(shù)的用戶已經(jīng)達(dá)到了將近2 000家．

作為一種相對成熟的聚合技術(shù)，SFX發(fā)展基于OpenURL協(xié)議展開．借助這個協(xié)議，可以實現(xiàn)將各種復(fù)雜的數(shù)據(jù)進行整合，從而將數(shù)據(jù)的檢索方式統(tǒng)一化［1］．用戶在進行資源的使用和處理的過程中可以實現(xiàn)對資源的不同轉(zhuǎn)化．從一種資源轉(zhuǎn)化到另外一種資源．借助這種OpenURL協(xié)議，用戶只需要簡單的幾步處理就能夠?qū)崿F(xiàn)資源的搜索．而OpenURL協(xié)議的優(yōu)勢表現(xiàn)在以下幾個方面:1)OpenURL技術(shù)通過協(xié)議實現(xiàn)數(shù)字資源的無限擴大，任何資源都能夠能夠通過這種方式實現(xiàn)鏈接聚合;2)在進行檢索的過程中，OpenURL協(xié)議的使用可以更好的實現(xiàn)資源間的互補兼容，提升整個信息資源搜索的效率．3)在進行信息資源處理的過程中，運用OpenURL協(xié)議還能夠更好的進行不同的兼容互補，從而更好的實現(xiàn)對元數(shù)據(jù)信息的處理，提升數(shù)據(jù)搜索效果，同時實現(xiàn)鏈接的動態(tài)處理效果．4)在進行信息資源的搜索處理過程中，不需要太多的關(guān)注細(xì)節(jié)方面的內(nèi)容，只需要進行簡單的管理機制的設(shè)置就能夠?qū)崿F(xiàn)數(shù)據(jù)信息的搜集與處理．5)在智能化的實現(xiàn)方面，由最初的可以進行單一的檢索到復(fù)合檢索功能的有效實現(xiàn)．用戶在檢索的過程中只需要通過一次檢索，就能檢索出所有與要檢索內(nèi)容相關(guān)的信息．因此在這個背景下，整個檢索技術(shù)的實現(xiàn)更為人性化也更加智能化．

2．2 Web Service技術(shù)

Web Service是源于互聯(lián)網(wǎng)技術(shù)發(fā)展，以分布式為基礎(chǔ)的模塊組建［2］．通過技術(shù)的運用，能夠在更多的平臺之間實現(xiàn)良好的信息溝通與互動．其工作的范疇主要是實現(xiàn)不同信息系統(tǒng)間的信息共享．具體來說，其必須通過URL來實現(xiàn)接口的最終發(fā)布，同時在實現(xiàn)的過程中還需要依循一定的行業(yè)技術(shù)標(biāo)準(zhǔn)來實現(xiàn)．此外在進行具體操作的過程中，使用Web Service最大的優(yōu)勢在于可以更好的對不同平臺間的差異信息加以融合，從而更好的實現(xiàn)平臺的互通．此外在信息的處理方面也有助于更好的進行數(shù)字信息資源的綜合和協(xié)調(diào)，將不同的信息平臺以及不同系統(tǒng)間的信息搜索內(nèi)容加以更為有效的管控，從而實現(xiàn)信息處理的優(yōu)勢化成果．所以Web Service資源的使用，其根本的目的在于將所有的信息處理后通過一個統(tǒng)一的平臺或者是結(jié)構(gòu)形式予以表現(xiàn)，從而一方面更好的實現(xiàn)不同資源間的互通，另一方面也有效的提升數(shù)字資源處理以及資源共享的成效．從結(jié)構(gòu)的層面來說，Web Service的結(jié)構(gòu)則是統(tǒng)一的包含了服務(wù)的請求方、提供方以及注冊中心三方面的內(nèi)容．借助這種結(jié)構(gòu)可以更好的實現(xiàn)不同信息間互通有無，同時也實現(xiàn)良好的信息操作與處理功能．在進行該平臺操作過程中，其中還涉及到一些相關(guān)技術(shù)的應(yīng)用，諸如網(wǎng)絡(luò)服務(wù)描述語言，以及聚合技術(shù)，等等，這些都是構(gòu)成Web Service順暢運行的重要技術(shù)內(nèi)容．在整個體系底部，最基礎(chǔ)的是數(shù)據(jù)資源信息，而每個數(shù)據(jù)資源之間都是相對獨立的，其進行信息的提供也都是通過相對獨立的數(shù)據(jù)支撐來實現(xiàn)的．而在進行信息檢索實現(xiàn)過程中，本地搜索到的信息就是這些內(nèi)容．除了基礎(chǔ)信息之外，針對于各種不同的數(shù)據(jù)庫信息處理還有一些其它信息資源庫．這些資源庫通過一定的接口與本地信息資源庫相連接，用戶在進行信息搜索過程中可以使用本地系統(tǒng)資源來實現(xiàn)對其它與之相接口數(shù)據(jù)庫信息的讀?。訵eb Service可以實現(xiàn)不同資源間的聚合調(diào)用，可以有效的對圖書館數(shù)據(jù)資源整合及處理．

2．3 P2P技術(shù)

P2P技術(shù)是隸屬于互聯(lián)網(wǎng)覆蓋層網(wǎng)絡(luò)而存在的．其主要是在信息處理的過程中，通過一定的技術(shù)手段，實現(xiàn)不同的信息主體間對等的信息溝通與交流．在P2P技術(shù)的實現(xiàn)環(huán)境中，任何一臺與之連接的計算機都能夠?qū)崿F(xiàn)信息資源及時有效的共享，而這種信息資源的共享是通過最終技術(shù)支撐來實現(xiàn)的．目前在P2P結(jié)構(gòu)實現(xiàn)的過程中，包含了基本的構(gòu)成結(jié)構(gòu)，分別是樹形結(jié)構(gòu)、DHT也稱哈希表結(jié)構(gòu)，以及網(wǎng)絡(luò)結(jié)構(gòu)．依據(jù)需求的不同，這些結(jié)構(gòu)的具體應(yīng)用也存在一定程度的差異．

P2P技術(shù)分類方式很多，可以是通過中央服務(wù)器建設(shè)與否進行區(qū)分，也可以通過網(wǎng)絡(luò)中存儲內(nèi)容與網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的相關(guān)性進行區(qū)別，同時也可以通過匿名性來進行區(qū)分等．通過這些方式的區(qū)分，最終來對整個P2P技術(shù)實現(xiàn)有層次、有規(guī)則的技術(shù)分類．

2．4 Grid技術(shù)

Grid技術(shù)又稱作是網(wǎng)格技術(shù)，這一技術(shù)的出現(xiàn)是依托于電力網(wǎng)的概念產(chǎn)生的，它是一種相對靈活、多變的信息處理模式．Grid技術(shù)的實現(xiàn)是將所有的計算機通過一個網(wǎng)絡(luò)聯(lián)系在一起，從而實現(xiàn)不同信息技術(shù)的整合，以及資源的有效化利用．在整個過程中，其具有多方面的優(yōu)勢，包含了資源的共享，知識的生產(chǎn)，以及開放存儲等多方面的信息［3］．

在當(dāng)前學(xué)術(shù)界中，與網(wǎng)格應(yīng)用相關(guān)的內(nèi)容十分豐富，包含了遠(yuǎn)程分布式計算與通信系統(tǒng)和地球系統(tǒng)格網(wǎng)系統(tǒng)，此外在地震工程方面還有TeraGrid和國家地震工程仿真格網(wǎng)，等等．就我國的現(xiàn)狀來說，主要的Grid技術(shù)落實多是在科研領(lǐng)域以及制造領(lǐng)域等四個領(lǐng)域中進行廣泛的應(yīng)用．同時在數(shù)字圖書館的建設(shè)方面，Grid技術(shù)也有著十分突出的表現(xiàn)．諸如信息數(shù)據(jù)的處理，以及共享信息的實現(xiàn)等，通過這種技術(shù)來進行數(shù)字圖書館的建設(shè)，對整個數(shù)據(jù)資源的利用和處理都有著十分重要的作用．

3 文獻檢索技術(shù)的實際運用

我國高校圖書館進行數(shù)字資源建設(shè)必須運用以下幾個方面的文獻檢索技術(shù)才能夠真正滿足用戶需求．

3．1 數(shù)據(jù)挖掘agent

數(shù)據(jù)挖掘階段是整個信息系統(tǒng)運行和實現(xiàn)的核心階段．在這個階段的處理過程中，首先需要確定整個挖掘的目標(biāo)和任務(wù)．確立了這些任務(wù)之后，還要進行具體挖掘工作實現(xiàn)的計算方式．在實施的過程中，即便是同樣的一種挖掘工作，其實現(xiàn)方式、計算方式也會有著多種不同的形態(tài)．比如在進行數(shù)據(jù)挖掘處理的過程中，包含了兩個基本的要素，一是依據(jù)資源的具體特點來進行處理，依據(jù)資源的具體特點來進行算法的選擇與應(yīng)用;其次是在具體實踐的過程中，也需要用戶的參與．也就是說在處理數(shù)據(jù)的過程中必須要用戶能夠立刻實現(xiàn)的方式來進行計算．通過這種計算導(dǎo)致的結(jié)果也是能夠滿足用戶需求的內(nèi)容．有一部分用戶在使用計算模式的過程中，其目的并非只是得到一個簡單的結(jié)果，更多的是希望獲取更為精準(zhǔn)的預(yù)測內(nèi)容．

在數(shù)據(jù)挖掘的過程中，常說的KDD更多的是指在數(shù)據(jù)中的知識內(nèi)容．也就是用戶在進行信息搜索的過程中，需要從整個的信息資源處理中去發(fā)現(xiàn)信息，從而進行合理化的處理，促使信息的內(nèi)容能夠充分滿足數(shù)據(jù)處理的有用性［4］．具體來說，在具體的數(shù)據(jù)處理之前就要進行數(shù)據(jù)挖掘方式的界定，同時依據(jù)這種挖掘方式找尋與之相適應(yīng)的發(fā)現(xiàn)方式．一般說來，在進行數(shù)據(jù)挖掘的過程中，更多的是針對整個項目信息層面內(nèi)容的挖掘，而較少涉及到一些具體圖片信息的挖掘．所以在進行數(shù)據(jù)挖掘的過程中，每個任務(wù)或者模式的實現(xiàn)都必須滿足基本的要求，這樣有助于挖掘更好的實現(xiàn)．具體的內(nèi)容如下:

N=﹛X1，X2，···Xn﹜指的是在集合中存在有n個不同的結(jié)點．將其中(Xi，Xj)定義為一條邊，從而在模式的體現(xiàn)中出現(xiàn)了(Pv，PE)其中Pv，PE分別對應(yīng)的是結(jié)點的集合，以及邊的集合．由此可以進行以下公式的計算Pv?N，PE=﹛(Xi，XY)丨Xi，XY∈Pv﹜．但在這個公式中，呈現(xiàn)的不同的元素或者信息之間并沒有一個固定的關(guān)系，所以其集合呈現(xiàn)的僅僅是對定點的展現(xiàn)，也就是說Pv=﹛X1，X2，···Xn﹜，PE=φ．那么在這個時候還可以將樹的模式界定成Pv=﹛X1，X2，···Xn﹜．公式中的r指的是根結(jié)點．這個根結(jié)點所需要滿足的基本要求如下:

1)首先根是不存在父結(jié)點的，也就是說?Xi∈Pv，(Xi，r)?PE

2)PE邊存在向，如果說(Xi，Xj)PE是PE的構(gòu)成內(nèi)容之一，其實(Xj，Xi)并非PE的組成元素．

3)任何一個結(jié)點，其相對應(yīng)的父結(jié)點也只有一個．也就是說(Xi，Xj)是PE的一個元素，則(Xi，Xy)不是構(gòu)成元素．

4)從樹的層面來說，樹本身是可連接的．例如在呈現(xiàn)的過程中，所有的Xi?PE，都存在從r到Xi的路徑．

值得一提的是，在進行圖的挖掘過程中，其同時還涉及到環(huán)內(nèi)容的存在．但是在整個樹型結(jié)構(gòu)的挖掘開展過程中則不會有環(huán)的呈現(xiàn)．同樣，如果一個模式應(yīng)用起來相對頻繁，相對應(yīng)的子模式也會頻繁．在具體的操作過程中，可以借助以下幾種方式來具體判定子模式的存在．

有兩個模式A和B，假設(shè)二者之間會存在單映射f，且滿足了以下的幾個基本的條件:

1)Xi=f(Xi)，點標(biāo)識相同．

2)(Xi，Xj)=(f(Xi)，f(Xy))，邊標(biāo)識相同．

3)Xi，Xj∈AV，f(Xi)，f(Xj)∈BV，Xi，Xj，f(Xi)，f(Xi)，分屬兩個模式．

如上所說，就可以認(rèn)為說模式A是B的子模式，標(biāo)注為A≤B．

按照這種分析，Agent完成了數(shù)據(jù)處理之后的信息就可以按照不同的方式來進行進一步的數(shù)據(jù)挖掘．因此從整個形式方面來說，可以認(rèn)為Agent模式是一種通用的形式．

3．2 人機界面Agent

在進行信息數(shù)據(jù)挖掘的過程中，完全智能化的實現(xiàn)還需要時間與技術(shù)的雙重支撐．但是在目前的數(shù)據(jù)挖掘?qū)崿F(xiàn)過程中，其不同的子系統(tǒng)之間是可以通過人機共同來完成信息挖掘的．作為信息處理系統(tǒng)來說，其在運行的過程中必然會涉及到與人的溝通，也就是必須通過人來進行相關(guān)的信息或者命令輸入到系統(tǒng)中才能夠完成信息的處理［5］．例如在進行單一信息處理的過程中，用戶須首先要通過Agent來“告訴”系統(tǒng)哪些信息是該用戶偏愛的．系統(tǒng)就會依據(jù)告訴信息來進行信息的挖掘與整合．但是在數(shù)據(jù)挖掘的過程中，同時還必須注意的是信息的處理具有一定的時效性．也就是說很有可能在某一段時間內(nèi)，用戶對某些信息的關(guān)注熱點相對較高，但是一段時間之后，用戶的關(guān)注熱度則有可能會被轉(zhuǎn)移到另外的內(nèi)容上去．所以借助人機界面的實現(xiàn)，可以避免這種情況的出現(xiàn)．通過一定的計算標(biāo)準(zhǔn)來進行熱度信息的抓?。谶M行系統(tǒng)具體的設(shè)置時，從系統(tǒng)的建設(shè)之初就會植入一些信息和指令，用于判別不同信息數(shù)據(jù)的熱度．即便如此，在具體的應(yīng)用過程中也依然會出現(xiàn)很多的問題．以金錢效應(yīng)為例來說，一般說來，在智能的系統(tǒng)方面，智能體所偏好的也往往是較多的金錢，所以在進行信息處理的過程中，可以發(fā)現(xiàn)智能體在對金錢喜好的偏向方面，但其更多的是追求單一數(shù)值大小．

數(shù)據(jù)挖掘階段的模式是經(jīng)過評價得出的最終模式．可能會存在許多陳冗的內(nèi)容，對于這些無法滿足用戶需求的內(nèi)容就要進行合理的處理．一種處理方式是直接進行刪除，還有一種處理方式是進行數(shù)據(jù)的變化．無論是哪種處理方式，其最終的目的都是為了更好的推動數(shù)據(jù)信息挖掘或者處理結(jié)果的彰顯．而且在操作的過程中，由于知識發(fā)現(xiàn)的本身是面向自然人的，所以在進行具體發(fā)現(xiàn)模式的使用方面要進行可視化的處理，也就是說最終的結(jié)果必須是具有一定的效果，而且所呈現(xiàn)的內(nèi)容還必須是以能夠滿足人們的需求來最終呈現(xiàn)．具體人機界面的設(shè)置如圖1所示:

圖1 人機界面Agent結(jié)構(gòu)示意圖

3．3 總體結(jié)構(gòu)

在整體的結(jié)構(gòu)實現(xiàn)過程中，數(shù)據(jù)預(yù)處理Agent和人機界面Agent是分屬于兩個不同的架構(gòu)．其中數(shù)據(jù)預(yù)處理Agent是隸屬于背景描述的層面，而人機界面Agent則是隸屬于接口的內(nèi)容．所以這兩部分內(nèi)容的存在，一方面促使信息的處理更為便捷，也更加的高效，同時在進行信息處理過程中，其最終所輸出的內(nèi)容也更容易得到廣大用戶的認(rèn)可．一般來說，我們所提到的數(shù)據(jù)信息挖掘系統(tǒng)都是擁有十分龐大的體系，其在進行數(shù)據(jù)處理方面的處理過程也是十分復(fù)雜的．采用多個Agent的模式就能夠有效的解決這種復(fù)雜的信息處理流程．通過多個Agent的實現(xiàn)，將一個復(fù)雜的內(nèi)容轉(zhuǎn)變成為多重的信息處理層，從而更好的實現(xiàn)了Agent信息處理的效率．其大致的結(jié)構(gòu)如圖2所示:

圖2 Agent總體結(jié)構(gòu)示意圖

借助多個Agent的共同運作，促使知識發(fā)現(xiàn)的流程更為簡潔化，同時也將其有效的結(jié)合成一個整體來進行運作．在整個運作的過程中，無論是系統(tǒng)的智能化表現(xiàn)，還是系統(tǒng)的通用性方面都得到了有效的保障．所以借助這樣的Agent結(jié)構(gòu)，其本身也就成了一個巨大的數(shù)據(jù)庫，所有的數(shù)據(jù)信息都能夠進入到這個庫中，并且遵循統(tǒng)一的數(shù)據(jù)處理模式實現(xiàn)知識的最終發(fā)現(xiàn)．

4 總結(jié)

在當(dāng)前時代背景下，借助文獻檢索技術(shù)來促進圖書館數(shù)字資源建設(shè)是一種趨勢，同時依靠高水平的數(shù)字資源提高文獻檢索教學(xué)質(zhì)量是非常有效的方式．因此，非常有必要對當(dāng)前重要的文獻檢索技術(shù)進行全面了解掌握．只有廣泛的運用檢索技術(shù)，才能有效提高電子資源建設(shè)水平和文獻檢索教學(xué)質(zhì)量，才能促進學(xué)生信息素養(yǎng)的培育．

［1］劉博曉．基于引用關(guān)系和聚類分析的文獻檢索優(yōu)化研究［J］．情報理論與實踐，2012，(6):102－104．

［2］戴東波，印鑒．結(jié)合使用挖掘和內(nèi)容挖掘的web推薦服務(wù)［J］．計算機工程與應(yīng)用，2005，(18):162－165．

［3］睢重星．計算機情報檢索的軟件［J］．電子技術(shù)，2009，(3):23－25．

［4］周智佑．科技情報檢索的理論與實踐［J］．情報科學(xué)，2007，(2):39－42．

［5］白光武．國外科技文獻檢索刊物情況［J］．情報科學(xué)，2011，(3):28－40．

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡