黃振江
(菏澤醫(yī)學(xué)??茖W(xué)校,山東菏澤274000)
檢索技術(shù)的應(yīng)用是在圖書館建設(shè)發(fā)展過程中對電子資源查詢和整合的重要方式,也是提高學(xué)生信息素養(yǎng)和技能的必要手段.因此,檢索技術(shù)的應(yīng)用是教育界十分關(guān)注的課題.
從目前來看,我國多數(shù)高校圖書館電子資源建設(shè)及其文獻檢索教學(xué)處在一個相對基礎(chǔ)的階段,檢索技術(shù)運用程度還很淺顯,并不能全面滿足用戶的需求.因此,非常有必要對當(dāng)前幾種重要的檢索技術(shù)進行分析探討,以此提升電子資源建設(shè)中檢索技術(shù)運用的程度,從而讓用戶快速有效查詢其所需要的信息,如果高校圖書館想實現(xiàn)這一目標(biāo),首先要對圖書館數(shù)字資源建設(shè)中存在的分布式異構(gòu)存儲問題進行解決.唯有真正的解決了這個問題,才能夠為用戶提供一體化服務(wù)體驗,從而全面滿足用戶的需求.
SFX即通常所說的特效.這是一種新型的數(shù)字資源聚合軟件系統(tǒng).其最早是由比利時的H·薩姆堡爾等人提出.后隨著更多學(xué)者的加入,才實現(xiàn)了該信息系統(tǒng)建設(shè)方面的進一步優(yōu)化.這種技術(shù)的誕生在行業(yè)內(nèi)備受關(guān)注,同時也吸引了諸多數(shù)字圖書館的目光.目前在全球來說,使用這種技術(shù)的用戶已經(jīng)達(dá)到了將近2 000家.
作為一種相對成熟的聚合技術(shù),SFX發(fā)展基于OpenURL協(xié)議展開.借助這個協(xié)議,可以實現(xiàn)將各種復(fù)雜的數(shù)據(jù)進行整合,從而將數(shù)據(jù)的檢索方式統(tǒng)一化[1].用戶在進行資源的使用和處理的過程中可以實現(xiàn)對資源的不同轉(zhuǎn)化.從一種資源轉(zhuǎn)化到另外一種資源.借助這種OpenURL協(xié)議,用戶只需要簡單的幾步處理就能夠?qū)崿F(xiàn)資源的搜索.而OpenURL協(xié)議的優(yōu)勢表現(xiàn)在以下幾個方面:1)OpenURL技術(shù)通過協(xié)議實現(xiàn)數(shù)字資源的無限擴大,任何資源都能夠能夠通過這種方式實現(xiàn)鏈接聚合;2)在進行檢索的過程中,OpenURL協(xié)議的使用可以更好的實現(xiàn)資源間的互補兼容,提升整個信息資源搜索的效率.3)在進行信息資源處理的過程中,運用OpenURL協(xié)議還能夠更好的進行不同的兼容互補,從而更好的實現(xiàn)對元數(shù)據(jù)信息的處理,提升數(shù)據(jù)搜索效果,同時實現(xiàn)鏈接的動態(tài)處理效果.4)在進行信息資源的搜索處理過程中,不需要太多的關(guān)注細(xì)節(jié)方面的內(nèi)容,只需要進行簡單的管理機制的設(shè)置就能夠?qū)崿F(xiàn)數(shù)據(jù)信息的搜集與處理.5)在智能化的實現(xiàn)方面,由最初的可以進行單一的檢索到復(fù)合檢索功能的有效實現(xiàn).用戶在檢索的過程中只需要通過一次檢索,就能檢索出所有與要檢索內(nèi)容相關(guān)的信息.因此在這個背景下,整個檢索技術(shù)的實現(xiàn)更為人性化也更加智能化.
Web Service是源于互聯(lián)網(wǎng)技術(shù)發(fā)展,以分布式為基礎(chǔ)的模塊組建[2].通過技術(shù)的運用,能夠在更多的平臺之間實現(xiàn)良好的信息溝通與互動.其工作的范疇主要是實現(xiàn)不同信息系統(tǒng)間的信息共享.具體來說,其必須通過URL來實現(xiàn)接口的最終發(fā)布,同時在實現(xiàn)的過程中還需要依循一定的行業(yè)技術(shù)標(biāo)準(zhǔn)來實現(xiàn).此外在進行具體操作的過程中,使用Web Service最大的優(yōu)勢在于可以更好的對不同平臺間的差異信息加以融合,從而更好的實現(xiàn)平臺的互通.此外在信息的處理方面也有助于更好的進行數(shù)字信息資源的綜合和協(xié)調(diào),將不同的信息平臺以及不同系統(tǒng)間的信息搜索內(nèi)容加以更為有效的管控,從而實現(xiàn)信息處理的優(yōu)勢化成果.所以Web Service資源的使用,其根本的目的在于將所有的信息處理后通過一個統(tǒng)一的平臺或者是結(jié)構(gòu)形式予以表現(xiàn),從而一方面更好的實現(xiàn)不同資源間的互通,另一方面也有效的提升數(shù)字資源處理以及資源共享的成效.從結(jié)構(gòu)的層面來說,Web Service的結(jié)構(gòu)則是統(tǒng)一的包含了服務(wù)的請求方、提供方以及注冊中心三方面的內(nèi)容.借助這種結(jié)構(gòu)可以更好的實現(xiàn)不同信息間互通有無,同時也實現(xiàn)良好的信息操作與處理功能.在進行該平臺操作過程中,其中還涉及到一些相關(guān)技術(shù)的應(yīng)用,諸如網(wǎng)絡(luò)服務(wù)描述語言,以及聚合技術(shù),等等,這些都是構(gòu)成Web Service順暢運行的重要技術(shù)內(nèi)容.在整個體系底部,最基礎(chǔ)的是數(shù)據(jù)資源信息,而每個數(shù)據(jù)資源之間都是相對獨立的,其進行信息的提供也都是通過相對獨立的數(shù)據(jù)支撐來實現(xiàn)的.而在進行信息檢索實現(xiàn)過程中,本地搜索到的信息就是這些內(nèi)容.除了基礎(chǔ)信息之外,針對于各種不同的數(shù)據(jù)庫信息處理還有一些其它信息資源庫.這些資源庫通過一定的接口與本地信息資源庫相連接,用戶在進行信息搜索過程中可以使用本地系統(tǒng)資源來實現(xiàn)對其它與之相接口數(shù)據(jù)庫信息的讀?。訵eb Service可以實現(xiàn)不同資源間的聚合調(diào)用,可以有效的對圖書館數(shù)據(jù)資源整合及處理.
P2P技術(shù)是隸屬于互聯(lián)網(wǎng)覆蓋層網(wǎng)絡(luò)而存在的.其主要是在信息處理的過程中,通過一定的技術(shù)手段,實現(xiàn)不同的信息主體間對等的信息溝通與交流.在P2P技術(shù)的實現(xiàn)環(huán)境中,任何一臺與之連接的計算機都能夠?qū)崿F(xiàn)信息資源及時有效的共享,而這種信息資源的共享是通過最終技術(shù)支撐來實現(xiàn)的.目前在P2P結(jié)構(gòu)實現(xiàn)的過程中,包含了基本的構(gòu)成結(jié)構(gòu),分別是樹形結(jié)構(gòu)、DHT也稱哈希表結(jié)構(gòu),以及網(wǎng)絡(luò)結(jié)構(gòu).依據(jù)需求的不同,這些結(jié)構(gòu)的具體應(yīng)用也存在一定程度的差異.
P2P技術(shù)分類方式很多,可以是通過中央服務(wù)器建設(shè)與否進行區(qū)分,也可以通過網(wǎng)絡(luò)中存儲內(nèi)容與網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的相關(guān)性進行區(qū)別,同時也可以通過匿名性來進行區(qū)分等.通過這些方式的區(qū)分,最終來對整個P2P技術(shù)實現(xiàn)有層次、有規(guī)則的技術(shù)分類.
Grid技術(shù)又稱作是網(wǎng)格技術(shù),這一技術(shù)的出現(xiàn)是依托于電力網(wǎng)的概念產(chǎn)生的,它是一種相對靈活、多變的信息處理模式.Grid技術(shù)的實現(xiàn)是將所有的計算機通過一個網(wǎng)絡(luò)聯(lián)系在一起,從而實現(xiàn)不同信息技術(shù)的整合,以及資源的有效化利用.在整個過程中,其具有多方面的優(yōu)勢,包含了資源的共享,知識的生產(chǎn),以及開放存儲等多方面的信息[3].
在當(dāng)前學(xué)術(shù)界中,與網(wǎng)格應(yīng)用相關(guān)的內(nèi)容十分豐富,包含了遠(yuǎn)程分布式計算與通信系統(tǒng)和地球系統(tǒng)格網(wǎng)系統(tǒng),此外在地震工程方面還有TeraGrid和國家地震工程仿真格網(wǎng),等等.就我國的現(xiàn)狀來說,主要的Grid技術(shù)落實多是在科研領(lǐng)域以及制造領(lǐng)域等四個領(lǐng)域中進行廣泛的應(yīng)用.同時在數(shù)字圖書館的建設(shè)方面,Grid技術(shù)也有著十分突出的表現(xiàn).諸如信息數(shù)據(jù)的處理,以及共享信息的實現(xiàn)等,通過這種技術(shù)來進行數(shù)字圖書館的建設(shè),對整個數(shù)據(jù)資源的利用和處理都有著十分重要的作用.
我國高校圖書館進行數(shù)字資源建設(shè)必須運用以下幾個方面的文獻檢索技術(shù)才能夠真正滿足用戶需求.
數(shù)據(jù)挖掘階段是整個信息系統(tǒng)運行和實現(xiàn)的核心階段.在這個階段的處理過程中,首先需要確定整個挖掘的目標(biāo)和任務(wù).確立了這些任務(wù)之后,還要進行具體挖掘工作實現(xiàn)的計算方式.在實施的過程中,即便是同樣的一種挖掘工作,其實現(xiàn)方式、計算方式也會有著多種不同的形態(tài).比如在進行數(shù)據(jù)挖掘處理的過程中,包含了兩個基本的要素,一是依據(jù)資源的具體特點來進行處理,依據(jù)資源的具體特點來進行算法的選擇與應(yīng)用;其次是在具體實踐的過程中,也需要用戶的參與.也就是說在處理數(shù)據(jù)的過程中必須要用戶能夠立刻實現(xiàn)的方式來進行計算.通過這種計算導(dǎo)致的結(jié)果也是能夠滿足用戶需求的內(nèi)容.有一部分用戶在使用計算模式的過程中,其目的并非只是得到一個簡單的結(jié)果,更多的是希望獲取更為精準(zhǔn)的預(yù)測內(nèi)容.
在數(shù)據(jù)挖掘的過程中,常說的KDD更多的是指在數(shù)據(jù)中的知識內(nèi)容.也就是用戶在進行信息搜索的過程中,需要從整個的信息資源處理中去發(fā)現(xiàn)信息,從而進行合理化的處理,促使信息的內(nèi)容能夠充分滿足數(shù)據(jù)處理的有用性[4].具體來說,在具體的數(shù)據(jù)處理之前就要進行數(shù)據(jù)挖掘方式的界定,同時依據(jù)這種挖掘方式找尋與之相適應(yīng)的發(fā)現(xiàn)方式.一般說來,在進行數(shù)據(jù)挖掘的過程中,更多的是針對整個項目信息層面內(nèi)容的挖掘,而較少涉及到一些具體圖片信息的挖掘.所以在進行數(shù)據(jù)挖掘的過程中,每個任務(wù)或者模式的實現(xiàn)都必須滿足基本的要求,這樣有助于挖掘更好的實現(xiàn).具體的內(nèi)容如下:
N=﹛X1,X2,···Xn﹜指的是在集合中存在有n個不同的結(jié)點.將其中(Xi,Xj)定義為一條邊,從而在模式的體現(xiàn)中出現(xiàn)了(Pv,PE)其中Pv,PE分別對應(yīng)的是結(jié)點的集合,以及邊的集合.由此可以進行以下公式的計算Pv?N,PE=﹛(Xi,XY)丨Xi,XY∈Pv﹜.但在這個公式中,呈現(xiàn)的不同的元素或者信息之間并沒有一個固定的關(guān)系,所以其集合呈現(xiàn)的僅僅是對定點的展現(xiàn),也就是說Pv=﹛X1,X2,···Xn﹜,PE=φ.那么在這個時候還可以將樹的模式界定成Pv=﹛X1,X2,···Xn﹜.公式中的r指的是根結(jié)點.這個根結(jié)點所需要滿足的基本要求如下:
1)首先根是不存在父結(jié)點的,也就是說?Xi∈Pv,(Xi,r)?PE
2)PE邊存在向,如果說(Xi,Xj)PE是PE的構(gòu)成內(nèi)容之一,其實(Xj,Xi)并非PE的組成元素.
3)任何一個結(jié)點,其相對應(yīng)的父結(jié)點也只有一個.也就是說(Xi,Xj)是PE的一個元素,則(Xi,Xy)不是構(gòu)成元素.
4)從樹的層面來說,樹本身是可連接的.例如在呈現(xiàn)的過程中,所有的Xi?PE,都存在從r到Xi的路徑.
值得一提的是,在進行圖的挖掘過程中,其同時還涉及到環(huán)內(nèi)容的存在.但是在整個樹型結(jié)構(gòu)的挖掘開展過程中則不會有環(huán)的呈現(xiàn).同樣,如果一個模式應(yīng)用起來相對頻繁,相對應(yīng)的子模式也會頻繁.在具體的操作過程中,可以借助以下幾種方式來具體判定子模式的存在.
有兩個模式A和B,假設(shè)二者之間會存在單映射f,且滿足了以下的幾個基本的條件:
1)Xi=f(Xi),點標(biāo)識相同.
2)(Xi,Xj)=(f(Xi),f(Xy)),邊標(biāo)識相同.
3)Xi,Xj∈AV,f(Xi),f(Xj)∈BV,Xi,Xj,f(Xi),f(Xi),分屬兩個模式.
如上所說,就可以認(rèn)為說模式A是B的子模式,標(biāo)注為A≤B.
按照這種分析,Agent完成了數(shù)據(jù)處理之后的信息就可以按照不同的方式來進行進一步的數(shù)據(jù)挖掘.因此從整個形式方面來說,可以認(rèn)為Agent模式是一種通用的形式.
在進行信息數(shù)據(jù)挖掘的過程中,完全智能化的實現(xiàn)還需要時間與技術(shù)的雙重支撐.但是在目前的數(shù)據(jù)挖掘?qū)崿F(xiàn)過程中,其不同的子系統(tǒng)之間是可以通過人機共同來完成信息挖掘的.作為信息處理系統(tǒng)來說,其在運行的過程中必然會涉及到與人的溝通,也就是必須通過人來進行相關(guān)的信息或者命令輸入到系統(tǒng)中才能夠完成信息的處理[5].例如在進行單一信息處理的過程中,用戶須首先要通過Agent來“告訴”系統(tǒng)哪些信息是該用戶偏愛的.系統(tǒng)就會依據(jù)告訴信息來進行信息的挖掘與整合.但是在數(shù)據(jù)挖掘的過程中,同時還必須注意的是信息的處理具有一定的時效性.也就是說很有可能在某一段時間內(nèi),用戶對某些信息的關(guān)注熱點相對較高,但是一段時間之后,用戶的關(guān)注熱度則有可能會被轉(zhuǎn)移到另外的內(nèi)容上去.所以借助人機界面的實現(xiàn),可以避免這種情況的出現(xiàn).通過一定的計算標(biāo)準(zhǔn)來進行熱度信息的抓?。谶M行系統(tǒng)具體的設(shè)置時,從系統(tǒng)的建設(shè)之初就會植入一些信息和指令,用于判別不同信息數(shù)據(jù)的熱度.即便如此,在具體的應(yīng)用過程中也依然會出現(xiàn)很多的問題.以金錢效應(yīng)為例來說,一般說來,在智能的系統(tǒng)方面,智能體所偏好的也往往是較多的金錢,所以在進行信息處理的過程中,可以發(fā)現(xiàn)智能體在對金錢喜好的偏向方面,但其更多的是追求單一數(shù)值大小.
數(shù)據(jù)挖掘階段的模式是經(jīng)過評價得出的最終模式.可能會存在許多陳冗的內(nèi)容,對于這些無法滿足用戶需求的內(nèi)容就要進行合理的處理.一種處理方式是直接進行刪除,還有一種處理方式是進行數(shù)據(jù)的變化.無論是哪種處理方式,其最終的目的都是為了更好的推動數(shù)據(jù)信息挖掘或者處理結(jié)果的彰顯.而且在操作的過程中,由于知識發(fā)現(xiàn)的本身是面向自然人的,所以在進行具體發(fā)現(xiàn)模式的使用方面要進行可視化的處理,也就是說最終的結(jié)果必須是具有一定的效果,而且所呈現(xiàn)的內(nèi)容還必須是以能夠滿足人們的需求來最終呈現(xiàn).具體人機界面的設(shè)置如圖1所示:
圖1 人機界面Agent結(jié)構(gòu)示意圖
在整體的結(jié)構(gòu)實現(xiàn)過程中,數(shù)據(jù)預(yù)處理Agent和人機界面Agent是分屬于兩個不同的架構(gòu).其中數(shù)據(jù)預(yù)處理Agent是隸屬于背景描述的層面,而人機界面Agent則是隸屬于接口的內(nèi)容.所以這兩部分內(nèi)容的存在,一方面促使信息的處理更為便捷,也更加的高效,同時在進行信息處理過程中,其最終所輸出的內(nèi)容也更容易得到廣大用戶的認(rèn)可.一般來說,我們所提到的數(shù)據(jù)信息挖掘系統(tǒng)都是擁有十分龐大的體系,其在進行數(shù)據(jù)處理方面的處理過程也是十分復(fù)雜的.采用多個Agent的模式就能夠有效的解決這種復(fù)雜的信息處理流程.通過多個Agent的實現(xiàn),將一個復(fù)雜的內(nèi)容轉(zhuǎn)變成為多重的信息處理層,從而更好的實現(xiàn)了Agent信息處理的效率.其大致的結(jié)構(gòu)如圖2所示:
圖2 Agent總體結(jié)構(gòu)示意圖
借助多個Agent的共同運作,促使知識發(fā)現(xiàn)的流程更為簡潔化,同時也將其有效的結(jié)合成一個整體來進行運作.在整個運作的過程中,無論是系統(tǒng)的智能化表現(xiàn),還是系統(tǒng)的通用性方面都得到了有效的保障.所以借助這樣的Agent結(jié)構(gòu),其本身也就成了一個巨大的數(shù)據(jù)庫,所有的數(shù)據(jù)信息都能夠進入到這個庫中,并且遵循統(tǒng)一的數(shù)據(jù)處理模式實現(xiàn)知識的最終發(fā)現(xiàn).
在當(dāng)前時代背景下,借助文獻檢索技術(shù)來促進圖書館數(shù)字資源建設(shè)是一種趨勢,同時依靠高水平的數(shù)字資源提高文獻檢索教學(xué)質(zhì)量是非常有效的方式.因此,非常有必要對當(dāng)前重要的文獻檢索技術(shù)進行全面了解掌握.只有廣泛的運用檢索技術(shù),才能有效提高電子資源建設(shè)水平和文獻檢索教學(xué)質(zhì)量,才能促進學(xué)生信息素養(yǎng)的培育.
[1]劉博曉.基于引用關(guān)系和聚類分析的文獻檢索優(yōu)化研究[J].情報理論與實踐,2012,(6):102-104.
[2]戴東波,印鑒.結(jié)合使用挖掘和內(nèi)容挖掘的web推薦服務(wù)[J].計算機工程與應(yīng)用,2005,(18):162-165.
[3]睢重星.計算機情報檢索的軟件[J].電子技術(shù),2009,(3):23-25.
[4]周智佑.科技情報檢索的理論與實踐[J].情報科學(xué),2007,(2):39-42.
[5]白光武.國外科技文獻檢索刊物情況[J].情報科學(xué),2011,(3):28-40.