王東波 曲阜師范大學(xué)圖書館 273165
基于新網(wǎng)絡(luò)的文獻信息資源檢索技術(shù)和方法
王東波 曲阜師范大學(xué)圖書館 273165
網(wǎng)絡(luò)信息組織模式已從Web1.0步入Web2.0,正在向Web3.0轉(zhuǎn)型?;谶@種新網(wǎng)絡(luò)的文獻信息資源是當今社會最重要的信息資源。人們在運用新網(wǎng)絡(luò)文獻信息資源改善知識結(jié)構(gòu),完成學(xué)業(yè)、科研,提高綜合素養(yǎng),提升工作能力的同時,又不得不為如何獲取新網(wǎng)絡(luò)環(huán)境下文獻信息資源的最佳途徑而苦惱?;诖?,本文對新網(wǎng)絡(luò)環(huán)境下文獻信息資源的檢索技術(shù)、檢索方法和檢索途徑等進行了較系統(tǒng)的梳理、研究和揭示,并給出了比較好的解決方案和策略。
新網(wǎng)絡(luò);文獻信息資源;檢索技術(shù);檢索方法;檢索系統(tǒng)
文獻信息資源檢索技術(shù)是指人們?yōu)樘幚斫鉀Q面臨的各種問題而查找、識別、獲取相關(guān)的事實、數(shù)據(jù)、知識等過程中運用的各種技術(shù),也是利用現(xiàn)代信息資源檢索平臺如門戶網(wǎng)站、大型數(shù)據(jù)庫系統(tǒng)、隨書光盤系統(tǒng)、視頻VOD點播系統(tǒng)、各類課件等檢索有關(guān)文獻信息資源而采用的相關(guān)技術(shù)。
現(xiàn)在,隨著網(wǎng)絡(luò)信息組織模式已從Web1.0步入Web2.0,正在向Web3.0轉(zhuǎn)型,文獻信息資源檢索技術(shù)也不斷向兩大方向發(fā)展和延伸:一是傳統(tǒng)文獻信息資源檢索向全文文本、多媒體、超媒體、多載體、多原理等新型文獻信息資源檢索的發(fā)展,在深度上提高管理和組織文獻信息資源的能力,如探索自動抽詞、自動索引、自動翻譯、智能搜索等;二是文獻信息資源的網(wǎng)絡(luò)化和分布化,面向Internet中浩瀚無垠的資源,在廣度上提高管理和組織文獻信息資源的能力。在信息資源檢索技術(shù)研究領(lǐng)域中,基于概念、超文本信息和多媒體信息檢索技術(shù)已取得了突破性發(fā)展。未來,多媒體文獻信息資源檢索、可視化檢索、基于網(wǎng)格的檢索、語義檢索等將是網(wǎng)絡(luò)文獻信息資源檢索研究發(fā)展的重點。
1.2.1 文獻信息資源檢索語言
文獻信息資源檢索語言也稱檢索標識語言,是根據(jù)人們的檢索需要而創(chuàng)制的,其實質(zhì)是表達一系列概括文獻內(nèi)容的概念及其相互關(guān)系的概念標志系統(tǒng)。當前,文獻信息資源檢索系統(tǒng)主要涉及的語言為主題語言、分類語言、代碼語言、引文語言等。
新網(wǎng)絡(luò)環(huán)境下,檢索語言被廣泛應(yīng)用,幾乎每個搜索引擎都具備語言檢索功能。語言還在網(wǎng)絡(luò)目錄、元數(shù)據(jù)、數(shù)據(jù)庫檢索系統(tǒng)中有廣泛應(yīng)用。世界知名的Google就是因開發(fā)使用了基于引文索引語言的檢索結(jié)果組織技術(shù)而蜚聲世界的。將來的語義網(wǎng),使得網(wǎng)中的所有信息都具有語義,可以實現(xiàn)機器可識別語義的數(shù)據(jù)的自動存取和利用,能實現(xiàn)信息的跨平臺、跨語種的聚合,它將會使人類從搜索相關(guān)網(wǎng)頁的繁重勞動中解放出來。網(wǎng)中的計算機能利用自己的智能軟件,在搜索數(shù)以萬計的網(wǎng)頁時,通過“智能代理”從中篩選出相關(guān)的有用信息,而不像現(xiàn)在的萬維網(wǎng)只給你羅列出數(shù)以萬計的搜索結(jié)果。
1.2.2 文獻信息資源檢索工具
文獻信息資源檢索工具是用于報道、存儲和查找文獻信息資源的一切工具與設(shè)備。它以各種類型的原始文獻為素材,在廣泛收集、篩選、分析的基礎(chǔ)上,用選定的檢索語言進行描述和標引,并按特定規(guī)則組織編排而成的多次文獻資源?,F(xiàn)在文獻信息資源檢索工具品類繁多,主要按檢索手段、載體形態(tài)、收錄范圍、著錄對象、著錄方式、出版形式等劃分。
未來,依靠Mashup技術(shù)對用戶生成的內(nèi)容信息及其精確闡明信息內(nèi)容特征的標簽進行整合,進一步提高信息描述的精確度,使得內(nèi)容信息的特征更加明顯,便于用戶的有效檢索利用。運用UGC(user generated content:用戶生產(chǎn)內(nèi)容)的篩選性過濾技術(shù)對各種信息進行的篩選,可將可信度高的信息向前排,也利于信息檢索的質(zhì)量。TAG/ONTO/RSS基礎(chǔ)聚合設(shè)施及漸進式語義網(wǎng)的發(fā)展將為Web構(gòu)建完整的內(nèi)容聚合與應(yīng)用聚合平臺,為用戶提供更加個性化的準確、快捷的搜索引擎。作為對RSS高度整合的Web3.0,搜索也被高度整合,人們只需輸入自己的需求,就可以迅速得到所需信息,甚至一套完整的解決方案。
1.2.3 文獻信息資源檢索系統(tǒng)
基于文本信息的查詢系統(tǒng)如Archie、WAIS、Veronica等,雖然它們使因特網(wǎng)信息服務(wù)的友好性、易用性得以加強,卻提供信息資源范圍有限。而萬維網(wǎng)搜索引擎(SE)如Yahoo、Infoseek、 Lycos等就使網(wǎng)絡(luò)信息獲取方式產(chǎn)生了根本變化,為網(wǎng)絡(luò)信息查詢帶來了生機和活力。SE以超級文本方式提供世界范圍內(nèi)的多媒體信息服務(wù),既包括文本,又包括圖像、影視和聲音信息,徹底改變了過去只靠瀏覽挖掘信息的情況,用戶可以進行目標明確的檢索。SE也有它的局限性,如將信息的收集和查詢截然分開,不能實現(xiàn)真正的概念檢索,對多媒體的檢索也不能令人滿意等。為此,有學(xué)者提出了一種新的網(wǎng)絡(luò)信息服務(wù)模式,這種新模式包括兩個方面:一是面向用戶的個人信息查詢助理(Personal Information Searching Assistant,PISA),另一個是面向主題的主題信息代理(Subject Information Agent,SIA)。[1]
具有很好應(yīng)用前景的語義檢索系統(tǒng),目前雖然還處于發(fā)展初期,但已有不少相關(guān)產(chǎn)品問世。SEMPL是美國佐治亞州大學(xué)建的一個語義Web門戶,它可以查詢文檔內(nèi)容的上下文關(guān)系,注釋W(xué)eb網(wǎng)頁和提供語義相關(guān)內(nèi)容的鏈接,實現(xiàn)了信息間豐富的關(guān)系查詢。Ontoweb是歐盟IST資助創(chuàng)建的一個學(xué)科語義門戶,它實現(xiàn)了門戶間的交流,雖然這種交流在一定程度上還很有限。
當前,我們已步入網(wǎng)絡(luò)化社會、信息化社會,電子信息、數(shù)字信息日益影響著我們的工作和生活。Internet擁有的包括圖書、期刊、報紙、會議資料、文件報告、新聞、專利文獻、標準、圖片資料、產(chǎn)品信息、電子游戲、各種軟件等在內(nèi)的文獻信息資源,是我們獲取所需文獻信息資源的重要來源。學(xué)會共享和快捷檢索利用互聯(lián)網(wǎng)的文獻信息資源,是每個人要熟練掌握的。
目前,Internet文獻信息資源形式主要有:萬維網(wǎng)文獻信息資源、FTP文獻信息資源、TELNET文獻信息資源、USENET文獻信息資源、語義網(wǎng)文獻信息資源等。
2.1.1 萬維網(wǎng)文獻信息資源
萬維網(wǎng)(World Wide Web,縮寫WWW)是歐洲粒子物理研究中心為利用超文本方式傳遞信息而于上世紀90年代初期發(fā)明的,由于它在發(fā)布和瀏覽網(wǎng)頁上的多媒體和超媒體信息時方便、靈活、易用,發(fā)展很快,已成為家喻戶曉的網(wǎng)絡(luò)利用平臺。據(jù)專業(yè)人士統(tǒng)計,WWW信息資源已占Internet網(wǎng)上各種信息資源總量的78.3%。
現(xiàn)在,檢索Internet文獻信息資源的主要工具是搜索引擎,新浪、雅虎中國、搜狐、網(wǎng)易、Google中文、Infoseek、Excite、各類門戶網(wǎng)站等都普遍應(yīng)用了搜索引擎。只要正確輸入查尋詞,就可獲取大量相關(guān)的網(wǎng)絡(luò)資源。這些文獻信息資源很多是免費的,但龐雜、魚目混珠,需要用戶仔細篩選。
2.1.2 語義網(wǎng)資源檢索
作為WWW的擴展,語義網(wǎng)是一種能理解人類語言的智能網(wǎng)絡(luò),它不但能夠理解人類的語言,而且還可以使人與電腦之間的交流變得像人與人之間交流一樣輕松。語義網(wǎng)使得網(wǎng)絡(luò)中的所有信息都具有語義,可以實現(xiàn)機器可識別語義的數(shù)據(jù)的自動存取和利用。在語義網(wǎng)上檢索文獻信息資源,將會把我們從搜索相關(guān)網(wǎng)頁的繁重勞動中解放出來。因為網(wǎng)中的計算機能利用自己的智能軟件,在搜索數(shù)以萬計的網(wǎng)頁時,通過“智能代理”從中篩選出相關(guān)的有用信息。而不像現(xiàn)在的萬維網(wǎng),只給你羅列出數(shù)以萬計的無用搜索結(jié)果。[2]
2.1.3 數(shù)據(jù)庫資源檢索
目前,國內(nèi)外信息服務(wù)機構(gòu)出版了成千上萬的各種類型的數(shù)據(jù)庫資源,這些資源由于數(shù)據(jù)更新快、出版周期短、信息處理方式多、使用方便等優(yōu)點,大受用戶的歡迎。
一些大型數(shù)據(jù)庫,特別是專業(yè)性很強的數(shù)據(jù)庫,研制費用很高,價格昂貴(有些國外數(shù)據(jù)庫年購置費在幾十萬美元),一般用戶是買不起的。這就使得這些數(shù)據(jù)庫資源主要集中在高校、科研院所、大型圖書館等單位,由單位投資買入。數(shù)據(jù)庫商在這些收藏單位設(shè)鏡像點,或通過設(shè)定IP進行遠程訪問。有幸在這些單位進修學(xué)習(xí)或讀學(xué)位的同志,可免費獲得這些資源。不能共享上述資源的用戶,如查檢數(shù)據(jù)庫資源,只能通過購買上機卡或網(wǎng)絡(luò)交費訪問。如果在圖書館等信息服務(wù)單位查尋不到所需的數(shù)據(jù)庫資源,也可通過該單位的館際互借系統(tǒng),獲取別的收藏單位的相關(guān)資源,只是需要辦理相關(guān)手續(xù)并繳費。
2.1.4 文獻信息資源的委托服務(wù)
如果用戶沒有時間,或不方便親自檢索、收集所需的文獻信息資源,可采取委托方式讓信息服務(wù)部門代辦。目前,相關(guān)的服務(wù)項目主要有:
(1)文獻代查、代檢。服務(wù)部門針對各個學(xué)科、各種目的的研究課題,以描述課題的主題詞、關(guān)鍵詞等作為檢索入口,從開題立項、研究中期、直到成果驗收,開展全程的文獻檢索服務(wù)。
(2)定題服務(wù)。服務(wù)部門根據(jù)用戶的學(xué)習(xí)、教學(xué)、科研、工作需要,定期或不定期對某一特定主題進行跟蹤檢索,把經(jīng)過篩選的最新檢索結(jié)果,以書目、索引、全文等方式提供給用戶。或是針對各個學(xué)科、各種項目的研究課題,經(jīng)與用戶協(xié)商從課題前期調(diào)研、開題立項、中期成果、直到成果驗收,開展整個過程的文獻檢索服務(wù)。
(3)科技查新。服務(wù)部門以文獻信息為基礎(chǔ),以文獻檢索和情報調(diào)研為手段,以檢出結(jié)果為依據(jù),通過查新為科研立項,科技成果的鑒定、評估、驗收、獎勵,專利申請等提供客觀依據(jù),也能為科技人員進行研究開發(fā)提供快捷、可靠、豐富的信息。
(4)電子文獻館際互借。服務(wù)部門接受讀者的委托,向國內(nèi)外高校圖書館及文獻情報機構(gòu)請求提供所需的電子文獻。傳遞的文獻類型包括電子版學(xué)術(shù)期刊論文、學(xué)位論文、學(xué)術(shù)著作等。
(5)紙質(zhì)文獻館際互借。服務(wù)部門可幫助用戶向國內(nèi)外的圖書情報機構(gòu)獲取期刊論文、學(xué)位論文、會議論文、科技報告、標準、專利、圖書等文獻資料。傳遞方式包括郵寄、電子郵件等。
現(xiàn)在,文獻信息資源檢索除基于內(nèi)容的多媒體資源檢索如文本資源檢索、圖像資源檢索、音頻資源檢索和視頻資源檢索外,還向基于人工智能的資源檢索發(fā)展。另外,多種類型的資源檢索服務(wù)如公共信息資源檢索服務(wù)、個性化信息資源服務(wù)、特色化信息資源服務(wù)、互動式信息資源服務(wù)、輔助性用戶服務(wù)等也因用戶的需求而不斷涌現(xiàn)。
文獻信息資源的檢索可以利用網(wǎng)絡(luò)信息交流的便利性,借助于以上的服務(wù)模式,以電子郵件、網(wǎng)絡(luò)電話、圖文電視廣播和網(wǎng)上留言薄等方式尋求服務(wù)。人們要特別重視當前信息服務(wù)機構(gòu)如圖書館開展的個性化網(wǎng)絡(luò)服務(wù),借助信息推送服務(wù)(Push)、個性化定制服務(wù)和網(wǎng)上實時服務(wù)獲取需要的文獻信息資源。這些個性化服務(wù)是圖書館等信息服務(wù)部門為適應(yīng)網(wǎng)絡(luò)環(huán)境下用戶的特殊要求,依托新技術(shù)而開展的面向用戶的高層次信息服務(wù),它可以為用戶提供高效、快捷、便利的信息服務(wù),是圖書館信息服務(wù)的發(fā)展方向,是高級的網(wǎng)絡(luò)服務(wù)。[3]
更高形式的文獻信息資源檢索服務(wù)會接踵而來,用戶只要手持帶有Wi-Fi或3G功能的智能終端(智能手機、上網(wǎng)本、MIDT等),人們可以隨時享受以“云計算”為代表的快捷虛擬服務(wù),可以上網(wǎng)查詢文獻信息資源和所需信息,可以擁有個人海量的館藏。三網(wǎng)融合,使網(wǎng)絡(luò)覆蓋所有的城市和鄉(xiāng)村,加速了人間對信息資源的檢索和利用。圖書館也會把內(nèi)容數(shù)據(jù)與個性應(yīng)用緊密結(jié)合起來,把Web技術(shù)與客戶端技術(shù)無縫集成,可以開發(fā)出更“酷炫”、更加方便可用的內(nèi)容展示形式和資源獲取途徑。[4]用戶借助移動網(wǎng)絡(luò)接收圖書館等提供的短信服務(wù)、移動數(shù)字圖書館服務(wù)、手機閱讀服務(wù)、館藏檢索服務(wù)。
[1] 丁蔚,倪波.因特網(wǎng)信息服務(wù)新模式[J].情報理論與實踐.2000(2):132-135
[2] 李玥.擁抱Web3.0[J].中國計算機報.2008年第29期
[3] 喬歡.信息行為學(xué)[M].北京:北京師范大學(xué)出版社.2010:230-232
[4] 朱強等.以開放的心態(tài)迎接新的信息技術(shù)[J].中國圖書館學(xué)報.2010(5):77-94
10.3969/j.issn.1001-8972.2011.07.121
本文系山東省藝術(shù)科學(xué)重點課題“高校文獻信息資源共享網(wǎng)建設(shè)”研究成果之一
王東波,男,1965年生,山東東平人,曲阜師范大學(xué)圖書館研究館員,研究方向為圖書館學(xué)、情報學(xué)。