孫良紅,張玉祥
(山東中醫(yī)藥大學(xué)圖書館,山東 濟(jì)南 250355)
隨著網(wǎng)絡(luò)信息資源的不斷豐富和發(fā)展,網(wǎng)絡(luò)資源越來越呈現(xiàn)出紛擾雜亂的面貌。面對海量的信息資源,為了讓用戶及時(shí)準(zhǔn)確地獲取所需要的信息,網(wǎng)絡(luò)檢索工具應(yīng)運(yùn)而生。經(jīng)過十幾年的發(fā)展,搜索引擎已經(jīng)成為人們獲取網(wǎng)絡(luò)信息資源不可或缺的工具之一。然而,網(wǎng)絡(luò)信息資源的數(shù)量正以幾何級數(shù)級增長,且廣大用戶的需求呈現(xiàn)多樣化的趨勢,簡單的網(wǎng)頁檢索已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足要求。CNNIC《第26次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》指出:從2009年開始,搜索引擎進(jìn)入新一輪的快速發(fā)展時(shí)期,為了滿足用戶的多元需求,進(jìn)一步提升搜索引擎作為互聯(lián)網(wǎng)入口的地位,國內(nèi)各搜索引擎廠商服務(wù)呈現(xiàn)更加多元化趨勢,文檔搜索引擎正是為滿足用戶多元化需求的重要網(wǎng)絡(luò)應(yīng)用之一。
網(wǎng)絡(luò)信息資源以各種形式分布式存儲在網(wǎng)絡(luò)中的各個(gè)分布式數(shù)據(jù)庫中,不僅存儲的信息量龐大,而且存儲格式也多種多樣。網(wǎng)絡(luò)中的文檔信息資源是指以特定的文檔格式分布存儲在網(wǎng)絡(luò)中的特定信息資源,這些資源涉及學(xué)術(shù)論文、會(huì)議報(bào)告、商業(yè)文檔模板、公文模板、教育類資料、法律文件、文學(xué)小說等多個(gè)領(lǐng)域,格式上包括 pdf、doc、xls、ppt、txt等十?dāng)?shù)種。
文檔搜索引擎是指根據(jù)一定的策略,運(yùn)用計(jì)算機(jī)程序搜取網(wǎng)絡(luò)上存在的文檔資源,對文檔信息進(jìn)行組織和處理并將處理的信息顯示給用戶,是一種專門為用戶提供文檔檢索服務(wù)的網(wǎng)絡(luò)系統(tǒng)。雖然文檔搜索引擎發(fā)展時(shí)間不長,但是國內(nèi)外已有很多專門用于文檔檢索的引擎,見表1。
表1 國內(nèi)外主要的文檔搜索引擎列表
文檔搜索引擎檢索的對象為網(wǎng)絡(luò)中廣泛存在的、大量的文檔資源,和學(xué)術(shù)搜索引擎的不同表現(xiàn)在:這些文檔資源大部分來自網(wǎng)絡(luò)用戶的上傳,在網(wǎng)絡(luò)中可以開放獲取,存儲文檔的格式更加豐富多樣;從文檔內(nèi)容上看,文檔搜索引擎是為了滿足用戶的實(shí)際需要,它不僅包括部分學(xué)術(shù)資源,還包括如商業(yè)模板、公文模板以及文學(xué)作品等實(shí)用性很強(qiáng)的文檔資源。文檔搜索引擎和商業(yè)數(shù)據(jù)庫相比,它的優(yōu)勢表現(xiàn)在其大部分文檔資源都可以免費(fèi)獲取。文檔搜索引擎不需要獨(dú)立開發(fā)網(wǎng)絡(luò)資源,只是提供一個(gè)供用戶共享資源的網(wǎng)絡(luò)平臺,這個(gè)平臺的資源來自用戶,最終受益的也是廣大的網(wǎng)絡(luò)用戶。
在眾多的文檔搜索引擎中,可以根據(jù)系統(tǒng)模式的不同劃分為兩種解決方案:一是獨(dú)立的網(wǎng)絡(luò)文檔存儲和檢索平臺,如百度文庫、豆丁和 Docstoc等;二是強(qiáng)化傳統(tǒng)搜索引擎的文檔檢索功能,為用戶提供專用的文檔檢索接口,如 DcoJax、Brupt等。
獨(dú)立的文檔檢索系統(tǒng)的優(yōu)點(diǎn)是不依賴傳統(tǒng)搜索引擎,作為一個(gè)獨(dú)立的網(wǎng)絡(luò)檢索平臺可以很好地融合Web 2.0的相關(guān)技術(shù),實(shí)現(xiàn)搜索引擎的多種個(gè)性化功能。缺點(diǎn)主要是:文檔資源主要來源于網(wǎng)絡(luò)用戶的貢獻(xiàn),文檔的質(zhì)量良莠不齊,而且存在大量的重復(fù)。為方便用戶檢索,文檔搜索引擎要做的主要是對這些文檔進(jìn)行組織和分類。這類文檔搜索引擎的發(fā)展主要依靠吸引網(wǎng)絡(luò)用戶的數(shù)量,利用網(wǎng)絡(luò)效應(yīng)來實(shí)現(xiàn)其價(jià)值,所以網(wǎng)絡(luò)用戶的數(shù)量成為其發(fā)展的重要決定因素。為了解決這一問題,很多文檔搜索引擎通過模仿電子商務(wù)嵌入文檔營銷模式來吸引網(wǎng)絡(luò)用戶的關(guān)注。因此,獨(dú)立的網(wǎng)絡(luò)文檔搜索引擎可以分為兩類:共享理念的文檔搜索引擎和嵌入營銷模式的文檔搜索引擎。
2.1.1 共享理念的文檔搜索引擎。免費(fèi)的搜索引擎和傳統(tǒng)的搜索引擎一樣,普通用戶使用它不需要任何費(fèi)用。其特點(diǎn)就是為網(wǎng)絡(luò)用戶提供免費(fèi)文檔共享的平臺,用戶通過匿名訪問或注冊用戶登錄的方式檢索和獲取平臺中的文檔資源。這類文檔搜索引擎的典型是百度文庫。
百度文庫是一個(gè)開放的共享平臺,用戶通過注冊一個(gè)百度文庫的賬戶,登錄系統(tǒng)后就可以在線瀏覽、上傳和下載文檔。用戶通過上傳文檔可以獲得平臺虛擬積分獎(jiǎng)勵(lì),用于下載自己需要的文檔。免費(fèi)文檔可以登錄后下載,對于上傳用戶已標(biāo)價(jià)的文檔,下載時(shí)需要付出虛擬積分。百度文庫的文檔主要來自用戶上傳,百度本身不參與編輯或修改用戶上傳文檔的內(nèi)容,但是對用戶上傳的文檔需要通過系統(tǒng)的審核。
2.1.2 嵌入營銷模式的文檔搜索引擎。一些文檔搜索引擎模仿電子商務(wù)網(wǎng)站的模式,通過嵌入營銷模式來吸引更多用戶。用戶利用這個(gè)網(wǎng)絡(luò)平臺來出售自己的文檔而獲得銷售收入。這類型文檔搜索引擎的典型是豆丁網(wǎng)和Docstoc。
(1)豆丁網(wǎng)是全球優(yōu)秀的C2C文檔銷售與分享社區(qū)。和典型的搜索引擎不同,豆丁網(wǎng)更像一個(gè)Web 2.0下的網(wǎng)絡(luò)社區(qū),在這個(gè)社區(qū)里可以搜索教育資料、論文課件、學(xué)術(shù)報(bào)告、財(cái)經(jīng)分析、原創(chuàng)文學(xué)等相關(guān)資料。豆丁網(wǎng)的特點(diǎn)是引入了網(wǎng)絡(luò)營銷的概念,首次在文檔分享社區(qū)中融入了基于C2C理念的文檔銷售模式。借助豆丁可以對自己的文檔進(jìn)行定價(jià),交易成功后,豆丁網(wǎng)收取固定比例的傭金。
(2)Docstoc是一款優(yōu)秀的社會(huì)性文檔分享以及閱讀的網(wǎng)絡(luò)服務(wù)系統(tǒng),為用戶提供了在線存儲、分享以及交流文檔的互聯(lián)網(wǎng)服務(wù)。Docstoc包括有法律、商業(yè)、財(cái)經(jīng)、技術(shù)、教育等各式各樣的文檔資源。Docstoc通過DocCash功能來實(shí)現(xiàn)對網(wǎng)絡(luò)文檔的銷售和管理。DocCash是國外一家可以讓用戶通過分享各類文檔資源并結(jié)合Goolge Adsense賬號賺錢的服務(wù)機(jī)構(gòu),它支持無限的存儲空間和代碼調(diào)用,是Adsense第三方合作機(jī)構(gòu),可以通過它申請賬號。用戶每上傳一個(gè)文檔,都會(huì)有一個(gè)獨(dú)立的包含此文檔的頁面,在這個(gè)文檔的上面與下面會(huì)顯示Adsense的廣告,如果有人點(diǎn)擊所產(chǎn)生廣告費(fèi),DocCash會(huì)收取50%作為傭金。
傳統(tǒng)搜索引擎經(jīng)過許多年的發(fā)展,已經(jīng)積累了極其豐富的網(wǎng)絡(luò)資源,為了滿足用戶對網(wǎng)絡(luò)中文檔資源的檢索需求,很多綜合性搜索引擎推出了對文檔資源檢索的專用檢索工具。通常情況下,綜合性搜索引擎會(huì)提供一個(gè)簡潔的搜索入口或獨(dú)立的檢索界面,用來區(qū)別傳統(tǒng)的搜索引擎。這類型的文檔搜索引擎主要有DocJax和Brupt。
(1)DocJax并不是真正獨(dú)立的搜索引擎,它的搜索結(jié)果大多數(shù)都是來自Google、Yahoo和Bing等。DocJax是以英文為主要語言的網(wǎng)站,DocJax除了支持英文,也支持多國語系,包括簡體中文、繁體中文或日文都可以正確檢索。它采用Web2.0服務(wù)形式,支持搜索結(jié)果格式過濾,用戶可以從搜索結(jié)果中挑選自己想要的文件格式,并且搜索的文件可以免費(fèi)下載。
(2)Brupt是Google的一個(gè)自定義搜索引擎,和通過Google高級搜索的結(jié)果是一致的,可以搜索pdf、doc、ppt、xls等格式的文檔,支持中文搜索。搜索的結(jié)果除了顯示相關(guān)文檔的摘要,還支持HTML瀏覽。
文檔搜索引擎具有Web 2.0應(yīng)用系統(tǒng)的典型特點(diǎn),這些特點(diǎn)表現(xiàn)在文檔搜索引擎能夠提供給用戶更加多樣的檢索功能,這些新的檢索功能給用戶檢索帶來了新的體驗(yàn)。以下選取百度文庫、豆丁網(wǎng)、Docstoc、Scribd、Brupt和 DocJax 六個(gè)典型的文檔搜索引擎,對主要檢索功能做比較,并分析所提供個(gè)性化功能的差異,見表2。
表2 文檔搜索引擎的檢索功能比較
通過表2可以看到,為了滿足用戶的檢索需求,各個(gè)文檔搜索引擎提供了豐富多樣的檢索功能。相對于綜合性搜索引擎開發(fā)的文檔檢索工具相比,獨(dú)立的文檔搜索引擎提供了更加豐富多樣的檢索功能。
(1)在檢索模式上,所有搜索引擎均支持關(guān)鍵字檢索,獨(dú)立的文檔搜索引擎還支持目錄式檢索模式,網(wǎng)絡(luò)文檔檢索工具來源于綜合性搜索引擎,主要給用戶帶來對其自身文檔資源檢索的便利性,例如DocJax是谷歌和雅虎合作而開發(fā)的一種檢索應(yīng)用系統(tǒng),主要體現(xiàn)在應(yīng)用簡潔方面,只支持關(guān)鍵字檢索模式,而不具備一系列的個(gè)性化設(shè)置功能。
獨(dú)立的文檔搜索引擎還支持二次檢索和精確匹配檢索。例如百度文庫支持二次檢索,在初次檢索之后,用戶可以根據(jù)文檔的“相關(guān)性”“最多下載”和“最新上傳”對檢索結(jié)果進(jìn)行二次排序,從而使用戶獲得更加符合需求的結(jié)果;同樣Docstoc也支持二次檢索,在初次檢索后,用戶可以根據(jù)文檔格式、分類、語言等限制條件進(jìn)行二次檢索,而且Docstoc還支持精確匹配檢索,例如用戶可以只檢索文檔的標(biāo)題和精確匹配用戶輸入的檢索關(guān)鍵字進(jìn)行精確檢索。
(2)在檢索內(nèi)容上,各個(gè)文檔搜索引擎都支持對標(biāo)題和具體格式的檢索。文檔搜索引擎根據(jù)各自開發(fā)的文檔閱讀器,可以在閱讀的時(shí)候擺脫具體文檔格式的限制,不管是pdf還是Office軟件中的各種格式都可以通過這一通用的閱讀平臺來展現(xiàn)給用戶。而且獨(dú)立的閱讀器還可以提供縮放、文檔內(nèi)檢索、全屏閱讀等功能,給用戶帶來了新的閱讀體驗(yàn)。
(3)在檢索的文件格式上,所有的文檔搜索引擎基本上都支持pdf、doc、xls和ppt等主流文檔存儲的格式,并全部支持全文在線瀏覽。
(4)在支持的語言上,由于文檔搜索引擎處于初步發(fā)展階段,國內(nèi)的主要支持中文,而國外的也主要支持英文,對中文的支持程度還有一定的欠缺。這一點(diǎn)在獨(dú)立的文檔搜索引擎中表現(xiàn)尤為明顯。在國外的文檔搜索引擎中,只有Docstoc可以很好地支持多國語言,除了對英文和中文的支持,還支持德語、俄語等多種語言。而由綜合性搜索引擎發(fā)展而來的文檔檢索工具,對多國語言的支持度比獨(dú)立的搜索引擎要好得多。例如DocJax能夠支持多國語言,其文檔來自全球各地,對各國語言的支持也就順其自然了。
通過表3可以看到,獨(dú)立的文檔搜索引擎能夠提供更加多樣的個(gè)性化檢索功能。這些個(gè)性化的檢索功能主要通過加入RSS、標(biāo)簽、API和Digg等技術(shù)來實(shí)現(xiàn)。書簽和RSS是Web2.0環(huán)境下重要的應(yīng)用,大部分文檔搜索引擎均支持書簽功能,用戶通過書簽可以在線編輯和管理各種文檔,從而有利于對文檔的二次檢索。API是指應(yīng)用程序編程接口,通過這個(gè)應(yīng)用用戶可以把從文檔搜索引擎中檢索的文檔鏈接到自己的博客或者網(wǎng)頁中,利用該項(xiàng)設(shè)置用戶可以及時(shí)分享和保存自己感興趣的文檔,為二次檢索帶來了極大的方便。
表3 文檔搜索引擎的個(gè)性化檢索功能
在共享和傳播方面,獨(dú)立的文檔搜索引擎擁有廣泛的用戶基礎(chǔ)和合作網(wǎng)站,用戶可以很方便地把相關(guān)文檔分享到自己的個(gè)性化空間中。例如豆丁網(wǎng)則可以將自己滿意的文檔隨時(shí)共享到人人網(wǎng)等SNS網(wǎng)絡(luò)中,Scribd的用戶可以及時(shí)將文檔發(fā)布到Twitter或者Facebook上,而Docstoc利用其API技術(shù)還可以將文檔嵌套到個(gè)人博客或網(wǎng)站中。由綜合性搜索引擎提供的文檔檢索工具則不具備這一系列的個(gè)性化功能。
隨著網(wǎng)絡(luò)新技術(shù)的不斷發(fā)展,技術(shù)的革新是搜索引擎發(fā)展的主要推動(dòng)力之一。搜索引擎越來越貼近人們的具體需求,文檔搜索引擎正是結(jié)合Web 2.0技術(shù)新的互聯(lián)網(wǎng)應(yīng)用系統(tǒng)之一。由于網(wǎng)絡(luò)新技術(shù)和文檔搜索引擎的兼容和融合,文檔搜索引擎發(fā)展的呈現(xiàn)出檢索功能多樣化、個(gè)性化、運(yùn)營商業(yè)化和系統(tǒng)社會(huì)化等趨勢。
Web 2.0技術(shù)在文檔搜索引擎中廣泛應(yīng)用,書簽、API、RSS等技術(shù)在文檔搜索引擎中得到應(yīng)用,體現(xiàn)了Web 2.0時(shí)代網(wǎng)絡(luò)交互性的特點(diǎn),為真正意義上的數(shù)字圖書館的發(fā)展帶來了新的活力,個(gè)性化的檢索服務(wù)使得文檔搜索引擎更能滿足普通用戶的個(gè)性化的需求。
從網(wǎng)絡(luò)文檔的來源來看,大多數(shù)文檔來自網(wǎng)絡(luò)用戶的上傳,由于文檔涉及版權(quán)問題,商業(yè)化是文檔搜索引擎發(fā)展必然的趨勢。既有熱心網(wǎng)絡(luò)用戶貢獻(xiàn)的文檔,也有商業(yè)機(jī)構(gòu)等提供的文檔,勢必會(huì)出現(xiàn)共享和商業(yè)共存的模式。在這樣的商業(yè)模式中收入主要有兩個(gè)來源:植入廣告獲得收益和出售文檔帶來的收益。
文檔搜索引擎的融合性,勢必會(huì)使更多的人參與到文檔共享平臺中來。根據(jù)Alexa排名,文檔搜索引擎的訪問量正在逐步上升,已經(jīng)成為網(wǎng)絡(luò)社會(huì)化的一個(gè)重要的組成部分,吸引了大量的用戶。在網(wǎng)絡(luò)時(shí)代里,用戶才是網(wǎng)絡(luò)存在的根本出發(fā)點(diǎn)和落腳點(diǎn),文檔搜索引擎的社會(huì)化趨勢將會(huì)越來越明顯。
將來搜索引擎的發(fā)展趨勢就是向著精確性、專業(yè)化、智能化、個(gè)性化以及交叉語言檢索方向發(fā)展,文檔搜索引擎尚處于發(fā)展的初級階段,很多文檔搜索引擎僅僅是綜合性搜索引擎某些功能的強(qiáng)化,專用的文檔搜索引擎能夠提供更加多樣化的檢索功能,但是對多國語言的支持和如何吸引更多的用戶參與是其發(fā)展所面臨的困難。面對日益復(fù)雜的數(shù)字版權(quán)保護(hù)問題,也是文檔搜索引擎發(fā)展過程中不得不考慮的問題,如何規(guī)避風(fēng)險(xiǎn)又確保人類文化知識的共享和傳播,需要找到一種切實(shí)可行的辦法。盡管問題不少,但是專用的文檔搜索引擎必然會(huì)給用戶帶來全新的體驗(yàn)。
[1]CNNIC.中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].2010:24.
[2]百度文庫[EB/OL].[2013-06-26].http://wenku.baidu.com.
[3]豆丁網(wǎng)[EB/OL].[2013 -06 -26].http://www.docin.com.
[4]Docstoc[EB/OL].[2013 - 06 - 26].http://www.docstoc.com.
[5]DocJax[EB/OL].[2013 -06 -26].http://docjax.net.
[6]Brupt[EB/OL].[2013 - 06 - 26].http://www.brupt.com/.
[7]Scirbd[EB/OL].[2013 - 06 - 26].http://www.scribd.com.