余 春
(武漢大學(xué)信息管理學(xué)院,湖北 武漢 430072)
開放存取運(yùn)動倡導(dǎo)學(xué)術(shù)資源的公開獲取,促進(jìn)學(xué)術(shù)信息的無障礙交流,吸引了越來越多學(xué)者、組織機(jī)構(gòu)參與其中,涌現(xiàn)出巨量的開放存取資源。除了人們熟悉的開放存取期刊外,還有一種重要的類型,就是開放存取倉儲(簡稱OA倉儲)。OA倉儲包括學(xué)科OA倉儲和機(jī)構(gòu)OA倉儲,前者是以某一學(xué)科或多學(xué)科為主題來搜集組織數(shù)字化的學(xué)術(shù)成果,為科研人員參與學(xué)術(shù)交流提供方便快捷的平臺,提供及時發(fā)表成果和新觀點的有效渠道;后者是依附于特定機(jī)構(gòu),搜集、組織、保存、維護(hù)、更新該機(jī)構(gòu)及其社群成員所產(chǎn)生的學(xué)術(shù)成果、科學(xué)數(shù)據(jù)和其他資料,以機(jī)構(gòu)為單位參與學(xué)術(shù)交流,展示其學(xué)術(shù)成果,提升機(jī)構(gòu)的學(xué)術(shù)地位[1]。
OA倉儲近年來得到快速發(fā)展。有研究者在2007年10月14日通過開放存取倉儲目錄OpenDOAR檢索到928個OA倉儲[1],而筆者在2010年7月4日利用OpenDOAR檢索到的OA倉儲總數(shù)為1696個,在不到3年的時間里,增加了73%。建立倉儲的目的在于與外界進(jìn)行學(xué)術(shù)交流,如何才能讓這些倉儲在浩瀚的信息海洋中不會成為一個個的信息孤島?如何提高OA倉儲的影響力?這就需要加強(qiáng)OA倉儲的互操作性?;ゲ僮餍允莾蓚€或多個系統(tǒng)或組件之間交換信息并使用這些被交換信息的能力,它使得用戶不需要學(xué)習(xí)或了解各種專業(yè)軟件、操作系統(tǒng)、操作界面,就能獲取并使用可互操作的不同系統(tǒng)中的信息,使信息交流變得高效且輕松。OA倉儲發(fā)展其互操作性,不僅使世界各地的用戶都能查詢、獲取倉儲中的文檔,還能同時保持自己獨特的品牌效應(yīng),令倉儲更加開放,使倉儲中信息內(nèi)容的價值得到最大化。
在當(dāng)今的信息環(huán)境里,搜索引擎和其他數(shù)據(jù)發(fā)現(xiàn)工具成為人們查詢、獲取信息的最主要手段。OCLC曾調(diào)查發(fā)現(xiàn),84%的信息查詢用戶是依靠搜索引擎來獲取信息的,其中90%的人對結(jié)果感到滿意[2]。也有研究者提出,OA倉儲的互操作性就是倉儲系統(tǒng)為人們提供通過多種搜索引擎和數(shù)據(jù)發(fā)現(xiàn)工具獲取倉儲內(nèi)容的能力[3]。
截至2010年7月13日,有關(guān)圖書館與信息科學(xué)的OA倉儲已有56個,收錄條目數(shù)萬條,它們已成為圖書館與信息科學(xué)研究的重要資源。本研究的目的在于嘗試評價圖書館與信息科學(xué)OA倉儲的互操作性,通過調(diào)查統(tǒng)計主流搜索引擎與數(shù)據(jù)發(fā)現(xiàn)工具收錄圖書館與信息科學(xué)OA倉儲中的資源情況,以期了解這些OA倉儲為人們提供利用多種搜索引擎和數(shù)據(jù)發(fā)現(xiàn)工具獲取倉儲資源的能力及圖情領(lǐng)域OA倉儲重要的查詢、獲取途徑,為圖書信息界相關(guān)人員進(jìn)行研究提供參考。
經(jīng)過文獻(xiàn)檢索,筆者尚未發(fā)現(xiàn)有此類研究的發(fā)表。Markland調(diào)查研究了谷歌搜索引擎對來自英國的機(jī)構(gòu)倉儲文獻(xiàn)資源的檢索效率,發(fā)現(xiàn)谷歌與谷歌學(xué)術(shù)搜索的用戶可以檢索到來自機(jī)構(gòu)倉儲的文獻(xiàn),尤其是在用戶知道文獻(xiàn)全名的情況下[4]。Norris等人使用谷歌、谷歌學(xué)術(shù)搜索、OAIster、Open-DOAR查找同行評議的OA期刊論文,結(jié)果通過谷歌與谷歌學(xué)術(shù)搜索能查詢到大多數(shù)論文,而OAIster、OpenDOAR的查詢結(jié)果則令人失望[5]。Baldwin的研究指出,谷歌學(xué)術(shù)搜索查詢到的工程學(xué)OA論文,有10%~13%來自機(jī)構(gòu)倉儲[6]。
筆者先根據(jù)一定原則在OpenDOAR中選擇5個圖書館與信息科學(xué)的OA倉儲,并在每個倉儲中隨機(jī)選取8篇樣本文獻(xiàn),然后再選擇9種人們常用的、熟悉的搜索引擎與數(shù)據(jù)發(fā)現(xiàn)工具,分別利用這9種工具來檢索先前選取的樣本文獻(xiàn),根據(jù)檢索結(jié)果,分別統(tǒng)計各倉儲的文獻(xiàn)被檢命中率及每種搜索工具的檢索命中率,以此評估圖書館與信息科學(xué)OA倉儲的互操作性,以及查詢獲取這些倉儲資源的主要途徑。整個檢索過程于2010年6月12日至7月13日期間完成。
OpenDOAR由英國的諾丁漢大學(xué)和瑞典的隆德大學(xué)圖書館于2005年2月共同創(chuàng)建,是一個權(quán)威性的OA倉儲目錄,提供高質(zhì)的全世界OA倉儲清單。筆者利用OpenDOAR來選擇“圖書館與信息科學(xué)”學(xué)科領(lǐng)域的OA倉儲(包括學(xué)科資源庫、機(jī)構(gòu)倉儲、政府倉儲等類型)。為了便于研究,并讓研究更具目的性、有意義及同類可比性,設(shè)立以下限制條件:①倉儲使用的語言為英語;②倉儲的主題僅涉及圖書館與信息科學(xué);③倉儲應(yīng)包含至少100個條目。依照上述條件,從OpenDOAR中篩選出5個OA倉儲,見表1。
表1 OpenDOAR中的圖書館信息科學(xué)OA倉儲
搜索引擎已成為人們查詢、獲取信息的最主要工具,有研究者發(fā)現(xiàn)大多數(shù)對倉儲的下載要求是直接來自人們使用的搜索引擎。“搜索引擎觀察(Search engine watch)”是對搜索引擎市場和搜索引擎優(yōu)化的權(quán)威指南,筆者根據(jù)它發(fā)布的報告選擇了7個為人們熟悉、好用的通用搜索引擎。
本研究是針對圖書館與信息科學(xué)領(lǐng)域的OA倉儲與搜索引擎、數(shù)據(jù)發(fā)現(xiàn)工具的互操作性,因此筆者還選擇了OAIster和Scirus這兩種工具。OAIster是描述開放文檔資源的聯(lián)合目錄,它通過獲取那些使用OAI-PMH互操作協(xié)議的數(shù)字資源的元數(shù)據(jù)信息,來提供對那些數(shù)字資源的訪問。到目前為止,它已擁有超過2300萬條描述數(shù)字資源的記錄。Scirus是2001年由愛絲維爾公司(Elsevier)發(fā)起的專業(yè)搜索引擎,它能搜索超過38000萬個學(xué)科專業(yè)的網(wǎng)頁,被譽(yù)為“網(wǎng)絡(luò)最全面的科學(xué)研究工具”。
這樣,就選取了9種搜索引擎和數(shù)據(jù)發(fā)現(xiàn)工具:Google、Yahoo、Baidu、Ask、Allthe web、AOL、Gigablast、OAIster、Scirus。
在被選取的5個倉儲中,所有文獻(xiàn)都能以年份的順序編排、瀏覽。筆者分別在每個倉儲中以隨機(jī)的方式從2009、2008年的文獻(xiàn)中選擇了8篇文獻(xiàn),各年份文獻(xiàn)大致各占一半。
分別用所選的9種搜索工具來檢索隨機(jī)抽取的OA倉儲文獻(xiàn)。采用高級檢索的方式,在檢索框中分別輸入文獻(xiàn)的完整題名和著者名稱進(jìn)行精確檢索,可能會檢出一系列來源不同的與檢索詞完全匹配的文獻(xiàn),但其中只有在信息來源處標(biāo)注的是所選OA倉儲的URL文獻(xiàn)才算是檢索命中結(jié)果。如果沒有出現(xiàn)匹配的檢索結(jié)果,則再采用其他有可能的檢索途徑,以確定檢索結(jié)果。
①這5個OA倉儲中的樣本文獻(xiàn)沒有一個能百分百地被所選擇的搜索引擎或數(shù)據(jù)發(fā)現(xiàn)工具檢索到。被檢命中率最高的是Librarian'sdigitallibrary(65.3%),最低的是E-LIS(19.4%)。5個倉儲的平均被檢中率為51.7%。
② E-LIS倉儲的8篇文獻(xiàn),Scirus都能檢索到,OAIster也能檢出6篇,而其他7個搜索引擎則完全檢索不到。
③ Inform conference proceedings倉儲的被檢中率為50%,Google、Yahoo、Ask能百分百地檢索出它的8篇文獻(xiàn),而Baidu、Gigablast則一篇都檢索不到,OAIster與Scirus均分別檢索到1篇,Alltheweb檢出7篇,AOL檢出3篇。
④ Librarian's digital library倉儲的 8篇文獻(xiàn),Google、Yahoo、Ask、Alltheweb、AOL 等搜索引擎都能全部檢出,只有Scirus、Baidu 一篇都檢索不到,OAIster檢中 5篇,Gigablast檢中兩篇。
表2 檢索命中情況
⑤OCLC Research Publications倉儲的被檢中率為59.7%,Google和AOL能完全檢索出它的8篇文獻(xiàn),而OAIster則一篇都檢索不到,Yahoo檢出7篇,Ask檢中6篇,Allthe web 檢中 5篇,Scirus、Baidu、Gigablast都只檢出 3篇。
⑥SILS Electronic Theses&Dissertations倉儲的被檢中率為63.9%,Google、Yahoo完全檢索出它的8篇文獻(xiàn),而Baidu、Gigablast檢索命中率為零,Ask、Alltheweb、AOL 都檢中了7篇,Scirus檢中了5篇,OAIster檢中了4篇。
①Google位居命中率第一位,除了沒有檢出E-LIS倉儲的樣本文獻(xiàn)外,對其他倉儲的樣本文獻(xiàn)全部檢索命中,總檢索命中率達(dá)到80%。而Baidu的表現(xiàn)有些令人失望,5個倉儲中的樣本文獻(xiàn),它只檢出OCLC Research Publications中的3篇,對其他倉儲的命中率皆為零,以總檢索命中率7.5%列于最末位。其他搜索引擎與數(shù)據(jù)發(fā)現(xiàn)工具的檢索命中情況見表2。
②OAIster是通過獲取那些使用OAI-PMH互操作協(xié)議的數(shù)字資源的元數(shù)據(jù)信息,來提供對那些數(shù)字資源的訪問。在本研究中,采用OAI-PMH協(xié)議的倉儲共有3個:E-LIS、Librarian's digital library、SILS Electronic Theses&Dissertations,OAIster對這3個倉儲的樣本文獻(xiàn)檢出率分別為75%、62.5%、50%,均高于OAIster總檢索命中率40%,也遠(yuǎn)高于它對另兩個倉儲的檢索命中率。Scirus的情況也類似,它對這3個采用OAIPMH協(xié)議的倉儲的檢索命中率平均為54.2%,遠(yuǎn)超它的總檢索命中率和它對另兩個倉儲的檢索命中率。而其他7個搜索引擎則表現(xiàn)相反,由于它們對E-LIS的檢索命中率為0,它們對采用OAI-PMH協(xié)議的倉儲的檢索平均命中率甚至還要低于對另兩個倉儲的檢索平均命中率。
③依據(jù)本研究“檢索方法與檢索結(jié)果的確定”規(guī)定,“沒有檢索命中結(jié)果”可能是有兩種情況,一是檢索出與樣本文獻(xiàn)相一致的文獻(xiàn),但這些文獻(xiàn)的來源并非所選的OA倉儲;二是根本沒有檢索出與樣本文獻(xiàn)相一致的文獻(xiàn)。在實際檢索中,除了Google和Yahoo只出現(xiàn)第一種情況外,其他搜索工具都出現(xiàn)了上述兩種情況。筆者分別以搜索工具和圖書館信息學(xué)OA倉儲為單位,統(tǒng)計了它們發(fā)生上述第二種情況的數(shù)量和比率,分列在表3、表4。
表3 搜索工具未檢出樣本文獻(xiàn)的數(shù)量與比例
表4 圖書館信息科學(xué)OA倉儲未被檢出的樣本文獻(xiàn)數(shù)量與比例
①本研究涉及兩個機(jī)構(gòu)倉儲(OCLC Research Publications、SILS Electronic Theses&Dissertations)和兩個學(xué)科倉儲(ELIS、Librarian's digital library),機(jī)構(gòu)倉儲的樣本文獻(xiàn)平均被檢中率(61.8%)高于學(xué)科倉儲的(42.4%)。這可能是因為機(jī)構(gòu)倉儲是依附于機(jī)構(gòu),以機(jī)構(gòu)為單位組織建設(shè)、參與學(xué)術(shù)交流的,它比學(xué)科倉儲更具有組織嚴(yán)密性,建設(shè)時也更著眼于向外界展示機(jī)構(gòu)的學(xué)術(shù)實力,更趨向于重視互操作性。
②5個倉儲中E-LIS的條目數(shù)量最多(10287條,是其他倉儲條目數(shù)的13~41倍),也采用了OAI-PMH互操作協(xié)議,但是它的樣本文獻(xiàn)被檢中率是最低的,僅19.4%,著實讓人驚訝。聯(lián)系到表4反映的E-LIS未被檢出的樣本文獻(xiàn)占該倉儲總樣本文獻(xiàn)檢索量的比例很低(15.3%),這說明搜索工具其實檢索出很多來自其他信息源的相同文獻(xiàn)。筆者認(rèn)為可能是因為E-LIS收錄來自世界各地圖書館信息學(xué)界作者自行存檔的論文,這些論文中很大部分都是已經(jīng)發(fā)表、出版過的期刊論文、會議文獻(xiàn)、專著摘節(jié)等,在網(wǎng)絡(luò)上的表現(xiàn)就是同一文獻(xiàn)來源復(fù)雜,有很多出處,E-LIS可能就淹沒在這些繁復(fù)的來源出處中了。E-LIS應(yīng)該加強(qiáng)它的互操作性,將它在圖書館信息學(xué)界的影響力對外發(fā)揮。
③撇開E-LIS,另兩個采用OAI-PMH協(xié)議的倉儲(Librarian's digital library、SILS Electronic Theses&Dissertations)的互操作性表現(xiàn)不錯,它們的樣本文獻(xiàn)被檢命中率分列5個倉儲中的第1、2位,說明采用OAI-PMH對于增強(qiáng)倉儲的互操作性還是必要的。
④通用搜索引擎成為圖書館信息科學(xué)OA倉儲內(nèi)容檢索的最主要工具,7個搜索引擎的平均檢中率為54.6%,高于兩個數(shù)據(jù)發(fā)現(xiàn)工具的平均檢中率41.3%。Google、Yahoo、Ask的表現(xiàn)優(yōu)秀,檢索命中率在72.5%~80%,這與其他一些學(xué)者的研究結(jié)果相似。Baidu對圖書館信息科學(xué)OA倉儲內(nèi)容的檢索命中率最低,反映出它的重點始終是在中文信息搜索引擎上,對西文信息的搜索能力較弱。
⑤數(shù)據(jù)發(fā)現(xiàn)工具OAIster、Scirus對采用OAI-PMH的倉儲內(nèi)容檢中率較高,尤其是Scirus對E-LIS的文獻(xiàn)檢中率達(dá)到了100%,表明這兩個工具擁有獨特的專業(yè)優(yōu)勢,可以成為通用搜索引擎的有力補(bǔ)充。
⑥結(jié)合表2與表3分析,可發(fā)現(xiàn)搜索引擎、數(shù)據(jù)發(fā)現(xiàn)工具的“未檢出文獻(xiàn)率”與它的“檢索命中率”有逆相關(guān)的聯(lián)系,搜索工具的檢索命中率越高,其未檢出文獻(xiàn)率越低。Baidu、Gigablast的檢索命中率位于末兩位,而其未檢出文獻(xiàn)率高居第二位(并列),表明這兩個搜索引擎可能不是有效的檢索圖書館信息科學(xué)OA倉儲信息的工具。
⑦圖書館信息科學(xué)OA倉儲的“未被檢出文獻(xiàn)率”越高,說明其收錄的獨特內(nèi)容可能越多,例如Inform conference proceedings倉儲,其“未被檢出文獻(xiàn)率”在5個OA倉儲中高居首位(40.3%),而它收錄的內(nèi)容是專門的會議文獻(xiàn),具有獨特的學(xué)術(shù)價值。像這類倉儲更應(yīng)加強(qiáng)它的互操作性,增強(qiáng)與外界的交流,擴(kuò)大影響力。
由調(diào)查結(jié)果看,圖書館與信息科學(xué)OA倉儲的互操作性不太令人滿意,它們的樣本文獻(xiàn)平均被檢命中率為51.7%,意味著倉儲中將近一半的樣本文獻(xiàn)都不能被搜索工具所發(fā)現(xiàn)。搜索引擎和數(shù)據(jù)發(fā)現(xiàn)工具已成為用戶發(fā)現(xiàn)信息的最主要工具,圖書館與信息科學(xué)OA倉儲的管理者應(yīng)該堅持追隨各種搜索工具的索引編制政策,增強(qiáng)倉儲的互操作性,從而努力使其學(xué)術(shù)影響力最大化。
[1]肖希明.信息資源建設(shè)[M].武漢:武漢大學(xué)出版社,2008:234-236.
[2]王行仁.21世紀(jì)萬維網(wǎng)時代圖書館信息服務(wù)的策略[N].深圳商報,2009-11-19.
[3]Johnson,RK.Institutional repositories:partnering with faculty to enhance scholarly communication[J/OL].D-Lib Magazine,2002(11).http://www.dlib.org/dlib/november02/johnson/11johnson.html.
[4]Markland,M.Institutional repositories in the UK:what can the Google user find there?[J/OL].Journal of Librarianship and Information Science,2006(4):221-228.http://lis.sagepub.com/content/38/4/221.abstract.
[5]Norris,M.,Oppenheim,C.,Rowland,F.Finding open access articles using Google,Google Scholar,OAIster and OpenDOAR[J].Online Information Review,2008(8):709-715.
[6]Baldwin,V.A.Using Google Scholar to search for online availability of a cited article in engineering disciplines[J/OL].Issues in Science and Technology Librarianship,2009(56).http:www.istl.org/09-winter/article1.html.