馬芳珍 李峰 季梵++劉姝++王旭++劉素清
摘要:CALIS論文收錄及引用檢索系統(tǒng)是基于圖書館論文收錄及引用檢索業(yè)務(wù)開發(fā)的一款軟件,具有較強(qiáng)的實(shí)用價值。北京大學(xué)圖書館對該系統(tǒng)進(jìn)行了六輪測試和近半年的試用,得出對該系統(tǒng)的功能評價和核心模塊測試結(jié)果,據(jù)此為系統(tǒng)的進(jìn)一步改進(jìn)提出建議。
關(guān)鍵詞 查收查引 系統(tǒng)測試 系統(tǒng)評價CALIS
分類號G250.7
DOI 10.16603/i.issnl002-1027.2016.02.015
1.背景
查收查引服務(wù)是檢索證明機(jī)構(gòu)根據(jù)委托人提供的已發(fā)表文章的題名、作者、出版時間等信息,檢索文章在參考數(shù)據(jù)庫中的收錄和被引用情況,并出具相應(yīng)的論文收錄及引用報告。目前北京大學(xué)圖書館查收查引服務(wù)的檢索數(shù)據(jù)源包括WOS(Web of Sci-ence)平臺的SCI(Science Citation Index)、SSCI(So-cial Sciences Citation Index)、A&HCI(Art&Hu-manity Citation Index)、CPCI-S(Conference Pro-ceedings Citation Index-Science)和CPCI-SSH(Conference Proceedings Citation Index-Social Sci-enees & Humanities)英文數(shù)據(jù)庫和CSCD(ChineseScience Citation Database,中國科學(xué)引文數(shù)據(jù)庫)、CSSCI(Chinese Social Science Citation Index,中文社會科學(xué)引文索引數(shù)據(jù)庫)。
由于引用者標(biāo)注的引用格式不規(guī)范、數(shù)據(jù)庫誤標(biāo)誤引、作者重名等原因,查收查引工作容易出現(xiàn)漏檢、誤檢、自引誤判等問題,需要檢索人員耗費(fèi)大量時間反復(fù)判斷,也為全自動化的查收查引工作的實(shí)現(xiàn)帶來很大困難,因此許多機(jī)構(gòu)仍采用手工檢索的方式。但手工檢索的人力和時間成本較高,難以滿足委托高峰期的用戶需求。目前已有許多關(guān)于手工檢索技巧、流程規(guī)范等方面的研究文獻(xiàn),也有一些機(jī)構(gòu)開發(fā)了論文查收查引工具。北京大學(xué)圖書館的李曉東、盧振波曾提出通過工具軟件實(shí)現(xiàn)作者論文數(shù)據(jù)的采集、自動檢索和自動下載等功能,但許多功能僅有構(gòu)想框架,并未實(shí)踐。中國科學(xué)院文獻(xiàn)情報中心的查收查引報告自動生成系統(tǒng)基本實(shí)現(xiàn)了英文文獻(xiàn)預(yù)處理一收錄檢索一引用檢索一報告生成功能,但對中文數(shù)據(jù)庫的檢索卻未涉及。山東大學(xué)圖書館的師曉青梳理了高校圖書館查收查引的工作流程,但沒涉及檢索過程的自動化。除了開發(fā)軟件,樊亞芳、陳鍇等提出利用Excel的篩選功能和EndNote Web等文獻(xiàn)管理軟件輔助檢索,改進(jìn)手工檢索和統(tǒng)計流程。
為了提高查收查引的工作效率,實(shí)現(xiàn)工作智能化,CALIS技術(shù)中心與北京大學(xué)圖書館聯(lián)合開發(fā)了CALIS論文收錄及引用檢索系統(tǒng)(以下簡稱查收引系統(tǒng))。系統(tǒng)開發(fā)完成后,接到許多同行的咨詢,為更好地分享使用經(jīng)驗(yàn),本文從工作流程、基本功能和檢索結(jié)果等層面來論述系統(tǒng)的評測結(jié)果。
2.查收引系統(tǒng)的功能測評
北京大學(xué)圖書館信息咨詢部于2014年11月至2015年4月進(jìn)行了查收引系統(tǒng)的測試和試運(yùn)行,共完成428個委托單、10517篇文獻(xiàn)的檢索,具體檢索情況見表1。
在試運(yùn)行過程中主要對系統(tǒng)的基本功能和流程、文獻(xiàn)檢索準(zhǔn)確性這兩項(xiàng)內(nèi)容進(jìn)行了重點(diǎn)測試和驗(yàn)證。
2.1查收引系統(tǒng)的基本功能和流程使用評測
在手工環(huán)境中,查收引服務(wù)主要分為10個步驟(見圖1)。查收引系統(tǒng)完全實(shí)現(xiàn)對步驟3-8和步驟10的管理,步驟1、2、9目前仍然采用傳統(tǒng)方式,準(zhǔn)備在系統(tǒng)升級版中實(shí)現(xiàn)相關(guān)功能。
經(jīng)過六輪測試和系統(tǒng)改進(jìn),查收引系統(tǒng)在功能上能夠完成對查收查引業(yè)務(wù)的規(guī)范管理的需求,流程控制順暢,操作步驟簡單。查收引系統(tǒng)的主操作界面見圖2。
對查收引系統(tǒng)的功能和流程管理的試用主要考察三個方面:正確性、易用性和可靠性。正確性是指能夠正確完成指令;易用性是指操作便利流暢;可靠性是指控制有效,能處理錯誤操作,有回滾機(jī)制等。試用結(jié)果顯示,查收引系統(tǒng)的各模塊均滿足正確性和可靠性要求,表2為對各模塊功能的易用性評價。
2.2對查收引系統(tǒng)功能的測評
2.2.1對英文數(shù)據(jù)庫的查收引功能測評
查收引系統(tǒng)支持在WOS核心庫和EI數(shù)據(jù)庫的論文檢索功能,包括SCI、SSCI、AHCI、CPCI-SCPCI-SSH和EI數(shù)據(jù)庫的收錄檢索,以及SCI、SS-CI、AHCI數(shù)據(jù)庫的引用檢索。
(1)對英文數(shù)據(jù)庫的查收錄功能測評。
查收引系統(tǒng)的收錄檢索包括兩部分:一是查詢委托文獻(xiàn)是否被目標(biāo)數(shù)據(jù)庫收錄,二是對檢索到收錄的文獻(xiàn),從數(shù)據(jù)庫中獲取規(guī)范信息并自動更新到系統(tǒng)中。
系統(tǒng)抽取文獻(xiàn)的作者、題名、刊名、發(fā)表年份等信息字段,使用預(yù)設(shè)的檢索策略對文獻(xiàn)逐條檢索,如果命中記錄則終止檢索。系統(tǒng)再根據(jù)匹配策略判斷命中記錄為完全匹配或疑似匹配。有疑似匹配時,系統(tǒng)將提示工作人員進(jìn)行人工確認(rèn)。
對于正確規(guī)范的論文清單,系統(tǒng)檢索結(jié)果的正確率接近100%;對于部分信息有誤的論文清單或缺失信息較多時,系統(tǒng)會出現(xiàn)未檢索到等問題。表3即為系統(tǒng)檢索英文文獻(xiàn)的測試結(jié)果。
表3中“人工再確認(rèn)”是指檢索結(jié)果與原文獻(xiàn)清單有部分不一致,或原論文清單信息缺失,系統(tǒng)無法判斷,需要人工干預(yù)。由于系統(tǒng)在匹配策略中設(shè)置了合理的容錯機(jī)制,因此即使論文信息不完全準(zhǔn)確,仍可在不需要人工干預(yù)的情況下準(zhǔn)確命中大多數(shù)記錄。同時系統(tǒng)設(shè)計了便利人工干預(yù),因此館員可以輕松地在系統(tǒng)提供的近似結(jié)果中進(jìn)行判斷和選擇。
“錯誤檢索”主要是由于文獻(xiàn)清單有誤或者數(shù)據(jù)庫信息不規(guī)范導(dǎo)致數(shù)據(jù)庫有收錄而未用系統(tǒng)檢出的情況,因此當(dāng)系統(tǒng)反饋“未收錄”結(jié)果時仍需謹(jǐn)慎對待,核查用戶提供的文獻(xiàn)信息是否準(zhǔn)確。
(2)對英文數(shù)據(jù)庫的查引用功能測評。
查收引系統(tǒng)的查引用是將用戶提交的文獻(xiàn)清單按檢索策略進(jìn)行檢索,并自動對檢索結(jié)果進(jìn)行匹配和過濾,將完全匹配和近似匹配的記錄下載到系統(tǒng)中供館員確認(rèn),“校對引證”的界面見圖3。
引用查全率是查收引系統(tǒng)關(guān)注的重點(diǎn)問題之一,在實(shí)際檢索過程中,由于數(shù)據(jù)庫的引文信息易出現(xiàn)錯誤,并且受作者署名習(xí)慣、引文習(xí)慣等因素的影響,會導(dǎo)致漏檢和錯檢。針對可能出現(xiàn)的諸多問題,系統(tǒng)通過組合多種策略,從多個角度檢索文獻(xiàn)的被引信息。查收引系統(tǒng)檢索英文文獻(xiàn)的引用信息的正確率見表4。
表4中,“錯誤檢索”是指由于數(shù)據(jù)庫中的施引文獻(xiàn)信息不規(guī)范而未檢索出的情況(這種情況下,人工檢索也無法查到)。值得提出的是,部分?jǐn)?shù)據(jù)庫中
不規(guī)范或錯引的信息,系統(tǒng)也能很好地檢出并作為近似結(jié)果供館員選擇,例如:
1)能夠正確識別作者各種形式的簡稱,例如linzc、lin z、zc lin、z lin。
2)施引文獻(xiàn)與論文年份前后相差一年的情況,如查詢某篇2007年文獻(xiàn)的引用情況,數(shù)據(jù)庫中有3篇施引文獻(xiàn)將其標(biāo)注為2006年,手工可能漏檢,而系統(tǒng)通過放寬條件能夠檢索到。
綜上所述,查收引系統(tǒng)的收錄和引用檢索策略采用機(jī)器判斷+人工判斷的機(jī)制,英文文獻(xiàn)的檢索結(jié)果基本上能夠達(dá)到人工檢索的標(biāo)準(zhǔn),部分檢索結(jié)果甚至超過人工檢索。
2.2.2對中文數(shù)據(jù)庫的查收引功能測評
查收引系統(tǒng)支持在CSCD和CSSCI數(shù)據(jù)庫檢索中文文獻(xiàn)。中文數(shù)據(jù)庫的檢索策略與英文數(shù)據(jù)庫類似,但是由于中文數(shù)據(jù)庫的特點(diǎn),也有不同之處。
(1)對中文數(shù)據(jù)庫的查收錄功能測評。
系統(tǒng)檢索中文文獻(xiàn)收錄的步驟與英文數(shù)據(jù)庫一致,但檢索策略和匹配策略都進(jìn)行了調(diào)整。檢索中文數(shù)據(jù)庫時,對中文題名和期刊題名等信息都進(jìn)行了檢索前的過濾和字段規(guī)范,濾掉了所有非中文字符,用空格代替;在結(jié)果匹配階段又增加了切分詞處理,以保證部分匹配值的計算。系統(tǒng)檢索中文文獻(xiàn)的收錄情況見表5。
中文文獻(xiàn)的查收錄功能可以發(fā)現(xiàn)“錯誤檢索”的情況,例如:
1)年份錯誤。如論文為2007年發(fā)表,而數(shù)據(jù)庫錯寫為2001年,與原文年代跨度較大。
2)論文題名有錯誤,同時數(shù)據(jù)庫里的信息也有誤。如《突發(fā)性泥沙災(zāi)害危險性快速區(qū)劃方法》,作者是倪晉仕、劉仁志,作者誤將題目寫為《突發(fā)性泥土災(zāi)害危險性快速區(qū)劃方法》,誤將作者寫成倪晉仁、劉仁志),因此系統(tǒng)未檢出。
(2)對中文數(shù)據(jù)庫的查引用功能測評。
CSCD與CSSCI數(shù)據(jù)庫在引用檢索時有一個最大的不同是CSCD不能使用題名檢索,因此需要單獨(dú)制定CSCD的檢索策略。查收引系統(tǒng)對中文數(shù)據(jù)庫的查引用情況如表6所示。
雖然有錯誤檢索,但系統(tǒng)具有很好的容錯率,可識別很多特殊情況,例如:
1)學(xué)報類期刊的多種書寫格式,如北京大學(xué)學(xué)報(自然科學(xué)版)、北京大學(xué)學(xué)報·自然科學(xué)版和北京大學(xué)學(xué)報(自然科學(xué)版)等寫法,系統(tǒng)都能檢出。
2)三個作者以上的文獻(xiàn),如果作者名字寫錯,如王妍和王研,系統(tǒng)也可檢出。
3)CSCD在被引檢索中只顯示部分作者,對于多作者文章,如一篇論文作者有宋述光/季建清/魏春景/蘇犁/鄭亞東/宋彪/張立飛,在CSCD的引文檢索時只顯示前三位,但引用此文的文章有一篇出現(xiàn)了作者蘇犁,人工判斷自引和他引時容易出錯,而系統(tǒng)可根據(jù)來源文獻(xiàn)智能判斷。
2.3查收引系統(tǒng)的邊界和特例測試
(1)作者數(shù)量超多的情況。
在識別自引和他引問題上,作者數(shù)量多少是準(zhǔn)確快速判別的主要條件,一般情況下,文章作者多為5人以內(nèi),但有一些團(tuán)體作者的文章,作者數(shù)量可達(dá)幾千個。例如以北京大學(xué)物理學(xué)院的班老師發(fā)表在PHYSICS LETTERS B(2014)的文章Constraintson the Higgs boson width from off-shell produc-tion and decay to Z-boson pairs,作者有2138個,但使用系統(tǒng)從新建清單到完成報告只需5分鐘。
(2)單篇文章引用數(shù)量超大的情況。
大多數(shù)文獻(xiàn)的被引量在100條以內(nèi),手工檢索和下載也很便利。但個別文獻(xiàn)的單篇引用量多達(dá)幾千條,由于WOS平臺的“打印下載”的條數(shù)限制(每次下載50條),一篇文獻(xiàn)的引用信息就需要幾十次翻頁和下載。例如北京大學(xué)物理學(xué)院的湯老師,有兩篇文章的被引次數(shù)分別為3567和2409次,如果手工下載,要翻頁72次和49次,但系統(tǒng)可在10分鐘內(nèi)自動完成下載。
(3)委托人文章數(shù)量超多的情況。
對于委托人查詢論文的數(shù)量為上百篇的,例如北京大學(xué)物理學(xué)院的余老師查詢論文406篇,地球與空間學(xué)院的黃老師的團(tuán)隊查詢論文358篇,在時間緊迫時,需分配多人同時檢索,再合并檢索結(jié)果。合并時要調(diào)整編號和表格,由于文檔較大處理非常耗時,而系統(tǒng)則可自動完成檢索并將結(jié)果合并。
3.查收引系統(tǒng)的應(yīng)用效果
3.1提高館員的工作效率
查收引系統(tǒng)支持多進(jìn)程、多任務(wù)并行,可同時處理多個數(shù)據(jù)庫的檢索。例如建筑設(shè)計、心理學(xué)等專業(yè),由于其跨學(xué)科性質(zhì),論文在各數(shù)據(jù)庫都可能有收錄或引用,使用系統(tǒng)進(jìn)行多庫并行檢索,檢索總耗時約為手工的三分之一。系統(tǒng)還設(shè)置了語種識別功能,允許中英文文獻(xiàn)同步檢索,系統(tǒng)會根據(jù)預(yù)先設(shè)定的語種自動識別檢索庫。其次,系統(tǒng)避免了處理檢索中斷的損失。在手工檢索的時候,一般逐條檢索完畢后再統(tǒng)一導(dǎo)出結(jié)果,如遇數(shù)據(jù)庫或電腦的突然故障,會導(dǎo)致檢索結(jié)果丟失。使用查收引系統(tǒng),即使系統(tǒng)前臺頁面關(guān)閉、電腦關(guān)閉,系統(tǒng)后臺仍會繼續(xù)運(yùn)行,不會丟失。再次,由于系統(tǒng)是自動檢索,在下班前建立委托單,可充分利用夜間進(jìn)行自動檢索,第二天上班后核對檢索結(jié)果??傊?,查收引系統(tǒng)通過多種途徑節(jié)省了館員的工作時間,提高了工作效率。
3.2改善用戶體驗(yàn)和圖書館服務(wù)質(zhì)量
較手工檢索而言,使用查收引系統(tǒng)縮短了檢索時間,提高了處理效率,在保障本校委托的基礎(chǔ)上,還能在高峰期接納部分校外讀者的委托。同時,系統(tǒng)實(shí)現(xiàn)了檢索結(jié)果的結(jié)構(gòu)化存儲,用戶可對同一委托提出不同需求,獲得多份不同排列組合的報告。另外,除了正式的檢索報告,系統(tǒng)還可提供文獻(xiàn)的收錄引用情況的概覽清單,讓用戶輕松了解概況。由于查收引系統(tǒng)支持多種檢索策略并行,在用戶提供的文獻(xiàn)信息部分有誤時,也能獲得較高的結(jié)果準(zhǔn)確率。以上這些方面,使用戶獲得更好的服務(wù)體驗(yàn),提升了圖書館的服務(wù)質(zhì)量。
4.對查收引系統(tǒng)的展望
經(jīng)大量測試和多次改進(jìn),查收引系統(tǒng)基本滿足高校圖書館的服務(wù)需求,極大緩解了人力資源緊張,實(shí)用價值較強(qiáng)。但系統(tǒng)仍有進(jìn)一步改善的空間,如在功能上應(yīng)增加網(wǎng)上委托、用戶跟蹤委托情況、歷史委托結(jié)果查詢等,數(shù)據(jù)接口應(yīng)支持多樣化文獻(xiàn)的列表導(dǎo)入,檢索報告可增加期刊影響因子、委托人為第一作者的文獻(xiàn)數(shù)等輔助標(biāo)識和統(tǒng)計,為用戶提供更多信息等。
目前,CALLS中心已經(jīng)對70多家大學(xué)圖書館開通CALLS論文收錄及引用檢索系統(tǒng)的試用,包括7所985高校。希望借助本文分享系統(tǒng)的測試結(jié)果和應(yīng)用效果,在大家的共同努力下,把高校圖書館的查收查引工作逐步推向自動化、智能化,大大提高科研支撐服務(wù)的效率。