国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于COUNTER的電子資源使用統(tǒng)計(jì)中的標(biāo)準(zhǔn)問題探討與研究

2016-11-10 09:13:48張計(jì)龍殷沈琴汪東偉復(fù)旦大學(xué)圖書館
圖書館理論與實(shí)踐 2016年5期
關(guān)鍵詞:頁面檢索規(guī)范

張計(jì)龍,殷沈琴,汪東偉(復(fù)旦大學(xué)圖書館)

基于COUNTER的電子資源使用統(tǒng)計(jì)中的標(biāo)準(zhǔn)問題探討與研究

張計(jì)龍,殷沈琴,汪東偉(復(fù)旦大學(xué)圖書館)

針對當(dāng)前電子資源使用統(tǒng)計(jì)中普遍存在的標(biāo)準(zhǔn)不一,統(tǒng)計(jì)數(shù)據(jù)不全,無法進(jìn)行電子資源橫向比較的問題,提出基于COUNTER規(guī)范和網(wǎng)絡(luò)底層技術(shù),從圖書館端進(jìn)行電子資源使用統(tǒng)計(jì)的創(chuàng)新解決思路。以復(fù)旦大學(xué)圖書館為例,對電子資源使用統(tǒng)計(jì)中的COUNTER標(biāo)準(zhǔn)實(shí)施問題進(jìn)行分析探討并給出了實(shí)證,對COUNTER規(guī)范提出改進(jìn)建議,具有推廣應(yīng)用價(jià)值。

電子資源;使用統(tǒng)計(jì);COUNTER;ERU;SUSHI

1 研究背景

在泛在知識整體背景環(huán)境下,人們越來越多的依賴于更加容易獲取和利用的各類電子資源。圖書館近年來為適應(yīng)這種新的需求,逐步加大了電子資源的采訪力度。以復(fù)旦大學(xué)為例,2010年電子資源采購經(jīng)費(fèi)為1131.03萬元,占文獻(xiàn)資源總采購經(jīng)費(fèi)的38%;[1]2011年電子資源采購經(jīng)費(fèi)為1057.28萬元,占文獻(xiàn)資源總采購經(jīng)費(fèi)的30%以上;[2]2012年電子資源采購經(jīng)費(fèi)為1565.17萬元,[3]占文獻(xiàn)資源總采購經(jīng)費(fèi)的35%以上;而根據(jù)目前初步的統(tǒng)計(jì),2013年電子資源采購經(jīng)費(fèi)達(dá)到2149.86萬,占當(dāng)年文獻(xiàn)資源采購總經(jīng)費(fèi)的42%。根據(jù)北美研究型圖書館協(xié)會ARL的統(tǒng)計(jì)數(shù)據(jù),2007~2008年其成員館在數(shù)字資源上的開支平均達(dá)565余萬美元,占總開支的51%。[4]因此,圖書館對種類繁多的各類電子資源數(shù)據(jù)庫必須進(jìn)行有效的使用統(tǒng)計(jì),評價(jià)分析電子資源的使用效益,進(jìn)一步優(yōu)化資源布局和采訪經(jīng)費(fèi)投入比例。

在復(fù)雜網(wǎng)絡(luò)環(huán)境下,由于各個(gè)不同的數(shù)據(jù)庫廠商的網(wǎng)絡(luò)平臺存在應(yīng)用服務(wù)器和底層數(shù)據(jù)庫結(jié)構(gòu)的異構(gòu),不同的數(shù)據(jù)庫廠商或數(shù)據(jù)庫平臺提供的使用統(tǒng)計(jì)數(shù)據(jù)格式各異,標(biāo)準(zhǔn)不一,差別很大,導(dǎo)致圖書館無法對所購電子資源進(jìn)行有效的橫向統(tǒng)計(jì)分析,難以真實(shí)、有效評價(jià)不同電子資源的利用效益。因此,亟需在統(tǒng)計(jì)數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范和實(shí)施操作層面研究、制定能被數(shù)據(jù)庫廠商和圖書館接受的、可行的方法。

2 國內(nèi)外相關(guān)研究進(jìn)展

國外的研究機(jī)構(gòu)和學(xué)者很早就開展了電子資源使用統(tǒng)計(jì)方法和標(biāo)準(zhǔn)規(guī)范的研究和實(shí)踐。圖書館共同體國際聯(lián)盟(ICOLC)1998年發(fā)布基于網(wǎng)絡(luò)的信息資源使用統(tǒng)計(jì)指南,2001年發(fā)布修訂版,對使用統(tǒng)計(jì)數(shù)據(jù)收集、報(bào)告格式、數(shù)據(jù)保密性、訪問統(tǒng)計(jì)數(shù)據(jù)權(quán)限和數(shù)據(jù)傳遞方式提出明確要求。[5]1974年的圖書館統(tǒng)計(jì)數(shù)據(jù)標(biāo)準(zhǔn)ISO2789(Information and Documentation-In ternationalLibrary Statistics)在2003年的修訂版中給出了電子資源及服務(wù)的測量方法和評價(jià)指標(biāo)。[6]其中影響最大、應(yīng)用最為廣泛的當(dāng)屬2002年的COUNTER(Counter Online Usage of Networked Electronic Resources)項(xiàng)目,COUNTER提供了一個(gè)可擴(kuò)展的、國際化的電子資源使用統(tǒng)計(jì)實(shí)施規(guī)范,使得利用數(shù)據(jù)商所提供的使用數(shù)據(jù),進(jìn)行可靠、一致的網(wǎng)絡(luò)信息產(chǎn)品與服務(wù)評價(jià)成為可能。[7]SUSHI是一個(gè)ANSI/NISO標(biāo)準(zhǔn),是一個(gè)能自動收割符合COUNTER標(biāo)準(zhǔn)的電子資源使用統(tǒng)計(jì)數(shù)據(jù)的協(xié)議。[8]COUNTER R4標(biāo)準(zhǔn)中數(shù)據(jù)商被要求成為COUNTER規(guī)范遵循者的同時(shí)必須遵守SUSHI?;贑OUNTER規(guī)范的重要性和廣泛應(yīng)用,本文相關(guān)討論將以COUNTER R4規(guī)范為例。

國內(nèi)相關(guān)研究始于20世紀(jì)末,2002年肖瓏等論述了電子資源評價(jià)指標(biāo)體系的建立方法及其主要內(nèi)容,并對北京大學(xué)電子資源的利用率、使用價(jià)值與成本進(jìn)行了分析評價(jià)。[9]索傳軍認(rèn)為解決數(shù)據(jù)的規(guī)范化和可獲取性的問題是電子資源使用統(tǒng)計(jì)領(lǐng)域的重點(diǎn),而獲取深層次數(shù)據(jù)的方法和數(shù)據(jù)管理工具的開發(fā)則是研究難點(diǎn)。[5]陳大慶研究了ERMI(Electronic Resources Management Initiative)數(shù)據(jù)元素與電子資源管理標(biāo)準(zhǔn)的對應(yīng)情況,提出建立動態(tài)的標(biāo)準(zhǔn)維護(hù)機(jī)制和實(shí)現(xiàn)方法。[10]閆曉弟等針對當(dāng)前大學(xué)圖書館網(wǎng)絡(luò)電子資源利用與統(tǒng)計(jì)存在的統(tǒng)計(jì)標(biāo)準(zhǔn)和計(jì)量方法的問題以及數(shù)據(jù)的真實(shí)性問題,提出建立“電子資源訪問網(wǎng)關(guān)系統(tǒng)”,來實(shí)現(xiàn)網(wǎng)絡(luò)電子資源利用與統(tǒng)計(jì)的方案。[11]

在數(shù)據(jù)收集方法上,目前國內(nèi)外比較主流的方法主要包括:本地日志分析和從數(shù)據(jù)商獲取數(shù)據(jù)。索傳軍研究介紹了日志分析的基本原理,分析了能從中獲取的數(shù)據(jù)和它的局限性,包括只能獲取一些最基本的服務(wù)器訪問日志,對日志的分析不深入,對數(shù)據(jù)挖掘的研究更少,不能獲取深層次的使用數(shù)據(jù)。因此,圖書館更多的是依靠數(shù)據(jù)商來獲取詳細(xì)的使用數(shù)據(jù),但這些數(shù)據(jù)存在不真實(shí)、不完整、不及時(shí)的問題。[5]沈鶴林提出通過網(wǎng)絡(luò)交換機(jī)取得電子資源訪問的源IP、目的IP和訪問URL信息的解決方案,保證了不同電子數(shù)據(jù)庫的使用數(shù)據(jù)信息的可比性,解決了數(shù)據(jù)的統(tǒng)一性問題的數(shù)據(jù)獲取方案。[12]閆曉弟在西安交通大學(xué)的電子資源使用統(tǒng)計(jì)和流量監(jiān)控平臺的設(shè)計(jì)實(shí)現(xiàn)上也采取了類似的技術(shù)路線。[11]

綜上,在電子資源使用統(tǒng)計(jì)標(biāo)準(zhǔn)上目前得到普遍認(rèn)同和應(yīng)用的主要是COUNTER標(biāo)準(zhǔn);在電子資源使用統(tǒng)計(jì)數(shù)據(jù)采集方法上目前主要有本地網(wǎng)絡(luò)日志分析和服務(wù)器端數(shù)據(jù)商獲取兩種方法,分別存在日志文件數(shù)據(jù)過于簡單,無法真實(shí)還原讀者信息行為,統(tǒng)計(jì)數(shù)據(jù)完整問題和僅從服務(wù)器端的數(shù)據(jù)商處獲得數(shù)據(jù)格式不統(tǒng)一,無法橫向比較問題。故目前尚沒有比較統(tǒng)一、完整的解決方案。

本文基于COUNTER最新標(biāo)準(zhǔn),采用在用戶端部署的基于網(wǎng)絡(luò)底層技術(shù)的電子資源使用數(shù)據(jù)收集系統(tǒng)(Electric Resourse Utilities,簡稱ERU),彌補(bǔ)了目前基于本地日志或者基于網(wǎng)絡(luò)交換機(jī)流量數(shù)據(jù)技術(shù)路線存在的收集數(shù)據(jù)過于簡單,只能采集到簡單的“網(wǎng)絡(luò)流量級”的日志記錄數(shù)據(jù),難以真實(shí)、準(zhǔn)確反映用戶行為,無法完全遵循COUNTER規(guī)范的問題。同時(shí),ERU系統(tǒng)能完全、真實(shí)的仿真讀者在電子資源服務(wù)平臺上的所有行為,實(shí)現(xiàn)訪問行為數(shù)據(jù)“內(nèi)容級”的采集,可以做到完全符合COUNTER R4的實(shí)施規(guī)范,且不同于電子資源廠商在服務(wù)端實(shí)施COUNTER R4規(guī)范,從用戶端獲取的符合COUNTER R4數(shù)據(jù)可以更加真實(shí)、有效反映實(shí)際利用情況,從根本上解決不同數(shù)據(jù)庫廠商在服務(wù)端實(shí)施COUNTER規(guī)范必須面臨的在應(yīng)用層面和數(shù)據(jù)庫設(shè)計(jì)層面的各種異構(gòu)問題,有效避免諸如搜索引擎網(wǎng)絡(luò)爬蟲等無效訪問造成的統(tǒng)計(jì)不準(zhǔn)確等難題。

本文將通過討論復(fù)旦大學(xué)圖書館在實(shí)施遵循COUNTER R4規(guī)范的電子資源使用數(shù)據(jù)統(tǒng)計(jì)過程中發(fā)現(xiàn)的、且無法用前述文獻(xiàn)中提到的實(shí)施方案解決的一些問題,包括統(tǒng)計(jì)口徑、服務(wù)可達(dá)性、數(shù)據(jù)處理等,研究探討通過ERU系統(tǒng)進(jìn)行解決。同時(shí)針對發(fā)現(xiàn)的COUNTER R4規(guī)范中存在的規(guī)定不清和空白問題提出改進(jìn)建議,供今后COUNTER新版升級中予以改進(jìn)。

3 相關(guān)概念

3.1 COUNTER研究項(xiàng)目

網(wǎng)絡(luò)電子資源在線使用統(tǒng)計(jì)(COUNTER)提出了電子期刊、電子書、數(shù)據(jù)庫和多媒體資源的使用統(tǒng)計(jì)報(bào)告應(yīng)遵循的標(biāo)準(zhǔn)規(guī)范。COUNTER項(xiàng)目組在2002年12月發(fā)布了《COUNTER期刊和數(shù)據(jù)庫實(shí)施規(guī)范》(第一版)(Release 1 of the COUNTER Code of Practice for Journalsand Databases),并在之后較短時(shí)間內(nèi)得到了廣泛的應(yīng)用。針對圖書館界對電子圖書使用統(tǒng)計(jì)報(bào)告的需求,該項(xiàng)目組于2006年3月發(fā)布了《COUNTER圖書與參考工具書實(shí)施規(guī)范》(第一版)。[13]2012年4月,COUNTER第四版——《COUNTER電子資源使用統(tǒng)計(jì)實(shí)施規(guī)范》[14]頒布。第四版是一個(gè)綜合的實(shí)施規(guī)范,涉及圖書、數(shù)據(jù)庫、期刊、工具書以及多媒體資源。它取代了《COUNTER期刊和數(shù)據(jù)庫實(shí)施規(guī)范》(第三版)[15]及《COUNTER圖書和參考工具書實(shí)施規(guī)范》(第一版)。2013年12月31日后,只有符合COUNTER第四版的供應(yīng)商,或符合《COUNTER期刊和數(shù)據(jù)庫實(shí)施規(guī)范》(第三版)及《COUNTER圖書和參考工具書實(shí)施規(guī)范》(第一版)的供應(yīng)商將被視為是遵循COUNTER的。從2014年1月到8月期間聲明遵循COUNTER R4的數(shù)據(jù)庫供應(yīng)商已達(dá)61家,[16]基本涵蓋了國際上最主要的數(shù)據(jù)庫供應(yīng)商。

3.2 ERU研究項(xiàng)目

ERU研究項(xiàng)目全稱是電子資源使用統(tǒng)計(jì)分析,由復(fù)旦大學(xué)在2011年發(fā)起。主要目的是解決不同數(shù)據(jù)庫廠商的數(shù)據(jù)庫平臺的應(yīng)用異構(gòu)和數(shù)據(jù)庫設(shè)計(jì)異構(gòu)問題,采用基于數(shù)據(jù)流建模技術(shù)對網(wǎng)絡(luò)底層傳輸?shù)碾娮淤Y源數(shù)據(jù)包的實(shí)時(shí)采集和重新封裝進(jìn)行建模,從而完全仿真用戶的信息使用行為,彌補(bǔ)傳統(tǒng)服務(wù)器日志分析數(shù)據(jù)很難獲取和數(shù)據(jù)不完整問題。以及類似SUSHI協(xié)議需要數(shù)據(jù)庫廠商支持和對網(wǎng)絡(luò)爬蟲數(shù)據(jù)清洗困難的不足,實(shí)現(xiàn)完全不依賴于任何第三方的適用各種異構(gòu)電子資源使用數(shù)據(jù)的統(tǒng)一采集和統(tǒng)一統(tǒng)計(jì)分析,其對電子資源使用統(tǒng)計(jì)數(shù)據(jù)采集區(qū)別于已有的任何一種基于網(wǎng)絡(luò)流量或服務(wù)器日志分析技術(shù),可對用戶WEB訪問頁面進(jìn)行仿真建模分析,實(shí)現(xiàn)基于“訪問內(nèi)容級”的統(tǒng)計(jì)分析和建模。

3.2.1 ERU系統(tǒng)部署設(shè)計(jì)

ERU系統(tǒng)部署圖如圖1所示。采集網(wǎng)探通過旁路方式連接到有讀者訪問的各種電子資源數(shù)據(jù)庫的網(wǎng)絡(luò)出口核心交換機(jī)上,對核心交換機(jī)的底層網(wǎng)絡(luò)通信進(jìn)行全面采集。采集控制臺和采集數(shù)據(jù)庫通過IP過濾獲得相應(yīng)的訪問數(shù)據(jù)。解析器對圖書館購買的所有電子資源數(shù)據(jù)庫的檢索(單庫和跨庫)、瀏覽和下載行為的HTML數(shù)據(jù)進(jìn)行解析還原,生產(chǎn)用戶訪問日志記錄。WEB展現(xiàn)平臺按照COUNTER規(guī)范生成使用統(tǒng)計(jì)報(bào)表,并提供學(xué)科分析應(yīng)用。

3.2.2 ERU采集流程

按照修改后的《指南》規(guī)定,上述權(quán)利要求1—4在撰寫形式上都是允許的。當(dāng)然,這里僅僅給出了簡單的列舉。專利申請人還可以根據(jù)該輔助診斷方案的具體存在形態(tài),采用其他的主題名稱和撰寫形式來尋求專利保護(hù)。

ERU的數(shù)據(jù)采集過程主要包括以下流程:網(wǎng)絡(luò)底層采集、數(shù)據(jù)建模處理、頁面解析建模、數(shù)據(jù)規(guī)范入庫。網(wǎng)絡(luò)采集是基于核心交換機(jī)的鏡像端口,通過配置需要采集的數(shù)據(jù)庫的IP地址和URL,過濾無關(guān)的背景網(wǎng)絡(luò)流量數(shù)據(jù),對原始的電子資源訪問數(shù)據(jù)進(jìn)行實(shí)時(shí)采集,然后進(jìn)行數(shù)據(jù)包重新組裝拼接,形成原始HTML數(shù)據(jù)文件;數(shù)據(jù)建模處理階段是對采集到的原始HTML數(shù)據(jù)文件進(jìn)行協(xié)議分析,運(yùn)用特征分析技術(shù)從URL鏈接中抽取特征值進(jìn)行數(shù)據(jù)流上數(shù)據(jù)建模,從而僅保留有效地網(wǎng)頁;頁面解析建模階段則根據(jù)不同數(shù)據(jù)庫頁面信息配置不同的解析模板,實(shí)現(xiàn)對前述采集的有效網(wǎng)頁內(nèi)容進(jìn)一步建模,結(jié)合傳統(tǒng)交換機(jī)日志信息,僅保留如源IP、目的IP、Session會話、訪問時(shí)間、題名、主題、描述、主要責(zé)任者、標(biāo)識符、語種、發(fā)表日期等必需字段,最后根據(jù)不同文獻(xiàn)類型所需的元數(shù)據(jù)模板,實(shí)現(xiàn)數(shù)據(jù)規(guī)范入庫。詳細(xì)的實(shí)現(xiàn)過程在參考文獻(xiàn)中有具體論述,[17]此處不再贅述。

3.2.3 ERU實(shí)施效果

圖1 ERU系統(tǒng)部署圖

在2012年9月至2014年4月期間,通過ERU采集到讀者訪問復(fù)旦圖書館電子資源行為數(shù)據(jù)已達(dá)90GB,數(shù)據(jù)庫存儲記錄條數(shù)6,080,896條。采集的字段包括:讀者IP、訪問時(shí)間、會話ID、檢索式、讀者所在校區(qū)、歸屬平臺、歸屬網(wǎng)站、歸屬數(shù)據(jù)庫,還包括讀者詳細(xì)瀏覽、下載資源的詳細(xì)信息,包括文章的題名、摘 要、刊物名稱、作者、關(guān)鍵字、刊物年卷期等。這些來自復(fù)旦大學(xué)用戶的對270余個(gè)數(shù)據(jù)庫的訪問統(tǒng)計(jì)數(shù)據(jù)加上數(shù)據(jù)庫商提供的使用統(tǒng)計(jì)數(shù)據(jù),為發(fā)現(xiàn)COUNTER R4規(guī)范實(shí)施中普遍存在的標(biāo)準(zhǔn)問題提供了數(shù)據(jù)支撐。

4 標(biāo)準(zhǔn)實(shí)施問題探討

通過采集不同數(shù)據(jù)庫的用戶使用數(shù)據(jù)和從數(shù)據(jù)庫廠商后臺提供的按月使用統(tǒng)計(jì)數(shù)據(jù)進(jìn)行比對分析,重點(diǎn)找出統(tǒng)計(jì)數(shù)據(jù)差異比較大的信息行為數(shù)據(jù),可發(fā)現(xiàn)在數(shù)據(jù)庫廠商聲明已經(jīng)遵守COUNTER R4標(biāo)準(zhǔn)的情況下。由于不同數(shù)據(jù)庫商提供的應(yīng)用界面操作功能差異較大,部分行為難以按照COUNTER R4規(guī)范要求準(zhǔn)確歸類,按照前述文獻(xiàn)中已有的解決方案,在實(shí)際操作層面仍然存在諸多問題而無法有效解決。本文主要對常見的讀者檢索、瀏覽和下載行為的COUNTER規(guī)范實(shí)施問題進(jìn)行探討,并基于ERU平臺技術(shù)給出有效的解決方法。

4.1 檢索行為

COUNTER R4實(shí)施規(guī)范附錄A:術(shù)語表中對標(biāo)準(zhǔn)的檢索行為定義為:用戶驅(qū)動的智能查詢,通常表現(xiàn)為提交檢索表單給服務(wù)器獲取在線服務(wù)。[18]因此,可以理解標(biāo)準(zhǔn)的檢索行為一般為在數(shù)據(jù)庫檢索頁面輸入檢索條件,然后點(diǎn)擊“檢索”、“搜索”或“高級檢索”等按鈕,數(shù)據(jù)庫服務(wù)器會根據(jù)輸入的檢索請求而返回檢索結(jié)果,這樣就形成一個(gè)完整的檢索行為,由于標(biāo)準(zhǔn)檢索頁面比較簡單,此處不做過多分析。下面結(jié)合常用的中國知網(wǎng)為例進(jìn)行相關(guān)闡述。

在COUNTER R4規(guī)范中對初步檢索結(jié)果進(jìn)行上述篩選、排序、改變顯示順序、翻頁和結(jié)果中檢索行為沒有相應(yīng)的定義,這些行為中全部或者部分是否應(yīng)該納入相應(yīng)檢索統(tǒng)計(jì)計(jì)數(shù)無法確定。由于ERU采取的技術(shù)可以完整捕捉到這些行為,通過數(shù)據(jù)比對,可以發(fā)現(xiàn)在實(shí)際應(yīng)用中不同的數(shù)據(jù)庫廠商對此定義亦大不相同。此種問題包括外文數(shù)據(jù)庫在內(nèi)的絕大部分電子資源中均廣泛存在。尤其對于“結(jié)果中檢索”行為是否應(yīng)該納入檢索計(jì)數(shù)統(tǒng)計(jì)更是很難判斷。ERU系統(tǒng)通過分析,統(tǒng)一采取對初次有檢索詞的檢索和在結(jié)果中檢索(此處也有用戶鍵入檢索詞行為)計(jì)為有效檢索,其他類似行為均不計(jì)入統(tǒng)計(jì)數(shù)據(jù)的方法。

此外,對ERU采集到的用戶不完整訪問行為數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)在用戶發(fā)起檢索請求后,由于互聯(lián)網(wǎng)傳輸以及可能的服務(wù)器響應(yīng)超時(shí)等因素,用戶端所接受到的檢索返回結(jié)果出現(xiàn)異常,包括以下三種情況。

(1)檢索結(jié)果未顯示完整,原因是數(shù)據(jù)庫所在服務(wù)器處理故障,造成后臺會話不完整,返回給用戶端部分結(jié)果數(shù)據(jù)。

(2)在用戶已經(jīng)發(fā)出檢索請求,數(shù)據(jù)庫所在服務(wù)器端也已經(jīng)開始返回結(jié)果,但此時(shí)檢索請求被用戶自行取消,導(dǎo)致最終用戶端結(jié)果數(shù)據(jù)不完整或沒有收到檢索結(jié)果數(shù)據(jù)。

(3)用戶在短時(shí)間內(nèi)不停的使用F5鍵或刷新頁面功能多次刷新頁面,造成后臺重復(fù)發(fā)出檢索請求。

針對上述三種檢索行為,COUNTER R4規(guī)范中規(guī)定對10秒內(nèi)的重復(fù)點(diǎn)擊/刷新頁面不重復(fù)計(jì)數(shù)。但對于檢索行為是否應(yīng)該以服務(wù)器端響應(yīng)為準(zhǔn)還是以用戶端實(shí)際接受到完整結(jié)果為準(zhǔn)未給出明確定義。在實(shí)踐中,由于技術(shù)限制,電子資源廠商目前的技術(shù)手段無法發(fā)現(xiàn)這些問題,因而采取的基本是以服務(wù)器端接受到請求開始進(jìn)行統(tǒng)計(jì),而不考慮用戶是否成功接受到數(shù)據(jù)。由于ERU平臺可以采集到用戶請求開始時(shí)間、請求結(jié)束時(shí)間、服務(wù)器響應(yīng)開始時(shí)間、服務(wù)器響應(yīng)結(jié)束時(shí)間等所有處理環(huán)節(jié)的時(shí)間點(diǎn),可以實(shí)現(xiàn)根據(jù)用戶實(shí)際是否接受到完整結(jié)果為依據(jù)進(jìn)行統(tǒng)計(jì),可以做到不受這些問題的影響。此外,從公平交易角度,本文亦認(rèn)為應(yīng)該以最終用戶接受到結(jié)果數(shù)據(jù)為統(tǒng)計(jì)依據(jù),對于未能成功滿足用戶需求的請求不應(yīng)計(jì)算在內(nèi)。

另外,在COUNTER R4實(shí)施規(guī)范中對數(shù)據(jù)庫使用報(bào)告1(Database Report 1,簡稱DR1)定義為:每月、每種數(shù)據(jù)庫的總檢索量、結(jié)果點(diǎn)擊量(Result Clicks)和記錄瀏覽量(Record Views)。DR1要求將常規(guī)檢索(Regular Searches)與來自集成搜索引擎(federated search engines)和自動搜索代理(automated search agents)的檢索分開統(tǒng)計(jì),分別計(jì)入DR1中的常規(guī)檢索(Regular Searches)和聯(lián)邦自動檢索(Searches-federated and automated),見圖2。

圖2 COUNTER R4檢索統(tǒng)計(jì)報(bào)表DR1樣例

因此,為了數(shù)據(jù)庫供應(yīng)商能分辨出哪些檢索來自集成搜索引擎和自動搜索代理,COUNTER R4在附錄I和附錄J中分別給出了當(dāng)前已知的集成和自動搜索引擎列表以及網(wǎng)絡(luò)機(jī)器人、網(wǎng)絡(luò)爬蟲、網(wǎng)頁爬蟲等列表,[7]并要求數(shù)據(jù)庫供應(yīng)商及時(shí)更新。這在實(shí)際操作中無疑會有遺漏和更新不及時(shí)問題,造成統(tǒng)計(jì)數(shù)據(jù)不準(zhǔn)確?;趫D書館端部署ERU系統(tǒng)的技術(shù)路線完全不存在此類問題,大大提升了統(tǒng)計(jì)數(shù)據(jù)的準(zhǔn)確性。

4.2 瀏覽行為

用戶在返回的檢索結(jié)果中點(diǎn)擊某一條記錄,頁面跳轉(zhuǎn)到該記錄的詳細(xì)信息頁面,完成一個(gè)標(biāo)準(zhǔn)的瀏覽行為,即完整的瀏覽行為包括用戶請求的發(fā)送和服務(wù)器返回完整的結(jié)果。有些數(shù)據(jù)庫在返回頁面中,可以選擇點(diǎn)擊展開或者切換頁面,此時(shí)相當(dāng)于后臺發(fā)起一個(gè)新的瀏覽頁面請求。針對這種情況,COUNTER R4規(guī)范在附錄A中定義記錄瀏覽(Record view)和結(jié)果點(diǎn)擊(Result click)兩種行為進(jìn)行描述。記錄瀏覽(Record view)是一個(gè)對數(shù)據(jù)庫記錄的成功請求,來源于一個(gè)檢索結(jié)果集,或?yàn)g覽數(shù)據(jù)庫,或?qū)α硪粭l數(shù)據(jù)庫記錄的點(diǎn)擊(只計(jì)算完整的數(shù)據(jù)庫記錄,不包括對記錄的預(yù)覽)。結(jié)果點(diǎn)擊(Result click)定義為源于對一個(gè)檢索結(jié)果集的點(diǎn)擊,類同對一條檢索結(jié)果的點(diǎn)擊。[16]但是其定義無法套用到本例中一條記錄被多次點(diǎn)擊瀏覽的情況。本文認(rèn)為因?yàn)槭菍ν粭l記錄的瀏覽,只是對頁面信息量的顯示數(shù)量進(jìn)行了個(gè)性化設(shè)置,其本質(zhì)上仍然為對同一條記錄的瀏覽行為,故此時(shí)的瀏覽頁面的切換統(tǒng)計(jì)只統(tǒng)計(jì)為一次瀏覽行為。此外,對異常的瀏覽返回結(jié)果情況,包括瀏覽結(jié)果未能完整顯示、瀏覽行為被用戶中途取消和用戶短時(shí)間內(nèi)多次刷新瀏覽頁面等,問題基本類同4.1中對檢索行為的服務(wù)可達(dá)性的分析,此處不再贅述。

4.3 下載行為

電子資源的付費(fèi)模式大部分和下載數(shù)有著密切的關(guān)系,因此對于下載數(shù)量的統(tǒng)計(jì)尤為重要。COUNTER R4中對情況比較復(fù)雜的電子書全文下載統(tǒng)計(jì)給出了相對明確的定義,包括在線HTML格式中已經(jīng)劃分章節(jié)的圖書全文下載瀏覽只記錄第一次對某個(gè)章節(jié)的閱讀數(shù),對后續(xù)其他章節(jié)的瀏覽閱讀不再重復(fù)計(jì)數(shù)等。但在實(shí)踐操作中,仍存在以下問題。

(1)統(tǒng)計(jì)口徑問題。數(shù)據(jù)庫服務(wù)器將接收到的下載請求跳轉(zhuǎn)到其他網(wǎng)站/服務(wù)器,由其他服務(wù)器進(jìn)行文件的傳送,文件也可能被分為多次傳送。例如用戶在A平臺點(diǎn)擊下載,實(shí)際上下載行為發(fā)生在B平臺,此時(shí)A平臺為書目型數(shù)據(jù)庫,下載行為的統(tǒng)計(jì)口徑應(yīng)該歸屬到那一個(gè)平臺,這是目前新的網(wǎng)絡(luò)環(huán)境下出現(xiàn)的新問題,在目前最新版本的COUNTER R4中未給出明確定義。依據(jù)資源所在位置原則,本文建議按照實(shí)際下載行為發(fā)生地為統(tǒng)計(jì)歸屬地。

(2)服務(wù)可達(dá)性問題。由于下載文件往往需要傳輸較大的數(shù)據(jù),對網(wǎng)絡(luò)的要求比較高,由數(shù)據(jù)庫服務(wù)器處理能力和網(wǎng)絡(luò)速度影響而導(dǎo)致異常的返回結(jié)果相對更多,包括:①下載已經(jīng)開始但無法確定下載完成時(shí)間,服務(wù)器后臺由于超時(shí)而導(dǎo)致會話不完整的情況;②用戶看到下載對話框彈出后,點(diǎn)擊取消下載,此時(shí)服務(wù)器端已經(jīng)返回接受下載請求成功信息,并準(zhǔn)備開始傳送文件的情況;③用戶點(diǎn)擊下載鏈接后,系統(tǒng)提示需要登錄或者提示訪問被拒絕;④用戶不斷刷新下載頁面而導(dǎo)致短時(shí)間內(nèi)發(fā)出多個(gè)下載請求。COUNTER R4中對拒絕訪問有單獨(dú)的統(tǒng)計(jì)要求,對于30秒內(nèi)的重復(fù)下載行為僅僅記錄一次,不重復(fù)計(jì)數(shù)。但是對于服務(wù)器端會話不完整和用戶自行點(diǎn)擊取消下載未給出明確定義,這也是導(dǎo)致下載統(tǒng)計(jì)數(shù)據(jù)不準(zhǔn)確的重要因素之一。本文基于ERU技術(shù),建議應(yīng)采取用戶端是否真實(shí)下載成功為統(tǒng)計(jì)依據(jù),以準(zhǔn)確反映用戶實(shí)際行為。

[1]復(fù)旦大學(xué)圖書館.2010年度圖書館經(jīng)費(fèi)使用情況[EB/OL].[2014-08-28].http://www.library.fudan.edu.cn/main/info/1576.htm.

[2]復(fù)旦大學(xué)圖書館.2011年度圖書館經(jīng)費(fèi)使用情況[EB/OL].[2014-08-28].http://www.library.fudan.edu.cn/main/info/1577.htm.

[3]復(fù)旦大學(xué)圖書館.2012年度圖書館經(jīng)費(fèi)使用情況[EB/OL].[2014-08-28].http://www.library.fudan.edu.cn/main/info/3291.htm.

[4]劉蔚,王長宇.ISO2789、NISO Z39.7和E-METRICS數(shù)字資源評價(jià)標(biāo)準(zhǔn)比較[J].圖書館學(xué)刊2010(8):102-103.

[5]索傳軍,王建朋.國外電子資源在線使用統(tǒng)計(jì)研究述評[J].圖書館,2006(6):43-46.

[6]ISO.Information and Documentation-International Library Statistics[S].ISO2789:2003(E).

[7]COUNTER.CodeofPractice[EB/OL].[2014-08-28].http://www.projectcounter.org/code_practice.htm l.

[8]NISO.Standardized Usage Statistics Harvesting Initiative(SUSHI)[EB/OL].[2014-08-28].http://www.niso.org/workrooms/sushi.

[9]肖瓏,張宇紅.電子資源評價(jià)指標(biāo)體系的建立初探[J].大學(xué)圖書館學(xué)報(bào),2002(03):35-42

[10]陳大慶.電子資源管理標(biāo)準(zhǔn)述評[J].圖書情報(bào)工作,2013(3):125-130.

[11]閆曉弟,等.電子資源利用統(tǒng)計(jì)網(wǎng)關(guān)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代圖書情報(bào)技術(shù),2008(8): 97-100.

[12]沈鶴林.學(xué)術(shù)全文電子資源使用統(tǒng)計(jì)分析研究[D].上海:上海交通大學(xué),2011.

[13]COUNTER.Release 1 ofthe COUNTERCode ofPractice for Booksand Reference Works[EB/OL].[2014-08-29].http://www.projectcounter.org/cop/books/ cop_books_ref.pdf.

[14]COUNTER.Release 4 ofthe COUNTERCode ofPractice for e-Resources[EB/OL].[2014-08-29]. http://www.projectcounter.org/r4/COPR4.pdf.

[15]COUNTER.Release 3 ofthe COUNTERCode ofPracticeforJournalsand Databases[EB/OL].[2014-08-29].http://www.projectcounter.org/r3/r3_intro.pdf.

[16]COUNTER.CompliantVendors[EB/OL].[2014-08-29].http://www.projectcounter.org/compliantvendors.html.

[17]張計(jì)龍,等.基于ERU的圖書館用戶信息行為數(shù)據(jù)采集方法研究——以復(fù)旦大學(xué)圖書館為例[J].圖書館雜志,2014(12):10-16.

[18]COUNTER.Appendix A(Glossary of Terms)[EB/ OL].[2014-08-29].http://www.projectcounter.org/ r4/APPA.pdf.

Discussion and Research on the Practice Issues in the Standard for the Electric Resourse Usage Statistics Based on COUNTER

Zhang Ji-long,Yin Shen-qin,Wang Dong-wei

The article proposes the solution for the electric resources usage statistics based on the COUNTER and the underlying technology ofnetwork to resolve the issues that the statistics standards for the electric resources usage are widely incompatible and it is difficult to compare them with different e-resources.With a case study of Fudan university library,the practice issues of COUNTER,such as statistical caliber,service accessibility and data collection,are discussed.The method of the article can help other libraries to apply in practice and the result is helpful to improve the new version ofCOUNTER.

E-resource;Usage Statistics;COUNTER;ERU;SUSHI

G255.76

B

1005-8214(2016)05-0095-06

張計(jì)龍(1975-),男,復(fù)旦大學(xué)圖書館副研究館員,研究方向:數(shù)字圖書館、數(shù)據(jù)管理、教育信息化;殷沈琴(1977-)女,復(fù)旦大學(xué)圖書館副研究館員,研究方向:數(shù)字圖書館、數(shù)據(jù)管理;汪東偉(1986-)男,復(fù)旦大學(xué)圖書館館員,研究方向:數(shù)字圖書館、數(shù)據(jù)管理。

2015-11-03[責(zé)任編輯]邵晉蓉

本文系國家社科基金“泛在知識環(huán)境下圖書館知識發(fā)現(xiàn)技術(shù)與應(yīng)用研究”(項(xiàng)目編號:12CTQ006)研究成果之一。

猜你喜歡
頁面檢索規(guī)范
刷新生活的頁面
來稿規(guī)范
來稿規(guī)范
PDCA法在除顫儀規(guī)范操作中的應(yīng)用
來稿規(guī)范
2019年第4-6期便捷檢索目錄
專利檢索中“語義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
同一Word文檔 縱橫頁面并存
淺析ASP.NET頁面導(dǎo)航技術(shù)
國際標(biāo)準(zhǔn)檢索
福贡县| 公主岭市| 宜阳县| 改则县| 太康县| 资兴市| 万年县| 历史| 阜新| 瑞昌市| 体育| 锡林郭勒盟| 迁安市| 邓州市| 凯里市| 延庆县| 泰州市| 民县| 随州市| 炉霍县| 石渠县| 宜州市| 湟中县| 开远市| 六枝特区| 克什克腾旗| 青阳县| 铁岭县| 新平| 揭东县| 沁水县| 武功县| 穆棱市| 建水县| 农安县| 河源市| 栾城县| 辽中县| 安图县| 密山市| 涟水县|