牛蘭金 曲淑敏 姚 震
(山東農(nóng)業(yè)大學(xué)圖書館,山東 泰安 271018)
聯(lián)機(jī)公共目錄查詢系統(tǒng)(Online Public Access Cata logue,簡(jiǎn)稱OPAC)是圖書館為讀者提供館藏書刊目錄信息檢索和個(gè)人借閱信息查詢的在線系統(tǒng),它是讀者利用圖書館紙質(zhì)文獻(xiàn)資源的網(wǎng)上第一入口,在圖書館的網(wǎng)絡(luò)服務(wù)中一直占有重要的地位。讀者借閱圖書之前一般都要先在OPAC 系統(tǒng)中做檢索查詢,所以檢索詞能反映出讀者對(duì)于紙質(zhì)或電子圖書的閱讀需求,而讀者行為數(shù)據(jù)反映出讀者的使用習(xí)慣和規(guī)律,也反映出OPAC 系統(tǒng)功能的友好程度及使用效果,這些方面都值得圖書館的工作人員進(jìn)行研究。
山東農(nóng)業(yè)大學(xué)圖書館使用的是匯文OPAC 系統(tǒng),百度統(tǒng)計(jì)云平臺(tái)能夠記錄讀者使用OPAC 的詳細(xì)數(shù)據(jù)并按天進(jìn)行了初步的匯總,其中讀者進(jìn)行書目檢索的數(shù)據(jù)記錄每年大約有20 余萬(wàn)條, 對(duì)這些讀者檢索行為數(shù)據(jù)進(jìn)行分析與挖掘, 可以了解讀者使用OPAC的基本情況,了解讀者的借閱需求、閱讀傾向,以及讀者使用OPAC 系統(tǒng)的習(xí)慣和規(guī)律等,進(jìn)而可以為圖書館的館藏建設(shè)、讀者服務(wù)等工作提供具有一定參考價(jià)值的數(shù)據(jù)和結(jié)論。
本文研究使用Python 語(yǔ)言作為編程和數(shù)據(jù)挖掘工具,使用Excel、Json 作為數(shù)據(jù)文件格式,按照功能需要共計(jì)編寫Python 小程序近20 個(gè)。
利用統(tǒng)計(jì)系統(tǒng)提供的數(shù)據(jù)下載API 編寫程序下載所需原始數(shù)據(jù),本文研究按日下載數(shù)據(jù),每天的數(shù)據(jù)保存為一個(gè)文件, 下載的數(shù)據(jù)是Json 格式, 編寫Python程序?qū)⑵滢D(zhuǎn)換為Excel 文件,方便直觀瀏覽和處理。
統(tǒng)計(jì)系統(tǒng)已經(jīng)將網(wǎng)站的多項(xiàng)總體使用情況進(jìn)行了統(tǒng)計(jì),形成了數(shù)據(jù)列表和簡(jiǎn)單圖表,利用這些通用型的數(shù)據(jù)列表, 結(jié)合OPAC 的實(shí)際需要進(jìn)行數(shù)據(jù)提取、組合、合并和統(tǒng)計(jì)分析。
把讀者檢索相關(guān)的數(shù)據(jù)記錄從下載的原始數(shù)據(jù)中提取出來(lái),根據(jù)特征字符串區(qū)分出不同的檢索方式并加以研究,其次將檢索詞從檢索式URL 中提取出來(lái)作為單獨(dú)的字段,再經(jīng)過(guò)數(shù)據(jù)處理和分組聚合形成檢索詞列表并進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)挖掘研究。
對(duì)多個(gè)數(shù)據(jù)集合根據(jù)其特點(diǎn)和需要選擇不同的圖形類別進(jìn)行可視化處理, 利用圖形進(jìn)行概況了解、數(shù)據(jù)分析和規(guī)律發(fā)現(xiàn)。
讀者的每次訪問(wèn)從開(kāi)始到結(jié)束都可以視為一次會(huì)話,一次會(huì)話中可能會(huì)包含多項(xiàng)操作,本文以2021年1月至6月的數(shù)據(jù)為例進(jìn)行分析,半年中總的訪問(wèn)次數(shù)為15 014 次,按會(huì)話時(shí)長(zhǎng)分段統(tǒng)計(jì)出各段的總訪問(wèn)次數(shù)繪制成圖1,其具體數(shù)據(jù)顯示,有6 318 次訪問(wèn)會(huì)話時(shí)長(zhǎng)少于1 分鐘, 占比為42.08%,72.75%的訪問(wèn)在3 分鐘內(nèi)完成。另外,筆者在詳細(xì)數(shù)據(jù)中發(fā)現(xiàn)時(shí)長(zhǎng)少于等于9 秒鐘的訪問(wèn)會(huì)話有2 997 次, 占比19.96%,為了驗(yàn)證這部分?jǐn)?shù)據(jù)的有效性, 筆者進(jìn)行了多次模擬,發(fā)現(xiàn)在2-3 秒鐘內(nèi)完成一次簡(jiǎn)單的檢索任務(wù)是完全可行的,這部分?jǐn)?shù)據(jù)完全可以作為有效數(shù)據(jù)來(lái)進(jìn)行分析。從數(shù)據(jù)來(lái)看,大多數(shù)讀者都在較短的時(shí)間內(nèi)完成了檢索,這反映出大部分讀者都希望盡快結(jié)束搜索過(guò)程,也與讀者大量使用圖書館門戶首頁(yè)的快捷綜合檢索框進(jìn)行書目檢索有關(guān)。
圖1 會(huì)話時(shí)長(zhǎng)分段與其總訪問(wèn)次數(shù)統(tǒng)計(jì)圖
訪問(wèn)頁(yè)數(shù)統(tǒng)計(jì)的是讀者每次訪問(wèn)會(huì)話一共瀏覽了本網(wǎng)站多少個(gè)頁(yè)面,訪問(wèn)頁(yè)數(shù)的多少反應(yīng)了讀者需求獲得滿足的效率,如讀者只需要檢索到一種圖書的館藏位置, 在理想狀態(tài)下只需要在OPAC 中訪問(wèn)1~2個(gè)頁(yè)面就完成檢索離開(kāi)了。表1 是2021年1月至6月的訪問(wèn)頁(yè)數(shù)分段與對(duì)應(yīng)的總訪問(wèn)會(huì)話次數(shù)統(tǒng)計(jì)表,數(shù)據(jù)顯示,51.82%的讀者只訪問(wèn)了1 到2 個(gè)頁(yè)面就離開(kāi)了,不超過(guò)4 個(gè)頁(yè)面的總計(jì)占68.28%,訪問(wèn)5 個(gè)頁(yè)面以上的占31.72%,總體上看大多數(shù)讀者是在已經(jīng)有了基本明確的意圖的情況下使用OPAC, 比如查詢某書有沒(méi)有可借復(fù)本或是查詢館藏地點(diǎn)和位置信息,而在OPAC 中探索性發(fā)現(xiàn)有用圖書的行為不多。
表1 訪問(wèn)頁(yè)數(shù)分段與其總訪問(wèn)次數(shù)統(tǒng)計(jì)表
基于對(duì)多個(gè)因素的綜合考慮, 本文選用2018年的數(shù)據(jù)為研究對(duì)象,首先從每天的數(shù)據(jù)文件中把讀者檢索相關(guān)的所有數(shù)據(jù)記錄提取出來(lái)并合并成一個(gè)Excel 文件,經(jīng)過(guò)數(shù)據(jù)處理、分組聚合,形成可分析的數(shù)據(jù)集。
2.3.1 檢索方式的分析
統(tǒng)計(jì)系統(tǒng)記錄的是讀者每次檢索生成的檢索結(jié)果列表頁(yè)的URL 以及其訪問(wèn)次數(shù)、 平均停留時(shí)長(zhǎng)等多項(xiàng)統(tǒng)計(jì)數(shù)據(jù),每種檢索方式生成的URL 不相同,所以可以簡(jiǎn)單使用Python 的df1=df.loc [df[‘name’].str.contains(“**”)]語(yǔ)句把某種檢索方式的所有數(shù)據(jù)提取出來(lái),其中name 為URL 字段的名稱,“**”為某種檢索方式區(qū)別于其他方式的特征字符串。
OPAC 的檢索方式包括簡(jiǎn)單檢索、多字段檢索、綜合檢索框檢索、二次檢索,具體數(shù)據(jù)表明,讀者基本忽略了所謂高級(jí)檢索即多字段組合檢索的存在,只有96條檢索URL, 總檢索次數(shù)不到300, 而簡(jiǎn)單檢索的URL 條數(shù)則達(dá)到17 439 條數(shù),總檢索次數(shù)達(dá)到20 余萬(wàn)次。在圖書館門戶網(wǎng)站首頁(yè)的綜合檢索框進(jìn)行OPAC 檢索和在檢索結(jié)果列表頁(yè)上的二級(jí)檢索界面進(jìn)行檢索本質(zhì)上也是簡(jiǎn)單檢索,綜合檢索框產(chǎn)生的URL有8244 條,總檢索次數(shù)有54 770 次,二次檢索產(chǎn)生的URL 共計(jì)8 826 條,總檢索次數(shù)20 261。讀者的行為數(shù)據(jù)表明,讀者都傾向于簡(jiǎn)單方便的檢索方式而不是去構(gòu)造復(fù)雜的檢索式。
2.3.2 生成完整的年度檢索詞統(tǒng)計(jì)列表
在統(tǒng)計(jì)系統(tǒng)記錄的URL 中含有檢索詞, 提取出檢索詞作為一個(gè)字段,使用Python 分組聚合函數(shù)將相同檢索詞記錄合并為一條,本文的原則是,無(wú)論是題名檢索還是著者檢索,只要檢索詞相同的記錄就合并為一條,刪除不合理數(shù)據(jù)后,形成檢索詞的統(tǒng)計(jì)列表,2018年度共計(jì)產(chǎn)生21 406 條數(shù)據(jù)。列表的字段包括檢索詞、檢索次數(shù)、檢索結(jié)果頁(yè)的平均瀏覽時(shí)長(zhǎng)、訪客數(shù)、訪問(wèn)IP 數(shù)、檢索結(jié)果頁(yè)跳轉(zhuǎn)其他頁(yè)面的次數(shù),等等。通過(guò)瀏覽、統(tǒng)計(jì)、分析此列表,可以比較精確的了解全部的讀者檢索情況,本列表的生成是一個(gè)重要研究步驟和成果,有了它可以從多個(gè)角度和層面展開(kāi)數(shù)據(jù)分析和挖掘。
2.3.3 檢索頻次排行榜
將檢索詞列表按檢索頻次排序生成排行榜,其中“東野圭吾”的檢索頻次最高,達(dá)到2 116 次,是2018年度的最熱門檢索詞。檢索頻次排名前20 位的檢索詞中與熱門小說(shuō)和經(jīng)典文學(xué)相關(guān)的有13 個(gè)、 思政類檢索詞共計(jì)5 個(gè)、基礎(chǔ)課程類檢索詞共計(jì)2 個(gè),這基本反映了讀者最關(guān)注的熱點(diǎn)。在匯文OPAC 系統(tǒng)的檢索界面上僅提供了30 天熱門檢索詞列表, 統(tǒng)計(jì)顯示30 天熱門檢索詞列表也具有較高的使用率,所以可以推定:整理并選取一定數(shù)量的熱門檢索詞在OPAC 檢索界面發(fā)布年度熱門檢索詞排行榜,對(duì)于讀者的檢索會(huì)更加有幫助,也更有參考價(jià)值,對(duì)于讀者閱讀推廣也有協(xié)助作用。
2.3.4 檢索頻次分段統(tǒng)計(jì)分析
2018年全年搜索量大于1 000 次的檢索詞共有13 個(gè),這些檢索詞平均每天被檢索3 次以上,其相關(guān)的圖書理應(yīng)受到重點(diǎn)關(guān)注。年度檢索頻次未超過(guò)9 次的檢索詞個(gè)數(shù)占據(jù)了檢索詞個(gè)數(shù)總量的75.24%,雖然數(shù)量達(dá)到16 106 個(gè),但僅完成了57 171 次檢索,檢索頻次大于等于10 次的檢索詞共計(jì)5 300 個(gè),累計(jì)檢索次數(shù)為228 364 次,80%的檢索是由這不到25%的檢索詞來(lái)完成的,這些檢索詞無(wú)疑應(yīng)該是分析研究的重點(diǎn), 而檢索頻次較低的檢索詞里面可能會(huì)存在新興的、潛在的知識(shí)和圖書熱點(diǎn)。
2.3.5 對(duì)檢索詞進(jìn)行分類研究
對(duì)檢索詞進(jìn)行分類,既可以參照中圖法也可以根據(jù)讀者課程學(xué)習(xí)或是生活?yuàn)蕵?lè)的需求來(lái)進(jìn)行,還可以按檢索頻次分段來(lái)分類,針對(duì)不同類型的檢索詞可以采用不同的策略來(lái)分別進(jìn)行研究。對(duì)于檢索頻次較高的與各學(xué)科課程密切相關(guān)的這一類檢索詞需要長(zhǎng)期關(guān)注,如“高等數(shù)學(xué)”和“生物化學(xué)”等,研究相關(guān)分類圖書的種數(shù)、出版日期、館藏量、館藏分配、借閱量、檢索頻次的動(dòng)態(tài)變化以及各個(gè)數(shù)據(jù)之間的相互關(guān)系,從多個(gè)層面進(jìn)行研究并落實(shí),確保讀者的學(xué)習(xí)需求得到滿足并提高相關(guān)圖書的借閱率。
本文通過(guò)對(duì)2018年度的OPAC 讀者檢索行為數(shù)據(jù)進(jìn)行研究,比較系統(tǒng)、全面、精確的了解了OPAC 系統(tǒng)的讀者使用情況,同時(shí)也探索了研究方法,積累了經(jīng)驗(yàn), 并為后續(xù)年份的研究提供了可行的思路方法和整套的程序。另一方面,由于OPAC 的檢索訪問(wèn)不需要用戶登錄,而且大部分訪問(wèn)是在公用查詢端上進(jìn)行的,無(wú)法取得讀者個(gè)性化特征數(shù)據(jù)來(lái)進(jìn)行關(guān)聯(lián)性研究,因此本文的研究具有一定的局限性。后續(xù)年份的數(shù)據(jù)分析還將繼續(xù)開(kāi)展,再結(jié)合館藏量、借閱量等相關(guān)數(shù)據(jù)來(lái)增加數(shù)據(jù)的維度, 通過(guò)不斷對(duì)相關(guān)數(shù)據(jù)的分析和挖掘,全面了解讀者的閱讀需求和行為特點(diǎn),一定能為資源建設(shè)、流通和閱讀推廣等工作提供一定的幫助。