高洪臻
(濰坊市圖書館 山東濰坊 261061)
OPAC(Online Public Access Catalog,聯(lián)機(jī)公共目錄檢索)系統(tǒng)是互聯(lián)網(wǎng)時(shí)代圖書館與用戶互動的終端系統(tǒng),為用戶獲取圖書館資源提供方便快捷的網(wǎng)絡(luò)渠道,是新時(shí)代圖書館知識共享、開放閱讀、館藏資源管理與服務(wù)的重要窗口。圖書館新媒體服務(wù)環(huán)境下,OPAC檢索平臺已成為用戶與圖書館館藏資源銜接的重要紐帶之一,如何充分借助OPAC檢索系統(tǒng)深入挖掘用戶對館藏資源的需求,成為圖書館閱讀服務(wù)工作的重要研究方向[1]。
用戶訪問OPAC網(wǎng)頁時(shí),網(wǎng)頁服務(wù)器會根據(jù)用戶檢索字段記錄檢索日志,檢索日志信息包括用戶查詢的書籍名稱、作者、關(guān)鍵詞等,這些信息可體現(xiàn)用戶的實(shí)際需求和潛在需求,是除文獻(xiàn)借閱量指標(biāo)外揭示用戶需求最直接的信息。借助數(shù)據(jù)挖掘中文處理算法,挖掘其檢索日志間的關(guān)系,深入探究圖書館館藏資源與用戶需求的關(guān)聯(lián),通過數(shù)據(jù)分析有助于創(chuàng)新閱讀服務(wù)工作,提升圖書館館藏資源建設(shè)水平和文獻(xiàn)流通率,讓圖書館知識共享、閱讀服務(wù)工作更貼近用戶需求。
OPAC檢索日志中存儲了用戶檢索的關(guān)鍵詞信息,關(guān)鍵詞信息多以中文字、詞形式存儲,部分用戶借助OPAC查詢時(shí)輸入的僅僅是關(guān)鍵詞,并非準(zhǔn)確的書籍信息,故需對OPAC檢索日志進(jìn)行挖掘分析。處理這些關(guān)鍵詞短文本語言需要借助數(shù)據(jù)挖掘中文處理算法,對日志關(guān)鍵詞做分詞、停用詞處理、詞頻計(jì)算等預(yù)處理,經(jīng)過預(yù)處理后的詞語組才可進(jìn)入數(shù)據(jù)挖掘相似度計(jì)算方法,從而展示OPAC檢索平臺中用戶留下的資源期望信息。
OPAC檢索日志中的原始信息經(jīng)預(yù)處理后的詞匯數(shù)據(jù)組,需進(jìn)行詞匯數(shù)據(jù)的相似度計(jì)算,根據(jù)數(shù)據(jù)組中的數(shù)據(jù)元在整個(gè)文檔信息中出現(xiàn)的頻率與前后詞語關(guān)系,計(jì)算詞語相似度,并根據(jù)相似度大小劃分類別,得到數(shù)據(jù)處理后的相關(guān)信息組,展示詞語間的關(guān)聯(lián)。
數(shù)據(jù)挖掘中數(shù)據(jù)向量的相似度計(jì)算方法主要有夾角余弦法、皮爾遜相關(guān)系數(shù)法、杰卡德(Jaccard)系數(shù)法等[2]。其中Jaccard系數(shù)法以乘積方式為主,增大特征項(xiàng)對極性判定的作用,去掉分母中向量相同的部分進(jìn)而提高向量相似程度的辨識度,因此Jaccard系數(shù)法常用來計(jì)算不完全相同的兩個(gè)數(shù)據(jù)向量間的相似程度,而文本數(shù)據(jù)向量間的相近性較強(qiáng),適用于Jaccard系數(shù)法進(jìn)行相似度計(jì)算與辨別。
基于共現(xiàn)詞次數(shù)的Jaccard系數(shù)法主要根據(jù)兩個(gè)句子中出現(xiàn)相同部分的多少來判定,共現(xiàn)詞相同部分越多其相似度越高,Jaccard相似系數(shù)的計(jì)算公式如公式1所示:
其中Inter(S, L)表示句子S、L的數(shù)據(jù)組詞匯交集,Union(S, L)表示句子S、L的詞匯并集[3]。OPAC檢索日志中詞語字符一般較短,因此Jaccard系數(shù)法可滿足日志信息中文本信息的相似度計(jì)算,從而分析用戶查詢信息間的關(guān)系,挖掘用戶閱讀需求。
OPAC檢索日志中含有用戶需求的查詢信息,查詢信息以條目形式存儲于文檔中,由詞語、句子的形式存儲。OPAC用戶檢索行為分析主要以Jaccard系數(shù)為基礎(chǔ),分析查詢條目信息中詞語、句子間的吻合度,以計(jì)算得到的Jaccard相似度劃分類別,相似度越高則代表查詢信息條目中相近的信息越多,關(guān)聯(lián)信息分析價(jià)值越高。OPAC用戶檢索行為分析方法的具體步驟為:
(1)給定OPAC檢索日志文檔X,文檔中包含n條OPAC查詢條目信息,其數(shù)據(jù)集表示為,{X1,X2,X3,...Xn,}數(shù)據(jù)Xi(1≤i≤n)表示由詞語、句子組成的第i條查詢信息,若查詢條目信息中僅包含詞語,則將詞語看待為句子表示。首先對數(shù)據(jù)集{X1,X2,X3,...Xn,}進(jìn)行文本預(yù)處理,包括數(shù)據(jù)Xi(1≤i≤n)的分詞、停用詞處理、詞頻計(jì)算等,經(jīng)預(yù)處理后的數(shù)據(jù)集由數(shù)組X關(guān)鍵詞信息組成{YX1,YX2,YX3,...YXn},其中數(shù)據(jù)YXi(1≤i≤n)表示文本預(yù)處理后數(shù)據(jù)集X中第i個(gè)元素對應(yīng)的預(yù)處理數(shù)據(jù)信息。
(2)文本向量化操作。{YX1,YX2,YX3,...YXn}數(shù)據(jù)組選用Word2Vec文本向量化方法生成對應(yīng)的數(shù)據(jù)化文本向量V(YX) ={V(YX1),V(YX2),...V(YXn)},V(YX)數(shù)組中每個(gè)元素代表一個(gè)查詢條目對應(yīng)關(guān)鍵詞的向量化信息。
(3)計(jì)算文本向量數(shù)組中數(shù)據(jù)的Jaccard相似度。Jaccard相似系數(shù)的計(jì)算公式生成V(YX)數(shù)組元素間信息的Jaccard相似度Sim(V(YXi),V(YXj))(1≤i,j≤n)。
(4)設(shè)置閾值r和類別數(shù)w,根據(jù)得到的元素Jaccard相似度Sim(V(YXi),V(YXj))劃分?jǐn)?shù)據(jù)類別。首先將Sim(V(YXi),V(YXj))同閾值r比較,高于閾值的兩個(gè)向量元素則代表對應(yīng)的句子間交集大,低于閾值的則代表相似度低,按照句子相似度高低,對交集大的句子進(jìn)行類別劃分。由于可視化工具展示的局限性,需設(shè)定類別數(shù)w劃分句子。
根據(jù)劃分后的類別,展示句子間的相關(guān)性,分析句子間關(guān)聯(lián)。
本文以濰坊市圖書館為例,對其2018—2020年間的OPAC檢索信息日志數(shù)據(jù)進(jìn)行分析,根據(jù)每年OPAC檢索信息日志數(shù)據(jù)的分布特點(diǎn),選取搜索量大于一定數(shù)值的關(guān)鍵詞進(jìn)行處理分析。例如2019年濰坊市圖書館OPAC檢索平臺日志數(shù)據(jù)共11萬條,去除檢索次數(shù)小于20次的關(guān)鍵詞,選取2 523條檢索數(shù)據(jù)進(jìn)行分析,縮小處理數(shù)據(jù)的樣本數(shù),提高處理結(jié)果的準(zhǔn)確性和代表性。針對濰坊市圖書館每年OPAC檢索信息數(shù)據(jù)組,實(shí)驗(yàn)前首先對數(shù)據(jù)預(yù)處理以規(guī)范實(shí)驗(yàn)數(shù)據(jù),包括分詞、停用詞處理、詞頻計(jì)算、數(shù)據(jù)標(biāo)記等,然后將實(shí)驗(yàn)數(shù)據(jù)進(jìn)行Jaccard系數(shù)下的相似度計(jì)算,設(shè)定閾值r為0.6,類別w根據(jù)可視化工具展示效果分別設(shè)定為20—30之間,通過文本處理工具對處理結(jié)果進(jìn)行可視化展示,進(jìn)而分析實(shí)驗(yàn)結(jié)果[4-5]。
本文選取濰坊市圖書館2018—2020年OPAC檢索日志進(jìn)行實(shí)驗(yàn)分析,以檢索日志中檢索條目組成的數(shù)據(jù)組{X1,X2,X3,...Xn,}為實(shí)驗(yàn)數(shù)據(jù)進(jìn)行Jaccard系數(shù)下的相似度計(jì)算,通過文本處理工具KH Coder 3 Folder進(jìn)行詞匯網(wǎng)絡(luò)圖的可視化處理。圖1展示了2020年OPAC檢索關(guān)鍵詞按詞頻大小及Jaccard相似系數(shù)計(jì)算后所生成的詞匯網(wǎng)絡(luò)圖,圖中圓圈越大代表關(guān)鍵詞在數(shù)據(jù)組中出現(xiàn)的次數(shù)越多。
圖1 濰坊市圖書館2020年OPAC檢索熱門詞匯網(wǎng)絡(luò)圖
由于Jaccard相似系數(shù)是以詞匯在句子和整個(gè)文本中出現(xiàn)的頻率為依據(jù)計(jì)算詞的相似度,因此大部分詞語僅在同一文本中出現(xiàn),詞頻較高的詞語其相似度高,例如“儒林”“外史”;“月亮”“便士”等,這些詞語被劃分后,可明顯看出《慶余年》《斗羅大陸》等書已成為2020年OPAC平臺檢索的熱搜書籍。而不同文本句出現(xiàn)相同關(guān)鍵詞且詞頻較高時(shí),則在網(wǎng)絡(luò)圖中會將其鏈接,劃分為相似集群,例如“獵人”“筆記”“盜墓”;“大”“國”“演義”等,分別以“筆記”“國”為紐帶將不同的書籍信息鏈接。依據(jù)OPAC平臺檢索詞匯信息,本文在處理時(shí)將長文本處理中部分無意義但在OPAC平臺檢索詞數(shù)據(jù)分析中具有一定代表性意義的詞匯保留,例如“大”“小”等詞匯在長文本處理中一般視作停用詞被刪除,而本文在做OPAC平臺檢索詞處理時(shí),“大”“小”詞分別代表著《斗羅大陸》《植物大戰(zhàn)僵尸》《大江大河》《喬家大院》《米小圈》《小王子》《馬小跳》《小淘氣尼古拉》等書籍信息,在OPAC平臺檢索詞匯分析中具有一定的意義,因此本文保留了類似詞匯。整個(gè)詞匯網(wǎng)絡(luò)圖展示了OPAC檢索中高頻詞匯及高頻詞匯間的交集關(guān)系,以關(guān)鍵詞為紐帶將詞匯鏈接,借助詞匯網(wǎng)絡(luò)圖,可以分析用戶每年對館藏資源的需求以及趨向。
詞匯網(wǎng)絡(luò)圖借助詞頻及相似系數(shù),展現(xiàn)高詞頻和高關(guān)聯(lián)度的詞匯,高詞頻展示了書籍的受歡迎度,而高關(guān)聯(lián)詞匯則挖掘了不同書籍的相同信息,并突出用戶喜愛程度。圖1中關(guān)聯(lián)網(wǎng)最大且詞頻最高的網(wǎng)絡(luò)子圖是由“中國”“故事”“童話”等詞語組成,每個(gè)詞會根據(jù)其所在的句子及出現(xiàn)的頻率關(guān)聯(lián)對應(yīng)的詞組。本文以“故事”一詞為例,展示其關(guān)聯(lián)的數(shù)據(jù)信息(見圖2)。
圖2 以“故事”一詞為主線的OPAC檢索數(shù)據(jù)(部分)
OPAC檢索數(shù)據(jù)中,“故事”一詞關(guān)聯(lián)包括小說、童話、繪本等不同類別的書籍信息,例如《中國民間故事》《紅色少年的故事》《數(shù)學(xué)故事》《雷鋒的故事》等書籍信息;“少年”一詞關(guān)聯(lián)《牧羊少年》《紅色少年》《少年特戰(zhàn)隊(duì)》等書籍信息;“爸爸”一詞關(guān)聯(lián)《口袋里的爸爸》《大頭兒子和小頭爸爸》《我爸爸》《了不起的狐貍爸爸》等書籍信息。主線關(guān)鍵詞的存在鏈接了相關(guān)熱門搜索書籍,書籍受眾人群較多、主題內(nèi)容豐富,但以相同的主線關(guān)聯(lián)在子網(wǎng)絡(luò)中,因此圖書館可根據(jù)其關(guān)聯(lián)結(jié)果在加大館藏資源建設(shè)的同時(shí)創(chuàng)新閱讀推廣工作,借助數(shù)據(jù)分析結(jié)果提高文獻(xiàn)資源閱讀量和用戶參與度。
以Jaccard相似系數(shù)為基礎(chǔ)研究OPAC檢索數(shù)據(jù)得到的詞匯網(wǎng)絡(luò)圖,可得到用戶搜索熱詞及相關(guān)書籍信息子網(wǎng)絡(luò),而依據(jù)經(jīng)典數(shù)據(jù)挖掘?qū)嵗捌【婆c尿布”分析思想,OPAC檢索數(shù)據(jù)中詞頻相同或相近的詞所代表的書籍也隱含著其對應(yīng)的關(guān)系。圖1中,“正面、管教”“儒林、外史”“云邊、小賣部”等關(guān)鍵詞的詞頻相近;“大”“國”“演義”等關(guān)鍵詞的詞頻相近。這些詞頻相近詞匯分別代表著不同的書籍信息,依據(jù)其詞頻大小關(guān)系可進(jìn)行書籍相關(guān)展示與借閱推薦等工作,從隱含詞匯信息中挖掘閱讀服務(wù)工作的亮點(diǎn)和創(chuàng)新點(diǎn)。
根據(jù)相同年份的不同詞頻信息可挖掘當(dāng)年OPAC檢索信息熱點(diǎn)和關(guān)聯(lián)關(guān)系,而借助不同年份的不同檢索信息,則可分析用戶館藏資源需求的變化,并預(yù)測今后用戶需求,為圖書館閱讀服務(wù)工作的開展提供依據(jù)。圖3、圖4分別為濰坊市圖書館2018年、2019年OPAC檢索熱門詞匯網(wǎng)絡(luò)圖。
圖3 濰坊市圖書館2018年OPAC檢索熱門詞匯網(wǎng)絡(luò)圖
圖4 濰坊市圖書館2019年OPAC檢索熱門詞匯網(wǎng)絡(luò)圖
分析濰坊市圖書館2018—2020年OPAC檢索熱門詞匯網(wǎng)絡(luò)圖,可知每年搜索關(guān)鍵詞的變化。與2018年相比,2019年新增“爸爸”“友情”“豆豆”“愛的”“葵花”“定律”等傾向于情感、教育等方向的書籍信息詞;與2019年相比,2020年新增“特種兵”“非暴力”“米小圈”“余年”“正面管教”等愛國、熱劇等方向的書籍信息。每年的OPAC熱門關(guān)鍵詞會根據(jù)當(dāng)年國家發(fā)展、教育話題和影視劇等發(fā)生改變,因此可根據(jù)當(dāng)年不同發(fā)展情況,提前預(yù)測用戶需要的熱門館藏圖書,提高用戶閱讀興趣和圖書借閱量。
基于Jaccard相似系數(shù)分析OPAC檢索關(guān)鍵詞,可從詞頻和詞匯關(guān)聯(lián)關(guān)系展開檢索關(guān)鍵詞的分析,根據(jù)分析結(jié)果研究圖書館閱讀服務(wù)工作的創(chuàng)新和發(fā)展。根據(jù)用戶檢索關(guān)鍵詞分析用戶對館藏資源的需求,從而開展館藏資源采購新方法;根據(jù)用戶檢索書籍信息間的關(guān)系,包括關(guān)鍵詞關(guān)聯(lián)書籍信息、詞頻概率大小相同類別書籍信息,分析用戶需求的書籍間的關(guān)系,更新館藏資源布局,以用戶需求書籍信息為基礎(chǔ),建設(shè)用戶趨向館藏資源空間;根據(jù)用戶需求書籍方向、用戶閱讀需求等,分析用戶閱讀興趣和方向,進(jìn)而創(chuàng)新閱讀推廣工作,提升閱讀推廣服務(wù)新理念。本文分別從館藏資源采購、館藏資源布局、閱讀推廣服務(wù)三方面分析工作創(chuàng)新點(diǎn)和發(fā)展方向。
OPAC檢索數(shù)據(jù)涵蓋了用戶所需館藏信息關(guān)鍵詞,包括館內(nèi)已有館藏及館內(nèi)未采購書籍,根據(jù)檢索數(shù)據(jù)信息可分析用戶潛在的館藏需求信息,從詞頻大小、查詢時(shí)間研究圖書館館藏資源采購新方法[6-7]。
(1)依據(jù)OPAC檢索數(shù)據(jù)中詞頻較高的關(guān)鍵詞信息,采購館藏資源。OPAC檢索關(guān)鍵詞中,詞頻較高的關(guān)鍵詞所代表的書籍可直接揭示大部分用戶需求,根據(jù)關(guān)鍵詞查詢次數(shù),依次補(bǔ)充館藏副本和新增館藏書籍是館藏資源采購的新路徑,具有較高的數(shù)據(jù)參考依據(jù),可以有效提高用戶借閱需求的滿足率。
(2)挖掘OPAC檢索詞頻偏低的關(guān)鍵詞信息,補(bǔ)充、豐富館藏資源。詞頻較低的關(guān)鍵詞并不代表可以忽略,這些信息中包含部分用戶的閱讀需求,若館內(nèi)無此類館藏資源,表示館藏資源涵蓋范圍有待補(bǔ)充,此類書籍需要借助OPAC檢索數(shù)據(jù)中詞頻較低的關(guān)鍵詞挖掘發(fā)現(xiàn),根據(jù)關(guān)鍵詞信息對應(yīng)的書籍發(fā)掘需要采購的圖書,從而補(bǔ)充、豐富館藏資源。
(3)根據(jù)OPAC用戶檢索行為指向圖書信息,深入挖掘關(guān)鍵數(shù)據(jù)信息,包括書籍簡介、作者、出版社、類別等,借助關(guān)聯(lián)規(guī)則、聚類算法等智能分析方法,關(guān)聯(lián)相關(guān)信息規(guī)則,例如分析書籍簡介關(guān)鍵詞、作者相關(guān)度等信息,尋找與查詢圖書相關(guān)的書籍,進(jìn)而拓展用戶需求的閱讀范圍,建設(shè)個(gè)性化服務(wù)館藏資源。
(4)OPAC檢索關(guān)鍵詞往往代表著某一類圖書,根據(jù)檢索信息內(nèi)容,查詢館內(nèi)館藏資源豐富度,若此類館藏資源較少,則應(yīng)查詢同類書籍及對應(yīng)的潛在發(fā)展性書籍信息,根據(jù)一個(gè)關(guān)鍵詞指引的類別,運(yùn)用發(fā)散思維擴(kuò)展信息渠道,提升關(guān)鍵詞代表性類別書籍,從而提升館藏需求列表,以增強(qiáng)館藏亮點(diǎn)及潛在書籍為趨向建設(shè)館藏資源。
基于Jaccard相似系數(shù)分析的OPAC檢索熱門詞匯網(wǎng)絡(luò)從詞匯大小、關(guān)聯(lián)關(guān)系展示,根據(jù)OPAC檢索數(shù)據(jù)的多角度分析,從檢索熱門排行、關(guān)聯(lián)信息挖掘、數(shù)據(jù)比對分析的角度創(chuàng)新圖書館館藏資源布局。
(1)匯集用戶需求量大的圖書,建立熱門書籍專架。根據(jù)一段時(shí)間內(nèi)OPAC檢索關(guān)鍵詞詞頻大小,篩選較高詞頻詞匯對應(yīng)的書籍,并根據(jù)書籍自身特征建立熱門書架,滿足用戶對熱門書籍的閱讀需求,同時(shí)通過專架吸引更多的用戶借閱這些熱門圖書。
(2)挖掘OPAC檢索關(guān)聯(lián)書籍,搭建相關(guān)主題區(qū)域。分析OPAC檢索熱門詞匯網(wǎng)絡(luò)中的子網(wǎng)絡(luò),以主線詞匯對應(yīng)的相關(guān)書籍為基礎(chǔ),設(shè)立主題書架。例如濰坊市圖書館2019年OPAC檢索熱門詞匯網(wǎng)絡(luò)中“故事”一詞,其對應(yīng)的圖書可設(shè)置故事專題書架,匯集對應(yīng)的熱門圖書,提高圖書館館藏資源建設(shè)的創(chuàng)新性和個(gè)性化。
(3)分析OPAC檢索同頻率詞匯,推薦同熱度書籍。借助經(jīng)典數(shù)據(jù)挖掘?qū)嵗捌【婆c尿布”分析思想,將詞頻大小相近的圖書鄰近排放,設(shè)置相關(guān)類別同類圖書推薦或相關(guān)主題推薦,方便用戶尋找,從而提高圖書館閱讀服務(wù)力度[8]。
(4)設(shè)置書籍聯(lián)動館藏區(qū),實(shí)現(xiàn)高需求量圖書帶動低需求量圖書提高借閱量。以O(shè)PAC檢索詞匯中高頻檢索關(guān)鍵詞代表圖書為主,搜尋相關(guān)低頻檢索關(guān)鍵詞代表圖書,并設(shè)置聯(lián)動書架,以主題相關(guān)、作者相關(guān)等線索,吸引用戶借閱圖書,提高圖書館借閱量。
圖書館閱讀服務(wù)要根據(jù)實(shí)際工作的需求,以互聯(lián)網(wǎng)時(shí)代新技術(shù)為平臺,創(chuàng)新閱讀服務(wù)工作方向、提升閱讀服務(wù)意識、拓展閱讀服務(wù)路徑。
(1)融合新時(shí)代下互聯(lián)網(wǎng)新技術(shù),分析OPAC用戶檢索行為下的潛在需求,預(yù)測后期用戶需求走向,以智能算法為支撐,為圖書館閱讀服務(wù)工作提供新路徑和新方向。
(2)實(shí)現(xiàn)印刷型圖書與電子圖書的統(tǒng)一檢索與推送服務(wù),推薦用戶所需熱門印刷型圖書和關(guān)聯(lián)性電子圖書,擴(kuò)大圖書館閱讀服務(wù)覆蓋面,充分發(fā)揮線上圖書館的作用,實(shí)現(xiàn)電子圖書推送服務(wù),打破傳統(tǒng)印刷型圖書副本數(shù)量的限制,充分滿足用戶閱讀需求。
(3)以O(shè)PAC檢索關(guān)聯(lián)詞匯為基礎(chǔ),打造專題閱讀活動,包括線上專題閱讀服務(wù)、主題圖書互推互認(rèn)等專題性活動,并開展以主線詞匯為主題的活動,涵蓋范圍廣、關(guān)聯(lián)書籍種類多樣化,從而提升圖書館閱讀服務(wù)范圍及創(chuàng)新性。
基于Jaccard相似系數(shù)開展OPAC檢索平臺下用戶關(guān)鍵詞詞匯的分析,并以詞匯網(wǎng)絡(luò)的形式展現(xiàn),從詞匯詞頻和相似關(guān)聯(lián)詞匯入手,分析熱門關(guān)鍵詞間的關(guān)系,根據(jù)不同角度的大數(shù)據(jù)分析可以獲取用戶的閱讀需求方向,根據(jù)數(shù)據(jù)分析的結(jié)果可以指導(dǎo)圖書館資源建設(shè)和圖書館閱讀服務(wù)創(chuàng)新工作的發(fā)展,為用戶提供精準(zhǔn)化閱讀服務(wù),從而有效提升圖書館館藏資源利用率、用戶參與度及滿意度。Jaccard相似系數(shù)既可以應(yīng)用于圖書館OPAC檢索行為分析,也可以應(yīng)用于圖書館網(wǎng)站用戶檢索行為分析、數(shù)字圖書館用戶行為分析,同時(shí)可將這一功能開發(fā)、整合到智慧圖書館大數(shù)據(jù)統(tǒng)計(jì)分析系統(tǒng)中,通過智能化手段為圖書館服務(wù)提供決策參考。