喬 婷
(中國消防救援學(xué)院,北京 102202)
隨著云計算技術(shù)、大數(shù)據(jù)技術(shù)和各種傳感器技術(shù)的迅猛發(fā)展,圖書館數(shù)據(jù)中心的基礎(chǔ)設(shè)施架構(gòu)及用戶服務(wù)模式發(fā)生了根本性改變,數(shù)據(jù)資源已經(jīng)成為圖書館信息系統(tǒng)重要的組成部分和圖書館服務(wù)能力的重要保障因素。如何高效利用大數(shù)據(jù)資源對用戶需求、用戶信息行為、用戶社會關(guān)系、圖書館服務(wù)方法和圖書館業(yè)務(wù)模式進行準(zhǔn)確感知和識別,是圖書館提高對用戶需求的洞察力以及改善用戶閱讀體驗的前提,也是圖書館開展用戶精準(zhǔn)的個性化服務(wù)和提高自身的服務(wù)競爭力的有力保證。
隨著網(wǎng)絡(luò)信息技術(shù)的發(fā)展,圖書館的用戶服務(wù)模式與服務(wù)能力的評估標(biāo)準(zhǔn)有了根本性的變革,用戶服務(wù)能力的建設(shè)重點已由以資源建設(shè)為核心,向以滿足用戶需求為中心的個性化服務(wù)能力建設(shè)轉(zhuǎn)變。因此,圖書館在用戶服務(wù)過程中,能否全面準(zhǔn)確掌握用戶的信息行為、信息獲取的社會關(guān)系、信息需求和信息獲取方式變化趨勢等數(shù)據(jù),已成為圖書館個性化服務(wù)安全、高效、準(zhǔn)確和經(jīng)濟開展的關(guān)鍵。
圖書館的服務(wù)價值來源于對用戶需求的實現(xiàn)。認(rèn)知科學(xué)研究發(fā)現(xiàn),用戶是書館服務(wù)的主體,圖書館僅僅是用戶信息活動的外在工具之一,是用戶信息需求在物理或現(xiàn)實世界的延伸[1];而用戶信息需求過程是一種“以我為主”的自組織過程,有著內(nèi)在的秩序,并獨立于圖書館而存在。因而,圖書館管理者不應(yīng)以專家自居,而應(yīng)重視用戶需求的內(nèi)在規(guī)律性。圖書館具有不同的用戶主體,而他們工作及學(xué)習(xí)的領(lǐng)域、身份、年齡等差異使他們對資源有著不同的需求及偏好[1]。把所有用戶的行為轉(zhuǎn)化為可度量的數(shù)據(jù),并對原本難以捉摸的用戶信息行為活動及其關(guān)系進行分析、描述、和預(yù)測,獲取到的新知識,對圖書館在管理方面進一步改進服務(wù)決策、提升服務(wù)能力具有指導(dǎo)性意義。
圖書館用戶行為是指為獲取圖書館信息資源而受思想支配而施行的一切活動??茖W(xué)高效采集用戶行為數(shù)據(jù),是分析用戶信息行為需求模式,提高圖書館用戶服務(wù)滿意度的關(guān)鍵。
根據(jù)用戶資源獲取方式的不同,用戶數(shù)據(jù)行為可以分為紙質(zhì)資源的獲取和電子資源的獲取。紙質(zhì)資源獲取方面主要涉及用戶基本信息、OPAC檢索記錄、館藏書目、流通歷史記錄;電子資源獲取主要涉及讀者對網(wǎng)站及移動客戶端中數(shù)字資源的訪問,具體包含用戶基本信息、數(shù)字資源類型、名稱、訪問利用方式及所利用詳細(xì)電子資源的歸屬分類。另外,根據(jù)用戶需求還應(yīng)包括用戶信息咨詢方面,具體包括用戶線上線下的業(yè)務(wù)咨詢、意見建議、紙質(zhì)及電子資源薦購等方面[2]。
圖書館用戶行為數(shù)據(jù)的獲取渠道多樣,從不同的數(shù)據(jù)庫表中獲取的數(shù)據(jù)包含大量的冗余和噪聲,并且不同數(shù)據(jù)表中的字段格式各不相同,因此必須對采集到的數(shù)據(jù)進行數(shù)據(jù)清洗、轉(zhuǎn)換集成、數(shù)據(jù)裝入等工作[3]。
用戶行為數(shù)據(jù)清洗是指對采集到的用戶行為數(shù)據(jù)進行處理,核實數(shù)據(jù)的完備性,過濾掉和用戶行為分析沒有關(guān)聯(lián)的垃圾數(shù)據(jù),以減少數(shù)據(jù)冗余和噪音對用戶行為分析的不良影響。隨著對戶行為探索的進一步加深,用戶信息行為數(shù)據(jù)的采集范圍和采集深度不斷增長,這些被采集的用戶行為數(shù)據(jù)中包含許多數(shù)據(jù)噪音。如果數(shù)據(jù)庫中這些不良數(shù)據(jù)一直存在,會對數(shù)據(jù)分析的結(jié)果造成影響,降低用戶信息行為數(shù)據(jù)的可用性和價值密度。數(shù)據(jù)清洗過程通過技術(shù)和手動操作相結(jié)進行,主要有對拼寫錯誤的更正,對缺失數(shù)據(jù)值的補充,對不同的系統(tǒng)中的重復(fù)數(shù)據(jù)進行處理、刪除噪聲數(shù)據(jù)。
由于用戶行為分析的數(shù)據(jù)獲取來自不同的數(shù)據(jù)庫、數(shù)據(jù)表,這些數(shù)據(jù)可能會有不同的數(shù)據(jù)存儲格式與類型,因此需要對某些數(shù)據(jù)表中存儲的數(shù)據(jù)字段類型進行修改,實現(xiàn)數(shù)據(jù)字段格式、類型的統(tǒng)一,以便數(shù)據(jù)挖掘過程的順利進行。數(shù)據(jù)轉(zhuǎn)換的目的是將收集抽取到的不同結(jié)構(gòu)的數(shù)據(jù)轉(zhuǎn)換成集成的、統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù),形成一個集成的統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)集合。另外,在首次裝入數(shù)據(jù)后,還需實時監(jiān)測數(shù)據(jù)源的變化,將更新的所需數(shù)據(jù)加載到數(shù)據(jù)倉庫中。
3.3.1 聚類模式
聚類分析模式是利用對象的不同特征,根據(jù)對象的相似性,將數(shù)據(jù)分為不同的分類的集合[2]。不同分類中的對象差別較大,而同一個類中的對象具有高度的相似性。例如,根據(jù)圖書館的用戶身份不同可以分為學(xué)生類、教員類、帶隊干部類、教輔員類??梢酝ㄟ^對圖書館的用戶屬性進行分類來研究用戶的行為習(xí)慣,如年齡、身份、專業(yè)、籍貫等,通過對用戶行為數(shù)據(jù)的聚類分析,從而找出對象與對象、對象與各屬性之間的關(guān)系,從而分析并獲得用戶的行為知識。
3.3.2 關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是用來描述數(shù)據(jù)庫中不同數(shù)據(jù)項之間存在的關(guān)系規(guī)則,可以根據(jù)一個對象中某些屬性的出現(xiàn)推導(dǎo)出另一些屬性也會屬于這個對象[3]。通過關(guān)聯(lián)規(guī)則可以從海量數(shù)據(jù)中發(fā)現(xiàn)存在于數(shù)據(jù)中的隱藏的一些關(guān)聯(lián)和相互的關(guān)系,可以發(fā)現(xiàn)用戶和其不同屬性之間的關(guān)聯(lián)類型,進而可以制定以用戶需求為中心的服務(wù)策略,提高用戶滿意度。例如,通過用戶數(shù)據(jù)關(guān)聯(lián)規(guī)則可以實現(xiàn)以下應(yīng)用:①通過分析某個用戶的屬性特征,分析用戶的閱讀偏好,可以將于此用戶所需圖書的同一類圖書進行推薦。②通過分析同一類集合中的用戶屬性,分析用戶的閱讀偏好,將相同性質(zhì)的圖書推薦給集合用戶。③通過分析得知具有相同閱讀偏好和閱讀方式的用戶屬性。
3.3.3 時間序列分析模式
時間序列分析是一組按照時間順序發(fā)生的事件,其在多個固定時間段內(nèi)的記錄的集合,在這些時間序列集合中獲取在一定時間間隔內(nèi)某事件發(fā)生的變化、規(guī)律[4]。例如,通過分析圖書館每天固定時間段內(nèi)的人數(shù)變化、借閱變化等,可以調(diào)整圖書館借閱室及閱覽室的開放時間及服務(wù)策略。
3.3.4 分類模式
分類模式是在已有定義好的類的基礎(chǔ)上,對大數(shù)據(jù)樣本進行分析,得到?jīng)Q定數(shù)據(jù)樣本屬于不同類的規(guī)則和方法,進而將數(shù)據(jù)中的數(shù)據(jù)項映射到應(yīng)該歸屬的類上。通過分類模式可以實現(xiàn)數(shù)據(jù)的應(yīng)用與預(yù)測。
例如,通過對圖書館用戶的數(shù)據(jù)樣本進行分析,可以對每個用戶基本進行統(tǒng)計分析,獲取數(shù)據(jù)的分類規(guī)則,建立一個用戶分類模型,將所有職別分類為學(xué)生的數(shù)據(jù)定義為學(xué)生類,所有職別分類為教員的定義為教師類,進而將所有的用戶數(shù)據(jù)使用此分類規(guī)則進行分類。
3.4.1 基于用戶行為數(shù)據(jù)挖掘分析提供個性化服務(wù)模式
用戶個性化服務(wù)是指以用戶為中心,利用數(shù)據(jù)挖掘技術(shù)對用戶行為數(shù)據(jù)進行挖掘分析,獲取圖書館用戶的信息行為、習(xí)慣、偏好、特點及用戶特定的需要,提供給用戶滿足其個性化需求的針對性、主動性服務(wù)。①針對不同的用戶所提出的不同的信息需求提供有針對性的信息服務(wù)包括信息咨詢、信息結(jié)果推送等。②通過對用戶信息或者用戶的信息需求行為進行分析而發(fā)現(xiàn)的用戶需求偏好[5],從而實現(xiàn)對用戶進行主動的、符合其要求的、有用的信息服務(wù)。因此,圖書館用戶的行為、習(xí)慣、偏好和特點是圖書館個性化服務(wù)的基礎(chǔ),先進的數(shù)據(jù)挖掘技術(shù)是圖書館個性化服務(wù)的重要手段,針對性、主動性是圖書館個性化服務(wù)的特點。
圖書館個性化服務(wù)充分利用各種信息網(wǎng)絡(luò)技術(shù),可以實現(xiàn)對用戶行為偏好的數(shù)據(jù)推送,對于用戶個性化推薦的應(yīng)用可分為以下幾個方面:
(1)基于用戶信息綁定規(guī)則的推薦,是指根據(jù)事先設(shè)定好的規(guī)則標(biāo)準(zhǔn)來向用戶推薦的方式;比如,用戶借閱的圖書為叢書類,那么在用戶再次進行信息獲取行為時,系統(tǒng)會對用戶未獲取的剩余叢書進行推薦。
(2)基于用戶偏好內(nèi)容的推薦,是指通過比較信息資源與用戶模型的相似程度進而向用戶推薦信息的方式;比如,用戶獲取的信息類型為人物傳記,則在用戶獲取信息時,會通過相似性分類推薦人物傳記類型書目。
(3)基于合作推薦,是指通過用戶的聚類分析,將某一用戶的行為信息推薦給用戶類中的用戶。比如,院校中計算機系的教員為一個用戶類,其中一個用戶研究的文獻的相似文獻便可推薦給此用戶類中的其他用戶。
3.4.2 基于用戶行為數(shù)據(jù)挖掘分析優(yōu)化館藏資源采購建設(shè)
無論是傳統(tǒng)圖書館還是現(xiàn)代新型圖書館,館藏資源是圖書館服務(wù)的基礎(chǔ),采購書目的確定,是圖書館建設(shè)管理的重要組成部分。然而采購書目的確定存在著以下弊端:①采購書目一般由采購人從個人角度對用戶行為數(shù)據(jù)進行分析,具有個人主觀性,結(jié)果并不準(zhǔn)確。②實際用戶需求調(diào)研難以開展,統(tǒng)計具有片面性,搜集數(shù)據(jù)并不準(zhǔn)確。③圖書館用戶信息中不明確個人對資源的需求。這造成了圖書資源利用率低下,一些不被利用的圖書長期壓架,而某些用戶卻存在無書可讀的情況。
利用數(shù)據(jù)挖掘技術(shù)對圖書館用戶的借閱流通記錄、OPAC檢索數(shù)據(jù)進行分析、挖掘,通過分類模式統(tǒng)計資源拒借集和頻繁借閱集,進而對信息資源有針對性的進行補充。并且可以以此為依據(jù)分析出資源的利用率并及時剔除過時、老化的資源信息。另外,通過信息檢索數(shù)據(jù)獲取“0檢索”的圖書文獻資源,作為采購書目的備選項[6]。通過用戶實際需求進行館藏資源的采購建設(shè)使購書的質(zhì)量提高了,針對性和實用性加強了,盲目性減少了,大大提高了圖書的借閱率,是提高館藏資源文獻利用率,提高用戶服務(wù)質(zhì)量的重要環(huán)節(jié)。
3.4.3 基于用戶行為數(shù)據(jù)挖掘分析調(diào)整圖書館人員服務(wù)結(jié)構(gòu)
圖書館服務(wù)人員是圖書館服務(wù)整體中的重要組成部分,如何合理的安排調(diào)配圖書館服務(wù)人員的服務(wù)時間及服務(wù)類型是提高整個圖書館服務(wù)效率和用戶滿意度的關(guān)鍵。圖書館服務(wù)的對象為讀者用戶,通過聚類模式技術(shù)和時間序列分析技術(shù)對不同類型用戶到館的時間段進行挖掘分析,然后通過分析結(jié)果合理地調(diào)整圖書館開放時間、圖書館工作人員服務(wù)時間及服務(wù)類型,可以節(jié)省必要的資源,提高圖書館利用效率,更好地提高圖書館的服務(wù)滿意度[7]。
3.4.4 基于用戶行為數(shù)據(jù)挖掘分析評估服務(wù)效率
用戶的行為信息可以充分體現(xiàn)出圖書館對用戶提供服務(wù)的情況,進而可以通過對圖書館用戶行為的數(shù)據(jù)進行挖掘分析,進行圖書館服務(wù)效率的評估。其中,用戶對圖書館的滿意度、圖書的借閱量、到館訪問人次的數(shù)據(jù)量、數(shù)字圖書館訪問的情況、用戶的意見建議、用戶的參考咨詢記錄等都可以反應(yīng)出圖書館的服務(wù)效率[8]。用戶行為數(shù)據(jù)的分析對圖書館服務(wù)效率的評估應(yīng)用包含以下幾個方面。
(1)通過利用時間序列分析規(guī)則對近一年的用戶到館人次數(shù)及圖書借閱量進行統(tǒng)計分析,對比得到用戶到館人次及圖書借閱數(shù)量的趨勢。
(2)通過利用時間序列模型對數(shù)字圖書館文獻的在線閱讀量及文獻數(shù)據(jù)下載量進行統(tǒng)計分析,進而得到數(shù)字圖書館的利用情況趨勢。
(3)通過對OPAC中的檢索信息進行挖掘分析,通過時間序列分類模式統(tǒng)計分析用戶“0檢索”的數(shù)據(jù),分析資源覆蓋率變化趨勢[9]。
隨著大數(shù)據(jù)挖掘技術(shù)的深入發(fā)展和圖書館用戶服務(wù)需求的增加,圖書館的大數(shù)據(jù)環(huán)境和用戶行為分析過程將會更加復(fù)雜。因此,對圖書館用戶行為數(shù)據(jù)的挖掘分析必須從大數(shù)據(jù)視角出發(fā),進一步獲得新的應(yīng)用、預(yù)測和分析能力,才能保證圖書館用戶行為數(shù)據(jù)分析結(jié)果科學(xué)、全面、精確和可用,才能為圖書館用戶個性化數(shù)據(jù)服務(wù)提供可靠的數(shù)據(jù)支撐??傊?,圖書館用戶行為數(shù)據(jù)的挖掘分析,對于提高圖書館用戶的個性化服務(wù)質(zhì)量,滿足用戶的信息需求具有極其重要的現(xiàn)實意義。