劉宇初
北京師范大學(xué),北京 100875
隨著信息資源的飛速增長和公共信息服務(wù)理念的變化,用戶越來越需要個性化、多元化的信息需求,例如網(wǎng)上書店的圖書推薦、搜索引擎中的查詢詞關(guān)聯(lián)等的產(chǎn)生,正是這種個性化需求的產(chǎn)物。與之相比,作為閱讀密集型群體集中的高等院校,其圖書館的服務(wù)和對館藏圖書資源利用仍存在發(fā)展不足的問題。高校圖書館的使用者有其特殊的群體特征,例如專業(yè)、學(xué)歷、身份、年齡層次具有明顯的群體差異。這些特征使高校圖書館的借閱服務(wù)不同于普通網(wǎng)絡(luò)書店的用戶群服務(wù),它具有自己的模式、特點有待于研究與發(fā)現(xiàn)。同時,用戶也希望進入網(wǎng)站后看到的書籍都是自己感興趣的,而不同用戶通過同一搜索關(guān)鍵字所搜索的結(jié)果應(yīng)該是不同的,每個用戶進入網(wǎng)站后能夠享受到更貼近自己的服務(wù),從而可以使用戶在浩瀚的書海中方便、快捷的找到自己需要的資源。
與此同時,隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)在圖書館的廣泛應(yīng)用,圖書館積累了大量的讀者對資源的歷史訪問數(shù)據(jù)。這些數(shù)據(jù)背后隱藏著許多有價值的信息,圖書館記錄的書的借閱信息,可以從兩方面對圖書館個性化推薦服務(wù)做出貢獻:一是圖書推薦,包括利用不同借閱者借閱書籍的相似性來決定書籍的推薦和通過借閱者個人的借閱行為分析借閱者興趣走向,并進行相關(guān)推薦;二是形成“共書者網(wǎng)絡(luò)”幫助用戶形成社交群體網(wǎng)。而目前多數(shù)圖書館并未將這些歷史借閱數(shù)據(jù)進行有效的利用,由此而帶來的大量優(yōu)秀圖書資源的隱蔽性問題也時刻影響著讀者對于圖書館的滿意度及圖書資源的應(yīng)用廣泛度。
因此,利用對圖書借閱數(shù)據(jù)的分析處理,以“書”和“借閱者”為實體,通過對讀者的借閱興趣發(fā)現(xiàn)從而為高校圖書館的個性化推薦服務(wù)的進一步完善與發(fā)展提出建議,這也將逐漸成為當前及未來有關(guān)高校圖書館研究熱點問題之一。
本研究基于高校讀者用戶圖書借閱興趣、行為的發(fā)現(xiàn),挖掘相同借閱讀者群、借閱時間段內(nèi)的關(guān)聯(lián)關(guān)系,分析影響用戶借閱行為的因素。一方面找出借閱行為的影響因子和影響程度大??;另一方面進一步分析列表中數(shù)據(jù)之間的關(guān)系,找出借書頻次較多的讀者列表和借書頻次最多的時間段,進而為后期進一步構(gòu)建讀者借閱興趣模型提供數(shù)據(jù)基礎(chǔ)、為圖書館工作人員根據(jù)用戶的興趣需求制定相應(yīng)的個性化推薦服務(wù)等提供理論依據(jù)。
數(shù)據(jù)來源是北京某高校圖書館,時間范圍為2008年~2010年,記錄總數(shù)約60萬條,原始數(shù)據(jù)字段如下:
證件號 學(xué)歷及所在院系 借書日期 書名 索書號本研究中需要根據(jù)統(tǒng)計內(nèi)容將數(shù)據(jù)字段分別刪減為以下兩類:證件號 借書頻次 借書頻率以及:借書日期 日借書頻次
其中,“學(xué)號—借書頻次”列表需要統(tǒng)計出每位讀者(即每個學(xué)號)在2008年至2010年間總借書頻次及頻率,并將其進行降序排列;“日期—借書頻次”列表需要統(tǒng)計出從2008年~2010年每天的借書頻次,為進一步的分析處理做鋪墊。
1)分析借書頻次較多的讀者
由于“學(xué)號—借書頻次”列表中數(shù)據(jù)共1 409位讀者數(shù)據(jù),總量約27萬條,數(shù)量較大,為了將數(shù)據(jù)進行準確定位,首先需找出借書頻次和頻次的四分位點、八分位點、十六分位點,并統(tǒng)計出介于兩個相鄰十六分位點間的區(qū)間頻率之和,依據(jù)區(qū)間頻率大小,劃分借書較多的讀者范圍。
2)分析借書頻次較多的時間段
通過縱向與橫向兩個時間軸進行綜合比較:
(1)縱向時間軸
依次統(tǒng)計以月份、周數(shù)為單位的借書頻次,繪制折線圖,分別比較在相同年份不同周次、不同月份的借書頻次大小和趨勢,同時將“月份—借書頻次”、“周次—借書頻次”分布圖進行比對分析,找出其相同點與不同點,分析借書高峰期出現(xiàn)時間。
(2)橫向時間軸
①分析一周之內(nèi)借書頻次最高日
由于2009年數(shù)據(jù)較全,故將2009年本科生“日期—借書頻次”數(shù)據(jù)作為整體樣本進行分析,將其劃分為51周,其中,每一周以星期日作為開始日,星期六作為結(jié)束日,統(tǒng)計這51周內(nèi)(除去日期不全的星期)從星期一到星期日每天的借書頻次平均數(shù),并將其進行排序處理,繪制折線圖。
②分析2008年和2009年借書頻次的變化。
分別將2008年和2009年的“月份——借書頻次”趨勢圖進行分析比較,找出其相同與不同之處,并分析可能的原因。
根據(jù)統(tǒng)計結(jié)果可以看出,借書頻次在451(含)以上的占到了總借書頻次的18%以上,而其人數(shù)僅占總借書人數(shù)的6.4%;借書頻次在381(含)以上的占總借書頻次的30%左右,其人數(shù)占總借書人數(shù)的12.5%;借書頻次在278以上的達到總借書頻次的50%以上,而其人數(shù)占總借書人數(shù)的25%;因此,由分析可以界定其7/8分位點為判斷借書人數(shù)較多的基準線,即借閱書籍頻次超過380的讀者為借書頻次較多讀者。
3.2.1 借書次數(shù)與月份、周次之間的關(guān)系
借書頻次與月份和周次之間的關(guān)系總體上的趨勢是相同的,而“借書頻次—周次”較“借書頻次—月份”之間的關(guān)系更為細化一些。從折線圖中可以得出如下結(jié)論:借書高峰期一般出現(xiàn)在9月、10月和3月、4月左右,借書低谷期一般出現(xiàn)在7月、8月和1月、2月左右,而相對應(yīng)的,借書高峰期也正是普通高校學(xué)生開學(xué)的日期,借書低谷期對應(yīng)的則是普通高校學(xué)生的放假日期。從周次頻次圖中,可以清楚的看到,上半年借書高峰出現(xiàn)在第8周,下半年出現(xiàn)在第36周;同時,在第2周和第26周左右會出現(xiàn)一個小高峰,可知該星期學(xué)生正值備戰(zhàn)期末考試期間,借書頻次會有所增加。
3.2.2 一周之內(nèi)日借閱頻次關(guān)系比較
通過對借閱頻次結(jié)果進行縱向排序,可以得出,一周之內(nèi)借閱頻次由大到小的日子依次為:星期一、星期二、星期五、星期四、星期三、星期日、星期六??梢钥闯?,每一周的周一為借書最多的日期,而星期六同學(xué)們借書的傾向相對較小。
3.2.3 2008年與2009年借書頻次變化比較
將2008年和2009年借書頻次與月份之間的關(guān)系繪制成折線圖,并將其做以比較可以分析得出不同年份之間借書趨勢的變化關(guān)系。由于2008年數(shù)據(jù)缺少8月和9月的相關(guān)情況,因此結(jié)果并不具有很強的典型性。但從總體折線圖走勢上可以看出,每年借閱書籍的高峰期出現(xiàn)時間大致相同,都為開學(xué)初的3月和9月,而借閱書籍次數(shù)較少的時間段則為學(xué)生放假的1月份、2月份和7月份、8月份。數(shù)量上,2009年較2008年借閱書籍平均次數(shù)有所減少,造成此類現(xiàn)象的原因可能是由于信息化的普及和網(wǎng)絡(luò)的便捷,使得紙質(zhì)化書籍逐漸在學(xué)生們?nèi)粘i喿x范圍內(nèi)所占比例逐年減少。
根據(jù)定量判別結(jié)果,在挖掘借閱讀者與借閱頻次之間的關(guān)系中,規(guī)定借閱書籍頻次超過380的讀者為借書頻次較多讀者;在挖掘借閱時間與借閱頻次之間的關(guān)系中,可以看出,借書高峰期一般出現(xiàn)在9月、10月和3月、4月左右,借書低谷期一般出現(xiàn)在7月、8月和1月、2月左右,上半年借書高峰出現(xiàn)在第8周,下半年出現(xiàn)在第36周;同時,在第2周和第26周左右會出現(xiàn)一個小高峰,可知該星期學(xué)生正值備戰(zhàn)期末考試期間,借書頻次會有所增加。同時,每一周的周一為借書最多日,而星期六讀者借書的傾向相對較小。
根據(jù)已有研究基礎(chǔ),為進一步構(gòu)建讀者借閱興趣模型,還需進一步完成的工作是:
1)根據(jù)圖書館的歷史借閱數(shù)據(jù)以“書”和“借閱者”為實體建立圖書借閱模型,以此為基礎(chǔ)分析變量,找出借閱者與借閱者、借閱者與書、書與書之間的關(guān)系,形成“共書者網(wǎng)絡(luò)”;2)基于“共書者網(wǎng)絡(luò)”進行分析,挖掘其隱含的關(guān)聯(lián)規(guī)則,從而分析熱門書籍及其所屬學(xué)科特征、書的借閱時間分布、書的借閱頻度分布、“共書者”的各項特征,進而分析影響用戶借閱行為的因素;3)通過對影響讀者借閱行為因素的分析結(jié)果建立基于共同興趣的書目推薦模型,為讀者進行熱門書籍推薦、相關(guān)聯(lián)書籍推薦、為圖書館資源配置提出建議等服務(wù)。
[1]王偉,張征芳.基于數(shù)據(jù)挖掘的圖書館讀者行為分析[J].現(xiàn)代圖書情報技術(shù),2006,11:51-60.
[2]FeiYan,MingZhang,JianTang,TaoSun,ZhihongDeng,and LongXiao,”Users’Book-Loan Behaviors Analysis and Knowledge Dependency Mining “.
[3]劉勘,尹承明,陳凡.圖書借閱信息的分析與挖掘[J].計算機科學(xué),2008,35:139-141.
[4]陳華月,朱征宇.基于用戶近期興趣視圖的個性化推薦[J].計算機工程,2005,10.
[5]蔡會霞,朱潔,蔡瑞英.關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘在高校圖書館系統(tǒng)中的應(yīng)用,2005,27:85-88.
[6]熊擁軍,劉衛(wèi)國,張建中.基于資源分類樹的讀者興趣模型設(shè)計與實現(xiàn)[J].現(xiàn)代圖書情報技術(shù),2005,3:328-331.
[7]黃曉斌.基于協(xié)同過濾的數(shù)字圖書館推薦系統(tǒng)研究[J].大學(xué)圖書館學(xué)報,2006.
[8]閔敏.層次凝聚算法在商品個性化推薦中的應(yīng)用 [J].電腦知識與技術(shù),2006,2.