郭宇紅 王路寧 毛玉琪
摘 要: 分析影響讀者借閱量的因素,確定不同讀者的借閱需求,進(jìn)而依據(jù)需求定制差異化的借閱權(quán)限和服務(wù)。利用SPSS Clementine挖掘工具,采用C5.0決策樹算法,對國際關(guān)系學(xué)院圖書館的讀者借閱數(shù)據(jù)進(jìn)行挖掘,建立讀者決策樹分類模型,將讀者按借閱頻度分為活躍讀者、一般讀者和沉默讀者。結(jié)果表明,讀者身份、專業(yè)、年級和性別對借閱量有重要影響,本科大三學(xué)生借閱需求較大,大四學(xué)生借閱需求小。決策樹分類能對圖書館讀者進(jìn)行細(xì)分,可為調(diào)整讀者借閱權(quán)限提供理論依據(jù)。
關(guān)鍵詞: 決策樹; 分類; 圖書館; Clementine; 借閱權(quán)限
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-8228(2014)04-30-04
Abstract: The factors influencing readers' borrowing amount are analyzed and different readers' borrowing demand are determined. The differential borrowing authority and service are customized. A decision tree classification model of reader borrowing frequency is built with C5.0 in mining tool of SPSS Clementine. The decision tree classifies readers into three groups: activing readers, common readers and silent readers. The mined data come from reader borrowing records of the library of university of international relations. The results show readers' identity, major, grade and gender have an important effect on borrowing amount. The borrowing demand of junior students is great, while that of senior students is small. The library readers may be classified by refering to decision tree classification to provide theoretical evident for adjusting borrowing authority.
Key words: decision tree; classification; library; Clementine; borrowing authority
0 引言
數(shù)據(jù)挖掘能從大量數(shù)據(jù)中發(fā)現(xiàn)有用的知識,目前己成功應(yīng)用于各個領(lǐng)域。圖書館系統(tǒng)積累了大量讀者數(shù)據(jù),研究如何將數(shù)據(jù)挖掘有效地用于圖書館[1-4],變數(shù)據(jù)為知識,從而更好地為讀者服務(wù),是數(shù)據(jù)挖掘和圖書館工作者的共同責(zé)任。
決策樹分類是數(shù)據(jù)挖掘中的一種重要方法,該方法通過對已有數(shù)據(jù)的學(xué)習(xí),識別影響對象分類的若干因素,構(gòu)建一個決策樹分類模型,對對象進(jìn)行分類。文獻(xiàn)[5-6]為決策樹在圖書館讀者借閱數(shù)據(jù)中的應(yīng)用實例,其中文獻(xiàn)[5]利用C4.5算法,對306條讀者借閱記錄進(jìn)行了分類建模,利用學(xué)歷、專業(yè)和年級三個屬性,構(gòu)建借閱次數(shù)(高/中/低)分級模型,得出的結(jié)論為:學(xué)歷是第一決定因素,其次是專業(yè)和年級,研究生和大四學(xué)生借閱量低等。筆者認(rèn)為文獻(xiàn)[5]挖掘的數(shù)據(jù)量過小,不具有足夠的說服力,且借閱次數(shù)分級采取主觀劃分的方法,缺乏依據(jù)。文獻(xiàn)[6]利用ID3算法,對1969條研究生的借閱記錄進(jìn)行了分類建模,利用讀者是否為新生、是否為工程類學(xué)生、性別和距離圖書館的遠(yuǎn)近等屬性,構(gòu)建決策樹模型,得出的結(jié)論為:讀者是否為新生為第一決定因素,其次為是否工程類、距離遠(yuǎn)近和性別,一年級新生離圖書館近的、高年級工科學(xué)生為活躍讀者等。筆者認(rèn)為文獻(xiàn)[6]的數(shù)據(jù)只覆蓋研究生讀者,樣本不全,且模型僅從訓(xùn)練數(shù)據(jù)構(gòu)建,沒有測試數(shù)據(jù)測試,使模型的普適性受到懷疑。另外,文獻(xiàn)[5-6]沒有對具體所用挖掘工具的介紹。
針對上述研究背景,本文使用SPSS Clementine軟件,采用基于C5.0的決策樹分類算法,對國關(guān)圖書館的4366條讀者借閱記錄進(jìn)行建模。建模過程綜合考慮讀者身份、專業(yè)、年級、性別、民族和索書號等因素,構(gòu)建讀者借閱頻度決策樹分類模型,分析影響讀者借閱量的主要因素,給出針對不同讀者群的借閱權(quán)限分配和服務(wù)建議。作為數(shù)據(jù)挖掘在圖書館的進(jìn)一步應(yīng)用探索,本文一方面可為國際關(guān)系學(xué)院圖書館開展實際業(yè)務(wù)工作提供幫助;另一方面可為其他高校圖書館開展挖掘?qū)嵺`,提供方法和過程指導(dǎo)。
1 需求分析及技術(shù)思路
1.1 需求分析
國際關(guān)系學(xué)院圖書館藏書37萬余冊,服務(wù)對象為全校師生員工、家屬、成人教育學(xué)員、國際大學(xué)預(yù)科項目PCP學(xué)員(Pre-College Program)等。服務(wù)的部門涵蓋法律系、公共管理系(簡稱公管)、國際經(jīng)濟(jì)系(簡稱國經(jīng))、國際政治系(簡稱國政)、日語法語系(簡稱日法)、文化與傳播系(簡稱文傳)、信息科技系(簡稱信科)、英語系共八個系。
長期以來,國關(guān)圖書館對于讀者權(quán)限的設(shè)定按本科生、研究生和教工劃分,見表1。這種劃分一是沒有結(jié)合讀者的實際借閱需求,可能造成借閱需求量大的讀者權(quán)限不足,借閱需求量小的讀者權(quán)限過剩;二是劃分不夠細(xì)化,沒有考慮到讀者年級、專業(yè)、性別、成績等因素對借閱量的影響。依據(jù)讀者的現(xiàn)實個性化需求來確定借閱權(quán)限,已成為目前高校圖書館借閱權(quán)限改革的方向[7],問題在于:影響用戶借閱量的因素有哪些,哪些是主要因素,如何確定這些因素,如何根據(jù)這些因素定制差異化權(quán)限和服務(wù)。本文針對這些問題展開討論。
1.2 技術(shù)思路
本文收集國關(guān)圖書館的借閱數(shù)據(jù),通過對歷史數(shù)據(jù)的挖掘和分析找出影響讀者借閱需求的若干因素,依靠這些因素進(jìn)行借閱權(quán)限細(xì)分。具體地,本文借助于SPSS Clementine工具中的決策樹挖掘方法對數(shù)據(jù)進(jìn)行分析,借助于挖掘得到的決策樹識別影響讀者借閱量的主要因素,對借閱量按借閱頻度進(jìn)行分級,并構(gòu)建一個判定用戶借閱頻度的決策樹分類模型,然后基于決策樹分類模型,給出針對國關(guān)圖書館讀者的借閱權(quán)限建議。具體技術(shù)思路如圖1所示。
2 具體的實現(xiàn)方案
2.1 數(shù)據(jù)源
數(shù)據(jù)源于國關(guān)圖書館金盤系統(tǒng)Oracle數(shù)據(jù)庫,主要涉及原始數(shù)據(jù)庫三個表:<流通日志表>、<館藏書目庫表>、<讀者庫表>。其中流通日志表記錄讀者每次到館的一項事務(wù)。筆者利用這三張表進(jìn)行連接,從流通日志表抽取2009-2010完整一學(xué)年的數(shù)據(jù),抽取后的數(shù)據(jù)存儲在Excel表中,命名為<流通事務(wù)記錄表> (格式見表2),該表共包含記錄109609條,字段8個。其中操作類型為事務(wù)類型,如J:借書/H:還書/S:賠書等;讀者級別為讀者身份,如本科生、研究生、信科教職工等;源單位具體到班級,如:信科0601/國經(jīng)0702/國政研二等。
2.2 數(shù)據(jù)預(yù)處理
⑴ 數(shù)據(jù)篩選
取出流通事務(wù)記錄表中操作類型為“J”(借書)的全部記錄。
⑵ 分組計數(shù)
取出的記錄集按讀者條碼分組,統(tǒng)計每個讀者出現(xiàn)的次數(shù),將此數(shù)值記為讀者在一學(xué)年中的“借書數(shù)”。將此屬性添加到<讀者庫表>中具有相同讀者條碼的記錄中。未在流通事務(wù)記錄表中出現(xiàn)的讀者條碼的借書數(shù)記為0。
⑶ 空缺值的處理
一些記錄在“單位”字段上取值為空,用“資料不全”填充空缺值。
⑷ “借書數(shù)”區(qū)間化
對“借書數(shù)”這一數(shù)值屬性,在建模前對其區(qū)間化,把它劃分為幾個等級來描述讀者的借閱頻度,并讓其作為輸出屬性,為讀者建立分類決策樹。該字段原先的數(shù)值分布如圖2所示。在4366個讀者中,一年中讀者借書數(shù)最多的為174本,平均約12本,最少的為0本(約占50%,即一般讀者該年沒有借過書)。借過書的讀者按照其累計借書量的增加,人數(shù)基本呈遞減模式。
對“借書數(shù)”區(qū)間化時,先將沒借過書的讀者單分一個區(qū)間,即借書數(shù)等于0,記為“Null”。其余讀者盡量按照等頻,即相等人數(shù)的原則,分為高(high)、低(Low)兩個區(qū)間,經(jīng)過統(tǒng)計分析,發(fā)現(xiàn)“17”為較好的分界點(diǎn),區(qū)間劃分規(guī)則為:0<借書數(shù)<=17:Low;17<借書數(shù):High。
為記錄區(qū)間化后的借閱頻度,為讀者庫表添加列“借閱頻度”,來儲存每位讀者的年借閱量,處理后的借閱頻度屬性不同區(qū)間的樣本數(shù)量分布為:
Null:2187;Low:1103;High:1076;總計:4366。
⑸ 其他字段的概化
“讀者級別”字段中,教職人員具體到各系和各行政部門,將該字段統(tǒng)一歸為“教職工”。“源單位”字段中,學(xué)生的單位具體到班級,將其概化到年級。將“索書號”字段概化為索書號頭一位。
將預(yù)處理后的數(shù)據(jù)導(dǎo)入到Microsoft Access數(shù)據(jù)庫中,表名命名為<讀者庫改>,它共包含國關(guān)4366名讀者09-10學(xué)年的借書統(tǒng)計數(shù)據(jù),見表3。
2.3 模型構(gòu)建
利用數(shù)據(jù)挖掘工具SPSS Clementine(版本11.1)中的C5.0建模節(jié)點(diǎn)構(gòu)建決策樹模型。將預(yù)處理后的Access數(shù)據(jù)庫表文件<讀者庫改>作為數(shù)據(jù)源節(jié)點(diǎn),先后連接工具中的“選擇節(jié)點(diǎn)”、“抽樣節(jié)點(diǎn)”和“C5.0節(jié)點(diǎn)”,形成如圖3所示的讀者借閱頻度挖掘訓(xùn)練流程圖。
將得到的分類模型加入到流程取代“借閱頻度類別”建模節(jié)點(diǎn),鏈接相關(guān)輸出節(jié)點(diǎn),檢驗訓(xùn)練樣本的自檢正確率。之后再用原樣本剩下的30%做測試,具體流程如圖7所示。其中測試路徑抽樣節(jié)點(diǎn)的配置跟圖6基本相同,除了將單選按鈕“包含”改為“丟棄。
執(zhí)行圖7流程,得到模型測試結(jié)果,其中訓(xùn)練樣本上的測試正確率為69.1%,測試樣本上的正確率為67.2%。
模型分類結(jié)果與測試樣本的對比矩陣見表4。該矩陣記錄了得到的決策樹模型對不同屬性取值的分類結(jié)果和所占總樣本的比例等信息。例如表4,對于測試樣本中原來標(biāo)注為“High”的記錄,決策樹準(zhǔn)確地將其中的203條記錄歸類為“High”,占所有標(biāo)為“High”的樣本數(shù)的60.237%,占總樣本數(shù)的16.009%。在所有被決策樹歸類為“High”的記錄中,正確歸類的這432條占其中的59.882%。
2.4 模型優(yōu)化
在創(chuàng)建決策樹過程中,訓(xùn)練樣本可能存在噪聲和離群點(diǎn),形成異常分支,異常分枝在訓(xùn)練模型中表現(xiàn)好,但會對預(yù)測帶來不良影響。因此通常需對決策樹剪枝,使樹的復(fù)雜度降低,更易理解,預(yù)測分類時更快更好。
在SPSS Clementine中,C5.0模型通過“修剪嚴(yán)重性”指標(biāo)控制對決策樹的修剪程度,取值為0到100,該指標(biāo)值越小剪枝越少;值越大剪枝越多。為保證模型精度,并使構(gòu)建的決策樹簡單。筆者對“修剪嚴(yán)重性”指標(biāo)進(jìn)行了不同設(shè)置和反復(fù)測試,測試結(jié)果見表5。
從表5看出,當(dāng)“修剪嚴(yán)重性”在50-85間變化時,測試樣本準(zhǔn)確率和訓(xùn)練樣本自檢率并沒有出現(xiàn)較大變化,而樹的復(fù)雜度降低了,深度從3變?yōu)?。為了在不增加決策樹深度的情況下保留較完整的決策樹信息,我們將“修剪嚴(yán)重性”值設(shè)為50,此時樹的深度為2。
最終生成的國關(guān)讀者借閱頻度決策樹分類模型如圖8所示。
集合A={法律(大三,研一/研二),公管大三,國經(jīng)(研一/研二),國政(大二/大三,研一/研二),日法(研一/研二),文傳(大一/大二/大三,研一/研二),信科(大一/大二/大三,研一/研二),英語(大一/大三/大四,研一/研二),應(yīng)用化學(xué)研一}
集合B={法律(大一/大二/大四),公管(大一/大四),國經(jīng)(大一/大三/大四),國政(大一/大四),日法(大二/大三/大四),信科大四,英語大二,應(yīng)用化學(xué)研二,家屬,成人教育}
集合C={公管大二,信科研三,應(yīng)用化學(xué)研三,教職工,外教,PCP}
需說明的是,公管系在2009年至2010學(xué)年還沒有研究生,故相應(yīng)信息未出現(xiàn)在決策樹分支集合中。除信科系外,其他系的研究生學(xué)制均為兩年,沒有研三。
2.5 模型分析和建議
模型的準(zhǔn)確度還不夠高,這可能是由于源數(shù)據(jù)缺乏更多與“借閱頻度”相關(guān)的屬性,可繼續(xù)收集一些有關(guān)讀者學(xué)習(xí)成績(如GPA、年級排名)、距離圖書館遠(yuǎn)近等信息來為建模服務(wù)。
從圖8中看出,所在單位(包括身份、專業(yè)和年級)對其借閱量影響較大,其次是“性別”。具體如下。
⑴ 借閱量高的讀者(活躍讀者群):文傳大四女生,集合A(特別是大三的學(xué)生)。約占總?cè)藬?shù)的25%。
⑵ 借閱量低的讀者(一般讀者群):國經(jīng)大二女生,日法大一女生,集合B;約占總?cè)藬?shù)的25%。
⑶ 無借閱的讀者(沉默讀者群):國經(jīng)大二、日法大一、文傳大四的男生,集合C。約占總?cè)藬?shù)的50%。
按身份分析,大致地,本科生大二、大三的借閱需求較大,大一新生和大四畢業(yè)班學(xué)生借閱需求較??;研究生文科的借閱需求較大,理科非畢業(yè)班的借閱需求大,理科畢業(yè)班研三的借閱需求?。唤搪毠そ栝喰枨笮?。尤其是理科研三學(xué)生和教職工在09-10學(xué)年的借閱量為0,這可能是由于理科研三寫論文所需要的文獻(xiàn)大多從電子數(shù)據(jù)庫中獲取,而國關(guān)教職工每人每年都有充足的購書經(jīng)費(fèi),使得他們更愿意自己購買圖書的方式獲取資料。
從上述分析結(jié)果看出,權(quán)限最低的本科生中很多群體借閱量高,而權(quán)限最高的教工的借閱量卻為0,這跟表1的權(quán)限分配相悖,說明了表1權(quán)限分配的不合理性。針對國關(guān)圖書館讀者的借閱權(quán)限分配,本文提出以下建議。
建議⑴:按決策樹分類模型劃分權(quán)限。模型中活躍讀者群,借閱冊數(shù)權(quán)限設(shè)為20;一般讀者群,借閱冊數(shù)權(quán)限設(shè)為10;沉默讀者群,借閱冊數(shù)權(quán)限設(shè)為5。權(quán)限劃分的關(guān)鍵在于模型的構(gòu)建和基于模型的讀者分類,具體數(shù)值可根據(jù)藏書量、讀者人數(shù)加以調(diào)整。
建議⑵:平均劃分權(quán)限。按教育部規(guī)定,高校圖書館的生均藏書量應(yīng)達(dá)到80-100冊,按一個圖書館可經(jīng)常利用文獻(xiàn)量約為館藏總量的20%計[8],理論上的每生借閱權(quán)限應(yīng)在16-20之間。國關(guān)人均藏書量約為85冊(37萬冊/4366人),因此理論上每人借閱權(quán)限應(yīng)為20%×85冊=17冊,考慮到國關(guān)有約50%的人基本不到圖書館借書,理論上的借閱權(quán)限還有較大上調(diào)空間。保守計算,可將借閱冊數(shù)權(quán)限統(tǒng)一設(shè)為17,以最大程度體現(xiàn)“平等服務(wù)”和最大限度滿足讀者借閱量。
建議⑴重視讀者需求差異,有助于提高文獻(xiàn)利用率和讀者需求滿足率,但未考慮讀者對“平等借閱權(quán)”的訴求,然而相對于表1的權(quán)限設(shè)置更為合理和科學(xué);建議⑵重視讀者借閱權(quán)的平等。
除借閱權(quán)限,圖書館還可針對不同讀者群提供針對性服務(wù),比如針對活躍讀者群,圖書館可讓其參與到圖書購買、圖書資源評價中,進(jìn)行新書推薦,提供額外的培訓(xùn),以提高文獻(xiàn)資源利用率和最大限度滿足讀者需求。
3 結(jié)束語
圖書館的數(shù)據(jù)挖掘?qū)μ嵘龍D書館服務(wù)質(zhì)量,開發(fā)增值服務(wù)具有重要意義。本文從校圖書館的實際需求分析和數(shù)據(jù)出發(fā),采用SPSS Clementine中的C5.O決策樹算法,建立借閱頻度決策樹分類模型。建模結(jié)果顯示,決策樹模型可按借閱量對讀者有效分類,讀者身份、專業(yè)、年級和性別對借閱量有重要影響,本科大三學(xué)生借閱需求較大,大四學(xué)生借閱需求小。決策樹模型能夠幫助圖書館進(jìn)行讀者細(xì)分、調(diào)整借閱權(quán)限和提供差異化服務(wù)。
進(jìn)一步的研究可從兩個方面開展,一是收集更多年份、更多屬性的數(shù)據(jù),提高模型的準(zhǔn)確率;二是以分析讀者的借閱時長為目標(biāo),建立讀者借閱時長分類模型,為圖書館針對不同讀者群制定不同借閱期限提供幫助。
參考文獻(xiàn):
[1] 顧倩.數(shù)據(jù)挖掘應(yīng)用于高校圖書館個性化服務(wù)的探討[J].圖書館雜志,2013.32(8):63-65
[2] 鄭斐,郭彥宏,郝俊勤,劉娜.數(shù)據(jù)挖掘技術(shù)如何在圖書館建設(shè)中體現(xiàn)價值[J].圖書情報工作,2013.S1:263-264,212
[3] 王偉.基于數(shù)據(jù)挖掘的圖書館用戶行為分析與偏好研究[J].情報科學(xué),2012.30(3):391-394,418
[4] 馮研,王馨.國內(nèi)圖書館數(shù)據(jù)挖掘技術(shù)實踐應(yīng)用進(jìn)展分析[J].圖書館學(xué)研究,2011.20:2-4
[5] 吳修琴.決策樹分類技術(shù)在圖書館管理中的應(yīng)用[J].農(nóng)業(yè)圖書情報學(xué)刊,2007.19(5):24-26,35
[6] 張金鐲.基于數(shù)據(jù)挖掘的圖書館活躍讀者研究[J].現(xiàn)代圖書情報技術(shù),2008.7:96-99
[7] 朱遠(yuǎn)春,楊光,盧秀英.試論高校圖書館借閱權(quán)限分配[J].圖書館,2011.1:123,130
[8] 楊玲梅.我國高校圖書館讀者借閱權(quán)限研究綜述[J].圖書館學(xué)研究,2011.16:2-4