侯松霞
[摘 要] 本文利用Clementine軟件和數(shù)據(jù)挖掘技術(shù),對(duì)高校學(xué)生的借閱記錄進(jìn)行分析并挖掘建模,最后挖掘得到更深層次的數(shù)據(jù),從而為圖書館管理者提供決策依據(jù),幫助完善高校圖書館的服務(wù)功能。
[關(guān)鍵詞] 借閱行為;數(shù)據(jù)挖掘;Clementine
[中圖分類號(hào)] TP311 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1671-0037(2017)3-79-3
Mining Study of the Library Users Borrowing Behavior based on Clementine
Hou Songxia
(Tianjin Transportation Vocational College, Tianjin 300112)
Abstract: This article analyzes the college students' borrowing records and mines to establish models using Clementine software and data mining technology. The deep data obtained after final mining guides the decision of library's manager, and helps complete the service function of colleges' library.
Key words: borrowing behavior; data mining; Clementine
1 引言
隨著網(wǎng)絡(luò)和計(jì)算機(jī)數(shù)據(jù)庫技術(shù)的飛速發(fā)展和在各個(gè)領(lǐng)域的廣泛應(yīng)用,現(xiàn)代圖書館正在向著信息化和數(shù)字化的方向轉(zhuǎn)變。近些年來,我國加大了對(duì)圖書館的投資力度,圖書館的數(shù)據(jù)庫不斷更新、存儲(chǔ)設(shè)備不斷擴(kuò)大,網(wǎng)絡(luò)環(huán)境進(jìn)一步優(yōu)化、服務(wù)器更加強(qiáng)大。在這種環(huán)境下,利用數(shù)據(jù)挖掘技術(shù)可以更好地對(duì)圖書館資源進(jìn)行重組、匯集、抽取和預(yù)測(cè);能夠更方便快捷地從互聯(lián)網(wǎng)上采集和轉(zhuǎn)換信息和數(shù)據(jù),為圖書館發(fā)展提供更好的決策支持,為讀者提供個(gè)性化服務(wù)[1]。數(shù)據(jù)挖掘技術(shù)可以指導(dǎo)圖書信息資源的采集。我們可以對(duì)圖書借閱記錄進(jìn)行數(shù)據(jù)挖掘,其后能夠得到讀者借閱圖書的使用頻率表,然后再對(duì)讀者進(jìn)行分類,同時(shí)對(duì)適合不同類別的讀者的圖書資源進(jìn)行聚類,從而快速準(zhǔn)確地獲得訂書目錄。館藏圖書數(shù)據(jù)庫(OPAC系統(tǒng))是圖書館紙質(zhì)文獻(xiàn)資料數(shù)據(jù)的存儲(chǔ)系統(tǒng),編目員每天對(duì)它進(jìn)行維護(hù),并及時(shí)輸入各種圖書的數(shù)據(jù)。如果對(duì)這些數(shù)據(jù)進(jìn)行挖掘可以有針對(duì)性地制定館藏策略,有目的地決策圖書館的建設(shè)方向。
2 圖書館流通數(shù)據(jù)分析與清洗
2.1 流通數(shù)據(jù)結(jié)構(gòu)
目前圖書館系統(tǒng)主要有四種數(shù)據(jù)挖掘模式[2]:①關(guān)聯(lián)規(guī)則模式:關(guān)聯(lián)規(guī)則模式的數(shù)據(jù)挖掘過程包括兩個(gè)環(huán)節(jié):一是在大量的信息中找出高頻項(xiàng)目;二是通過分析這些高頻項(xiàng)目發(fā)現(xiàn)其中的關(guān)聯(lián)規(guī)則。②聚類模式:聚類模式的作用手段是將分析對(duì)象劃分成相對(duì)同質(zhì)的組群來進(jìn)行統(tǒng)計(jì)分析,又稱為數(shù)值分類或者是分類分析,它是基于數(shù)據(jù)的相似性來收集和分類數(shù)據(jù)的。③決策樹模式:決策樹模式屬于分類方法中很有代表性的一種。它是基于離散函數(shù)值的逼近方法。決策樹過程包括兩個(gè)階段:一是處理數(shù)據(jù),根據(jù)歸納算法產(chǎn)生規(guī)則以及決策樹;二是根據(jù)生產(chǎn)的規(guī)則和決策樹來分析新數(shù)據(jù)。④貝葉斯模式:貝葉斯模式屬于一種統(tǒng)計(jì)學(xué)方法,它是利用概率統(tǒng)計(jì)的方法來進(jìn)行數(shù)據(jù)的分類。這種方法使用簡單、分類迅速、準(zhǔn)確率高,應(yīng)用比較廣泛。
圖書館借閱的基本業(yè)務(wù)數(shù)據(jù)[3]包括:讀者證號(hào)、讀者姓名、流通日期、讀者條碼、圖書條碼、題目、索書號(hào)等等。接下來將通過數(shù)據(jù)挖掘分析探究不同的讀者借閱的圖書類型之間有什么關(guān)聯(lián),借閱的行為是否有一定的規(guī)律,能否根據(jù)規(guī)律制定一些針對(duì)性的服務(wù)。
2.2 預(yù)處理
根據(jù)需要,從數(shù)據(jù)庫中抽取書目信息表(biblios,對(duì)應(yīng)的是圖書館每一種圖書的marc信息),圖書信息表(holding表),圖書借還記錄表(LOG_CIR),讀者信息(READER)。分別對(duì)每個(gè)表進(jìn)行預(yù)處理刪減掉無用項(xiàng)目。
3 挖掘過程
3.1 建立數(shù)據(jù)源視圖
在clementine中[4],建立數(shù)據(jù)源是挖掘服務(wù)器與數(shù)據(jù)庫建立了訪問鏈路,建立數(shù)據(jù)源視圖是選取了數(shù)據(jù)庫中相關(guān)表、字段[5]。
Biblios表對(duì)應(yīng)的是圖書館每一種圖書的Marc信息,holding表對(duì)應(yīng)圖書館每一冊(cè)館藏圖書的信息,與biblios表通過bookrecno字段關(guān)聯(lián),log-cir表對(duì)應(yīng)圖書借還記錄表,通過讀者條碼data2字段和圖書館條碼data3字段分別和reader表rdid字段、holding表barcode字段關(guān)聯(lián),reader表對(duì)應(yīng)讀者信息,通過讀者證號(hào)rdid與log-cir關(guān)聯(lián)。圖1是各數(shù)據(jù)表的關(guān)聯(lián)結(jié)構(gòu)圖。
3.2 建立圖書館借閱數(shù)據(jù)挖掘的模型
根據(jù)借閱者自身性別及借閱書籍特點(diǎn)進(jìn)行分類。分析借閱者的特征,更加方便提供個(gè)性化服務(wù)。數(shù)據(jù)源:書目信息表(biblios,對(duì)應(yīng)的是圖書館每一種圖書的marc信息),圖書信息表(holding表),圖書借還記錄表(LOG_CIR),讀者信息(READER)。通過這些數(shù)據(jù)建立關(guān)聯(lián),最終得到由于不同性別讀者借書的種類,或者說借閱某種書籍的人都是什么性別的讀者。
使用K-Means聚類算法代入數(shù)據(jù),K-Means聚類過程是:①聚類數(shù)目K的制定。在K-Means聚類中應(yīng)首先給出需聚成多少類。聚類數(shù)目的確定本身并不簡單,既要考慮最終的聚類效果,也要考慮研究問題的實(shí)際需要。聚類太大或太小都將失去聚類的意思。②K個(gè)初始類中心點(diǎn)的確定。各類特征的典型代表是類中心。聚類數(shù)目K指定后,還需繼續(xù)確定K個(gè)類的初始類中心點(diǎn)。聚類收斂的速度取決于初始類中心點(diǎn)指定的合理性。常用的初始類中心點(diǎn)的指定方法有:隨機(jī)選擇法、選擇經(jīng)驗(yàn)法、最小最大法。③聚類將依據(jù)最近原則進(jìn)行。依次計(jì)算每個(gè)樣本點(diǎn)到K個(gè)類中心點(diǎn)的歐式距離,并按照與K個(gè)類中心點(diǎn)距離最近的原則,將所有樣本點(diǎn)分派到最近的類中,形成K個(gè)類。④K個(gè)類的中心點(diǎn)再次確定。同時(shí)重新計(jì)算K個(gè)類的中心點(diǎn)。中心點(diǎn)如何確定呢?它的原則是:順次計(jì)算各類中所有數(shù)據(jù)點(diǎn)變量的均值,這個(gè)均值點(diǎn)就作為K個(gè)類的中心點(diǎn)。⑤判斷是否已經(jīng)滿足終止類聚的條件。如果沒有滿足則應(yīng)返回到第3步,不斷重復(fù)上述步驟,直到滿足迭代終止條件為止。聚類終止的條件通常有兩個(gè):一是,迭代次數(shù),如果當(dāng)前的迭代次數(shù)等于指定的迭代次數(shù)時(shí),類聚終止;二是,類中心點(diǎn)偏移程度。本次確定的各類中心點(diǎn)距上次類中心點(diǎn),偏移量中的最大值如果小于指定值時(shí),聚類終止。如果適當(dāng)增加迭代次數(shù)或合理調(diào)整中心點(diǎn)偏移量,就能夠有效克服初始類中心點(diǎn)指定時(shí)可能存在的偏差。上述兩個(gè)條件中任意一個(gè)滿足則結(jié)束類聚。
女生、男生聚類分析結(jié)果見圖2、圖3:
圖2 女性讀者聚類分析數(shù)據(jù) 圖3 男性讀者聚類分析數(shù)據(jù)
通過以上聚類分析,可將借閱者分為四個(gè)類型,每個(gè)類型的區(qū)別主要是性別的影響。
女生:
第一類型,經(jīng)濟(jì)學(xué)院經(jīng)濟(jì)類37.56%的讀者,借閱分類號(hào)K(歷史地理)等書籍。
第二類型,經(jīng)濟(jì)學(xué)院56.03%,廣播電視新聞學(xué)42.2%的讀者,借閱分類號(hào)D(政治、法律)53.45%的書籍。
第三類型,信息學(xué)院31.15%,數(shù)學(xué)類22.95%的讀者,借閱分類號(hào)G(文化、科學(xué)、教育、體育)90.16%的書籍。
第四類型,信息學(xué)院100%,數(shù)學(xué)類44.74%的讀者,借閱過分類號(hào)為K(歷史、地理)64.47%的書籍。
男生:
第一類型,管理學(xué)院100%,工程34.62%的讀者,借閱過分類號(hào)為K(歷史、地理)53.85%的書籍。
第二類型,商學(xué)院65.85%,工商管理39.02%的人,借閱過分類號(hào)為K(歷史、地理)80.49%的書籍。
第三類型,經(jīng)濟(jì)學(xué)院100%,經(jīng)濟(jì)類55.42%的讀者,借閱過分類號(hào)為K(歷史、地理)51.81%的書籍。
第四類型,信息學(xué)院86.11%,數(shù)學(xué)系36.11%的讀者,借閱過分類號(hào)為K(歷史、地理)41.67%的書籍。
3.3 用戶圖書館借閱數(shù)據(jù)挖掘的結(jié)論
通過以上數(shù)據(jù)分析可得到圖書館借閱數(shù)據(jù)挖掘的結(jié)論:借閱某類圖書是分讀者類型的,每個(gè)種群主要特征是不同性別的讀者,分別來自不同的學(xué)院和不同的專業(yè);得到借閱數(shù)據(jù)的主要類型也不相同。根據(jù)這些特征,我們可以按照不同的學(xué)院或者專業(yè)以性別為分類基礎(chǔ),為不同的讀者推薦不同的書籍,便能得到讀者的認(rèn)證,從而能更快更好地為借閱者提供借閱服務(wù)。
通過以上研究也可以看出現(xiàn)在大學(xué)生的借閱習(xí)慣存在的問題:借閱的書籍更多的是偏向于自己學(xué)科內(nèi)需要的,對(duì)于自己學(xué)科外所涉及的內(nèi)容都鮮有人關(guān)注,這是近年來大學(xué)圖書館普遍存在的現(xiàn)象,大學(xué)生更多傾向于目的性更強(qiáng)的快餐式閱讀,而不太喜歡涉及其他閱讀方式。
圖書館管理者應(yīng)多使用數(shù)據(jù)挖掘等方式去改變圖書館的管理方式,使這些原本看起來毫無作用的借閱數(shù)據(jù)變得更加有實(shí)際意義,能通過這些數(shù)據(jù)更好地挖掘圖書館的潛在價(jià)值,同時(shí)也能激發(fā)大學(xué)生的借閱熱情,改變現(xiàn)在大學(xué)圖書館借閱情況過于偏激的現(xiàn)狀。
4 結(jié)語
要確保模型的有效性和完整性,在今后的研究中應(yīng)注意:一是研究前多次進(jìn)行數(shù)據(jù)挖掘的可行性分析,數(shù)據(jù)挖掘需要大量的統(tǒng)計(jì),需要前期大量的準(zhǔn)備工作,在數(shù)據(jù)挖掘之前,一定要做好可行性分析,要有目的性的去進(jìn)行挖掘;二是注意挖掘數(shù)據(jù)的更新,數(shù)據(jù)挖掘是一個(gè)持續(xù)性工作,隨著數(shù)據(jù)不斷地增多,應(yīng)該進(jìn)行及時(shí)更新,然后再去完善之前的模型。
參考文獻(xiàn):
[1] 郭淑紅,徐玉梅,劉釗.基于數(shù)據(jù)挖掘的高校圖書館個(gè)性化圖書推薦服務(wù)研究[J].電子世界,2017(4):44-45.
[2] 朱正紅.數(shù)據(jù)挖掘應(yīng)用于高職院校圖書館個(gè)性化服務(wù)的探討[J].信息與電腦(理論版),2016(17):125-127.
[3] 陳靜榮.圖書借閱分析系統(tǒng)的數(shù)據(jù)挖掘技術(shù)[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2017(2):69-72.
[4] 郝海濤.關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘在圖書館系統(tǒng)中的應(yīng)用[J].信息通信,2016(6):74-76.
[5] 艾金勇.圖書館讀者借閱行為的關(guān)聯(lián)規(guī)則挖掘研究[J].情報(bào)探索,2017(1):40-43.