韓存鴿
(武夷學(xué)院數(shù)學(xué)與計(jì)算機(jī)系,福建武夷山 354300)
目前,基本上所有的高校圖書(shū)館都建立了各自的業(yè)務(wù)處理系統(tǒng)和圖書(shū)館辦公自動(dòng)化系統(tǒng),這些系統(tǒng)對(duì)提高高校圖書(shū)館的工作效率、減少重復(fù)性工作起到了積極作用,推動(dòng)了高校圖書(shū)館事業(yè)的發(fā)展。
但是大多數(shù)圖書(shū)館數(shù)據(jù)庫(kù)系統(tǒng)只能對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行查詢(xún)、錄入和存取等比較簡(jiǎn)單的操作,不能發(fā)現(xiàn)數(shù)據(jù)中隱藏的關(guān)系和規(guī)則,不能對(duì)圖書(shū)館所存數(shù)據(jù)的潛在信息以及讀者的個(gè)人信息進(jìn)行高效的分析,并比較準(zhǔn)確地預(yù)測(cè)其發(fā)展趨勢(shì),從而導(dǎo)致“數(shù)據(jù)豐富,但信息貧乏”的局面。本文使用聚類(lèi)挖掘?qū)ξ湟膶W(xué)院圖書(shū)館管理的流通數(shù)據(jù)進(jìn)行分析,給廣大師生提供個(gè)性化的服務(wù)。
聚類(lèi)分析是數(shù)據(jù)挖掘研究領(lǐng)域中一個(gè)非?;钴S的研究課題。目前聚類(lèi)分析已被廣泛應(yīng)用于許多研究領(lǐng)域,包括數(shù)據(jù)挖掘、圖像分割、模式識(shí)別、市場(chǎng)研究等領(lǐng)域[1-6]。
所謂聚類(lèi)就是將物理或抽象的集合分成相似的對(duì)象類(lèi)的過(guò)程。簇是數(shù)據(jù)對(duì)象的集合,這些對(duì)象與同一個(gè)簇中的對(duì)象彼此相似,與其他簇中的對(duì)象相異[7]。在大多數(shù)情況下,一個(gè)簇中的對(duì)象可以被作為一個(gè)組來(lái)處理。作為數(shù)據(jù)挖掘的一個(gè)功能,聚類(lèi)分析能作為一個(gè)獨(dú)立的工具來(lái)獲得數(shù)據(jù)分布情況,并觀(guān)察每個(gè)簇的特點(diǎn),集中對(duì)特定的某些簇做進(jìn)一步的分析。
目前文獻(xiàn)中存在大量的聚類(lèi)算法。比較著名的有 K-MEANS、PAM、CLARANS、BIRCH、CURE、SCAN、OPTICS、CLIQUE CABOSFV 等。各類(lèi)數(shù)據(jù)挖掘軟件中比較經(jīng)典的為K-means模型。
首先,輸入樣本集合,然后對(duì)樣本進(jìn)行預(yù)處理,通過(guò)對(duì)不同屬性的樣本進(jìn)行選擇、抽取,根據(jù)聚類(lèi)分析的數(shù)據(jù)類(lèi)型要求形成樣本表示,再根據(jù)樣本間的相似性進(jìn)行分組聚類(lèi)。一般情況,聚類(lèi)是一個(gè)循環(huán)漸近的過(guò)程,需要對(duì)樣本間的相似性進(jìn)行比較,以改善不同的分組情況,使同組對(duì)象彼此更相似,而與其他組的對(duì)象更相異[8]。圖1為聚類(lèi)分析的過(guò)程。
K-means算法是很典型的基于距離的聚類(lèi)算法,采用距離作為相似性的評(píng)價(jià)指標(biāo),即認(rèn)為2個(gè)對(duì)象的距離越近,其相似性就越大。
圖1 聚類(lèi)分析的過(guò)程
1.3.1 K-means算法的處理流程
首先,隨機(jī)地選擇k個(gè)對(duì)象,每個(gè)對(duì)象初始地代表了一個(gè)簇的平均值或中心。對(duì)剩余的每個(gè)對(duì)象,根據(jù)其與各個(gè)簇均值的距離(一般用歐氏距離)將它派給最近的簇。然后計(jì)算每個(gè)簇的新均值。這個(gè)過(guò)程不斷重復(fù),直到準(zhǔn)則函數(shù)收斂。通常采用平方誤差準(zhǔn)則,其定義為[8]其中:E是數(shù)據(jù)庫(kù)中所有對(duì)象的平方誤差總和;p是空間中的點(diǎn),表示給定的數(shù)據(jù)對(duì)象;mi是簇Ci的平均值(p和mi都是多維的)。這個(gè)準(zhǔn)則使生成的結(jié)果簇盡可能地緊湊和獨(dú)立。
1.3.2 K 均值劃分算法
Input:K(簇的數(shù)目),D(包含n個(gè)對(duì)象的數(shù)據(jù)集)
Output:K個(gè)簇的集合
方法:
1)從D中任意選擇k個(gè)對(duì)象作為初始簇中心;
2)repeat;
3)根據(jù)簇中對(duì)象的均值,將每個(gè)對(duì)象(再)指派到最相似的簇;
4)更新簇均值,即計(jì)算每個(gè)簇中對(duì)象的均值;
5)until不再發(fā)生變化。
武夷學(xué)院圖書(shū)館使用的是大連網(wǎng)信軟件公司研制妙思文獻(xiàn)管理集成系統(tǒng)。該系統(tǒng)全面覆蓋了圖書(shū)館自動(dòng)化業(yè)務(wù)的功能需求,核心功能包括圖書(shū)和連續(xù)出版物的采購(gòu)、編目、典藏以及流通管理系統(tǒng),支持校園一卡通。
2.1.1 讀者聚類(lèi)數(shù)據(jù)采集
從武夷學(xué)院圖書(shū)館管理系統(tǒng)中聚類(lèi)挖掘所需的信息,分別形成ltxxb(流通信息表)、dzxxb(讀者信息表)、wxxxb(文獻(xiàn)信息表)、tmxxb(條碼信息表)4個(gè)表。本次研究是在Visual FoxPro 6.0環(huán)境下進(jìn)行數(shù)據(jù)的處理,具體SQL查詢(xún)語(yǔ)句如下:
select ltxxb.讀者證號(hào),ltxxb.讀者姓名,dzxxb.讀者單位,借出時(shí)刻,wxxxb.索取號(hào);
from ltxxb,dzxxb,wxxxb,tmxxb into table alldata;
where ltxxb.條碼 =wxxxb.條碼 and tmxxb.索取號(hào)=wxxxb.索取號(hào) and ltxxb.讀者證號(hào)=dzxxb.讀者證號(hào) and借出時(shí)刻 between{^2006.08.01}and{^2007.07.31 23:00:00}
利用Visual FoxPro語(yǔ)言輸入SQL命令,統(tǒng)計(jì)每一位讀者1年內(nèi)的借閱數(shù)量。在VFP6.0中具體SQL查詢(xún)語(yǔ)句如下:
select讀者證號(hào),讀者單位,count(讀者證號(hào))as借閱冊(cè)數(shù);
from alldata into table jieyue;
group by讀者證號(hào);
order by借閱冊(cè)數(shù)desc
讀者借閱數(shù)據(jù)共有9 826條記錄。
2.1.2 圖書(shū)流通量數(shù)據(jù)采集
先從 ltxxb中統(tǒng)計(jì)出每種書(shū)的流通量,在VFP6.0中具體SQL查詢(xún)語(yǔ)句如下:
select控制號(hào),count(讀者證號(hào))as流通量;
from ltxxb into table tushult;
group by控制號(hào);
order by流通量desc
共有22 636條記錄。
然后從tushult和wxxxb中顯示每種借閱書(shū)籍的相關(guān)信息,此處使用wxxxb表和tushult表進(jìn)行左連接,目的是找出一年未曾借出的書(shū)籍,SQL命令如下:
select流通量,復(fù)本數(shù),索取號(hào),正題名,出版日期,標(biāo)準(zhǔn)編號(hào),文獻(xiàn)類(lèi)型;
from wxxxb into table tushujl;
left join tushult on tushult.控制號(hào) =wxxxb.控制號(hào);
order by流通量desc
圖書(shū)流通數(shù)據(jù)共有235 869條記錄。
2.2.1 空值作刪除處理
做聚類(lèi)分析的2類(lèi)數(shù)據(jù)讀者借閱量和圖書(shū)流通量中的所有屬性都不能為空,如果出現(xiàn)空值,則刪除這條記錄。如jieyue表中由于有些臨時(shí)讀者信息被刪除,出現(xiàn)讀者證號(hào)為空的現(xiàn)象,所以必需去掉這部分空值信息;又如在tushujl數(shù)據(jù)表中,描述圖書(shū)信息的正題名字段不能出現(xiàn)空值,如發(fā)現(xiàn)則應(yīng)剔除。對(duì)于tushujl表中流通量為“.null.”的記錄,在刪除之前把一年來(lái)未流通的書(shū)籍信息保存在單獨(dú)的一個(gè)表中(后面要用),最終形成待挖掘的22 635條記錄。
2.2.2 噪聲處理
分析 wxxxb、tmxxb、ltxxb 、dzxxb四個(gè)數(shù)據(jù)表的記錄,發(fā)現(xiàn)存在一些影響挖掘結(jié)果的數(shù)據(jù)。如在流通量數(shù)據(jù)表中,一些復(fù)本數(shù)超過(guò)100的為非正常數(shù)據(jù),轉(zhuǎn)換成20~30復(fù)本數(shù)。一些不流通的圖書(shū),如工具書(shū)閱覽室內(nèi)的圖書(shū)等應(yīng)排除,以免影響聚類(lèi)結(jié)果。在借閱數(shù)據(jù)表中,有的讀者“一卡通”借書(shū)證掛失補(bǔ)辦了,造成新舊證號(hào)都有借閱信息,影響了讀者借閱情況的挖掘,對(duì)這些記錄應(yīng)合并為1條。
使用 Clementine 挖掘工具[9-10]K-means模型進(jìn)行聚類(lèi)分析,從讀者的借閱冊(cè)數(shù)和圖書(shū)流通量2個(gè)角度進(jìn)行聚類(lèi)分析,聚類(lèi)結(jié)果表示為圖書(shū)館的圖書(shū)推薦。
在Clementine中首先應(yīng)該導(dǎo)入待分析數(shù)據(jù)jieyue.xls(在 Visual FoxPro 中將 jieyue.dbf導(dǎo)出成jieyue.xls),使用type節(jié)點(diǎn)對(duì)數(shù)據(jù)的屬性進(jìn)行設(shè)置。這里針對(duì)讀者的借閱冊(cè)數(shù)進(jìn)行分類(lèi),所以,只有借閱冊(cè)數(shù)字段方向?yàn)檩斎?,讀者證號(hào)、讀者單位、讀者姓名3個(gè)字段都為無(wú)。使用Clementine進(jìn)行聚類(lèi)分析,有3種模型可供選擇,分別是“神經(jīng)網(wǎng)絡(luò)”、“K均值”、“兩步”聚類(lèi)模型,本文選擇經(jīng)典的“K-means”模型進(jìn)行聚類(lèi)挖掘。在該模型的屬性設(shè)置上,聚類(lèi)數(shù)k=3,分別為“活躍讀者”“消極讀者”“一般讀者”,最后將聚類(lèi)結(jié)果以表格形式顯示出來(lái)。從讀者借閱冊(cè)數(shù)角度進(jìn)行聚類(lèi)分析的整個(gè)流程如圖2所示。以表格形式顯示聚類(lèi)結(jié)果,部分?jǐn)?shù)據(jù)如圖3所示。
圖2 讀者聚類(lèi)挖掘流程
圖3 以表格方式顯示讀者聚類(lèi)結(jié)果中部分?jǐn)?shù)據(jù)
以上的挖掘僅從讀者的借閱冊(cè)數(shù)角度來(lái)衡量讀者的需求。根據(jù)聚類(lèi)結(jié)果,可以適當(dāng)為活躍型讀者提供一定的便利,比如增加這些讀者的允借冊(cè)數(shù),而不是使用同一標(biāo)準(zhǔn)對(duì)待不同的讀者,為讀者提供更加便利的服務(wù)。對(duì)一般型讀者,可以進(jìn)一步挖掘他們的借閱興趣,為他們提供更主動(dòng)的推薦服務(wù)。而對(duì)那些消極讀者,圖書(shū)館可以適當(dāng)?shù)亻_(kāi)展圖書(shū)宣傳,使他們轉(zhuǎn)消極為積極,提高圖書(shū)館的利用率。
在Clementine軟件中導(dǎo)入待分析數(shù)據(jù)tushujl.xls(在Visual FoxPro中將tushujl.dbf導(dǎo)出成tushujl.xls),使用type節(jié)點(diǎn)對(duì)數(shù)據(jù)的屬性進(jìn)行設(shè)置,這里針對(duì)讀者的圖書(shū)流通量進(jìn)行分類(lèi),所以,在type節(jié)點(diǎn)設(shè)置流通量字段方向?yàn)檩斎?,?fù)本數(shù)、索取號(hào)、正題名、出版日期、標(biāo)準(zhǔn)編號(hào)、文獻(xiàn)類(lèi)型6個(gè)字段方向都為無(wú)。使用Clementine進(jìn)行聚類(lèi)分析。本文繼續(xù)選擇“K-means”模型進(jìn)行聚類(lèi)挖掘。在該模型的屬性設(shè)置上,聚類(lèi)數(shù)k=3,分別為“熱門(mén)書(shū)”“冷門(mén)書(shū)”“一般書(shū)”,最后將聚類(lèi)結(jié)果以表格形式顯示出來(lái)。從圖書(shū)流通量角度進(jìn)行聚類(lèi)分析的整個(gè)流程與讀者聚類(lèi)挖掘流程相似,這里不再列出。聚類(lèi)挖掘的最終結(jié)果如圖4所示。
圖4 圖書(shū)流通量聚類(lèi)結(jié)果中部分?jǐn)?shù)據(jù)
根據(jù)對(duì)圖書(shū)聚類(lèi)挖掘的結(jié)果,對(duì)那些熱門(mén)書(shū)(圖4中類(lèi)別為1的圖書(shū))建議圖書(shū)館可以專(zhuān)門(mén)設(shè)一個(gè)“熱門(mén)借書(shū)區(qū)”,方便讀者快速查找想借閱的圖書(shū)。而將一些“冷門(mén)書(shū)”可以做相關(guān)處理,比如文獻(xiàn)剔舊或下架,為圖書(shū)館節(jié)省藏書(shū)空間。同時(shí)那些復(fù)本量過(guò)大的”冷門(mén)書(shū)”(在聚類(lèi)結(jié)果中類(lèi)別為2的圖書(shū))也可以為圖書(shū)采購(gòu)部門(mén)提供參考。還有一部分未流通的書(shū)籍(流通量為.null.),圖書(shū)館工作人員可以做適當(dāng)分析,對(duì)那些新采購(gòu)的書(shū)籍可以多做宣傳,增加圖書(shū)利用率,而對(duì)那些舊的書(shū)籍,可以做適當(dāng)剔除。
本文對(duì)武夷學(xué)院圖書(shū)館提供的流通數(shù)據(jù)進(jìn)行了處理,主要采集讀者借閱冊(cè)數(shù)和圖書(shū)流通量2類(lèi)數(shù)據(jù)。在Clementine中使用K-means模型進(jìn)行聚類(lèi)分析,從讀者的借閱冊(cè)數(shù)角度進(jìn)行分類(lèi),將讀者劃分成“活躍讀者”“消極讀者”及“一般讀者”3類(lèi);根據(jù)圖書(shū)流通量進(jìn)行分類(lèi),將圖書(shū)分成“熱門(mén)書(shū)”“冷門(mén)書(shū)”及“一般書(shū)”3類(lèi)。根據(jù)聚類(lèi)挖掘的結(jié)果,為不同類(lèi)的讀者提供不同的服務(wù),針對(duì)不同類(lèi)的圖書(shū)采取相應(yīng)的措施。
[1]蘇靜.基于聚類(lèi)分析的河南城鄉(xiāng)一體化區(qū)域差異研究[J].安徽農(nóng)業(yè)科學(xué),2011(21):13224 -13225.
[2]楊軍,鞏玨,鄧文兵.火炮射擊精度的模糊等價(jià)關(guān)系聚類(lèi)分析[J].四川兵工學(xué)報(bào),2010(1):28 -29,37.
[3]余肖生,司新霞.基于聚類(lèi)分析的元搜索引擎模型[J].重慶理工大學(xué)學(xué)報(bào):自然科學(xué)版,2011(6):69-72.
[4]陳桂枝.湖北省縣域城鎮(zhèn)化水平的聚類(lèi)分析[J].安徽農(nóng)業(yè)科學(xué),2011(29):18352-18354.
[5]李鳳蘭,樊逾,蘇理云.層次聚類(lèi)的重慶市高校圖書(shū)館分類(lèi)評(píng)估[J].重慶理工大學(xué)學(xué)報(bào):自然科學(xué)版,2011(9):121-126.
[6]張林林,周毅,周瑞有,等.對(duì)空目標(biāo)射擊有利度模糊聚類(lèi)分析[J].四川兵工學(xué)報(bào),2010(12):145-146.
[7]Han jiawei,Micheline,Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,譯.北京:機(jī)械工業(yè)出版社,2006.
[8]陸云.聚類(lèi)分析數(shù)據(jù)挖掘方法的研究應(yīng)用[D].合肥:安徽大學(xué),2007.
[9]岳小婷.數(shù)據(jù)挖掘工具Clementine應(yīng)用[J].牡丹江大學(xué)學(xué)報(bào),2007(4):103-105.
[10]劉利俊.利用Clementine進(jìn)行試卷質(zhì)量分析[J].現(xiàn)代計(jì)算機(jī),2008(5):115-117.