聚類(lèi)挖掘在高校圖書(shū)館管理系統(tǒng)中的應(yīng)用

2012-06-02 09:32:08韓存鴿

重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)) 2012年11期

韓存鴿

(武夷學(xué)院數(shù)學(xué)與計(jì)算機(jī)系，福建武夷山 354300)

目前，基本上所有的高校圖書(shū)館都建立了各自的業(yè)務(wù)處理系統(tǒng)和圖書(shū)館辦公自動(dòng)化系統(tǒng)，這些系統(tǒng)對(duì)提高高校圖書(shū)館的工作效率、減少重復(fù)性工作起到了積極作用，推動(dòng)了高校圖書(shū)館事業(yè)的發(fā)展。

但是大多數(shù)圖書(shū)館數(shù)據(jù)庫(kù)系統(tǒng)只能對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行查詢(xún)、錄入和存取等比較簡(jiǎn)單的操作，不能發(fā)現(xiàn)數(shù)據(jù)中隱藏的關(guān)系和規(guī)則，不能對(duì)圖書(shū)館所存數(shù)據(jù)的潛在信息以及讀者的個(gè)人信息進(jìn)行高效的分析，并比較準(zhǔn)確地預(yù)測(cè)其發(fā)展趨勢(shì)，從而導(dǎo)致“數(shù)據(jù)豐富，但信息貧乏”的局面。本文使用聚類(lèi)挖掘?qū)ξ湟膶W(xué)院圖書(shū)館管理的流通數(shù)據(jù)進(jìn)行分析，給廣大師生提供個(gè)性化的服務(wù)。

1 聚類(lèi)挖掘基本理論

聚類(lèi)分析是數(shù)據(jù)挖掘研究領(lǐng)域中一個(gè)非?；钴S的研究課題。目前聚類(lèi)分析已被廣泛應(yīng)用于許多研究領(lǐng)域，包括數(shù)據(jù)挖掘、圖像分割、模式識(shí)別、市場(chǎng)研究等領(lǐng)域［1－6］。

1.1 概念及主要算法

所謂聚類(lèi)就是將物理或抽象的集合分成相似的對(duì)象類(lèi)的過(guò)程。簇是數(shù)據(jù)對(duì)象的集合，這些對(duì)象與同一個(gè)簇中的對(duì)象彼此相似，與其他簇中的對(duì)象相異［7］。在大多數(shù)情況下，一個(gè)簇中的對(duì)象可以被作為一個(gè)組來(lái)處理。作為數(shù)據(jù)挖掘的一個(gè)功能，聚類(lèi)分析能作為一個(gè)獨(dú)立的工具來(lái)獲得數(shù)據(jù)分布情況，并觀(guān)察每個(gè)簇的特點(diǎn)，集中對(duì)特定的某些簇做進(jìn)一步的分析。

目前文獻(xiàn)中存在大量的聚類(lèi)算法。比較著名的有 K-MEANS、PAM、CLARANS、BIRCH、CURE、SCAN、OPTICS、CLIQUE CABOSFV 等。各類(lèi)數(shù)據(jù)挖掘軟件中比較經(jīng)典的為K-means模型。

1.2 聚類(lèi)分析過(guò)程

首先，輸入樣本集合，然后對(duì)樣本進(jìn)行預(yù)處理，通過(guò)對(duì)不同屬性的樣本進(jìn)行選擇、抽取，根據(jù)聚類(lèi)分析的數(shù)據(jù)類(lèi)型要求形成樣本表示，再根據(jù)樣本間的相似性進(jìn)行分組聚類(lèi)。一般情況，聚類(lèi)是一個(gè)循環(huán)漸近的過(guò)程，需要對(duì)樣本間的相似性進(jìn)行比較，以改善不同的分組情況，使同組對(duì)象彼此更相似，而與其他組的對(duì)象更相異［8］。圖1為聚類(lèi)分析的過(guò)程。

1.3 K-means算法

K-means算法是很典型的基于距離的聚類(lèi)算法，采用距離作為相似性的評(píng)價(jià)指標(biāo)，即認(rèn)為2個(gè)對(duì)象的距離越近，其相似性就越大。

圖1 聚類(lèi)分析的過(guò)程

1.3.1 K-means算法的處理流程

首先，隨機(jī)地選擇k個(gè)對(duì)象，每個(gè)對(duì)象初始地代表了一個(gè)簇的平均值或中心。對(duì)剩余的每個(gè)對(duì)象，根據(jù)其與各個(gè)簇均值的距離(一般用歐氏距離)將它派給最近的簇。然后計(jì)算每個(gè)簇的新均值。這個(gè)過(guò)程不斷重復(fù)，直到準(zhǔn)則函數(shù)收斂。通常采用平方誤差準(zhǔn)則，其定義為［8］其中:E是數(shù)據(jù)庫(kù)中所有對(duì)象的平方誤差總和;p是空間中的點(diǎn)，表示給定的數(shù)據(jù)對(duì)象;mi是簇Ci的平均值(p和mi都是多維的)。這個(gè)準(zhǔn)則使生成的結(jié)果簇盡可能地緊湊和獨(dú)立。

1.3.2 K 均值劃分算法

Input:K(簇的數(shù)目)，D(包含n個(gè)對(duì)象的數(shù)據(jù)集)

Output:K個(gè)簇的集合

方法:

1)從D中任意選擇k個(gè)對(duì)象作為初始簇中心;

2)repeat;

3)根據(jù)簇中對(duì)象的均值，將每個(gè)對(duì)象(再)指派到最相似的簇;

4)更新簇均值，即計(jì)算每個(gè)簇中對(duì)象的均值;

5)until不再發(fā)生變化。

2 聚類(lèi)挖掘數(shù)據(jù)的采集及處理

2.1 聚類(lèi)挖掘數(shù)據(jù)采集

武夷學(xué)院圖書(shū)館使用的是大連網(wǎng)信軟件公司研制妙思文獻(xiàn)管理集成系統(tǒng)。該系統(tǒng)全面覆蓋了圖書(shū)館自動(dòng)化業(yè)務(wù)的功能需求，核心功能包括圖書(shū)和連續(xù)出版物的采購(gòu)、編目、典藏以及流通管理系統(tǒng)，支持校園一卡通。

2.1.1 讀者聚類(lèi)數(shù)據(jù)采集

從武夷學(xué)院圖書(shū)館管理系統(tǒng)中聚類(lèi)挖掘所需的信息，分別形成ltxxb(流通信息表)、dzxxb(讀者信息表)、wxxxb(文獻(xiàn)信息表)、tmxxb(條碼信息表)4個(gè)表。本次研究是在Visual FoxPro 6.0環(huán)境下進(jìn)行數(shù)據(jù)的處理，具體SQL查詢(xún)語(yǔ)句如下:

select ltxxb.讀者證號(hào)，ltxxb.讀者姓名，dzxxb.讀者單位，借出時(shí)刻，wxxxb.索取號(hào);

from ltxxb，dzxxb，wxxxb，tmxxb into table alldata;

where ltxxb.條碼 =wxxxb.條碼 and tmxxb.索取號(hào)=wxxxb.索取號(hào) and ltxxb.讀者證號(hào)=dzxxb.讀者證號(hào) and借出時(shí)刻 between{^2006.08.01}and{^2007.07.31 23:00:00}

利用Visual FoxPro語(yǔ)言輸入SQL命令，統(tǒng)計(jì)每一位讀者1年內(nèi)的借閱數(shù)量。在VFP6.0中具體SQL查詢(xún)語(yǔ)句如下:

select讀者證號(hào)，讀者單位，count(讀者證號(hào))as借閱冊(cè)數(shù);

from alldata into table jieyue;

group by讀者證號(hào);

order by借閱冊(cè)數(shù)desc

讀者借閱數(shù)據(jù)共有9 826條記錄。

2.1.2 圖書(shū)流通量數(shù)據(jù)采集

先從 ltxxb中統(tǒng)計(jì)出每種書(shū)的流通量，在VFP6.0中具體SQL查詢(xún)語(yǔ)句如下:

select控制號(hào)，count(讀者證號(hào))as流通量;

from ltxxb into table tushult;

group by控制號(hào);

order by流通量desc

共有22 636條記錄。

然后從tushult和wxxxb中顯示每種借閱書(shū)籍的相關(guān)信息，此處使用wxxxb表和tushult表進(jìn)行左連接，目的是找出一年未曾借出的書(shū)籍，SQL命令如下:

select流通量，復(fù)本數(shù)，索取號(hào)，正題名，出版日期，標(biāo)準(zhǔn)編號(hào)，文獻(xiàn)類(lèi)型;

from wxxxb into table tushujl;

left join tushult on tushult.控制號(hào) =wxxxb.控制號(hào);

order by流通量desc

圖書(shū)流通數(shù)據(jù)共有235 869條記錄。

2.2 聚類(lèi)挖掘數(shù)據(jù)的處理

2.2.1 空值作刪除處理

做聚類(lèi)分析的2類(lèi)數(shù)據(jù)讀者借閱量和圖書(shū)流通量中的所有屬性都不能為空，如果出現(xiàn)空值，則刪除這條記錄。如jieyue表中由于有些臨時(shí)讀者信息被刪除，出現(xiàn)讀者證號(hào)為空的現(xiàn)象，所以必需去掉這部分空值信息;又如在tushujl數(shù)據(jù)表中，描述圖書(shū)信息的正題名字段不能出現(xiàn)空值，如發(fā)現(xiàn)則應(yīng)剔除。對(duì)于tushujl表中流通量為“.null.”的記錄，在刪除之前把一年來(lái)未流通的書(shū)籍信息保存在單獨(dú)的一個(gè)表中(后面要用)，最終形成待挖掘的22 635條記錄。

2.2.2 噪聲處理

分析 wxxxb、tmxxb、ltxxb 、dzxxb四個(gè)數(shù)據(jù)表的記錄，發(fā)現(xiàn)存在一些影響挖掘結(jié)果的數(shù)據(jù)。如在流通量數(shù)據(jù)表中，一些復(fù)本數(shù)超過(guò)100的為非正常數(shù)據(jù)，轉(zhuǎn)換成20～30復(fù)本數(shù)。一些不流通的圖書(shū)，如工具書(shū)閱覽室內(nèi)的圖書(shū)等應(yīng)排除，以免影響聚類(lèi)結(jié)果。在借閱數(shù)據(jù)表中，有的讀者“一卡通”借書(shū)證掛失補(bǔ)辦了，造成新舊證號(hào)都有借閱信息，影響了讀者借閱情況的挖掘，對(duì)這些記錄應(yīng)合并為1條。

3 在Clementine中實(shí)施聚類(lèi)挖掘及結(jié)果分析

使用 Clementine 挖掘工具［9－10］K-means模型進(jìn)行聚類(lèi)分析，從讀者的借閱冊(cè)數(shù)和圖書(shū)流通量2個(gè)角度進(jìn)行聚類(lèi)分析，聚類(lèi)結(jié)果表示為圖書(shū)館的圖書(shū)推薦。

3.1 讀者聚類(lèi)挖掘及結(jié)果分析

在Clementine中首先應(yīng)該導(dǎo)入待分析數(shù)據(jù)jieyue.xls(在 Visual FoxPro 中將 jieyue.dbf導(dǎo)出成jieyue.xls)，使用type節(jié)點(diǎn)對(duì)數(shù)據(jù)的屬性進(jìn)行設(shè)置。這里針對(duì)讀者的借閱冊(cè)數(shù)進(jìn)行分類(lèi)，所以，只有借閱冊(cè)數(shù)字段方向?yàn)檩斎?，讀者證號(hào)、讀者單位、讀者姓名3個(gè)字段都為無(wú)。使用Clementine進(jìn)行聚類(lèi)分析，有3種模型可供選擇，分別是“神經(jīng)網(wǎng)絡(luò)”、“K均值”、“兩步”聚類(lèi)模型，本文選擇經(jīng)典的“K-means”模型進(jìn)行聚類(lèi)挖掘。在該模型的屬性設(shè)置上，聚類(lèi)數(shù)k=3，分別為“活躍讀者”“消極讀者”“一般讀者”，最后將聚類(lèi)結(jié)果以表格形式顯示出來(lái)。從讀者借閱冊(cè)數(shù)角度進(jìn)行聚類(lèi)分析的整個(gè)流程如圖2所示。以表格形式顯示聚類(lèi)結(jié)果，部分?jǐn)?shù)據(jù)如圖3所示。

圖2 讀者聚類(lèi)挖掘流程

圖3 以表格方式顯示讀者聚類(lèi)結(jié)果中部分?jǐn)?shù)據(jù)

以上的挖掘僅從讀者的借閱冊(cè)數(shù)角度來(lái)衡量讀者的需求。根據(jù)聚類(lèi)結(jié)果，可以適當(dāng)為活躍型讀者提供一定的便利，比如增加這些讀者的允借冊(cè)數(shù)，而不是使用同一標(biāo)準(zhǔn)對(duì)待不同的讀者，為讀者提供更加便利的服務(wù)。對(duì)一般型讀者，可以進(jìn)一步挖掘他們的借閱興趣，為他們提供更主動(dòng)的推薦服務(wù)。而對(duì)那些消極讀者，圖書(shū)館可以適當(dāng)?shù)亻_(kāi)展圖書(shū)宣傳，使他們轉(zhuǎn)消極為積極，提高圖書(shū)館的利用率。

3.2 圖書(shū)聚類(lèi)挖掘及結(jié)果分析

在Clementine軟件中導(dǎo)入待分析數(shù)據(jù)tushujl.xls(在Visual FoxPro中將tushujl.dbf導(dǎo)出成tushujl.xls)，使用type節(jié)點(diǎn)對(duì)數(shù)據(jù)的屬性進(jìn)行設(shè)置，這里針對(duì)讀者的圖書(shū)流通量進(jìn)行分類(lèi)，所以，在type節(jié)點(diǎn)設(shè)置流通量字段方向?yàn)檩斎?，?fù)本數(shù)、索取號(hào)、正題名、出版日期、標(biāo)準(zhǔn)編號(hào)、文獻(xiàn)類(lèi)型6個(gè)字段方向都為無(wú)。使用Clementine進(jìn)行聚類(lèi)分析。本文繼續(xù)選擇“K-means”模型進(jìn)行聚類(lèi)挖掘。在該模型的屬性設(shè)置上，聚類(lèi)數(shù)k=3，分別為“熱門(mén)書(shū)”“冷門(mén)書(shū)”“一般書(shū)”，最后將聚類(lèi)結(jié)果以表格形式顯示出來(lái)。從圖書(shū)流通量角度進(jìn)行聚類(lèi)分析的整個(gè)流程與讀者聚類(lèi)挖掘流程相似，這里不再列出。聚類(lèi)挖掘的最終結(jié)果如圖4所示。

圖4 圖書(shū)流通量聚類(lèi)結(jié)果中部分?jǐn)?shù)據(jù)

根據(jù)對(duì)圖書(shū)聚類(lèi)挖掘的結(jié)果，對(duì)那些熱門(mén)書(shū)(圖4中類(lèi)別為1的圖書(shū))建議圖書(shū)館可以專(zhuān)門(mén)設(shè)一個(gè)“熱門(mén)借書(shū)區(qū)”，方便讀者快速查找想借閱的圖書(shū)。而將一些“冷門(mén)書(shū)”可以做相關(guān)處理，比如文獻(xiàn)剔舊或下架，為圖書(shū)館節(jié)省藏書(shū)空間。同時(shí)那些復(fù)本量過(guò)大的”冷門(mén)書(shū)”(在聚類(lèi)結(jié)果中類(lèi)別為2的圖書(shū))也可以為圖書(shū)采購(gòu)部門(mén)提供參考。還有一部分未流通的書(shū)籍(流通量為.null.)，圖書(shū)館工作人員可以做適當(dāng)分析，對(duì)那些新采購(gòu)的書(shū)籍可以多做宣傳，增加圖書(shū)利用率，而對(duì)那些舊的書(shū)籍，可以做適當(dāng)剔除。

4 結(jié)束語(yǔ)

本文對(duì)武夷學(xué)院圖書(shū)館提供的流通數(shù)據(jù)進(jìn)行了處理，主要采集讀者借閱冊(cè)數(shù)和圖書(shū)流通量2類(lèi)數(shù)據(jù)。在Clementine中使用K-means模型進(jìn)行聚類(lèi)分析，從讀者的借閱冊(cè)數(shù)角度進(jìn)行分類(lèi)，將讀者劃分成“活躍讀者”“消極讀者”及“一般讀者”3類(lèi);根據(jù)圖書(shū)流通量進(jìn)行分類(lèi)，將圖書(shū)分成“熱門(mén)書(shū)”“冷門(mén)書(shū)”及“一般書(shū)”3類(lèi)。根據(jù)聚類(lèi)挖掘的結(jié)果，為不同類(lèi)的讀者提供不同的服務(wù)，針對(duì)不同類(lèi)的圖書(shū)采取相應(yīng)的措施。

［1］蘇靜.基于聚類(lèi)分析的河南城鄉(xiāng)一體化區(qū)域差異研究［J］.安徽農(nóng)業(yè)科學(xué)，2011(21):13224 －13225.

［2］楊軍，鞏玨，鄧文兵.火炮射擊精度的模糊等價(jià)關(guān)系聚類(lèi)分析［J］.四川兵工學(xué)報(bào)，2010(1):28 －29，37.

［3］余肖生，司新霞.基于聚類(lèi)分析的元搜索引擎模型［J］.重慶理工大學(xué)學(xué)報(bào):自然科學(xué)版，2011(6):69－72.

［4］陳桂枝.湖北省縣域城鎮(zhèn)化水平的聚類(lèi)分析［J］.安徽農(nóng)業(yè)科學(xué)，2011(29):18352－18354.

［5］李鳳蘭，樊逾，蘇理云.層次聚類(lèi)的重慶市高校圖書(shū)館分類(lèi)評(píng)估［J］.重慶理工大學(xué)學(xué)報(bào):自然科學(xué)版，2011(9):121－126.

［6］張林林，周毅，周瑞有，等.對(duì)空目標(biāo)射擊有利度模糊聚類(lèi)分析［J］.四川兵工學(xué)報(bào)，2010(12):145－146.

［7］Han jiawei，Micheline，Kamber.數(shù)據(jù)挖掘概念與技術(shù)［M］.范明，孟小峰，譯.北京:機(jī)械工業(yè)出版社，2006.

［8］陸云.聚類(lèi)分析數(shù)據(jù)挖掘方法的研究應(yīng)用［D］.合肥:安徽大學(xué)，2007.

［9］岳小婷.數(shù)據(jù)挖掘工具Clementine應(yīng)用［J］.牡丹江大學(xué)學(xué)報(bào)，2007(4):103－105.

［10］劉利俊.利用Clementine進(jìn)行試卷質(zhì)量分析［J］.現(xiàn)代計(jì)算機(jī)，2008(5):115－117.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡