基于數(shù)據(jù)挖掘技術(shù)的圖書館流通數(shù)據(jù)的關(guān)聯(lián)分析

2009-11-19 09:16陸覺民馬國棟鄭宇

現(xiàn)代情報 2009年9期

關(guān)鍵詞：關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘圖書館

陸覺民　馬國棟　鄭　宇

〔摘要〕運用改進的Apriori算法,對具有代表性的與分析任務(wù)相關(guān)的數(shù)據(jù)進行樣本抽取,利用Weak作為數(shù)據(jù)挖掘算法開發(fā)工具,產(chǎn)生了一系列強關(guān)聯(lián)規(guī)則。根據(jù)這些規(guī)則,我們可以解讀出一些現(xiàn)象,它不僅能揭示隱藏在大量數(shù)據(jù)后的重要關(guān)系信息,同時也為這種關(guān)系提供了量化描述手段。這些定性定量的信息不僅能對圖書館的各項工作提供技術(shù)上的支持,還可對學校的教學,課程的設(shè)置,學科的交叉滲透等提供信息。

〔關(guān)鍵詞〕數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;圖書館

〔中圖分類號〕G250.7 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)09-0108-03

The Association Analysis for Library Circulation

Data Based on Data Mining TechniqueLu Juemin Ma Guodong Zheng yu

(Library,Shanghai University,Shanghai 200072,China)

〔Abstract〕This paper presented an improved algorithm based on the analysis of the Apriori method,collected typical samples related to our task analysis,used WEKA as Development Tools to discover strong association rules.According to these rules,we can reveal important relations between mass data and quantize the relations.Those quantized information not only provided support for routine work in library,but also for education,curriculum and interpenetration.

〔Key words〕data mining;association rules;library

隨著圖書館數(shù)字信息化的進展,信息的種類越來越多,且變化頻繁,信息資源呈爆炸性的增長。與此同時,知識的不斷更新和科研課題的時間性和階段性,使高校讀者對信息的需求具有針對性、及時性和新穎性,并呈多元化和個性化的特征。

然而,在信息需求多樣化、個性化的趨勢下,人們發(fā)現(xiàn)要準確、快速地查找自己所需的信息并非容易。從需求內(nèi)容上,他們要求提供的信息更具全面性和精確性,不再僅僅滿足獲得信息載體方面的信息,還需要權(quán)威性相關(guān)信息,并希望進一步得到經(jīng)過整合、創(chuàng)新,能解決問題的知識內(nèi)容;從需求時效上,他們要求個人的信息需求及時得到滿足。在這樣的背景下,高校圖書館傳統(tǒng)的服務(wù)方式受到了嚴峻的挑戰(zhàn),高校圖書館不僅需要根據(jù)用戶明確提出的個性化要求提供信息服務(wù),而且需要通過認真分析用戶個人特征和使用信息的習慣等來發(fā)現(xiàn)其潛在需求并主動地向他們提供可能需要的服務(wù)。為此,2008年上海市圖書館學會將此作為立項課題。

1 研究的內(nèi)容

用戶需求是圖書館工作存在和發(fā)展的前提,只有加強用戶需求信息需求行為特點的研究,才能有針對性地開展工作。就目前數(shù)字圖書館個性化信息服務(wù)系統(tǒng)普遍比較單一,個性化智能程度不高的特點,本文提出利用數(shù)字挖掘技術(shù)進行圖書館個性化技術(shù)的研究,我們以上海大學圖書館部分流通數(shù)據(jù)作為研究對象通過用戶的歷史訪問記錄,采用關(guān)聯(lián)規(guī)則挖掘技術(shù),發(fā)現(xiàn)用戶潛在可能的興趣,進行針對性的提煉整合和更高層次的分析。

1.1 運用改進的Apriori算法

通過對經(jīng)典的Apriori算法的改進,采用JAVA作為數(shù)據(jù)挖掘矩陣算法的開發(fā)環(huán)境,針對其算法性能瓶頸,根據(jù)頻繁項集的性質(zhì)和二進制邏輯運算的基本思想,提出基于矩陣的數(shù)據(jù)挖掘算法。挖掘關(guān)聯(lián)規(guī)則的關(guān)鍵問題在于提高算法的效率,對于類似圖書館這樣的信息量大且數(shù)據(jù)分散的大型數(shù)據(jù)庫系統(tǒng)矛盾更為突出,采用矩陣的數(shù)據(jù)挖掘技術(shù)較好避免了Apriori系列算法固有的缺陷,算法占用內(nèi)存小,I/O操作少,執(zhí)行速度快,系統(tǒng)效率大大提高。

1.2 數(shù)據(jù)的預(yù)處理

數(shù)據(jù)預(yù)處理的質(zhì)量直接影響后續(xù)工作,高質(zhì)量的數(shù)據(jù)預(yù)處理,不僅能節(jié)約系統(tǒng)資源,而且能提高數(shù)據(jù)挖掘過程的精度和性能,提高系統(tǒng)效率。

對具有代表性的與分析任務(wù)相關(guān)的數(shù)據(jù)進行樣本抽取,讀者的借閱習慣與其所從事的專業(yè)有很大的聯(lián)系,因此需要從圖書館系統(tǒng)的數(shù)據(jù)庫中根據(jù)讀者專業(yè)屬性提取借閱數(shù)據(jù),將相關(guān)數(shù)據(jù)庫轉(zhuǎn)換整合,數(shù)據(jù)歸約,把用戶空間分成若干相似用戶聚類群,實現(xiàn)與數(shù)據(jù)挖掘矩陣算法的對接。

我們著重跟蹤上海大學機電工程與自動化學院及知識產(chǎn)權(quán)學院2005級大一及大三學生借閱O-數(shù)理學科和化學類,H31-英語類,D-政治法律類,I-文學類,TP-自動化及計算機技術(shù)類書籍的數(shù)據(jù),總計12 747條記錄,分類統(tǒng)計見表1。

1.3 用戶隱私安全與保護問題

為了更好地開展個性化服務(wù),用戶的個人信息是不可缺少的,這就涉及到了用戶的隱私問題。由于個性化信息服務(wù)需要對用戶的基本信息和查詢行為進行基本的分析,因此有關(guān)用戶日常行為日志、個人信息、注冊信息等都在用戶個性化特征分析之中。個性化信息服務(wù)應(yīng)該使用戶相信其個人信息不會被濫用,而是用于有效滿足用戶的需求。同時應(yīng)該在用戶中樹立良好的信譽感,制定出較為完善的隱私保護政策,保證用戶個人信息不被第三方使用。

2 關(guān)聯(lián)挖掘結(jié)果及評估

經(jīng)統(tǒng)計05級自動化學院、知識產(chǎn)權(quán)學院和文學院參與關(guān)聯(lián)分析的5類書籍借閱人數(shù)占總借閱人數(shù)的比例都在90%以上,樣本選取合理,可信度高。05級自動化學院、知識產(chǎn)權(quán)學院文學院大一、大三學生借閱率變化如圖1。工科類的借閱率呈下降,文科類的借閱率呈上升。文科大一大三的借閱率都高于工科。

根據(jù)統(tǒng)計,學校的文理科都有這個變化趨勢。我們分析主要原因是當今社會科技發(fā)展日新月異,工科專業(yè)類的圖書更新相對落后于需要,上網(wǎng)查資料成了學生解決問題的重要途徑。而文科則不同,隨著學習的深入,需要的是更經(jīng)典,更具有積淀的資料,這些專業(yè)信息,圖書館的藏書更多于網(wǎng)上能提供的資源?？偟膩碚f網(wǎng)絡(luò)是影響借閱率的主要因素之一。

課題利用Weka作為數(shù)據(jù)挖掘算法開發(fā)工具,Weka的全名是懷卡托智能分析環(huán)境,是一款免費的、非商業(yè)化的,基于JAVA環(huán)境下開源的機器學習以及數(shù)據(jù)挖掘軟件。它和它的源代碼可在其官方網(wǎng)站下載。WEKA能承擔對數(shù)據(jù)進行預(yù)處理,分類、回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。而開發(fā)者則可使用Java語言,利用Weka的架構(gòu)上開發(fā)出更多的數(shù)據(jù)挖掘算法。頻繁項目集L={O,D,H31,I,TP},取最小置信度minzConfidence為0.66。關(guān)聯(lián)挖掘的結(jié)果如下:

05級大一自動化,時間:2005年9月-2006年7月

讀者數(shù)N=315,最小支持度為0.2,得到頻繁三項集L3={O,I,H31}。自動化05級大一強關(guān)聯(lián)規(guī)則見表3。

05級大三自動化,時間:2007年9月-2008年7月

讀者數(shù)N=293,最小支持度為0.1,得到頻繁三項集L3={TP,I,H31}。自動化05級大三強關(guān)聯(lián)規(guī)則見表4。

05級大一知識產(chǎn)權(quán),時間:2005年9月-2006年7月

讀者數(shù)N=156,最小支持度為0.2,得到頻繁三項集L3={D,I,H31}。知識產(chǎn)權(quán)05級大一強關(guān)聯(lián)規(guī)則見表5。

05級大三知識產(chǎn)權(quán),時間:2007年9月-2008年7月

讀者數(shù)N=172,最小支持度為0.1,得到頻繁三項集L3={D,I,H31}。知識產(chǎn)權(quán)05級大三強關(guān)聯(lián)規(guī)則見表6。

關(guān)聯(lián)挖掘得出的結(jié)果與圖書館實際工作及讀者調(diào)查相比較,結(jié)果是很相近的?，F(xiàn)選擇典型的加以說明。

(1)根據(jù)所選取的關(guān)聯(lián)規(guī)則最小支持度,機電工程與自動化學院1,3年級得到的頻繁三項集分別為L3={O,I,H31}和L3={TP,I,H31}。從實際情況來看:自動化專業(yè)的學生在整個大學的學習過程中一般很少有借閱政治法律類書籍的需要,大一的學生對數(shù)學等基礎(chǔ)課程的圖書借閱比較集中而對自動化及計算機技術(shù)類書籍的借閱量相對少,到了大三隨著基礎(chǔ)課程的結(jié)束和專業(yè)課的開設(shè)學生對數(shù)理學科和化學類書籍的借閱急劇減少,對自動化及計算機技術(shù)類書籍的借閱量卻大大增加了。

(2)知識產(chǎn)權(quán)學院1,3年級所得到的頻繁三項集沒有變化L3={D,I,H31},O(數(shù)理學科和化學類)和TP(自動化及計算機技術(shù)類)不參與各年級的關(guān)聯(lián)規(guī)則的運算。這個結(jié)果也是很顯然的。

(3)表3~表6中,H31英語類書籍出現(xiàn)在較多的強關(guān)聯(lián)規(guī)則里,從宏觀上來說英語是學校工科、文科各年級的主要借閱書籍。從另個角度看,整個大學期間學生在外語上花費了大量的時間和精力。

(4)表4中,H31=>TP,I=>TP的作用度分別是3.32和1.41,表明自動化大三年級期間,相對于文學書籍而言,外語類書籍與專業(yè)書籍相關(guān)性更高些。在表6中,因為I=>D的作用度小于1,所以文學類書籍與法律類書籍的關(guān)聯(lián)是無效的。

(5)用圖表分析后,表5和表6中的D=>I、I=>D作用度的變化,我們可以解釋為由于大三專業(yè)課的增加,知識產(chǎn)權(quán)學院的學生相對于大一借閱法律書籍數(shù)量大大增多,而借閱文學書籍的學生稍有減少。

3 結(jié)束語

數(shù)字圖書館的流通信息為我們提供的是最基礎(chǔ)的原始的數(shù)據(jù),通過對流通數(shù)據(jù)的關(guān)聯(lián)挖掘,不僅能揭示隱藏在大量數(shù)據(jù)后的重要關(guān)系信息,同時也為這種關(guān)系提供了量化描述手段。這些定性定量的信息不僅能對圖書館的各項工作提供技術(shù)上的支持,還可對學校的教學,課程的設(shè)置,學科的交叉滲透等提供信息。從表3~表6中我們得到了許多強關(guān)聯(lián)規(guī)則,數(shù)據(jù)挖掘工具能夠發(fā)現(xiàn)滿足條件的關(guān)聯(lián)規(guī)則,但它不能判定關(guān)聯(lián)規(guī)則的實際意義。對關(guān)聯(lián)規(guī)則的理解需要熟悉業(yè)務(wù)背景,豐富的業(yè)務(wù)經(jīng)驗對數(shù)據(jù)有足夠的理解,也可以通過篩選技術(shù)排除虛假規(guī)則,只有這樣才能去其糟粕,取其精華,充分發(fā)揮關(guān)聯(lián)規(guī)則的價值。

參考文獻

[1]陸覺民,鄭宇.基于矩陣的數(shù)據(jù)挖掘技術(shù)在數(shù)字化圖書館中的應(yīng)用[J].現(xiàn)代情報 2007,27(12):92-93,98.

[2]魏育輝,潘潔.圖書流通數(shù)據(jù)的關(guān)聯(lián)挖掘量化分析方法[J].現(xiàn)代情報,2005,(11):108-110.

[3]鮑靜,范生萬.基于數(shù)據(jù)挖掘的圖書數(shù)據(jù)預(yù)處理大學[J].圖書情報學刊,2008,26(2):31-33.

[4]王偉,張征芳,王明海.基于數(shù)據(jù)挖掘的圖書館讀者行為分析[J].現(xiàn)代圖書情報技術(shù),2006,(11):51-54.

[5]李虹.面向用戶的數(shù)字圖書館信息服務(wù)模式研究[J].情報雜志,2007,(8):134-136.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于數(shù)據(jù)挖掘技術(shù)的圖書館流通數(shù)據(jù)的關(guān)聯(lián)分析