基于Clementine的數(shù)據(jù)挖掘技術(shù)對學(xué)科隱形關(guān)聯(lián)的研究

2013-04-29 00:44張靜端

現(xiàn)代情報 2013年9期

關(guān)鍵詞：關(guān)聯(lián)規(guī)則學(xué)科建設(shè)數(shù)據(jù)挖掘

張靜端

〔摘要〕借助數(shù)據(jù)挖掘軟件Clementine 120，以Apriori模型和GRI模型為數(shù)據(jù)挖掘方法，對東華大學(xué)近五年來紡織學(xué)院博士研究生的借閱記錄進(jìn)行分析。通過分析數(shù)據(jù)挖掘的結(jié)果，尋找學(xué)科領(lǐng)域中相互關(guān)聯(lián)的知識，輔助教師的教學(xué)工作，優(yōu)化學(xué)科建設(shè)。

〔關(guān)鍵詞〕數(shù)據(jù)挖掘；關(guān)聯(lián)規(guī)則；學(xué)科建設(shè)；學(xué)科關(guān)聯(lián)

DOI：10.3969/j.issn.1008-0821.2013.09.029

〔中圖分類號〕G250.13〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821（2013）09-0145-05

隨著現(xiàn)代社會的不斷發(fā)展，知識更新的速度日漸加快，各個學(xué)科之間的聯(lián)系程度也越來越緊密，出現(xiàn)了許多新的交叉學(xué)科及邊緣學(xué)科。與此同時，社會對學(xué)生的知識面要求也越來越高。在本科教學(xué)過程中，教學(xué)大綱雖然定期更新，卻仍明顯滯后于社會的發(fā)展和要求。高校圖書館，作為向高校師生提供信息服務(wù)的部門，有其自身特有的信息優(yōu)勢和特點。由于目前所有高校都采用了數(shù)據(jù)庫技術(shù)對圖書館進(jìn)行管理，在圖書的流通過程中，產(chǎn)生了大量的借閱數(shù)據(jù)。學(xué)生尤其是碩博研究生的借閱書刊信息在一定程度上能夠代表學(xué)科的發(fā)展方向和各學(xué)科之間的關(guān)聯(lián)程度。因此，充分利用這些數(shù)據(jù)，不僅可以分析不同類型讀者的需求內(nèi)容，以便及時調(diào)整藏書結(jié)構(gòu)與購書投資方向，并且能夠從借閱信息中挖掘出學(xué)科間的關(guān)聯(lián)關(guān)系及特點，以便為學(xué)科課程設(shè)置及內(nèi)容調(diào)整進(jìn)行有效合理的建議。這將成為高校圖書館信息服務(wù)的一個重要課題[1]。

數(shù)據(jù)挖掘（Data Mining），是指從大量的結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)中提取有用的信息和知識的過程[2]。數(shù)據(jù)挖掘技術(shù)是近年來熱門的研究領(lǐng)域，它可以發(fā)掘潛藏在資料中的大量可用或未知的信息，以為管理者提供決策參考。在圖書館管理中，最值得進(jìn)行數(shù)據(jù)挖掘的是圖書流通資料。因為圖書館借閱記錄向來是讀者實際使用圖書館資源的證據(jù)，也是讀者滿足個人信息需求的行為結(jié)果，其中潛藏了大量有意義的關(guān)系和規(guī)則[1，3]。

圖書館在業(yè)務(wù)流通中產(chǎn)生的數(shù)據(jù)屬于結(jié)構(gòu)化數(shù)據(jù)。目前，有關(guān)對圖書館業(yè)務(wù)流通數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘的文獻(xiàn)研究主要集中在以下兩個方面：

（1）讀者借閱習(xí)慣的偏好及行為特征分析；

（2）通過聚類分析對新進(jìn)書籍與歷史書籍進(jìn)行聚類，以判斷其價值。

可以看出，目前在圖書館領(lǐng)域中，運用數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則方法來對學(xué)科隱性關(guān)聯(lián)和學(xué)科動向進(jìn)行的研究還是不多見的。本文將采用Apriori和GRI關(guān)聯(lián)規(guī)則模型，對近五年來東華大學(xué)紡織學(xué)院博士研究生的借閱記錄進(jìn)行挖掘和分析。博士生一般具有一定的科研水平，并有較為明確的研究方向，利用博士研究生的借閱數(shù)據(jù)找出學(xué)科之間的關(guān)聯(lián)程度，有助于發(fā)現(xiàn)學(xué)科間的隱形關(guān)聯(lián)，以此為依據(jù)來為本科學(xué)生選修課程以及教學(xué)內(nèi)容和教學(xué)計劃的補充與制定提供一定的參考[4]。

2013年9月1第33卷第9期1現(xiàn)？代？情？報1Journal of Modern Information1Sep，20131Vol.33No92013年9月1第33卷第9期1基于Clementine的數(shù)據(jù)挖掘技術(shù)對學(xué)科隱形關(guān)聯(lián)的研究1Sep，20131Vol.33No91挖掘模型及軟件簡介

1.1關(guān)聯(lián)規(guī)則的定義

關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的主要技術(shù)之一[5]。所謂關(guān)聯(lián)規(guī)則，就是描述數(shù)據(jù)庫中數(shù)據(jù)項（屬性、變量）之間存在（潛在）的規(guī)則。利用關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)，可以找出大量數(shù)據(jù)之間未知的依賴關(guān)系。

關(guān)聯(lián)規(guī)則定義如下：

設(shè)I={i1，i2，…，im}為所有項目的集合，D為事務(wù)數(shù)據(jù)庫，事務(wù)T是一個項目子集（TI）。每一個事務(wù)具有惟一的事務(wù)標(biāo)識Tid。設(shè)A是一個由項目構(gòu)成的集合，稱為項集。事務(wù)T包含項集A，當(dāng)且僅當(dāng)AT。

關(guān)聯(lián)規(guī)則是形如X→Y的邏輯蘊含式，其中XI，YI且X∩Y=。如果事務(wù)數(shù)據(jù)庫D中有s%的事務(wù)包含X∪Y，則成關(guān)聯(lián)規(guī)則X→Y的支持度為s%。

1.2關(guān)聯(lián)規(guī)則挖掘算法的步驟

關(guān)聯(lián)規(guī)則的任務(wù)就是在事務(wù)數(shù)據(jù)庫D中找出具有用戶給定的最小支持度minsp和最小置信度的強關(guān)聯(lián)規(guī)則，關(guān)聯(lián)規(guī)則挖掘可分解為2個步驟：

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Clementine的數(shù)據(jù)挖掘技術(shù)對學(xué)科隱形關(guān)聯(lián)的研究