張靜端
〔摘要〕借助數(shù)據(jù)挖掘軟件Clementine 120,以Apriori模型和GRI模型為數(shù)據(jù)挖掘方法,對東華大學(xué)近五年來紡織學(xué)院博士研究生的借閱記錄進(jìn)行分析。通過分析數(shù)據(jù)挖掘的結(jié)果,尋找學(xué)科領(lǐng)域中相互關(guān)聯(lián)的知識,輔助教師的教學(xué)工作,優(yōu)化學(xué)科建設(shè)。
〔關(guān)鍵詞〕數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;學(xué)科建設(shè);學(xué)科關(guān)聯(lián)
DOI:10.3969/j.issn.1008-0821.2013.09.029
〔中圖分類號〕G250.13〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2013)09-0145-05
隨著現(xiàn)代社會的不斷發(fā)展,知識更新的速度日漸加快,各個學(xué)科之間的聯(lián)系程度也越來越緊密,出現(xiàn)了許多新的交叉學(xué)科及邊緣學(xué)科。與此同時,社會對學(xué)生的知識面要求也越來越高。在本科教學(xué)過程中,教學(xué)大綱雖然定期更新,卻仍明顯滯后于社會的發(fā)展和要求。高校圖書館,作為向高校師生提供信息服務(wù)的部門,有其自身特有的信息優(yōu)勢和特點。由于目前所有高校都采用了數(shù)據(jù)庫技術(shù)對圖書館進(jìn)行管理,在圖書的流通過程中,產(chǎn)生了大量的借閱數(shù)據(jù)。學(xué)生尤其是碩博研究生的借閱書刊信息在一定程度上能夠代表學(xué)科的發(fā)展方向和各學(xué)科之間的關(guān)聯(lián)程度。因此,充分利用這些數(shù)據(jù),不僅可以分析不同類型讀者的需求內(nèi)容,以便及時調(diào)整藏書結(jié)構(gòu)與購書投資方向,并且能夠從借閱信息中挖掘出學(xué)科間的關(guān)聯(lián)關(guān)系及特點,以便為學(xué)科課程設(shè)置及內(nèi)容調(diào)整進(jìn)行有效合理的建議。這將成為高校圖書館信息服務(wù)的一個重要課題[1]。
數(shù)據(jù)挖掘(Data Mining),是指從大量的結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)中提取有用的信息和知識的過程[2]。數(shù)據(jù)挖掘技術(shù)是近年來熱門的研究領(lǐng)域,它可以發(fā)掘潛藏在資料中的大量可用或未知的信息,以為管理者提供決策參考。在圖書館管理中,最值得進(jìn)行數(shù)據(jù)挖掘的是圖書流通資料。因為圖書館借閱記錄向來是讀者實際使用圖書館資源的證據(jù),也是讀者滿足個人信息需求的行為結(jié)果,其中潛藏了大量有意義的關(guān)系和規(guī)則[1,3]。
圖書館在業(yè)務(wù)流通中產(chǎn)生的數(shù)據(jù)屬于結(jié)構(gòu)化數(shù)據(jù)。目前,有關(guān)對圖書館業(yè)務(wù)流通數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘的文獻(xiàn)研究主要集中在以下兩個方面:
(1)讀者借閱習(xí)慣的偏好及行為特征分析;
(2)通過聚類分析對新進(jìn)書籍與歷史書籍進(jìn)行聚類,以判斷其價值。
可以看出,目前在圖書館領(lǐng)域中,運用數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則方法來對學(xué)科隱性關(guān)聯(lián)和學(xué)科動向進(jìn)行的研究還是不多見的。本文將采用Apriori和GRI關(guān)聯(lián)規(guī)則模型,對近五年來東華大學(xué)紡織學(xué)院博士研究生的借閱記錄進(jìn)行挖掘和分析。博士生一般具有一定的科研水平,并有較為明確的研究方向,利用博士研究生的借閱數(shù)據(jù)找出學(xué)科之間的關(guān)聯(lián)程度,有助于發(fā)現(xiàn)學(xué)科間的隱形關(guān)聯(lián),以此為依據(jù)來為本科學(xué)生選修課程以及教學(xué)內(nèi)容和教學(xué)計劃的補充與制定提供一定的參考[4]。
2013年9月1第33卷第9期1現(xiàn)?代?情?報1Journal of Modern Information1Sep,20131Vol.33No92013年9月1第33卷第9期1基于Clementine的數(shù)據(jù)挖掘技術(shù)對學(xué)科隱形關(guān)聯(lián)的研究1Sep,20131Vol.33No91挖掘模型及軟件簡介
1.1關(guān)聯(lián)規(guī)則的定義
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的主要技術(shù)之一[5]。所謂關(guān)聯(lián)規(guī)則,就是描述數(shù)據(jù)庫中數(shù)據(jù)項(屬性、變量)之間存在(潛在)的規(guī)則。利用關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù),可以找出大量數(shù)據(jù)之間未知的依賴關(guān)系。
關(guān)聯(lián)規(guī)則定義如下:
設(shè)I={i1,i2,…,im}為所有項目的集合,D為事務(wù)數(shù)據(jù)庫,事務(wù)T是一個項目子集(TI)。每一個事務(wù)具有惟一的事務(wù)標(biāo)識Tid。設(shè)A是一個由項目構(gòu)成的集合,稱為項集。事務(wù)T包含項集A,當(dāng)且僅當(dāng)AT。
關(guān)聯(lián)規(guī)則是形如X→Y的邏輯蘊含式,其中XI,YI且X∩Y=。如果事務(wù)數(shù)據(jù)庫D中有s%的事務(wù)包含X∪Y,則成關(guān)聯(lián)規(guī)則X→Y的支持度為s%。
1.2關(guān)聯(lián)規(guī)則挖掘算法的步驟
關(guān)聯(lián)規(guī)則的任務(wù)就是在事務(wù)數(shù)據(jù)庫D中找出具有用戶給定的最小支持度minsp和最小置信度的強關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則挖掘可分解為2個步驟: