国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Clementine的數(shù)據(jù)挖掘技術(shù)對學(xué)科隱形關(guān)聯(lián)的研究

2013-04-29 00:44張靜端
現(xiàn)代情報 2013年9期
關(guān)鍵詞:關(guān)聯(lián)規(guī)則學(xué)科建設(shè)數(shù)據(jù)挖掘

張靜端

〔摘要〕借助數(shù)據(jù)挖掘軟件Clementine 120,以Apriori模型和GRI模型為數(shù)據(jù)挖掘方法,對東華大學(xué)近五年來紡織學(xué)院博士研究生的借閱記錄進(jìn)行分析。通過分析數(shù)據(jù)挖掘的結(jié)果,尋找學(xué)科領(lǐng)域中相互關(guān)聯(lián)的知識,輔助教師的教學(xué)工作,優(yōu)化學(xué)科建設(shè)。

〔關(guān)鍵詞〕數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;學(xué)科建設(shè);學(xué)科關(guān)聯(lián)

DOI:10.3969/j.issn.1008-0821.2013.09.029

〔中圖分類號〕G250.13〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2013)09-0145-05

隨著現(xiàn)代社會的不斷發(fā)展,知識更新的速度日漸加快,各個學(xué)科之間的聯(lián)系程度也越來越緊密,出現(xiàn)了許多新的交叉學(xué)科及邊緣學(xué)科。與此同時,社會對學(xué)生的知識面要求也越來越高。在本科教學(xué)過程中,教學(xué)大綱雖然定期更新,卻仍明顯滯后于社會的發(fā)展和要求。高校圖書館,作為向高校師生提供信息服務(wù)的部門,有其自身特有的信息優(yōu)勢和特點。由于目前所有高校都采用了數(shù)據(jù)庫技術(shù)對圖書館進(jìn)行管理,在圖書的流通過程中,產(chǎn)生了大量的借閱數(shù)據(jù)。學(xué)生尤其是碩博研究生的借閱書刊信息在一定程度上能夠代表學(xué)科的發(fā)展方向和各學(xué)科之間的關(guān)聯(lián)程度。因此,充分利用這些數(shù)據(jù),不僅可以分析不同類型讀者的需求內(nèi)容,以便及時調(diào)整藏書結(jié)構(gòu)與購書投資方向,并且能夠從借閱信息中挖掘出學(xué)科間的關(guān)聯(lián)關(guān)系及特點,以便為學(xué)科課程設(shè)置及內(nèi)容調(diào)整進(jìn)行有效合理的建議。這將成為高校圖書館信息服務(wù)的一個重要課題[1]。

數(shù)據(jù)挖掘(Data Mining),是指從大量的結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)中提取有用的信息和知識的過程[2]。數(shù)據(jù)挖掘技術(shù)是近年來熱門的研究領(lǐng)域,它可以發(fā)掘潛藏在資料中的大量可用或未知的信息,以為管理者提供決策參考。在圖書館管理中,最值得進(jìn)行數(shù)據(jù)挖掘的是圖書流通資料。因為圖書館借閱記錄向來是讀者實際使用圖書館資源的證據(jù),也是讀者滿足個人信息需求的行為結(jié)果,其中潛藏了大量有意義的關(guān)系和規(guī)則[1,3]。

圖書館在業(yè)務(wù)流通中產(chǎn)生的數(shù)據(jù)屬于結(jié)構(gòu)化數(shù)據(jù)。目前,有關(guān)對圖書館業(yè)務(wù)流通數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘的文獻(xiàn)研究主要集中在以下兩個方面:

(1)讀者借閱習(xí)慣的偏好及行為特征分析;

(2)通過聚類分析對新進(jìn)書籍與歷史書籍進(jìn)行聚類,以判斷其價值。

可以看出,目前在圖書館領(lǐng)域中,運用數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則方法來對學(xué)科隱性關(guān)聯(lián)和學(xué)科動向進(jìn)行的研究還是不多見的。本文將采用Apriori和GRI關(guān)聯(lián)規(guī)則模型,對近五年來東華大學(xué)紡織學(xué)院博士研究生的借閱記錄進(jìn)行挖掘和分析。博士生一般具有一定的科研水平,并有較為明確的研究方向,利用博士研究生的借閱數(shù)據(jù)找出學(xué)科之間的關(guān)聯(lián)程度,有助于發(fā)現(xiàn)學(xué)科間的隱形關(guān)聯(lián),以此為依據(jù)來為本科學(xué)生選修課程以及教學(xué)內(nèi)容和教學(xué)計劃的補充與制定提供一定的參考[4]。

2013年9月1第33卷第9期1現(xiàn)?代?情?報1Journal of Modern Information1Sep,20131Vol.33No92013年9月1第33卷第9期1基于Clementine的數(shù)據(jù)挖掘技術(shù)對學(xué)科隱形關(guān)聯(lián)的研究1Sep,20131Vol.33No91挖掘模型及軟件簡介

1.1關(guān)聯(lián)規(guī)則的定義

關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的主要技術(shù)之一[5]。所謂關(guān)聯(lián)規(guī)則,就是描述數(shù)據(jù)庫中數(shù)據(jù)項(屬性、變量)之間存在(潛在)的規(guī)則。利用關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù),可以找出大量數(shù)據(jù)之間未知的依賴關(guān)系。

關(guān)聯(lián)規(guī)則定義如下:

設(shè)I={i1,i2,…,im}為所有項目的集合,D為事務(wù)數(shù)據(jù)庫,事務(wù)T是一個項目子集(TI)。每一個事務(wù)具有惟一的事務(wù)標(biāo)識Tid。設(shè)A是一個由項目構(gòu)成的集合,稱為項集。事務(wù)T包含項集A,當(dāng)且僅當(dāng)AT。

關(guān)聯(lián)規(guī)則是形如X→Y的邏輯蘊含式,其中XI,YI且X∩Y=。如果事務(wù)數(shù)據(jù)庫D中有s%的事務(wù)包含X∪Y,則成關(guān)聯(lián)規(guī)則X→Y的支持度為s%。

1.2關(guān)聯(lián)規(guī)則挖掘算法的步驟

關(guān)聯(lián)規(guī)則的任務(wù)就是在事務(wù)數(shù)據(jù)庫D中找出具有用戶給定的最小支持度minsp和最小置信度的強關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則挖掘可分解為2個步驟:

猜你喜歡
關(guān)聯(lián)規(guī)則學(xué)科建設(shè)數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
關(guān)聯(lián)規(guī)則,數(shù)據(jù)分析的一把利器
武警院校應(yīng)急救援學(xué)科建設(shè)存在的問題及對策
論七年一貫制體系下本科學(xué)科建設(shè)中職業(yè)教育的重要性
關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
基于關(guān)聯(lián)規(guī)則的計算機入侵檢測方法
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究