畢長(zhǎng)泉 曹健 王朝陽(yáng)
河北理工大學(xué)圖書館,河北唐山 063009
基于高校圖書館流通日志的數(shù)據(jù)挖掘
畢長(zhǎng)泉 曹健 王朝陽(yáng)
河北理工大學(xué)圖書館,河北唐山 063009
通過對(duì)一定時(shí)期內(nèi)學(xué)生讀者群流通日志數(shù)據(jù),應(yīng)用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘分析,發(fā)現(xiàn)讀者閱讀傾向及各學(xué)科知識(shí)之間隱含的相互關(guān)聯(lián),從而更好地指導(dǎo)圖書館開展資源建設(shè)工作,實(shí)現(xiàn)合理資源配置、優(yōu)化館藏結(jié)構(gòu),為教學(xué)科研做好服務(wù)工作。
在信息資源高度數(shù)字化的今天, 圖書借閱仍然是高校圖書館開展信息服務(wù)的最基本、最主要的內(nèi)容。高校圖書館自動(dòng)化管理系統(tǒng)中每天產(chǎn)生著大量的統(tǒng)計(jì)數(shù)據(jù)和表單,為了避免陷入數(shù)據(jù)豐富、信息貧乏的局面,從海量數(shù)據(jù)中提取有用信息,更是我們需要考慮和解決的問題。特別是流通系統(tǒng),更是圖書管理子系統(tǒng)的重中之重,通過對(duì)流通日志數(shù)據(jù)的分析,可以得出讀者的閱讀傾向,而讀者的閱讀傾向決定了館藏結(jié)構(gòu)是否合理,對(duì)圖書館館藏建設(shè)有著很強(qiáng)的指導(dǎo)作用。如何對(duì)大量的流通數(shù)據(jù)進(jìn)行分析,目前比較有效的方法就是通過數(shù)據(jù)挖掘技術(shù)。
數(shù)據(jù)挖掘(Data Mining—DM)技術(shù)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的模式的過程。模式也就是所挖掘出的信息和知識(shí)。人們把原始數(shù)據(jù)看做是形成知識(shí)的源泉,就像從礦石中采礦一樣。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,也可以是非結(jié)構(gòu)化的。如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)數(shù)據(jù)。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識(shí)可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以用于數(shù)據(jù)自身的維護(hù)。
數(shù)據(jù)挖掘過程主要包括三個(gè)階段:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果解釋和評(píng)價(jià)。
(1)數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)準(zhǔn)備又可以分為2個(gè)子步驟:數(shù)據(jù)選取、數(shù)據(jù)預(yù)處理。數(shù)據(jù)選取的目的是確定發(fā)現(xiàn)任務(wù)的操作對(duì)象,即目標(biāo)數(shù)據(jù)。是根據(jù)用戶的需要從原始數(shù)據(jù)庫(kù)中抽取的一組數(shù)據(jù);數(shù)據(jù)預(yù)處理一般包括消除噪聲、推導(dǎo)計(jì)算缺值數(shù)據(jù)、消除重復(fù)記錄、完成數(shù)據(jù)類型轉(zhuǎn)換(如把連續(xù)型數(shù)據(jù)轉(zhuǎn)換為離散型數(shù)據(jù),以便于符號(hào)歸納;或是把離散性數(shù)據(jù)轉(zhuǎn)換為連續(xù)型數(shù)據(jù),以便于神經(jīng)網(wǎng)絡(luò)計(jì)算)以及對(duì)數(shù)據(jù)降維(即從初始特征中找出真正有用的特征以減少數(shù)據(jù)挖掘要考慮的變量個(gè)數(shù))。
(2)數(shù)據(jù)挖掘:數(shù)據(jù)挖掘階段首先要確定數(shù)據(jù)挖掘的目標(biāo)和挖掘的知識(shí)類型。確定挖掘任務(wù)后,根據(jù)挖掘的知識(shí)類型選擇合適的挖掘算法,最后實(shí)施數(shù)據(jù)挖掘操作,運(yùn)用選定的挖掘算法從數(shù)據(jù)庫(kù)中抽取所需的知識(shí)。
(3)結(jié)果的解釋和評(píng)價(jià):數(shù)據(jù)挖掘階段發(fā)現(xiàn)的知識(shí),經(jīng)過評(píng)估,可能存在冗余或無關(guān)的知識(shí),這時(shí)需要將其剔除;也有可能知識(shí)不滿足用戶的要求,需要重復(fù)上述挖掘過程重新進(jìn)行挖掘。另外,由于數(shù)據(jù)挖掘是最終要面臨用戶的,因此,還需要對(duì)所挖掘的知識(shí)進(jìn)行解釋,以一種用戶易于理解的方式(如可視化方式)供用戶所用。
我們選取了06級(jí)資環(huán)學(xué)院、計(jì)控學(xué)院、外國(guó)語學(xué)院、理學(xué)院和文法學(xué)院的學(xué)生讀者共計(jì)848人,對(duì)其借閱總量和英語類、文學(xué)類、自動(dòng)化及計(jì)算機(jī)技術(shù)、理化類、政治、法律類等圖書借閱量分別進(jìn)行了統(tǒng)計(jì)分析,并運(yùn)用數(shù)據(jù)挖掘方法計(jì)算出其相關(guān)的支持度,見(表一)。
表一 借閱量統(tǒng)計(jì)及相關(guān)的支持度
通過對(duì)表一的分析,發(fā)現(xiàn)如下特點(diǎn):
(1)文學(xué)類圖書占據(jù)借閱量的首位,支持度平均可到30%左右。這說明文學(xué)類書籍仍是高校讀者課外閱讀的首選。大學(xué)生讀者對(duì)語言學(xué)習(xí)及文學(xué)、藝術(shù)的學(xué)習(xí)、欣賞的需求已經(jīng)大大超過了專業(yè)及基礎(chǔ)學(xué)科學(xué)習(xí)的需求。
(2)借閱高峰集中在大一、大二階段,他們對(duì)文藝類圖書的需求也相對(duì)集中,支持度最高達(dá)到56%。但是,這部分讀者只是借助文學(xué)作品來消遣和娛樂,他們閱讀傾向于流行、時(shí)尚相關(guān)聯(lián)的文學(xué)作品,讀書不再單純上的知識(shí)獲得,很大程度上還是精神消費(fèi)。
(3)專業(yè)圖書占據(jù)借閱量的第二位,比如計(jì)控學(xué)院對(duì)計(jì)算機(jī)類圖書,理學(xué)院對(duì)理化類圖書、文法學(xué)院對(duì)政治法律類圖書的需求均比較大,外語學(xué)院對(duì)外語類圖書的需求甚至超過了文學(xué)類圖書占據(jù)首位。這也說明我校學(xué)生對(duì)專業(yè)知識(shí)的渴求度較大,他們以專業(yè)學(xué)習(xí)為主,在課堂以外,需要借助各類參考書來彌補(bǔ)自己的知識(shí)不足,提高專業(yè)水平。
(4)不同專業(yè)學(xué)生對(duì)于非本專業(yè)圖書有一定的需求。特別是計(jì)算機(jī)類和外語類圖書,主要是大學(xué)階段要面臨英語四六級(jí)考試、計(jì)算機(jī)等級(jí)考試、考研以及近年來畢業(yè)生找工作時(shí)用人單位都比較注重畢業(yè)生的計(jì)算機(jī)和外語的能力等。
(5)資源、計(jì)控、理學(xué)院等學(xué)院的學(xué)生很少借閱政治法律類圖書,而外語、文法學(xué)院的學(xué)生又很少借閱計(jì)算機(jī)類和理化類的圖書。表明理工類和文科類兩大學(xué)科之間的交叉項(xiàng)較小。
(1)數(shù)據(jù)挖掘時(shí)要選擇合適的讀者群確定挖掘目標(biāo)。對(duì)于過寬泛的讀者群會(huì)使我們?cè)邶嬰s的數(shù)據(jù)中,很難發(fā)現(xiàn)任何有價(jià)值的信息。
(2)確定合理的時(shí)間段和適當(dāng)?shù)臄?shù)據(jù)規(guī)模,可以保證數(shù)據(jù)挖掘工作的順利進(jìn)行。過小的數(shù)據(jù)量很難說明普遍性的問題,容易使結(jié)果產(chǎn)生偏差;過大的數(shù)據(jù)量則會(huì)明顯增加挖掘的難度,降低計(jì)算的效率。
(3)實(shí)際操作過程中可根據(jù)規(guī)則產(chǎn)生的實(shí)際數(shù)量和預(yù)定的目標(biāo)對(duì)最小支持度和最小可信度標(biāo)準(zhǔn)作適當(dāng)?shù)恼{(diào)整,以避免過多或過少規(guī)則的出現(xiàn)。
基于流通日志的數(shù)據(jù)挖掘技術(shù)可以發(fā)現(xiàn)讀者的借閱模式和借閱喜好,同時(shí),能夠發(fā)現(xiàn)龐雜的流通數(shù)據(jù)中存在的隱含關(guān)系,將讀者需求從定性分析上升到定量分析,這無疑對(duì)圖書館的信息服務(wù)工作起到很好的指導(dǎo)作用。它不僅是圖書館建設(shè)合理的信息資源保障體系的重要依據(jù),也是圖書館開展以讀者需求為導(dǎo)向的各項(xiàng)服務(wù)工作的基礎(chǔ)。
[1]王偉,張征芳,王明海.基于數(shù)據(jù)挖掘的圖書館讀者行為分析[J].現(xiàn)代圖書情報(bào)技術(shù).2006, (11): 51-54
[2]馮進(jìn).利用數(shù)據(jù)挖掘技術(shù)深入挖掘圖書館工作[J].現(xiàn)代情報(bào).2005,3(3):131-132
[3]羅鳳莉.基于關(guān)聯(lián)規(guī)則挖掘的圖書流通信息分析.晉圖學(xué)刊.2007(1):28-29
[4]Alex Berson,StephenJ.Smith,Data Warehousing,Data Mining,&OLAP[M],McCraw-Hill Book Co,1997
G258.6
A
10.3969/j.issn.1001-8972.2011.04.040
河北理工大學(xué)教改重點(diǎn)項(xiàng)目(項(xiàng)目編號(hào):Z0814-14)
畢長(zhǎng)泉,碩士,教授高工,主要研究方向:信息技術(shù)、數(shù)據(jù)挖掘等。
圖書流通;關(guān)聯(lián)規(guī)則;數(shù)據(jù)挖掘;館藏結(jié)構(gòu)