汪濤
摘 要: 數(shù)據(jù)挖掘作為一種深層次的數(shù)據(jù)分析方法,此方法可以從大量數(shù)據(jù)中尋找出反應(yīng)用戶特征的信息和規(guī)則,將中學(xué)圖書管理與數(shù)據(jù)挖掘相結(jié)合,尋找提取隱藏在大量的管理數(shù)據(jù)之中的有效數(shù)據(jù),包括用戶數(shù)據(jù)的搜集、數(shù)據(jù)倉的建立,以及用戶特征的分析等主要內(nèi)容。
關(guān)鍵詞:數(shù)據(jù)挖掘 中學(xué) 圖書管理系統(tǒng)
中圖分類號:TP315 文獻(xiàn)標(biāo)識碼:A 文章編號:1003-9082(2016)12-0151-01
現(xiàn)今時代,隨著數(shù)據(jù)庫技術(shù)的成熟和數(shù)據(jù)引用的普及,人類積累的數(shù)據(jù)量正以指數(shù)級迅速增長。進(jìn)入九十年代,隨著英特網(wǎng)的出現(xiàn)和高速發(fā)展,以及隨之到來的私有網(wǎng)以及內(nèi)部網(wǎng)和外部網(wǎng)的產(chǎn)生運(yùn)用,整個世界之間的距離被縮小,人們可以利用發(fā)達(dá)的網(wǎng)絡(luò)跨越時空的局限,在網(wǎng)絡(luò)上進(jìn)行數(shù)據(jù)的交換。因此,曾經(jīng)的局部數(shù)據(jù)庫不復(fù)存在,展現(xiàn)在人們面前的是龐大的的信息海洋,數(shù)據(jù)正如洪水一般向人們涌來。當(dāng)數(shù)據(jù)量龐大到一定范圍時,如果沒有有效的方法,找尋提取有限數(shù)據(jù)的工作難度加大,人們面對著如海洋一般龐大的數(shù)據(jù)像大海撈針一樣徒勞無功。據(jù)有效估計(jì),一個大型企業(yè)數(shù)據(jù)庫中只有約7.23%的數(shù)據(jù)得到應(yīng)用。
隨著我國經(jīng)濟(jì)的快速發(fā)展,在教育之中投入了更多的基礎(chǔ)建設(shè)資金,不少中學(xué)都擁有自己的圖書館,學(xué)生的學(xué)習(xí)方式更加多樣化,不僅僅是只用教科書,圖書館的建立擴(kuò)大了學(xué)生的知識來源,大量的數(shù)據(jù)需要更加合適的管理才能將圖書館的功能發(fā)揮最大化。
數(shù)字圖書館概念的提出無疑是傳統(tǒng)圖書館管理的一次新進(jìn)步、新改革,數(shù)字圖書館是在傳統(tǒng)圖書館的基礎(chǔ)上建立起來的,是現(xiàn)代圖書館進(jìn)化階段的一大步。未來中學(xué)圖書館的發(fā)展重點(diǎn)將是在數(shù)字化管理信息的基礎(chǔ)上發(fā)展,穩(wěn)定高效的信息管理系統(tǒng)是圖書館發(fā)展的大前提大后方。
數(shù)據(jù)挖掘技術(shù)的應(yīng)用將更好地幫助圖書館管理系統(tǒng)的運(yùn)行。
一、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是機(jī)器學(xué)習(xí)、人工智能以及數(shù)據(jù)庫三者有機(jī)結(jié)合所得的產(chǎn)物。21世紀(jì)是數(shù)字化的時代,信息大爆炸所帶來的科學(xué)數(shù)據(jù)的大量積累,因此數(shù)據(jù)庫被廣泛使用,人們在利用數(shù)據(jù)的過程中認(rèn)識到海量的數(shù)據(jù)利用起來十分不方便、效率低下,并且從大量的數(shù)據(jù)之中找出有效數(shù)據(jù)的難度巨大。在這樣的困難的敦促之下,數(shù)據(jù)庫挖掘技術(shù)適時而生。
數(shù)據(jù)挖掘技術(shù)是從大量的、隨機(jī)的、有干擾的數(shù)據(jù)之中,尋找提取出隱藏在海量數(shù)據(jù)中對人們有用的或人們不自知但又存在潛在的利用價(jià)值的數(shù)據(jù)、知識、規(guī)則或者模型。數(shù)據(jù)挖掘是一門包含很多復(fù)雜知識的交叉學(xué)科,它不僅包括數(shù)理統(tǒng)計(jì),模式識別、模糊數(shù)學(xué)這些有關(guān)數(shù)學(xué)的專業(yè)知識,還包括神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫等相關(guān)的技術(shù)知識。
數(shù)據(jù)挖掘技術(shù)的內(nèi)容主要有三個方面:數(shù)據(jù)、算法和技術(shù)以及建模能力。數(shù)據(jù)挖掘技術(shù)按照功能可分為兩大類:預(yù)測新模式以及描述性模式[1]。
數(shù)據(jù)挖掘的步驟內(nèi)容龐大,簡單概括得到以下內(nèi)容:
1.從海量的數(shù)據(jù)庫中獲得數(shù)據(jù);
2.選擇適當(dāng)?shù)奶卣鲗傩裕?/p>
3.挑選出合適的樣本策略;
4.排除數(shù)據(jù)中不正常的數(shù)據(jù),同時補(bǔ)充不夠的部分;
5.用恰當(dāng)?shù)慕稻S、變換的手段使數(shù)據(jù)挖掘的過程與數(shù)據(jù)模型相適配;
6.辨識出所得到的數(shù)據(jù)是否可視化或者是信息化;
這些步驟是從數(shù)據(jù)到知識的必經(jīng)之路。每一步驟都可能是成功的關(guān)鍵或失敗的開始。在一般的定義中數(shù)據(jù)挖掘是知識獲取的一部分。
二、數(shù)據(jù)挖掘技術(shù)在圖書管理系統(tǒng)上的應(yīng)用意義
關(guān)于數(shù)據(jù)挖掘技術(shù)在圖書管理系統(tǒng)上的應(yīng)用,有以下幾個理論與方法: Kyle Banerjee 先生在1998年提出數(shù)據(jù)挖掘技術(shù)更適用于全文本動態(tài)變化的數(shù)據(jù)庫;Nicholson和Stanton在2002年的圖書館中數(shù)據(jù)挖掘的研究中提出了“書目挖掘(Bibliomining)”這一專業(yè)名詞,書目挖掘是指在圖書館的數(shù)據(jù)管理中,將數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)原理、書目計(jì)量方式和報(bào)告工具這些技術(shù)有機(jī)的結(jié)合在一起,在行為信息與數(shù)據(jù)的基礎(chǔ)上獲取隱藏的模式。[2]
在中學(xué)的圖書館中大致有兩個方面的問題,第一,圖書館的管理中會有大量的不斷需要更新數(shù)據(jù)和之前需要保存的歷史數(shù)據(jù),這些數(shù)據(jù)如何被高效的利用起來。另一個方面,許多中學(xué)為了一些關(guān)于圖書館的評測,只重視圖書館的藏書量,但忽略了這些圖書的分類結(jié)構(gòu)與質(zhì)量高低,這大大降低了圖書館數(shù)據(jù)的利用率,導(dǎo)致圖書館的藏書不能物盡其用,大量的書籍閑置。
因?yàn)橐陨纤龅脑?,筆者認(rèn)為數(shù)據(jù)挖掘技術(shù)將能夠在中學(xué)圖書館管理系統(tǒng)之中有很大的研究價(jià)值及發(fā)展空間。
三、在中學(xué)圖書館管理系統(tǒng)中應(yīng)用數(shù)據(jù)挖掘技術(shù)的重點(diǎn)
1.圖書館中大量的數(shù)據(jù)
大量的數(shù)據(jù)是數(shù)據(jù)挖掘技術(shù)的基礎(chǔ),圖書館中的信息面對著不斷的更新,例如用戶的借還信息,圖書館每日人流量,借閱圖書名錄等,這些信息都可以作為數(shù)據(jù)挖掘的數(shù)據(jù)來源,每一日的新數(shù)據(jù)在第二天都將變成歷史數(shù)據(jù),在不斷增加的歷史數(shù)據(jù)面前,傳統(tǒng)的數(shù)據(jù)庫只能起到數(shù)據(jù)管理的作用,而不能透過這些數(shù)據(jù)得到規(guī)律。
2.讀者的需求分析
一般的分析是以調(diào)查研究為基礎(chǔ),但數(shù)據(jù)挖掘的分析與此不同,運(yùn)用數(shù)據(jù)分析可以從海量的、不同類型的數(shù)據(jù)中挖掘出讀者身份,讀者閱讀習(xí)慣等具有特色的數(shù)據(jù)。
3.服務(wù)個性化
隨著各種書籍的種類、內(nèi)容、出版社等日益增多,知識的載體也逐漸豐富,讀者的需求越來越難以把握,想要做到讀者滿意與資金的利用兩方平衡十分不易。應(yīng)用數(shù)據(jù)挖掘技術(shù)可以更好地幫助這個問題的解決,利用大數(shù)據(jù)的挖掘分析出事物之間的聯(lián)系與規(guī)律,在大量的用戶數(shù)據(jù)中分析出他們讀書類型的傾向,以方便圖書館購書便利以及優(yōu)化圖書館藏書結(jié)構(gòu)。用大數(shù)據(jù)挖掘?qū)崿F(xiàn)個性化的服務(wù)。
四、在圖書館管理系統(tǒng)中應(yīng)用數(shù)據(jù)挖掘技術(shù)還存在的問題
1.在大數(shù)據(jù)中數(shù)據(jù)挖掘的精度問題
在現(xiàn)今的數(shù)據(jù)挖掘中都是利用數(shù)據(jù)驅(qū)動來進(jìn)行數(shù)據(jù)挖掘,這只能在數(shù)據(jù)內(nèi)容上得出規(guī)律,這樣的數(shù)據(jù)準(zhǔn)確性及精度遠(yuǎn)遠(yuǎn)不夠[3]。而且,數(shù)據(jù)挖掘并不是萬能的,它只是一個幫助更容易分析數(shù)據(jù)的一個工具,它能夠輔助圖書館工作人員更加深入的分析數(shù)據(jù),但他不能辨識出數(shù)據(jù)的實(shí)際價(jià)值。
2.用戶的數(shù)據(jù)安全
現(xiàn)在是信息化的時代,個人的信息安全問題得到人們的重視。在構(gòu)建數(shù)據(jù)庫、運(yùn)用各種數(shù)據(jù)挖掘、分析工具的同時,要注意用戶隱私數(shù)據(jù)的處理。
3.數(shù)據(jù)挖掘技術(shù)與圖書館其他應(yīng)用的融合問題
目前數(shù)據(jù)挖掘技術(shù)還不是十分完備,它正處于一個不斷發(fā)展的過程中,要是數(shù)據(jù)挖掘技術(shù)可以和更多的管理應(yīng)用系統(tǒng)相融合,成為一種嵌入式技術(shù),使各個技術(shù)都能發(fā)揮優(yōu)勢的一面,而不輕易出現(xiàn)互相沖突。
參考文獻(xiàn)
[1]周倩,《數(shù)據(jù)挖掘在圖書館用戶資源管理中的應(yīng)用研究》[J],《圖書情報(bào)知識》2006(6)
[2]周倩,《構(gòu)建圖書館現(xiàn)代化CRM系統(tǒng)》[J],《圖書情報(bào)工作》,2004(6)
[3]楊睿娜,《數(shù)據(jù)挖掘在高職院校圖書館管理中的應(yīng)用》[J],《科技創(chuàng)新與應(yīng)用》2012(3)