張永強(qiáng)
(黎明職業(yè)大學(xué) 圖書(shū)館,福建 泉州 362000)
數(shù)據(jù)挖掘技術(shù)在高校圖書(shū)館管理中的應(yīng)用
張永強(qiáng)
(黎明職業(yè)大學(xué) 圖書(shū)館,福建 泉州 362000)
數(shù)據(jù)挖掘技術(shù)現(xiàn)已幾乎滲透到了各個(gè)領(lǐng)域,圖書(shū)館在原來(lái)固有的管理模式下,很難對(duì)各種信息轉(zhuǎn)換后的數(shù)據(jù)實(shí)行預(yù)期目的的分類(lèi)管理。數(shù)據(jù)挖掘技術(shù)所具有的快速方便和行之有效的獨(dú)特分析方法,可以使圖書(shū)館管理需求得到很好的滿足。
高校圖書(shū)館;數(shù)據(jù)庫(kù);數(shù)據(jù)挖掘;管理應(yīng)用
隨著數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)技術(shù)的發(fā)展越來(lái)越成熟,Internet 技術(shù)和Web 技術(shù)也取得了很大進(jìn)步,高校圖書(shū)館所擁有的各種類(lèi)型資源量也急劇增長(zhǎng),所服務(wù)的對(duì)象在信息素質(zhì)和信息需求也逐步走向高級(jí)化,傳統(tǒng)數(shù)據(jù)庫(kù)管理系統(tǒng)的檢索機(jī)制和統(tǒng)計(jì)方法已遠(yuǎn)遠(yuǎn)無(wú)法滿足時(shí)代需要。因此,為解決數(shù)據(jù)異常豐富,信息非常貧乏的現(xiàn)象,圖書(shū)館相關(guān)部門(mén)可以利用數(shù)據(jù)挖掘技術(shù)構(gòu)造出表面上龐雜無(wú)序的內(nèi)在聯(lián)系,最大化開(kāi)發(fā)其所包含的數(shù)據(jù)資源功能,深挖信息的增值作用,推動(dòng)服務(wù)與技術(shù)的變革,以滿足服務(wù)對(duì)象的需求。
20世紀(jì)80年代末美國(guó)第一次提出了數(shù)據(jù)挖掘概念,即在一定的數(shù)據(jù)資源里通過(guò)進(jìn)一步的挖掘以發(fā)現(xiàn)更具價(jià)值的信息。數(shù)據(jù)挖掘也稱(chēng)資料探勘,英文是Data Mining,一般簡(jiǎn)寫(xiě)為DM,通常指從海量的、有噪聲的、不完全的、模糊并且隨機(jī)的數(shù)據(jù)當(dāng)中,尋找人們本來(lái)不知道又包含在里面的有價(jià)值信息和經(jīng)驗(yàn)的一個(gè)過(guò)程。[1]也就是說(shuō)利用專(zhuān)業(yè)工具通過(guò)對(duì)海量數(shù)據(jù)自動(dòng)或半自動(dòng)的摸索和認(rèn)識(shí)過(guò)程,目的是以易于理解的方式呈現(xiàn)其中所隱含的有價(jià)值的內(nèi)在聯(lián)系。數(shù)據(jù)挖掘簡(jiǎn)單的來(lái)說(shuō)就是用算法進(jìn)行知識(shí)發(fā)現(xiàn)的程序,所探尋的內(nèi)容包括:一是廣義知識(shí),揭示相同事務(wù)性質(zhì)一樣的知識(shí);二是差異知識(shí),揭示相異事務(wù)之間不一樣屬性的知識(shí);三是預(yù)測(cè)知識(shí),利用已有的記錄數(shù)據(jù)預(yù)測(cè)出將來(lái)的數(shù)據(jù);四是特征知識(shí),揭示事務(wù)各方面特點(diǎn)的知識(shí);五是關(guān)聯(lián)知識(shí),揭示事務(wù)之間互相聯(lián)系的知識(shí);六是偏離知識(shí),揭示事務(wù)與常規(guī)不一樣的現(xiàn)象。這些知識(shí)伴隨定義層次的上升將逐漸被挖掘出來(lái),從狹義數(shù)據(jù)到廣義數(shù)據(jù),不同對(duì)象決策所需。
與早期的數(shù)據(jù)歸納分析(如圖表、檢索、聯(lián)機(jī)處理等)對(duì)比,數(shù)據(jù)挖掘技術(shù)的最大不同之處是所處理的數(shù)據(jù)帶模糊性和整體性,還有所隱含的關(guān)聯(lián)性,即數(shù)據(jù)挖掘的過(guò)程是模糊的分析和檢索,檢索到的結(jié)果可以是與檢索詞有關(guān)聯(lián)的任何書(shū)目信息,也可以是檢索詞上的重合書(shū)目,或者是之間有關(guān)聯(lián)和重合性的書(shū)目。利用數(shù)據(jù)挖掘技術(shù)所發(fā)現(xiàn)的結(jié)果與常規(guī)分析得到的有一定出入,這有利于克服思維定式的束縛,有效拓寬思維領(lǐng)域,發(fā)現(xiàn)常規(guī)之外的價(jià)值信息,做好數(shù)據(jù)資源的充分整合與利用。
數(shù)據(jù)挖掘是根據(jù)業(yè)務(wù)知識(shí)從現(xiàn)存的數(shù)據(jù)中尋找各種模型,導(dǎo)出結(jié)果的一個(gè)重復(fù)迭代過(guò)程。這個(gè)流程是幾個(gè)之間具有相互關(guān)聯(lián)的步驟一直進(jìn)行重復(fù)迭代,常見(jiàn)有定義問(wèn)題、數(shù)據(jù)準(zhǔn)備工作、選用合適的解決問(wèn)題指令、提取遵循的法則、結(jié)果衡量、利用采用的模式生成知識(shí),直到最后的數(shù)據(jù)應(yīng)用。[2]當(dāng)然由于數(shù)據(jù)基礎(chǔ)和應(yīng)用需求的不一致,數(shù)據(jù)挖掘所采用的步驟也會(huì)有所出入。常用的數(shù)據(jù)挖掘步驟是:(1)定義待處理的問(wèn)題;(2)預(yù)先處理數(shù)據(jù)的準(zhǔn)備;(3)選擇處理所需的數(shù)據(jù) (4)轉(zhuǎn)化成可接受的數(shù)據(jù);(5)對(duì)數(shù)據(jù)進(jìn)行分析;(6)數(shù)據(jù)挖掘建模;(7)對(duì)模型進(jìn)行評(píng)價(jià);(8)挖掘出所需的數(shù)據(jù);(9)對(duì)挖掘出的數(shù)據(jù)進(jìn)行解釋。
在挖掘數(shù)據(jù)時(shí),需要事先明白該應(yīng)用所需的各種專(zhuān)業(yè)知識(shí),在掌握背景知識(shí)的條件下,領(lǐng)會(huì)挖掘所要達(dá)到的效果,確定客戶(hù)的真正需求。沒(méi)有相關(guān)知識(shí)的支撐,很難找出客戶(hù)要處理的目的,加上數(shù)據(jù)殘缺或不足,想要得到準(zhǔn)確的結(jié)果就非常麻煩。理清挖掘數(shù)據(jù)的任務(wù)和清楚客戶(hù)所要處理的問(wèn)題是數(shù)據(jù)挖掘首要的一步,也是能否成功的一個(gè)關(guān)鍵決定性因素,因此在任務(wù)開(kāi)始前最主要的工作是獲得并了解用戶(hù)的業(yè)務(wù)知識(shí)和數(shù)據(jù)需求??蛻?hù)的要求一旦明確后,可以對(duì)現(xiàn)存歷史產(chǎn)生的數(shù)據(jù)或其所擁有的資源進(jìn)行全面衡量,通過(guò)掌握的數(shù)據(jù)挖掘技術(shù)解決客戶(hù)提出的問(wèn)題,再次明確挖掘數(shù)據(jù)的目的和其相對(duì)應(yīng)的計(jì)劃。
(一)數(shù)據(jù)挖掘技術(shù)服務(wù)圖書(shū)館藏書(shū)建設(shè)
生活在快節(jié)奏的現(xiàn)代社會(huì)中,人們對(duì)時(shí)間越發(fā)顯得珍貴,圖書(shū)館所服務(wù)的對(duì)象也希望能得到更具有針對(duì)性的、實(shí)用性強(qiáng)的服務(wù),從而大大節(jié)約讀者的借閱時(shí)間,降低時(shí)間成本,最終達(dá)到提高借閱者的滿意度,這也是當(dāng)前各大圖書(shū)館所追求的目標(biāo)之一。圖書(shū)館提供什么服務(wù),讀者就享受什么服務(wù)的管理模式已無(wú)法滿足當(dāng)前實(shí)際服務(wù)的需要。近幾年開(kāi)展的差異化或個(gè)性化特色服務(wù)越來(lái)越受到讀者的酷愛(ài),這種獨(dú)特的管理理念,在目標(biāo)、過(guò)程和行為等幾個(gè)方面來(lái)滿足個(gè)體的服務(wù)已逐漸成為圖書(shū)館發(fā)展的未來(lái)趨勢(shì)。利用數(shù)據(jù)挖掘技術(shù)代替人工勞動(dòng),從繁雜的重復(fù)事務(wù)中解脫出來(lái),對(duì)各種數(shù)據(jù)進(jìn)行歸納整理、分析提煉,使圖書(shū)館的各種使用功能得到充分發(fā)揮,實(shí)現(xiàn)智能化的管理與服務(wù)。數(shù)據(jù)挖掘技術(shù)被利用在圖書(shū)借閱情況的關(guān)聯(lián)規(guī)則時(shí),首先通過(guò)自動(dòng)化管理系統(tǒng)查明某本圖書(shū)的借閱情況,搜索借閱該圖書(shū)同時(shí)又借閱另一圖書(shū)的情況,假如這兩本圖書(shū)被借閱的比例較高,則這兩本書(shū)在程度表現(xiàn)上有著較強(qiáng)的相互聯(lián)系,在以后圖書(shū)館管理系統(tǒng)推薦圖書(shū)時(shí),可以同時(shí)介紹這兩本圖書(shū),將大大節(jié)約服務(wù)對(duì)象查詢(xún)自己所需圖書(shū)的時(shí)間,提高服務(wù)對(duì)象的滿意度。
(二)數(shù)據(jù)挖掘技術(shù)服務(wù)圖書(shū)館藏書(shū)的采購(gòu)
圖書(shū)館作為一個(gè)公益服務(wù)性的單位,經(jīng)費(fèi)比較緊張,高效的使用撥款經(jīng)費(fèi)是當(dāng)前圖書(shū)館界存在的一個(gè)重要問(wèn)題。[3]圖書(shū)館采編相關(guān)人員可以利用數(shù)據(jù)挖掘技術(shù)統(tǒng)計(jì)出館內(nèi)先前的檢索請(qǐng)求情況或檢索命中情況、文獻(xiàn)資源的使用狀況,例如使用序列分析方法處理數(shù)據(jù),分析圖書(shū)館各資源的使用狀況,為館內(nèi)資源購(gòu)買(mǎi)提供合理的建議或報(bào)告,使圖書(shū)館建設(shè)朝著智能化圖書(shū)采購(gòu)的方向發(fā)展。所以,圖書(shū)館采購(gòu)管理中如能利用好數(shù)據(jù)挖掘技術(shù),針對(duì)性的補(bǔ)充圖書(shū)館文獻(xiàn)資源,有限的采購(gòu)經(jīng)費(fèi)配置得到優(yōu)化,對(duì)采購(gòu)任務(wù)要科學(xué)統(tǒng)籌區(qū)分輕重緩急,保證將有限的經(jīng)費(fèi)用到真正發(fā)揮效用的地方。
(三)數(shù)據(jù)挖掘技術(shù)服務(wù)圖書(shū)館的信息整合
首先,圖書(shū)館工作平臺(tái)可以利用數(shù)據(jù)挖掘技術(shù)完成各種圖書(shū)借閱情況的統(tǒng)計(jì)剖析,容易尋找出高借閱率的圖書(shū),也能使匱乏的文獻(xiàn)資源得到快捷的彌補(bǔ),同時(shí)也可以方便下架一些陳舊跟不上時(shí)代的圖書(shū),館內(nèi)各種圖書(shū)之間達(dá)到合乎理性的比例,更好解決館藏資源優(yōu)化問(wèn)題。其次,館內(nèi)對(duì)其近年來(lái)的借閱數(shù)據(jù)可充分利用數(shù)據(jù)挖掘技術(shù),針對(duì)那些高借還頻率的圖書(shū)資料在流通前根據(jù)挖掘結(jié)果對(duì)它們預(yù)留必要的副本,進(jìn)一步擴(kuò)展館內(nèi)的文獻(xiàn)保障能力。最后,在圖書(shū)館館藏體系建設(shè)過(guò)程中利用數(shù)據(jù)挖掘相關(guān)技術(shù),把WEB系統(tǒng)的智能搜索功能與外界的互聯(lián)網(wǎng)緊密聯(lián)系起來(lái),實(shí)現(xiàn)數(shù)據(jù)融合,合理發(fā)揮出信息科學(xué)的優(yōu)勢(shì),實(shí)現(xiàn)信息找人的目標(biāo)。
(四)數(shù)據(jù)挖掘技術(shù)在小型院系數(shù)據(jù)庫(kù)的應(yīng)用
在一些高校中,不僅有為全校師生讀者提供館藏服務(wù)的總館外,二級(jí)院系還有自己的專(zhuān)業(yè)分館或院系資料室,收存與自己院系專(zhuān)業(yè)有關(guān)的文獻(xiàn)資料,為自己所在的院系師生提供文獻(xiàn)服務(wù),方便院系里師生使用其本專(zhuān)業(yè)相關(guān)的文獻(xiàn)資料。圖書(shū)館在讀者辦理借書(shū)手續(xù)時(shí)會(huì)記錄下讀者的相關(guān)信息,如學(xué)號(hào)、姓名、院系、借還時(shí)間等,管理系統(tǒng)為各個(gè)讀者建立自己相應(yīng)的個(gè)人書(shū)架。從入學(xué)到畢業(yè),一位讀者的借閱量有幾十或幾百甚至幾千本之多,個(gè)人書(shū)架不斷增加的過(guò)程中系統(tǒng)都會(huì)一一的記錄下來(lái)。一個(gè)專(zhuān)業(yè)有的一個(gè)班,有的幾個(gè)班,如把每屆畢業(yè)生的個(gè)人書(shū)架進(jìn)行匯總就是一個(gè)小小的圖書(shū)館,儼然是獨(dú)立的數(shù)據(jù)庫(kù)了。利用數(shù)據(jù)挖掘的分類(lèi)分析和聚類(lèi)分析手段,形成各專(zhuān)業(yè)對(duì)應(yīng)的圖書(shū)借閱數(shù)據(jù)庫(kù),按照各種排序方式得到不同的結(jié)果,如借閱量高到低、使用時(shí)間長(zhǎng)到短等。[4]對(duì)于各專(zhuān)業(yè)的圖書(shū)借閱數(shù)據(jù)庫(kù),為每年新來(lái)的同學(xué)提供借閱參考數(shù)據(jù)。隨著時(shí)間推移,數(shù)據(jù)庫(kù)的記錄數(shù)不斷得到增加,當(dāng)時(shí)間和圖書(shū)積累到一定程度時(shí),數(shù)據(jù)庫(kù)所含內(nèi)容將會(huì)與總館這個(gè)專(zhuān)業(yè)所含的內(nèi)容接近,這時(shí)需要對(duì)這些數(shù)據(jù)進(jìn)行剔除更新。一些圖書(shū)受出版時(shí)間影響較大,在出版入市的前幾年里很受歡迎,但隨著社會(huì)和科學(xué)技術(shù)的進(jìn)步,一些圖書(shū)不再適應(yīng)專(zhuān)業(yè)的需要,慢慢的減少借閱這些圖書(shū),這時(shí)需要對(duì)這相對(duì)過(guò)時(shí)的圖書(shū)數(shù)據(jù)進(jìn)行剔除更新,使數(shù)據(jù)庫(kù)保持精簡(jiǎn)新穎,從而更好地為專(zhuān)業(yè)師生服務(wù)。
數(shù)據(jù)挖掘作為一種新型數(shù)據(jù)分析手段,已受到各行各業(yè)的認(rèn)可和接受,目前主要應(yīng)用在CRM的發(fā)展趨勢(shì)、物品交易和市場(chǎng)走向的預(yù)測(cè)[5]。隨著數(shù)據(jù)挖掘給人們生活帶來(lái)各種改變時(shí),也隨之產(chǎn)生了一些技術(shù)方面的誤解,同時(shí)在實(shí)際應(yīng)用中也碰到了許多問(wèn)題。
(一)數(shù)據(jù)挖掘應(yīng)用的困境
往往對(duì)數(shù)據(jù)挖掘技術(shù)有很高的期望,而忽略了數(shù)據(jù)挖掘有其自身的局限性,認(rèn)為只要利用了數(shù)據(jù)挖掘技術(shù)就能解決所有的問(wèn)題,其實(shí)還要看所期望的結(jié)果與數(shù)據(jù)之間的關(guān)系。有些人認(rèn)為數(shù)據(jù)挖掘技術(shù)是千篇一律的定型工具,對(duì)不同數(shù)據(jù)源的挖掘算法不盡相同,并非所有行業(yè)都用同一套算法。對(duì)算法的理解,不同的人有不同的理解,甚至是片面的,這導(dǎo)致了數(shù)據(jù)挖掘無(wú)法發(fā)揮其應(yīng)有的作用。在數(shù)據(jù)挖掘所經(jīng)過(guò)的步驟中,數(shù)據(jù)準(zhǔn)備工作量大,分析建模比較復(fù)雜過(guò)于繁重,模式里的算法參數(shù)選取對(duì)挖掘的效果有著重大影響,這就要求在挖掘的各步驟中不斷實(shí)驗(yàn),探尋出最合理的參數(shù),才能順利圓滿完成預(yù)定的任務(wù)。[6]
(二)數(shù)據(jù)挖掘應(yīng)用的展望
雖然在應(yīng)用中碰到了許多困難,但都在努力使其往好的方向改進(jìn)。隨著計(jì)算機(jī)及數(shù)據(jù)庫(kù)技術(shù)的不斷發(fā)展,新推出的數(shù)據(jù)挖掘系統(tǒng)和挖掘方法也會(huì)愈來(lái)愈多,高校圖書(shū)館借助數(shù)據(jù)挖掘技術(shù)進(jìn)行管理與決策的探索也將更上一層樓。
[1] 楊紅霞.基于數(shù)據(jù)挖掘技術(shù)的圖書(shū)館管理[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2011,21(12):75-77.
[2] 邢新.數(shù)據(jù)挖掘技術(shù)在高校圖書(shū)館管理的應(yīng)用分析[J].管理學(xué)研究,2013(4):47.
[3] 陳曄,董巖.數(shù)據(jù)挖掘在圖書(shū)館管理方面的應(yīng)用[J].內(nèi)蒙古民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,31(3):206-208.
[4] 葉艷.基于數(shù)據(jù)挖掘技術(shù)的高校圖書(shū)館個(gè)性化服務(wù)[J].蘭臺(tái)世界,2016(6):58-60.
[5] 田玉娥.數(shù)據(jù)挖掘在圖書(shū)管理方面的應(yīng)用[J].電腦開(kāi)發(fā)與應(yīng)用,2012,25(4):79-81.
[6] 鄒昕.數(shù)據(jù)挖掘在圖書(shū)館管理中的理論與技術(shù)[J].科技視界,2016(8):12-13.
責(zé)任編輯:仲耀黎
Application of Data Mining in University Library Management
ZHANG Yongqiang
Data mining has almost penetrated into all fields. In the original form of management,it is difficult for libraries to implement the classified management for the intended purpose of all kinds of data after information conversion. The unique analysis method of data mining is fast,convenient and effective,and it can help meet the requirement of library management.
university libraries; database; data mining; management application
2017-04-10
張永強(qiáng)(1980—),男,福建泉州人,工程師,研究方向:圖書(shū)館數(shù)字化和計(jì)算機(jī)技術(shù)應(yīng)用。
G251
A
1671-8275(2017)04-0139-03
淮北職業(yè)技術(shù)學(xué)院學(xué)報(bào)2017年4期