李 慧
天津廣播電視大學(xué)圖書館,天津 300191
目前,數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)已成為計(jì)算機(jī)科學(xué)和應(yīng)用技術(shù)科學(xué)的一個(gè)研究焦點(diǎn)。在科技發(fā)展和知識(shí)爆炸的大環(huán)境下,圖書館業(yè)務(wù)工作產(chǎn)生海量業(yè)務(wù)數(shù)據(jù),但讀者對(duì)文獻(xiàn)資源的需求日益增長(zhǎng),這二者之間存在明顯的矛盾,數(shù)據(jù)挖掘技術(shù)的出現(xiàn)在很大程度解決了這個(gè)矛盾,同時(shí)開啟了數(shù)據(jù)挖掘技術(shù)應(yīng)用于圖書館事業(yè)發(fā)展的源頭。本文主要是為了解決高職院校圖書館開展知識(shí)服務(wù)工作中遇到的問題,確定圍繞高職院校圖書館知識(shí)服務(wù)主要針對(duì)館藏資源利用率情況進(jìn)行數(shù)據(jù)挖掘設(shè)計(jì)與實(shí)現(xiàn)的論述。
高職院校圖書館于近年來伴隨高職院校的產(chǎn)生而出現(xiàn),它的建設(shè)情況、發(fā)展歷史、服務(wù)對(duì)象等方面與高等普通院校圖書館存在許多差異。高職院校圖書館的建立與發(fā)展是緊隨高等職業(yè)技術(shù)教育,它存在成立年限較短、資源建設(shè)基礎(chǔ)較弱、人員隊(duì)伍建設(shè)較弱等特點(diǎn)。目前高職院校圖書館整體情況特點(diǎn)是:
1.高職院校圖書館的建設(shè)與高職院校教學(xué)發(fā)展不協(xié)調(diào)。從高職院校發(fā)展的全面情況而言,高職院校圖書館的建設(shè)與高職院校教學(xué)發(fā)展不協(xié)調(diào)。高職院校圖書館的歷史沿革比較復(fù)雜,這是因?yàn)楦呗氃盒D書館的建立大多數(shù)是伴隨高職院校升格應(yīng)運(yùn)而生,其中大部分高職院校是由原先的中專類院校合并而形成的,因此高職院校的圖書館一般是伴隨高職院校的成立而建成的,或是由原先中專學(xué)校的圖書室傳承下來的。雖然高職院校圖書館被列入高校圖書館系列,但它的辦館理念、館內(nèi)人員素質(zhì)水平、館藏體系結(jié)構(gòu)、館舍條件、資源建設(shè)情況等都難以適應(yīng)目前高職院校人才培養(yǎng)模式與科研教學(xué)這兩大重點(diǎn)工作的要求。
2.高職院校圖書館建設(shè)規(guī)模有限,辦館水平不高。高職圖書館的發(fā)展與其他高等院校類圖書館的發(fā)展面臨同樣的問題,即圖書館的受重視程度不夠,甚至比普通高等院校圖書館的境地更為艱難。主要是由于高職院校的整體教育經(jīng)費(fèi)投入遠(yuǎn)低于普通高等院校,師資力量薄弱,因此高職院校圖書館的發(fā)展可被稱為舉步維艱。這是由于一方面受傳統(tǒng)普通高等教育觀念的影響,普通的高等院校是培養(yǎng)高級(jí)知識(shí)研究型人才的教育模式。而高職院校一般是由學(xué)術(shù)研究水平較低能力較低的中專合并升格成為高職院校,所以從人力、物力、財(cái)力等方面的投入較少。另一方面,高職院校圖書館建館時(shí)間短、底子薄、圖書情報(bào)專業(yè)人員建制薄弱,文獻(xiàn)資源館藏?cái)?shù)量不可能在學(xué)院升格的短時(shí)間內(nèi)顯著增長(zhǎng)。但是長(zhǎng)期以來受傳統(tǒng)觀念的影響,衡量館藏水平的要素之一則為館藏量,許多高職院校館為了完成前些年的教育部對(duì)高職院校的教學(xué)檢查工作,在短時(shí)間內(nèi)迅速采購(gòu)圖書以增加館藏量、提高生均量(學(xué)生每人擁有圖書數(shù)量),而忽視了館藏圖書的質(zhì)量與副本量。經(jīng)過幾年的“拔苗式”的館藏資源建設(shè)嚴(yán)重地影響了館藏質(zhì)量與圖書館整體水平的健康發(fā)展。
3.高職院校圖書館的整體水平良莠不齊。高職院校圖書館目前缺乏對(duì)高職教育特點(diǎn)的足夠重視與充分認(rèn)識(shí),到目前為止,高職圖書館仍未形成以高職教育特點(diǎn)為基礎(chǔ)的辦館機(jī)制。高職館的工作目前仍處于滿足最基本的學(xué)生讀者需求階段,缺乏開拓性、創(chuàng)新性、知識(shí)化、智能化的資源建設(shè)與服務(wù)建設(shè)性工作,從而導(dǎo)致其規(guī)模雖在穩(wěn)步向前發(fā)展,整體水平與高職教育的快速發(fā)展不協(xié)調(diào)。這些問題不及時(shí)糾正,勢(shì)必對(duì)圖書館的長(zhǎng)遠(yuǎn)發(fā)展產(chǎn)生極為不利的影響。
4.圖書館經(jīng)費(fèi)支持不到位。依據(jù)《普通高等學(xué)校圖書館規(guī)程(修訂)》2002年頒發(fā)的規(guī)定,高等學(xué)校圖書館的經(jīng)費(fèi)包括運(yùn)行費(fèi)和專項(xiàng)經(jīng)費(fèi)。運(yùn)行費(fèi)主要包括文獻(xiàn)信息資源購(gòu)置費(fèi)、設(shè)備設(shè)施維護(hù)費(fèi)、辦公費(fèi)等。文獻(xiàn)資源購(gòu)置費(fèi)應(yīng)占全校教育事業(yè)費(fèi)的5%左右,并應(yīng)從科研經(jīng)費(fèi)和計(jì)劃外收入中提取適當(dāng)比例作為文獻(xiàn)購(gòu)置費(fèi)用。再根據(jù)全國(guó)高校圖工委制定的《高校圖書館評(píng)估標(biāo)準(zhǔn)》規(guī)定,每年采購(gòu)新書應(yīng)為6冊(cè)/學(xué)生,每年訂閱期刊應(yīng)為0.4份/學(xué)生。然而目前大多數(shù)高職館在經(jīng)費(fèi)支持方面與文件要求相距甚遠(yuǎn),并且很多高職院校沒有設(shè)立年度圖書館經(jīng)費(fèi)計(jì)劃,在遇到前些年的評(píng)估工作時(shí)學(xué)校就給予部分投入,但評(píng)估工作結(jié)束后,圖書館的經(jīng)費(fèi)一般則又被挪作它用了。圖書館的發(fā)展一方面依靠圖書館專業(yè)人員的專業(yè)建設(shè)與管理,另一方面也更為重要的就是資金方面的大力支持,否則圖書館必將陷入“巧婦不為無米之炊”的尷尬境地。
5.高職類院校圖書館的服務(wù)對(duì)象、服務(wù)內(nèi)容、服務(wù)方式都不同于普通高校圖書館,具有特殊性和典型性,主要體現(xiàn)在以下幾個(gè)方面。
(1)在服務(wù)對(duì)象方面,主要面向高等職業(yè)技術(shù)學(xué)生、教師(面授高職學(xué)生、成人學(xué)生)、科研人員、行政管理人員、社會(huì)工作人士等。高職院校的教學(xué)對(duì)象主要是理論基礎(chǔ)較薄弱的高中畢業(yè)生或中專畢業(yè)生,高職院校教學(xué)重點(diǎn)是培養(yǎng)學(xué)生實(shí)踐技能;高職院校教職工人員主要存在學(xué)歷層次良莠不齊、學(xué)科研究范圍較狹窄、理論研究層次不深和專業(yè)科學(xué)研究水平不高等特點(diǎn)。
(2)在服務(wù)內(nèi)容方面,高職學(xué)生知識(shí)積累程度較普通高校大學(xué)生弱,興趣偏好與學(xué)業(yè)關(guān)注方向也存在差異,缺乏對(duì)專業(yè)學(xué)科的深入學(xué)習(xí)與研究的興趣;教師教學(xué)重點(diǎn)、科研研究方向主要偏重培養(yǎng)高職類學(xué)生的實(shí)踐技能研究與在職成人類學(xué)生的教學(xué)研究與探索。
(3)在服務(wù)方式方面,高職學(xué)生通常利用業(yè)余時(shí)間在網(wǎng)上學(xué)習(xí)與交流;教師一方面面授高職學(xué)生,另一方面還兼職教授成人教育、網(wǎng)絡(luò)教育的學(xué)員,因此高職院校對(duì)教師的要求比較偏重基礎(chǔ)知識(shí)理論與實(shí)踐技能的傳授,而不要求進(jìn)行深層次的理論研究與科研課題研究。
基于以上高職院校圖書館與高等院校圖書館的差異性,為了實(shí)現(xiàn)優(yōu)化圖書館資源建設(shè)、科學(xué)管理、知識(shí)服務(wù)的目的,本文以作者單位圖書館的業(yè)務(wù)數(shù)據(jù)庫(kù)數(shù)據(jù)為數(shù)據(jù)源設(shè)計(jì)挖掘圖書館藏利用率實(shí)驗(yàn),經(jīng)過設(shè)計(jì)實(shí)驗(yàn)后得出分析挖掘結(jié)果,將分析結(jié)論應(yīng)用到研究高職院校圖書館開展知識(shí)服務(wù)工作的內(nèi)容與方向上。
1.數(shù)據(jù)挖掘概念。數(shù)據(jù)挖掘(Data Mining)就是從海量數(shù)據(jù)中提取或挖掘知識(shí)。然而,數(shù)據(jù)挖掘從誕生發(fā)展至今已有20年的歷史,可是到目前為止仍沒有一個(gè)獲得完全認(rèn)同的定義。這是由于數(shù)據(jù)挖掘技術(shù)在不同領(lǐng)域具有不同的應(yīng)用,各位學(xué)者和專家都分別從不同的角度進(jìn)行不同定義。例如從統(tǒng)計(jì)學(xué)角度看,數(shù)據(jù)挖掘是指分析數(shù)據(jù)集,發(fā)現(xiàn)可信的數(shù)據(jù)間的未知關(guān)系,并提供給數(shù)據(jù)擁有者可理解的、新穎的和有用的歸納數(shù)據(jù);從數(shù)據(jù)庫(kù)角度看,數(shù)據(jù)挖掘定義為從存儲(chǔ)在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或者其他信息庫(kù)中的大量數(shù)據(jù)中發(fā)現(xiàn)用戶感興趣的知識(shí)的過程;從機(jī)器學(xué)習(xí)的角度看,數(shù)據(jù)挖掘是指從數(shù)據(jù)中抽取未知的、隱含的、潛在的有價(jià)值信息的過程。從商業(yè)角度看,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),數(shù)據(jù)挖掘技術(shù)通過對(duì)搜集數(shù)據(jù)進(jìn)行微觀、中觀、宏觀層面的統(tǒng)計(jì)、分析、預(yù)測(cè),挖掘數(shù)據(jù)間的隱性聯(lián)系,最終形成知識(shí),并將形成的挖掘知識(shí)結(jié)果指導(dǎo)商務(wù)業(yè)務(wù)工作??傊?,筆者認(rèn)為,數(shù)據(jù)挖掘是從海洋的數(shù)據(jù)信息中通過一系列挖掘步驟形成滿足用戶需求的知識(shí)的過程。
2.數(shù)據(jù)挖掘CRISP-DM模型。1999年,DaimlerChrysler、SPSS、NCR為了建立數(shù)據(jù)挖掘方法和過程的標(biāo)準(zhǔn),共同創(chuàng)建了數(shù)據(jù)挖掘的跨行業(yè)標(biāo)準(zhǔn)過程(Cross Industry Standard Process for Data Mining,CRISP-DM),如圖1所示。如何運(yùn)用挖掘模型是數(shù)據(jù)挖掘中用戶最關(guān)心的問題。本文設(shè)計(jì)的挖掘?qū)嶒?yàn)是遵循CRISP-DM標(biāo)準(zhǔn)。CRISP-DM模型過程的基本步驟包括:業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、模型建立、模型評(píng)價(jià)、模型實(shí)施。其中業(yè)務(wù)理解包括:確定任務(wù)項(xiàng)目目標(biāo)、評(píng)估環(huán)境、確定數(shù)據(jù)挖掘目標(biāo)、產(chǎn)生項(xiàng)目計(jì)劃;數(shù)據(jù)理解包括:收集原始數(shù)據(jù)、描述數(shù)據(jù)、探測(cè)數(shù)據(jù);數(shù)據(jù)準(zhǔn)備包括:數(shù)據(jù)選擇、數(shù)據(jù)清理、數(shù)據(jù)建構(gòu)、數(shù)據(jù)整合、數(shù)據(jù)格式轉(zhuǎn)換;建立模型包括:選擇模型建模技術(shù)、產(chǎn)生測(cè)試設(shè)計(jì)、建立模型、評(píng)估模型;評(píng)價(jià)包括評(píng)價(jià)挖掘結(jié)果、回顧過程、確定下一步工作。模型的各個(gè)步驟之間的順序有的是必須遵循,而有的是往復(fù)循環(huán)挖掘出有價(jià)值知識(shí)的過程。
圖1 DRISP-DM標(biāo)準(zhǔn)挖掘流程圖
本文進(jìn)行的數(shù)據(jù)挖掘設(shè)計(jì)工作主要是利用業(yè)務(wù)數(shù)據(jù)庫(kù)產(chǎn)生的日常業(yè)務(wù)數(shù)據(jù),經(jīng)過數(shù)據(jù)挖掘分析,形成數(shù)據(jù)挖掘模型與結(jié)果,最后將挖掘結(jié)論應(yīng)用到知識(shí)服務(wù)工作中。依據(jù)CRISP-DM模型過程設(shè)計(jì)數(shù)據(jù)挖掘過程步驟與內(nèi)容是:
1.確定挖掘主題。為了實(shí)現(xiàn)提高圖書館的服務(wù)層次與服務(wù)質(zhì)量,改變傳統(tǒng)的被動(dòng)服務(wù)、信息服務(wù),將圖書館未來的工作向深層次、主動(dòng)化、人性化、智能化、知識(shí)化方向推進(jìn)的圖書館知識(shí)服務(wù)工作的目標(biāo),設(shè)計(jì)圖書館館藏利用率的數(shù)據(jù)挖掘主題。
2.收集源數(shù)據(jù)。根據(jù)作者本單位實(shí)際業(yè)務(wù)數(shù)據(jù),收集圖書館圖書管理系統(tǒng)2000—2010年SQL Server2003的Book數(shù)據(jù)庫(kù)和Reader數(shù)據(jù)庫(kù)的業(yè)務(wù)數(shù)據(jù)。數(shù)據(jù)挖掘?qū)嶒?yàn)設(shè)計(jì)為不影響正常的工作將數(shù)據(jù)庫(kù)數(shù)據(jù)拷貝到實(shí)驗(yàn)設(shè)計(jì)的機(jī)器上,再將備份數(shù)據(jù)附件到本地?cái)?shù)據(jù)庫(kù)中,根據(jù)本地?cái)?shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)挖掘?qū)嶒?yàn)設(shè)計(jì)。
3.數(shù)據(jù)清理與轉(zhuǎn)換。針對(duì)收集的數(shù)據(jù)表根據(jù)數(shù)據(jù)挖掘主題通過VB程序設(shè)計(jì),合理有效的處理源數(shù)據(jù),為數(shù)據(jù)挖掘設(shè)計(jì)工作做準(zhǔn)備。
利用VB進(jìn)行程序設(shè)計(jì),設(shè)計(jì)實(shí)驗(yàn)程序逐步進(jìn)行數(shù)據(jù)的批量刪除與清理工作。兩個(gè)數(shù)據(jù)清理程序均通過點(diǎn)擊查詢條件的“查詢”按鈕,檢索將要?jiǎng)h除的數(shù)據(jù)記錄,再單擊“刪除”按鈕,最后確認(rèn)將符合條件的數(shù)據(jù)全部刪除,記錄刪除后數(shù)據(jù)庫(kù)進(jìn)行更新。數(shù)據(jù)清理主要針對(duì)圖書總庫(kù)數(shù)據(jù)和讀者庫(kù)數(shù)據(jù)進(jìn)行清理。
利用VB語言設(shè)計(jì)執(zhí)行程序,以實(shí)現(xiàn)條件查詢、刪除數(shù)據(jù),并更新數(shù)據(jù)庫(kù)數(shù)據(jù)的目的。主要程序代碼:
清理數(shù)據(jù)執(zhí)行結(jié)果如圖2所示。
圖2 reader數(shù)據(jù)庫(kù)中keys表清理數(shù)據(jù)
4.館藏資源利用率挖掘?qū)嶒?yàn)。根據(jù)Reader數(shù)據(jù)庫(kù)中記錄的讀者借閱歷史信息,挖掘讀者借閱圖書即館藏利用率的情況。由于reader數(shù)據(jù)庫(kù)中的keys表和book圖書總庫(kù)中都沒有借閱歷史圖書的具體圖書題名、圖書分類、圖書主題詞等詳細(xì)信息,因此設(shè)計(jì)第四個(gè)實(shí)驗(yàn)前,需要利用Transact—SQL語言在,SQL Server2003中進(jìn)行程序設(shè)計(jì),將兩個(gè)庫(kù)中的數(shù)據(jù)進(jìn)行聯(lián)接生成新的數(shù)據(jù)表,即即讀者借閱歷史詳細(xì)信息表,導(dǎo)入SPSS進(jìn)行量化統(tǒng)計(jì)。館藏資源利用率挖掘?qū)嶒?yàn)流程如下圖3所示:
圖3 圖書館藏資源挖掘?qū)嶒?yàn)流程
最后將新生成的讀者借閱歷史流通信息(temp_table)表導(dǎo)入SPSS,挖掘統(tǒng)計(jì)讀者利用資源情況,以多重散點(diǎn)圖的形式得出直觀性的結(jié)論,如圖4所示。
圖4 館藏利用率多重散點(diǎn)圖
5.館藏利用率挖掘結(jié)論。根據(jù)上面的圖書借閱歷史情況數(shù)據(jù)挖掘?qū)嶒?yàn)設(shè)計(jì),從挖掘結(jié)論可以明顯看出I247.57小說類圖書的借閱利用率最高,其次是TP391.41計(jì)算機(jī)類圖書,第三位的是H310.42英語學(xué)習(xí)類圖書。針對(duì)上一節(jié)論述的圖書資源分布特點(diǎn),即集中在I文學(xué)、H語言、F經(jīng)濟(jì)、TP計(jì)算機(jī)、D法律五大分類,這個(gè)資源分布的總體特點(diǎn)與讀者館藏利用率特征基本相符,因此我館的資源建設(shè)原則合理性得到客觀數(shù)據(jù)的驗(yàn)證,另一方面說明讀者需求的偏頗較明顯的特點(diǎn)。
通過以上大量數(shù)據(jù)分析挖掘得出的相關(guān)結(jié)論,我們應(yīng)該看到讀者利用資源的偏頗較嚴(yán)重,對(duì)于專業(yè)方面的知識(shí)學(xué)習(xí)與研究較少涉及。因此,圖書館未來的知識(shí)服務(wù)工作應(yīng)該實(shí)現(xiàn)個(gè)性化、智能化、高效化的服務(wù)方式,服務(wù)方式由被動(dòng)轉(zhuǎn)為主動(dòng),服務(wù)內(nèi)容由表面深入到內(nèi)部,即由信息咨詢服務(wù)轉(zhuǎn)向知識(shí)服務(wù)智能服務(wù),服務(wù)范圍由校園內(nèi)拓展為校園外的全球讀者。高職院校圖書館知識(shí)服務(wù)模式的建立則應(yīng)該:一是,突出高職院校讀者需求的特點(diǎn),提供靈活多樣的人性化、智能化、知識(shí)化的高層次服務(wù);二是,提供多類型、多學(xué)科、重實(shí)踐的文獻(xiàn)信息資源、視頻資源、多媒體資源;三是,高等職業(yè)教育培養(yǎng)目標(biāo)的特點(diǎn),重點(diǎn)建設(shè)發(fā)展職業(yè)技能培養(yǎng)和職業(yè)素質(zhì)提高的資源項(xiàng)目,為讀者提供個(gè)性化的知識(shí)服務(wù)。
[1]張英.高職院校圖書館文獻(xiàn)資源建設(shè)的現(xiàn)狀分析與對(duì)策[J].圖書館工作與研究,2004(3):30-32.
[2]徐詩(shī)豪.新時(shí)期高職院校圖書館的發(fā)展策略[J].圖書館論壇,2005(3):77-79.
[3]吳靜.高職院校圖書館文獻(xiàn)資源建設(shè)的現(xiàn)狀分析及對(duì)策[J].南京職業(yè)技術(shù)學(xué)院學(xué)報(bào)2009(9):30-32.
[4]元昌安,數(shù)據(jù)挖掘原理與 SPSS Clementine 應(yīng)用寶典[M].北京:北京:電子工業(yè)出版社,2006:77-79.