文/山東夏津縣圖書館 時海燕
數(shù)據(jù)挖掘在公共圖書館管理工作中的作用分析
文/山東夏津縣圖書館 時海燕
本文主要研究數(shù)據(jù)挖掘在公共圖書館管理工作中的作用,對數(shù)據(jù)挖掘的基本流程和主要功能進行了分析,并討論了數(shù)據(jù)挖掘在公共圖書館管理工作中的作用。
數(shù)據(jù)挖掘;公共圖書館;管理工作
信息技術(shù)與計算機網(wǎng)絡(luò)技術(shù)快速發(fā)展,改變了公共圖書館的管理工作形式,基于計算機技術(shù)的圖書館文獻信息編輯整理以及流通管理工作能夠為讀者保存并提供更加豐富全面的個人信息與文獻信息,數(shù)據(jù)完整性、規(guī)范性、結(jié)構(gòu)性更強。分析數(shù)據(jù)挖掘技術(shù)在公共圖書館管理工作中的作用,對圖書館管理決策有著重要意義。
(一)概述。數(shù)據(jù)挖掘技術(shù)是在大量不完全、模糊、隨機數(shù)據(jù)中提取隱藏有價值信息的技術(shù)過程,傳統(tǒng)的線性數(shù)據(jù)報表工具、統(tǒng)計工具不能滿足數(shù)據(jù)價值信息提取的需求,數(shù)據(jù)挖掘技術(shù)隨著需求的增長而快速進步。數(shù)據(jù)挖掘技術(shù)能夠方便分類管理各種統(tǒng)計信息,充分挖掘、揭示數(shù)據(jù)模式、數(shù)據(jù)規(guī)律,從而更加準確地預(yù)測未來數(shù)據(jù)發(fā)展,是一種有較強交叉性的學(xué)科,涉及多方面知識,善于從海量看似隨機而沒有關(guān)聯(lián)的數(shù)據(jù)信息中提取關(guān)鍵數(shù)據(jù)信息,獲取知識。和傳統(tǒng)報表信息處理方法相比,數(shù)據(jù)挖掘能夠更加深刻的揭示事件發(fā)生原因,并為決策提供可靠依據(jù)?,F(xiàn)階段,數(shù)據(jù)挖掘技術(shù)有WEB數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)挖掘技術(shù)以及文本數(shù)據(jù)挖掘技術(shù)三個主要方向。WEB數(shù)據(jù)挖掘研究對象為WEB頁面內(nèi)容和不同頁面間的結(jié)構(gòu)規(guī)律,數(shù)據(jù)挖掘則主要研究各類數(shù)據(jù),并對數(shù)據(jù)價值進行進一步的聚類分析、關(guān)聯(lián)分析和偏差分析。文本數(shù)據(jù)挖掘主要用于文本信息的獲取,主要功能有提出文本特征信息、文本分類以及數(shù)據(jù)的探索性處理等。
(二)數(shù)據(jù)挖掘基本流程。數(shù)據(jù)挖掘主要有數(shù)據(jù)準備、數(shù)據(jù)挖掘和結(jié)果表述三個方面。數(shù)據(jù)挖掘的準備階段主要有數(shù)據(jù)集成、選擇和預(yù)處理三個步驟,將多文件和多個數(shù)據(jù)庫中的數(shù)據(jù)進行整合合并,清理數(shù)據(jù)遺漏項目,清理臟數(shù)據(jù),提高數(shù)據(jù)質(zhì)量。數(shù)據(jù)挖掘階段,首先建立挖掘目標,確定數(shù)據(jù)挖掘假設(shè),用戶可以自己建立假設(shè),或者由系統(tǒng)自動提出假設(shè),之后選擇合適的數(shù)據(jù)處理工具進行數(shù)據(jù)處理,確定數(shù)據(jù)分析工具之后,分析工具能夠自動在海量數(shù)據(jù)中找尋合適的模型,從底部逐級向上搜索,找尋原始事實之間的聯(lián)系,也可以添加人機交互,工作人員發(fā)問,驗證假設(shè)的正確性。之后進行結(jié)果表述與解釋,根據(jù)用戶決策目標需求,分析提取的信息,區(qū)分有價值信息,使用決策工具將數(shù)據(jù)提供給決策者。
(三)數(shù)據(jù)挖掘基本功能。數(shù)據(jù)挖掘能夠通過預(yù)測來提供前瞻性的決策依據(jù),從數(shù)據(jù)庫數(shù)據(jù)中找尋隱含的高價值知識。數(shù)據(jù)挖掘還能夠?qū)厔莺托袨檫M行自動預(yù)測,從海量數(shù)據(jù)中找尋預(yù)測性信息,省掉大量傳統(tǒng)手工分析過程,從數(shù)據(jù)中快速得到結(jié)論。市場預(yù)測就是最成功的應(yīng)用,通過過去的促銷數(shù)據(jù)就能夠快速找出投資回報最大的用戶,在各種商業(yè)行為的預(yù)測中,數(shù)據(jù)挖掘都有著廣闊的應(yīng)用空間。關(guān)聯(lián)分析是數(shù)據(jù)挖掘另一個重要功能,通過大量數(shù)據(jù)的分析處理,數(shù)據(jù)挖掘能夠找出大量數(shù)據(jù)中有關(guān)聯(lián)的若干變量,生成可信度較高的規(guī)則。數(shù)據(jù)庫也可以視作有意義的系列子集,聚類是偏差分析和概念描述的前提基礎(chǔ),劃分對象不僅要重視距離,還應(yīng)該涵蓋類聚內(nèi)涵描述。除此之外,數(shù)據(jù)挖掘還有概念描述、偏差檢測等功能,都是傳統(tǒng)數(shù)據(jù)分析技術(shù)所不擅長的。
(一)提供更加有效的教育功能。知識經(jīng)濟時代,人才教育不只是知識教育,還應(yīng)該側(cè)重于人的創(chuàng)造性思維和創(chuàng)新能力的培養(yǎng),確保人才能夠適應(yīng)時代變化。經(jīng)濟建設(shè)和國家發(fā)展需要大批掌握扎實基礎(chǔ)知識同時具有創(chuàng)造性思維和創(chuàng)造能力的復(fù)合型人才,教育工作也應(yīng)該逐漸從應(yīng)試教育逐漸轉(zhuǎn)變?yōu)樗刭|(zhì)教育和創(chuàng)新性教育。對于讀者來說,學(xué)習(xí)為目的的閱讀有取證學(xué)習(xí)、學(xué)歷學(xué)習(xí)、職業(yè)學(xué)習(xí)和素質(zhì)學(xué)習(xí)等不同形式,不同的人生階段有不同的學(xué)習(xí)重點,例如學(xué)生階段學(xué)習(xí)以獲取專業(yè)知識為主,就業(yè)之后熱衷于職業(yè)資格證考試。公共圖書館是獲取參考書籍最好的方式,也是學(xué)習(xí)的理想場所,如何為讀者提供相關(guān)書目,滿足讀者閱讀需求,是公共圖書館工作人員需要考慮的問題。使用數(shù)據(jù)挖掘技術(shù),圖書館則能夠準確預(yù)測讀者的書目需求以及社會職業(yè)知識發(fā)展方向,該預(yù)測結(jié)果能夠?qū)D書館書目采購、期刊報紙訂閱起到指導(dǎo)作用,同時還能夠為人事勞動教育部門提供對應(yīng)的數(shù)據(jù),幫助相關(guān)工作人員提供研究數(shù)據(jù)。通過數(shù)據(jù)挖掘,能夠幫助確定不同行業(yè)、不同年齡、不同學(xué)歷背景讀者的書目差別,了解不同讀者對圖書的需求程度。分析用戶信息表和借閱歷史表,就能夠制定一個和實際情況非常符合的書目決策表,對公共圖書館優(yōu)化館藏結(jié)構(gòu)有著重要意義。
(二)優(yōu)化公共圖書館信息服務(wù)功能。公共圖書館信息服務(wù)功能有公共公益性信息服務(wù)和產(chǎn)業(yè)公益性信息服務(wù)兩方面內(nèi)容,其中公共公益性信息服務(wù)面向社會成員,公益性信息服務(wù)面向社會組織。公共公益性信息服務(wù)是圖書館、文獻信息服務(wù)機構(gòu)、重要媒體提供的信息服務(wù),公益性信息服務(wù)是國有企業(yè)、行業(yè)信息機構(gòu)和行業(yè)協(xié)會提供的壟斷性信息服務(wù)。使用聚類數(shù)據(jù)挖掘方法,能夠?qū)矆D書館信息服務(wù)功能進行進一步優(yōu)化。聚類分析使用了動態(tài)歸類標準,并進行定量描述,選擇多種不同相似性標準,能夠?qū)?shù)據(jù)劃分為多種不同層次類別,從而多層次文獻聚類。公共圖書館使用聚類方法,無須預(yù)先進
行信息分類,可以根據(jù)圖書館的實際需要,選擇合適的文獻情報門檻值,符合門檻值要求的信息就化歸為一類,上交給有關(guān)部門進行處理,多種不同的問題和門檻值將不同的信息劃分為多個類別,信息的類聚所有文獻情報都要參與,從而突破了當前情報分類方法的局限性。
(三)圖書文獻采購管理。公共圖書館地方文獻管理通常都選擇符合館藏地方文獻特點的分類方法,編制科學(xué)合理的館藏地方文獻分類細則,集中或者分散處理。分散處理方法不區(qū)別地方文獻和非地方文獻,不強調(diào)地方文獻特征,根據(jù)學(xué)科屬性分類,散布在多個學(xué)科不同的類目中,而集中處理方法首先突出地方特征,將地方文獻集中起來統(tǒng)一使用、管理。近些年,公共圖書館逐漸意識到自己在地方文化弘揚推廣中的重要作用,逐漸加大了對地方文獻數(shù)據(jù)館藏的建設(shè)與管理力度,但是實際工作中,仍然會出現(xiàn)地方文獻書籍采購經(jīng)費不足的問題,需要采取一定的策略進行取舍。常規(guī)的采購策略是優(yōu)先選擇熱門領(lǐng)域書籍,即便書籍可能并不很重要,而非熱門書訂購則比較困難,這樣的采購策略會導(dǎo)致熱門書目過多,非熱門書過少,圖書館館藏結(jié)構(gòu)不健康。而數(shù)據(jù)挖掘遺傳算法能夠很好地解決這個問題,該技術(shù)能夠利用種群進化來主動尋優(yōu),根據(jù)不同領(lǐng)域熱度,給出不同的權(quán)重,為采購策略制定提供指導(dǎo)。
公共圖書館是一種社會化的實體館藏,在公共圖書館管理工作中應(yīng)用數(shù)據(jù)挖掘技術(shù),能夠充分利用其數(shù)據(jù)組織分析、知識發(fā)現(xiàn)和信息深層挖掘功能,為讀者提供更加人性化的閱讀服務(wù),有利于公共圖書館的進一步發(fā)展。
[1]黃紅.圖書館績效指標數(shù)據(jù)挖掘方法研究[J].圖書館學(xué)研究,2014(15).
[2]陳海軍.數(shù)據(jù)挖掘在公共圖書館管理工作中的應(yīng)用[J].中國管理信息化,2016(02).
[3]李仁玲,王建嶺.數(shù)據(jù)挖掘技術(shù)在中醫(yī)院校圖書館讀者的行為及研究[J].當代教育實踐與教學(xué)研究,2016(07).
[4]初景利,易飛,杜杏葉,等.持續(xù)推動圖書情報理論創(chuàng)新與實踐探索——《圖書情報工作》2014年發(fā)文評述[J].圖書情報工作,2015(01).
[5]俞錦梅.數(shù)據(jù)挖掘在國內(nèi)圖書館應(yīng)用領(lǐng)域研究綜述[J].圖書與情報,2015(02).