陳紅云
摘 要:數(shù)字圖書(shū)館技術(shù)的發(fā)展為圖書(shū)館服務(wù)質(zhì)量以及服務(wù)模式的提高提供了契機(jī),傳統(tǒng)的圖書(shū)館管理模式已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足讀者的借閱需求,讀者不僅僅會(huì)專注于本專業(yè)所學(xué)知識(shí)、項(xiàng)目開(kāi)發(fā)以及科研活動(dòng)的研究。因此,將數(shù)據(jù)挖掘中的各種技術(shù)方法應(yīng)用于圖書(shū)信息的挖掘具有非常重要的現(xiàn)實(shí)意義。
關(guān)鍵詞:數(shù)字圖書(shū)館;數(shù)據(jù)挖掘;數(shù)據(jù)挖掘技術(shù)
1 數(shù)字圖書(shū)館研究進(jìn)展
80年代末和90年代初,圖書(shū)館自動(dòng)化向著高度自動(dòng)化、電子化、網(wǎng)絡(luò)化、虛擬化的深度和廣度進(jìn)軍。進(jìn)入20世紀(jì)90年代,隨著信息技術(shù)的長(zhǎng)足進(jìn)步和飛速發(fā)展,隨著Internet的建立和廣泛應(yīng)用,數(shù)字圖書(shū)館成為現(xiàn)代圖書(shū)館的發(fā)展趨勢(shì)。21世紀(jì)初,數(shù)字圖書(shū)館及其相關(guān)概念,網(wǎng)絡(luò)環(huán)境下的館藏發(fā)展、采訪、分類、編目等技術(shù)服務(wù)、讀者服務(wù)以及圖書(shū)館員素質(zhì)的提高和角色的轉(zhuǎn)換等均成為主要的研究問(wèn)題。此外,如何對(duì)待、處理和解決數(shù)字圖書(shū)館從理論走向現(xiàn)實(shí)的技術(shù)實(shí)現(xiàn)問(wèn)題也必然成為我們天天要談?wù)摰闹饕掝}。如今很多國(guó)內(nèi)外研究人員都致力于數(shù)字圖書(shū)館發(fā)展的研究過(guò)程中,在對(duì)其中各種主要技術(shù)研究一定水平之后,未來(lái)數(shù)字圖書(shū)館的發(fā)展模式主要集中在三種類型:特種館藏型模式、服務(wù)主導(dǎo)型模式以及商用文獻(xiàn)型模式。數(shù)字圖書(shū)館的特點(diǎn)是:收藏?cái)?shù)字化、操作電腦化、傳遞網(wǎng)絡(luò)化、信息存貯自由化、資源共享化和結(jié)構(gòu)連接化。
2 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)功能以及它們可以發(fā)現(xiàn)的模式類型主要包括以下幾個(gè)部分:⑴概念/類描述:特征化和區(qū)分。用簡(jiǎn)潔的、匯總的和精確的方式描述各個(gè)類和概念,這種描述稱為概念/類描述,而要實(shí)現(xiàn)這種描述,就需要采用數(shù)據(jù)區(qū)分和數(shù)據(jù)特征化這兩種方法。數(shù)據(jù)特征化(data characterization)是匯總目標(biāo)類數(shù)據(jù)的一般特性或特征。它的輸出形式包括餅圖、條圖、曲線、多維數(shù)據(jù)立方體和多維表。數(shù)據(jù)區(qū)分是比較目標(biāo)類數(shù)據(jù)對(duì)象和一個(gè)或多個(gè)對(duì)比類對(duì)象的一般特性。其輸出提供的形式類似于特征化描述;⑵挖掘頻繁模式、關(guān)聯(lián)和相關(guān)。頻繁模式是在數(shù)據(jù)中頻繁出現(xiàn)的模式,主要包括項(xiàng)集、子結(jié)構(gòu)和子序列。對(duì)頻繁模式的挖掘可以導(dǎo)致發(fā)現(xiàn)數(shù)據(jù)中有趣的關(guān)聯(lián)和相關(guān)。通常,關(guān)聯(lián)規(guī)則必須同時(shí)滿足最小支持度閾值和最小置信度閾值,同時(shí)也可以發(fā)現(xiàn)相關(guān)聯(lián)的屬性-值對(duì)之間的有趣的統(tǒng)計(jì)相關(guān);⑶分類和預(yù)測(cè)。分類是找出描述和區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測(cè)類標(biāo)號(hào)未知的對(duì)象類。導(dǎo)出的模型可以有多種形式,如分類(IF-THEN)規(guī)則、決策樹(shù)、數(shù)學(xué)公式或神經(jīng)網(wǎng)絡(luò)。預(yù)測(cè)是建立連續(xù)值函數(shù)模型,而分類預(yù)測(cè)是用來(lái)預(yù)測(cè)不知道的或空缺的數(shù)值數(shù)據(jù)值。還有其他方法比如回歸分析是一種統(tǒng)計(jì)學(xué)中最常用的數(shù)值預(yù)測(cè)方法;⑷聚類分析。與分類和預(yù)測(cè)不同的是,聚類事先不知道劃分?jǐn)?shù)據(jù)對(duì)象的類標(biāo)號(hào),在這種情況下對(duì)象可以根據(jù)類內(nèi)最大化以及類間最小化的相似性原則進(jìn)行分組或者聚類;⑸離群點(diǎn)分析。數(shù)據(jù)庫(kù)中存在著與一般行為或模型不一致的一些數(shù)據(jù)對(duì)象,這些對(duì)象叫做離群點(diǎn)。在大多數(shù)情況下人們都會(huì)將其視為噪聲或異常而丟棄。然而在一些具體的應(yīng)用中卻比正常發(fā)生的事件更令人感興趣,比如欺詐檢測(cè),銀行獲取信用卡使用不良記錄者等行為;⑹演變分析。演變分析是描述行為隨時(shí)間變化的對(duì)象之間的趨勢(shì)或規(guī)律,并為其建立模型。這種分析不同于先前所提及的幾種方法,它具體可包括序列或周期模式匹配、時(shí)間序列數(shù)據(jù)分析以及基于相似性的數(shù)據(jù)分析等。比如股票交易數(shù)據(jù)挖掘就可以識(shí)別整個(gè)或者特定公司股票演變規(guī)律,進(jìn)而為股票投資者提供預(yù)測(cè)未來(lái)股票價(jià)格以及市場(chǎng)方向的決策。
3 數(shù)字圖書(shū)館中的數(shù)據(jù)挖掘
傳統(tǒng)圖書(shū)館是由專門技術(shù)人員或者專家通過(guò)以往的經(jīng)驗(yàn)來(lái)安排圖書(shū)信息的采集,由于存在著各種主觀性,因此在這種情況下信息就有可能不準(zhǔn)確。而使用數(shù)據(jù)挖據(jù)技術(shù)就會(huì)解決上述存在的問(wèn)題。首先它會(huì)充分有效的利用文獻(xiàn)信息,去除過(guò)失數(shù)據(jù),使圖書(shū)數(shù)據(jù)具有時(shí)效性。其次,運(yùn)用數(shù)據(jù)挖掘技術(shù),可以總結(jié)歷史用戶信息來(lái)推薦給未來(lái)讀者,滿足他們的研究方向和興趣愛(ài)好。再者,應(yīng)用數(shù)據(jù)挖掘檢索技術(shù)可以摒棄部分地域、學(xué)校以及文獻(xiàn)類別的束縛,為用戶檢索出最全面而又具有很高使用價(jià)值的信息。最后借助數(shù)據(jù)挖掘技術(shù)可以拓寬圖書(shū)信息庫(kù),不僅僅局限于某些大型數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù),它會(huì)使個(gè)性化服務(wù)推廣到整個(gè)網(wǎng)絡(luò),讓讀者獲取最豐富最全面的信息資源。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于數(shù)字圖書(shū)館主要從以下幾個(gè)方面進(jìn)行挖掘:(1)對(duì)數(shù)字圖書(shū)館的內(nèi)容進(jìn)行挖掘?;跀?shù)字圖書(shū)館的內(nèi)容的挖掘是通過(guò)對(duì)數(shù)字圖書(shū)館信息的模式識(shí)別和分析理解,從中發(fā)現(xiàn)有意義的知識(shí)。根據(jù)某一領(lǐng)域的信息需求,自動(dòng)捕捉、采集和整理領(lǐng)域所需信息,過(guò)濾無(wú)用冗余信息,通過(guò)信息推送等方式,直接數(shù)據(jù)挖掘所發(fā)現(xiàn)的知識(shí),提供給讀者,主動(dòng)提供個(gè)性化服務(wù)。(2)對(duì)數(shù)字圖書(shū)館的用戶進(jìn)行挖掘。從數(shù)字圖書(shū)館的大量訪問(wèn)信息中挖掘用戶的訪問(wèn)模式、訪問(wèn)興趣,采用關(guān)聯(lián)性法則和聚類方法發(fā)現(xiàn)不同的用戶群體,然后對(duì)這些不同的群體提供信息定制服務(wù)。同時(shí)還可以利用web挖掘所得到的信息,動(dòng)態(tài)地調(diào)整web頁(yè)面,更好地滿足讀者的需要。通過(guò)對(duì)用戶訪問(wèn)信息、使用信息的挖掘,在數(shù)字對(duì)象和用戶、對(duì)象分類和主題之間進(jìn)行模式匹配,采用不同挖掘技術(shù)自動(dòng)提取知識(shí),從而確定個(gè)性化服務(wù)內(nèi)容,提高為用戶知識(shí)服務(wù)的自動(dòng)化水平。(3)此外,收集整理圖書(shū)館網(wǎng)上咨詢、薦購(gòu)書(shū)刊等欄目中的數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù),可以預(yù)先發(fā)現(xiàn)讀者群體的興趣,調(diào)整館藏方向,提升館藏資源的針對(duì)性。
[參考文獻(xiàn)]
[1]王艷.數(shù)據(jù)挖掘在數(shù)字圖書(shū)館中的應(yīng)用[J].情報(bào)科學(xué).2003(02).
[2]馮進(jìn).利用數(shù)據(jù)挖掘技術(shù) 深入挖掘圖書(shū)館工作[J].現(xiàn)代情報(bào).2005(03).
[3]高巨山.數(shù)字圖書(shū)館構(gòu)建中的數(shù)據(jù)挖掘應(yīng)用研究[J].圖書(shū)館工作與研究. 2009(04).
[4]唐吉深.圖書(shū)館數(shù)據(jù)挖掘技術(shù)研究現(xiàn)狀述評(píng)[J].圖書(shū)館界.2011(01).