熊 燕
(懷化學(xué)院圖書(shū)館,湖南懷化418008)
近年來(lái),隨著信息技術(shù)、通信技術(shù)和計(jì)算機(jī)技術(shù)的迅速發(fā)展,數(shù)字化成為圖書(shū)館發(fā)展的主要方向。但是,擁有豐富信息的數(shù)字圖書(shū)館極容易陷入“數(shù)據(jù)豐富,但信息貧乏”的局面,因此,圖書(shū)館有必要加強(qiáng)對(duì)信息的處理能力以及對(duì)資源的組織能力。數(shù)據(jù)挖掘技術(shù)可以幫助人們對(duì)海量信息進(jìn)行深層次的開(kāi)發(fā),提取表面上龐雜無(wú)序的信息的內(nèi)在聯(lián)系,從而推動(dòng)圖書(shū)館的數(shù)字化進(jìn)程。
數(shù)據(jù)挖掘 (Data Mining,簡(jiǎn)稱(chēng)DM),就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程[1]。數(shù)據(jù)挖掘能夠?qū)^(guò)去的數(shù)據(jù)進(jìn)行查詢和遍歷,對(duì)將來(lái)的趨勢(shì)和行為進(jìn)行預(yù)測(cè)和發(fā)現(xiàn)。它是知識(shí)發(fā)現(xiàn)中的核心工作,主要研究發(fā)現(xiàn)知識(shí)的各種方法和技術(shù)。數(shù)據(jù)挖掘所得到的相關(guān)信息,具有未知、有效和實(shí)用三個(gè)特征。
數(shù)據(jù)挖掘的過(guò)程可以分為以下五個(gè)步驟[2]:
(1)數(shù)據(jù)準(zhǔn)備:了解相關(guān)領(lǐng)域的有關(guān)情況,熟悉相關(guān)的背景知識(shí),弄清用戶的要求,定義要挖掘的目標(biāo);
(2)數(shù)據(jù)提取:根據(jù)用戶的要求從數(shù)據(jù)庫(kù)中提取相關(guān)的數(shù)據(jù);
(3)數(shù)據(jù)預(yù)處理:對(duì)提取的數(shù)據(jù)進(jìn)行再加工,對(duì)丟失數(shù)據(jù)進(jìn)行填補(bǔ),對(duì)噪音數(shù)據(jù)進(jìn)行處理;
(4)知識(shí)提取:運(yùn)用選定的知識(shí)發(fā)現(xiàn)算法,從數(shù)據(jù)中提取用戶所需要的知識(shí);
(5)知識(shí)評(píng)價(jià):將提取的知識(shí)以用戶理解的方式呈現(xiàn)。
此外,還要根據(jù)實(shí)際執(zhí)行情況對(duì)具體的知識(shí)發(fā)現(xiàn)處理階段進(jìn)行優(yōu)化,直到滿足用戶的要求。
數(shù)據(jù)挖掘的方法按功能可分為兩大類(lèi):描述性分析和預(yù)測(cè)性分析。描述性分析用于了解系統(tǒng)數(shù)據(jù)實(shí)際存在的特性,為預(yù)測(cè)做準(zhǔn)備;預(yù)測(cè)性分析是在前者得到結(jié)論的基礎(chǔ)上對(duì)系統(tǒng)的發(fā)展進(jìn)行估計(jì),得到最終需要的結(jié)果,為決策者提供依據(jù)。典型的數(shù)據(jù)挖掘方法主要包括以下幾種:
分類(lèi)分析的主要功能就是建立一個(gè)分類(lèi)函數(shù)或分類(lèi)模型,根據(jù)數(shù)據(jù)的屬性,利用數(shù)學(xué)方法確定數(shù)據(jù)的類(lèi)型,將數(shù)據(jù)分派到相關(guān)的類(lèi)中。分類(lèi)分析預(yù)先設(shè)有一個(gè)數(shù)據(jù)庫(kù)和一組具有不同特征的類(lèi)別,通過(guò)分析數(shù)據(jù)庫(kù)中的數(shù)據(jù),對(duì)每個(gè)類(lèi)別建立分析模型或挖掘分類(lèi)規(guī)則,使用這個(gè)分類(lèi)模型或分類(lèi)規(guī)則對(duì)未來(lái)的測(cè)試數(shù)據(jù)進(jìn)行分類(lèi)。在分析測(cè)試數(shù)據(jù)之前,根據(jù)預(yù)先定義好的類(lèi),構(gòu)造一個(gè)分類(lèi)函數(shù),再把具有某些特征的數(shù)據(jù)映射到預(yù)先定義好的類(lèi)上。
聚類(lèi)分析是用數(shù)學(xué)方法研究和處理所給對(duì)象的分類(lèi)以及各類(lèi)之間的親疏程度,是在對(duì)數(shù)據(jù)不作任何假設(shè)的條件下進(jìn)行分析的技術(shù)[3]。與分類(lèi)分析法不同,聚類(lèi)分析法預(yù)先設(shè)定的數(shù)據(jù)庫(kù)中沒(méi)有進(jìn)行任何分類(lèi),只是把數(shù)據(jù)按照相似性歸納成若干類(lèi)別。聚類(lèi)分析法還可細(xì)分為直接聚類(lèi)法、最短距離聚類(lèi)法和最遠(yuǎn)距離聚類(lèi)法。聚類(lèi)分析可以發(fā)現(xiàn)數(shù)據(jù)的分布模式以及數(shù)據(jù)屬性之間的相互關(guān)系,是概念描述和偏差分析的先決條件。
若兩個(gè)或兩個(gè)以上數(shù)據(jù)項(xiàng)的取值之間存在某種規(guī)律性,就稱(chēng)為關(guān)聯(lián)[4],可以建立起這些數(shù)據(jù)項(xiàng)的關(guān)聯(lián)規(guī)則。在大型數(shù)據(jù)庫(kù)中,這種關(guān)聯(lián)規(guī)則是很多的,一般用“支持度”和“可信度”兩個(gè)閾值來(lái)度量關(guān)聯(lián)規(guī)則的相關(guān)性。關(guān)聯(lián)分析的目的就是利用關(guān)聯(lián)規(guī)則挖掘隱藏在數(shù)據(jù)間的相互關(guān)系,識(shí)別特殊類(lèi)型的數(shù)據(jù)關(guān)聯(lián)模型,生成所有具有用戶指定的最小置信度和最小支持度的關(guān)系規(guī)則。
序列分析是指通過(guò)時(shí)間序列搜索出的重復(fù)發(fā)生概率較高的模式[5]。時(shí)間序列模型分為時(shí)間序列平滑模型和時(shí)間序列分解模型。序列分析法不是研究數(shù)據(jù)之間的數(shù)量關(guān)系,而是研究預(yù)測(cè)目標(biāo)與時(shí)間過(guò)程之間的演變關(guān)系。序列分析的預(yù)測(cè)過(guò)程是:根據(jù)有序數(shù)的集合進(jìn)行規(guī)律分析,選出擬合該時(shí)間序列的最佳數(shù)學(xué)模式,然后利用該模式進(jìn)行未來(lái)的預(yù)測(cè),同時(shí)還要計(jì)算出預(yù)測(cè)結(jié)果的誤差分析,做出關(guān)于未來(lái)趨勢(shì)發(fā)展的解釋。但是,序列分析法不能預(yù)測(cè)事物發(fā)展的突變,一般也難以預(yù)測(cè)事物發(fā)展趨勢(shì)的轉(zhuǎn)變。
偏差分析的目的是找出正常值范圍之外的數(shù)據(jù),識(shí)別異常數(shù)據(jù)的關(guān)鍵是要有一個(gè)能夠準(zhǔn)確體現(xiàn)正常數(shù)據(jù)集的挖掘模型,作為其它數(shù)據(jù)的比較標(biāo)準(zhǔn)。例如,發(fā)現(xiàn)黑客行為或網(wǎng)站漏洞的一個(gè)方法,就是看用戶是否偏離邏輯路徑。通過(guò)發(fā)現(xiàn)異常,可以引起人們對(duì)特殊情況的加倍注意。偏差分析的一個(gè)重要特征就是它可以有效地過(guò)濾大量的不合適的模式。
預(yù)測(cè)是指采集歷史數(shù)據(jù)并用某種數(shù)學(xué)模型對(duì)未來(lái)數(shù)據(jù)的種類(lèi)及特征進(jìn)行預(yù)測(cè),它可能是只考慮了一種可能性的簡(jiǎn)單預(yù)測(cè),也可能是考慮了所有各種可能性的復(fù)雜預(yù)測(cè)。數(shù)據(jù)挖掘自動(dòng)在大型數(shù)據(jù)庫(kù)中尋找預(yù)測(cè)性信息,根據(jù)時(shí)間序列型數(shù)據(jù),自動(dòng)地提出描述重要數(shù)據(jù)類(lèi)的模型。
回歸分析是一種典型的預(yù)測(cè)法,它利用大量的歷史數(shù)據(jù),以時(shí)間為變量來(lái)近似地確定變量間的函數(shù)關(guān)系?;貧w分析根據(jù)變量數(shù)量可分為一元回歸分析和多元回歸分析,根據(jù)函數(shù)關(guān)系可分為線性回歸分析和非線性回歸分析。分類(lèi)也能進(jìn)行預(yù)測(cè),但分類(lèi)一般用于離散數(shù)值,回歸用于連續(xù)數(shù)值。通常線性回歸分析是最基本的分析方法,遇到非線性回歸問(wèn)題可以借助數(shù)學(xué)手段化為線性回歸問(wèn)題處理。
各種方法有其自身的功能特點(diǎn)以及應(yīng)用領(lǐng)域,不同方法的選擇還會(huì)影響結(jié)果的質(zhì)量和效果,因此,在進(jìn)行數(shù)據(jù)挖掘時(shí),通常是將多種方法綜合運(yùn)用的。
數(shù)字圖書(shū)館利用數(shù)字技術(shù)對(duì)分散于不同載體、不同地域的海量數(shù)字化信息資源進(jìn)行組織和管理,并且以網(wǎng)絡(luò)化的方式將這些信息互相聯(lián)結(jié),使信息用戶可以不受時(shí)間和地域的限制,在任何時(shí)間和任何地點(diǎn),通過(guò)網(wǎng)絡(luò)查詢和檢索信息,從而滿足用戶的信息需求,最終實(shí)現(xiàn)信息資源的共享。目前,網(wǎng)上數(shù)字圖書(shū)館越來(lái)越多,數(shù)字圖書(shū)館的數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)研究具有較大的實(shí)用價(jià)值。數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書(shū)館中的應(yīng)用為數(shù)字圖書(shū)館的信息服務(wù)提供了技術(shù)支持,并顯示出強(qiáng)大的生命力。
數(shù)字環(huán)境下信息資源的品種和數(shù)量急劇增加,采用數(shù)據(jù)挖掘技術(shù)可以在經(jīng)費(fèi)有限的情況下,廣泛搜集信息需求,聚集用戶智慧,科學(xué)采集、優(yōu)化配置各類(lèi)信息資源,具體方法有:(1)按類(lèi)統(tǒng)計(jì)信息資源的利用率,對(duì)傳統(tǒng)的文獻(xiàn)資源可統(tǒng)計(jì)流通記錄、檢索請(qǐng)求等,對(duì)數(shù)字信息資源可統(tǒng)計(jì)點(diǎn)擊率、下載篇數(shù)、登錄次數(shù)等,通過(guò)分析對(duì)館藏的優(yōu)化配置提供合理化建議,及時(shí)剔除利用率較少的信息資源;(2)運(yùn)用關(guān)聯(lián)分析法統(tǒng)計(jì)用戶的借閱信息,發(fā)現(xiàn)各類(lèi)文獻(xiàn)之間的關(guān)聯(lián)規(guī)則或比例關(guān)系,有針對(duì)性的補(bǔ)充和豐富信息資源;(3)用戶的興趣模式會(huì)隨著需求不斷變化,采用數(shù)據(jù)挖掘技術(shù),可以預(yù)先感知用戶群體興趣的變遷,提前做好信息資源的采訪工作[6]。
傳統(tǒng)的圖書(shū)館參考咨詢服務(wù)主要是針對(duì)用戶提出的檢索任務(wù)和信息需求,利用手工或半自動(dòng)的方式,向用戶提供具體的文獻(xiàn)、文獻(xiàn)知識(shí)和文獻(xiàn)線索。隨著現(xiàn)代化技術(shù)的發(fā)展,參考咨詢服務(wù)向?qū)?shù)字資源系統(tǒng)中的信息內(nèi)容進(jìn)行深層次地挖掘和分析方面擴(kuò)展,例如提供網(wǎng)絡(luò)資源導(dǎo)航、編制專(zhuān)題數(shù)據(jù)庫(kù)等。數(shù)字圖書(shū)館在提供基于語(yǔ)義的自然語(yǔ)言智能檢索的同時(shí),具有基于文本的知識(shí)挖掘功能,提供基于概念的智能檢索。此外,語(yǔ)音識(shí)別技術(shù)、圖像識(shí)別技術(shù)、對(duì)時(shí)序數(shù)據(jù)采取關(guān)聯(lián)檢索技術(shù)等多種信息檢索手段,大大提高了咨詢服務(wù)的效率和質(zhì)量。
隨著數(shù)字圖書(shū)館的不斷發(fā)展,其數(shù)據(jù)種類(lèi)迅速擴(kuò)大,數(shù)字資源也越來(lái)越多,包括各種電子期刊、電子圖書(shū)、光盤(pán)數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)以及海量的Web數(shù)據(jù),采用數(shù)據(jù)挖掘技術(shù)可以實(shí)現(xiàn)上述信息的自動(dòng)化處理。信息處理自動(dòng)化是圍繞信息有序化而采取的實(shí)現(xiàn)技術(shù),主要包括:(1)自動(dòng)標(biāo)引技術(shù),即根據(jù)標(biāo)題、文摘或全文等信息,借助一定的算法自動(dòng)給出反映文獻(xiàn)主題內(nèi)容詞匯(關(guān)鍵詞、主題詞等)的技術(shù);(2)自動(dòng)分類(lèi)技術(shù),即利用計(jì)算機(jī)分析信息 (文獻(xiàn))內(nèi)容,并為其自動(dòng)聚類(lèi)或賦予分類(lèi)號(hào)的技術(shù);(3)自動(dòng)文摘技術(shù),即計(jì)算機(jī)通過(guò)“閱讀”全文,采用一定的處理技術(shù)和算法,抽取文中主題句構(gòu)造出文獻(xiàn)文摘的方法[7]。
讀者分類(lèi)研究包括讀者的分類(lèi)、讀者的屬性和特征分析、讀者滿意度分析、學(xué)科交叉分析及學(xué)科發(fā)展方向預(yù)測(cè)等。開(kāi)展對(duì)讀者的分類(lèi)研究是圖書(shū)館實(shí)現(xiàn)定向服務(wù)的重要途徑。數(shù)據(jù)挖掘中的分類(lèi)模式用于提取能代表群體的特征屬性,數(shù)字圖書(shū)館可以建立一個(gè)對(duì)讀者情況進(jìn)行詳細(xì)描述的數(shù)據(jù)倉(cāng)庫(kù),利用數(shù)據(jù)挖掘中的分類(lèi)技術(shù),把讀者群體按照年齡、學(xué)歷、職業(yè)等因素進(jìn)行細(xì)分,針對(duì)不同層次讀者的特點(diǎn),采取相應(yīng)的服務(wù)措施。
信息需求是信息心理的一個(gè)主要內(nèi)容,是信息行為產(chǎn)生的前提和基礎(chǔ),是開(kāi)展信息服務(wù)工作的根本目的。信息需求具有一定的復(fù)雜性和隨機(jī)性,不同用戶之間存在著明顯的個(gè)體及群體差異,但是,同一類(lèi)型用戶的信息需求在學(xué)科內(nèi)容、類(lèi)型屬性、服務(wù)形式等方面卻存在著某些共同之處,具有有序的層次結(jié)構(gòu),圖書(shū)館可以以用戶信息需求為出發(fā)點(diǎn),建立一系列相關(guān)規(guī)則[8],提供如下需求服務(wù):(1)集成化服務(wù),即根據(jù)用戶的需求,將學(xué)科范圍內(nèi)原本離散的、多元的、異構(gòu)的信息資源鏈接成一個(gè)整體,在保證較高專(zhuān)指性的情況下找到用戶所需的信息;(2)知識(shí)服務(wù),即從用戶研究領(lǐng)域及相關(guān)領(lǐng)域的專(zhuān)業(yè)知識(shí)中提煉出對(duì)用戶的研究、開(kāi)發(fā)與創(chuàng)新有用的“知識(shí)精品”;(3)個(gè)性化服務(wù),即分析用戶信息訪問(wèn)過(guò)程,保證對(duì)用戶決策過(guò)程的跟蹤和全面信息服務(wù)。
時(shí)間序列,是將某一事物 (或現(xiàn)象)所發(fā)生的數(shù)量變化,按時(shí)間先后順序排列,用于揭示該事物 (或現(xiàn)象)隨時(shí)間變化的規(guī)律。時(shí)間序列模式是指從研究系統(tǒng)的指標(biāo)特征數(shù)據(jù)中統(tǒng)計(jì)出的某種經(jīng)常發(fā)生的時(shí)間序列。數(shù)字圖書(shū)館可以利用時(shí)間序列模式,以月度數(shù)據(jù)作為分析的基本數(shù)據(jù)跨度,從流通數(shù)據(jù)庫(kù)中挖掘出流通量的變化規(guī)律與影響因素,在人力資源和圖書(shū)資源有限的情況下,為流通部門(mén)日常工作的安排提供科學(xué)的參考數(shù)據(jù)。
數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書(shū)館領(lǐng)域中的應(yīng)用還處于起步階段,但是,它的應(yīng)用已經(jīng)給圖書(shū)館帶來(lái)了巨大的社會(huì)效益和經(jīng)濟(jì)效益,并且在數(shù)據(jù)組織、數(shù)據(jù)分析和知識(shí)發(fā)現(xiàn)等方面顯示出了強(qiáng)大的發(fā)展?jié)摿蛷V闊的應(yīng)用前景。我們相信,數(shù)據(jù)挖掘技術(shù)必將成為數(shù)字圖書(shū)館建設(shè)不可或缺的技術(shù)支撐,并在其中發(fā)揮關(guān)鍵性的作用。
[1]邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法 [M].北京:中國(guó)水利水電出版社,2003.
[2]Han Jiawei,Micheline Kamber.范明,孟小峰譯.數(shù)據(jù)挖掘概念與技術(shù) (原書(shū)第2版)[M].北京:機(jī)械工業(yè)出版社,2007.
[3]姜園,張朝陽(yáng),仇佩亮,等.用于數(shù)據(jù)挖掘的聚類(lèi)算法 [J].電子與信息學(xué)報(bào),2005,(4):655-662.
[4]郭佳慧.數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書(shū)館中的實(shí)現(xiàn) [J].農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊,2008,(9):36-38,49.
[5]李默.基于Web的數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書(shū)館中的應(yīng)用 [J].大學(xué)圖書(shū)情報(bào)學(xué)刊,2007,(4):44-46.
[6]周軍.基于數(shù)據(jù)挖掘的數(shù)字圖書(shū)館個(gè)性化服務(wù)系統(tǒng)的構(gòu)建 [J].圖書(shū)館學(xué)研究,2007,(3):15-17.
[7]高巨山.數(shù)字圖書(shū)館構(gòu)建中的數(shù)據(jù)挖掘應(yīng)用研究 [J].圖書(shū)館工作與研究,2009,(4):20-21.
[8]李志明,胡森樹(shù).數(shù)據(jù)挖掘及其在現(xiàn)代化圖書(shū)館中的應(yīng)用 [J].圖書(shū)館學(xué)研究,2006,(6):39-41.