任長貴
(湖南女子學(xué)院,湖南 長沙 410000)
【信息技術(shù)】
基于智能Agent的數(shù)據(jù)挖掘在數(shù)字圖書館中的應(yīng)用
任長貴
(湖南女子學(xué)院,湖南 長沙 410000)
文章分析了數(shù)據(jù)挖掘與智能Agent的含義及特點(diǎn),提出了利用智能Agent、數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)字圖書館中的用戶資料及訪問web時(shí)的當(dāng)前請(qǐng)求進(jìn)行預(yù)測分析,據(jù)此獲取用戶興趣愛好、訪問習(xí)慣,預(yù)測用戶行為,挖掘用戶潛在需求,減少用戶訪問延遲,提高用戶獲取信息的效率,為其提供主動(dòng)的個(gè)性化信息服務(wù)。
數(shù)字圖書館;數(shù)據(jù)挖掘;智能Agent;用戶需求預(yù)測
隨著Internet的應(yīng)用與普及,互聯(lián)網(wǎng)已發(fā)展成當(dāng)今世界上最大的信息庫。網(wǎng)絡(luò)資源的急劇膨脹為數(shù)字圖書館提供了巨大的信息源,它在為用戶獲取信息提供途徑的同時(shí),也增加了用戶有效信息利用的難度及速度。數(shù)字圖書館如何利用先進(jìn)信息處理技術(shù),解決資源的無序性、分散性、冗余性,從web巨大的資源中快捷、準(zhǔn)確地挖掘出用戶所需信息及潛在需求,為用戶提供主動(dòng)的個(gè)性化信息服務(wù),已成為人們關(guān)注的焦點(diǎn)。其中數(shù)字挖掘、智能Agent技術(shù)便是解決這一問題的重要技術(shù)之一。
近年來,圖書情報(bào)界在數(shù)字圖書館建設(shè)中,對(duì)數(shù)字挖掘(Data mining)及智能Agent(Intelligent agent)有關(guān)理論與技術(shù)的應(yīng)用研究已紛紛開展起來。本文擬對(duì)基于智能Agent的數(shù)據(jù)挖掘系統(tǒng)在數(shù)字圖書館中的應(yīng)用模式進(jìn)行分析探討。
1.數(shù)據(jù)挖掘(Data mining)又可稱作數(shù)據(jù)中的知識(shí)發(fā)展(Konwledge Database),是通過分析各種數(shù)據(jù)源,從中提取出有價(jià)值的、新穎的、有用的,并被人們理解的模式的處理過程。它融合了計(jì)算機(jī)學(xué)、數(shù)據(jù)庫、人工智能、文獻(xiàn)統(tǒng)計(jì)等多個(gè)領(lǐng)域的理論和技術(shù)。數(shù)據(jù)挖掘常用的算法有:聚類法(Chattering)、分類法(Chissifieation)、遺傳算法(Generic Algorithms)及關(guān)聯(lián)規(guī)則算法(Associationword)。
2.數(shù)據(jù)挖掘特征。(1)能對(duì)大量的待處理數(shù)據(jù)進(jìn)行分析處理,如抽取、轉(zhuǎn)換、過渡,以滿足用戶需求。(2)具有高效的查詢效率,為用戶提供決策支持。(3)能對(duì)不同類型的數(shù)據(jù)進(jìn)行分析處理。網(wǎng)絡(luò)文獻(xiàn)數(shù)據(jù)格式各異,如文本、聲音、圖像等。結(jié)構(gòu)模式有結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化。(4)可發(fā)現(xiàn)數(shù)據(jù)中規(guī)則動(dòng)態(tài)信息。(5)能有效地組織和管理數(shù)據(jù)。
3.智能代理含義及特征。智能代理(Intelligent agent)常被形象地稱作能思維的軟件,是指模擬人類行為,能夠根據(jù)所感知的環(huán)境自義運(yùn)動(dòng)并提供相互的程序。在網(wǎng)絡(luò)范疇內(nèi)定義為在網(wǎng)絡(luò)環(huán)境下代理用戶或其他程序,以主動(dòng)服務(wù)方式持續(xù)完成一組操作的機(jī)動(dòng)軟件實(shí)體。它可定時(shí)和交互地執(zhí)行與目的有關(guān)的計(jì)劃,對(duì)網(wǎng)絡(luò)環(huán)境變化做出反應(yīng)。智能Agent特征主要有:高度智能化、自主學(xué)習(xí)性、協(xié)作性和代理性。
數(shù)字圖書館(Digital library)即對(duì)信息進(jìn)行搜集、轉(zhuǎn)換、描述,并以計(jì)算機(jī)可處理的數(shù)字化形式存儲(chǔ)館藏信息和網(wǎng)絡(luò)化、數(shù)字化信息,以智能化的信息檢索方式和統(tǒng)一的檢索界面,利用先進(jìn)的信息處理技術(shù)和互聯(lián)網(wǎng),提供各種語言兼容的多媒體遠(yuǎn)程數(shù)字信息的信息服務(wù)機(jī)構(gòu)。數(shù)字圖書館含三大要素:數(shù)字化支持技術(shù)、數(shù)字化資源和數(shù)字服務(wù)。
近些年已有多種數(shù)據(jù)挖掘系統(tǒng)應(yīng)用于數(shù)字圖書館建設(shè)中,盡管他們各有特色,但智能性均不夠理想,需進(jìn)一步完善。多智能代理的出現(xiàn)因具有高度智能性、協(xié)作性和代理性等特點(diǎn),能完成較復(fù)雜的應(yīng)用而越來越受到人們的青睞。本文提出一個(gè)基于智能Agent的數(shù)據(jù)挖掘系統(tǒng)在數(shù)字圖書館中的應(yīng)用模式。該模式主要指數(shù)字圖書館根據(jù)本信息服務(wù)站點(diǎn)用戶的歷史數(shù)據(jù)(此數(shù)據(jù)包含用戶興趣愛好、訪問習(xí)慣)及當(dāng)前請(qǐng)示,有針對(duì)性地預(yù)測用戶行為,即在用戶瀏覽Web當(dāng)前頁面時(shí),結(jié)合瀏覽軌跡,將預(yù)測內(nèi)容放至本地高速緩存cache中(用戶需要時(shí)可直接從高速度緩存中下載),利用智能Agent及數(shù)據(jù)挖掘的原理和技術(shù),挖掘出用戶感興趣的模式及潛在需求,從而減小用戶的訪問延遲,提高檢索效率,為用戶提供主動(dòng)的個(gè)性化信息服務(wù)。由于智能Agent本身的特點(diǎn)融合于數(shù)據(jù)挖掘過程中,使數(shù)據(jù)挖掘模式具有智能性、協(xié)作性、使數(shù)據(jù)挖掘模式具有智能性、協(xié)作性、交互性等特點(diǎn)?;谥悄蹵gent的數(shù)據(jù)挖掘系統(tǒng)在數(shù)字圖書館中的應(yīng)用模式及其功能模塊,如圖1所示。
圖1
1.數(shù)據(jù)源:主要來自數(shù)字圖書館高速緩存Cache中用戶的歷史數(shù)據(jù)。
2.數(shù)據(jù)預(yù)處理Agent:主要功能是分析數(shù)字圖書館中的用戶歷史數(shù)據(jù),在用戶瀏覽Web當(dāng)前頁面時(shí),將預(yù)測內(nèi)容放至本地高速緩存cache中,進(jìn)行預(yù)測分析,抽取出用戶感興趣的模式及潛在需求(從而減小用戶的訪問延遲,提高檢索效率),數(shù)據(jù)預(yù)處理可完成任務(wù)確定、模型設(shè)計(jì)、數(shù)據(jù)分析、數(shù)據(jù)抽取、數(shù)據(jù)處理和數(shù)據(jù)交換。數(shù)據(jù)抽取和數(shù)據(jù)處理一般包括消除無用數(shù)據(jù)及重復(fù)記錄等操作,推導(dǎo)缺值數(shù)據(jù),完在詞干抽取、詞條切分等處理和數(shù)據(jù)交換。數(shù)據(jù)交換過程一般包括特征選擇過程和與具體實(shí)現(xiàn)有關(guān)的數(shù)據(jù)格式變換過程。(1)數(shù)據(jù)挖掘Agent:主要功能是完成對(duì)數(shù)據(jù)預(yù)處理模式的識(shí)別,即發(fā)現(xiàn)新的模式或規(guī)則,并將結(jié)果傳遞給人機(jī)界面Agent。挖掘的主要任務(wù)是分類、聚類和關(guān)聯(lián)規(guī)則發(fā)現(xiàn)等。(2)人機(jī)界面Agent:提供分析人員與用戶交互的友好界面,當(dāng)數(shù)據(jù)挖掘Agent發(fā)現(xiàn)用戶適用資源時(shí),人機(jī)界面Agent會(huì)即時(shí)將結(jié)果以可視化或自然語言的方式表現(xiàn)出來,以便于用戶了解和觀察。(3)模式評(píng)估Agent:主要是實(shí)現(xiàn)對(duì)挖掘Agent得出的模式進(jìn)行評(píng)估和解釋。模式評(píng)估Agent實(shí)時(shí)監(jiān)測用戶的行為,對(duì)用戶的行為提供在線預(yù)測,利用用戶行為預(yù)測法進(jìn)行分析。挖掘Agent所得模式,并非為用戶最終所需資源,模式有可能是冗余的,也可能是錯(cuò)誤的,數(shù)據(jù)挖掘是一個(gè)反復(fù)的過程。用戶可對(duì)模式進(jìn)行評(píng)判,如果不滿意,便通過人機(jī)界面Agent反饋于挖掘Agent,進(jìn)而調(diào)整挖掘內(nèi)核操作,對(duì)模式進(jìn)行優(yōu)化,直至滿足用戶的需求目標(biāo)。(4)挖掘模型知識(shí)庫:它是數(shù)據(jù)挖掘的一個(gè)規(guī)則集合,能根據(jù)不同的挖掘要求選擇最有效的挖掘算法或幾處算法的序利組合。興趣關(guān)聯(lián)知識(shí)庫中的興趣關(guān)聯(lián)規(guī)則算法指出了從某一詞條(興趣)轉(zhuǎn)向其他詞條(興趣)的可能性,利用興趣關(guān)聯(lián)規(guī)則可對(duì)數(shù)字圖書館中的用戶行為預(yù)測,預(yù)測用戶感興趣的頁面,設(shè)計(jì)智能型的用戶服務(wù)界面,由被動(dòng)服務(wù)變主動(dòng)服務(wù)。挖掘模型知識(shí)庫可不斷融入新的規(guī)則,以增加系統(tǒng)的智能性。
基于智能Agent的數(shù)據(jù)挖掘在數(shù)字圖書館中的應(yīng)用,可實(shí)現(xiàn)信息的搜集、預(yù)處理、挖掘、查詢?cè)u(píng)估、自動(dòng)提取等功能,可提供用戶瀏覽模式和潛在興趣等模式,使數(shù)字圖書館成為一個(gè)智能型、主動(dòng)性的信息提供庫。
利用智能Agent與數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)字圖書館中的用戶歷史資料及訪問Web時(shí)的當(dāng)前請(qǐng)求進(jìn)行預(yù)測、分析,以獲取用戶興趣關(guān)聯(lián)規(guī)則,預(yù)測用戶行為,挖掘用戶潛在需求,有助于提高用戶提供主動(dòng)的個(gè)性化信息服務(wù),有助于提升數(shù)字圖書館建設(shè)中對(duì)用戶行為的預(yù)測、分析與研究工具有廣泛的應(yīng)用前景。
[1]柳勝國.我國互聯(lián)網(wǎng)信息挖掘研究現(xiàn)狀[J].圖書館學(xué)、信息科學(xué)、資料工作,2002,(7).
[2]韓立新,等.基于Agent的面向Internet的信息檢索系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[J].情報(bào)學(xué)刊,2002,(3).
[3]張曉林,等.基于Web的個(gè)性化服務(wù)機(jī)制[J].現(xiàn)代圖書情報(bào)技術(shù),2001,(1).
[4]李曼,等.基于Agent的個(gè)性化主動(dòng)信息服務(wù)研究綜述[J].圖書情報(bào)工作,2002,(8).
[5]劉燕平,等.基于Agent的網(wǎng)絡(luò)信息智能檢索研究[J].圖書情報(bào)知識(shí),2003,(3)
[6]敖廣武.數(shù)據(jù)挖掘理論和開發(fā)[J].信息技術(shù),2003,(6).
[7]吉根林,等.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用[J].南京師范大學(xué)學(xué)報(bào),2002,23(2).
[8]鄒濤,等.www上的信息挖掘技術(shù)及實(shí)現(xiàn)[J].計(jì)算機(jī)研究與發(fā)展,1999,(8).
[9]http://www.d-library.com.cn/index.isp
[10]http://www.csls.org.cn
[11]http://www.las.ac.cn/index.jsp
[12]http://www.c79.cnki.net.oldcnki/index4.htm
[13]http://www.Lib.ruc.edu.cn
G642.0
A
1674-9324(2014)17-0233-02