劉巧等
【摘 要】在分析Web挖掘技術(shù)的內(nèi)容與類型的基礎(chǔ)上,探討利用Web挖掘技術(shù)分析用戶的需求信息,發(fā)現(xiàn)用戶的興趣模式,并將其應(yīng)用于數(shù)字圖書館中,構(gòu)建個(gè)性化服務(wù)模型,不僅實(shí)現(xiàn)了圖書館資源的優(yōu)化,還能為用戶帶來全新的數(shù)字圖書館服務(wù)體驗(yàn)。
【關(guān)鍵詞】Web挖掘 數(shù)字圖書館 個(gè)性化服務(wù) 高職院校
【中圖分類號(hào)】 G 【文獻(xiàn)標(biāo)識(shí)碼】 A
【文章編號(hào)】0450-9889(2015)03C-0092-03
隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)、多媒體技術(shù)等高新技術(shù)的出現(xiàn)和快速發(fā)展,轉(zhuǎn)變了信息存取方式,圖書館向數(shù)字化演變已經(jīng)成為大勢(shì)所趨。高職院校圖書館作為學(xué)生了解國內(nèi)外科研信息、查閱資料等獲取知識(shí)的重要場(chǎng)所,建設(shè)數(shù)字化圖書館也是高職院校圖書館要進(jìn)行的一項(xiàng)重要革新工作。
數(shù)字圖書館是將現(xiàn)代網(wǎng)絡(luò)、通訊和計(jì)算機(jī)等技術(shù)應(yīng)用于信息的收集、整理、組織和傳遞的新的模式和理念,本質(zhì)是利用各種信息技術(shù)為用戶提供更加便利的服務(wù),提高信息的廣度和深度,提升圖書資源的使用效率,提高服務(wù)質(zhì)量。正是基于這樣的理念,數(shù)字圖書館的個(gè)性化服務(wù)才應(yīng)運(yùn)而生,數(shù)字圖書館的個(gè)性化服務(wù)是根據(jù)用戶的個(gè)性化的需求,搜集、分析、加工和重組信息,從而提供相應(yīng)的信息服務(wù),讓用戶獲得所需的信息內(nèi)容,關(guān)鍵在于對(duì)人的需求與信息處理能力的有機(jī)結(jié)合,通過挖掘用戶的需求、興趣和偏好,建立用戶需求模型,再利用信息技術(shù)整合加工信息,為用戶提供與之需求相匹配的信息資源,并且引導(dǎo)用戶檢索利用信息。本文將探討利用Web挖掘技術(shù)分析用戶的需求信息,發(fā)現(xiàn)用戶的興趣模式,并將其應(yīng)用于數(shù)字圖書館中,為高職院校學(xué)生用戶提供全新的服務(wù)體驗(yàn)。
一、Web挖掘技術(shù)
Web挖掘技術(shù)是數(shù)據(jù)挖掘技術(shù)在Web環(huán)境下的應(yīng)用,是從大量Web文檔集合中提取潛在有用的信息和知識(shí)的過程?;驹碓谟诟鶕?jù)用戶的需求提取數(shù)據(jù),通過預(yù)處理精簡數(shù)據(jù),去除不相關(guān)的冗余數(shù)據(jù),接著選擇合適的數(shù)據(jù)挖掘方法分析數(shù)據(jù),形成一種易于理解的數(shù)據(jù)模式呈現(xiàn)給用戶,主要有以下三種數(shù)據(jù)類型。
(一)Web內(nèi)容挖掘
Web內(nèi)容挖掘是對(duì)Web頁面的本信息、圖像、多媒體信息等文本內(nèi)容進(jìn)行特征提取,采用的技術(shù)方法主要是對(duì)頁面文本的分類和聚類,以從文檔內(nèi)容中抽取出知識(shí),算法的思想如下:
通過上述方法能夠?qū)eb頁面內(nèi)容表示成一個(gè)個(gè)矢量,然后通過計(jì)算矢量之間的距離進(jìn)行文本的分類和聚類。
(二)Web結(jié)構(gòu)挖掘
Web結(jié)構(gòu)挖掘是從利用WWW之間的組織結(jié)構(gòu)和聯(lián)接關(guān)系,對(duì)Web頁面進(jìn)行分類,從中推導(dǎo)知識(shí)。超文本鏈接豐富了Web頁面上的信息,使得Web頁面能夠提供除文本內(nèi)容以外的有用信息,通過利用這些信息,運(yùn)用挖掘方法從而對(duì)頁面進(jìn)行排序,發(fā)現(xiàn)重要的頁面。
一個(gè)重要的頁面通常被認(rèn)為被引的次數(shù)較高或者被重要的頁面引用。設(shè)是一個(gè)Web頁面,被引用的頁面集合為,引用的頁面集合為,則 表示頁面的重要性,表達(dá)式為,其中為引用的頁面,表示引用的頁面的總數(shù)。因此,針對(duì)一個(gè)查詢條件,首先將利用相似度函數(shù)查找個(gè)頁面;其次,計(jì)算個(gè)頁面的重要程度進(jìn)行排名,計(jì)算公式為:,其中,,,表示相似函數(shù)。
(三)Web日志挖掘
Web日志挖掘是通過挖掘Web訪問記錄,如IP地址、訪問時(shí)間、訪問日期、請(qǐng)求的URL以及用戶瀏覽器等,了解用戶的行為模式,發(fā)現(xiàn)用戶感興趣的模式。在數(shù)字圖書館中,主要采用的技術(shù)有路徑分析和關(guān)聯(lián)規(guī)則分析,路徑分析是通過分析用戶最經(jīng)常訪問的路徑,從而調(diào)整站點(diǎn)之間的結(jié)構(gòu);關(guān)聯(lián)規(guī)則是分析用戶訪問的Web頁面之間的關(guān)聯(lián)關(guān)系,找到隱含的信息。
二、基于Web挖掘技術(shù)的數(shù)字圖書館個(gè)性化服務(wù)模型
(一)Web挖掘技術(shù)在高職院校數(shù)字圖書館個(gè)性化服務(wù)中的應(yīng)用
數(shù)字圖書館個(gè)性化服務(wù)是根據(jù)不同用戶所提出的需求,利用網(wǎng)絡(luò)技術(shù)、人工智能技術(shù)等,自動(dòng)檢索、收集網(wǎng)絡(luò)信息和圖書館數(shù)字信息,并結(jié)合用戶的行為、習(xí)慣以及瀏覽歷史等信息,對(duì)信息進(jìn)行整合,然后將這些信息推送給用戶的一種綜合性服務(wù)。Web挖掘技術(shù)作為一項(xiàng)綜合技術(shù),能夠獲取、分析用戶行為,能為數(shù)字圖書館提供重要的信息基礎(chǔ)。
1.發(fā)現(xiàn)學(xué)生用戶興趣,建立個(gè)性化的訪問空間
一般而言,學(xué)生用戶在瀏覽數(shù)字圖書館的過程中,會(huì)對(duì)感興趣的Web頁面瀏覽時(shí)間較長,瀏覽的次數(shù)較多,而對(duì)不感興趣的Web頁面瀏覽時(shí)間較短,次數(shù)也較少,基于此,我們可以通過用戶瀏覽歷史的時(shí)間和次數(shù),發(fā)現(xiàn)學(xué)生用戶的興趣,為其建立個(gè)性化的訪問空間,有利于用戶瀏覽閱讀。
2.實(shí)現(xiàn)數(shù)字圖書館網(wǎng)站鏈接結(jié)構(gòu)的優(yōu)化
通過關(guān)聯(lián)規(guī)則分析用戶的Web訪問記錄,發(fā)現(xiàn)不同頁面之間的相關(guān)性,對(duì)于增強(qiáng)相關(guān)系較高的頁面之間的聯(lián)系,方便用戶使用。例如學(xué)生用戶在查找文獻(xiàn)的過程中,除了會(huì)關(guān)注該文獻(xiàn)的參考文獻(xiàn)以外,也會(huì)去關(guān)注內(nèi)容上較為接近的文獻(xiàn),以及同行關(guān)注的文獻(xiàn),甚至是同一個(gè)導(dǎo)師指導(dǎo)下的文獻(xiàn),因此,可以將學(xué)生用戶可能關(guān)注的頁面信息建立導(dǎo)航鏈接,實(shí)現(xiàn)Web站點(diǎn)的優(yōu)化。
3.挖掘用戶特征,發(fā)現(xiàn)用戶重點(diǎn)關(guān)注領(lǐng)域,提高信息檢索的個(gè)性化
高職院校師生在使用數(shù)字圖書館的過程中,一般是由于某種學(xué)術(shù)目的或是偏好而進(jìn)行信息檢索,因此,通過對(duì)用戶檢索信息的挖掘,能夠發(fā)現(xiàn)用戶所關(guān)注的領(lǐng)域,如物流供應(yīng)鏈、教育心理學(xué)、圖書情報(bào)學(xué)等,從而進(jìn)一步為用戶提供服務(wù)。當(dāng)用戶輸入相關(guān)的檢索關(guān)鍵字之后,將用戶重點(diǎn)關(guān)注領(lǐng)域的內(nèi)容優(yōu)先排在前面,便于顧客快速找到所需的信息,提高信息檢索的個(gè)性化。
4.根據(jù)用戶特征,對(duì)用戶進(jìn)行分類,實(shí)現(xiàn)精準(zhǔn)化服務(wù)
不同年齡、學(xué)歷、學(xué)科的用戶在使用數(shù)字圖書館過程中會(huì)呈現(xiàn)不同的行為模式和興趣模式,通過Web挖掘技術(shù)能找出各類的特征屬性,將用戶進(jìn)行群體細(xì)分,從而實(shí)現(xiàn)精準(zhǔn)化服務(wù)。例如,圖書館可以根據(jù)不同類別用戶的興趣點(diǎn),推送講座信息、講壇信息、課程信息等,還可以將圖書館新到資料、最新一期的期刊目錄通知用戶,提高數(shù)字圖書館的服務(wù)質(zhì)量。
5.挖掘用戶借閱信息,提高圖書資源的利用率
對(duì)用戶所借閱的文獻(xiàn)、圖書信息進(jìn)行挖掘,可以發(fā)現(xiàn)受歡迎的書籍,并以此向用戶推送最近時(shí)期的熱門書籍和文獻(xiàn),也可根據(jù)圖書的借閱情況,實(shí)行館際調(diào)度,或者是重新購買熱門書籍,便于用戶借閱,優(yōu)化圖書館資源,提高利用率。另一方面,對(duì)于將舊的、使用少的書籍歸類,放置統(tǒng)一書庫,減少冗余空間,節(jié)省開銷。
(二)數(shù)字圖書館個(gè)性化服務(wù)模型
將Web挖掘技術(shù)應(yīng)用于數(shù)字圖書館,通過內(nèi)容挖掘、結(jié)構(gòu)挖掘、日志挖掘,使用聚類分析、關(guān)聯(lián)分析、路徑分析等方法,實(shí)現(xiàn)用戶的個(gè)性化服務(wù)?;赪eb挖掘技術(shù)的個(gè)性化服務(wù)模型如圖1所示,主要包括以下幾個(gè)部分:
1.用戶接口
用戶接口用于連接用戶與圖書館系統(tǒng),用戶通過該接口瀏覽圖書館網(wǎng)站,瀏覽所需的圖書、期刊信息,同時(shí)用于接收系統(tǒng)的反饋信息,這個(gè)過程可以學(xué)習(xí)和記錄用戶的興趣。
2.Web挖掘
根據(jù)挖掘要求,選擇合適的挖掘方法執(zhí)行挖掘任務(wù),識(shí)別用戶行為,實(shí)現(xiàn)具有針對(duì)性、主動(dòng)的、符合其需求的特色服務(wù)。同時(shí),挖掘方法具有可擴(kuò)充性和易選擇性,能夠引入新的挖掘方法,提高挖掘的效率。
3.信息推送與反饋
通過Web挖掘,建立用戶的個(gè)性化信息服務(wù)模型,并利用電子郵箱、手機(jī)短信等方式將信息推送給用戶的個(gè)性化終端。用戶也可以對(duì)推送的信息作出反饋,對(duì)信息推送方式、推送內(nèi)容、推送安排等方面給予評(píng)價(jià),以便調(diào)整和完善用戶的數(shù)字圖書館個(gè)性化服務(wù)。
三、實(shí)現(xiàn)案例
目前,我國高校在進(jìn)行圖書館數(shù)字化建設(shè)時(shí),已將個(gè)性化服務(wù)的發(fā)展納入進(jìn)去。
華中科技大學(xué)圖書館推出了Mylibrary系統(tǒng),基于Web挖掘技術(shù)為廣大師生提供服務(wù),師生可以在該系統(tǒng)內(nèi)根據(jù)自己的需要和愛好,選擇與自己相關(guān)的模塊,并對(duì)一個(gè)模塊功能進(jìn)行加工處理。
廈門大學(xué)圖書館推出了“圖·時(shí)光”服務(wù),用來記錄師生在圖書館的足跡,以故事的形式展現(xiàn)師生的入館次數(shù)、借閱的數(shù)目等內(nèi)容,受到了廣大師生的熱捧。
國家科學(xué)技術(shù)文獻(xiàn)中心也運(yùn)用了Web挖掘技術(shù),整合多家行業(yè)單位的數(shù)字資源,建立了動(dòng)態(tài)用戶興趣特征模型,為國內(nèi)各大研究中心提供資源服務(wù),取得了不錯(cuò)的效果。
國家專業(yè)圖書館也是基于Web技術(shù),在網(wǎng)絡(luò)平臺(tái)上實(shí)現(xiàn)圖書采購、編目、查詢等自動(dòng)化業(yè)務(wù),用戶可以隨時(shí)隨地查詢各類圖書、期刊信息。
總之,將Web挖掘技術(shù)運(yùn)用于數(shù)字圖書館,通過內(nèi)容挖掘、結(jié)構(gòu)挖掘、日志挖掘,使用聚類分析、關(guān)聯(lián)分析、路徑分析等方法,構(gòu)建個(gè)性化服務(wù)模型,利用該模型可以建立個(gè)性化的用戶訪問空間、實(shí)現(xiàn)數(shù)字圖書網(wǎng)站鏈接結(jié)構(gòu)的優(yōu)化、發(fā)現(xiàn)用戶的重點(diǎn)關(guān)注領(lǐng)域、將用戶群體細(xì)分實(shí)現(xiàn)精準(zhǔn)化服務(wù)、提高高職院校圖書資源的利用率等,從而為學(xué)生用戶帶來全新的數(shù)字圖書館服務(wù)體驗(yàn)。
【參考文獻(xiàn)】
[1]趙金龍,胡小麗,王碩.利用 Web3D 技術(shù)建設(shè)數(shù)字圖書館平臺(tái)的研究[J]. 數(shù)字圖書館,2011(1)
[2]王玉珍. 基于Web挖掘的數(shù)字圖書館個(gè)性化服務(wù)體系研究[J]. 情報(bào)科學(xué),2014(4)
[3]王發(fā)社.高校數(shù)字圖書館個(gè)性化服務(wù)的 SWOT 分析及發(fā)展策略[J].圖書館理論與實(shí)踐,2011(12)
[4]吳志強(qiáng),王義翠,馬慧娟.協(xié)同信息推薦: 一種數(shù)字圖書館個(gè)性化信息服務(wù)新模式[J].圖書館,2011(1)
【基金項(xiàng)目】廣西高等學(xué)??蒲许?xiàng)目(KY2015LX672)
【作者簡介】劉 巧(1975- ),廣西柳州人,柳州城市職業(yè)學(xué)院講師,碩士,研究方向:信息技術(shù)管理;李燮慧(1974- ),廣西柳州人,柳州職業(yè)技術(shù)學(xué)院圖書館館員,研究方向:圖書館管理。
(責(zé)編 丁 夢(mèng))