Web挖掘在高職數(shù)字圖書館個(gè)性化服務(wù)系統(tǒng)中的應(yīng)用

2015-05-12 02:07:24劉巧等

廣西教育·C版 2015年3期

劉巧等

【摘要】在分析Web挖掘技術(shù)的內(nèi)容與類型的基礎(chǔ)上，探討利用Web挖掘技術(shù)分析用戶的需求信息，發(fā)現(xiàn)用戶的興趣模式，并將其應(yīng)用于數(shù)字圖書館中，構(gòu)建個(gè)性化服務(wù)模型，不僅實(shí)現(xiàn)了圖書館資源的優(yōu)化，還能為用戶帶來全新的數(shù)字圖書館服務(wù)體驗(yàn)。

【關(guān)鍵詞】Web挖掘數(shù)字圖書館個(gè)性化服務(wù) 高職院校

【中圖分類號(hào)】 G 【文獻(xiàn)標(biāo)識(shí)碼】 A

【文章編號(hào)】0450-9889（2015）03C-0092-03

隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)、多媒體技術(shù)等高新技術(shù)的出現(xiàn)和快速發(fā)展，轉(zhuǎn)變了信息存取方式，圖書館向數(shù)字化演變已經(jīng)成為大勢(shì)所趨。高職院校圖書館作為學(xué)生了解國內(nèi)外科研信息、查閱資料等獲取知識(shí)的重要場(chǎng)所，建設(shè)數(shù)字化圖書館也是高職院校圖書館要進(jìn)行的一項(xiàng)重要革新工作。

數(shù)字圖書館是將現(xiàn)代網(wǎng)絡(luò)、通訊和計(jì)算機(jī)等技術(shù)應(yīng)用于信息的收集、整理、組織和傳遞的新的模式和理念，本質(zhì)是利用各種信息技術(shù)為用戶提供更加便利的服務(wù)，提高信息的廣度和深度，提升圖書資源的使用效率，提高服務(wù)質(zhì)量。正是基于這樣的理念，數(shù)字圖書館的個(gè)性化服務(wù)才應(yīng)運(yùn)而生，數(shù)字圖書館的個(gè)性化服務(wù)是根據(jù)用戶的個(gè)性化的需求，搜集、分析、加工和重組信息，從而提供相應(yīng)的信息服務(wù)，讓用戶獲得所需的信息內(nèi)容，關(guān)鍵在于對(duì)人的需求與信息處理能力的有機(jī)結(jié)合，通過挖掘用戶的需求、興趣和偏好，建立用戶需求模型，再利用信息技術(shù)整合加工信息，為用戶提供與之需求相匹配的信息資源，并且引導(dǎo)用戶檢索利用信息。本文將探討利用Web挖掘技術(shù)分析用戶的需求信息，發(fā)現(xiàn)用戶的興趣模式，并將其應(yīng)用于數(shù)字圖書館中，為高職院校學(xué)生用戶提供全新的服務(wù)體驗(yàn)。

一、Web挖掘技術(shù)

Web挖掘技術(shù)是數(shù)據(jù)挖掘技術(shù)在Web環(huán)境下的應(yīng)用，是從大量Web文檔集合中提取潛在有用的信息和知識(shí)的過程?；驹碓谟诟鶕?jù)用戶的需求提取數(shù)據(jù)，通過預(yù)處理精簡數(shù)據(jù)，去除不相關(guān)的冗余數(shù)據(jù)，接著選擇合適的數(shù)據(jù)挖掘方法分析數(shù)據(jù)，形成一種易于理解的數(shù)據(jù)模式呈現(xiàn)給用戶，主要有以下三種數(shù)據(jù)類型。

（一）Web內(nèi)容挖掘

Web內(nèi)容挖掘是對(duì)Web頁面的本信息、圖像、多媒體信息等文本內(nèi)容進(jìn)行特征提取，采用的技術(shù)方法主要是對(duì)頁面文本的分類和聚類，以從文檔內(nèi)容中抽取出知識(shí)，算法的思想如下：

通過上述方法能夠?qū)eb頁面內(nèi)容表示成一個(gè)個(gè)矢量，然后通過計(jì)算矢量之間的距離進(jìn)行文本的分類和聚類。

（二）Web結(jié)構(gòu)挖掘

Web結(jié)構(gòu)挖掘是從利用WWW之間的組織結(jié)構(gòu)和聯(lián)接關(guān)系，對(duì)Web頁面進(jìn)行分類，從中推導(dǎo)知識(shí)。超文本鏈接豐富了Web頁面上的信息，使得Web頁面能夠提供除文本內(nèi)容以外的有用信息，通過利用這些信息，運(yùn)用挖掘方法從而對(duì)頁面進(jìn)行排序，發(fā)現(xiàn)重要的頁面。

一個(gè)重要的頁面通常被認(rèn)為被引的次數(shù)較高或者被重要的頁面引用。設(shè)是一個(gè)Web頁面，被引用的頁面集合為，引用的頁面集合為，則表示頁面的重要性，表達(dá)式為，其中為引用的頁面，表示引用的頁面的總數(shù)。因此，針對(duì)一個(gè)查詢條件，首先將利用相似度函數(shù)查找個(gè)頁面；其次，計(jì)算個(gè)頁面的重要程度進(jìn)行排名，計(jì)算公式為：，其中，，，表示相似函數(shù)。

（三）Web日志挖掘

Web日志挖掘是通過挖掘Web訪問記錄，如IP地址、訪問時(shí)間、訪問日期、請(qǐng)求的URL以及用戶瀏覽器等，了解用戶的行為模式，發(fā)現(xiàn)用戶感興趣的模式。在數(shù)字圖書館中，主要采用的技術(shù)有路徑分析和關(guān)聯(lián)規(guī)則分析，路徑分析是通過分析用戶最經(jīng)常訪問的路徑，從而調(diào)整站點(diǎn)之間的結(jié)構(gòu)；關(guān)聯(lián)規(guī)則是分析用戶訪問的Web頁面之間的關(guān)聯(lián)關(guān)系，找到隱含的信息。

二、基于Web挖掘技術(shù)的數(shù)字圖書館個(gè)性化服務(wù)模型

（一）Web挖掘技術(shù)在高職院校數(shù)字圖書館個(gè)性化服務(wù)中的應(yīng)用

數(shù)字圖書館個(gè)性化服務(wù)是根據(jù)不同用戶所提出的需求，利用網(wǎng)絡(luò)技術(shù)、人工智能技術(shù)等，自動(dòng)檢索、收集網(wǎng)絡(luò)信息和圖書館數(shù)字信息，并結(jié)合用戶的行為、習(xí)慣以及瀏覽歷史等信息，對(duì)信息進(jìn)行整合，然后將這些信息推送給用戶的一種綜合性服務(wù)。Web挖掘技術(shù)作為一項(xiàng)綜合技術(shù)，能夠獲取、分析用戶行為，能為數(shù)字圖書館提供重要的信息基礎(chǔ)。

1.發(fā)現(xiàn)學(xué)生用戶興趣，建立個(gè)性化的訪問空間

一般而言，學(xué)生用戶在瀏覽數(shù)字圖書館的過程中，會(huì)對(duì)感興趣的Web頁面瀏覽時(shí)間較長，瀏覽的次數(shù)較多，而對(duì)不感興趣的Web頁面瀏覽時(shí)間較短，次數(shù)也較少，基于此，我們可以通過用戶瀏覽歷史的時(shí)間和次數(shù)，發(fā)現(xiàn)學(xué)生用戶的興趣，為其建立個(gè)性化的訪問空間，有利于用戶瀏覽閱讀。

2.實(shí)現(xiàn)數(shù)字圖書館網(wǎng)站鏈接結(jié)構(gòu)的優(yōu)化

通過關(guān)聯(lián)規(guī)則分析用戶的Web訪問記錄，發(fā)現(xiàn)不同頁面之間的相關(guān)性，對(duì)于增強(qiáng)相關(guān)系較高的頁面之間的聯(lián)系，方便用戶使用。例如學(xué)生用戶在查找文獻(xiàn)的過程中，除了會(huì)關(guān)注該文獻(xiàn)的參考文獻(xiàn)以外，也會(huì)去關(guān)注內(nèi)容上較為接近的文獻(xiàn)，以及同行關(guān)注的文獻(xiàn)，甚至是同一個(gè)導(dǎo)師指導(dǎo)下的文獻(xiàn)，因此，可以將學(xué)生用戶可能關(guān)注的頁面信息建立導(dǎo)航鏈接，實(shí)現(xiàn)Web站點(diǎn)的優(yōu)化。

3.挖掘用戶特征，發(fā)現(xiàn)用戶重點(diǎn)關(guān)注領(lǐng)域，提高信息檢索的個(gè)性化

高職院校師生在使用數(shù)字圖書館的過程中，一般是由于某種學(xué)術(shù)目的或是偏好而進(jìn)行信息檢索，因此，通過對(duì)用戶檢索信息的挖掘，能夠發(fā)現(xiàn)用戶所關(guān)注的領(lǐng)域，如物流供應(yīng)鏈、教育心理學(xué)、圖書情報(bào)學(xué)等，從而進(jìn)一步為用戶提供服務(wù)。當(dāng)用戶輸入相關(guān)的檢索關(guān)鍵字之后，將用戶重點(diǎn)關(guān)注領(lǐng)域的內(nèi)容優(yōu)先排在前面，便于顧客快速找到所需的信息，提高信息檢索的個(gè)性化。

4.根據(jù)用戶特征，對(duì)用戶進(jìn)行分類，實(shí)現(xiàn)精準(zhǔn)化服務(wù)

不同年齡、學(xué)歷、學(xué)科的用戶在使用數(shù)字圖書館過程中會(huì)呈現(xiàn)不同的行為模式和興趣模式，通過Web挖掘技術(shù)能找出各類的特征屬性，將用戶進(jìn)行群體細(xì)分，從而實(shí)現(xiàn)精準(zhǔn)化服務(wù)。例如，圖書館可以根據(jù)不同類別用戶的興趣點(diǎn)，推送講座信息、講壇信息、課程信息等，還可以將圖書館新到資料、最新一期的期刊目錄通知用戶，提高數(shù)字圖書館的服務(wù)質(zhì)量。

5.挖掘用戶借閱信息，提高圖書資源的利用率

對(duì)用戶所借閱的文獻(xiàn)、圖書信息進(jìn)行挖掘，可以發(fā)現(xiàn)受歡迎的書籍，并以此向用戶推送最近時(shí)期的熱門書籍和文獻(xiàn)，也可根據(jù)圖書的借閱情況，實(shí)行館際調(diào)度，或者是重新購買熱門書籍，便于用戶借閱，優(yōu)化圖書館資源，提高利用率。另一方面，對(duì)于將舊的、使用少的書籍歸類，放置統(tǒng)一書庫，減少冗余空間，節(jié)省開銷。

（二）數(shù)字圖書館個(gè)性化服務(wù)模型

將Web挖掘技術(shù)應(yīng)用于數(shù)字圖書館，通過內(nèi)容挖掘、結(jié)構(gòu)挖掘、日志挖掘，使用聚類分析、關(guān)聯(lián)分析、路徑分析等方法，實(shí)現(xiàn)用戶的個(gè)性化服務(wù)?；赪eb挖掘技術(shù)的個(gè)性化服務(wù)模型如圖1所示，主要包括以下幾個(gè)部分：

1.用戶接口

用戶接口用于連接用戶與圖書館系統(tǒng)，用戶通過該接口瀏覽圖書館網(wǎng)站，瀏覽所需的圖書、期刊信息，同時(shí)用于接收系統(tǒng)的反饋信息，這個(gè)過程可以學(xué)習(xí)和記錄用戶的興趣。

2.Web挖掘

根據(jù)挖掘要求，選擇合適的挖掘方法執(zhí)行挖掘任務(wù)，識(shí)別用戶行為，實(shí)現(xiàn)具有針對(duì)性、主動(dòng)的、符合其需求的特色服務(wù)。同時(shí)，挖掘方法具有可擴(kuò)充性和易選擇性，能夠引入新的挖掘方法，提高挖掘的效率。

3.信息推送與反饋

通過Web挖掘，建立用戶的個(gè)性化信息服務(wù)模型，并利用電子郵箱、手機(jī)短信等方式將信息推送給用戶的個(gè)性化終端。用戶也可以對(duì)推送的信息作出反饋，對(duì)信息推送方式、推送內(nèi)容、推送安排等方面給予評(píng)價(jià)，以便調(diào)整和完善用戶的數(shù)字圖書館個(gè)性化服務(wù)。

三、實(shí)現(xiàn)案例

目前，我國高校在進(jìn)行圖書館數(shù)字化建設(shè)時(shí)，已將個(gè)性化服務(wù)的發(fā)展納入進(jìn)去。

華中科技大學(xué)圖書館推出了Mylibrary系統(tǒng)，基于Web挖掘技術(shù)為廣大師生提供服務(wù)，師生可以在該系統(tǒng)內(nèi)根據(jù)自己的需要和愛好，選擇與自己相關(guān)的模塊，并對(duì)一個(gè)模塊功能進(jìn)行加工處理。

廈門大學(xué)圖書館推出了“圖·時(shí)光”服務(wù)，用來記錄師生在圖書館的足跡，以故事的形式展現(xiàn)師生的入館次數(shù)、借閱的數(shù)目等內(nèi)容，受到了廣大師生的熱捧。

國家科學(xué)技術(shù)文獻(xiàn)中心也運(yùn)用了Web挖掘技術(shù)，整合多家行業(yè)單位的數(shù)字資源，建立了動(dòng)態(tài)用戶興趣特征模型，為國內(nèi)各大研究中心提供資源服務(wù)，取得了不錯(cuò)的效果。

國家專業(yè)圖書館也是基于Web技術(shù)，在網(wǎng)絡(luò)平臺(tái)上實(shí)現(xiàn)圖書采購、編目、查詢等自動(dòng)化業(yè)務(wù)，用戶可以隨時(shí)隨地查詢各類圖書、期刊信息。

總之，將Web挖掘技術(shù)運(yùn)用于數(shù)字圖書館，通過內(nèi)容挖掘、結(jié)構(gòu)挖掘、日志挖掘，使用聚類分析、關(guān)聯(lián)分析、路徑分析等方法，構(gòu)建個(gè)性化服務(wù)模型，利用該模型可以建立個(gè)性化的用戶訪問空間、實(shí)現(xiàn)數(shù)字圖書網(wǎng)站鏈接結(jié)構(gòu)的優(yōu)化、發(fā)現(xiàn)用戶的重點(diǎn)關(guān)注領(lǐng)域、將用戶群體細(xì)分實(shí)現(xiàn)精準(zhǔn)化服務(wù)、提高高職院校圖書資源的利用率等，從而為學(xué)生用戶帶來全新的數(shù)字圖書館服務(wù)體驗(yàn)。

【參考文獻(xiàn)】

[1]趙金龍，胡小麗，王碩.利用 Web3D 技術(shù)建設(shè)數(shù)字圖書館平臺(tái)的研究[J]. 數(shù)字圖書館，2011（1）

[2]王玉珍. 基于Web挖掘的數(shù)字圖書館個(gè)性化服務(wù)體系研究[J]. 情報(bào)科學(xué)，2014（4）

[3]王發(fā)社.高校數(shù)字圖書館個(gè)性化服務(wù)的 SWOT 分析及發(fā)展策略[J].圖書館理論與實(shí)踐，2011（12）

[4]吳志強(qiáng)，王義翠，馬慧娟.協(xié)同信息推薦：一種數(shù)字圖書館個(gè)性化信息服務(wù)新模式[J].圖書館，2011（1）

【基金項(xiàng)目】廣西高等學(xué)?？蒲许?xiàng)目（KY2015LX672）

【作者簡介】劉巧（1975- ），廣西柳州人，柳州城市職業(yè)學(xué)院講師，碩士，研究方向：信息技術(shù)管理；李燮慧（1974- ），廣西柳州人，柳州職業(yè)技術(shù)學(xué)院圖書館館員，研究方向：圖書館管理。

（責(zé)編丁夢(mèng)）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

Web挖掘在高職數(shù)字圖書館個(gè)性化服務(wù)系統(tǒng)中的應(yīng)用