Web數(shù)據(jù)挖掘與高校數(shù)字圖書(shū)館個(gè)性化服務(wù)

2017-12-27 22:31:05孟玫

電子技術(shù)與軟件工程 2017年17期

文/孟玫

文/孟玫

伴隨時(shí)代的進(jìn)步與發(fā)展，各種新技術(shù)也層出不窮，Web數(shù)據(jù)挖掘技術(shù)是當(dāng)今時(shí)代應(yīng)用比較廣泛的一種新技術(shù)，該技術(shù)是數(shù)據(jù)挖掘和Web領(lǐng)域相結(jié)合的產(chǎn)物，其在高校數(shù)字化圖書(shū)館的建設(shè)過(guò)程中發(fā)揮了重大作用，本文就針對(duì)Web數(shù)據(jù)挖掘與高校數(shù)字圖書(shū)館個(gè)性化服務(wù)進(jìn)行了分析和研究。

Web數(shù)據(jù)挖掘高校數(shù)字圖書(shū)館個(gè)性化服務(wù)

近幾年，高校數(shù)字圖書(shū)館的發(fā)展速度非?？?，其數(shù)據(jù)類(lèi)型和總量也顯著提升，數(shù)字資源覆蓋多個(gè)領(lǐng)域，如電子圖書(shū)、電子期刊、多媒體數(shù)據(jù)、海量的Web數(shù)據(jù)庫(kù)等，這些數(shù)字化資源的出現(xiàn)為用戶(hù)查閱資料提供了方便，但由于數(shù)據(jù)信息量大，用戶(hù)在查找資料的過(guò)程中很難找準(zhǔn)目標(biāo)定位，因而會(huì)花費(fèi)較多時(shí)間，而Web數(shù)據(jù)挖掘技術(shù)在高校數(shù)字圖書(shū)館中的應(yīng)用則可以在很大程度上解決該問(wèn)題。

1 Web數(shù)據(jù)挖掘與數(shù)字圖書(shū)館的概述

1.1 Web數(shù)據(jù)挖掘的概述

所謂Web數(shù)據(jù)挖掘，指的就是將有價(jià)值的、感興趣的信息從大量的Web文檔中提取出來(lái)，通常來(lái)說(shuō)，可將Web數(shù)據(jù)挖掘劃分為三種類(lèi)型，即Web結(jié)構(gòu)挖掘、Web內(nèi)容挖掘和Web使用記錄挖掘。其中，Web結(jié)構(gòu)挖掘指的是從WWW的鏈接關(guān)系或者組織體系中推導(dǎo)出相關(guān)知識(shí)，通過(guò)文檔之間的相互關(guān)系，WWW可以為用戶(hù)提供文檔內(nèi)容之外的有價(jià)值數(shù)據(jù)信息，通過(guò)這些有價(jià)值信息，能夠?qū)?yè)面加以排序，進(jìn)而更好地發(fā)現(xiàn)其中的關(guān)鍵頁(yè)面信息，整個(gè)Web結(jié)構(gòu)挖掘過(guò)程需要用到HITS算法以及PageRank算法。Web內(nèi)容挖掘指的是將相關(guān)知識(shí)從文檔內(nèi)容或描述中抽取出來(lái)，這項(xiàng)工作可被當(dāng)作是基本搜索引擎所負(fù)責(zé)的工作的延伸，主要包括立足于數(shù)據(jù)庫(kù)的挖掘以及立足于代理的挖掘兩大部分。從性質(zhì)上看，Web內(nèi)容挖掘?qū)儆谖谋就诰虻囊环N形式，其作用的對(duì)象大部分是Web文檔的文本區(qū)域，文本挖掘涵蓋針對(duì)搜索工具的查詢(xún)結(jié)果所開(kāi)展的分析、整理、歸類(lèi)等工作。Web使用記錄的挖掘主要針對(duì)的是Web日志以及Web使用數(shù)據(jù)，它能根據(jù)Web的訪問(wèn)記錄直接定位到感興趣的模式，Web日志的涵蓋面非常廣，主要包括服務(wù)器上與Web訪問(wèn)有關(guān)的各類(lèi)日志文件，如代理日志、引用日志、訪問(wèn)日志等，其中涉及到用戶(hù)的諸多訪問(wèn)信息，包括訪問(wèn)時(shí)間、訪問(wèn)途徑、用戶(hù)的IP地址、訪問(wèn)結(jié)果等。

1.2 高校數(shù)字圖書(shū)館概述

隨著信息化、網(wǎng)絡(luò)化、數(shù)字化時(shí)代的到來(lái)，人們?cè)诠ぷ骱蛯W(xué)習(xí)過(guò)程中對(duì)數(shù)據(jù)信息的需求量也逐漸上升，信息資源的類(lèi)型及其表現(xiàn)形式越來(lái)越豐富，比較常見(jiàn)的主要包括電子圖書(shū)、期刊等，在這樣的時(shí)代背景下，數(shù)字圖書(shū)館也逐漸出現(xiàn)，它是以傳統(tǒng)圖書(shū)館為基礎(chǔ)的一種新型信息系統(tǒng)，它的主要功能是可以對(duì)文本、圖像、數(shù)據(jù)、聲音等多樣化的信息進(jìn)行采集、分析和整理，徹底顛覆了以往圖書(shū)館中采用其他非數(shù)字化介質(zhì)來(lái)進(jìn)行存儲(chǔ)的落后方法。數(shù)字圖書(shū)館主要采用現(xiàn)代化的先進(jìn)技術(shù)，把圖書(shū)館中的重要文獻(xiàn)進(jìn)行數(shù)字化存儲(chǔ)，用戶(hù)可以利用互聯(lián)網(wǎng)在任意時(shí)間和空間查看信息，這就使圖書(shū)館的服務(wù)范圍突破了時(shí)空限制，能為用戶(hù)帶來(lái)更多的方便，與傳統(tǒng)的圖書(shū)館相比，數(shù)字圖書(shū)館具有多方面的優(yōu)勢(shì)，具體表現(xiàn)在以下幾點(diǎn)：

（1）相同的數(shù)據(jù)信息可在同一時(shí)間被多個(gè)用戶(hù)查看，這就有效避免了傳統(tǒng)圖書(shū)館中紙質(zhì)書(shū)本只能在同一時(shí)間為一個(gè)人提供服務(wù)的缺陷。

（2）數(shù)字圖書(shū)館的信息查詢(xún)更加方便，它能為用戶(hù)提供遠(yuǎn)程信息檢索功能。

（3）數(shù)字圖書(shū)館的數(shù)據(jù)信息存儲(chǔ)空間比較小，其存儲(chǔ)的數(shù)據(jù)信息能得到有效保護(hù)，不易被破壞。

2 Web數(shù)據(jù)挖掘在高校數(shù)字圖書(shū)館個(gè)性化服務(wù)中的應(yīng)用

2.1 發(fā)現(xiàn)用戶(hù)偏好，為其提供個(gè)性化的訪問(wèn)區(qū)域

Web站點(diǎn)在設(shè)計(jì)的時(shí)候大多是采用的同一種分類(lèi)形式，也就是同一個(gè)頁(yè)面內(nèi)的分頁(yè)面往往是按照其類(lèi)別來(lái)組織的，用戶(hù)在對(duì)Web站點(diǎn)進(jìn)行訪問(wèn)的時(shí)候，可在很大程度上反映出其偏好，一般來(lái)說(shuō)，用戶(hù)在訪問(wèn)某頁(yè)面時(shí)停留的時(shí)間越長(zhǎng)或查看的字?jǐn)?shù)越多，就表明該用戶(hù)對(duì)這一頁(yè)面的內(nèi)容越感興趣，對(duì)于不感興趣的頁(yè)面，用戶(hù)停留的時(shí)間通常都比較短。對(duì)用戶(hù)感興趣程度進(jìn)行計(jì)算一般采用的是收集用戶(hù)瀏覽頁(yè)面的時(shí)間信息及其途徑等方式，這些信息能充分反映出該頁(yè)面對(duì)用戶(hù)的吸引力，進(jìn)而便于系統(tǒng)按照用戶(hù)的偏好，為之提供個(gè)性化的訪問(wèn)區(qū)域。

2.2 識(shí)別高頻率訪問(wèn)路徑，提升圖書(shū)館資源的利用率

利用Web數(shù)據(jù)挖掘技術(shù)，能對(duì)數(shù)字圖書(shū)館中的高頻率訪問(wèn)路徑以及相關(guān)頁(yè)面的重要頁(yè)面進(jìn)行精確識(shí)別，從而將一些關(guān)鍵的新書(shū)信息和分類(lèi)信息放在經(jīng)常訪問(wèn)的路徑或者頁(yè)面之上，便于用戶(hù)找到所需信息，進(jìn)而達(dá)到提升圖書(shū)利用效率的目標(biāo)。

2.3 使鏈接結(jié)構(gòu)得到進(jìn)一步優(yōu)化，為用戶(hù)提供便利

Web數(shù)字挖掘在高校數(shù)字圖書(shū)館中的應(yīng)用能促進(jìn)鏈接結(jié)構(gòu)的進(jìn)一步優(yōu)化，具體來(lái)說(shuō)，主要表現(xiàn)在下列兩個(gè)方面：

（1）經(jīng)過(guò)挖掘Web Log，可以了解到用戶(hù)所訪問(wèn)的頁(yè)面之間的關(guān)聯(lián)，進(jìn)而在具有緊密關(guān)系的頁(yè)面之間加強(qiáng)鏈接，使用戶(hù)更加快速地找到所需信息。

（2）經(jīng)過(guò)挖掘Web Log，可以精確地找到用戶(hù)的期望位置，若遇到期望位置的訪問(wèn)次數(shù)比實(shí)際位置的訪問(wèn)次數(shù)更多的情況，則可以采取在實(shí)際位置與期望位置之間設(shè)立導(dǎo)航鏈接的方式來(lái)最大限度提升Web站點(diǎn)的優(yōu)化效果。

3 結(jié)語(yǔ)

總而言之，Web數(shù)據(jù)挖掘與當(dāng)代高校數(shù)字圖書(shū)館的建設(shè)息息相關(guān)，為了提高數(shù)字圖書(shū)館的服務(wù)質(zhì)量，最大限度滿(mǎn)足用戶(hù)的個(gè)性化需求，就必須學(xué)會(huì)科學(xué)地利用Web數(shù)據(jù)挖掘技術(shù)，把握Web數(shù)據(jù)挖掘的類(lèi)型及其特征，使其在發(fā)現(xiàn)用戶(hù)興趣愛(ài)好、識(shí)別高頻率訪問(wèn)路徑以及鏈接結(jié)構(gòu)優(yōu)化等方面發(fā)揮出應(yīng)有的作用，讓用戶(hù)在訪問(wèn)數(shù)字圖書(shū)館的過(guò)程中可以快速尋找到所需信息，充分感受到圖書(shū)館的人性化服務(wù)。

[1]歐陽(yáng)烽.Web數(shù)據(jù)挖掘與高校數(shù)字圖書(shū)館個(gè)性化服務(wù)[J].現(xiàn)代情報(bào),2008,28(01):103-104,107.

[2]歐陽(yáng)烽.基于數(shù)據(jù)挖掘的高校數(shù)字圖書(shū)館信息資源管理[D].中南大學(xué),2009.

[3]孫士新.高校數(shù)字圖書(shū)館個(gè)性化服務(wù)的應(yīng)用研究[D].鄭州大學(xué),2009.

[4]陳雪.WEB挖掘在高校數(shù)字圖書(shū)館個(gè)性化服務(wù)中的應(yīng)用[J].蘭臺(tái)世界,2008(24):73-74.

作者單位南陽(yáng)醫(yī)學(xué)高等專(zhuān)科學(xué)校河南省南陽(yáng)市473000

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

Web數(shù)據(jù)挖掘與高校數(shù)字圖書(shū)館個(gè)性化服務(wù)

1 Web數(shù)據(jù)挖掘與數(shù)字圖書(shū)館的概述

1.1 Web數(shù)據(jù)挖掘的概述

1.2 高校數(shù)字圖書(shū)館概述

2 Web數(shù)據(jù)挖掘在高校數(shù)字圖書(shū)館個(gè)性化服務(wù)中的應(yīng)用

2.1 發(fā)現(xiàn)用戶(hù)偏好，為其提供個(gè)性化的訪問(wèn)區(qū)域

2.2 識(shí)別高頻率訪問(wèn)路徑，提升圖書(shū)館資源的利用率

2.3 使鏈接結(jié)構(gòu)得到進(jìn)一步優(yōu)化，為用戶(hù)提供便利

3 結(jié)語(yǔ)

2.1 發(fā)現(xiàn)用戶(hù)偏好，為其提供個(gè)性化的訪問(wèn)區(qū)域

2.2 識(shí)別高頻率訪問(wèn)路徑，提升圖書(shū)館資源的利用率

2.3 使鏈接結(jié)構(gòu)得到進(jìn)一步優(yōu)化，為用戶(hù)提供便利