文/孟玫
Web數(shù)據(jù)挖掘與高校數(shù)字圖書(shū)館個(gè)性化服務(wù)
文/孟玫
伴隨時(shí)代的進(jìn)步與發(fā)展,各種新技術(shù)也層出不窮,Web數(shù)據(jù)挖掘技術(shù)是當(dāng)今時(shí)代應(yīng)用比較廣泛的一種新技術(shù),該技術(shù)是數(shù)據(jù)挖掘和Web領(lǐng)域相結(jié)合的產(chǎn)物,其在高校數(shù)字化圖書(shū)館的建設(shè)過(guò)程中發(fā)揮了重大作用,本文就針對(duì)Web數(shù)據(jù)挖掘與高校數(shù)字圖書(shū)館個(gè)性化服務(wù)進(jìn)行了分析和研究。
Web數(shù)據(jù)挖掘 高校數(shù)字圖書(shū)館 個(gè)性化服務(wù)
近幾年,高校數(shù)字圖書(shū)館的發(fā)展速度非???,其數(shù)據(jù)類(lèi)型和總量也顯著提升,數(shù)字資源覆蓋多個(gè)領(lǐng)域,如電子圖書(shū)、電子期刊、多媒體數(shù)據(jù)、海量的Web數(shù)據(jù)庫(kù)等,這些數(shù)字化資源的出現(xiàn)為用戶(hù)查閱資料提供了方便,但由于數(shù)據(jù)信息量大,用戶(hù)在查找資料的過(guò)程中很難找準(zhǔn)目標(biāo)定位,因而會(huì)花費(fèi)較多時(shí)間,而Web數(shù)據(jù)挖掘技術(shù)在高校數(shù)字圖書(shū)館中的應(yīng)用則可以在很大程度上解決該問(wèn)題。
所謂Web數(shù)據(jù)挖掘,指的就是將有價(jià)值的、感興趣的信息從大量的Web文檔中提取出來(lái),通常來(lái)說(shuō),可將Web數(shù)據(jù)挖掘劃分為三種類(lèi)型,即Web結(jié)構(gòu)挖掘、Web內(nèi)容挖掘和Web使用記錄挖掘。其中,Web結(jié)構(gòu)挖掘指的是從WWW的鏈接關(guān)系或者組織體系中推導(dǎo)出相關(guān)知識(shí),通過(guò)文檔之間的相互關(guān)系,WWW可以為用戶(hù)提供文檔內(nèi)容之外的有價(jià)值數(shù)據(jù)信息,通過(guò)這些有價(jià)值信息,能夠?qū)?yè)面加以排序,進(jìn)而更好地發(fā)現(xiàn)其中的關(guān)鍵頁(yè)面信息,整個(gè)Web結(jié)構(gòu)挖掘過(guò)程需要用到HITS算法以及PageRank算法。Web內(nèi)容挖掘指的是將相關(guān)知識(shí)從文檔內(nèi)容或描述中抽取出來(lái),這項(xiàng)工作可被當(dāng)作是基本搜索引擎所負(fù)責(zé)的工作的延伸,主要包括立足于數(shù)據(jù)庫(kù)的挖掘以及立足于代理的挖掘兩大部分。從性質(zhì)上看,Web內(nèi)容挖掘?qū)儆谖谋就诰虻囊环N形式,其作用的對(duì)象大部分是Web文檔的文本區(qū)域,文本挖掘涵蓋針對(duì)搜索工具的查詢(xún)結(jié)果所開(kāi)展的分析、整理、歸類(lèi)等工作。Web使用記錄的挖掘主要針對(duì)的是Web日志以及Web使用數(shù)據(jù),它能根據(jù)Web的訪問(wèn)記錄直接定位到感興趣的模式,Web日志的涵蓋面非常廣,主要包括服務(wù)器上與Web訪問(wèn)有關(guān)的各類(lèi)日志文件,如代理日志、引用日志、訪問(wèn)日志等,其中涉及到用戶(hù)的諸多訪問(wèn)信息,包括訪問(wèn)時(shí)間、訪問(wèn)途徑、用戶(hù)的IP地址、訪問(wèn)結(jié)果等。
隨著信息化、網(wǎng)絡(luò)化、數(shù)字化時(shí)代的到來(lái),人們?cè)诠ぷ骱蛯W(xué)習(xí)過(guò)程中對(duì)數(shù)據(jù)信息的需求量也逐漸上升,信息資源的類(lèi)型及其表現(xiàn)形式越來(lái)越豐富,比較常見(jiàn)的主要包括電子圖書(shū)、期刊等,在這樣的時(shí)代背景下,數(shù)字圖書(shū)館也逐漸出現(xiàn),它是以傳統(tǒng)圖書(shū)館為基礎(chǔ)的一種新型信息系統(tǒng),它的主要功能是可以對(duì)文本、圖像、數(shù)據(jù)、聲音等多樣化的信息進(jìn)行采集、分析和整理,徹底顛覆了以往圖書(shū)館中采用其他非數(shù)字化介質(zhì)來(lái)進(jìn)行存儲(chǔ)的落后方法。數(shù)字圖書(shū)館主要采用現(xiàn)代化的先進(jìn)技術(shù),把圖書(shū)館中的重要文獻(xiàn)進(jìn)行數(shù)字化存儲(chǔ),用戶(hù)可以利用互聯(lián)網(wǎng)在任意時(shí)間和空間查看信息,這就使圖書(shū)館的服務(wù)范圍突破了時(shí)空限制,能為用戶(hù)帶來(lái)更多的方便,與傳統(tǒng)的圖書(shū)館相比,數(shù)字圖書(shū)館具有多方面的優(yōu)勢(shì),具體表現(xiàn)在以下幾點(diǎn):
(1)相同的數(shù)據(jù)信息可在同一時(shí)間被多個(gè)用戶(hù)查看,這就有效避免了傳統(tǒng)圖書(shū)館中紙質(zhì)書(shū)本只能在同一時(shí)間為一個(gè)人提供服務(wù)的缺陷。
(2)數(shù)字圖書(shū)館的信息查詢(xún)更加方便,它能為用戶(hù)提供遠(yuǎn)程信息檢索功能。
(3)數(shù)字圖書(shū)館的數(shù)據(jù)信息存儲(chǔ)空間比較小,其存儲(chǔ)的數(shù)據(jù)信息能得到有效保護(hù),不易被破壞。
Web站點(diǎn)在設(shè)計(jì)的時(shí)候大多是采用的同一種分類(lèi)形式,也就是同一個(gè)頁(yè)面內(nèi)的分頁(yè)面往往是按照其類(lèi)別來(lái)組織的,用戶(hù)在對(duì)Web站點(diǎn)進(jìn)行訪問(wèn)的時(shí)候,可在很大程度上反映出其偏好,一般來(lái)說(shuō),用戶(hù)在訪問(wèn)某頁(yè)面時(shí)停留的時(shí)間越長(zhǎng)或查看的字?jǐn)?shù)越多,就表明該用戶(hù)對(duì)這一頁(yè)面的內(nèi)容越感興趣,對(duì)于不感興趣的頁(yè)面,用戶(hù)停留的時(shí)間通常都比較短。對(duì)用戶(hù)感興趣程度進(jìn)行計(jì)算一般采用的是收集用戶(hù)瀏覽頁(yè)面的時(shí)間信息及其途徑等方式,這些信息能充分反映出該頁(yè)面對(duì)用戶(hù)的吸引力,進(jìn)而便于系統(tǒng)按照用戶(hù)的偏好,為之提供個(gè)性化的訪問(wèn)區(qū)域。
利用Web數(shù)據(jù)挖掘技術(shù),能對(duì)數(shù)字圖書(shū)館中的高頻率訪問(wèn)路徑以及相關(guān)頁(yè)面的重要頁(yè)面進(jìn)行精確識(shí)別,從而將一些關(guān)鍵的新書(shū)信息和分類(lèi)信息放在經(jīng)常訪問(wèn)的路徑或者頁(yè)面之上,便于用戶(hù)找到所需信息,進(jìn)而達(dá)到提升圖書(shū)利用效率的目標(biāo)。
Web數(shù)字挖掘在高校數(shù)字圖書(shū)館中的應(yīng)用能促進(jìn)鏈接結(jié)構(gòu)的進(jìn)一步優(yōu)化,具體來(lái)說(shuō),主要表現(xiàn)在下列兩個(gè)方面:
(1)經(jīng)過(guò)挖掘Web Log,可以了解到用戶(hù)所訪問(wèn)的頁(yè)面之間的關(guān)聯(lián),進(jìn)而在具有緊密關(guān)系的頁(yè)面之間加強(qiáng)鏈接,使用戶(hù)更加快速地找到所需信息。
(2)經(jīng)過(guò)挖掘Web Log,可以精確地找到用戶(hù)的期望位置,若遇到期望位置的訪問(wèn)次數(shù)比實(shí)際位置的訪問(wèn)次數(shù)更多的情況,則可以采取在實(shí)際位置與期望位置之間設(shè)立導(dǎo)航鏈接的方式來(lái)最大限度提升Web站點(diǎn)的優(yōu)化效果。
總而言之,Web數(shù)據(jù)挖掘與當(dāng)代高校數(shù)字圖書(shū)館的建設(shè)息息相關(guān),為了提高數(shù)字圖書(shū)館的服務(wù)質(zhì)量,最大限度滿(mǎn)足用戶(hù)的個(gè)性化需求,就必須學(xué)會(huì)科學(xué)地利用Web數(shù)據(jù)挖掘技術(shù),把握Web數(shù)據(jù)挖掘的類(lèi)型及其特征,使其在發(fā)現(xiàn)用戶(hù)興趣愛(ài)好、識(shí)別高頻率訪問(wèn)路徑以及鏈接結(jié)構(gòu)優(yōu)化等方面發(fā)揮出應(yīng)有的作用,讓用戶(hù)在訪問(wèn)數(shù)字圖書(shū)館的過(guò)程中可以快速尋找到所需信息,充分感受到圖書(shū)館的人性化服務(wù)。
[1]歐陽(yáng)烽.Web數(shù)據(jù)挖掘與高校數(shù)字圖書(shū)館個(gè)性化服務(wù)[J].現(xiàn)代情報(bào),2008,28(01):103-104,107.
[2]歐陽(yáng)烽.基于數(shù)據(jù)挖掘的高校數(shù)字圖書(shū)館信息資源管理[D].中南大學(xué),2009.
[3]孫士新.高校數(shù)字圖書(shū)館個(gè)性化服務(wù)的應(yīng)用研究[D].鄭州大學(xué),2009.
[4]陳雪.WEB挖掘在高校數(shù)字圖書(shū)館個(gè)性化服務(wù)中的應(yīng)用[J].蘭臺(tái)世界,2008(24):73-74.
作者單位南陽(yáng)醫(yī)學(xué)高等專(zhuān)科學(xué)校 河南省南陽(yáng)市473000