淺談基于Web挖掘的個(gè)性化搜索引擎技術(shù)

2018-11-26 09:34謝海艇

發(fā)明與創(chuàng)新·大科技 2018年6期

謝海艇

摘要：本文針對(duì)搜索引擎存在的問題，簡要介紹了Web挖掘的相關(guān)技術(shù)，并構(gòu)建了用戶個(gè)性化數(shù)據(jù)庫，設(shè)計(jì)出基于Web挖掘的個(gè)性化搜索引擎模型，使檢索結(jié)果更加符合用戶的實(shí)際需要。

關(guān)鍵詞：Web挖掘；搜索引擎；個(gè)性化服務(wù)

搜索引擎的基本概念出現(xiàn)于20世紀(jì)70年代，并于20世紀(jì)90年代中期得到快速的發(fā)展。隨著Web信息的迅速增加，搜索引擎市場出現(xiàn)了前所未有的繁榮景象，搜索引擎正向著智能化、個(gè)性化等適應(yīng)不同用戶需求的方向發(fā)展。目前，搜索引擎仍然存在很多的局限性，主要表現(xiàn)在以下幾個(gè)方面：查詢精度不高且不能根據(jù)用戶興趣返回信息、資料檢索與用戶的交互不夠、查詢結(jié)果排序不合理、不能處理多種格式的文件等。

Web挖掘[1]是指從異構(gòu)的分布式互聯(lián)網(wǎng)數(shù)據(jù)中收集信息，利用計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)和人工智能技術(shù)，不斷地發(fā)現(xiàn)有用的數(shù)據(jù)模型和隱含知識(shí)。根據(jù)挖掘?qū)ο蟮牟煌?，Web挖掘可分為Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘以及Web日志記錄挖掘。

Web內(nèi)容挖掘是基于Internet中各種網(wǎng)站的數(shù)據(jù)內(nèi)容，以獲得有效的知識(shí)驅(qū)動(dòng)模型，并自動(dòng)檢索網(wǎng)絡(luò)資源，提高網(wǎng)絡(luò)數(shù)據(jù)的使用。

Web結(jié)構(gòu)挖掘是研究Web文檔的鏈接結(jié)構(gòu)，找到鏈接中隱含的可用模式。其中兩個(gè)最著名的算法是PageRank算法和HITS算法。

Web日志記錄挖掘也稱為Web日志挖掘，以Web服務(wù)器訪問日志為主要數(shù)據(jù)，分析用戶的瀏覽行為與頁面之間的結(jié)構(gòu)類型，改進(jìn)站點(diǎn)結(jié)構(gòu)，為用戶提供個(gè)性化服務(wù)。

用戶個(gè)性化數(shù)據(jù)庫以用戶的多維信息為基礎(chǔ)，不斷深入挖掘用戶的瀏覽行為，并根據(jù)頁面權(quán)重、時(shí)間間隔、下載信息等因素不斷更新數(shù)據(jù)庫，幫助用戶查找真實(shí)需求的資源信息[2]。用戶個(gè)性化數(shù)據(jù)庫包括信息收集與信息更新。

1.收集用戶訪問信息

如何獲取有關(guān)用戶的個(gè)性化信息是用戶個(gè)性化數(shù)據(jù)庫需要解決的首要問題。用戶個(gè)性化數(shù)據(jù)庫的數(shù)據(jù)信息主要來自于用戶提交的信息以及分析用戶的訪問日志。用戶在訪問互聯(lián)網(wǎng)的過程中，提交的查詢關(guān)鍵詞、停留網(wǎng)頁時(shí)間、下載狀態(tài)等信息會(huì)在Web服務(wù)器上留下記錄，并形成用戶訪問日志。用戶個(gè)性化數(shù)據(jù)庫通過不斷分析用戶訪問日志，挖掘用戶的潛在個(gè)性化信息。

2.更新用戶個(gè)性化信息

用戶的個(gè)性化需求不是一成不變的，大多數(shù)用戶的個(gè)人特征數(shù)據(jù)會(huì)隨著時(shí)間推移而變化。其主要表現(xiàn)形式有兩方面，一為興趣領(lǐng)域的變化，二為興趣程度的變化。用戶興趣的變化將不可避免地影響用戶個(gè)性化數(shù)據(jù)庫的內(nèi)容，這就要求用戶個(gè)性化數(shù)據(jù)庫具有自主學(xué)習(xí)的能力，并根據(jù)用戶的興趣變化不斷更新數(shù)據(jù)庫中的相關(guān)特征項(xiàng)。

本文采用改變權(quán)重的方法更新用戶的個(gè)性化特征項(xiàng)，公式如下：

NewWeight= OldWeight+i×t

i為用戶訪問網(wǎng)站的參數(shù)。針對(duì)不同用戶的訪問行為進(jìn)行定義，如用戶對(duì)訪問內(nèi)容進(jìn)行下載、對(duì)網(wǎng)頁進(jìn)行全文瀏覽、對(duì)部分網(wǎng)頁內(nèi)容進(jìn)行瀏覽、未對(duì)網(wǎng)頁進(jìn)行瀏覽等。不同的訪問行為反應(yīng)了用戶對(duì)信息的滿意程度，依次為i確定不同的數(shù)值。

t是時(shí)間參數(shù)。用戶通常會(huì)長時(shí)間瀏覽他們感興趣的頁面，否則瀏覽時(shí)間將會(huì)變短。

個(gè)性化服務(wù)的目標(biāo)是反映用戶之間的差異，尊重用戶的個(gè)性特征并向用戶提供各種信息服務(wù)[3]?；赪eb挖掘的個(gè)性化搜索引擎模型主要為用戶提供個(gè)性化的信息檢索服務(wù)，便于用戶查閱使用。

本系統(tǒng)主要包括個(gè)性化數(shù)據(jù)庫、檢索系統(tǒng)、后臺(tái)管理系統(tǒng)。

個(gè)性化數(shù)據(jù)庫主要表示用戶的興趣趨勢，通過不斷挖掘用戶訪問日志，自動(dòng)更新用戶的個(gè)性化特征項(xiàng)。

檢索系統(tǒng)主要基于用戶查詢關(guān)鍵詞，在檢索信息的同時(shí)計(jì)算相應(yīng)頁面的權(quán)重，以此為依據(jù)進(jìn)行排序，并把檢索結(jié)果反饋給用戶。

后臺(tái)管理系統(tǒng)主要加強(qiáng)子系統(tǒng)之間的通信連接，維持系統(tǒng)的穩(wěn)定運(yùn)行。

隨著互聯(lián)網(wǎng)信息的急劇增加，搜索引擎技術(shù)在信息檢索中發(fā)揮的作用越來越大。相信隨著科學(xué)技術(shù)的進(jìn)步，網(wǎng)絡(luò)信息檢索技術(shù)的發(fā)展也會(huì)越來越快。

參考文獻(xiàn)：

[1] 張彥波.Web挖掘研究微探[J].北京電力高等專科學(xué)校學(xué)報(bào)（自然科學(xué)版），2010（27）：145.

[2] 馮是聰，單松巍，張志剛等.基于Web挖掘的個(gè)性化技術(shù)研究[J].計(jì)算機(jī)工程與設(shè)計(jì)，2004（1）：4-5.

[3] 王術(shù)，付關(guān)友，朱征宇.面向個(gè)性化服務(wù)的網(wǎng)頁特征描述[J].計(jì)算機(jī)工程與設(shè)計(jì)，2005（3）：651-653.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

淺談基于Web挖掘的個(gè)性化搜索引擎技術(shù)