国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Web使用挖掘在網(wǎng)站優(yōu)化中的應(yīng)用研究

2009-12-25 08:55吳慶海
中國(guó)管理信息化 2009年21期
關(guān)鍵詞:Apriori算法

武 森 吳慶海

[摘 要]針對(duì)互聯(lián)網(wǎng)用戶訪問(wèn)Web服務(wù)器產(chǎn)生的日志,結(jié)合Web使用挖掘相關(guān)理論,采用Apriori算法挖掘用戶的頻繁訪問(wèn)模式。首先進(jìn)行數(shù)據(jù)預(yù)處理以保證數(shù)據(jù)的質(zhì)量及提高挖掘的效率;然后對(duì)預(yù)處理后的數(shù)據(jù)采用Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘,找出其中的頻繁訪問(wèn)模式;最后分析結(jié)果,總結(jié)規(guī)則,提出建議。

[關(guān)鍵詞]Web使用挖掘;數(shù)據(jù)預(yù)處理;Apriori算法;網(wǎng)站優(yōu)化

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2009 . 21 . 001

[中圖分類號(hào)]F224.6;TP39[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1673 - 0194(2009)21 - 0004 - 03

1引 言

Web使用挖掘是應(yīng)用數(shù)據(jù)挖掘技術(shù)從Web數(shù)據(jù)中發(fā)現(xiàn)用戶訪問(wèn)模式的過(guò)程[1],從而可以為用戶提供個(gè)性化服務(wù),改進(jìn)系統(tǒng),優(yōu)化站點(diǎn)。本文通過(guò)對(duì)網(wǎng)站服務(wù)器日志進(jìn)行挖掘,找出其中存在的頻繁訪問(wèn)模式并提出網(wǎng)站改進(jìn)意見(jiàn)。

2Web使用挖掘日志預(yù)處理方法

2.1數(shù)據(jù)源

Web使用挖掘主要的數(shù)據(jù)源有3種:Web服務(wù)器日志(Web server log)、代理服務(wù)器日志(Proxy log)和用戶瀏覽網(wǎng)頁(yè)所留下的Cookie文件。在這3種數(shù)據(jù)中,Web服務(wù)器日志是最常用也是最直接的數(shù)據(jù)源,可以直接在Web服務(wù)器上生成;對(duì)于代理服務(wù)器日志文件來(lái)說(shuō),由于用戶分布很廣泛,網(wǎng)站用戶可能通過(guò)大量的代理訪問(wèn)該網(wǎng)站的網(wǎng)頁(yè),所以收集使用代理所留下的日志文件比較困難;而對(duì)于單個(gè)用戶來(lái)說(shuō),由于涉及隱私問(wèn)題,所以在用戶機(jī)上收集信息也會(huì)存在問(wèn)題。鑒于以上考慮,一般的Web使用挖掘大多采用Web服務(wù)器日志,所以Web使用挖掘通常也稱為Web日志挖掘。

2.2 Web日志預(yù)處理過(guò)程

Web日志預(yù)處理是在Web日志挖掘前,對(duì)Web日志數(shù)據(jù)進(jìn)行清理、過(guò)濾以及重新組合的過(guò)程,其目的是剔除日志中對(duì)挖掘過(guò)程無(wú)用的屬性及數(shù)據(jù),并將Web日志數(shù)據(jù)轉(zhuǎn)換為挖掘算法可識(shí)別的形式。通常,Web日志數(shù)據(jù)的預(yù)處理過(guò)程主要包括:數(shù)據(jù)清理、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)充、事務(wù)識(shí)別5個(gè)過(guò)程[2]。預(yù)處理過(guò)程的輸入數(shù)據(jù)有服務(wù)器日志、站點(diǎn)拓?fù)浣Y(jié)構(gòu)和其他可選擇信息,輸出數(shù)據(jù)有用戶會(huì)話文件和事務(wù)數(shù)據(jù)庫(kù)。

數(shù)據(jù)清理指刪除Web服務(wù)器日志中與挖掘算法無(wú)關(guān)的數(shù)據(jù),合并某些記錄。Web日志記錄中大部分是網(wǎng)頁(yè)自動(dòng)產(chǎn)生的圖片記錄,用戶訪問(wèn)網(wǎng)頁(yè)的主要目的在于網(wǎng)頁(yè)內(nèi)容而非圖片(專門提供圖片的網(wǎng)站除外),所以需要剔除這些記錄。此外,用戶請(qǐng)求失敗的記錄和訪問(wèn)網(wǎng)站時(shí)自動(dòng)生成的Java腳本記錄也不是挖掘所需,需要剔除。所以,在數(shù)據(jù)清理中需要剔除圖片記錄、腳本記錄和請(qǐng)求失敗的記錄以及其他需要剔除的記錄。

用戶識(shí)別就是區(qū)分不同的用戶。由于防火墻和代理服務(wù)器的存在以及不同用戶使用相同設(shè)備上網(wǎng)等原因,可能造成用戶的不一致,一般采用基于啟發(fā)式的規(guī)則[3]來(lái)識(shí)別用戶:

(1)不同的IP地址代表不同的用戶;

(2)當(dāng)IP地址相同的時(shí)候,以不同的瀏覽器或者操作系統(tǒng)來(lái)區(qū)分不同的用戶;

(3)在IP地址相同、用戶使用的操作系統(tǒng)和瀏覽器也相同的情況下,判斷每一個(gè)請(qǐng)求訪問(wèn)的頁(yè)面與訪問(wèn)過(guò)的頁(yè)面之間是否有鏈接,如果一個(gè)請(qǐng)求訪問(wèn)的頁(yè)面與上一個(gè)已經(jīng)訪問(wèn)過(guò)的所有頁(yè)面之間并沒(méi)有直接鏈接,則假設(shè)在訪問(wèn)Web站點(diǎn)的機(jī)器上同時(shí)存在著多個(gè)用戶。

會(huì)話識(shí)別的目的在于區(qū)分同一用戶在不同的時(shí)間所進(jìn)行的不同會(huì)話,用戶會(huì)話S是一個(gè)二元組,其中Userid是用戶標(biāo)識(shí),PS是用戶在一段時(shí)間內(nèi)請(qǐng)求的Web頁(yè)面的集合。

PS包含用戶請(qǐng)求頁(yè)面的標(biāo)識(shí)符Pid和請(qǐng)求時(shí)間,則用戶會(huì)話S可以表示為公式(2.1)所示的元組:

S=(2.1) 通常采用設(shè)定時(shí)間閾值的辦法來(lái)確定不同的會(huì)話,即當(dāng)用戶在某一會(huì)話中超過(guò)了設(shè)定的時(shí)間閾值,就認(rèn)定該用戶進(jìn)行了下一個(gè)會(huì)話。如設(shè)定整個(gè)會(huì)話的時(shí)間閾值為T,則對(duì)于公式(2.1)中的會(huì)話必須滿足公式(2.2)所示條件:

time k-time 1≤T (2.2)

否則認(rèn)為該用戶進(jìn)行了不少于一次的會(huì)話。一般的應(yīng)用中將時(shí)間閾值設(shè)定為30分鐘,但是L .Catledge和J.Pikow[4]由經(jīng)驗(yàn)數(shù)據(jù)得出時(shí)間閾值設(shè)為25.5分鐘更好。本文中采用30分鐘作為時(shí)間閾值。

由于本地緩存和代理服務(wù)器緩存的存在,使得服務(wù)器日志會(huì)遺漏一些重要的頁(yè)面請(qǐng)求。路徑補(bǔ)充的任務(wù)就是將這些遺漏的請(qǐng)求補(bǔ)充到用戶會(huì)話當(dāng)中。如果兩個(gè)頁(yè)面之間沒(méi)有直接的超鏈接關(guān)系,則很可能用戶采用了瀏覽器的“后退”功能,而由于本地緩存的存在,日志中沒(méi)有記錄相關(guān)的信息,這時(shí)就需要進(jìn)行路徑補(bǔ)充。路徑補(bǔ)充需要將日志記錄與網(wǎng)頁(yè)的拓?fù)浣Y(jié)構(gòu)相結(jié)合進(jìn)行。

用戶會(huì)話是Web使用挖掘中唯一具備自然事務(wù)特征的元素,但是,要想更好地進(jìn)行有效的挖掘,就必須將其分割為更小的事務(wù),這里只是借用了事務(wù)的“說(shuō)法”,也稱作片段識(shí)別(Episode Identification)。常用的事務(wù)分割方法是最大向前引用路徑(Maximal Forward Reference Path)方法[5],該算法的主要思想是把一個(gè)最大向前引用路徑看成一個(gè)片段:如果用戶在瀏覽過(guò)程中再次瀏覽已經(jīng)瀏覽過(guò)的頁(yè)面(即使用“后退”功能),則認(rèn)為向前引用終止,得到一個(gè)最大向前引用路徑;如果用戶瀏覽完成也得到一個(gè)最大向前引用路徑。

2.3數(shù)據(jù)采集及預(yù)處理

本文采用的數(shù)據(jù)是原版英語(yǔ)小說(shuō)網(wǎng)[6]在2009年5月7日00:00~23:59的服務(wù)器日志,日志以文本形式保存在TXT文件中,共247M,總記錄條目約100萬(wàn)條。

為方便,將Web日志導(dǎo)入MySql數(shù)據(jù)庫(kù)中,采用前文所述的方法進(jìn)行數(shù)據(jù)處理。首先將日志中不符合要求的記錄清除,清除的日志條目主要是以下幾類:

(1)圖片記錄,即以jpg、jpeg、gif、JPG、GIF、JPEG、png等后綴名結(jié)尾的記錄;

(2)網(wǎng)站自動(dòng)生成的Java腳本文件,即以js、css等后綴名結(jié)尾的記錄;

(3)請(qǐng)求方法不是GET的記錄;

(4)響應(yīng)值不等于200的不成功的請(qǐng)求記錄;

(5)廣告條目記錄,即URL以/ad開(kāi)頭的記錄。

使用Sql語(yǔ)句將數(shù)據(jù)中不需要的條目清除。在剩余的數(shù)據(jù)中,有一部分是搜索網(wǎng)站的網(wǎng)絡(luò)蜘蛛自動(dòng)抓取時(shí)留下的記錄,這些記錄對(duì)于研究用戶瀏覽模式?jīng)]有直接的聯(lián)系,可以將其刪除,整個(gè)數(shù)據(jù)清理過(guò)程結(jié)束之后得到430 865條記錄。采用前文介紹的用戶識(shí)別、會(huì)話識(shí)別方法進(jìn)行識(shí)別,總計(jì)得到5 693個(gè)獨(dú)立用戶,6 298個(gè)獨(dú)立會(huì)話,最后進(jìn)行事務(wù)識(shí)別,得到7 254條事務(wù)記錄。

3挖掘模型的建立

3.1關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則是指大量數(shù)據(jù)中項(xiàng)集之間有趣的聯(lián)系,Web日志挖掘的關(guān)聯(lián)規(guī)則就是描述一個(gè)用戶會(huì)話中用戶的各瀏覽行為同時(shí)出現(xiàn)的規(guī)律,其目的在于找出Web日志訪問(wèn)記錄中隱含的聯(lián)系。一般來(lái)講,關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)要經(jīng)過(guò)以下4個(gè)步驟[7];

(1)進(jìn)行數(shù)據(jù)清理、集成、轉(zhuǎn)換、聚集等數(shù)據(jù)準(zhǔn)備。在Web使用挖掘中,數(shù)據(jù)預(yù)處理工作完成了第一步——數(shù)據(jù)準(zhǔn)備。

(2)根據(jù)實(shí)際情況,確定最小支持度和最小可信度。在Web使用挖掘中可以根據(jù)網(wǎng)站使用的實(shí)際情況,如用戶的點(diǎn)擊量、點(diǎn)擊率等確定。

(3)利用數(shù)據(jù)挖掘工具提供的算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。

(4)可視化顯示、解釋、評(píng)估關(guān)聯(lián)規(guī)則,即Web使用挖掘中的最后一步——模式分析。

在關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法中,Apriori算法是一種最具有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法,最早由Rakesh Agrawal等人[8]提出。

3.2 Web使用挖掘?qū)嶒?yàn)

實(shí)驗(yàn)采用的挖掘算法是關(guān)聯(lián)規(guī)則中的Apriori算法,使用的挖掘工具是馬克威分析系統(tǒng)[9],輸入的數(shù)據(jù)是通過(guò)前文數(shù)據(jù)預(yù)處理之后的事務(wù)記錄數(shù)據(jù)。首先,將處理好的事務(wù)元組存入數(shù)據(jù)表中,為了挖掘方便,統(tǒng)一將瀏覽路徑補(bǔ)全,缺少項(xiàng)使用X代替,得到事務(wù)文件。

數(shù)據(jù)輸入后采用關(guān)聯(lián)規(guī)則挖掘功能,選擇使用Apriori算法,建立挖掘模型,設(shè)置支持度、可信度等參數(shù)??紤]到瀏覽該網(wǎng)站固定用戶較少,且瀏覽內(nèi)容分布廣泛,用戶瀏覽的所有網(wǎng)頁(yè)之間存在的關(guān)聯(lián)性較小,因此在設(shè)置參數(shù)時(shí)將最小支持度和最小置信度分別設(shè)為10%和15%。在實(shí)際應(yīng)用中應(yīng)該考慮具體的情況調(diào)整參數(shù)的設(shè)置,進(jìn)行總體挖掘。

在總體挖掘結(jié)束之后,為了進(jìn)一步了解網(wǎng)站各版塊的具體情況,基于網(wǎng)站的主要內(nèi)容并結(jié)合網(wǎng)站管理員的意見(jiàn),根據(jù)網(wǎng)站主要版塊的瀏覽情況進(jìn)行再次挖掘。網(wǎng)站主要包括Article(文摘)、fiction(小說(shuō))和yingyu(英語(yǔ)學(xué)習(xí))3個(gè)版塊。

在針對(duì)主要版塊進(jìn)行的再次挖掘中,為了更好地挖掘出關(guān)聯(lián)規(guī)則,將挖掘參數(shù)中最小支持度調(diào)整為5%,置信度不變,仍舊為15%。

4挖掘結(jié)果分析

4.1 總體挖掘結(jié)果分析

進(jìn)行總體挖掘得到如表4.1所示的強(qiáng)關(guān)聯(lián)規(guī)則。

從表中數(shù)據(jù)分析得知:

(1)瀏覽了Article版塊的用戶中有12.81%的用戶瀏覽了Psycology子版塊,置信度為24.75%。

(2)瀏覽了fiction版塊的用戶中有23.80%的用戶瀏覽了Fiction子版塊,置信度為95.83%。

在Psycology子版塊中的主要內(nèi)容是有關(guān)于健康、激勵(lì)、成功等內(nèi)容,通過(guò)挖掘可以看出,這部分內(nèi)容比較受到讀者的歡迎;而在Fiction子版塊主要是在線小說(shuō)和雜志,包括《哈利·波特》、《時(shí)代》等內(nèi)容,通過(guò)挖掘發(fā)現(xiàn)在fiction板塊中瀏覽在線小說(shuō)的用戶較多。

4.2 Article版塊挖掘結(jié)果分析

Article版塊的挖掘情況如表4.2所示。

結(jié)合網(wǎng)站內(nèi)容和挖掘結(jié)果可知,在Article這一板塊中,用戶的主要興趣點(diǎn)在Fashion、Employment、Motivation和Success 4個(gè)方面,而編號(hào)為61210的內(nèi)容頁(yè)面在這一天的點(diǎn)擊量最大。

4.3 Article版塊挖掘結(jié)果分析

fiction版塊的挖掘情況如表4.3所示。

總體而言,在fiction版塊,用戶的興趣點(diǎn)集中在Fiction版塊中的Erotic和romance兩個(gè)子版塊上,編號(hào)為799、59037、59039和59064的內(nèi)容頁(yè)面點(diǎn)擊量最大。

4.4 yingyu版塊挖掘結(jié)果分析

yingyu版塊的挖掘情況如表4.4所示。

從表4.4中數(shù)據(jù)可知:瀏覽了yingyu版塊的用戶中瀏覽category-catid-166.html頁(yè)面的人為59.13%,置信度為59.13%。通過(guò)查詢網(wǎng)頁(yè),頁(yè)面category-catid-166.html為雙語(yǔ)閱讀的導(dǎo)航頁(yè),由此可以看出,用戶主要對(duì)這一版塊的雙語(yǔ)閱讀感興趣。

4.5 主要版塊挖掘結(jié)果綜合分析

綜合各版塊挖掘結(jié)果可以看出,在Article版塊,支持度最高的兩個(gè)瀏覽模式是

和< Article , Psycology>,而置信度最高的兩個(gè)瀏覽模式是。通過(guò)與網(wǎng)站管理員的溝通發(fā)現(xiàn),Others版塊并不是他們?cè)O(shè)計(jì)的主要內(nèi)容,但通過(guò)挖掘可知用戶對(duì)該部分內(nèi)容相對(duì)比較感興趣,訪問(wèn)量比其他版塊高,所以在今后的網(wǎng)站建設(shè)和維護(hù)過(guò)程中可以加強(qiáng)這部分內(nèi)容的擴(kuò)充,同時(shí)可以將該部分的內(nèi)容適當(dāng)提前,比如在主頁(yè)可以適當(dāng)增加這部分內(nèi)容的鏈接;在fiction版塊,瀏覽模式的支持度和置信度遠(yuǎn)遠(yuǎn)高于其他種類,該版塊的主要內(nèi)容中在線小說(shuō)是用戶主要的關(guān)注對(duì)象,而在線小說(shuō)中的romance分類相對(duì)受歡迎程度比較高;在yingyu板塊,導(dǎo)航頁(yè)category-catid-166.html的點(diǎn)擊量最大,該頁(yè)面是雙語(yǔ)閱讀的導(dǎo)航頁(yè),點(diǎn)擊此頁(yè)之后可以瀏覽雙語(yǔ)閱讀的文章列表。通過(guò)與管理員的溝通了解到,雙語(yǔ)閱讀是網(wǎng)站主要的特點(diǎn)之一,這個(gè)版塊主要為讀者提供英漢對(duì)照的文章,由于該部分內(nèi)容豐富并且質(zhì)量較高,深受讀者喜愛(ài),挖掘結(jié)果與實(shí)際情況符合。

5結(jié) 論

本文在研究Web使用挖掘的基礎(chǔ)上,采用關(guān)聯(lián)規(guī)則挖掘中的Apriori算法對(duì)原版英語(yǔ)小說(shuō)網(wǎng)的服務(wù)器日志進(jìn)行使用挖掘,對(duì)網(wǎng)站建設(shè)提出了改進(jìn)建議。另外,通過(guò)整個(gè)挖掘?qū)嶒?yàn)過(guò)程,發(fā)現(xiàn)Web使用挖掘中的數(shù)據(jù)預(yù)處理是整個(gè)挖掘的重點(diǎn),而數(shù)據(jù)預(yù)處理中的會(huì)話識(shí)別和事務(wù)識(shí)別難度較大,是決定整個(gè)挖掘成功與否的關(guān)鍵點(diǎn)。

主要參考文獻(xiàn)

[1] Srivastava Jaideep, Cooley Robert, Deshpande Mukund, Tan Pang-Ning. Web Usage Mining: Discovery and Applications of Usage Patterns from Web Data[J]. SIGKDD Explorations,2000, 1(2): 12-23.

[2] Robert Cooley, Mobasher Bamshad, Srivastava Jaideep. Data Preparation for Mining World Wide Web Browsing Patterns[J]. Knowledge and Information Systems, 1999, 1(1): 5-32.

[3] Pirolli Peter, Pitkow James, Rao Ramana. Silk from a Sows Ear: Extracting Usable Structures from the Web[C]//Proceedings of 1996 Conference on Human Factors in Computing Systems (CHI-96), Vancouver, British Columbia, Canada, 1996: 118-125.

[4] Catledge Lara, Pitkow James. Characterizing Browsing Behaviors on the World Wide Web[J]. Computer Networks and ISDN Systems, 1995, 27(6): 1065-1073.

[5] Chen Ming-Syan, Park Jong Soo, Yu Philip S. Data Mining for Path Traversal Patterns in a Web Environment[C]//Proceedings of the 16th International Conference on Distributed Computing Systems, 1996: 385-392.

[6] 原版英語(yǔ)小說(shuō)網(wǎng).http://www.en8848.com.cn/, 2009.

[7] 武森,高學(xué)東,[德]Bastian M.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘[M].北京:冶金工業(yè)出版社,2003.

[8] Agrawal Rakesh, Imielinski Tomasz, Swami Arun. Mining Association Rules between Sets of Items in Large Database[C]// Proceedings of 1993 ACM SIGMOD International Conference on Management of Data,1993: 207-216.

[9] 上海天律信息技術(shù)有限公司. 馬克威分析系統(tǒng)[CP].http://www.tanly.com/web/index.html.2009.

猜你喜歡
Apriori算法
基于模型的日志合理性分析評(píng)價(jià)指標(biāo)
基于Hadoop平臺(tái)的并行DHP數(shù)據(jù)分析方法
基于Apriori算法的高校學(xué)生成績(jī)數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘分析
基于云平臺(tái)MapReduce的Apriori算法研究
關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
基于RFID的汽車零件銷售策略支持模型
關(guān)聯(lián)規(guī)則在高校評(píng)教系統(tǒng)中的應(yīng)用
網(wǎng)絡(luò)審計(jì)系統(tǒng)中Apriori算法的應(yīng)用與研究
桐乡市| 梨树县| 咸丰县| 盈江县| 米易县| 崇信县| 达尔| 贵定县| 邹平县| 阿图什市| 合阳县| 辽宁省| 平谷区| 宝丰县| 周口市| 铜梁县| 西丰县| 丽水市| 南召县| 洛阳市| 襄城县| 乐平市| 抚顺县| 聂荣县| 涟源市| 诸暨市| 奇台县| 靖西县| 穆棱市| 大埔县| 长阳| 汉川市| 乌拉特中旗| 东乡| 阳江市| 深泽县| 宁德市| 冷水江市| 资中县| 阳东县| 茂名市|