WEB挖掘數(shù)據(jù)預(yù)處理方法分析與實(shí)現(xiàn)

2018-01-01 14:45陳建鋒

安徽職業(yè)技術(shù)學(xué)院學(xué)報(bào) 2018年4期

陳建鋒

(安徽職業(yè)技術(shù)學(xué)院信息工程學(xué)院，安徽合肥 230011)

WEB數(shù)據(jù)預(yù)處理是WEB使用挖掘的首要步驟，是后續(xù)數(shù)據(jù)挖掘，生成目標(biāo)數(shù)據(jù)的重要步驟[1]。用戶訪問Internet服務(wù)器時(shí)，會(huì)留下來源于各種數(shù)據(jù)源的使用痕跡，通過服務(wù)器端與客戶端對(duì)數(shù)據(jù)進(jìn)行采集分析是主要的數(shù)據(jù)源收集分析方法。服務(wù)器端數(shù)據(jù)主要來源于用戶訪問服務(wù)器時(shí)交互生成的各種數(shù)據(jù)，并存放在服務(wù)器端WEB日志中[2]。數(shù)據(jù)預(yù)處理是WEB使用控制的重點(diǎn)技術(shù)，是對(duì)WEB使用數(shù)據(jù)的有效提取、分解與合并。本研究介紹一種新型WEB使用挖掘數(shù)據(jù)預(yù)處理方法。

1 WEB使用挖掘與數(shù)據(jù)預(yù)處理

WEB使用挖掘:通過數(shù)據(jù)挖掘技術(shù)，提取互聯(lián)網(wǎng)訪問中相關(guān)數(shù)據(jù)與行為中的相關(guān)感興趣的、有價(jià)值的模式，以及相關(guān)隱含信息，是包含WEB技術(shù)、計(jì)算機(jī)語言學(xué)、數(shù)據(jù)挖掘技術(shù)、信息學(xué)等領(lǐng)域的相關(guān)性綜合技術(shù)[3]。WEB日志挖掘是最重要的使用挖掘，通過對(duì)服務(wù)器日志文件的挖掘，獲取并分析用戶訪問WEB頁面時(shí)的模式，識(shí)別用戶的喜好、忠實(shí)度、滿意度，有針對(duì)性地優(yōu)化WEB站點(diǎn)性能、結(jié)構(gòu)，為用戶提供個(gè)性化的服務(wù)，或?yàn)樯虡I(yè)組織提供針對(duì)性的商業(yè)智能服務(wù)[4]。WEB使用挖掘主要包括三個(gè)步驟：第一，數(shù)據(jù)預(yù)處理，即提取、分解再合并WEB日志中的數(shù)據(jù)，并轉(zhuǎn)換為可用于數(shù)據(jù)挖掘的相應(yīng)數(shù)據(jù)格式，存儲(chǔ)到數(shù)據(jù)庫中以便服務(wù)于后續(xù)數(shù)據(jù)處理；第二步，模式識(shí)別，即利用多種算法挖掘處理后的數(shù)據(jù)以生成新模式；第三步，數(shù)據(jù)分析，即分析用戶訪問WEB的模式，并提取有效模式[5]。數(shù)據(jù)預(yù)處理是整個(gè)數(shù)據(jù)挖掘的基礎(chǔ)，是挖掘算法有效實(shí)施的充分條件。

2 WEB使用挖掘數(shù)據(jù)預(yù)處理實(shí)現(xiàn)

WEB挖掘數(shù)據(jù)預(yù)處理主要由數(shù)據(jù)清理、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)充與事務(wù)識(shí)別五個(gè)步驟。該過程是數(shù)據(jù)準(zhǔn)備工作的第一步，是對(duì)識(shí)別用戶會(huì)話所生成的WEB初始日志的格式化，用戶會(huì)話數(shù)據(jù)中包含網(wǎng)站網(wǎng)頁訪問者、訪問頁面、頁面訪問順序、每個(gè)頁面的訪問時(shí)間等信息，用戶一旦發(fā)起對(duì)網(wǎng)站資源的請(qǐng)求時(shí)，WEB服務(wù)器就會(huì)將相關(guān)日志信息全部記錄下來，并以服務(wù)器日志格式將所有網(wǎng)站中的用戶活動(dòng)信息[6]。數(shù)據(jù)預(yù)處理的一個(gè)重要任務(wù)就是對(duì)服務(wù)器日志文件的字段抽取，將日志文件中的每行數(shù)據(jù)以不同字段過程隔離出來進(jìn)行字段抽段，將日志項(xiàng)需要作進(jìn)一步處理與應(yīng)用的數(shù)據(jù)進(jìn)行隔離，以生成各個(gè)有價(jià)值的字段，并生成一個(gè)新日志文件。服務(wù)器參數(shù)設(shè)置差異會(huì)導(dǎo)致WEB日志類型存在一定的差異，但在基本信息上存在統(tǒng)一性，主要包括用戶IP、訪問請(qǐng)求時(shí)間、URL、HTTP狀態(tài)碼、網(wǎng)絡(luò)來路等，如以下為某個(gè)IIS服務(wù)器WEB日志數(shù)據(jù)中的一個(gè)片段：

#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query

s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-

win32-status sc-bytes cs-bytes

2018-05-1115:44:21W3SVC381 202.199.120.47 GET/news/news.

asp id=200 80-203.208.60.169 Mozilla/60.0+(compatible;+Googlebot

/2.1;++http://google.com/bot.html)200 0 0 29057 298

要實(shí)現(xiàn)數(shù)據(jù)預(yù)處理就要完成以下步驟：

2.1 數(shù)據(jù)清理

數(shù)據(jù)清理是通過對(duì)原始數(shù)據(jù)的填充、糾正與刪除等操作，將所有冗余數(shù)據(jù)清理掉，主要包括嵌入對(duì)象中的非相關(guān)性引用及錯(cuò)誤請(qǐng)求，在處理時(shí)，需要保留的文件后綴主要是html、asp、asp.net(.aspx)、php及jsp等文件，這些頁面中包含了可指向其他頁面的超級(jí)鏈接，是用戶瀏覽興趣所在，而txt、jpg、gif、wmv等則主要是經(jīng)超級(jí)鏈接所訪問的文件，用戶一般不會(huì)直接輸入地址訪問這些內(nèi)容，并非用戶瀏覽興趣所在，屬于非相關(guān)性引用，如果數(shù)據(jù)挖掘的目的在于分析網(wǎng)絡(luò)流量時(shí)，又會(huì)增加這些信息的重要性，因此刪除時(shí)需要記錄這些記錄中的“發(fā)送字節(jié)數(shù)”“接收字節(jié)數(shù)”兩個(gè)域中的內(nèi)容。極短訪問時(shí)間、低于所設(shè)定闕值的請(qǐng)求記錄則屬于由當(dāng)前頁面后退至前一頁面再由該頁面向其他頁面鏈接的訪問模式，也在可刪除之列。錯(cuò)誤代碼是需要特別注意的另外一類不相關(guān)的無效數(shù)據(jù)，必須檢測(cè)并移除這些錯(cuò)誤代碼。狀態(tài)碼主要有成功、重定向、失敗與服務(wù)器錯(cuò)誤四類，在預(yù)處理階段，需清理所有錯(cuò)誤碼，如401錯(cuò)誤碼表示身份驗(yàn)證失敗，404錯(cuò)誤碼則表示文件未找到，這類錯(cuò)誤碼與分析過程相關(guān)性極低，這類狀態(tài)碼會(huì)在sc-status中有相關(guān)代碼提示，屬于需要清理的數(shù)據(jù)。此外，非GET類請(qǐng)求方法數(shù)據(jù)、服務(wù)器端地址與端口號(hào)等數(shù)據(jù)也屬于可清理的數(shù)據(jù)。清理結(jié)束后，將清理后的數(shù)據(jù)整合、合并為一種可接受的格式，為不同挖掘過程提供輸入數(shù)據(jù)。

2.2 用戶識(shí)別

用戶識(shí)別即從日志文件記錄中識(shí)別有訪問響應(yīng)的獨(dú)立用戶，一般的規(guī)則基于網(wǎng)絡(luò)來路規(guī)則通過IP地址識(shí)別不同用戶，但由于訪問頁面時(shí)用戶會(huì)使用緩存、防火墻與代理服務(wù)器等技術(shù)，因此識(shí)別用戶的復(fù)雜性很高，用戶在訪問服務(wù)器時(shí)就可能會(huì)出現(xiàn)多種情況：不同用戶同一時(shí)間內(nèi)，由代理服務(wù)器對(duì)服務(wù)器進(jìn)行訪問、同一訪問服務(wù)器，用戶使用不一樣的工作站、相同用戶同工作站中用不同瀏覽器與操作系統(tǒng)訪問服務(wù)器、不同用戶通過，同一工作站訪問同一個(gè)站點(diǎn)等。為識(shí)別用戶，就需要制定啟發(fā)式規(guī)則，為降低識(shí)別復(fù)雜性，一般采用一種基于用戶協(xié)作的算法，但因用戶信息安全性與秘密性要求增加了這一方法的使用難度，基于此，可設(shè)計(jì)一種啟發(fā)式規(guī)則如下：

每一個(gè)IP地址對(duì)應(yīng)一個(gè)用戶；當(dāng)多數(shù)日志中出現(xiàn)同樣的IP地址，而代理日志則提示有不同瀏覽器或操作系統(tǒng)訪問時(shí)，一個(gè)IP地址代表多個(gè)用戶；當(dāng)IP地址、瀏覽器與操作系統(tǒng)相同時(shí)，需要考慮是否存在網(wǎng)絡(luò)來路信息，即每一個(gè)訪問請(qǐng)求頁面與已訪問過的請(qǐng)求頁面之間是否存在鏈接，若某一訪問頁面和上一個(gè)用戶已存在的所有訪問頁面均無直接鏈接，用戶請(qǐng)求頁面無法利用任意網(wǎng)頁鏈接直接訪問另一個(gè)訪問頁面時(shí)，則表示另一個(gè)用戶則對(duì)應(yīng)相同的IP地址，該機(jī)器為多個(gè)用戶共同使用。這些規(guī)則僅為啟發(fā)式規(guī)則，而非精確識(shí)別獨(dú)立用戶的規(guī)則，當(dāng)用戶更換瀏覽器或直接輸入地址時(shí)，應(yīng)該視為多個(gè)用戶；若用戶使用同一個(gè)IP地址、瀏覽器與操作系統(tǒng)訪問服務(wù)器，且瀏覽頁面為相同集合時(shí)，則應(yīng)視為同一用戶。

2.3 會(huì)話識(shí)別

會(huì)話識(shí)別就是對(duì)用戶訪問活動(dòng)進(jìn)行分解，以多個(gè)會(huì)話過程體現(xiàn)，每一會(huì)話就表示1次用戶對(duì)站點(diǎn)訪問過程的集合。將用戶訪問頁面的所有行為分解為各個(gè)獨(dú)立的訪問頁面序列，對(duì)這些頁面序列進(jìn)行研究，就能夠獲取到用戶的瀏覽興趣或訪問模式。日志記錄中的引用頁面信息、兩條相鄰WEB日志記錄之間的時(shí)間差關(guān)系能夠用于確定某條記錄是否屬于一個(gè)已存在的會(huì)話過程或是另一個(gè)會(huì)話過程的第一記錄。時(shí)機(jī)機(jī)制法、參引長(zhǎng)度法、最大前向引用是目前主要使用的會(huì)話識(shí)別方法，時(shí)間閾值法則是一個(gè)更為精確的會(huì)話識(shí)別方法主要識(shí)別步驟為：

一個(gè)新用戶對(duì)應(yīng)一個(gè)新會(huì)話過程；用戶會(huì)話中的引用頁面信息項(xiàng)為空時(shí)，代表一個(gè)新會(huì)話過程；相鄰請(qǐng)求時(shí)間差超過閾值時(shí)，代表一個(gè)新會(huì)話過程，一般設(shè)置為25.5分鐘，超時(shí)閾值是判斷新會(huì)話過程的重要方法。

2.4 路徑補(bǔ)充

由于緩存技術(shù)與代理技術(shù)的應(yīng)用，用戶訪問使用緩存將訪問過程將大大簡(jiǎn)化，WEB記錄不會(huì)再記錄這些頁面的訪問請(qǐng)求，對(duì)之后的關(guān)聯(lián)規(guī)則算法獲取用戶訪問模式精確性有很大影響，路徑補(bǔ)充就是為了補(bǔ)全用戶訪問這些頁面時(shí)的完整訪問路徑。在補(bǔ)充時(shí)可采用與用戶識(shí)別規(guī)則相同的方法來補(bǔ)全路徑，通過網(wǎng)絡(luò)來路日志即可檢測(cè)訪問請(qǐng)求來路，其具體規(guī)則為：

由用戶最近訪問歷史記錄中提取訪問頁面，利用后退按鈕不斷回溯之前的訪問頁面，直至出現(xiàn)一個(gè)新頁面請(qǐng)求后，即可提取緩存版本。若網(wǎng)站來路無法確定時(shí)，則需要采用網(wǎng)站拓?fù)浞椒ㄟM(jìn)行補(bǔ)充，其基本思想在于：若用戶當(dāng)前訪問頁面和相鄰訪問頁面為超鏈接關(guān)系時(shí)，則提示當(dāng)前訪問和相鄰訪問之間路徑不完全；若用戶當(dāng)前訪問頁面referlog中存在多個(gè)與當(dāng)前頁面有超鏈接關(guān)系的頁面時(shí)，則判斷用戶是利用多個(gè)頁面中與當(dāng)前訪問頁面時(shí)間差最小的訪問頁面與當(dāng)前頁面發(fā)生超鏈接關(guān)系。在具體補(bǔ)充方法中，用戶會(huì)話的每次開始，網(wǎng)站來路與URI均會(huì)生成一個(gè)數(shù)據(jù)值，可加入一個(gè)分節(jié)符“-”用來刪除網(wǎng)站來路值。

路徑是否需要補(bǔ)充的判斷方法為：兩個(gè)連續(xù)訪問頁面P1、P2，若P1為P2引用頁面，兩個(gè)頁面之間就需要補(bǔ)全路徑，若非引用頁面，就需要檢查用戶訪問路徑中是否存在P2訪問頁面，若沒有，則判斷P2為用戶新會(huì)話過程，不需要再補(bǔ)全路徑，若有，則表明用戶是執(zhí)行了后退操作通過P1訪問了P2，需要補(bǔ)全路徑。

補(bǔ)全方法一般采取匹配父節(jié)點(diǎn)的方法完成，當(dāng)判斷兩個(gè)頁面之間需要補(bǔ)充路徑時(shí)，先檢查P2的父頁面，與P1的父節(jié)點(diǎn)進(jìn)行匹配，若相同，就可以直接將P1的父節(jié)點(diǎn)作為P1與P2之間的完整路徑；若不同，則需要繼續(xù)檢查P1的祖父節(jié)點(diǎn)，與P2父節(jié)點(diǎn)進(jìn)行匹配，直至所有需匹配的P2父節(jié)點(diǎn)均補(bǔ)全到用戶訪問路徑中。

3 實(shí)例測(cè)試

選擇一個(gè)52MB大小的數(shù)據(jù)源進(jìn)行實(shí)驗(yàn)，時(shí)間為2018.5.2-2018.7.5，原始WEB日志條目為51692，清理.gif文件后剩余條目為41362，清理.jpg(jpeg)后為25584，清理.wmv后為19473，清理.css后為14934，清理錯(cuò)誤碼后為10758，清理其他非相關(guān)性引用后獲得6438個(gè)條目，共包含3057次用戶訪問次數(shù)，單獨(dú)IP用戶為1127個(gè)，相

同IP用戶為369個(gè)，設(shè)定時(shí)間差閾值為25.5分鐘，對(duì)路徑進(jìn)行補(bǔ)充后，識(shí)別出3842次會(huì)話過程.經(jīng)數(shù)據(jù)預(yù)處理后，數(shù)據(jù)大小、質(zhì)量均獲得了顯著提高。

4 結(jié) 語

在完成對(duì)服務(wù)器端WEB文件的采集后，通過數(shù)據(jù)清理等一系列步驟，進(jìn)行有效的數(shù)據(jù)預(yù)處理。完成對(duì)服務(wù)器端用戶、會(huì)話的識(shí)別，在此過程中，采用了部分啟發(fā)式規(guī)則、路徑補(bǔ)充方法等，以實(shí)現(xiàn)簡(jiǎn)單、高效地識(shí)別用戶與會(huì)話的過程，經(jīng)測(cè)試，該方法有效地縮減了文件尺寸，提高了數(shù)據(jù)質(zhì)量，為后續(xù)的數(shù)據(jù)挖掘提供了高質(zhì)量的數(shù)據(jù)信息。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡