国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

WEB挖掘數(shù)據(jù)預(yù)處理方法分析與實(shí)現(xiàn)

2018-01-01 14:45陳建鋒
關(guān)鍵詞:服務(wù)器端IP地址日志

陳建鋒

(安徽職業(yè)技術(shù)學(xué)院 信息工程學(xué)院,安徽 合肥 230011)

WEB數(shù)據(jù)預(yù)處理是WEB使用挖掘的首要步驟,是后續(xù)數(shù)據(jù)挖掘,生成目標(biāo)數(shù)據(jù)的重要步驟[1]。用戶訪問Internet服務(wù)器時(shí),會(huì)留下來源于各種數(shù)據(jù)源的使用痕跡,通過服務(wù)器端與客戶端對(duì)數(shù)據(jù)進(jìn)行采集分析是主要的數(shù)據(jù)源收集分析方法。服務(wù)器端數(shù)據(jù)主要來源于用戶訪問服務(wù)器時(shí)交互生成的各種數(shù)據(jù),并存放在服務(wù)器端WEB日志中[2]。數(shù)據(jù)預(yù)處理是WEB使用控制的重點(diǎn)技術(shù),是對(duì)WEB使用數(shù)據(jù)的有效提取、分解與合并。本研究介紹一種新型WEB使用挖掘數(shù)據(jù)預(yù)處理方法。

1 WEB使用挖掘與數(shù)據(jù)預(yù)處理

WEB使用挖掘:通過數(shù)據(jù)挖掘技術(shù),提取互聯(lián)網(wǎng)訪問中相關(guān)數(shù)據(jù)與行為中的相關(guān)感興趣的、有價(jià)值的模式,以及相關(guān)隱含信息,是包含WEB技術(shù)、計(jì)算機(jī)語言學(xué)、數(shù)據(jù)挖掘技術(shù)、信息學(xué)等領(lǐng)域的相關(guān)性綜合技術(shù)[3]。WEB日志挖掘是最重要的使用挖掘,通過對(duì)服務(wù)器日志文件的挖掘,獲取并分析用戶訪問WEB頁面時(shí)的模式,識(shí)別用戶的喜好、忠實(shí)度、滿意度,有針對(duì)性地優(yōu)化WEB站點(diǎn)性能、結(jié)構(gòu),為用戶提供個(gè)性化的服務(wù),或?yàn)樯虡I(yè)組織提供針對(duì)性的商業(yè)智能服務(wù)[4]。WEB使用挖掘主要包括三個(gè)步驟:第一,數(shù)據(jù)預(yù)處理,即提取、分解再合并WEB日志中的數(shù)據(jù),并轉(zhuǎn)換為可用于數(shù)據(jù)挖掘的相應(yīng)數(shù)據(jù)格式,存儲(chǔ)到數(shù)據(jù)庫中以便服務(wù)于后續(xù)數(shù)據(jù)處理;第二步,模式識(shí)別,即利用多種算法挖掘處理后的數(shù)據(jù)以生成新模式;第三步,數(shù)據(jù)分析,即分析用戶訪問WEB的模式,并提取有效模式[5]。數(shù)據(jù)預(yù)處理是整個(gè)數(shù)據(jù)挖掘的基礎(chǔ),是挖掘算法有效實(shí)施的充分條件。

2 WEB使用挖掘數(shù)據(jù)預(yù)處理實(shí)現(xiàn)

WEB挖掘數(shù)據(jù)預(yù)處理主要由數(shù)據(jù)清理、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)充與事務(wù)識(shí)別五個(gè)步驟。該過程是數(shù)據(jù)準(zhǔn)備工作的第一步,是對(duì)識(shí)別用戶會(huì)話所生成的WEB初始日志的格式化,用戶會(huì)話數(shù)據(jù)中包含網(wǎng)站網(wǎng)頁訪問者、訪問頁面、頁面訪問順序、每個(gè)頁面的訪問時(shí)間等信息,用戶一旦發(fā)起對(duì)網(wǎng)站資源的請(qǐng)求時(shí),WEB服務(wù)器就會(huì)將相關(guān)日志信息全部記錄下來,并以服務(wù)器日志格式將所有網(wǎng)站中的用戶活動(dòng)信息[6]。數(shù)據(jù)預(yù)處理的一個(gè)重要任務(wù)就是對(duì)服務(wù)器日志文件的字段抽取,將日志文件中的每行數(shù)據(jù)以不同字段過程隔離出來進(jìn)行字段抽段,將日志項(xiàng)需要作進(jìn)一步處理與應(yīng)用的數(shù)據(jù)進(jìn)行隔離,以生成各個(gè)有價(jià)值的字段,并生成一個(gè)新日志文件。服務(wù)器參數(shù)設(shè)置差異會(huì)導(dǎo)致WEB日志類型存在一定的差異,但在基本信息上存在統(tǒng)一性,主要包括用戶IP、訪問請(qǐng)求時(shí)間、URL、HTTP狀態(tài)碼、網(wǎng)絡(luò)來路等,如以下為某個(gè)IIS服務(wù)器WEB日志數(shù)據(jù)中的一個(gè)片段:

#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query

s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-

win32-status sc-bytes cs-bytes

2018-05-1115:44:21W3SVC381 202.199.120.47 GET/news/news.

asp id=200 80-203.208.60.169 Mozilla/60.0+(compatible;+Googlebot

/2.1;++http://google.com/bot.html)200 0 0 29057 298

要實(shí)現(xiàn)數(shù)據(jù)預(yù)處理就要完成以下步驟:

2.1 數(shù)據(jù)清理

數(shù)據(jù)清理是通過對(duì)原始數(shù)據(jù)的填充、糾正與刪除等操作,將所有冗余數(shù)據(jù)清理掉,主要包括嵌入對(duì)象中的非相關(guān)性引用及錯(cuò)誤請(qǐng)求,在處理時(shí),需要保留的文件后綴主要是html、asp、asp.net(.aspx)、php及jsp等文件,這些頁面中包含了可指向其他頁面的超級(jí)鏈接,是用戶瀏覽興趣所在,而txt、jpg、gif、wmv等則主要是經(jīng)超級(jí)鏈接所訪問的文件,用戶一般不會(huì)直接輸入地址訪問這些內(nèi)容,并非用戶瀏覽興趣所在,屬于非相關(guān)性引用,如果數(shù)據(jù)挖掘的目的在于分析網(wǎng)絡(luò)流量時(shí),又會(huì)增加這些信息的重要性,因此刪除時(shí)需要記錄這些記錄中的“發(fā)送字節(jié)數(shù)”“接收字節(jié)數(shù)”兩個(gè)域中的內(nèi)容。極短訪問時(shí)間、低于所設(shè)定闕值的請(qǐng)求記錄則屬于由當(dāng)前頁面后退至前一頁面再由該頁面向其他頁面鏈接的訪問模式,也在可刪除之列。錯(cuò)誤代碼是需要特別注意的另外一類不相關(guān)的無效數(shù)據(jù),必須檢測(cè)并移除這些錯(cuò)誤代碼。狀態(tài)碼主要有成功、重定向、失敗與服務(wù)器錯(cuò)誤四類,在預(yù)處理階段,需清理所有錯(cuò)誤碼,如401錯(cuò)誤碼表示身份驗(yàn)證失敗,404錯(cuò)誤碼則表示文件未找到,這類錯(cuò)誤碼與分析過程相關(guān)性極低,這類狀態(tài)碼會(huì)在sc-status中有相關(guān)代碼提示,屬于需要清理的數(shù)據(jù)。此外,非GET類請(qǐng)求方法數(shù)據(jù)、服務(wù)器端地址與端口號(hào)等數(shù)據(jù)也屬于可清理的數(shù)據(jù)。清理結(jié)束后,將清理后的數(shù)據(jù)整合、合并為一種可接受的格式,為不同挖掘過程提供輸入數(shù)據(jù)。

2.2 用戶識(shí)別

用戶識(shí)別即從日志文件記錄中識(shí)別有訪問響應(yīng)的獨(dú)立用戶,一般的規(guī)則基于網(wǎng)絡(luò)來路規(guī)則通過IP地址識(shí)別不同用戶,但由于訪問頁面時(shí)用戶會(huì)使用緩存、防火墻與代理服務(wù)器等技術(shù),因此識(shí)別用戶的復(fù)雜性很高,用戶在訪問服務(wù)器時(shí)就可能會(huì)出現(xiàn)多種情況:不同用戶同一時(shí)間內(nèi),由代理服務(wù)器對(duì)服務(wù)器進(jìn)行訪問、同一訪問服務(wù)器,用戶使用不一樣的工作站、相同用戶同工作站中用不同瀏覽器與操作系統(tǒng)訪問服務(wù)器、不同用戶通過,同一工作站訪問同一個(gè)站點(diǎn)等。為識(shí)別用戶,就需要制定啟發(fā)式規(guī)則, 為降低識(shí)別復(fù)雜性,一般采用一種基于用戶協(xié)作的算法,但因用戶信息安全性與秘密性要求增加了這一方法的使用難度,基于此,可設(shè)計(jì)一種啟發(fā)式規(guī)則如下:

每一個(gè)IP地址對(duì)應(yīng)一個(gè)用戶;當(dāng)多數(shù)日志中出現(xiàn)同樣的IP地址,而代理日志則提示有不同瀏覽器或操作系統(tǒng)訪問時(shí),一個(gè)IP地址代表多個(gè)用戶;當(dāng)IP地址、瀏覽器與操作系統(tǒng)相同時(shí),需要考慮是否存在網(wǎng)絡(luò)來路信息,即每一個(gè)訪問請(qǐng)求頁面與已訪問過的請(qǐng)求頁面之間是否存在鏈接,若某一訪問頁面和上一個(gè)用戶已存在的所有訪問頁面均無直接鏈接,用戶請(qǐng)求頁面無法利用任意網(wǎng)頁鏈接直接訪問另一個(gè)訪問頁面時(shí),則表示另一個(gè)用戶則對(duì)應(yīng)相同的IP地址,該機(jī)器為多個(gè)用戶共同使用。這些規(guī)則僅為啟發(fā)式規(guī)則,而非精確識(shí)別獨(dú)立用戶的規(guī)則,當(dāng)用戶更換瀏覽器或直接輸入地址時(shí),應(yīng)該視為多個(gè)用戶;若用戶使用同一個(gè)IP地址、瀏覽器與操作系統(tǒng)訪問服務(wù)器,且瀏覽頁面為相同集合時(shí),則應(yīng)視為同一用戶。

2.3 會(huì)話識(shí)別

會(huì)話識(shí)別就是對(duì)用戶訪問活動(dòng)進(jìn)行分解,以多個(gè)會(huì)話過程體現(xiàn),每一會(huì)話就表示1次用戶對(duì)站點(diǎn)訪問過程的集合。將用戶訪問頁面的所有行為分解為各個(gè)獨(dú)立的訪問頁面序列,對(duì)這些頁面序列進(jìn)行研究,就能夠獲取到用戶的瀏覽興趣或訪問模式。日志記錄中的引用頁面信息、兩條相鄰WEB日志記錄之間的時(shí)間差關(guān)系能夠用于確定某條記錄是否屬于一個(gè)已存在的會(huì)話過程或是另一個(gè)會(huì)話過程的第一記錄。時(shí)機(jī)機(jī)制法、參引長(zhǎng)度法、最大前向引用是目前主要使用的會(huì)話識(shí)別方法,時(shí)間閾值法則是一個(gè)更為精確的會(huì)話識(shí)別方法主要識(shí)別步驟為:

一個(gè)新用戶對(duì)應(yīng)一個(gè)新會(huì)話過程;用戶會(huì)話中的引用頁面信息項(xiàng)為空時(shí),代表一個(gè)新會(huì)話過程;相鄰請(qǐng)求時(shí)間差超過閾值時(shí),代表一個(gè)新會(huì)話過程,一般設(shè)置為25.5分鐘,超時(shí)閾值是判斷新會(huì)話過程的重要方法。

2.4 路徑補(bǔ)充

由于緩存技術(shù)與代理技術(shù)的應(yīng)用,用戶訪問使用緩存將訪問過程將大大簡(jiǎn)化,WEB記錄不會(huì)再記錄這些頁面的訪問請(qǐng)求,對(duì)之后的關(guān)聯(lián)規(guī)則算法獲取用戶訪問模式精確性有很大影響,路徑補(bǔ)充就是為了補(bǔ)全用戶訪問這些頁面時(shí)的完整訪問路徑。在補(bǔ)充時(shí)可采用與用戶識(shí)別規(guī)則相同的方法來補(bǔ)全路徑,通過網(wǎng)絡(luò)來路日志即可檢測(cè)訪問請(qǐng)求來路,其具體規(guī)則為:

由用戶最近訪問歷史記錄中提取訪問頁面,利用后退按鈕不斷回溯之前的訪問頁面,直至出現(xiàn)一個(gè)新頁面請(qǐng)求后,即可提取緩存版本。若網(wǎng)站來路無法確定時(shí),則需要采用網(wǎng)站拓?fù)浞椒ㄟM(jìn)行補(bǔ)充,其基本思想在于:若用戶當(dāng)前訪問頁面和相鄰訪問頁面為超鏈接關(guān)系時(shí),則提示當(dāng)前訪問和相鄰訪問之間路徑不完全;若用戶當(dāng)前訪問頁面referlog中存在多個(gè)與當(dāng)前頁面有超鏈接關(guān)系的頁面時(shí),則判斷用戶是利用多個(gè)頁面中與當(dāng)前訪問頁面時(shí)間差最小的訪問頁面與當(dāng)前頁面發(fā)生超鏈接關(guān)系。在具體補(bǔ)充方法中,用戶會(huì)話的每次開始,網(wǎng)站來路與URI均會(huì)生成一個(gè)數(shù)據(jù)值,可加入一個(gè)分節(jié)符“-”用來刪除網(wǎng)站來路值。

路徑是否需要補(bǔ)充的判斷方法為:兩個(gè)連續(xù)訪問頁面P1、P2,若P1為P2引用頁面,兩個(gè)頁面之間就需要補(bǔ)全路徑,若非引用頁面,就需要檢查用戶訪問路徑中是否存在P2訪問頁面,若沒有,則判斷P2為用戶新會(huì)話過程,不需要再補(bǔ)全路徑,若有,則表明用戶是執(zhí)行了后退操作通過P1訪問了P2,需要補(bǔ)全路徑。

補(bǔ)全方法一般采取匹配父節(jié)點(diǎn)的方法完成,當(dāng)判斷兩個(gè)頁面之間需要補(bǔ)充路徑時(shí),先檢查P2的父頁面,與P1的父節(jié)點(diǎn)進(jìn)行匹配,若相同,就可以直接將P1的父節(jié)點(diǎn)作為P1與P2之間的完整路徑;若不同,則需要繼續(xù)檢查P1的祖父節(jié)點(diǎn),與P2父節(jié)點(diǎn)進(jìn)行匹配,直至所有需匹配的P2父節(jié)點(diǎn)均補(bǔ)全到用戶訪問路徑中。

3 實(shí)例測(cè)試

選擇一個(gè)52MB大小的數(shù)據(jù)源進(jìn)行實(shí)驗(yàn),時(shí)間為2018.5.2-2018.7.5,原始WEB日志條目為51692,清理.gif文件后剩余條目為41362,清理.jpg(jpeg)后為25584,清理.wmv后為19473,清理.css后為14934,清理錯(cuò)誤碼后為10758,清理其他非相關(guān)性引用后獲得6438個(gè)條目,共包含3057次用戶訪問次數(shù),單獨(dú)IP用戶為1127個(gè),相

同IP用戶為369個(gè),設(shè)定時(shí)間差閾值為25.5分鐘,對(duì)路徑進(jìn)行補(bǔ)充后,識(shí)別出3842次會(huì)話過程.經(jīng)數(shù)據(jù)預(yù)處理后,數(shù)據(jù)大小、質(zhì)量均獲得了顯著提高。

4 結(jié) 語

在完成對(duì)服務(wù)器端WEB文件的采集后,通過數(shù)據(jù)清理等一系列步驟,進(jìn)行有效的數(shù)據(jù)預(yù)處理。完成對(duì)服務(wù)器端用戶、會(huì)話的識(shí)別,在此過程中,采用了部分啟發(fā)式規(guī)則、路徑補(bǔ)充方法等,以實(shí)現(xiàn)簡(jiǎn)單、高效地識(shí)別用戶與會(huì)話的過程,經(jīng)測(cè)試,該方法有效地縮減了文件尺寸,提高了數(shù)據(jù)質(zhì)量,為后續(xù)的數(shù)據(jù)挖掘提供了高質(zhì)量的數(shù)據(jù)信息。

猜你喜歡
服務(wù)器端IP地址日志
一名老黨員的工作日志
Linux環(huán)境下基于Socket的數(shù)據(jù)傳輸軟件設(shè)計(jì)
扶貧日志
雅皮的心情日志
雅皮的心情日志
基于Qt的安全即時(shí)通訊軟件服務(wù)器端設(shè)計(jì)
公安網(wǎng)絡(luò)中IP地址智能管理的研究與思考
基于Qt的網(wǎng)絡(luò)聊天軟件服務(wù)器端設(shè)計(jì)
《IP地址及其管理》教學(xué)設(shè)計(jì)
基于C/S架構(gòu)的嵌入式監(jiān)控組態(tài)外設(shè)擴(kuò)展機(jī)制研究與應(yīng)用