數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的應(yīng)用研究

2017-11-30 07:51:42崔鎮(zhèn)濤內(nèi)蒙古師范大學(xué)計(jì)算機(jī)學(xué)院

數(shù)碼世界 2017年11期

崔鎮(zhèn)濤內(nèi)蒙古師范大學(xué)計(jì)算機(jī)學(xué)院

崔鎮(zhèn)濤內(nèi)蒙古師范大學(xué)計(jì)算機(jī)學(xué)院

本文通過對(duì)數(shù)據(jù)挖掘技術(shù)的深入研究，將數(shù)據(jù)技術(shù)應(yīng)用在Web預(yù)取中，以期減少網(wǎng)絡(luò)的延遲。本文的重點(diǎn)就是介紹數(shù)據(jù)挖掘中的相關(guān)算法在Web預(yù)取中的應(yīng)用。

數(shù)據(jù)挖掘關(guān)聯(lián)算法 Web預(yù)取互聯(lián)網(wǎng)

隨著互聯(lián)網(wǎng)用戶的急劇增加，以及原有的Web服務(wù)和天然存在的網(wǎng)絡(luò)延遲，我國(guó)互聯(lián)網(wǎng)正在變得越來越擁擠，需要進(jìn)一步提升技術(shù)水平才能夠更好的滿足日益龐大的需求。將數(shù)據(jù)挖掘技術(shù)應(yīng)用到Web預(yù)取中，就是通過相關(guān)算法首先對(duì)用戶需求進(jìn)行預(yù)判，然后將用戶可能瀏覽的網(wǎng)頁存儲(chǔ)到本地緩存中，當(dāng)用戶真正需要瀏覽這些內(nèi)容時(shí)，可以直接調(diào)取緩存中的網(wǎng)頁信息，或者只需要緩存之前沒有預(yù)定的內(nèi)容，如此就可以大幅度減少緩存時(shí)間，提升用戶體驗(yàn)。

1 數(shù)據(jù)建模前期準(zhǔn)備

要想將數(shù)據(jù)挖掘技術(shù)應(yīng)用在Web預(yù)取中，第一步要做的就是對(duì)用戶行為以及興趣進(jìn)行分析。也就是說，將關(guān)聯(lián)規(guī)則算法應(yīng)用到分析用戶以往的Web使用日志上，以用戶的互聯(lián)網(wǎng)使用記錄為基礎(chǔ)進(jìn)行建模，增加機(jī)器學(xué)習(xí)，最終達(dá)到預(yù)測(cè)用戶行為的目的。

Web使用日志就是指用戶使用互聯(lián)網(wǎng)的數(shù)據(jù)記錄，以此為基礎(chǔ)應(yīng)用數(shù)據(jù)挖掘技術(shù)，建立相關(guān)的關(guān)聯(lián)模型，發(fā)現(xiàn)用戶的互聯(lián)網(wǎng)使用規(guī)律和瀏覽興趣，就可以此為依據(jù)建立起具有相當(dāng)準(zhǔn)確性和價(jià)值的用戶分析模型，為后續(xù)的Web預(yù)取打下基礎(chǔ)。Web使用日志數(shù)據(jù)挖掘處理的對(duì)象其實(shí)是所有用戶與互聯(lián)網(wǎng)的交互記錄，用這種技術(shù)處理Web使用日志，就能夠挖掘出其中的規(guī)律，然后建立起相匹配的模型，然后進(jìn)行用戶行為預(yù)測(cè)，去互聯(lián)網(wǎng)上尋找與用戶興趣相匹配的內(nèi)容，進(jìn)行預(yù)取，加快用戶瀏覽互聯(lián)網(wǎng)的速度，減少不必要的時(shí)間浪費(fèi)。

在這一階段，一般使用Aprior算法，找出在一個(gè)固定的周期內(nèi)，用戶在服務(wù)器上訪問特定網(wǎng)頁的次序，然后將信息進(jìn)行篩選和處理，儲(chǔ)存起來。這一算法的工作流程如下圖所示：

2 數(shù)據(jù)建模

在進(jìn)行正式的建模工作之前，需要得到上一步收集的各種數(shù)據(jù)，也就是Web使用日志。日志文件并不能夠直接處理，需要對(duì)格式進(jìn)行轉(zhuǎn)換，因此就首先需要日志文件的預(yù)處理工作，包括對(duì)數(shù)據(jù)進(jìn)行篩選，去掉無意義或者重復(fù)的數(shù)據(jù)，得到簡(jiǎn)練、爭(zhēng)取的用戶使用記錄數(shù)據(jù)，接下來就可以進(jìn)行數(shù)據(jù)建模了。

建模過程就是使用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)算法，對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行計(jì)算分析，從數(shù)據(jù)中發(fā)現(xiàn)特殊的模式集合。數(shù)據(jù)挖掘技術(shù)是計(jì)算理論、計(jì)算技術(shù)和計(jì)算機(jī)硬件不斷發(fā)展之后產(chǎn)生的一種新興技術(shù)，使用數(shù)據(jù)挖掘技術(shù)，可以在規(guī)模龐大的數(shù)據(jù)中分析出隱藏的、不被人所察覺的，同時(shí)又對(duì)科學(xué)決策和預(yù)測(cè)起到重要參考意義的知識(shí)和規(guī)則，根據(jù)這些成果，就可以科學(xué)合理預(yù)測(cè)用戶行為。本文建模使用的是關(guān)系規(guī)則算法，分析用戶的興趣關(guān)聯(lián)規(guī)則。興趣關(guān)聯(lián)規(guī)則體現(xiàn)出的是用戶使用互聯(lián)網(wǎng)的興趣之間的遞進(jìn)關(guān)系，通過對(duì)數(shù)據(jù)模型中的緩沖數(shù)據(jù)刪繁就簡(jiǎn)，表明不同網(wǎng)頁之間的鏈接關(guān)系，使用這種算法能夠直接表現(xiàn)出用戶興趣之間的遞進(jìn)關(guān)系。為了提高數(shù)據(jù)挖掘的效率，減少不必要的資源浪費(fèi)，再簡(jiǎn)化緩存區(qū)數(shù)據(jù)之時(shí)，要對(duì)一些低價(jià)值或者無價(jià)值數(shù)據(jù)進(jìn)行清除，比如各種留存下來的靜態(tài)和動(dòng)態(tài)圖片，還有頁面中的腳本程序。為了節(jié)省資源以及降低算法復(fù)雜程度，在建立數(shù)據(jù)模型之時(shí)，不需要考慮用戶興趣之間的傳遞關(guān)系，同時(shí)對(duì)于一些簡(jiǎn)單的興趣關(guān)聯(lián)規(guī)則模型，關(guān)聯(lián)分析法一般會(huì)比較合適。因?yàn)閿?shù)據(jù)挖掘技術(shù)是在巨量的數(shù)據(jù)之中挖掘規(guī)則和信息，因此一般需要較長(zhǎng)的處理時(shí)間，因此并不適合用于在線預(yù)測(cè)用戶的行為，其解決辦法就是預(yù)先預(yù)測(cè)。

為了保證所預(yù)測(cè)的用戶行為模式正確性高，需要在預(yù)測(cè)過程中不斷對(duì)模型的參數(shù)和算法細(xì)節(jié)進(jìn)行調(diào)整。當(dāng)?shù)玫揭欢ǖ念A(yù)測(cè)結(jié)果之后，就可以將這些結(jié)果儲(chǔ)存起來，放入庫中，并且使用用戶其他的使用數(shù)據(jù)進(jìn)行進(jìn)一步驗(yàn)證，進(jìn)行模型的驗(yàn)證和測(cè)試，如果驗(yàn)證結(jié)果超過了預(yù)定要求，就可以判定為可用。上述過程可以用下圖來表示：

上述數(shù)據(jù)建模過程，就是根據(jù)用戶的Web使用日志進(jìn)行數(shù)據(jù)挖掘分析，找出用戶興趣與行為方式，并且根據(jù)用戶使用習(xí)慣，對(duì)用戶的行為進(jìn)行預(yù)判的過程。

3 模型改進(jìn)與機(jī)器學(xué)習(xí)

當(dāng)一個(gè)瀏覽器加入了數(shù)據(jù)挖掘算法后，就可以進(jìn)行有效的Web預(yù)取，因此就以現(xiàn)有瀏覽器為基礎(chǔ)對(duì)其實(shí)現(xiàn)機(jī)制進(jìn)行改進(jìn)，改進(jìn)的方向有提供用戶的Web使用日志以及訪問記錄到專門的數(shù)據(jù)存儲(chǔ)位置，在用戶使用互聯(lián)網(wǎng)的空閑時(shí)間，啟動(dòng)分析模型，對(duì)用戶接下來使用的網(wǎng)頁進(jìn)行科學(xué)合理的預(yù)測(cè)，找到最有可能訪問的一個(gè)或者少數(shù)幾個(gè)網(wǎng)頁進(jìn)行預(yù)先緩存，當(dāng)用戶真的是用了預(yù)先緩存的這些網(wǎng)頁之后，就可以從緩存之中直接調(diào)取，供用戶使用以減少時(shí)間，如果用戶沒有訪問這幾個(gè)網(wǎng)頁，那么就記下用戶的這次行為，以便后期對(duì)模型進(jìn)行修改進(jìn)行數(shù)據(jù)儲(chǔ)備。經(jīng)過這個(gè)過程，就可以大幅減少因?yàn)榫W(wǎng)絡(luò)延遲和服務(wù)器延遲帶來的使用卡頓現(xiàn)象，從而減少用戶等待時(shí)間內(nèi)，提升用戶的使用體驗(yàn)。具體的過程如下圖所示：

將數(shù)據(jù)挖掘技術(shù)應(yīng)用到Web預(yù)取之中，就是機(jī)器的自我學(xué)習(xí)與調(diào)整。但是應(yīng)當(dāng)注意到的是，由于算法目前還存在著很大的局限性，同時(shí)人與人之間的差異性極大，而用戶使用互聯(lián)網(wǎng)的隨意性非常高，在使用關(guān)聯(lián)算法進(jìn)行用戶行為預(yù)測(cè)之時(shí)，初期產(chǎn)生的誤差可能會(huì)非常巨大，一開始預(yù)測(cè)的準(zhǔn)確性可能會(huì)很低，甚至有可能會(huì)造成緩存數(shù)據(jù)無用而占用存儲(chǔ)空間影響系統(tǒng)運(yùn)行效率或者是對(duì)網(wǎng)絡(luò)帶寬的浪費(fèi)。鑒于此，改進(jìn)機(jī)器學(xué)習(xí)算法，改進(jìn)關(guān)聯(lián)算法，改進(jìn)所有的數(shù)據(jù)挖掘算法就會(huì)是一項(xiàng)長(zhǎng)期的、艱巨的工作，目的就是要不斷提升結(jié)果的準(zhǔn)確性。可以預(yù)見的是，當(dāng)預(yù)測(cè)結(jié)果的精確度達(dá)到一定程度之后，數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的地位會(huì)越來越重，應(yīng)用范圍會(huì)越來越廣，同時(shí)也會(huì)給用戶帶來越來越好的用戶體驗(yàn)。

4 Web預(yù)取技術(shù)的應(yīng)用

現(xiàn)在的市場(chǎng)上，已經(jīng)有很多Web預(yù)取軟件，比如Netsonic瀏覽器加速軟件，這種軟件就會(huì)預(yù)先讀取與用戶正在讀取的網(wǎng)頁相連接的網(wǎng)頁中的文字信息，這樣就可以節(jié)省帶寬緩存下一個(gè)網(wǎng)頁中占帶寬較多的軟件，節(jié)省用戶的時(shí)間。但是這種軟件的缺點(diǎn)就是會(huì)預(yù)先緩存很多對(duì)用戶無用的信息，浪費(fèi)帶寬和存儲(chǔ)空間。

數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中起到的作用越來越高，尤其是像淘寶、京東之類的電商平臺(tái)，和在線金融，網(wǎng)上醫(yī)療等服務(wù)行業(yè)，同時(shí)很多的政府部門也對(duì)這項(xiàng)技術(shù)有很大的興趣。

5 總結(jié)

本文介紹了數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的應(yīng)用，可以看到的是，這項(xiàng)技術(shù)有著非常廣闊的應(yīng)用前景，能夠?yàn)樘嵘脩趔w驗(yàn)，節(jié)省互聯(lián)網(wǎng)資源提供巨大的幫助。

[1]張為.基于Web日志的數(shù)據(jù)挖掘及其在Web預(yù)取中的應(yīng)用研究[D].華中科技大學(xué),2006.

[2]謝怡文.試分析數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的應(yīng)用[J].電腦編程技巧與維護(hù),2017,(07):66-67+74.[2017-09-12].

10.16184/j.cnki.comprg.2017.07.027

崔鎮(zhèn)濤（1992.04），男，內(nèi)蒙古包頭市人，碩士研究生，研究方向：軟件工程。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的應(yīng)用研究

1 數(shù)據(jù)建模前期準(zhǔn)備

2 數(shù)據(jù)建模

3 模型改進(jìn)與機(jī)器學(xué)習(xí)

4 Web預(yù)取技術(shù)的應(yīng)用

5 總結(jié)