崔鎮(zhèn)濤 內(nèi)蒙古師范大學(xué)計(jì)算機(jī)學(xué)院
數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的應(yīng)用研究
崔鎮(zhèn)濤 內(nèi)蒙古師范大學(xué)計(jì)算機(jī)學(xué)院
本文通過對(duì)數(shù)據(jù)挖掘技術(shù)的深入研究,將數(shù)據(jù)技術(shù)應(yīng)用在Web預(yù)取中,以期減少網(wǎng)絡(luò)的延遲。本文的重點(diǎn)就是介紹數(shù)據(jù)挖掘中的相關(guān)算法在Web預(yù)取中的應(yīng)用。
數(shù)據(jù)挖掘 關(guān)聯(lián)算法 Web預(yù)取 互聯(lián)網(wǎng)
隨著互聯(lián)網(wǎng)用戶的急劇增加,以及原有的Web服務(wù)和天然存在的網(wǎng)絡(luò)延遲,我國(guó)互聯(lián)網(wǎng)正在變得越來越擁擠,需要進(jìn)一步提升技術(shù)水平才能夠更好的滿足日益龐大的需求。將數(shù)據(jù)挖掘技術(shù)應(yīng)用到Web預(yù)取中,就是通過相關(guān)算法首先對(duì)用戶需求進(jìn)行預(yù)判,然后將用戶可能瀏覽的網(wǎng)頁存儲(chǔ)到本地緩存中,當(dāng)用戶真正需要瀏覽這些內(nèi)容時(shí),可以直接調(diào)取緩存中的網(wǎng)頁信息,或者只需要緩存之前沒有預(yù)定的內(nèi)容,如此就可以大幅度減少緩存時(shí)間,提升用戶體驗(yàn)。
要想將數(shù)據(jù)挖掘技術(shù)應(yīng)用在Web預(yù)取中,第一步要做的就是對(duì)用戶行為以及興趣進(jìn)行分析。也就是說,將關(guān)聯(lián)規(guī)則算法應(yīng)用到分析用戶以往的Web使用日志上,以用戶的互聯(lián)網(wǎng)使用記錄為基礎(chǔ)進(jìn)行建模,增加機(jī)器學(xué)習(xí),最終達(dá)到預(yù)測(cè)用戶行為的目的。
Web使用日志就是指用戶使用互聯(lián)網(wǎng)的數(shù)據(jù)記錄,以此為基礎(chǔ)應(yīng)用數(shù)據(jù)挖掘技術(shù),建立相關(guān)的關(guān)聯(lián)模型,發(fā)現(xiàn)用戶的互聯(lián)網(wǎng)使用規(guī)律和瀏覽興趣,就可以此為依據(jù)建立起具有相當(dāng)準(zhǔn)確性和價(jià)值的用戶分析模型,為后續(xù)的Web預(yù)取打下基礎(chǔ)。Web使用日志數(shù)據(jù)挖掘處理的對(duì)象其實(shí)是所有用戶與互聯(lián)網(wǎng)的交互記錄,用這種技術(shù)處理Web使用日志,就能夠挖掘出其中的規(guī)律,然后建立起相匹配的模型,然后進(jìn)行用戶行為預(yù)測(cè),去互聯(lián)網(wǎng)上尋找與用戶興趣相匹配的內(nèi)容,進(jìn)行預(yù)取,加快用戶瀏覽互聯(lián)網(wǎng)的速度,減少不必要的時(shí)間浪費(fèi)。
在這一階段,一般使用Aprior算法,找出在一個(gè)固定的周期內(nèi),用戶在服務(wù)器上訪問特定網(wǎng)頁的次序,然后將信息進(jìn)行篩選和處理,儲(chǔ)存起來。這一算法的工作流程如下圖所示:
在進(jìn)行正式的建模工作之前,需要得到上一步收集的各種數(shù)據(jù),也就是Web使用日志。日志文件并不能夠直接處理,需要對(duì)格式進(jìn)行轉(zhuǎn)換,因此就首先需要日志文件的預(yù)處理工作,包括對(duì)數(shù)據(jù)進(jìn)行篩選,去掉無意義或者重復(fù)的數(shù)據(jù),得到簡(jiǎn)練、爭(zhēng)取的用戶使用記錄數(shù)據(jù),接下來就可以進(jìn)行數(shù)據(jù)建模了。
建模過程就是使用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)算法,對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行計(jì)算分析,從數(shù)據(jù)中發(fā)現(xiàn)特殊的模式集合。數(shù)據(jù)挖掘技術(shù)是計(jì)算理論、計(jì)算技術(shù)和計(jì)算機(jī)硬件不斷發(fā)展之后產(chǎn)生的一種新興技術(shù),使用數(shù)據(jù)挖掘技術(shù),可以在規(guī)模龐大的數(shù)據(jù)中分析出隱藏的、不被人所察覺的,同時(shí)又對(duì)科學(xué)決策和預(yù)測(cè)起到重要參考意義的知識(shí)和規(guī)則,根據(jù)這些成果,就可以科學(xué)合理預(yù)測(cè)用戶行為。本文建模使用的是關(guān)系規(guī)則算法,分析用戶的興趣關(guān)聯(lián)規(guī)則。興趣關(guān)聯(lián)規(guī)則體現(xiàn)出的是用戶使用互聯(lián)網(wǎng)的興趣之間的遞進(jìn)關(guān)系,通過對(duì)數(shù)據(jù)模型中的緩沖數(shù)據(jù)刪繁就簡(jiǎn),表明不同網(wǎng)頁之間的鏈接關(guān)系,使用這種算法能夠直接表現(xiàn)出用戶興趣之間的遞進(jìn)關(guān)系。為了提高數(shù)據(jù)挖掘的效率,減少不必要的資源浪費(fèi),再簡(jiǎn)化緩存區(qū)數(shù)據(jù)之時(shí),要對(duì)一些低價(jià)值或者無價(jià)值數(shù)據(jù)進(jìn)行清除,比如各種留存下來的靜態(tài)和動(dòng)態(tài)圖片,還有頁面中的腳本程序。為了節(jié)省資源以及降低算法復(fù)雜程度,在建立數(shù)據(jù)模型之時(shí),不需要考慮用戶興趣之間的傳遞關(guān)系,同時(shí)對(duì)于一些簡(jiǎn)單的興趣關(guān)聯(lián)規(guī)則模型,關(guān)聯(lián)分析法一般會(huì)比較合適。因?yàn)閿?shù)據(jù)挖掘技術(shù)是在巨量的數(shù)據(jù)之中挖掘規(guī)則和信息,因此一般需要較長(zhǎng)的處理時(shí)間,因此并不適合用于在線預(yù)測(cè)用戶的行為,其解決辦法就是預(yù)先預(yù)測(cè)。
為了保證所預(yù)測(cè)的用戶行為模式正確性高,需要在預(yù)測(cè)過程中不斷對(duì)模型的參數(shù)和算法細(xì)節(jié)進(jìn)行調(diào)整。當(dāng)?shù)玫揭欢ǖ念A(yù)測(cè)結(jié)果之后,就可以將這些結(jié)果儲(chǔ)存起來,放入庫中,并且使用用戶其他的使用數(shù)據(jù)進(jìn)行進(jìn)一步驗(yàn)證,進(jìn)行模型的驗(yàn)證和測(cè)試,如果驗(yàn)證結(jié)果超過了預(yù)定要求,就可以判定為可用。上述過程可以用下圖來表示:
上述數(shù)據(jù)建模過程,就是根據(jù)用戶的Web使用日志進(jìn)行數(shù)據(jù)挖掘分析,找出用戶興趣與行為方式,并且根據(jù)用戶使用習(xí)慣,對(duì)用戶的行為進(jìn)行預(yù)判的過程。
當(dāng)一個(gè)瀏覽器加入了數(shù)據(jù)挖掘算法后,就可以進(jìn)行有效的Web預(yù)取,因此就以現(xiàn)有瀏覽器為基礎(chǔ)對(duì)其實(shí)現(xiàn)機(jī)制進(jìn)行改進(jìn),改進(jìn)的方向有提供用戶的Web使用日志以及訪問記錄到專門的數(shù)據(jù)存儲(chǔ)位置,在用戶使用互聯(lián)網(wǎng)的空閑時(shí)間,啟動(dòng)分析模型,對(duì)用戶接下來使用的網(wǎng)頁進(jìn)行科學(xué)合理的預(yù)測(cè),找到最有可能訪問的一個(gè)或者少數(shù)幾個(gè)網(wǎng)頁進(jìn)行預(yù)先緩存,當(dāng)用戶真的是用了預(yù)先緩存的這些網(wǎng)頁之后,就可以從緩存之中直接調(diào)取,供用戶使用以減少時(shí)間,如果用戶沒有訪問這幾個(gè)網(wǎng)頁,那么就記下用戶的這次行為,以便后期對(duì)模型進(jìn)行修改進(jìn)行數(shù)據(jù)儲(chǔ)備。經(jīng)過這個(gè)過程,就可以大幅減少因?yàn)榫W(wǎng)絡(luò)延遲和服務(wù)器延遲帶來的使用卡頓現(xiàn)象,從而減少用戶等待時(shí)間內(nèi),提升用戶的使用體驗(yàn)。具體的過程如下圖所示:
將數(shù)據(jù)挖掘技術(shù)應(yīng)用到Web預(yù)取之中,就是機(jī)器的自我學(xué)習(xí)與調(diào)整。但是應(yīng)當(dāng)注意到的是,由于算法目前還存在著很大的局限性,同時(shí)人與人之間的差異性極大,而用戶使用互聯(lián)網(wǎng)的隨意性非常高,在使用關(guān)聯(lián)算法進(jìn)行用戶行為預(yù)測(cè)之時(shí),初期產(chǎn)生的誤差可能會(huì)非常巨大,一開始預(yù)測(cè)的準(zhǔn)確性可能會(huì)很低,甚至有可能會(huì)造成緩存數(shù)據(jù)無用而占用存儲(chǔ)空間影響系統(tǒng)運(yùn)行效率或者是對(duì)網(wǎng)絡(luò)帶寬的浪費(fèi)。鑒于此,改進(jìn)機(jī)器學(xué)習(xí)算法,改進(jìn)關(guān)聯(lián)算法,改進(jìn)所有的數(shù)據(jù)挖掘算法就會(huì)是一項(xiàng)長(zhǎng)期的、艱巨的工作,目的就是要不斷提升結(jié)果的準(zhǔn)確性。可以預(yù)見的是,當(dāng)預(yù)測(cè)結(jié)果的精確度達(dá)到一定程度之后,數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的地位會(huì)越來越重,應(yīng)用范圍會(huì)越來越廣,同時(shí)也會(huì)給用戶帶來越來越好的用戶體驗(yàn)。
現(xiàn)在的市場(chǎng)上,已經(jīng)有很多Web預(yù)取軟件,比如Netsonic瀏覽器加速軟件,這種軟件就會(huì)預(yù)先讀取與用戶正在讀取的網(wǎng)頁相連接的網(wǎng)頁中的文字信息,這樣就可以節(jié)省帶寬緩存下一個(gè)網(wǎng)頁中占帶寬較多的軟件,節(jié)省用戶的時(shí)間。但是這種軟件的缺點(diǎn)就是會(huì)預(yù)先緩存很多對(duì)用戶無用的信息,浪費(fèi)帶寬和存儲(chǔ)空間。
數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中起到的作用越來越高,尤其是像淘寶、京東之類的電商平臺(tái),和在線金融,網(wǎng)上醫(yī)療等服務(wù)行業(yè),同時(shí)很多的政府部門也對(duì)這項(xiàng)技術(shù)有很大的興趣。
本文介紹了數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的應(yīng)用,可以看到的是,這項(xiàng)技術(shù)有著非常廣闊的應(yīng)用前景,能夠?yàn)樘嵘脩趔w驗(yàn),節(jié)省互聯(lián)網(wǎng)資源提供巨大的幫助。
[1]張為.基于Web日志的數(shù)據(jù)挖掘及其在Web預(yù)取中的應(yīng)用研究[D].華中科技大學(xué),2006.
[2]謝怡文.試分析數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的應(yīng)用[J].電腦編程技巧與維護(hù),2017,(07):66-67+74.[2017-09-12].
10.16184/j.cnki.comprg.2017.07.027
崔鎮(zhèn)濤(1992.04),男,內(nèi)蒙古包頭市人,碩士研究生,研究方向:軟件工程。