国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的應(yīng)用研究

2017-11-30 07:51:42崔鎮(zhèn)濤內(nèi)蒙古師范大學(xué)計(jì)算機(jī)學(xué)院
數(shù)碼世界 2017年11期
關(guān)鍵詞:日志網(wǎng)頁數(shù)據(jù)挖掘

崔鎮(zhèn)濤 內(nèi)蒙古師范大學(xué)計(jì)算機(jī)學(xué)院

數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的應(yīng)用研究

崔鎮(zhèn)濤 內(nèi)蒙古師范大學(xué)計(jì)算機(jī)學(xué)院

本文通過對(duì)數(shù)據(jù)挖掘技術(shù)的深入研究,將數(shù)據(jù)技術(shù)應(yīng)用在Web預(yù)取中,以期減少網(wǎng)絡(luò)的延遲。本文的重點(diǎn)就是介紹數(shù)據(jù)挖掘中的相關(guān)算法在Web預(yù)取中的應(yīng)用。

數(shù)據(jù)挖掘 關(guān)聯(lián)算法 Web預(yù)取 互聯(lián)網(wǎng)

隨著互聯(lián)網(wǎng)用戶的急劇增加,以及原有的Web服務(wù)和天然存在的網(wǎng)絡(luò)延遲,我國(guó)互聯(lián)網(wǎng)正在變得越來越擁擠,需要進(jìn)一步提升技術(shù)水平才能夠更好的滿足日益龐大的需求。將數(shù)據(jù)挖掘技術(shù)應(yīng)用到Web預(yù)取中,就是通過相關(guān)算法首先對(duì)用戶需求進(jìn)行預(yù)判,然后將用戶可能瀏覽的網(wǎng)頁存儲(chǔ)到本地緩存中,當(dāng)用戶真正需要瀏覽這些內(nèi)容時(shí),可以直接調(diào)取緩存中的網(wǎng)頁信息,或者只需要緩存之前沒有預(yù)定的內(nèi)容,如此就可以大幅度減少緩存時(shí)間,提升用戶體驗(yàn)。

1 數(shù)據(jù)建模前期準(zhǔn)備

要想將數(shù)據(jù)挖掘技術(shù)應(yīng)用在Web預(yù)取中,第一步要做的就是對(duì)用戶行為以及興趣進(jìn)行分析。也就是說,將關(guān)聯(lián)規(guī)則算法應(yīng)用到分析用戶以往的Web使用日志上,以用戶的互聯(lián)網(wǎng)使用記錄為基礎(chǔ)進(jìn)行建模,增加機(jī)器學(xué)習(xí),最終達(dá)到預(yù)測(cè)用戶行為的目的。

Web使用日志就是指用戶使用互聯(lián)網(wǎng)的數(shù)據(jù)記錄,以此為基礎(chǔ)應(yīng)用數(shù)據(jù)挖掘技術(shù),建立相關(guān)的關(guān)聯(lián)模型,發(fā)現(xiàn)用戶的互聯(lián)網(wǎng)使用規(guī)律和瀏覽興趣,就可以此為依據(jù)建立起具有相當(dāng)準(zhǔn)確性和價(jià)值的用戶分析模型,為后續(xù)的Web預(yù)取打下基礎(chǔ)。Web使用日志數(shù)據(jù)挖掘處理的對(duì)象其實(shí)是所有用戶與互聯(lián)網(wǎng)的交互記錄,用這種技術(shù)處理Web使用日志,就能夠挖掘出其中的規(guī)律,然后建立起相匹配的模型,然后進(jìn)行用戶行為預(yù)測(cè),去互聯(lián)網(wǎng)上尋找與用戶興趣相匹配的內(nèi)容,進(jìn)行預(yù)取,加快用戶瀏覽互聯(lián)網(wǎng)的速度,減少不必要的時(shí)間浪費(fèi)。

在這一階段,一般使用Aprior算法,找出在一個(gè)固定的周期內(nèi),用戶在服務(wù)器上訪問特定網(wǎng)頁的次序,然后將信息進(jìn)行篩選和處理,儲(chǔ)存起來。這一算法的工作流程如下圖所示:

2 數(shù)據(jù)建模

在進(jìn)行正式的建模工作之前,需要得到上一步收集的各種數(shù)據(jù),也就是Web使用日志。日志文件并不能夠直接處理,需要對(duì)格式進(jìn)行轉(zhuǎn)換,因此就首先需要日志文件的預(yù)處理工作,包括對(duì)數(shù)據(jù)進(jìn)行篩選,去掉無意義或者重復(fù)的數(shù)據(jù),得到簡(jiǎn)練、爭(zhēng)取的用戶使用記錄數(shù)據(jù),接下來就可以進(jìn)行數(shù)據(jù)建模了。

建模過程就是使用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)算法,對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行計(jì)算分析,從數(shù)據(jù)中發(fā)現(xiàn)特殊的模式集合。數(shù)據(jù)挖掘技術(shù)是計(jì)算理論、計(jì)算技術(shù)和計(jì)算機(jī)硬件不斷發(fā)展之后產(chǎn)生的一種新興技術(shù),使用數(shù)據(jù)挖掘技術(shù),可以在規(guī)模龐大的數(shù)據(jù)中分析出隱藏的、不被人所察覺的,同時(shí)又對(duì)科學(xué)決策和預(yù)測(cè)起到重要參考意義的知識(shí)和規(guī)則,根據(jù)這些成果,就可以科學(xué)合理預(yù)測(cè)用戶行為。本文建模使用的是關(guān)系規(guī)則算法,分析用戶的興趣關(guān)聯(lián)規(guī)則。興趣關(guān)聯(lián)規(guī)則體現(xiàn)出的是用戶使用互聯(lián)網(wǎng)的興趣之間的遞進(jìn)關(guān)系,通過對(duì)數(shù)據(jù)模型中的緩沖數(shù)據(jù)刪繁就簡(jiǎn),表明不同網(wǎng)頁之間的鏈接關(guān)系,使用這種算法能夠直接表現(xiàn)出用戶興趣之間的遞進(jìn)關(guān)系。為了提高數(shù)據(jù)挖掘的效率,減少不必要的資源浪費(fèi),再簡(jiǎn)化緩存區(qū)數(shù)據(jù)之時(shí),要對(duì)一些低價(jià)值或者無價(jià)值數(shù)據(jù)進(jìn)行清除,比如各種留存下來的靜態(tài)和動(dòng)態(tài)圖片,還有頁面中的腳本程序。為了節(jié)省資源以及降低算法復(fù)雜程度,在建立數(shù)據(jù)模型之時(shí),不需要考慮用戶興趣之間的傳遞關(guān)系,同時(shí)對(duì)于一些簡(jiǎn)單的興趣關(guān)聯(lián)規(guī)則模型,關(guān)聯(lián)分析法一般會(huì)比較合適。因?yàn)閿?shù)據(jù)挖掘技術(shù)是在巨量的數(shù)據(jù)之中挖掘規(guī)則和信息,因此一般需要較長(zhǎng)的處理時(shí)間,因此并不適合用于在線預(yù)測(cè)用戶的行為,其解決辦法就是預(yù)先預(yù)測(cè)。

為了保證所預(yù)測(cè)的用戶行為模式正確性高,需要在預(yù)測(cè)過程中不斷對(duì)模型的參數(shù)和算法細(xì)節(jié)進(jìn)行調(diào)整。當(dāng)?shù)玫揭欢ǖ念A(yù)測(cè)結(jié)果之后,就可以將這些結(jié)果儲(chǔ)存起來,放入庫中,并且使用用戶其他的使用數(shù)據(jù)進(jìn)行進(jìn)一步驗(yàn)證,進(jìn)行模型的驗(yàn)證和測(cè)試,如果驗(yàn)證結(jié)果超過了預(yù)定要求,就可以判定為可用。上述過程可以用下圖來表示:

上述數(shù)據(jù)建模過程,就是根據(jù)用戶的Web使用日志進(jìn)行數(shù)據(jù)挖掘分析,找出用戶興趣與行為方式,并且根據(jù)用戶使用習(xí)慣,對(duì)用戶的行為進(jìn)行預(yù)判的過程。

3 模型改進(jìn)與機(jī)器學(xué)習(xí)

當(dāng)一個(gè)瀏覽器加入了數(shù)據(jù)挖掘算法后,就可以進(jìn)行有效的Web預(yù)取,因此就以現(xiàn)有瀏覽器為基礎(chǔ)對(duì)其實(shí)現(xiàn)機(jī)制進(jìn)行改進(jìn),改進(jìn)的方向有提供用戶的Web使用日志以及訪問記錄到專門的數(shù)據(jù)存儲(chǔ)位置,在用戶使用互聯(lián)網(wǎng)的空閑時(shí)間,啟動(dòng)分析模型,對(duì)用戶接下來使用的網(wǎng)頁進(jìn)行科學(xué)合理的預(yù)測(cè),找到最有可能訪問的一個(gè)或者少數(shù)幾個(gè)網(wǎng)頁進(jìn)行預(yù)先緩存,當(dāng)用戶真的是用了預(yù)先緩存的這些網(wǎng)頁之后,就可以從緩存之中直接調(diào)取,供用戶使用以減少時(shí)間,如果用戶沒有訪問這幾個(gè)網(wǎng)頁,那么就記下用戶的這次行為,以便后期對(duì)模型進(jìn)行修改進(jìn)行數(shù)據(jù)儲(chǔ)備。經(jīng)過這個(gè)過程,就可以大幅減少因?yàn)榫W(wǎng)絡(luò)延遲和服務(wù)器延遲帶來的使用卡頓現(xiàn)象,從而減少用戶等待時(shí)間內(nèi),提升用戶的使用體驗(yàn)。具體的過程如下圖所示:

將數(shù)據(jù)挖掘技術(shù)應(yīng)用到Web預(yù)取之中,就是機(jī)器的自我學(xué)習(xí)與調(diào)整。但是應(yīng)當(dāng)注意到的是,由于算法目前還存在著很大的局限性,同時(shí)人與人之間的差異性極大,而用戶使用互聯(lián)網(wǎng)的隨意性非常高,在使用關(guān)聯(lián)算法進(jìn)行用戶行為預(yù)測(cè)之時(shí),初期產(chǎn)生的誤差可能會(huì)非常巨大,一開始預(yù)測(cè)的準(zhǔn)確性可能會(huì)很低,甚至有可能會(huì)造成緩存數(shù)據(jù)無用而占用存儲(chǔ)空間影響系統(tǒng)運(yùn)行效率或者是對(duì)網(wǎng)絡(luò)帶寬的浪費(fèi)。鑒于此,改進(jìn)機(jī)器學(xué)習(xí)算法,改進(jìn)關(guān)聯(lián)算法,改進(jìn)所有的數(shù)據(jù)挖掘算法就會(huì)是一項(xiàng)長(zhǎng)期的、艱巨的工作,目的就是要不斷提升結(jié)果的準(zhǔn)確性。可以預(yù)見的是,當(dāng)預(yù)測(cè)結(jié)果的精確度達(dá)到一定程度之后,數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的地位會(huì)越來越重,應(yīng)用范圍會(huì)越來越廣,同時(shí)也會(huì)給用戶帶來越來越好的用戶體驗(yàn)。

4 Web預(yù)取技術(shù)的應(yīng)用

現(xiàn)在的市場(chǎng)上,已經(jīng)有很多Web預(yù)取軟件,比如Netsonic瀏覽器加速軟件,這種軟件就會(huì)預(yù)先讀取與用戶正在讀取的網(wǎng)頁相連接的網(wǎng)頁中的文字信息,這樣就可以節(jié)省帶寬緩存下一個(gè)網(wǎng)頁中占帶寬較多的軟件,節(jié)省用戶的時(shí)間。但是這種軟件的缺點(diǎn)就是會(huì)預(yù)先緩存很多對(duì)用戶無用的信息,浪費(fèi)帶寬和存儲(chǔ)空間。

數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中起到的作用越來越高,尤其是像淘寶、京東之類的電商平臺(tái),和在線金融,網(wǎng)上醫(yī)療等服務(wù)行業(yè),同時(shí)很多的政府部門也對(duì)這項(xiàng)技術(shù)有很大的興趣。

5 總結(jié)

本文介紹了數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的應(yīng)用,可以看到的是,這項(xiàng)技術(shù)有著非常廣闊的應(yīng)用前景,能夠?yàn)樘嵘脩趔w驗(yàn),節(jié)省互聯(lián)網(wǎng)資源提供巨大的幫助。

[1]張為.基于Web日志的數(shù)據(jù)挖掘及其在Web預(yù)取中的應(yīng)用研究[D].華中科技大學(xué),2006.

[2]謝怡文.試分析數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的應(yīng)用[J].電腦編程技巧與維護(hù),2017,(07):66-67+74.[2017-09-12].

10.16184/j.cnki.comprg.2017.07.027

崔鎮(zhèn)濤(1992.04),男,內(nèi)蒙古包頭市人,碩士研究生,研究方向:軟件工程。

猜你喜歡
日志網(wǎng)頁數(shù)據(jù)挖掘
一名老黨員的工作日志
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
扶貧日志
心聲歌刊(2020年4期)2020-09-07 06:37:14
基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
電子制作(2018年10期)2018-08-04 03:24:38
游學(xué)日志
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
電子制作(2017年2期)2017-05-17 03:54:56
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
10個(gè)必知的網(wǎng)頁設(shè)計(jì)術(shù)語
罗甸县| 卢湾区| 东宁县| 靖安县| 江华| 聂拉木县| 濮阳市| 栾城县| 垦利县| 志丹县| 三河市| 马鞍山市| 库尔勒市| 常宁市| 确山县| 古丈县| 雷州市| 南雄市| 徐州市| 宁蒗| 天等县| 江北区| 万宁市| 临沭县| 夏邑县| 梅河口市| 观塘区| 华蓥市| 宁安市| 乐山市| 阿城市| 开远市| 达拉特旗| 成都市| 舒兰市| 吴堡县| 毕节市| 海口市| 绥宁县| 万载县| 新巴尔虎左旗|