国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)分析的旅游微博用戶偏愛研究

2019-05-22 06:52:52蔣文明
滁州學(xué)院學(xué)報(bào) 2019年1期
關(guān)鍵詞:巨量網(wǎng)絡(luò)拓?fù)?/a>網(wǎng)頁

曹 煒,蔣文明

旅游微博用戶偏愛鏈路算法旨在通過后臺(tái)用戶瀏覽日志挖掘其瀏覽網(wǎng)站的習(xí)慣規(guī)律,并基于研究結(jié)果優(yōu)化網(wǎng)絡(luò)鏈路設(shè)計(jì)或更加精準(zhǔn)地為用戶提供個(gè)性化推送等商業(yè)服務(wù)[1]。隨著微博這一新興媒介的快速發(fā)展,微博平臺(tái)正向著功能多樣化演進(jìn),旅游微博是其中一種典型的面向休閑旅游的集社交、美圖分享、景點(diǎn)推送和旅游策略制定于一體的網(wǎng)絡(luò)平臺(tái)[2]。當(dāng)前,旅游微博用戶偏愛鏈路研究主要集中在網(wǎng)絡(luò)拓?fù)浼軜?gòu)既有鏈路的點(diǎn)擊量計(jì)算上[3]。

這些算法基本能夠?qū)崿F(xiàn)對(duì)偏愛鏈路的計(jì)算,但也存在明顯的不足之處:(1)這幾種算法建立在“點(diǎn)擊量高等同于客戶偏愛度高”這一假設(shè)上,從而忽略了網(wǎng)站鏈路設(shè)置以及雜散釣魚鏈接等對(duì)用戶訪問習(xí)慣的影響;(2)旅游微博的生成數(shù)據(jù)呈指數(shù)形式增長(zhǎng),傳統(tǒng)算法對(duì)海量信息處理能力不足的現(xiàn)象日益凸顯[4,5]。

考慮到大數(shù)據(jù)分析技術(shù)在巨量信息處理上的突出優(yōu)勢(shì),將探索建立更加合理的偏愛指數(shù)評(píng)價(jià)方法,并基于大數(shù)據(jù)分析和Map-Reduce對(duì)現(xiàn)有網(wǎng)絡(luò)拓?fù)渌惴ㄟM(jìn)行改進(jìn),以實(shí)現(xiàn)對(duì)旅游微博平臺(tái)產(chǎn)生的巨量數(shù)據(jù)進(jìn)行模塊化并行計(jì)算。為探究新算法的可行性,將利用某旅游微博平臺(tái)的真實(shí)數(shù)據(jù)設(shè)計(jì)驗(yàn)證實(shí)驗(yàn)。

一、 真實(shí)偏愛指數(shù)研究

一個(gè)網(wǎng)站某鏈路的點(diǎn)擊量高低并不能客觀評(píng)價(jià)用戶的喜好程度,這一觀點(diǎn)得到了越來越多的認(rèn)同[6]。邢東山等人基于“相對(duì)點(diǎn)擊量”提出了網(wǎng)站偏愛度計(jì)算方法,初步建立了互聯(lián)網(wǎng)條件下網(wǎng)站點(diǎn)擊量強(qiáng)度與用戶真實(shí)需求強(qiáng)度的數(shù)學(xué)模型。然而這種方法并未將互聯(lián)網(wǎng)的拓?fù)浼軜?gòu)納入考慮,若其計(jì)算出的一個(gè)偏愛鏈路與互聯(lián)網(wǎng)拓?fù)浼軜?gòu)中的一個(gè)鏈路重合,這個(gè)鏈路上的高點(diǎn)擊量顯然來自于用戶的順序?yàn)g覽,并不能說明用戶真實(shí)需求強(qiáng)度大[7]。為解決這個(gè)問題,在考慮了互聯(lián)網(wǎng)拓?fù)浼軜?gòu)特點(diǎn)的基礎(chǔ)上,提出了“真實(shí)偏愛指數(shù)”這一概念。

(一) 互聯(lián)網(wǎng)拓?fù)浼軜?gòu)

旅游微博用戶可以通過超鏈接點(diǎn)擊進(jìn)入不同頁面,通過所訪問頁面提供的超鏈接,用戶可以進(jìn)一步訪問更多巨量網(wǎng)絡(luò)資源[8]?;ヂ?lián)網(wǎng)的這種拓?fù)浼軜?gòu)見圖1。

圖1 典型互聯(lián)網(wǎng)拓?fù)浼軜?gòu)

圖1是旅游微博常用的典型性三層次網(wǎng)絡(luò)架構(gòu),圖1中的圓圈代表網(wǎng)絡(luò)節(jié)點(diǎn),對(duì)應(yīng)真實(shí)網(wǎng)絡(luò)中的網(wǎng)頁,內(nèi)置字母A-G用于標(biāo)識(shí)不同的網(wǎng)絡(luò)節(jié)點(diǎn);圖1中帶箭頭的有向指針代表網(wǎng)頁間的鏈接關(guān)系。網(wǎng)絡(luò)拓?fù)浼軜?gòu)最初通常是由網(wǎng)站創(chuàng)建人設(shè)置的,網(wǎng)站創(chuàng)建人依據(jù)某個(gè)指標(biāo),對(duì)不同網(wǎng)頁的關(guān)聯(lián)性進(jìn)行評(píng)判,關(guān)聯(lián)度較大的網(wǎng)頁在拓?fù)浼軜?gòu)中距離較近,反之則距離較遠(yuǎn)。從微博用戶的角度來看,網(wǎng)站創(chuàng)建者按設(shè)想搭建的網(wǎng)絡(luò)拓?fù)浼軜?gòu)在真實(shí)線上運(yùn)行中往往不能完全契合用戶興趣,而在網(wǎng)絡(luò)拓?fù)浼軜?gòu)中擁有高點(diǎn)擊量的訪問鏈路,顯然更能反映用戶偏愛。因此,網(wǎng)站創(chuàng)建人可以依據(jù)真實(shí)的用戶偏愛鏈路,通過添加或者刪減超鏈接的方式,對(duì)原有網(wǎng)絡(luò)拓?fù)浼軜?gòu)進(jìn)行重設(shè)。如在圖1中,若通過計(jì)算發(fā)現(xiàn)F→C→A→B→E是用戶點(diǎn)擊量較高的偏愛鏈路,網(wǎng)站創(chuàng)建人可以設(shè)置F→E的訪問鏈路,從而提高微博用戶搜索效率并提升平臺(tái)好評(píng)度。

(二) 網(wǎng)頁鏈路矩陣

旅游微博用戶的網(wǎng)上瀏覽歷史,會(huì)被網(wǎng)頁日志所記載,網(wǎng)頁日志能夠詳細(xì)記載用戶瀏覽時(shí)間、瀏覽網(wǎng)頁地址以及使用網(wǎng)頁的超鏈接情況。研究旅游微博用戶的網(wǎng)頁偏愛鏈路,需要基于巨量日志數(shù)據(jù)進(jìn)行計(jì)算。為了化簡(jiǎn)計(jì)算過程,通常忽略巨量瀏覽日志數(shù)據(jù)中的非主要單元,而主要關(guān)注用戶的瀏覽鏈路。表1為瀏覽日志數(shù)據(jù)中被重點(diǎn)關(guān)注的數(shù)據(jù)單元。

表1 瀏覽日志數(shù)據(jù)中的主要數(shù)據(jù)單元

在表1中,“時(shí)刻”顯示了用戶訪問頁面的時(shí)間,調(diào)取“時(shí)刻”數(shù)據(jù),可以研究用戶在旅游微博上的活躍時(shí)間段規(guī)律,為個(gè)性化推送服務(wù)提供依據(jù);“當(dāng)前頁面地址”顯示了用戶所逗留網(wǎng)址,用戶在某個(gè)頁面上逗留時(shí)間的長(zhǎng)短,可以間接衡量用戶對(duì)網(wǎng)頁內(nèi)容的偏愛指數(shù)?!版溄禹撁娴刂贰北硎居脩魪漠?dāng)前逗留網(wǎng)頁通過超鏈接點(diǎn)擊進(jìn)入的網(wǎng)頁,用戶上網(wǎng)過程中產(chǎn)生的“當(dāng)前頁面→鏈接頁面”鏈路,是研究用戶偏愛鏈路的重要依據(jù)。

目前微博用戶群數(shù)量龐大,一個(gè)熱門旅游微博平臺(tái),用戶在24小時(shí)內(nèi)瀏覽頁面所產(chǎn)生的日志數(shù)據(jù)總量可達(dá)到1000GB甚至更高。因而將基于大數(shù)據(jù)分析理論對(duì)日志數(shù)據(jù)進(jìn)行Map-Reduce編程運(yùn)算,以實(shí)現(xiàn)從巨量數(shù)據(jù)中挖掘旅游微博用戶偏愛鏈路。

首先從用戶巨量日志數(shù)據(jù)中提取T、N、L三種主要數(shù)據(jù)單元。設(shè)Q=[N,L]為當(dāng)前頁面地址和鏈接頁面地址組成的一個(gè)數(shù)據(jù)元素,則Q的集合包含了用戶瀏覽頁面所產(chǎn)生的所有鏈路。通過大數(shù)據(jù)分析中的矩陣簡(jiǎn)化算法對(duì)Q的集合進(jìn)行計(jì)算,可明顯減少后期數(shù)據(jù)計(jì)算量,設(shè)表2為化簡(jiǎn)后Q的集合。

表2 化簡(jiǎn)后Q的集合

表3 部分?jǐn)?shù)據(jù)的三元素矩陣形式

在表2中,null表示退出網(wǎng)頁中斷瀏覽,表中數(shù)據(jù)為相應(yīng)的N和L之間的鏈路點(diǎn)擊量。為進(jìn)一步減少巨量數(shù)據(jù)的計(jì)算量,將簡(jiǎn)化后Q的集合進(jìn)一步簡(jiǎn)化為三元素矩陣,表3為表2中部分?jǐn)?shù)據(jù)的三元素矩陣形式。

(三)真實(shí)偏愛指數(shù)計(jì)算

真實(shí)偏愛度指數(shù)計(jì)算包括兩個(gè)過程:網(wǎng)頁間超鏈接真實(shí)重要度計(jì)算和鏈路真實(shí)偏愛指數(shù)計(jì)算。

1.網(wǎng)頁間超鏈接真實(shí)重要度計(jì)算。網(wǎng)絡(luò)拓?fù)浼軜?gòu)下,超鏈接的點(diǎn)擊量并不能客觀反映其重要度,在圖1中,假設(shè)客戶對(duì)網(wǎng)頁E的內(nèi)容十分感興趣,則在網(wǎng)絡(luò)拓?fù)浼軜?gòu)下,必須經(jīng)由超鏈接A→B→E實(shí)現(xiàn)對(duì)網(wǎng)頁的E訪問,這將導(dǎo)致超鏈接A→B的點(diǎn)擊量激增,但用戶卻并非對(duì)網(wǎng)頁B感興趣。為此,在已有網(wǎng)絡(luò)拓?fù)浼軜?gòu)基礎(chǔ)上提出了鏈路加權(quán)法,以衡量頁面間超鏈接的真實(shí)重要度。設(shè)i和j分別表示當(dāng)前頁面序號(hào)和鏈接頁面序號(hào),鏈路加權(quán)法的操作方法是賦予網(wǎng)頁的每個(gè)超鏈接一個(gè)加權(quán)系數(shù)Kij,Kij∈(0,1)。在網(wǎng)絡(luò)拓?fù)浼軜?gòu)中,距離主鏈路越遠(yuǎn)的超鏈接,其加權(quán)系數(shù)越大,距離主鏈路越近的超鏈接,其加權(quán)系數(shù)越小。

2.鏈路真實(shí)偏愛指數(shù)計(jì)算。設(shè)頁面i和j間的超鏈接點(diǎn)擊量為Sij,則

(1)

式1中,定義E為某條鏈路的真實(shí)偏愛指數(shù)值。

二、基于大數(shù)據(jù)分析的用戶偏愛鏈路算法分析

熱門旅游微博平臺(tái)的網(wǎng)絡(luò)日志數(shù)據(jù)規(guī)模龐大,經(jīng)過化簡(jiǎn)后的三元素矩陣對(duì)常規(guī)算法依舊是一個(gè)挑戰(zhàn),因此提出基于大數(shù)據(jù)分析的Map-Reduce程序處理法,對(duì)三元素矩陣的巨量數(shù)據(jù)進(jìn)行計(jì)算。

(一) Map-Reduce巨量數(shù)據(jù)并行運(yùn)算模型

Map-Reduce是旨在處理巨量數(shù)據(jù)(數(shù)據(jù)量在1TB以上時(shí)優(yōu)勢(shì)凸顯)提出的運(yùn)算模型,Map-Reduce運(yùn)算模型的核心理念是將需處理的巨量數(shù)據(jù)劃分成大量的子數(shù)據(jù),并將子數(shù)據(jù)在分布的計(jì)算單元之間合理調(diào)配,以實(shí)現(xiàn)數(shù)據(jù)的快速處理。Map-Reduce運(yùn)算模型將處理數(shù)據(jù)的過程分成了以下幾個(gè)環(huán)節(jié):巨量數(shù)據(jù)導(dǎo)入、巨量數(shù)據(jù)合理劃分、子數(shù)據(jù)在分布式計(jì)算單元上調(diào)配計(jì)算、生成計(jì)算結(jié)果。

Map-Reduce巨量數(shù)據(jù)并行運(yùn)算模型已相當(dāng)完善,將該模型應(yīng)用于旅游微博網(wǎng)絡(luò)日志巨量數(shù)據(jù)處理,是實(shí)現(xiàn)用戶真實(shí)偏愛指數(shù)計(jì)算的關(guān)鍵一步,具體步驟為:旅游微博用戶網(wǎng)絡(luò)日志原始數(shù)據(jù)→冗余數(shù)據(jù)刪減→T、N、L數(shù)據(jù)提取→三元素矩陣→三元素矩陣數(shù)據(jù)拆分→Map-Reduce巨量數(shù)據(jù)分布計(jì)算→生成最終結(jié)果。

(二)基于大數(shù)據(jù)分析的用戶偏愛鏈路算法

基于大數(shù)據(jù)分析的用戶偏愛鏈路算法的部分程序代碼如下:

1. in:向MR導(dǎo)入旅游微博網(wǎng)絡(luò)日志的三元素矩陣數(shù)據(jù)包W,設(shè)定鏈路真實(shí)重要度門限E0

2.out:用戶真實(shí)偏愛鏈路

3.for each w1 in W…w1是三元素矩陣的一個(gè)子數(shù)據(jù)

4.i=w1_N…N表示當(dāng)前網(wǎng)頁標(biāo)號(hào)

5.j=w1_L…L表示鏈接頁面標(biāo)號(hào)

6. if Kij*Sij>=E0…鏈路真實(shí)重要度超過門限

7.Keep (i,j)…記錄鏈路子集

8.遴選(i,j)集合中連續(xù)鏈路集合為最終生成結(jié)果

三、兩種算法的對(duì)比實(shí)驗(yàn)及結(jié)果

為探索基于大數(shù)據(jù)分析的用戶偏愛鏈路算法的可行性,設(shè)計(jì)實(shí)驗(yàn)對(duì)該算法和傳統(tǒng)算法做了對(duì)比分析,從巨量數(shù)據(jù)處理速度和用戶偏愛鏈路計(jì)算結(jié)果準(zhǔn)確度兩個(gè)方面對(duì)該算法進(jìn)行了評(píng)價(jià)。

(一)巨量數(shù)據(jù)下旅游微博用戶偏愛鏈路計(jì)算速度比較

對(duì)比實(shí)驗(yàn)中,預(yù)處理數(shù)據(jù)(網(wǎng)絡(luò)瀏覽日志)來自某旅游微博平臺(tái),數(shù)據(jù)大小為25G左右,基于大數(shù)據(jù)分析的用戶偏愛鏈路算法使用5臺(tái)安裝Map-Reduce編程系統(tǒng)的計(jì)算機(jī),傳統(tǒng)算法使用1臺(tái)安裝MPI數(shù)據(jù)處理系統(tǒng)的計(jì)算器,5臺(tái)計(jì)算機(jī)均為聯(lián)想Y46型,主要硬件配置相同。

圖2為兩種計(jì)算方法的數(shù)據(jù)處理速度對(duì)比曲線。由圖1可知:

1.當(dāng)需要處理的數(shù)據(jù)較少時(shí),兩種算法的數(shù)據(jù)處理速度相差不大,由于傳統(tǒng)算法只需要一臺(tái)計(jì)算機(jī),因而優(yōu)勢(shì)更為明顯。

2.當(dāng)需要處理的數(shù)據(jù)逐漸增多時(shí),基于大數(shù)據(jù)分析的偏愛鏈路計(jì)算方法優(yōu)勢(shì)將越發(fā)突出,且隨著需要處理的數(shù)據(jù)逐漸增多,相同時(shí)間內(nèi)新算法的數(shù)據(jù)處理量與傳統(tǒng)算法的數(shù)據(jù)量比值越來越大,這表明當(dāng)需要處理的數(shù)據(jù)超過一定規(guī)模,5臺(tái)計(jì)算機(jī)的分布式大數(shù)據(jù)處理計(jì)算,其效率超過了5臺(tái)按傳統(tǒng)算法運(yùn)算的計(jì)算機(jī)的數(shù)據(jù)處理效率總和。且分布式計(jì)算機(jī)數(shù)量越多,優(yōu)勢(shì)越明顯。

圖2 兩種算法的數(shù)據(jù)處理速度比較

因此,在網(wǎng)絡(luò)日志巨量數(shù)據(jù)需及時(shí)處理的背景下,基于大數(shù)據(jù)分析的旅游微博用戶偏愛鏈路計(jì)算方法更具優(yōu)勢(shì)。

(二) 兩種算法下用戶偏愛鏈路準(zhǔn)確度比較

為比較兩種計(jì)算方法所計(jì)算出的用戶偏愛鏈路的準(zhǔn)確度高低,設(shè)計(jì)了對(duì)比實(shí)驗(yàn),在實(shí)驗(yàn)中,分別為兩種算法導(dǎo)入了相同的原始網(wǎng)絡(luò)日志數(shù)據(jù),并通過兩種算法得到了其各自運(yùn)算下的偏愛指數(shù)靠前的X條鏈路。將兩種算法各自計(jì)算所得的X條鏈路分別和網(wǎng)站根據(jù)運(yùn)營(yíng)經(jīng)驗(yàn)提供的訪問量靠前的X條鏈路進(jìn)行比較,實(shí)驗(yàn)結(jié)果見圖3。

圖3 兩種算法的鏈路準(zhǔn)確度比較

對(duì)比實(shí)驗(yàn)的結(jié)果顯示:當(dāng)X較小時(shí),傳統(tǒng)算法得到的偏愛鏈路與實(shí)際情況更為貼合,這可能是因?yàn)樾滤惴訖?quán)系數(shù)的引入在數(shù)據(jù)規(guī)模較小時(shí),會(huì)對(duì)數(shù)據(jù)計(jì)算產(chǎn)生較為明顯的影響;當(dāng)X增大時(shí),傳統(tǒng)算法的計(jì)算結(jié)果準(zhǔn)確度將開始降低,而新算法的運(yùn)算準(zhǔn)確度將趨于穩(wěn)定且由于傳統(tǒng)算法。這可能是因?yàn)樾滤惴ㄖ兄匾认拗档囊?,一定程度上排除了主鏈路高點(diǎn)擊量帶來的干擾。

四、結(jié)論

在巨量數(shù)據(jù)背景下,基于大數(shù)據(jù)分析的旅游微博用戶偏愛鏈路算法能夠以更快的運(yùn)算速率和更高的計(jì)算準(zhǔn)確率對(duì)數(shù)據(jù)進(jìn)行挖掘。如何將挖掘得到的用戶偏愛鏈路結(jié)果應(yīng)用于微博平臺(tái)改造或用于個(gè)性化旅游策略推送,是需要進(jìn)一步研究的問題。

猜你喜歡
巨量網(wǎng)絡(luò)拓?fù)?/a>網(wǎng)頁
基于通聯(lián)關(guān)系的通信網(wǎng)絡(luò)拓?fù)浒l(fā)現(xiàn)方法
巨量引擎推出人物紀(jì)錄片《炬光》
綜藝報(bào)(2021年5期)2021-05-08 03:50:05
電子制作(2018年23期)2018-12-26 01:01:16
基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
電子制作(2018年10期)2018-08-04 03:24:38
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
電子制作(2017年2期)2017-05-17 03:54:56
勞斯萊斯古斯特與魅影網(wǎng)絡(luò)拓?fù)鋱D
電測(cè)與儀表(2016年5期)2016-04-22 01:13:46
網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
科學(xué)家稱在洋底發(fā)現(xiàn)巨量淡水
10個(gè)必知的網(wǎng)頁設(shè)計(jì)術(shù)語
辽中县| 民和| 普陀区| 兰州市| 常宁市| 东阳市| 林周县| 富阳市| 罗平县| 乌拉特前旗| 府谷县| 靖西县| 搜索| 永新县| 文山县| 河北区| 昌平区| 阿合奇县| 准格尔旗| 密山市| 仙居县| 西乌珠穆沁旗| 灵丘县| 德令哈市| 康乐县| 赤壁市| 桓台县| 科尔| 旌德县| 广河县| 龙江县| 扶绥县| 安新县| 南江县| 南和县| 屏南县| 白朗县| 赫章县| 广南县| 理塘县| 宁远县|