張霄宏,侯海杰,任建吉
(河南理工大學(xué) 計(jì)算機(jī)學(xué)院,河南 焦作 454000)
社交網(wǎng)絡(luò)是提供一個(gè)在人群中分享興趣、愛(ài)好、狀態(tài)和活動(dòng)等信息的在線平臺(tái),一般說(shuō)來(lái)移動(dòng)社交網(wǎng)有基于Web的社交網(wǎng)絡(luò)和基于Device-to-Device(D2D)方式的移動(dòng)社交網(wǎng)絡(luò).基于web的社交網(wǎng)絡(luò)主要在傳統(tǒng)的社交網(wǎng)基礎(chǔ)上,通過(guò)增加無(wú)線移動(dòng)設(shè)備訪問(wèn)Internet的功能,實(shí)現(xiàn)對(duì)移動(dòng)社交網(wǎng)絡(luò)技術(shù)的支持;基于Device-to-Device(D2D)方式的移動(dòng)社交網(wǎng)絡(luò)主要基于移動(dòng)用戶彼此之間的偶遇而自發(fā)式建立.因此基于D2D方式的移動(dòng)社交網(wǎng)絡(luò)和基于Web的社交網(wǎng)絡(luò)的信息分享還是有很大不同的,主要表現(xiàn)在一下幾點(diǎn):
1)傳播媒介不同.基于Web的社交網(wǎng)絡(luò)主要通過(guò)互聯(lián)網(wǎng)來(lái)進(jìn)行信息的傳播,而基于D2D移動(dòng)社交網(wǎng)絡(luò)以WLAN熱點(diǎn)形式來(lái)傳輸數(shù)據(jù)的,無(wú)需WiFI外部聯(lián)網(wǎng)環(huán)境.
2)用戶的朋友圈的規(guī)模不同.基于Web的社交網(wǎng)絡(luò)由于通過(guò)互聯(lián)網(wǎng)傳播信息,所以用戶可以擁有較為龐大的朋友圈,可以和認(rèn)識(shí)的人分享信息也可以和陌生人分享信息,而基于D2D的移動(dòng)社交網(wǎng)絡(luò)由于是基于偶遇的,所以只有倆個(gè)人在現(xiàn)實(shí)生活中相遇才能相互分享信息,因此基于D2D的移動(dòng)社交網(wǎng)絡(luò)的朋友圈的規(guī)模比基于Web的要小很多;
3)用戶行為方式不同.基于Web的社交網(wǎng)絡(luò)的用戶行為包括轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊等,而基于D2D移動(dòng)社交網(wǎng)絡(luò)的用戶行為只有分享文件.
基于Web社交網(wǎng)絡(luò)的熱點(diǎn)資源還具有傳播廣泛、傳播周期短、實(shí)時(shí)性高、更新速度快等特點(diǎn).而基于D2D移動(dòng)社交網(wǎng)絡(luò)的熱點(diǎn)資源的特點(diǎn)是傳播廣泛,傳播周期較長(zhǎng),實(shí)時(shí)性不高,更新速度較快.
本文主要研究基于D2D移動(dòng)社交網(wǎng)絡(luò)的文件分享特征.如何準(zhǔn)確地預(yù)測(cè)一個(gè)文件能否成為熱點(diǎn)文件是本文研究的重點(diǎn).為解決這個(gè)問(wèn)題,本文首先分析了文件傳播過(guò)程中各個(gè)因素?zé)狳c(diǎn)文件的影響,然后對(duì)這些屬性進(jìn)行量化,并配合有監(jiān)督的機(jī)器學(xué)習(xí)方法建立了熱點(diǎn)文件預(yù)測(cè)模型.在選擇影響熱點(diǎn)文件的因素時(shí),不僅考慮了文件的傳播屬性,而且還考慮了用戶對(duì)文件的影響力,計(jì)算熱度值,根據(jù)熱度值預(yù)測(cè)熱點(diǎn)文件.
本文的研究意義有以下幾點(diǎn):第一,被分享的熱點(diǎn)文件往往能反映用戶的喜好,所以我們的研究可以運(yùn)用到文件推薦中;第二,通過(guò)對(duì)熱點(diǎn)文件的分析,可以深刻了解影響熱點(diǎn)文件各個(gè)因素的重要性,從而可以應(yīng)用到營(yíng)銷或熱點(diǎn)提取中;第三,對(duì)熱點(diǎn)文件進(jìn)行準(zhǔn)確預(yù)測(cè)之后,服務(wù)商可以提前在服務(wù)器中緩存將要成為熱點(diǎn)的文件,減少重復(fù)流量.
本文的組織結(jié)構(gòu)如下,第1節(jié)引言;第2節(jié)介紹相關(guān)工作以及數(shù)據(jù)的來(lái)源及相關(guān)信息;第3節(jié)進(jìn)行文件的特征分析;第4節(jié)描述熱點(diǎn)文件的預(yù)測(cè)模型;第5節(jié)是實(shí)驗(yàn)結(jié)果和分析;第6節(jié)是結(jié)語(yǔ).
近年來(lái),越來(lái)越多的人開始研究對(duì)熱點(diǎn)的預(yù)測(cè),尤其是對(duì)微博[2-4]的研究.李洋等人[5]指出微博信息傳播預(yù)測(cè)相關(guān)工作主要從以信息為中心、以用戶為中心以及以信息和用戶為中心這三個(gè)角度進(jìn)行研究;趙龍文等人[6]從以用戶為中心的角度出發(fā),提出基于意見(jiàn)領(lǐng)袖參與行為的微博話題熱度預(yù)測(cè)模型,以意見(jiàn)領(lǐng)袖的影響力及其參與行為等指標(biāo),研究微博熱點(diǎn)話題的發(fā)展趨勢(shì)和特征,分析并驗(yàn)證了模型對(duì)不同話題類型的適用性,針對(duì)話題演化過(guò)程的階段性變動(dòng)特征,對(duì)模型進(jìn)行了改進(jìn)和完善,提出了基于動(dòng)態(tài)系數(shù)的多元線性回歸預(yù)測(cè)模型;黃蕉平[7]從以信息為中心角度出發(fā),提出了新聞的八個(gè)維度指標(biāo),通過(guò)多元線性回歸模型和聚類分析算法來(lái)預(yù)測(cè)負(fù)面熱點(diǎn)新聞;Jinyoung Han[8]從以信息和用戶為中心出發(fā),提出pin的傳播主要受pin的自身屬性影響,而不是用戶的特征,但是作者并未給出熱度預(yù)測(cè)模型.張旸等人[9]使用機(jī)器學(xué)習(xí)的分類算法,并通過(guò)微博上的不同重要性進(jìn)行分析,提出了基于特征加權(quán)的預(yù)測(cè)模型,來(lái)預(yù)測(cè)微博是否被轉(zhuǎn)發(fā).陳江等人[10]提出融合熱點(diǎn)話題的微博轉(zhuǎn)發(fā)預(yù)測(cè)方法,對(duì)背景熱點(diǎn)話題內(nèi)容和傳播趨勢(shì)對(duì)用戶轉(zhuǎn)發(fā)行為的影響進(jìn)行量化分析,提出融合背景熱點(diǎn)信息的轉(zhuǎn)發(fā)興趣、轉(zhuǎn)發(fā)活躍度、行為模式等特征,并基于分類算法建立了面向熱點(diǎn)話題相關(guān)微博的轉(zhuǎn)發(fā)預(yù)測(cè)模型.
本文從以信息和用戶為中心,結(jié)合用戶影響力和文件分享的相關(guān)指標(biāo),并對(duì)文件的熱度進(jìn)行量化,用機(jī)器學(xué)習(xí)的方法訓(xùn)練得到預(yù)測(cè)模型,通過(guò)該模型可以預(yù)測(cè)文件的熱度值,從而判斷該文件能否成為熱點(diǎn).
本文采用的數(shù)據(jù)是由Xender公司提供,為一個(gè)月的數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)清洗之后,共2.09E+10條分享文件的記錄.本文采用20臺(tái)計(jì)算機(jī)組成的集群進(jìn)行數(shù)據(jù)處理,每臺(tái)計(jì)算機(jī)配置24個(gè)核,32GB的內(nèi)存和2TB的存儲(chǔ)空間.集群上部署了Spark計(jì)算框架.
利用該集群首先分析文件的分享情況,并將分析結(jié)果繪成洛倫茲圖展示在圖1中.在該圖中,橫軸代表文件個(gè)數(shù)的累計(jì)百分比,縱軸代表文件分享次數(shù)的累計(jì)百分比.由圖1可知,近30%的文件轉(zhuǎn)發(fā)次數(shù)占轉(zhuǎn)發(fā)總數(shù)的近70%,這一結(jié)果說(shuō)明了研究熱點(diǎn)文件并對(duì)熱點(diǎn)文件進(jìn)行預(yù)測(cè)的必要性.服務(wù)商可以通過(guò)預(yù)測(cè)的結(jié)果提前在服務(wù)器中緩存可能成為熱點(diǎn)文件的數(shù)據(jù),從而可以大大提高用戶體驗(yàn).本文認(rèn)為分享次數(shù)大于10000的文件為熱點(diǎn)文件,清洗后的數(shù)據(jù)集中有50000余個(gè)這樣的文件.10000只是定義的一個(gè)參數(shù),也可以定義成其他參數(shù),對(duì)熱點(diǎn)文件預(yù)測(cè)的方法沒(méi)有影響.
影響熱點(diǎn)文件的因素有文件的重要性、文件的敏感性、用戶的參與度與用戶的影響力.
圖1 文件分享情況Fig.1 File sharing
由于數(shù)據(jù)源中不包括用戶傳輸?shù)奈募?nèi)容,本文在定義文件重要性時(shí)主要參考文件的類型和大小.圖2是熱點(diǎn)文件的大小和類型分布(圖中文件大小的單位為MB),需要說(shuō)明一點(diǎn)的是Xender允許分享的最大文件是2GB.我們可以看出熱點(diǎn)文件的大小在100MB以內(nèi),這說(shuō)明用戶更加傾向于分享規(guī)模不是特別大的文件,其原因可能是分享過(guò)大的文件需要花費(fèi)較長(zhǎng)時(shí)間,而且大文件比較占用移動(dòng)端設(shè)備的存儲(chǔ)空間.
圖2 熱點(diǎn)文件大小和類型Fig.2 Sizes and types of hot files
熱點(diǎn)文件中約有85%的文件是APP,其次是audio,即音頻文件,約占9%.當(dāng)今社會(huì)APP相當(dāng)流行,一些功能比較齊全且比較實(shí)用的APP非常容易成為熱點(diǎn)文件.用戶除了向身邊的朋友分享自己認(rèn)為實(shí)用的APP外,對(duì)自己喜愛(ài)的歌曲等音頻文件也向朋友們分享,這比較符合當(dāng)今的生活方式,尤其是當(dāng)各大網(wǎng)站的歌曲收費(fèi)以后,audio的分享會(huì)增多.
定義1.文件重要性:影響文件能否成為熱點(diǎn)的一個(gè)重要因素,由文件的大小和類型決定,可根據(jù)式(1)計(jì)算.
(1)
基于此,文件重要性可由式(1)計(jì)算.在該式中,Imp為文件的重要性,SizeRatio為某個(gè)文件的大小在所有文件大小中所占的比例,TypeRatio為該文件類型在所有文件類型中所占的比例.根據(jù)該式,計(jì)算了熱點(diǎn)文件和非熱點(diǎn)文件的重要性,計(jì)算結(jié)果如圖3所示.
從圖3上下兩子圖的對(duì)比中可以看出來(lái)80%的熱點(diǎn)文件的文件重要性在0.3以上,而80%的非熱點(diǎn)文件的文件重要性則在0.3以下.因此,文件的重要性可以作為影響一個(gè)文件是否能成為熱點(diǎn)文件的一個(gè)重要指標(biāo).
從文件傳播的角度分析,成為熱點(diǎn)文件的方式有三種:第一種是短期爆發(fā)式傳播,在很短的時(shí)間就成為熱點(diǎn);第二種是文件的傳播持續(xù)性比較強(qiáng),每天都有一定的傳播量,過(guò)了一段時(shí)間成為熱點(diǎn);第三種是兩者兼顧成為熱點(diǎn).在本文工作中,我們將分析文件的短期傳播情況和持續(xù)傳播情況.為便于描述,本文定義了文件的短期分享率和文件的傳播持續(xù)性.
圖3 熱點(diǎn)文件和非熱點(diǎn)文件的重要性Fig.3 Importance of hot files and ordinary files
與很多基于Internet的信息共享方式不同,在本文所述的D2D環(huán)境中用戶之間只有在近距離接觸時(shí)才能進(jìn)行文件共享.因此,互聯(lián)網(wǎng)環(huán)境中一個(gè)文件可能在短短的數(shù)小時(shí)或者數(shù)天之內(nèi)就成為熱點(diǎn)不同,D2D環(huán)境中的一個(gè)文件要成為熱點(diǎn)往往要經(jīng)歷更長(zhǎng)的時(shí)間.已獲得的實(shí)驗(yàn)數(shù)據(jù)記錄了文件在一個(gè)月內(nèi)的傳播情況,本文選擇記錄第一周傳播情況的數(shù)據(jù)來(lái)計(jì)算短期分享率.
定義2.短期分享率:描述文件在較短一段時(shí)間內(nèi)的傳播情況,可根據(jù)式(2)進(jìn)行計(jì)算.
(2)
Short_share(fi)為文件fi的短期分享率,share(fi,first)為文件fi在第一周的分享次數(shù);share(fj,first)為第j個(gè)文件在第一周被分享的次數(shù),Ftotal為文件總數(shù).
定義3.文件的傳播持續(xù)性:反映文件在將來(lái)繼續(xù)傳播的可能性,可根據(jù)式(3)計(jì)算.
(3)
Con(fi)表示文件的分享持續(xù)性,share(fi,Second)為文件fi在第二周文件被分享的次數(shù).本文假設(shè)所有的文件都是從第一周開始被分享的,經(jīng)過(guò)統(tǒng)計(jì)分析,熱點(diǎn)文件的短期分享率90%都在1.0E-5以上,而非熱點(diǎn)文件的短期分享率在(1.0E-9,1.0E-8)區(qū)間的文件數(shù)占總文件數(shù)的97.5%,由此可見(jiàn),文件的短期分享率是影響文件成為熱點(diǎn)文件的一個(gè)比較重要的因素.
通過(guò)對(duì)文件得傳播持續(xù)性分析,99%的熱點(diǎn)文件的傳播持續(xù)性都在0.2以上,而非熱點(diǎn)文件的傳播持續(xù)性有80%的都在0.2以下,雖然有20%的非熱點(diǎn)文件的傳播持續(xù)性大于0.2,但是仍然可以說(shuō)明文件傳播持續(xù)性對(duì)文件成為熱點(diǎn)文件起到一定的影響.
定義4.文件敏感性:反映文件成為熱點(diǎn)文件的可能性,可根據(jù)式(4)進(jìn)行計(jì)算.
Sus(fi)=Shortshare(fi)+0.5*Con(fi)
(4)
在該式中,Sus(fi)表示文件fi的敏感性.文件的敏感性與文件的短期分享率和傳播持續(xù)性相關(guān).圖5記錄了熱點(diǎn)文件和非熱點(diǎn)文件的敏感性分布.熱點(diǎn)文件中有90%的文件敏感性大于0.2,而非熱點(diǎn)文件中這樣的文件只有10%左右.因此,文件的敏感性是決定一個(gè)文件能否成為熱點(diǎn)的一個(gè)非常重要的因素.
圖4 熱點(diǎn)文件和非熱點(diǎn)文件的敏感性Fig.4 Susceptibility of hot file and ordinary file
用戶總是基于自己的興趣、喜好及需求分享文件,對(duì)一個(gè)文件能否成為熱點(diǎn)文件有重要影響,因此需要研究用戶對(duì)文件傳播的影響力.本文將參考文獻(xiàn)[13]中新浪微博用戶影響力的計(jì)算方法,來(lái)評(píng)估D2D移動(dòng)社交網(wǎng)絡(luò)中用戶的影響力.在本文中,用戶對(duì)某個(gè)文件傳播的影響力由用戶活躍度、用戶覆蓋度和用戶分享文件受歡迎程度三個(gè)因素決定.
定義5.用戶活躍度:反映用戶參與文件共享的積極程度,由用戶分享文件和接收文件的總次數(shù)來(lái)決定.
Acti=count(fsend)+count(frec)
(5)
活躍度可根據(jù)式(5)計(jì)算.在該式中,Acti代表某用戶的活躍度,fsend為該用戶分享的文件,count(fsend)為該用戶分享文件的總次數(shù);frec、count(frec)為該用戶接收的文件和接收文件的總次數(shù),用戶的活躍度可以反映用戶的在線時(shí)長(zhǎng).分析表明,在線時(shí)間越長(zhǎng)的用戶,影響力越大.
定義6.用戶覆蓋度:反映用戶分享的文件被接受的程度,可由式(6)計(jì)算.
在式(6)中,Cov代表某用戶的覆蓋度,fsend_i和n分別表示該用戶分享的第i個(gè)文件和其分享的文件總數(shù);Rece(fsend_i)表示文件fsend_i的所有接收者,count(Rece(fsendi))表示接收此文件的用戶數(shù).用戶覆蓋度代表該用戶有幾個(gè)朋友和其朋友圈子的大小.用戶的朋友越多,圈子越大,影響力越大.
(6)
定義7.用戶傳播力度:反映用戶分享的文件受歡迎的程度,可由式(7)表示.
(7)
在式(7),Com表示某用戶傳播力度,share(fsend_i)表示fsend_i被分享的次數(shù).Com的值等于該用戶所分享的所有文件在整個(gè)Xender平臺(tái)上被分享的總次數(shù),代表該用戶所分享文件的受歡迎程度.用戶所分享的文件越受歡迎,用戶的影響力就越大.
結(jié)合以上定義,某個(gè)文件受到的用戶影響力可根據(jù)式(8)進(jìn)行計(jì)算.
(8)
Inf(fi)表示參與傳播文件fi的所有用戶對(duì)該文件的影響力.在該式中, Actij、Covj和Comj分別表示參與傳播該文件的第j個(gè)用戶的活躍度、覆蓋度和傳播力度,m為參與傳播該文件的用戶數(shù).圖4為參與熱點(diǎn)文件傳播的用戶影響力和參與非熱點(diǎn)文件傳播的用戶影響力分布,前者60%都分布在0.01以上,而后者將近有99%的都分布在0.001以下,可見(jiàn)用戶對(duì)文件能否成為熱點(diǎn)文件的影響是比較明顯的.
圖5 熱點(diǎn)文件和非熱點(diǎn)文件用戶影響力Fig.5 User influence of hot files and ordinary files
定義8.用戶參與力:反映用戶對(duì)某個(gè)文件的分享和接收情況,可根據(jù)式(9)計(jì)算.
(9)
Par(fi)是文件的公眾參與力,Rece(fi)為公眾接收文件fi的用戶數(shù)量,Rece(fj)為公眾接收文件fj的用戶總數(shù)量,share(fi)為公眾分享文件fi的用戶數(shù)量,share(fj)為公眾分享文件fj的用戶總數(shù)量,total為D2D環(huán)境中共享的文件總數(shù).圖6展示了熱點(diǎn)文件和非熱點(diǎn)文件的公眾參與力.90%以上的熱點(diǎn)文件的用戶參與力在0.2以上,而非熱點(diǎn)文件的用戶參與力大部分集中在(1E-4,1E-2)的區(qū)間中.因此,用戶參與力也可作為衡量熱點(diǎn)文件的一個(gè)重要的因素.
圖6 熱點(diǎn)文件和非熱點(diǎn)文件的用戶參與力Fig.6 User participation of hot files and ordinary files
通過(guò)上一節(jié)的分析發(fā)現(xiàn)文件重要性、文件敏感性、用戶影響力和用戶參與力四個(gè)因素對(duì)一個(gè)文件能否成為熱點(diǎn)有重要影響.本節(jié)將以這四個(gè)因素為基礎(chǔ),利用多元線性回歸方法建立熱點(diǎn)文件的預(yù)測(cè)模型.
多元線性回歸分析模型[7]表示一種現(xiàn)象(因變量表示)與另外多種因素(自變量表示)的依存關(guān)系,多種因素共同對(duì)一種現(xiàn)象的分布與發(fā)展產(chǎn)生影響,用來(lái)估算因變量與多個(gè)自變量之間的線性相關(guān)度.多元線性回歸模型的一般表達(dá)式為:
Yi=β0+β1X1+β2X2+…+βnXn+εi
(10)
其中參數(shù)Yi是因變量,參數(shù)Xi是自變量,自變量Xi與因變量Yi有直接或間接的線性關(guān)系.β0、β1、β2、βn、εi都是與自變量無(wú)關(guān)的未知參數(shù).其中β0為常數(shù)項(xiàng),β1、β2…βn相應(yīng)為自變量X1、X2…Xn的系數(shù),表示對(duì)因變量的影響度,εi為對(duì)整體多元線性回歸函數(shù)的隨機(jī)干擾項(xiàng).本文中影響熱點(diǎn)文件的因素有四個(gè),符合多元線性回歸模型的特點(diǎn).
本文選取文件重要性Imp、文件敏感性Sus、用戶影響力Inf以及公眾參與力Par文件作為因變量,選取文件熱度作為自變量.當(dāng)某個(gè)文件的熱度達(dá)到特定值后,就成為熱點(diǎn).文件熱度定義如下:
定義9.文件熱度:反映文件的傳播熱度,記為HDegree,其值可根據(jù)式(11)計(jì)算.
HDegree=lnshare(f)
(11)
多元線性回歸模型在應(yīng)用時(shí)要求各自變量之間盡可能的獨(dú)立,自變量之間不存在多重共線性的問(wèn)題,否則就會(huì)影響結(jié)果的可信度和一致性.由前面對(duì)四個(gè)因素的定義和分析可知,用于多元線性回歸模型的四個(gè)自變量都是相互獨(dú)立的,且不存在多重共線性的問(wèn)題,所以滿足多元線性回歸模型的要求.
經(jīng)過(guò)以上分析,文件熱度的多元線性回歸模型可表示為式(12).
HDegree=β0+β1Imp+β2Sus+
β3Inf+β4Par
(12)
通過(guò)分析文件分享情況,發(fā)現(xiàn)分享次數(shù)不超過(guò)10次的文件占文件總數(shù)的90%左右,文件分享情況服從長(zhǎng)尾分布.受此分布影響,如果對(duì)所有文件直接做回歸分析,那么將難以保證預(yù)測(cè)模型的準(zhǔn)確度.為避免這種情況發(fā)生,把文件分享次數(shù)大于10000的數(shù)據(jù)集作為訓(xùn)練集,共包括5112條記錄;把所有熱點(diǎn)文件和20%的非熱點(diǎn)文件作為測(cè)試集,共28117462條記錄.
通過(guò)在訓(xùn)練集上的學(xué)習(xí),HDegree可根據(jù)式(13)進(jìn)行計(jì)算.
HDegree=8.007+2.317Imp+1.973Sus+0.040Inf+0.118Par
(13)
回歸系數(shù)表明對(duì)一個(gè)文件能否成為熱點(diǎn)文件影響最大的是文件重要性,其次是文件敏感性和公眾參與力,最后是用戶影響力,這也驗(yàn)證了文獻(xiàn)[8]中的觀點(diǎn):要成為熱點(diǎn),影響最大的是內(nèi)容本身,用戶影響次之.
本文將分享次數(shù)大于10000次的文件稱為熱點(diǎn)文件,其對(duì)應(yīng)的HDegree值為9.21.因此,只有熱度不小于9.21的文件才能稱為熱點(diǎn)文件.根據(jù)本文模型預(yù)測(cè)的結(jié)果記錄在表1所示的混淆矩陣中.依據(jù)該表計(jì)算得到預(yù)測(cè)模型的準(zhǔn)確率為90.82%.
根據(jù)表1計(jì)算本文預(yù)測(cè)模型的命中率為91.26%,與文獻(xiàn)[7]出的預(yù)測(cè)模型的命中率85%相比,本文模型的命中率提高了6.26%.
表1 預(yù)測(cè)結(jié)果Table 1 Prediction results
本文對(duì)熱點(diǎn)文件預(yù)測(cè)的精度進(jìn)行了檢驗(yàn).根據(jù)檢驗(yàn)結(jié)果,本文模型預(yù)測(cè)的文件熱度值與真實(shí)值的均方誤差為0.6715.
圖7 熱點(diǎn)文件預(yù)測(cè)結(jié)果Fig.7 Prediction results of hot file
根據(jù)這一結(jié)果,將實(shí)驗(yàn)中熱點(diǎn)文件的真實(shí)熱度值與預(yù)測(cè)值的絕對(duì)差值大于0.6715的數(shù)據(jù)視為預(yù)測(cè)失敗.圖7為熱點(diǎn)文件的預(yù)測(cè)結(jié)果,熱點(diǎn)文件的熱度值精度為71.28%,精度較高,達(dá)到了較高的預(yù)測(cè)精度.
本文主要研究致力于文件共享的D2D移動(dòng)社交網(wǎng)絡(luò)中熱點(diǎn)文件的預(yù)測(cè)問(wèn)題,并以用戶和信息為中心,量化分析了影響一個(gè)文件成為熱點(diǎn)的各個(gè)因素,并利用機(jī)器學(xué)習(xí)方法設(shè)計(jì)了熱點(diǎn)文件預(yù)測(cè)模型.實(shí)驗(yàn)表明,該預(yù)測(cè)模型能成功預(yù)測(cè)大約91.26%的熱點(diǎn)文件.本文的研究也有一定的局限性,這也是未來(lái)工作的方向.第一,我們認(rèn)為所有的文件都是從第一周開始分享,但是有些文件是從第二周、第三周,甚至從第四周開始分享,這對(duì)我們的模型有一定的影響,將來(lái)的工作可以針對(duì)這個(gè)問(wèn)題作出一些改進(jìn)方法.第二,本文采用的機(jī)器學(xué)習(xí)方法是多元線性回歸,下一步將嘗試其他機(jī)器學(xué)習(xí)的方法,支持向量機(jī)[12]等.
:
[1] Hu Hai-yang,Li Zhong-jin,Hu Hua.Coo-perative content distribution in mobile social networks[J].Chinese Journal of Computers,2013,36(3):613-625.
[2] Kwak H,Lee C,Park H,et al.What is twitter,a social network or a news media?[C].International Conference on World Wide Web,
2010:591-600.
[3] Ding Zhao-yun,Jia Yan,Zhou Bin.Survey of data mining for microblogs[J].Jour-nal of Computer Research and Develop-ment,2014,51(4):691-706.
[4] Lou T,Tang J,Hopcroft J,et al.Lear-ning to predict reciprocity and triadic c-losure in social networks[J].Acm Tran-sactions on Knowledge Discovery from Data,2013,7(2):5.
[5] Li Yang,Chen Yi-heng,Liu Ting.Survey on pre-dicting information propagation in micr-oblogs[J].Ruan Jian Xue Bao/Journal of Software,2016,27(2):247-263.
[6] Zhao Long-wen,Gong Rong-tao,Chen Ming-yan.Hotness prediction research of microblog topics based on t-he participation of opinion leaders[J].Journal of Intelligence,2013,32(12):42-46.
[7] Huang Jiao-ping.Based on microbl-ogging early forecast and analyze negative hot news[D].South China University of Technology,2013.
[8] Han J,Choi D,Chun B G,et al.Coll-ecting,organizing,and sharing pins in pinterest:interest-driv-en or social-driven?[J].Acm Sigm-etrics Performance Evaluation Rev-iew,2014,42(1):15-27.
[9] Zhang Yang,Lu Rong,Yang Qing.Predi-cting retweeting in microblogs[J].Journal of Chinese Information Processing,2012,26(4):109-114.
[10] Chen Jiang,Liu Wei,Chao Wen-han.Microblog forwarding prediction based on hot topics[J].Journal of Chinese Information Processing,2015,29(6):150-158.
[11] Ahmed H,Ismail M A,Hyder M F,et al.Performance comparison of spark clusters configured conventionally and a cloud service ☆[J].Procedia Computer Science,2016,82:99-106.
[12] Wang X,Huang F,Cheng Y.Computational performance optimization of support vector machine based on support vectors[J].Neurocomputing,2016,211:66-71.
[13] Sina micro-blog user influence fo-rmula[EB/OL].http://data.weibo.com/mydata/minidata/personal,2016.
附中文參考文獻(xiàn):
[1] 胡海洋,李忠金,胡 華,等.面向移動(dòng)社交網(wǎng)絡(luò)的協(xié)作式內(nèi)容分發(fā)機(jī)制[J].計(jì)算機(jī)學(xué)報(bào),2013,36(3):613-625.
[3] 丁兆云,賈 焰,周 斌.微博數(shù)據(jù)挖掘研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2014,51(4):691-706.
[5] 李 洋,陳毅恒,劉 挺.微博信息傳播預(yù)測(cè)研究綜述[J].軟件學(xué)報(bào),2016,27(2):247-263.
[6] 趙龍文,公榮濤,陳明艷,等.基于意見(jiàn)領(lǐng)袖參與行為的微博話題熱度預(yù)測(cè)研究[J].情報(bào)雜志,2013,32(12):42-46.
[7] 黃蕉平.基于微博的負(fù)面熱點(diǎn)新聞早期預(yù)測(cè)分析[D].華南理工大學(xué),2013.
[9] 張 旸,路 榮,楊 青.微博客中轉(zhuǎn)發(fā)行為的預(yù)測(cè)研究[J].中文信息學(xué)報(bào),2012,26(4):109-114.
[10] 陳 江,劉 瑋,巢文涵,等.融合熱點(diǎn)話題的微博轉(zhuǎn)發(fā)預(yù)測(cè)研究[J].中文信息學(xué)報(bào),2015,29(6):150-158.
[13] 新浪微博影響力計(jì)算公式[EB/OL].http://data.weibo.com/mydata/minidata/personal,2016.