張中軍 ,張少輝,張文娟
(1.周口師范學(xué)院 計算機(jī)科學(xué)與技術(shù)學(xué)院,河南 周口 466001;2.農(nóng)產(chǎn)品質(zhì)量安全追溯技術(shù)河南省工程實(shí)驗(yàn)室,河南 周口 466001;3.鄭州大學(xué) 信息工程學(xué)院,河南 鄭州 450000)
轉(zhuǎn)發(fā)微博是微博用戶的主要活動,隨著微博用戶的增多和活躍度的提高,各類信息在微博社交網(wǎng)絡(luò)中傳播,成為重要的信息傳播機(jī)制,微博用戶轉(zhuǎn)發(fā)行為預(yù)測主要是獲得用戶轉(zhuǎn)發(fā)特定微博的行為發(fā)生的概率,精確掌握微博用戶信息傳播路徑,這對于阻斷網(wǎng)絡(luò)謠言傳播和輿情監(jiān)測有重要作用。對社交網(wǎng)絡(luò)的研究與分析,主要是用戶在社交網(wǎng)絡(luò)中的行為和社交網(wǎng)絡(luò)對用戶行為的影響,其中,信息轉(zhuǎn)發(fā)傳播就是受復(fù)雜因素影響的社交網(wǎng)絡(luò)行為[1-2]。
用戶在社交網(wǎng)絡(luò)中的活動以瀏覽或發(fā)布微博為主,所以用戶行為與微博內(nèi)容或微博內(nèi)容潛在的情感相關(guān)。Nesi等[3-5]使用離散時間方法分析不同時間段參與主題的用戶數(shù)量,獲得主題發(fā)展變化的趨勢,動態(tài)感知熱點(diǎn)話題;王紹卿等[6]提出聯(lián)合概率模型,把用戶之間的多重信任關(guān)系融入傳統(tǒng)的貝葉斯Poisson因子分解模型,可以靈活地捕獲用戶之間的各種社交影響,從而預(yù)測轉(zhuǎn)發(fā)行為;用戶對微博的轉(zhuǎn)發(fā)意味著用戶對微博內(nèi)容的關(guān)注,微博內(nèi)容是決定用戶是否轉(zhuǎn)發(fā)的關(guān)鍵因素之一,F(xiàn)irdaus等[7]基于微博內(nèi)容進(jìn)行深層分析,挖掘微博內(nèi)容相關(guān)的情感和情緒,在不同的情感層次上發(fā)現(xiàn)用戶對不同主題的偏好,繼而探討用戶的主題特定情緒對其轉(zhuǎn)發(fā)決策的影響,證明了微博內(nèi)容潛在的情感也是用戶轉(zhuǎn)發(fā)決策的一個重要因素。
用戶的社交網(wǎng)絡(luò)行為受多種復(fù)雜因素影響,用戶的轉(zhuǎn)發(fā)決策也不僅僅依賴于微博的內(nèi)容或者情感。Chen等[8]從內(nèi)容語義、用戶擴(kuò)散行為和網(wǎng)絡(luò)結(jié)構(gòu)三個維度生成各種特征,提出新的集成學(xué)習(xí)方法預(yù)測轉(zhuǎn)發(fā)行為;Fu等[9-10]抽取影響微博轉(zhuǎn)發(fā)的特征集,如用戶特征、網(wǎng)絡(luò)結(jié)構(gòu)特征、互動行為、用戶轉(zhuǎn)發(fā)率、交互頻率等,結(jié)合多種因素來度量用戶歷史行為模式和用戶影響力對用戶轉(zhuǎn)發(fā)行為的影響;Zhang等[11-12]將用戶社會影響力整合到轉(zhuǎn)發(fā)預(yù)測模型中,共同提高預(yù)測性能;Kadhom等[13]發(fā)現(xiàn)用戶轉(zhuǎn)發(fā)行為與其他用戶轉(zhuǎn)發(fā)行為具有相關(guān)性,即用戶之間的相關(guān)度對用戶轉(zhuǎn)發(fā)行為有一定的影響。Li等[14]通過分析影響微博用戶轉(zhuǎn)發(fā)行為的多種特征因素,建立了微博用戶轉(zhuǎn)發(fā)行為的預(yù)測模型,然后根據(jù)交互時間和用戶關(guān)系的拓?fù)浣Y(jié)構(gòu)計算用戶的影響,確定轉(zhuǎn)發(fā)關(guān)鍵路徑;Zou等[15]采用PCA算法對網(wǎng)絡(luò)信息數(shù)據(jù)進(jìn)行精確分析,通過對社交網(wǎng)絡(luò)信息傳播的建模和正向預(yù)測,獲得網(wǎng)絡(luò)信息傳播的趨勢和規(guī)律。除此之外,社交網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)在用戶的轉(zhuǎn)發(fā)行為預(yù)測中也有重要的作用。Hoang等[16-17]發(fā)現(xiàn)用戶所屬社區(qū)結(jié)構(gòu)對用戶轉(zhuǎn)發(fā)行為產(chǎn)生影響,并在轉(zhuǎn)發(fā)行為預(yù)測中加以應(yīng)用;Li等[18]挖掘用戶潛在社區(qū),分析外部社區(qū)驅(qū)動效應(yīng)和內(nèi)部社區(qū)驅(qū)動效應(yīng),采用概率圖模型對轉(zhuǎn)發(fā)行為進(jìn)行建模,預(yù)測轉(zhuǎn)發(fā)行為。Yin等[19]將用戶瀏覽和轉(zhuǎn)發(fā)的微博行為成功應(yīng)用于COVID-19的輿論趨勢分析,能準(zhǔn)確預(yù)測重大新聞事件的發(fā)生。
現(xiàn)有的微博社交網(wǎng)絡(luò)轉(zhuǎn)發(fā)行為預(yù)測方法多數(shù)依賴于對微博正文的挖掘,以此來分析用戶的興趣或情感,通過對興趣或情感的衡量預(yù)測轉(zhuǎn)發(fā)行為,有些方法過于強(qiáng)調(diào)社交網(wǎng)絡(luò)結(jié)構(gòu)的影響,用網(wǎng)絡(luò)結(jié)構(gòu)緊密度來預(yù)測用戶之間轉(zhuǎn)發(fā)行為,都忽略了用戶本身的行為習(xí)慣和用戶之間的行為相關(guān)性,即用戶行為對其他用戶行為的影響。本文利用網(wǎng)絡(luò)爬蟲獲取某時間段內(nèi)的新浪微博數(shù)據(jù)并提取用戶微博特征,設(shè)計了轉(zhuǎn)發(fā)行為習(xí)慣度、歷史微博認(rèn)同度、微博內(nèi)容相似度和轉(zhuǎn)發(fā)行為相似度計算方法,并綜合多種度量標(biāo)準(zhǔn)預(yù)測用戶轉(zhuǎn)發(fā)行為,避免了衡量標(biāo)準(zhǔn)的片面性和對網(wǎng)絡(luò)結(jié)構(gòu)的過度依賴。
微博社交網(wǎng)絡(luò)由用戶作為網(wǎng)絡(luò)節(jié)點(diǎn)、用戶之間的關(guān)注關(guān)系作為網(wǎng)絡(luò)連邊,現(xiàn)實(shí)情況下,用戶之間的關(guān)注關(guān)系具有方向性,所以,微博社交網(wǎng)絡(luò)中的邊為有向邊,微博社交網(wǎng)絡(luò)可以看成一個有向圖D=<V,E>,其中V是D中的節(jié)點(diǎn)集,E是有向邊的集合,E中的每一個元素均是序偶<u,v>。
用戶發(fā)布微博數(shù)量中轉(zhuǎn)發(fā)的微博所占的比例反映用戶在社交網(wǎng)絡(luò)微博活動中更可能發(fā)生轉(zhuǎn)發(fā)行為還是原創(chuàng)發(fā)布行為,這個比例本文稱之為轉(zhuǎn)發(fā)行為習(xí)慣度,轉(zhuǎn)發(fā)行為習(xí)慣度越高,說明用戶更習(xí)慣于轉(zhuǎn)發(fā)別人的微博,否則,說明用戶更習(xí)慣于發(fā)布原創(chuàng)微博。用戶i的轉(zhuǎn)發(fā)行為習(xí)慣度計算公式如下:
其中,F(xiàn)ocusi表示用戶i關(guān)注的所有用戶節(jié)點(diǎn)的集合,nk→i表示用戶i從用戶k轉(zhuǎn)發(fā)的微博數(shù)量,Ni表示用戶i發(fā)布的微博總數(shù),包括轉(zhuǎn)發(fā)和原創(chuàng)微博。
用戶轉(zhuǎn)發(fā)其他用戶微博,可以認(rèn)為是對其所發(fā)布微博的觀點(diǎn)和內(nèi)容的認(rèn)同。如果用戶j的微博被用戶i轉(zhuǎn)發(fā)數(shù)量較多,那么可以合理地認(rèn)為用戶i對用戶j的認(rèn)同是穩(wěn)定的,用戶j再次發(fā)布的微博被用戶i轉(zhuǎn)發(fā)的可能性更大。所以,本文采用用戶i轉(zhuǎn)發(fā)用戶j微博的頻率Pj→i來衡量用戶i對用戶j歷史微博的認(rèn)同度,即用戶j發(fā)布的微博被用戶i轉(zhuǎn)發(fā)的比例,計算公式如下:
其中,nj→i表示用戶 i轉(zhuǎn)發(fā)用戶 j的微博數(shù)量,Nj表示用戶j發(fā)布的微博總數(shù)。
用戶發(fā)布的微博內(nèi)容能反映用戶的興趣偏好,可以分析用戶近期微博內(nèi)容獲得該用戶的興趣偏好,根據(jù)待預(yù)測微博與該用戶歷史微博的相似性來衡量用戶轉(zhuǎn)發(fā)該微博的可能性,如果待預(yù)測微博與該用戶歷史微博內(nèi)容高度相似,那么該用戶轉(zhuǎn)發(fā)行為發(fā)生概率較大。事實(shí)上,用戶的興趣偏好容易隨著時間的推移發(fā)生變化,所以久遠(yuǎn)的歷史微博記錄只能代表用戶以前的興趣。本文只對用戶近期發(fā)表的微博以及轉(zhuǎn)發(fā)的微博內(nèi)容進(jìn)行分析,既能減少數(shù)據(jù)處理開銷,也能保證用戶興趣挖掘的精確性。
文中收集用戶近三個月的微博內(nèi)容數(shù)據(jù),對需要計算內(nèi)容相似度的用戶ui的歷史微博數(shù)據(jù)和uj的待預(yù)測微博,使用NLPIR漢語分詞系統(tǒng)對相應(yīng)微博數(shù)據(jù)進(jìn)行分詞,得到總的詞匯列表 L={t1,t2,…,tn},tk為所分析微博數(shù)據(jù)中出現(xiàn)的詞匯,n表示總的詞語數(shù),然后對L中每個詞語計算TF-IDF值,記作tdi:
其中,qi表示詞語ti在總微博樣本中出現(xiàn)的次數(shù),n代表總詞語數(shù)量,|D|表示總的微博數(shù)量,|{d∶ti∈d}|表示含有詞語 ti的微博數(shù)量。對于用戶ui歷史微博數(shù)據(jù)和uj的待預(yù)測微博數(shù)據(jù),根據(jù)微博詞語的TF-IDF值分別用向量表示為Vui和Vuj,那么微博內(nèi)容相似度可以使用其向量余弦值表示:
其中:Vui·VTuj是Vui和Vuj兩者的點(diǎn)積,分母中分別表示Vui和Vuj的歐幾里得范數(shù)。
微博內(nèi)容相同或相似的用戶之間具有相同的興趣愛好,轉(zhuǎn)發(fā)行為發(fā)生的可能性較大,但是,根據(jù)對微博數(shù)據(jù)的分析發(fā)現(xiàn),用戶轉(zhuǎn)發(fā)的微博與其歷史微博內(nèi)容毫無相關(guān)性的現(xiàn)象也時常存在,這種轉(zhuǎn)發(fā)行為反映出用戶之間觀點(diǎn)的相似性。本文使用用戶轉(zhuǎn)發(fā)行為相似性來衡量用戶之間觀點(diǎn)的相似性,如果兩個用戶轉(zhuǎn)發(fā)第三個用戶微博的比例、被第三個用戶轉(zhuǎn)發(fā)的比例較大,則認(rèn)為兩者觀點(diǎn)高度相似,那么這類用戶之間發(fā)生轉(zhuǎn)發(fā)行為的可能性也較大。用戶i與用戶j的轉(zhuǎn)發(fā)行為相似度可以通過用戶i,j從所有共同關(guān)注節(jié)點(diǎn)的轉(zhuǎn)發(fā)比例的平均值以及被所有共同粉絲節(jié)點(diǎn)轉(zhuǎn)發(fā)的比例平均值來計算,公式如下:
其中,F(xiàn)ocusij表示節(jié)點(diǎn)i,j共同關(guān)注的節(jié)點(diǎn)集合;Followij表示節(jié)點(diǎn)i,j共同粉絲節(jié)點(diǎn)集合;n表示節(jié)點(diǎn)i,j共同關(guān)注的節(jié)點(diǎn)個數(shù);m表示節(jié)點(diǎn)i,j共 同 粉 絲 節(jié) 點(diǎn) 個 數(shù) 。 pk→ij=Agree(i,k)×Agree(j,k)表示用戶i和j轉(zhuǎn)發(fā)k的微博比例,pij→k=Agree(k,i)×Agree(k,j)表 示 用 戶 k 轉(zhuǎn) 發(fā)用戶i和用戶j的微博比例。
用戶轉(zhuǎn)發(fā)行為預(yù)測就是根據(jù)上述多個度量綜合判斷轉(zhuǎn)發(fā)行為發(fā)生的可能性。用戶i對用戶j發(fā)布的微博發(fā)生轉(zhuǎn)發(fā)行為的概率就是通過用戶i的轉(zhuǎn)發(fā)行為習(xí)慣度、用戶i對用戶j的歷史微博認(rèn)同度、用戶j所發(fā)微博與用戶i近期微博內(nèi)容的相似度以及兩者轉(zhuǎn)發(fā)行為相似度綜合衡量。為防止單項(xiàng)為0時對結(jié)果造成的影響,對各度量做簡單變換,用戶i對用戶j發(fā)布的微博轉(zhuǎn)發(fā)行為發(fā)生的概率計算公式如下:
其中,系數(shù)Eij表示在微博社交網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中節(jié)點(diǎn)i到節(jié)點(diǎn)j是否存在連邊,存在連邊為1,否則為0。節(jié)點(diǎn)i到節(jié)點(diǎn)j存在連邊,說明用戶i關(guān)注了用戶j,用戶j所發(fā)布的微博對用戶i可見,可能被用戶i轉(zhuǎn)發(fā),否則,不可能發(fā)生轉(zhuǎn)發(fā)行為,即轉(zhuǎn)發(fā)概率為零。在轉(zhuǎn)發(fā)行為預(yù)測時,當(dāng)滿足Retweet(i,j)≥θ時,則認(rèn)為會發(fā)生轉(zhuǎn)發(fā)行為,否則,認(rèn)為不轉(zhuǎn)發(fā)。用戶轉(zhuǎn)發(fā)行為預(yù)測過程如圖1所示。
圖1 用戶轉(zhuǎn)發(fā)行為預(yù)測過程Fig.1 Prediction process of user retweet behavior
在上面的過程中,分為特征提取及相似度計算階段、訓(xùn)練階段和預(yù)測階段。在特征提取及相似度計算階段中,轉(zhuǎn)發(fā)行為相似度的計算主要提取待預(yù)測用戶發(fā)布微博的總量和其中的轉(zhuǎn)發(fā)數(shù)量;歷史微博認(rèn)同度的計算主要提取已知用戶發(fā)布微博的總量和被待預(yù)測用戶轉(zhuǎn)發(fā)的數(shù)量;微博內(nèi)容相似度的計算主要獲得已知用戶所發(fā)新微博與待預(yù)測用戶興趣的契合度;轉(zhuǎn)發(fā)行為相似度主要提取兩者對共同關(guān)注的用戶微博的轉(zhuǎn)發(fā)行為和第三方對兩者微博的轉(zhuǎn)發(fā)行為。訓(xùn)練階段主要是利用訓(xùn)練數(shù)據(jù)集確定閾值θ的值。轉(zhuǎn)發(fā)行為預(yù)測階段則可以看作分類問題,結(jié)果只有轉(zhuǎn)發(fā)或不轉(zhuǎn)發(fā)兩類。本文微博轉(zhuǎn)發(fā)行為預(yù)測算法MRBP-MMF(Microblog retweet behavior prediction method based on multiple metrics fusion)偽代碼如下:
本文所用實(shí)驗(yàn)數(shù)據(jù)采集于新浪微博平臺,數(shù)據(jù)包括微博用戶及關(guān)注關(guān)系、發(fā)布微博的時間、內(nèi)容(包括原創(chuàng)與轉(zhuǎn)發(fā)內(nèi)容)、是否轉(zhuǎn)發(fā)、評論及點(diǎn)贊等信息。由于在微博社交網(wǎng)絡(luò)中存在大量僵尸用戶等噪聲數(shù)據(jù),直接影響實(shí)驗(yàn)結(jié)果,所以實(shí)驗(yàn)前對數(shù)據(jù)進(jìn)行清洗,去除在指定時間窗口內(nèi)從未發(fā)布或轉(zhuǎn)發(fā)過任何微博的無效用戶,保留73 508個用戶和1 054 563條關(guān)注關(guān)系、8 032 649條微博,其中轉(zhuǎn)發(fā)微博1 296 254條、原創(chuàng)微博6 736 395條,形成實(shí)驗(yàn)數(shù)據(jù)集。后面將針對本文提出的基于多度量融合的微博轉(zhuǎn)發(fā)行為預(yù)測方法(MRBP-MMF)進(jìn)行反復(fù)實(shí)驗(yàn),以測試算法的有效性。
對于分類問題,衡量準(zhǔn)確性的評價方法常選用信息檢索的評價指標(biāo):查準(zhǔn)率、查全率和F1值。微博轉(zhuǎn)發(fā)預(yù)測結(jié)果只有轉(zhuǎn)發(fā)或不轉(zhuǎn)發(fā),故可看作二分類問題,可用分類評價指標(biāo)衡量,在微博轉(zhuǎn)發(fā)預(yù)測中,查準(zhǔn)率(precision)等于正確預(yù)測為“被轉(zhuǎn)發(fā)”的數(shù)量與所有預(yù)測為“被轉(zhuǎn)發(fā)”的數(shù)量的比值,查全率(recall),也稱靈敏度,等于正確預(yù)測為“被轉(zhuǎn)發(fā)”的數(shù)量與實(shí)際“被轉(zhuǎn)發(fā)”的總量的比值。
查準(zhǔn)率和查全率容易被極端情況影響,F(xiàn)1度量是可以用來同時描述查準(zhǔn)率和查全率的一個綜合指標(biāo),計算公式如下:
對于微博轉(zhuǎn)發(fā)行為研究的應(yīng)用,比如網(wǎng)絡(luò)謠言傳播的預(yù)測,目的是盡可能準(zhǔn)確預(yù)測到要發(fā)生的轉(zhuǎn)發(fā)行為,所以,下面實(shí)驗(yàn)中轉(zhuǎn)發(fā)行為預(yù)測結(jié)果主要用F1值和靈敏度來衡量,靈敏度高,說明能發(fā)現(xiàn)更多的轉(zhuǎn)發(fā)行為。
針對本文提出的MRBP-MMF方法設(shè)計實(shí)驗(yàn)以驗(yàn)證算法在轉(zhuǎn)發(fā)行為預(yù)測中的效果,首先進(jìn)行消融實(shí)驗(yàn),即轉(zhuǎn)發(fā)預(yù)測模型中只保留微博內(nèi)容相似度單一特征,這也是早期轉(zhuǎn)發(fā)預(yù)測研究采用的方法(下文稱為MRBP)。然后將本文MRBP-MMF算法與經(jīng)典的樸素貝葉斯和支持向量機(jī)分類算法以及PM3[7]和RBMHDRN轉(zhuǎn)發(fā)預(yù)測算法[8]進(jìn)行對比實(shí)驗(yàn)。在實(shí)驗(yàn)中,采用K折交叉驗(yàn)證方法驗(yàn)證在不同規(guī)模訓(xùn)練數(shù)據(jù)下各算法的預(yù)測效果。K折交叉驗(yàn)證是數(shù)據(jù)分類中常用的測試方法,它將實(shí)驗(yàn)數(shù)據(jù)隨機(jī)分成K份,依次將其中K-1份作為訓(xùn)練數(shù)據(jù)集,剩余1份作為測試數(shù)據(jù),將K次執(zhí)行的結(jié)果的平均值作為算法的執(zhí)行的結(jié)果,在本文實(shí)驗(yàn)中,K從2到10依次取值。
圖2是MRBP-MMF方法與消融后的MRBP方法K折交叉驗(yàn)證結(jié)果的F1值,從圖中可以看出,本文的MRBP-MMF方法的預(yù)測結(jié)果F1值整體上明顯優(yōu)于MRBP方法,并且隨著訓(xùn)練數(shù)據(jù)的增多,MRBP-MMF的預(yù)測結(jié)果F1值大幅升高,整體提高了約16%,相比而言,MRBP的預(yù)測結(jié)果的F1值整體偏低,雖有提高,但增幅較小,并且在K取值為8之后,預(yù)測結(jié)果沒有明顯提高。圖3是消融前后靈敏度對比,圖中顯示,MRBP-MMF靈敏度遠(yuǎn)遠(yuǎn)高于消融后的MRBP方法,并且整體來看,MRBP方法的靈敏度隨著訓(xùn)練數(shù)據(jù)增加,并沒有明顯提高,甚至有下降現(xiàn)象。實(shí)驗(yàn)表明,相對于單一特征,多度量融合的方法在訓(xùn)練數(shù)據(jù)較少的情況下,能夠取得更好的預(yù)測效果,并且隨訓(xùn)練數(shù)據(jù)規(guī)模的逐步增大,預(yù)測效果明顯提高。總體來講,MRBP-MMF方法對用戶轉(zhuǎn)發(fā)行為的預(yù)測靈敏度比消融后平均高出12%。此實(shí)驗(yàn)結(jié)果的產(chǎn)生,原因在于MRBP方法采用微博內(nèi)容相似度單一特征來判斷用戶轉(zhuǎn)發(fā)行為發(fā)生的可能性,忽略了用戶在微博社交網(wǎng)絡(luò)行為中轉(zhuǎn)發(fā)別人微博的習(xí)慣、對關(guān)注對象的認(rèn)同等現(xiàn)實(shí)因素,甚至訓(xùn)練數(shù)據(jù)較多時卻導(dǎo)致訓(xùn)練結(jié)果過度依賴微博內(nèi)容,反而靈敏度下降,所以,多度量融合的MRBP-MMF方法能夠取得更好的結(jié)果。
圖2 消融前后預(yù)測結(jié)果F1值對比Fig.2 Comparison of F1 values before and after fusion
圖3 消融前后靈敏度對比Fig.3 Comparison of sensitivity before and after fusion
Naive Bayes算法和SVM算法都是經(jīng)典的分類算法。下面將兩種分類算法用于轉(zhuǎn)發(fā)行為預(yù)測,并將預(yù)測結(jié)果與MRBP-MMF方法對比。圖4是三者預(yù)測結(jié)果的F1值對比,從圖中可以看出,MRBP-MMF的預(yù)測結(jié)果F1值均明顯高于Naive Bayes算法和SVM算法,在2折交叉驗(yàn)證實(shí)驗(yàn)時,MRBP-MMF與Naive Bayes、SVM相比,預(yù)測結(jié)果F1值相差較小,隨著訓(xùn)練數(shù)據(jù)的增多,預(yù)測結(jié)果F1值差距逐漸增大,在10折交叉驗(yàn)證實(shí)驗(yàn)中,本文MRBP-MMF預(yù)測結(jié)果F1值相比Naive Bayes和SVM分別高出約0.09和0.12,并且兩種分類算法的預(yù)測結(jié)果F1值增幅較小。圖5是三者靈敏度對比,顯然,MRBPMMF靈敏度高于兩種分類算法,并呈上升趨勢,而Naive Bayes算法和SVM算法靈敏度上升之后出現(xiàn)下降,整體較低。實(shí)驗(yàn)表明,與Naive Bayes和SVM相比,在訓(xùn)練數(shù)據(jù)較少的情況下,本文MRBP-MMF方法能夠獲得更高的預(yù)測效果,并且隨訓(xùn)練數(shù)據(jù)規(guī)模的逐步增大,其預(yù)測效果有更大的提升。產(chǎn)生此實(shí)驗(yàn)結(jié)果的原因在于傳統(tǒng)的Naive Bayes和SVM算法主要用于分類,特別是文本分類,雖然微博用戶轉(zhuǎn)發(fā)行為預(yù)測可以視為分類問題,但傳統(tǒng)的經(jīng)典分類方法并不適應(yīng)于社交網(wǎng)絡(luò)數(shù)據(jù)。MRBP-MMF方法充分考慮了用戶轉(zhuǎn)發(fā)行為相似度和轉(zhuǎn)發(fā)習(xí)慣,所以在轉(zhuǎn)發(fā)行為預(yù)測方面表現(xiàn)出了更好的效果。
圖4 與Naive Bayes和SVM預(yù)測結(jié)果F1值對比Fig.4 Comparison of F1 with Naive Bayes and SVM
圖5 與Naive Bayes和SVM靈敏度對比Fig.5 Comparison of sensitivity with Naive Bayes and SVM
PM3算法和RBMHDRN算法均與傳統(tǒng)分類方法不同,PM3算法是針對社交網(wǎng)絡(luò)轉(zhuǎn)發(fā)行為預(yù)測而設(shè)計的一種強(qiáng)調(diào)用戶情感因素的方法,重點(diǎn)研究內(nèi)容包含情感和情緒對轉(zhuǎn)發(fā)決策的影響,而RBMHDRN算法與本文MRBP-MMF方法類似,集成多種特征實(shí)現(xiàn)轉(zhuǎn)發(fā)預(yù)測,但抽取的特征有所不同。
圖6是MRBP-MMF方法與PM3算法、RBMHDRN算法預(yù)測結(jié)果的F1值對比,圖中顯示,MRBP-MMF的預(yù)測結(jié)果F1值均高于PM3算法,針對不同規(guī)模的訓(xùn)練數(shù)據(jù)實(shí)驗(yàn),多數(shù)預(yù)測結(jié)果的F1值略高于RBMHDRN算法,偶爾略低于RBMHDRN算法,但差距不大,并且訓(xùn)練數(shù)據(jù)量少的情況下,MRBP-MMF方法較優(yōu)。圖7是三者靈敏度對比,MRBP-MMF的靈敏度明顯高于PM3算法,與RBMHDRN算法相比,MRBP-MMF靈敏度多數(shù)情況下略高,偶爾略低,整體相差不大,在訓(xùn)練數(shù)據(jù)增多的情況下,RBMHDRN算法靈敏度較優(yōu)??傮w來講,MRBP-MMF方法轉(zhuǎn)發(fā)行為預(yù)測靈敏度分別比PM3和RBMHDRN平均高出4%和0.7%。
圖6 轉(zhuǎn)發(fā)行為預(yù)測算法預(yù)測結(jié)果F1值對比Fig.6 Comparison of F1 with other algorithms
圖7 轉(zhuǎn)發(fā)行為預(yù)測算法靈敏度對比Fig.7 Comparison of sensitivity of MRBP-MMF with that of PM3 and RBMHDRN
實(shí)驗(yàn)表明,在訓(xùn)練數(shù)據(jù)較少的情況下,本文提出的MRBP-MMF方法能夠獲得更高的準(zhǔn)確性和靈敏度,并且隨訓(xùn)練數(shù)據(jù)規(guī)模的逐步增大,均有所提高,同樣,PM3算法預(yù)測結(jié)果F1值也有提升,說明對用戶情感和情緒的挖掘有助于轉(zhuǎn)發(fā)行為的預(yù)測。實(shí)際上,情感詞所反映的用戶情感是多樣的,比如,“哭”可能代表傷心,也可能代表開心或恐懼,所以,轉(zhuǎn)發(fā)行為預(yù)測不能完全依賴于用戶情感,MRBP-MMF方法綜合多種衡量標(biāo)準(zhǔn),更能取得穩(wěn)定的預(yù)測結(jié)果。
本文提出一種基于多度量融合的微博轉(zhuǎn)發(fā)行為預(yù)測方法,綜合考慮了用戶轉(zhuǎn)發(fā)習(xí)慣度、內(nèi)容相似度、轉(zhuǎn)發(fā)行為相似度等多種度量標(biāo)準(zhǔn),實(shí)驗(yàn)證明本文算法取得了較好的預(yù)測結(jié)果。但是,預(yù)測方法還需要進(jìn)一步的研究探討,比如,轉(zhuǎn)發(fā)時間的預(yù)測,能進(jìn)一步確定用戶在什么時間轉(zhuǎn)發(fā)微博將有更重要的意義。下一步工作的重點(diǎn)是深入分析用戶轉(zhuǎn)發(fā)時間規(guī)律,結(jié)合最新技術(shù),設(shè)計轉(zhuǎn)發(fā)時間預(yù)測模型,進(jìn)一步細(xì)化用戶轉(zhuǎn)發(fā)行為預(yù)測結(jié)果。