国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合影響力傳播的社交網(wǎng)絡(luò)群推薦方法

2022-05-19 06:58葉佳鑫熊回香
情報(bào)學(xué)報(bào) 2022年4期
關(guān)鍵詞:博文影響力群體

葉佳鑫,熊回香,易 明,劉 明

(華中師范大學(xué)信息管理學(xué)院,武漢 430079)

1 引 言

目前,F(xiàn)acebook、Twitter、微博等社交網(wǎng)絡(luò)平臺(tái)已經(jīng)成為網(wǎng)絡(luò)用戶進(jìn)行交流以及資源共享等活動(dòng)的重要場(chǎng)地,平臺(tái)上用戶數(shù)量的維持與增長(zhǎng)帶動(dòng)了資源數(shù)量的增加,使個(gè)性化推薦技術(shù)的引入成為必然。區(qū)別于面向單個(gè)用戶的推薦場(chǎng)景,社交網(wǎng)絡(luò)平臺(tái)上常有一種更具價(jià)值的推薦場(chǎng)景即面向群體推薦。

就人的活動(dòng)特征而言,絕大部分個(gè)體都傾向于進(jìn)行群體活動(dòng),特別是很多互聯(lián)網(wǎng)活動(dòng),如團(tuán)體購物、電影討論等。在這些場(chǎng)景中,推薦服務(wù)系統(tǒng)需要有面向群體提供決策支持的能力,以挖掘群體需求為基礎(chǔ),將資源同時(shí)推薦給多個(gè)具有需求的用戶,以此來提升推薦效率[1]。雖然推薦服務(wù)系統(tǒng)已在互聯(lián)網(wǎng)各個(gè)領(lǐng)域中得到了廣泛的應(yīng)用,但是當(dāng)前的推薦服務(wù)系統(tǒng)主要還是針對(duì)單個(gè)用戶,群推薦的相關(guān)方法及理論亟待補(bǔ)充。

為了研究如何更好地面向社交網(wǎng)絡(luò)群體用戶進(jìn)行推薦服務(wù),本文著重分析了用戶之間的交互行為以及各用戶的影響力,將興趣傳播引入群推薦服務(wù),構(gòu)建了興趣傳播視角下結(jié)合用戶影響力的群推薦服務(wù)框架,即融合影響力傳播的群推薦服務(wù)。借助影響力傳播來模擬社交網(wǎng)絡(luò)平臺(tái)上用戶群體興趣的實(shí)時(shí)變化情況,并通過對(duì)不同用戶影響力的衡量來完善興趣傳播過程,從而達(dá)到提高群推薦效果的目的。

2 研究現(xiàn)狀及研究基礎(chǔ)

2.1 群推薦的應(yīng)用范圍

目前群推薦服務(wù)已在旅游、閱讀、電子商務(wù)與電影等領(lǐng)域得到了一定的應(yīng)用。Ardissono 等[2]設(shè)計(jì)開發(fā)了面向群體用戶的旅游推薦系統(tǒng)(IN‐TRIGUE),該系統(tǒng)基于不同群體如老人、小孩的偏好特征來為其進(jìn)行推薦服務(wù);Kim 等[3]在使用協(xié)同過濾方法為群組生成推薦集的基礎(chǔ)上進(jìn)一步從推薦集中刪除了不相關(guān)的項(xiàng)目,以提高個(gè)體成員偏好的滿意度;朱國瑋等[4]在計(jì)算群體對(duì)商品的評(píng)分時(shí)利用遺傳算法對(duì)未知評(píng)分進(jìn)行預(yù)測(cè),并考慮到了用戶影響力對(duì)群體評(píng)分的影響;李汶華等[5]基于多代理系統(tǒng)模擬用戶的協(xié)商過程,從而得到最后的群推薦結(jié)果。

2.2 群推薦的主要影響因素

影響群推薦的因素主要有社會(huì)選擇與社會(huì)影響;目前的群推薦策略大多基于社會(huì)選擇理論形成,并沒有對(duì)社會(huì)影響現(xiàn)象進(jìn)行充分考慮[6-7]。社會(huì)選擇是同質(zhì)性的作用機(jī)理,即興趣特征相似的人更有可能建立關(guān)系,用戶依據(jù)自身的興趣來與其他用戶或項(xiàng)目產(chǎn)生聯(lián)系;表現(xiàn)在群推薦上則是基于各個(gè)用戶的歷史興趣來推斷其選擇不同項(xiàng)目的可能性,并綜合各個(gè)用戶的興趣值來得到整個(gè)群體對(duì)推薦項(xiàng)目的評(píng)分。與社會(huì)選擇不同,社會(huì)影響指人們的決策易受到外部環(huán)境或有交互關(guān)系的其他人的影響,即用戶在進(jìn)行決策時(shí)會(huì)參考他人的意見,來自外部的因素會(huì)影響用戶最后做出的決策;表現(xiàn)在群推薦上則是群體中不同個(gè)體最后做出的決策會(huì)受到外部影響,需判斷來自外部的影響強(qiáng)度以及每個(gè)個(gè)體受到外部影響的程度,并綜合個(gè)體受到的影響來得到外部因素對(duì)整個(gè)群體造成的影響,最后將造成的影響與目標(biāo)資源相關(guān)聯(lián)從而進(jìn)行推薦。

2.3 用戶影響力分析

社交網(wǎng)絡(luò)平臺(tái)上,用戶間的交互會(huì)使用戶興趣發(fā)生變化并帶動(dòng)群體興趣發(fā)生變化;網(wǎng)絡(luò)中不同用戶對(duì)群體的影響大小存在差異,影響力較大的用戶影響其他用戶的范圍與程度也較大,更容易改變?nèi)后w的興趣[8]。目前,相關(guān)研究已指出,影響力不同的成員通常在群體的決策過程中發(fā)揮著不同的作用[9-10],用戶影響力的分析對(duì)社交網(wǎng)絡(luò)中的信息傳播、鏈路分析、突發(fā)事件檢測(cè)等問題的研究具有重要意義[11]。對(duì)群推薦任務(wù)而言,用戶影響力的分析更是有助于界定各成員在群決策過程中的作用,能有效推進(jìn)相關(guān)工作的進(jìn)展與優(yōu)化[12]。

2.4 興趣傳播與影響力傳播

興趣傳播可以理解為,每個(gè)用戶存在一個(gè)初始興趣,且用戶的興趣向量會(huì)在用戶關(guān)聯(lián)圖上進(jìn)行隨機(jī)游走,其游走的過程在現(xiàn)實(shí)中可表示為用戶接觸其他用戶的行為(如用戶觀察其他用戶所發(fā)布的內(nèi)容、用戶與其他用戶的交流等),這種興趣的游走現(xiàn)象會(huì)使關(guān)聯(lián)圖上每個(gè)用戶的興趣不斷更新[13]。

用戶影響力會(huì)影響用戶所發(fā)布的消息在社交網(wǎng)絡(luò)中的傳播速度,以及覆蓋的范圍與深度;計(jì)算網(wǎng)絡(luò)中用戶的影響力并找出關(guān)鍵用戶,對(duì)分析網(wǎng)絡(luò)中信息的傳播機(jī)制具有重要作用[14]。同理,用戶影響力也會(huì)影響社交網(wǎng)絡(luò)中的興趣傳播過程,可以推斷出用戶影響力與興趣傳播的速度、范圍與大小具有很強(qiáng)的關(guān)系,很有必要在興趣傳播的過程中考慮到用戶影響力,即影響力傳播。

2.5 研究現(xiàn)狀述評(píng)

總體而言,目前群推薦已在多個(gè)領(lǐng)域得到了應(yīng)用,具有較強(qiáng)的應(yīng)用范圍及研究?jī)r(jià)值。在不考慮用戶之間相互交流的情況下,群推薦主要依托社會(huì)選擇因素進(jìn)行,即依據(jù)群體中每個(gè)成員的興趣來得到待推薦的項(xiàng)目評(píng)分。然而,隨著社交網(wǎng)絡(luò)平臺(tái)的興起以及各種點(diǎn)評(píng)平臺(tái)的出現(xiàn),用戶在做決策時(shí)很容易受到群體中其他用戶或外部環(huán)境的影響,即群推薦的結(jié)果除了受到社會(huì)選擇因素影響之外還會(huì)受到社會(huì)影響因素的影響。目前的群推薦研究在以社交網(wǎng)絡(luò)中的群體用戶為研究對(duì)象時(shí),對(duì)社會(huì)影響因素的考慮還存在一些不足,主要表現(xiàn)在以下兩個(gè)方面:第一,有些研究在進(jìn)行群推薦時(shí)只考慮了社會(huì)選擇因素而沒有考慮社會(huì)影響因素,考慮了社會(huì)影響因素的研究在進(jìn)行推薦時(shí),大多僅簡(jiǎn)單地依據(jù)群體中不同用戶的影響力來分配權(quán)重計(jì)算待推薦項(xiàng)目的評(píng)分,忽略了群成員之間的相互影響;第二,在群推薦中引入社會(huì)影響因素時(shí)缺少相應(yīng)理論支撐,社會(huì)選擇與社會(huì)影響因素之間的關(guān)系有待辯證,即需要分析社會(huì)影響因素是如何作用于群推薦的整個(gè)過程,以及社會(huì)選擇因素與社會(huì)影響因素的作用區(qū)別。

為了解決以上問題,本文將興趣傳播與用戶影響力進(jìn)行結(jié)合,并應(yīng)用于社交網(wǎng)絡(luò)群推薦任務(wù)中,提出了基于影響力傳播的社交網(wǎng)絡(luò)群推薦方法,在推薦的過程中通過影響力傳播來體現(xiàn)社會(huì)影響因素對(duì)群推薦過程的影響,將其與社會(huì)選擇因素即用戶興趣相結(jié)合,更好地進(jìn)行群推薦服務(wù)。此外,依據(jù)群體興趣的變化程度對(duì)比分析了社會(huì)選擇與社會(huì)影響因素的作用大小,厘清了兩種因素的相互關(guān)系。

3 研究框架

社交網(wǎng)絡(luò)中存在大量以不同類型的事件或人物為中心形成的興趣團(tuán)體,興趣團(tuán)體內(nèi)各成員通常圍繞某一固定范圍內(nèi)的相關(guān)話題展開討論;依據(jù)個(gè)人影響力和參與討論的方式不同,各成員在話題討論中發(fā)揮著不同的作用。本文以社交網(wǎng)絡(luò)中的興趣團(tuán)體為研究對(duì)象構(gòu)建了融合影響力傳播的群推薦方法,如圖1 所示。

圖1 融合影響力傳播的群推薦方法架構(gòu)

圖1 展示了本文的群推薦方法架構(gòu)。從社交網(wǎng)絡(luò)上收集到博文數(shù)據(jù)后,先利用用戶歷史數(shù)據(jù)來計(jì)算用戶影響力,并找出影響力較高的核心用戶;隨后從用戶的文本中提取出相關(guān)信息來構(gòu)建核心用戶與群體的興趣特征模型,結(jié)合核心用戶影響力及其興趣特征來預(yù)測(cè)資源在群體內(nèi)的傳播情況,得到基于影響力傳播的資源得分(社會(huì)影響作用),計(jì)算群體興趣與資源間的匹配程度,得到基于特征相似性分析的資源得分(社會(huì)選擇作用);最后進(jìn)一步結(jié)合推薦群體的特性對(duì)得分進(jìn)行整合,從而得到考慮影響力傳播的資源評(píng)分,選擇資源推薦給核心用戶,利用核心用戶來實(shí)現(xiàn)資源的擴(kuò)散,資源的擴(kuò)散會(huì)產(chǎn)生影響力傳播現(xiàn)象,使群體的興趣發(fā)生變化,其外在表現(xiàn)就是以資源為話題展開的發(fā)布、轉(zhuǎn)發(fā)、評(píng)論與點(diǎn)贊等行為。

3.1 用戶影響力計(jì)算與核心用戶選擇

粉絲數(shù)與博文數(shù)[15]、用戶活躍度[16]、轉(zhuǎn)發(fā)率與評(píng)論率[17]等都是以往學(xué)者在進(jìn)行社交網(wǎng)絡(luò)用戶影響力評(píng)價(jià)時(shí)考慮的相關(guān)因素。為了對(duì)相關(guān)因素進(jìn)行綜合考慮,本文借鑒h 指數(shù)的思想對(duì)社交網(wǎng)絡(luò)中用戶的影響力進(jìn)行計(jì)算。

h 指數(shù)是一種綜合考慮學(xué)者論文的數(shù)量與質(zhì)量的學(xué)者評(píng)價(jià)指標(biāo)[18]。目前已經(jīng)有學(xué)者將h 指數(shù)用于社交網(wǎng)絡(luò)用戶的影響力評(píng)價(jià),以h 指數(shù)的思想分別構(gòu)建了轉(zhuǎn)發(fā)h 指數(shù)(ht)、評(píng)論h 指數(shù)(hc)與點(diǎn)贊h 指數(shù) (hl)[19]。本文對(duì) ht、hc 與 hl 指數(shù)進(jìn)行了重要性衡量,為其分配權(quán)重并進(jìn)行整合,用整合的值來評(píng)價(jià)社交網(wǎng)絡(luò)中用戶的影響力。用戶影響力計(jì)算公式為

其中,α、β、γ分別為 ht、hc、hl 指數(shù)的權(quán)重,其值取決于對(duì)社交網(wǎng)絡(luò)中用戶轉(zhuǎn)發(fā)、評(píng)論與點(diǎn)贊行為的分析。若某一種行為的發(fā)生頻率較低,則可理解為該行為的發(fā)生具有一定的難度,用戶需要花費(fèi)較高的時(shí)間成本進(jìn)行該行為;也可理解為用戶對(duì)該資源具有強(qiáng)烈的興趣才會(huì)產(chǎn)生該行為,因此,某一行為發(fā)生的頻率越低,本文賦予其權(quán)重越高。

在計(jì)算用戶影響力之后,選取影響力較大的部分用戶作為核心用戶。核心用戶通常在群體中發(fā)揮著較為重要的作用,從核心用戶出發(fā)來模擬影響力傳播的過程,能極大限度地還原傳播過程,且節(jié)省巨大的時(shí)間成本。在本文中,核心用戶需要具備較高的影響力,且其發(fā)布的文本數(shù)不能過低。

3.2 興趣模型建立

3.2.1 群體興趣模型

本文通過對(duì)熱度較高的博文進(jìn)行挖掘來建立群體興趣特征。熱度較高的博文即群體內(nèi)用戶點(diǎn)贊、轉(zhuǎn)發(fā)與評(píng)論較多的博文,博文熱度P的計(jì)算參照用戶影響力的計(jì)算,即

其中,P為博文的熱度;t、c、l分別為博文的轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)與點(diǎn)贊數(shù);α、β、γ分別為t、c、l的權(quán)重。

群體用戶的興趣可由興趣方向與興趣強(qiáng)度表示。本文在實(shí)證研究中選擇電影為推薦對(duì)象,在建立群體興趣模型時(shí),通過與群體相關(guān)的電影信息來表示群體在電影類型與電影人物兩個(gè)方向的興趣強(qiáng)度,分為(電影類型, 強(qiáng)度)與(電影人物, 強(qiáng)度)。電影類型的強(qiáng)度即某一類型電影的出現(xiàn)頻次,電影人物的強(qiáng)度即電影中導(dǎo)演與演員的出現(xiàn)頻次。為了考慮時(shí)間因素,引入遺忘函數(shù)來調(diào)整模型,對(duì)興趣強(qiáng)度進(jìn)行調(diào)整得到調(diào)整后的群體興趣[20]。調(diào)整后的興趣強(qiáng)度計(jì)算公式為

其中,X為調(diào)整前的群體興趣強(qiáng)度;k為興趣的衰減速率,本文中取k=1;t為間隔時(shí)間,表示博文發(fā)布時(shí)間與數(shù)據(jù)采集時(shí)間的間隔,以月度作為間隔時(shí)間,單位為天;Tmin為最小遺忘時(shí)間間隔,Tmax為最大遺忘時(shí)間間隔,兩者之差用于表示興趣的遺忘時(shí)間區(qū)間;X′為考慮時(shí)間衰減調(diào)整后的群體興趣強(qiáng)度。

3.2.2 核心用戶興趣模型

對(duì)于核心用戶的興趣,因本文選擇的為核心用戶最新發(fā)布的博文所涉及的電影,故未考慮興趣衰減而直接用詞的出現(xiàn)頻次表示興趣強(qiáng)度,即用電影信息表示核心用戶興趣,核心用戶興趣可表示為(電影類型, 強(qiáng)度)與(電影人物, 強(qiáng)度),電影類型與電影人物強(qiáng)度的取值分別取決于類型與人物信息在核心用戶電影信息中的出現(xiàn)頻次。

3.3 資源得分計(jì)算

3.3.1 基于群體興趣的資源得分

在基于群體興趣的資源評(píng)分中,考慮到詞語出現(xiàn)的頻次與覆蓋率,用公式

來對(duì)推薦集進(jìn)行評(píng)分。其中,Sp為基于群體興趣的資源得分;Sp1為電影類型得分,Sp2為電影人物得分;T1為電影中具有分值的類型詞語數(shù),T2為類型詞語總數(shù);T3為電影中具有分值的人物詞語數(shù),T4為人物詞語總數(shù)。

3.3.2 基于影響力傳播的資源得分

在基于影響力傳播的資源評(píng)分中,考慮到用戶的博文發(fā)布行為及其影響力提出以下設(shè)定:

(1)用戶對(duì)電影的興趣強(qiáng)度需達(dá)到一定閾值才會(huì)發(fā)布與電影相關(guān)的博文。

(2)用戶發(fā)布的與電影有關(guān)的博文數(shù)量、質(zhì)量與其對(duì)電影的興趣強(qiáng)度相關(guān),即用戶對(duì)電影的興趣越大,其發(fā)布的與電影相關(guān)的博文數(shù)量就越多,質(zhì)量越高。

(3)博文的傳播范圍與強(qiáng)度受到博文數(shù)量、博文質(zhì)量與用戶影響力的綜合影響。

基于以上設(shè)定,設(shè)計(jì)公式

來計(jì)算基于影響力傳播的資源評(píng)分。其中,Sd為基于影響力傳播的資源得分;K為核心用戶對(duì)電影的興趣強(qiáng)度,K′為核心用戶對(duì)電影的興趣強(qiáng)度閾值,若K達(dá)到K′值,則用戶會(huì)傳播與該電影相關(guān)的博文,K超出K′值越多,則用戶發(fā)布的相關(guān)博文數(shù)量越多,質(zhì)量越高;I為用戶影響力。K的計(jì)算公式為

其中,K1為核心用戶關(guān)于電影類型的得分,考慮到類型詞的出現(xiàn)頻次,設(shè)置其出現(xiàn)頻次不小于2 時(shí)具有得分,從而控制詞出現(xiàn)的偶然性,當(dāng)K1-1<0 時(shí),設(shè)K1-1=0;K2為核心用戶關(guān)于電影人物的得分,當(dāng)K2-1<0 時(shí),設(shè)K2-1=0。

3.3.3 資源得分整合

得到基于群體興趣與影響力傳播的資源得分之后,需要按照群體的特征對(duì)得分進(jìn)行整合,從而得到整合后的資源評(píng)分。評(píng)分整合的計(jì)算公式為

其中,Sp和Sd分別為歸一化處理后的基于群體興趣與影響力傳播的資源得分;α為調(diào)節(jié)系數(shù),通過分析群體特征來進(jìn)行取值。此外,Sp為基于自身興趣的得分,主要受社會(huì)選擇因素的作用;Sd為基于影響力傳播的得分,主要受社會(huì)影響因素的作用。即興趣群體受社會(huì)選擇因素的作用越大,α取值越??;受社會(huì)影響因素的作用越大,α取值越大。本文通過衡量群體興趣的變化程度來衡量其受社會(huì)選擇與社會(huì)影響因素的作用大小。若群體興趣較為穩(wěn)定,則其更易受社會(huì)選擇作用;若群體興趣變化頻繁,則其更易受社會(huì)影響作用。

4 實(shí)證與分析

4.1 數(shù)據(jù)收集

在所提群推薦方法架構(gòu)的基礎(chǔ)上,本文從微博超話“電影”上采集了相關(guān)數(shù)據(jù)用于展示群推薦的具體流程?!俺挕笔切吕宋⒉┩瞥龅囊豁?xiàng)功能,用于將興趣相似的人集合在一起。本文采集的數(shù)據(jù)來自超話中以“電影”為話題展開的興趣團(tuán)體,該團(tuán)體中成員日常發(fā)表與討論的話題大多與電影相關(guān),且成員具有一定的固定性,也存在一些較為穩(wěn)定的核心用戶。采集數(shù)據(jù)的時(shí)間段為2019 年1 月1日至2019 年9 月11 日,共采集到用戶發(fā)布的博文10097 條,抓取了與每條博文相關(guān)的點(diǎn)贊數(shù)、評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)、發(fā)布時(shí)間以及發(fā)布用戶等相關(guān)信息,采集到的部分?jǐn)?shù)據(jù)如表1 所示。

表1 “電影”博文數(shù)據(jù)集

4.2 數(shù)據(jù)預(yù)處理

采集數(shù)據(jù)后,為了更好地進(jìn)行后續(xù)工作,需要對(duì)數(shù)據(jù)進(jìn)行清洗、排序與匯總等預(yù)處理。在表1 所示數(shù)據(jù)中,用戶ID 為發(fā)文用戶的統(tǒng)一標(biāo)識(shí)符且具有唯一性,對(duì)用戶ID 進(jìn)行去重處理,共得到1310個(gè)不同用戶,將用戶的所有博文進(jìn)行整合,并按照用戶發(fā)文數(shù)量對(duì)表1 中的數(shù)據(jù)進(jìn)行排序,結(jié)果如表2 與圖 2 所示。

如表2 與圖2 所示,1310 名用戶的發(fā)文數(shù)分布在1~496。用戶“解憂電影局”的發(fā)文數(shù)為496,在1310 名用戶中最高;“左拇食指”等用戶發(fā)文數(shù)為1,在1310 名用戶中最低。1310 名用戶中有大量用戶發(fā)文數(shù)低于50。用戶的發(fā)文總數(shù)量與其在興趣群體中的影響力具有較為直接的關(guān)系,因此,在后續(xù)的群推薦中將主要以發(fā)文數(shù)量較多的用戶為切入點(diǎn)進(jìn)行分析。

圖2 用戶-博文數(shù)散點(diǎn)圖

表2 清理后博文數(shù)據(jù)集

4.3 用戶影響力計(jì)算

考慮到發(fā)文數(shù)量與用戶影響力的關(guān)系,本文選擇對(duì)表2 中發(fā)文數(shù)最多的50 名用戶進(jìn)行影響力評(píng)價(jià)。在利用公式(1)計(jì)算用戶影響力之前,先統(tǒng)計(jì)該興趣團(tuán)體內(nèi)博文的平均轉(zhuǎn)發(fā)數(shù)、平均評(píng)論數(shù)與平均點(diǎn)贊數(shù),其值分別為8.390、4.719 和37.780,即點(diǎn)贊行為發(fā)生率最高,轉(zhuǎn)發(fā)行為發(fā)生率次之,評(píng)論行為發(fā)生率最低,可以理解為用戶對(duì)博文的評(píng)論行為代表著其對(duì)博文具有最高的興趣,隨后是轉(zhuǎn)發(fā)與點(diǎn)贊行為。因此,α、β、γ分別取值為0.3、0.5、0.2。50 名用戶的影響力結(jié)果如表3 所示。

表3 顯示了基于影響力的用戶排序結(jié)果,50 名用戶的影響力分布在0.700~31.200。對(duì)比表2、表3的數(shù)據(jù)可以發(fā)現(xiàn),基于博文數(shù)與基于影響力的用戶排序結(jié)果存在一定差異,用戶“解憂電影局”按博文數(shù)排序第一,按影響力排序第七,說明其發(fā)文量大,但是具有影響力的博文數(shù)量少于其他用戶。借鑒h 指數(shù)的思想來計(jì)算用戶影響力,綜合考慮了用戶的發(fā)文數(shù)量與質(zhì)量,避免了僅考慮博文數(shù)與粉絲數(shù)計(jì)算用戶影響力而產(chǎn)生的偏差,可以較為合理地預(yù)測(cè)用戶在群體中的影響力。

表3 用戶影響力

4.4 群體興趣模型建立

在所選取的超話“電影”群體內(nèi),用戶的博文內(nèi)容通常由用戶對(duì)電影的簡(jiǎn)短介紹、電影名與電影相關(guān)視頻組成,其中簡(jiǎn)介與視頻通常不包含用戶的興趣特征,因此,本文僅從電影名來尋找電影的相關(guān)信息,對(duì)電影信息進(jìn)行抽取從而提取用戶興趣特征。

電影的上映與下架存在周期性,圍繞電影而展開的話題討論也存在一定的動(dòng)態(tài)性。本文將所收集到的博文以月為單位進(jìn)行劃分,從2019 年4 月11 日至2019 年9 月11 日劃分為5 個(gè)集合,從每個(gè)集合內(nèi)分別選取1 部電影,共選取5 部。先利用公式(2)計(jì)算月度內(nèi)博文的熱度,隨后選取月度內(nèi)熱度最高的博文中涉及的電影來表示該月度的群體興趣。在選取相關(guān)電影后,從豆瓣電影上找到電影的類型、導(dǎo)演與演員信息來表示電影的特征(導(dǎo)演僅選取1位,演員僅選取排名前三的主要演員)。選取的5部電影信息如表4 所示。

在得到表4 中的群體電影信息后,先統(tǒng)計(jì)電影類型及導(dǎo)演、演員的出現(xiàn)頻次,得到電影類型及電影人物強(qiáng)度,隨后利用公式(3)得到調(diào)整后的興趣強(qiáng)度。對(duì)于Tmin與Tmax的取值,本文從表1 的數(shù)據(jù)中找出10 部用戶討論較多的電影,統(tǒng)計(jì)相關(guān)博文的發(fā)布時(shí)間,如表5 所示,參考10 部電影的時(shí)間跨度,Tmin取值 35,Tmax取值 234 (若t<Tmin,則認(rèn)為興趣不會(huì)衰減)。

表4 興趣群體-電影相關(guān)信息

表5 電影討論時(shí)間跨度

具體地,以類型-劇情為例,調(diào)整前其強(qiáng)度為3,分別取自其在8—9、7—8、5—6 這3 個(gè)月度內(nèi)的出現(xiàn)頻次1;以公式(3)對(duì)其進(jìn)行調(diào)整,則8—9、7—8、5—6 這3 個(gè)月度的出現(xiàn)頻次分別調(diào)整為1、1×0.882、1×0.652,調(diào)整后的強(qiáng)度為(劇情, 2.534),群體興趣如表6 所示。

表6 群體-興趣模型

4.5 核心用戶興趣模型建立

用戶影響力大小對(duì)影響力傳播的范圍、強(qiáng)度具有較大影響。本文選取表3 中影響力最大的20 名用戶作為核心用戶來進(jìn)行基于影響力傳播的資源評(píng)分,從其近期發(fā)布的博文中挖掘興趣特征。選取20名用戶最近發(fā)布的博文中涉及的5 部電影來表示用戶興趣,共選取100 部電影,相關(guān)信息如表7 所示。

在得到表7 中的核心用戶電影信息后,統(tǒng)計(jì)電影類型及導(dǎo)演、演員的出現(xiàn)頻次,即可得到核心用戶的興趣模型,如表8 所示。

表7 核心用戶-電影相關(guān)信息

表8 核心用戶-興趣模型

4.6 基于群體興趣的資源評(píng)分

構(gòu)建興趣模型后,從豆瓣電影上采集30 部近期熱度最高的電影作為推薦的資源集來描述本文的群推薦過程。從豆瓣電影上采集的電影為數(shù)據(jù)采集時(shí)間段內(nèi)國內(nèi)熱度較高的電影集合,與該超話群體內(nèi)用戶討論的電影具有一定的重合度,且同時(shí)包含群體用戶較為關(guān)注及不太關(guān)注的電影,在熱度接近的情況下,將該資源集作為推薦的測(cè)試集可以在盡可能地避免熱度影響的情況下衡量是否能為群體用戶推薦到其感興趣的資源,從而對(duì)推薦的效果進(jìn)行準(zhǔn)確評(píng)估。資源推薦集如表9 所示。

表9 資源推薦集相關(guān)信息

用公式(4)來對(duì)推薦集進(jìn)行評(píng)分,如電影《續(xù)命之徒:絕命毒師電影》,其類型得分為劇情-2.534、驚悚-0、犯罪-0,人物得分為0,則該電影的評(píng)分為(2.534+0+0)×1/3+0。為了便于后續(xù)整合,對(duì)所有評(píng)分進(jìn)行了歸一化處理,映射到[0,1]。30 部電影基于群體興趣的評(píng)分結(jié)果如表10 所示。

表10 基于群體興趣的資源得分

4.7 基于影響力傳播的資源評(píng)分

基于公式(5)與公式(6)計(jì)算每位核心用戶對(duì)推薦資源集的評(píng)分。如電影《續(xù)命之徒:絕命毒師電影》,用戶“花心彌漫”關(guān)于其類型得分為劇情-3、驚悚-0、犯罪-1,人物得分為0,則用戶“花心彌漫”對(duì)該電影的評(píng)分為(3-1+0+1-1)×1/3+0。為了便于后續(xù)整合,對(duì)所有評(píng)分進(jìn)行了歸一化處理,映射到[0,1]。取興趣閾值K′=3,將核心用戶評(píng)分之和作為30部電影基于影響力傳播的評(píng)分,結(jié)果如表11所示。

表11 基于影響力傳播的資源得分

4.8 群推薦結(jié)果

在進(jìn)行評(píng)分整合前,需確定α的取值。以群體內(nèi)每個(gè)月度中熱度最高的博文涉及的電影類型來表示群體當(dāng)月興趣,考慮到興趣衰減的程度,將當(dāng)月興趣與前兩個(gè)月的興趣進(jìn)行對(duì)比來衡量興趣變化程度。若當(dāng)月所提及電影類型涉及的n個(gè)類型詞都在前兩個(gè)月出現(xiàn)過,則興趣變化程度為0;若有m個(gè)詞沒在前兩個(gè)月出現(xiàn)過,則興趣變化程度為m/n。分別比較 4—5、5—6、6—7、7—8、8—9 共 5 個(gè)月度的興趣變化程度,結(jié)果如表12 所示。

表12 群體興趣變化程度

如表12 所示,4—9 月內(nèi),該群體興趣變化程度的均值為0.500,因此,本文取α=0.500 來對(duì)資源推薦集的得分進(jìn)行整合,整合后的結(jié)果如表13 所示。

表13 整合后的資源得分

4.9 結(jié)果分析

在得到基于群體興趣、影響力傳播,以及整合群體興趣與影響力傳播這3 種資源評(píng)分后,按得分高低即可進(jìn)行資源推薦。因本文在選擇測(cè)試集時(shí),已對(duì)資源熱度進(jìn)行控制,確保其熱度較為一致以避免影響推薦結(jié)果,故在評(píng)估推薦效果時(shí)可主要以推薦結(jié)果與群體興趣的一致程度來衡量。本文采用準(zhǔn)確率來進(jìn)行推薦效果評(píng)價(jià),即

其中,A為準(zhǔn)確率;TP 為群推薦列表和測(cè)試集的資源重合數(shù);L為推薦列表的長(zhǎng)度??紤]到博文在微博中的擴(kuò)散時(shí)間,本文依據(jù)2019 年8 月12 日—2019年10 月11 日提及電影的博文熱度來確定群推薦列表的順序,采用公式(2)計(jì)算博文的熱度,用與電影相關(guān)的博文中熱度最高的博文所對(duì)應(yīng)的熱度來表示電影熱度,按熱度從大到小排序得到群推薦列表,如表14 所示。

表14 群推薦列表

考慮到推薦資源的總長(zhǎng)度,分別比較推薦列表長(zhǎng)度為總長(zhǎng)度10%、20%、30%時(shí)的準(zhǔn)確率,即比較長(zhǎng)度為3、6、9 時(shí)3 種推薦方法的準(zhǔn)確率,結(jié)果如表15 所示。

表15 準(zhǔn)確率評(píng)估結(jié)果

從評(píng)估結(jié)果可以看出,當(dāng)推薦的資源數(shù)較少時(shí),整合群體興趣與影響力傳播的推薦方法具有最好的推薦效果;隨著推薦資源數(shù)量的提升,基于群體興趣的推薦效果會(huì)得到一定提升;基于影響力傳播的推薦效果一般,且受推薦資源數(shù)量的影響較低;但當(dāng)推薦的資源數(shù)限定在一定范圍時(shí),影響力傳播就能發(fā)揮較大作用,優(yōu)化了基于群體興趣的推薦結(jié)果。此外,通過對(duì)比表13、表10、表11 中的資源得分可以發(fā)現(xiàn),綜合社會(huì)選擇與社會(huì)影響因素得到的推薦結(jié)果相較于僅考慮單一因素具有更好的可解釋性。例如,整合群體興趣與影響力傳播后,排名第一的電影為《大偵探皮卡丘》,其在基于群體興趣與影響力傳播的評(píng)分中都有較好的評(píng)價(jià),即其較為貼合群體的興趣偏好,且影響力較大的用戶也有較大可能發(fā)布與其相關(guān)的博文;排名第四的電影《銀河補(bǔ)習(xí)班》雖然在影響力傳播上具有較高的得分,但因其與群體興趣的匹配程度較低,故其影響力傳播造成的范圍與程度應(yīng)適當(dāng)降低,所以其整合后的推薦排序相較于影響力傳播排序有一些下降;排名第二的電影《X 戰(zhàn)警:黑鳳凰》在群體興趣上的得分僅為0.035,但其在影響力傳播上具有最高的得分,通過興趣的傳播,即使與群體興趣匹配程度較低的資源也有可能得到廣泛的關(guān)注;此外,《獅子王》等在影響力傳播上得分為0 的電影經(jīng)過整合后,也可能在推薦列表中排序靠前,這可能是由于除核心用戶外,也有部分其他用戶會(huì)基于興趣而發(fā)布博文,若資源與群體興趣的匹配程度較高,則其可能通過核心用戶之外的其他用戶得到傳播。

5 結(jié)論與展望

本文提出了一種基于影響力傳播的社交網(wǎng)絡(luò)群推薦方法,該方法在面向社交網(wǎng)絡(luò)群體用戶進(jìn)行推薦時(shí),分別從核心用戶對(duì)用戶群體的影響力以及用戶群體的整體興趣出發(fā),結(jié)合了社會(huì)影響及社會(huì)選擇作用對(duì)社交網(wǎng)絡(luò)群體用戶興趣的影響,進(jìn)行群推薦服務(wù)。通過微博“超話”數(shù)據(jù)開展了實(shí)證研究,結(jié)果證實(shí),本文方法具有較好的推薦效果與可解釋性。

群推薦服務(wù)是面向社交網(wǎng)絡(luò)平臺(tái)的極具研究?jī)r(jià)值的服務(wù)類型之一,其推薦方法及推薦效果仍具有較大的提升空間。本文提出的方法雖然綜合考慮了社會(huì)影響及社會(huì)選擇作用對(duì)社交網(wǎng)絡(luò)平臺(tái)上群推薦服務(wù)的影響,但在具體的實(shí)施過程中主要是從具有較大影響力的核心用戶出發(fā)來對(duì)群體興趣進(jìn)行預(yù)測(cè),對(duì)于非核心用戶的作用考慮不夠充分,在未來的研究中可對(duì)用戶群體交互過程進(jìn)行更為系統(tǒng)的分析來改進(jìn)推薦思路。

猜你喜歡
博文影響力群體
第一次掙錢
“群體失語”需要警惕——“為官不言”也是腐敗
天才影響力
誰和誰好
黃艷:最深遠(yuǎn)的影響力
Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
3.15消協(xié)三十年十大影響力事件
傳媒不可估量的影響力
關(guān)愛特殊群體不畏難
不容忽視的校園“小群體”
兴安盟| 自贡市| 永宁县| 武山县| 镇坪县| 大新县| 根河市| 大埔县| 高雄市| 鄂尔多斯市| 衡水市| 淳安县| 卢氏县| 湖南省| 綦江县| 海口市| 化州市| 安庆市| 长乐市| 门头沟区| 伊宁市| 贵定县| 会东县| 深圳市| 安图县| 荃湾区| 无棣县| 临潭县| 临江市| 阆中市| 宣化县| 郧西县| 延长县| 新平| 徐汇区| 湖北省| 萨迦县| 定结县| 万宁市| 桓台县| 延吉市|