王 亞
(許昌學(xué)院, 河南 許昌461000 )
隨著互聯(lián)網(wǎng)社交網(wǎng)絡(luò)的發(fā)展,用戶在虛擬社區(qū)中分享或表達(dá)自己的觀點(diǎn)已成常態(tài),如在微博、博客和各類相關(guān)網(wǎng)站中,用戶可以撰寫自己對某一事件的看法,也可以對產(chǎn)品或服務(wù)進(jìn)行評論。 用戶在虛擬社區(qū)中的言論自由是用戶的基本權(quán)利,但與此同時(shí),也存在由惡意眾包下的網(wǎng)絡(luò)水軍組成的眾多垃圾用戶,他們受雇于不法商家或不良組織或個(gè)人,在社交網(wǎng)絡(luò)中進(jìn)行惡意交互活動(dòng),如發(fā)布垃圾貼、廣告貼,從事話題炒作、事件營銷、發(fā)布虛假評論等活動(dòng),這些網(wǎng)絡(luò)水軍的存在干擾了網(wǎng)絡(luò)輿情傳播,嚴(yán)重影響了虛擬社區(qū)正常的互動(dòng)分享與生態(tài)平衡。 因此,識別和檢測虛擬社區(qū)的垃圾用戶已經(jīng)成為了一個(gè)重要的議題。
豆瓣網(wǎng)是一個(gè)提供書影音推薦、線下同城活動(dòng)、小組話題交流等多種服務(wù)功能于一體的創(chuàng)新網(wǎng)絡(luò)服務(wù)社區(qū)網(wǎng)站。 而豆瓣電影是中國最大與最權(quán)威的電影分享與評論社區(qū),收錄了百萬條影片與影人的資料,有2500 多家電影院加盟,更匯聚了數(shù)千萬熱愛電影的人。 而影評在一定程度上影響著電影的票房,很多人在選擇一部電影之前,會(huì)習(xí)慣性的打開評分網(wǎng)站,查看該電影的評分或影評,評分過低或影評太差可能就不在觀影范圍之內(nèi),對于已經(jīng)存在的高評分電影,用戶會(huì)呈現(xiàn)出更高的觀影傾向。 在這種利益的推動(dòng)下,當(dāng)前有很多即將上映的電影為了獲取更高的票房,雇傭大量的網(wǎng)絡(luò)水軍在豆瓣影評中進(jìn)行虛假評論,惡意抬高電影評分。 同時(shí),還有購買虛假評論對同期上映的電影進(jìn)行惡意差評的行為。所有這些發(fā)布的虛假的、不符合實(shí)際的評論信息被稱為垃圾評論信息,發(fā)布這些虛假評論的用戶被稱為水軍用戶。 虛假的影評信息會(huì)打破電影生態(tài)環(huán)境,引起電影票房的不公平競爭。
對于垃圾用戶識別和檢測的研究,目前國內(nèi)外學(xué)者已經(jīng)取得了一定的成果。 其中,對于電子郵件[1]、電話網(wǎng)絡(luò)[2]、網(wǎng)站論壇[3]等類型的研究開展的較早,而針對Facebook、Twitter、微博等新型社交網(wǎng)絡(luò)虛擬社區(qū)中的垃圾檢測則是近幾年興起的研究熱點(diǎn)。 在虛擬社區(qū)中,垃圾用戶的檢測通常從多種信息源出發(fā),例如:用戶資料、微博內(nèi)容、圖結(jié)構(gòu)等。而對于此類垃圾用戶的檢測,如何找到好的用戶特征無疑是研究的重點(diǎn)之一。 當(dāng)前已經(jīng)存在的工作主要是基于垃圾用戶發(fā)布的內(nèi)容評論進(jìn)行特征的抽取,如復(fù)制的評論、評論詞匯量的大小、評論的長度,是否進(jìn)行了多次評論、評分、用戶的聯(lián)系方式(如URL 或電話)、評論情感分等[4-7],另外一類方法則基于用戶的行為特征,如用戶的活躍天數(shù)和活躍的平均時(shí)間段[8],用戶注冊日期[7]等。 除了文本特征和行為特征外,還有用戶肖像特征,如粉絲數(shù)和關(guān)注數(shù)[8]、發(fā)布的評論數(shù)或發(fā)表的博文數(shù)[7]等也會(huì)被用于垃圾用戶的檢測。 相比于文本特征,用戶肖像特征更容易得到。 但以上對于垃圾用戶的檢測多用于對微博垃圾用戶的判斷,而對于豆瓣網(wǎng)影評垃圾用戶的檢測目前還未發(fā)現(xiàn)有文章涉及,微博用戶和豆瓣網(wǎng)影評用戶在用戶信息、行為特征方面并不完全相同,因而本文旨在對豆瓣網(wǎng)影評數(shù)據(jù)進(jìn)行分析,抽取特征,從而完成豆瓣網(wǎng)影評水軍的識別,其主要貢獻(xiàn)如下:
(1)本文通過對獲得的豆瓣網(wǎng)影評數(shù)據(jù)進(jìn)行用戶信息和行為分析,提取了用戶靜態(tài)行為特征和動(dòng)態(tài)行為特征作為用戶的基本特征。
(2)本文首先人工判別出部分水軍用戶和正常用戶,以邏輯回歸作為二分類方法對這些數(shù)據(jù)進(jìn)行模型訓(xùn)練,并以這些作為訓(xùn)練數(shù)據(jù)以邏輯回歸方法進(jìn)行模型訓(xùn)練。 同時(shí)對多個(gè)特征進(jìn)行結(jié)合以查看模型的訓(xùn)練效果,從而最大程度的提高豆瓣網(wǎng)影評水軍的識別效率。
實(shí)驗(yàn)表明采用本文提取的相關(guān)特征進(jìn)行訓(xùn)練和學(xué)習(xí),對于豆瓣網(wǎng)影評水軍的識別準(zhǔn)確率能達(dá)到將近67.8%,這足以證明本文提取特征的可行性和有效性。
對豆瓣網(wǎng)數(shù)據(jù)進(jìn)行采集,獲得了指定的電影信息、電影評論信息、評論用戶基本信息和評論用戶關(guān)系信息等構(gòu)成的數(shù)據(jù)集。 通過對數(shù)據(jù)集中用戶的影評進(jìn)行分析發(fā)現(xiàn),豆瓣網(wǎng)影評水軍用戶一般具有如下靜態(tài)行為特征和動(dòng)態(tài)行為特征:
(1)影評水軍用戶一般受雇于不良組織,在社交網(wǎng)絡(luò)中發(fā)布虛假評論,此類用戶要么是為專門發(fā)表虛假影評評論而注冊的用戶,或者是一些專業(yè)的水軍用戶,已廣泛的發(fā)表虛假評論,這些用戶一般具有較少的粉絲,其關(guān)注的用戶一般也較少,另外,其基本信息資料也會(huì)存在一定程度的不完善性,基于這些靜態(tài)的特征,將提取相關(guān)的特征,構(gòu)建基于靜態(tài)行為特征的水軍識別模型,以進(jìn)行水軍用戶的識別。
(2)影評水軍用戶為了進(jìn)行電影營銷,惡意抬高或貶低電影。 為了影響網(wǎng)絡(luò)民意,制造較強(qiáng)的輿論導(dǎo)向,水軍用戶所發(fā)布的評論信息的情感度一般較為激烈。 另外,其以利益為目的,評論頻率、評論時(shí)間、評論打分、評論內(nèi)容都明顯起到了引導(dǎo)輿論傾向的目的。 基于這些動(dòng)態(tài)行為特征,構(gòu)建相應(yīng)的動(dòng)態(tài)行為特征模型,以進(jìn)行水軍用戶的識別。
用戶靜態(tài)行為特征主要是指用戶的基本信息,如:用戶的自我介紹、常居地、個(gè)性簽名、粉絲數(shù)、關(guān)注數(shù)等靜態(tài)特征。 一般來說,正常用戶只有一個(gè)賬號,而水軍用戶則存在多個(gè)賬號,主要區(qū)別在于基本信息的完整度。 基于此,建立三個(gè)特征desc,local_name,signature分別表示用戶是否填寫了自我介紹、常居地與個(gè)性簽名,另外建立了三個(gè)特征desclen,locnamelen,signaturelen分 別 表 示 自 我 介紹、常居地、個(gè)性簽名的長度。 這三個(gè)長度特征由于閾值與其他特征有區(qū)別,因此采用max_min 線性函數(shù) 使 其 歸 一 化 為 特 征desclen?,locnamelen?,sighlen?,見公式(1)、(2)和(3)。
通過分析數(shù)據(jù)集,為用戶ID 與備用ID 建立一個(gè)特征id_uid,表示該用戶的用戶ID 與備用ID 是否相等,一般地,普通用戶可能會(huì)不一致,而水軍用戶為降低成本,則會(huì)采用默認(rèn)形式保持一致。
抽取flowerCount和friendCount作為粉絲數(shù)量和關(guān)注人數(shù)量的特征,并采用min_max線性函數(shù)將其歸一化為特征flowercount?,friendcount?, 見公式(4)和(5)。
用戶的動(dòng)態(tài)行為特征主要是用戶對影評的評論特征,包括:影評時(shí)間、影評部數(shù)、影評分?jǐn)?shù)等。
將用戶發(fā)表影評時(shí)間與用戶注冊賬號時(shí)間的時(shí)間差、以及電影上映時(shí)間與電影評論時(shí)間的時(shí)間差分別作為一個(gè)特征,從而建立一個(gè)特征值Tc-u,用來表示用戶發(fā)表評論時(shí)間與用戶注冊賬號時(shí)間的時(shí)間差,如果該用戶發(fā)表了多條電影評論,則Tc-u為時(shí)間差的平均值,見公式(6)。 建立另一個(gè)特征值Tc-r,用來表示用戶發(fā)表影評時(shí)間與電影上映時(shí)間的時(shí)間差,如果該用戶發(fā)表了多條電影評論,則Tc-r為時(shí)間差的平均值,具體見公式(7)。
其中:m代表評論的電影總部數(shù),commenttimefilm_i表示對第i 部電影的評論時(shí)間,timeregister表示該用戶的注冊時(shí)間。
其中:m代表評論的電影總部數(shù),commenttimefilm_i表示對第i部電影的評論時(shí)間,releasetimefilm_i表示第i部電影的上映時(shí)間。
影評信息里的星級評價(jià)同影評平均分的差值也能作為一個(gè)特征,建立一個(gè)特征值commentrating,用來表示用戶對影評信息中的星級評價(jià)同電影平均分的偏差,如果一個(gè)賬號評論了多部電影,則commentrating表示每部電影的評分與該電影平均分的差值,求和再進(jìn)行平均,所得的值,具體見公式(8)。
其中:m代表用戶評分的電影總部數(shù),commentratingfilm_i表示用戶對第i部電影的評分,avgratingfilm_i表示第i 部電影的平均評分。
本文提取的豆瓣影評數(shù)據(jù)中有七部電影,因而對于每個(gè)用戶建立一個(gè)7 維向量用以表示用戶對哪一部電影做出了影評,film =(f1,f2,…,fi) 表示電影合集,對每個(gè)用戶建立一個(gè)向量v_film =(vf1,vf2,…,v fi) ,其中v fi表示該用戶是否對第i部電影做出了評論,由于電影數(shù)選擇為7 部,因此,v_film是一個(gè)7 維向量。 另外建立特征total_film表示用戶評論的電影的總部數(shù),該值小于等于7。
建立了一個(gè)特征值commentvote,用來表示用戶發(fā)表的影評所獲得的贊數(shù),如果用戶發(fā)表了多條影評,則commentvote表示每部影評所獲得的平均贊數(shù)。 見公式(9)。
其中:m代表該賬號下發(fā)表的評論被贊的電影總部數(shù),commentvotefilm_i表示用戶評價(jià)的第i 部電影的影評獲得的贊數(shù)。 對該投票數(shù)進(jìn)行線性函數(shù)歸一化,獲得特征commentvote?,見公式(10)。
(1)數(shù)據(jù)采集與數(shù)據(jù)標(biāo)記。 本文采集了豆瓣七部電影的影評信息,獲取了126880 個(gè)用戶的基本信息,結(jié)合用戶的基本信息、影評信息以及社交網(wǎng)信息,人工標(biāo)注出一些垃圾用戶樣本和普通用戶樣本作為研究對象。 標(biāo)注出的2458 個(gè)樣本信息,其中垃圾用戶897 個(gè),正常用戶1561 個(gè)。 在實(shí)驗(yàn)中,為了保持樣本的均衡性,選取了897 個(gè)垃圾用戶和897個(gè)正常用戶參與訓(xùn)練。 實(shí)驗(yàn)采用五折交叉驗(yàn)證。
(2)實(shí)驗(yàn)結(jié)果。 本實(shí)驗(yàn)根據(jù)提取的用戶特征,采用邏輯回歸的分類方法進(jìn)行模型的訓(xùn)練,回歸參數(shù)采用默認(rèn)值,使用準(zhǔn)確率、精確率、召回率、F1 值這四種指標(biāo)對模型進(jìn)行評價(jià)。 對不同的特征進(jìn)行融合,進(jìn)行模型的訓(xùn)練,所得的實(shí)驗(yàn)結(jié)果如表1 所示。
表1 對不同特征融合進(jìn)行模型訓(xùn)練所得的實(shí)驗(yàn)結(jié)果Tab. 1 Experimental results of model training on different feature fusions
從實(shí)驗(yàn)結(jié)果可以看出,融合用戶的不同特征進(jìn)行訓(xùn)練將得到不同的模型結(jié)果。 僅用戶的靜態(tài)行為特征參與進(jìn)行模型的訓(xùn)練,識別水軍的準(zhǔn)確率可以達(dá)到61.7%。 而僅用戶的動(dòng)態(tài)行為特征參與進(jìn)行模型訓(xùn)練,識別水軍的準(zhǔn)確率可達(dá)到67.1%。 如果將用戶動(dòng)態(tài)行為特征和靜態(tài)行為特征融合進(jìn)行模型的訓(xùn)練,識別水軍的準(zhǔn)確率可提高到67.8%,而模型精確率和F1 值也都有些許提高。 從實(shí)驗(yàn)結(jié)果可以看出,用戶的動(dòng)態(tài)行為特征在水軍用戶方面有比較明顯的優(yōu)勢,而單純的采用靜態(tài)行為特征效果并不是太好,將這兩類特征進(jìn)行融合檢測水軍的準(zhǔn)確率將提高到67.8%,具有較好的效果。
本文對豆瓣影評水軍用戶進(jìn)行識別,通過對豆瓣網(wǎng)影評數(shù)據(jù)進(jìn)行分析,提取了用戶靜態(tài)行為特征和動(dòng)態(tài)行為特征,采用邏輯回歸分類方法,對以上特征采用單獨(dú)模型訓(xùn)練以及融合模型訓(xùn)練,以提高模型預(yù)測水軍的準(zhǔn)確率。 實(shí)驗(yàn)證明,將提取的用戶動(dòng)態(tài)行為特征和靜態(tài)行為特征融合進(jìn)行模型訓(xùn)練,其對水軍識別的準(zhǔn)確率最高可達(dá)到67.8%。