張晏成,李 濤
(武漢科技大學(xué) 計算機科學(xué)與技術(shù)學(xué)院 湖北省智能信息處理與工業(yè)實時系統(tǒng) 重點實驗室,湖北 武漢 430065)
在水軍識別技術(shù)中,采用具有代表性的特征因子能有效提高模型的分類效率。以往電商網(wǎng)絡(luò)水軍識別研究中,更多的是基于物質(zhì)商品進行分析,而直接使用物質(zhì)商品水軍特征模型來解決文化產(chǎn)品水軍識別問題具有不足,其本質(zhì)在于文化產(chǎn)品存在如下的特殊性及用戶活動特點。
(1)豐富的語義性。文化產(chǎn)品評論是對產(chǎn)品主題、情節(jié)表達形成了不同觀念的碰撞交流,具有豐富的語義特征,評論主題與目標(biāo)產(chǎn)品主題相關(guān),若相關(guān)性過低或者不相關(guān),則其評論存在較大的虛假性,并導(dǎo)致評論的有用數(shù)較低。
(2)嚴(yán)格的時效性。隨著文化產(chǎn)品發(fā)布的時間越來越長,其熱度逐漸降低,此時再通過水軍進行炒作已沒有過多價值。因此在文化產(chǎn)品中,平均評價積極度是區(qū)分正常用戶與水軍用戶的重要指標(biāo)。
(3)網(wǎng)絡(luò)交互性。文化產(chǎn)品用戶間具有較強的網(wǎng)絡(luò)交互性,具有相同興趣的正常用戶之間更容易存在社交行為,通過找出用戶與好友之間行為和興趣的關(guān)聯(lián)性,甄別出正常用戶與水軍用戶,將行為關(guān)聯(lián)性與興趣關(guān)聯(lián)性作為文化產(chǎn)品水軍識別的新特征。
此外,個人信息的完善程度是人們對一個用戶直觀判斷的入口。本文在傳統(tǒng)屬性特征基礎(chǔ)上,提出了綜合質(zhì)量評價特征因子。
針對上述特點,本文從3個視角提出了6個新特征因子,結(jié)合傳統(tǒng)特征提出了特征向量集合,使用特征選擇方法,建立了針對文化產(chǎn)品水軍識別的特征模型。另外,在以往研究方法中,只是選用單一的分類器,沒有考慮使用弱分類器轉(zhuǎn)化為強分類器的集成方法對模型進行識別,因此,基于文化產(chǎn)品的特征模型,運用集成學(xué)習(xí)算法進行水軍識別具有較高的精準(zhǔn)率。
目前,電商水軍識別已有較深入的研究,文化產(chǎn)品屬于電商產(chǎn)品的分支,具有其特殊性,也有著其它電商評論的一般性,本文在特征分析與相應(yīng)研究方法上,借鑒了其它電商平臺的方法,將電商水軍識別方法主要分為以下3 類:
(1)基于行為視角的研究,其包括評論偏差、評論頻率等特征因子。文獻[1]從用戶行為目的角度,基于水軍行為構(gòu)建檢測模型并對產(chǎn)品評分偏差以及產(chǎn)品目標(biāo)差異性特征進一步細(xì)分從而挖掘水軍團體。文獻[2]綜合考慮了評論者評價行為、交流行為以及對商品的關(guān)注行為并構(gòu)建了D-S證據(jù)理論模型。文獻[3]認(rèn)為發(fā)文間隔、活動時間是水軍識別的重要因素。評論偏差[4]對于水軍識別也具有重要作用。
(2)基于內(nèi)容視角的研究,其包括情感傾向[5]、文本相似度、文本長度等特征因子。文獻[6]在情感極性中使用情感極性均值以及標(biāo)準(zhǔn)差來刻畫虛假評論,采用SMOTE算法優(yōu)化隨機森林分類模型,從而提高識別效果。文獻[7]針對電商領(lǐng)域,對評論文體提取引人關(guān)注的文本比率、專業(yè)詞比率、詞法有效性和文本相似度等新特征,采用支持向量機、邏輯回歸、隨機森林、樸素貝葉斯、J48等分類算法進行檢測,并驗證了SVM和邏輯回歸對水軍識別具有較好效果。
(3)基于行為、屬性、內(nèi)容的多視角研究。其包括以上兩種視角的交叉融合。文獻[8]通過評論數(shù)量、評論質(zhì)量、評論相似度以及時間集中程度4個方面進行展開對網(wǎng)絡(luò)水軍進行研究,并結(jié)合水軍評論3個感知方面建立了消費者購買行為影響模型。文獻[9]提取了虛假評論人的屬性以及行為特征,借助于“大眾點評”權(quán)重機制,構(gòu)建了邏輯回歸預(yù)測模型。文獻[10]對詞頻統(tǒng)計等評論內(nèi)容以及評分情況等用戶行為特征進行主成分分析,并驗證了分別對評論內(nèi)容和評論行為使用SVM、決策樹進行分類識別整體性能優(yōu)于樸素貝葉斯和邏輯回歸。文獻[11]通過評論數(shù)量、頻率等行為特征以及專業(yè)程度、情感密度等內(nèi)容特征采用K均值聚類算法對科技產(chǎn)品的虛假評論進行識別。文獻[12]以大眾點評網(wǎng)為例進行水軍分析,通過內(nèi)容以及行為等不同特征進行組合,采用樸素貝葉斯算法構(gòu)建分類模型對水軍進行識別。
以上研究方法,對電商水軍檢測奠定了一定的基礎(chǔ),但是應(yīng)用在文化產(chǎn)品領(lǐng)域,仍存在著不足。單一視角的水軍檢測方法會有識別率低的問題,由于文化產(chǎn)品的特殊性,而現(xiàn)有的多視角檢測方法設(shè)計的特征向量并沒有針對文化產(chǎn)品,且使用的是單一分類器,導(dǎo)致在檢測文化產(chǎn)品水軍時,準(zhǔn)確率也不高。為了解決以上問題,本文在已有多視角的研究方法上,提出了新的特征模型,并結(jié)合集成學(xué)習(xí)算法進行水軍識別。經(jīng)過實驗驗證,本文提出的特征模型及方法有效提高了文化產(chǎn)品水軍識別效果。
借鑒電商水軍識別采用的特征,從用戶屬性、行為、內(nèi)容3個視角進行計算以及記錄。電商水軍識別特征及描述見表1。
表1 電商水軍識別特征及其描述
文化產(chǎn)品與電商水軍識別在評論內(nèi)容,用戶行為,用戶屬性等特征上存在很大重合,同時也具有一定差異。基于文化產(chǎn)品特殊性以及用戶活動特點,本文在電商水軍識別特征基礎(chǔ)上進行了新的特征設(shè)計。
(1)基于評論者的屬性視角
定義1 綜合質(zhì)量評價(CE)
用戶信息的完整性,在一定程度上反映了用戶的真實性;綜合質(zhì)量評價涉及用戶昵稱、個性簽名、地理位置多個屬性,定義如下
CE=0.3用戶昵稱+0.4個性簽名+0.3地理位置
(1)
(2)基于評論者的行為視角
定義2平均有用度(AU)
有用數(shù)是用戶對評論內(nèi)容的認(rèn)可,通過平均有用度從普通用戶群體的角度直觀反映評論內(nèi)容的價值,平均有用度即所有評論內(nèi)容的有用數(shù)之和(TotalUseful)與評論總數(shù)(TotalNumber)的比值,定義如下
(2)
定義3平均評價積極度(AP)
為了達到宣傳炒作的目的,發(fā)行方將雇傭水軍短時間內(nèi)刷高評分,因此通過平均評價積極度能對水軍進行較好的區(qū)分,平均評價積極度即評論時間與上映時間差值的平均值,Xi指評論時間,Mi指產(chǎn)品上映時間,定義如下
(3)
定義4行為關(guān)聯(lián)性(MCT)
基于社交行為屬性,相互關(guān)注的用戶,若對多個相同的文化產(chǎn)品具有較高的共識,則用戶之間關(guān)系越密切,關(guān)系密切的粉絲數(shù)越多用戶越真實,行為關(guān)聯(lián)性(MCT)即用戶擁有密切關(guān)系的粉絲數(shù)量(TotalMCT)與相互關(guān)注數(shù)(MUTUAL)之比,定義如下
(4)
定義5興趣關(guān)聯(lián)性(MCM)
物以類聚,人以群分,正常用戶與好友之間存在著相同的興趣標(biāo)簽,水軍用戶與所關(guān)注的對象并無太多聯(lián)系。興趣關(guān)聯(lián)性(MCM)即與用戶評論同一類型文化產(chǎn)品的粉絲數(shù)量(TotalMCM)與相互關(guān)注數(shù)之比,定義如下
(5)
(3)基于評論內(nèi)容的視角
定義6評論主題相似度(TR)
采用語義分析技術(shù),通過評論內(nèi)容所反映的主題思想與文化產(chǎn)品主題進行比較,得出評論與主題的相似度,評論主題相似度即主題相似度高的評論數(shù)量(TotalTR)與評論總數(shù)之比,定義如下
(6)
在卡方檢驗中,假設(shè)分類變量為正常用戶與水軍用戶,正常用戶包含特征的頻數(shù)為MF,正常用戶不包含特征的頻數(shù)為MN,正常用戶頻數(shù)為M,水軍用戶包含特征的頻數(shù)為TF,水軍用戶不包含特征的頻數(shù)為TN,水軍用戶頻數(shù)為T,包含檢驗特征的頻數(shù)為F,不包含檢驗特征的頻數(shù)為N,總頻數(shù)為S。卡方檢驗計算參數(shù)見表2。
表2 卡方檢驗計算參數(shù)說明
卡方計算公式為
(7)
依次對每個特征計算獲得卡方值,卡方值越大,說明特征與類別相關(guān)性越大,將計算所得值與按照顯著性水平查找卡方臨界值表進行對比,從而剔除冗余特征。
卡方檢驗剔除冗余特征后,初步得到與類別相關(guān)性高的特征,但是仍然無法判斷出特征對分類問題的影響力。信息增益算法可以描述特征區(qū)分樣本的能力,選擇信息增益算法進行下一階段的特征處理。用X表示特征,Y表示用戶是否為水軍,于是信息增益的公式為
(8)
特征Xi的信息增益越大,表明該特征區(qū)分用戶類別的影響力越大。
本文針對文化產(chǎn)品的用戶特性分別從用戶屬性、行為以及評論內(nèi)容3個視角進行特征設(shè)計,根據(jù)設(shè)計的特征收集數(shù)據(jù)并使用統(tǒng)計計算與自然語言處理技術(shù)提取出水軍識別特征,使用卡方檢驗與信息增益對特征進行評價與選擇,結(jié)合集成學(xué)習(xí)算法構(gòu)建分類模型應(yīng)用于水軍識別,將按照8∶2劃分的訓(xùn)練集與測試集用于模型訓(xùn)練,按照網(wǎng)格搜索算法進行參數(shù)調(diào)節(jié)選擇結(jié)果最優(yōu)模型。模型框架如圖 1所示。
圖1 文化產(chǎn)品水軍識別模型
水軍識別問題,可以看作一個分類問題。在大量評論用戶中識別出水軍用戶,則需要選擇一個分類效率高且速度快的識別模型。xgboost是一種極端梯度提升集成算法,可以將弱分類器轉(zhuǎn)化為強分類器,其核心思想是不斷選擇增益最大的特征進行分裂生成一顆樹去擬合上一次預(yù)測的殘差,使得整個模型的誤差不斷降低,直到滿足停止條件,從而達到準(zhǔn)確的分類效果。xgboost對代價函數(shù)進行二階泰勒公式展開,有利于梯度下降的更快更準(zhǔn),并在代價函數(shù)里加入了正則項,用于控制模型的復(fù)雜度,降低了過擬合的可能性,從而使xgboost具有良好的效果。
模型的目標(biāo)函數(shù)為
(9)
(10)
識別模型流程如下:
(1)將數(shù)據(jù)集按照8∶2的比例劃分為訓(xùn)練集與測試集;
(2)對訓(xùn)練集,重復(fù)步驟1)-步驟3)。
1)從根節(jié)點開始,根據(jù)式(10)遞歸地找出分裂點,直到滿足停止條件,至此所有特征都轉(zhuǎn)化為了一棵回歸樹上的一個節(jié)點;
2)循環(huán)執(zhí)行步驟1),使建立的多棵回歸樹能夠在損失函數(shù)梯度上保持下降趨勢;
3)多棵回歸樹組合后建立出基于xgboost算法的水軍識別分類模型。使用GridSearchCV實現(xiàn)模型的自動調(diào)參,得到模型的最優(yōu)參數(shù)集合。將最優(yōu)參數(shù)帶入xgboost模型,從而提高分類性能。將模型產(chǎn)生的預(yù)測值進行處理,大于0.5輸出1;否則輸出0。
(3)利用測試集對模型進行評估。
實驗運行環(huán)境:Windows 10操作系統(tǒng),16 G內(nèi)存,3.5 GHz四核心處理器,實驗軟件為Python 3.7。
本文選擇國內(nèi)最早且用戶基數(shù)最大、評論數(shù)量最多的影評聚集地豆瓣平臺作為研究對象。根據(jù)劉正山等[14]對電影評論“惡評”的相關(guān)研究,“惡評”是指評論與正常評分相差過大的評論總稱,豆瓣電影排行榜按照評分高低依次排序,Top2F50評分普遍較高,依據(jù)大數(shù)定理研究“惡評”分布定律,短評中差評用戶具有更大的水軍嫌疑,本文爬取豆瓣Top250電影站點用戶信息,去除重復(fù)數(shù)據(jù),最終得到4165個評論人信息,共約5萬條評論數(shù)據(jù)。最后,邀請專業(yè)人員標(biāo)注出數(shù)據(jù)集中的網(wǎng)絡(luò)水軍。對數(shù)據(jù)集中特征處理如下:
(1)根據(jù)第2章中的特征設(shè)計計算出數(shù)值型數(shù)據(jù)。
(2)使用中文詞庫和中文分詞第三方庫jieba對文化產(chǎn)品簡介,短評文本進行分詞,確定漢字之間的關(guān)聯(lián)概率。漢字間概率大的組成詞組,形成分詞結(jié)果。
(3)使用word2vec將單詞轉(zhuǎn)換成向量形式。將進行分詞、去除停用詞等操作后的詞組,利用word2vec轉(zhuǎn)換成詞向量,然后計算評論內(nèi)容詞向量間以及每條評論對應(yīng)文化產(chǎn)品簡介間的余弦距離,進而求出短評內(nèi)容的自相似度SR以及評論與文化產(chǎn)品主題相關(guān)性TR。主題相似度計算偽代碼如下:
算法1:主題相似度TR
輸入:用戶評論集合C={C1,>C2,>…,>Cn},集合長度N評論對應(yīng)的電影簡介集合M={M1,>M2,>…,>Mn}
(1)初始化字典類型變量dict,N*N的二維數(shù)組list
(2)fori=1,>2,>…,>Ndo
(3)t← 使用jieba的cut對C[i]劃分得到詞組
(4)w← 使用word2vec的word2vec計算t得到詞向量
(5)dict[C[i]]=w
(6)endfor
(7)初始化計數(shù)器counter為0
(8)whileC不為空 do
(9)c=C.pop()
(10)list[counter].append()
(11)m=len(C)
(12)fori=1,>2,>…,>mdo
(13)q← 使用word2vec的similarity計算dict[c]與list[C[i]]之間的相似度
(14)ifq>0.7then
(15)list[counter].append()
(16)C.remove(C[i])
(17)endif
(18)endfor
(19)counter=counter+1
(20)endwhile
(21)TR=counter/N
輸出:用戶的主題相似度TR
為平衡正負(fù)樣本,提高實驗準(zhǔn)確性,本文采用了精準(zhǔn)率(PR)來評估分類器的準(zhǔn)確性。將檢測值分類匯總,建立混淆矩陣。TP代表模型中分類檢測的水軍數(shù),F(xiàn)P代表模型中誤測為水軍數(shù),TN代表模型中分類檢測的正常用戶數(shù),F(xiàn)N代表模型中誤測為正常用戶數(shù)?;煜仃囈姳?。
表3 混淆矩陣
(1)精準(zhǔn)率(PR)定義如下
(11)
TP/(TP+FP)表示水軍樣本精準(zhǔn)率,TN/(TN+FN)表示非水軍樣本精準(zhǔn)率。水軍樣本與非水軍樣本精準(zhǔn)率兩者值的高低將影響平均精準(zhǔn)率PR,防止因水軍樣本與非水軍樣本數(shù)偏差影響精準(zhǔn)率。
(2)召回率(RR)定義請參見文獻[15]。
(3)調(diào)和平均值(F1)定義如下
(12)
通過卡方檢驗與信息增益算法對特征進行選擇與評價,在特征選擇實驗中,對設(shè)計的特征進行去冗余操作,經(jīng)過篩選后,按照信息增益值大小對特征進行排序。特征IG值排序見表4。
表4 特征處理后的IG值
經(jīng)過信息增益進行特征排序后,為了使模型訓(xùn)練效率更高,設(shè)定閾值為0.333即選擇IG值大于0.333的特征為影響文化產(chǎn)品水軍識別的顯著特征,并將傳統(tǒng)水軍識別特征、加入新提出的特征以及進行特征選擇后的特征,分別在同一數(shù)據(jù)集下,使用本文水軍識別模型進行測試,得到實驗結(jié)果。實驗結(jié)果見表5。
表5 不同特征下的效果對比
A代表已有電商水軍特征,B代表在A的基礎(chǔ)上加入本文提出的新特征,C代表B特征處理后的數(shù)據(jù)。實驗結(jié)果驗證了本文提出的新特征對文化水軍識別具有一定效果提升,精準(zhǔn)率提高了2.61%,由于特征維數(shù)增加,后續(xù)水軍識別在時間性能上有所降低,時間增加了73 ms,使用特征選擇后相對未作處理的新特征集合精準(zhǔn)率提高了2.8%,時間減少了152 ms,相對于電商水軍識別特征,經(jīng)過卡方檢驗與信息增益篩選后的特征在精確度以及時間效率上都有所提升,精準(zhǔn)率提高了5.41%同時時間減少了79 ms,驗證了本文提出的新特征能有效提高識別率,卡方檢驗與信息增益能夠剔除冗余特征提高了精準(zhǔn)率的同時減少了時間消耗。
為驗證識別方法的有效性,選擇電商水軍識別的4種方法與本文提出的面向文化產(chǎn)品水軍的識別方法進行對比,將xgboost方法分別與文獻[10]中的支持向量機、文獻[9]中的邏輯回歸、文獻[12]使用的貝葉斯模型以及文獻[6]中基于SMOTE過采樣的隨機森林方法進行實驗對比;為了使結(jié)果更準(zhǔn)確,采用十折交叉的方法,將數(shù)據(jù)集按照8∶2的比例進行10次隨機劃分,8份用作訓(xùn)練集,2份用作測試集,對10次實驗結(jié)果求平均得到如圖2所示。
圖2 不同識別方法的分類結(jié)果
由圖可知,xgboost模型與隨機森林、邏輯回歸、樸素貝葉斯以及支持向量機識別方法相比,精準(zhǔn)率、召回率和調(diào)和平均值有較大提高,整體性能優(yōu)于對比方法。實驗結(jié)果表明,xgboost模型與隨機森林模型識別效果明顯高于其它方法,其原因是特征取值范圍廣,樹形結(jié)構(gòu)更適用于處理此類數(shù)據(jù)分類,而本文使用的xgboost模型較隨機森林模型精準(zhǔn)率提高了2.425%,調(diào)和平均值提高了4.018%,這是因為xgboost是所有預(yù)測結(jié)果的累積并在原有梯度提升樹基礎(chǔ)上對損失函數(shù)進行了改進,而隨機森林采用的則只是多投票原則決定最終結(jié)果,以上分析可知,xgboost模型結(jié)合本文提出的特征集合,可以有效識別文化產(chǎn)品水軍。
隨著在線文化產(chǎn)品的不斷發(fā)展,在線評論對后續(xù)消費者有著較大的影響。文化產(chǎn)品帶來的巨大利益使發(fā)行方希望通過雇傭水軍獲得競爭優(yōu)勢,擾亂文化產(chǎn)品市場正常秩序。因此,識別文化產(chǎn)品評論中的網(wǎng)絡(luò)水軍,還原真實的評論環(huán)境,有利于文化產(chǎn)業(yè)健康發(fā)展。本文鑒于文化產(chǎn)品網(wǎng)絡(luò)水軍的特性,通過從多視角分析,在電商水軍特征基礎(chǔ)上,運用語義分析以及統(tǒng)計計算等技術(shù),提出了新的特征集合,并通過卡方檢驗以及信息增益算法進行特征篩選,建立新的特征模型,結(jié)合集成學(xué)習(xí)模型對文化產(chǎn)品水軍進行識別。以豆瓣短評為數(shù)據(jù)來源,通過對比實驗驗證了本文提出的特征模型集合與集成學(xué)習(xí)分類模型對文化產(chǎn)品網(wǎng)絡(luò)水軍識別具有較好的提升效果,精準(zhǔn)率達到了93.32%,能有效地進行文化產(chǎn)品水軍識別。
在未來的研究中,需要獲取文化產(chǎn)品領(lǐng)域中更多的數(shù)據(jù)集,并采用識別水軍團體的方法提高文化產(chǎn)品水軍識別效率。