王琢 汪浩 胡潤龍 高颯
摘要:網(wǎng)絡在線評論對于商家和顧客具有重要價值,因而日益受到虛假評論行為的沖擊。作為兩個重要的在線評論領域,產(chǎn)品類評論(如亞馬遜、淘寶)和店鋪類評論(如點評網(wǎng)、Yelp)在語言特性、評論行為等方面存在顯著差異。雖然研究者們已提出大量針對產(chǎn)品類虛假評論的檢測方法,但對于店鋪類虛假評論的研究仍然較少。針對Yelp.com網(wǎng)站上旅店、飯店有標注的點評數(shù)據(jù),提取并分析各種評論欺詐特征,利用多種有監(jiān)督學習方法進行虛假評論檢測。實驗結果表明,檢測精度最高可達74%,AUC值可達75%。雖然店鋪類虛假評論具有極強的隱蔽性,但通過權衡檢測精度和召回率,可利用有監(jiān)督學習方法對店鋪類虛假評論進行有效檢測。
關鍵詞:網(wǎng)絡在線評論;虛假評論;店鋪類評論;有監(jiān)督學習
DOI: 10. 11907/rjdk.191695
開放科學(資源服務)標識碼(OSID):
中圖分類號:TP306
文獻標識碼:A
文章編號:1672-7800(2020)004-0071-04
Store Fake Review Detection Based on Supervised Learning
WANG Zhuo.WANG Hao . HU Run-long, GAO Pei
(School of Information Scierzce and Engineering , rShenyang Ligong Univer.sity,SHenyang110159 . Ch ina )Abstract: Due to the iruportance for both the merchants and customers. online reviews are increasingly under the attack of' f'ake re-views. As the two main review domains , product reviews (e.g. Amazon,Taobao) and store reviews (e.g. Dianping.com, Yelp.com) sig-nificantly dif'ferentiate f'rom each other in linguistics and behaviors. While product fake review detection attracts much research inter-ests. store fake review detection has got less attention. In this paper, we focus on store fake review detection problem by exploiting thelabeled datasets containing hotel and restaurant reviews from Yelp.com. Specifically , we extract and analyse a number of review spamfeatures. with which we use supervised machine learning approaches to detect fake reviews. Experiruents suggest that the ruaximum pre-cision and AUC can reach 74% and 75% , respectively. Although the f'ake reviews f'rom Yelp.com are very deceptive, supervised learn-ing methods are effective in detecting fake store reviews by trading of'f detection precision and recall.Key Words : online review;fake review ; store review;supervised learning
O 引言
隨著Web2.0技術的發(fā)展,電子商務也發(fā)展迅速。網(wǎng)絡評論在網(wǎng)絡購物中發(fā)揮著重要作用,顧客已習慣于在購物前首先查看相關評論,因此好評或差評都將在很大程度上影響顧客的購買選擇。網(wǎng)絡評論不僅受到消費者重視,商家也極為重視,因此會千方百計提高白身產(chǎn)品或服務的好評度。然而,有些不法商家或個人受利益驅使,故意書寫虛假評論,以美化白身或貶低競爭對手[1]。據(jù)統(tǒng)計,產(chǎn)品評分每增加1分,商家可以增加約5.4%的收益[2]。
Jindal等[3]首先提出虛假評論檢測問題,并針對亞馬遜(Amazon.com)評論提取大量評論特征,然后使用樸素貝葉斯、邏輯回歸等機器學習算法對評論進行“虛假/真實”分類。其研究發(fā)現(xiàn),虛假評論檢測的困難性在于難以獲取大量標注數(shù)據(jù)集用于分類器學習,而只能利用一些重復或接近重復的評論文本作為虛假評論,并選取非重復評論作為真實評論,訓練多種分類器。但隨著網(wǎng)絡評論重要性的不斷提高,評論作弊行為也越來越隱蔽,單純依賴評論文本已無法識別虛假評論。因此,國內外學者義提出基于評論文本3-7]、評論人之間關系[8-10]以及評論行為[11-14]的虛假評論檢測方法。
然而,網(wǎng)絡評論具有強烈的領域相關性,不同的評論領域(如圖書評論、飯店評論等)不僅評論文本有很大區(qū)別(如使用的詞匯、主題、文體、情感、習慣等),甚至評論行為(如打分、評論頻率)也有很大不同。因此,針對不同領域的虛假評論,必須使用不同檢測方法,才能有效提高檢測性能。本文將網(wǎng)絡評論分為針對產(chǎn)品的評論(product re-views)、針對店鋪的評論(store reviews)與服務類評論(ser-vice reviews)。除在評論文本和評論行為方面的差別外,產(chǎn)品評論和店鋪評論還有一個重要區(qū)別是店鋪數(shù)量一般遠遠少于產(chǎn)品數(shù)量,造成針對店鋪的評論數(shù)量大、評論顧客多。目前針對店鋪類虛假評論檢測的方法[8]較少,大部分檢測方法未對二者進行區(qū)分,缺乏針對性。因此,如何針對店鋪類虛假評論特點設計有效的檢測方法是一個重要研究課題。
本文首先利用有標注的Yelp數(shù)據(jù)集抽取店鋪類評論的作弊特征,然后利用決策樹、樸素貝葉斯、K近鄰、集成學習等機器學習算法,對店鋪類虛假評論進行檢測,揭示店鋪類虛假評論特征,比較不同機器學習算法的分類性能,為進一步深入理解J占鋪類虛假評論的特征模式、設計更為有效的檢測手段打下基礎。
1 Yelp評論數(shù)據(jù)集介紹
Yelp( www.yelp.com)是美國一個大型網(wǎng)絡評論社區(qū),成立于2004年,主要目的是為人們提供當?shù)厣虡I(yè)活動的點評服務,內容涉及飯店、購物、家政、夜生活、美容等。由于商業(yè)競爭的加劇,Yelp受到大量虛假評論的困擾,因此該網(wǎng)站設置了虛假評論過濾器,利用多種算法發(fā)現(xiàn)可疑虛假評論。Mukherjee等[11]首先利用Yelp的虛假評論過濾器構造一個虛假評論標注數(shù)據(jù)集(YelpChi),之后Ravana等[15]義構造了YelpNYC與YelpZip標注數(shù)據(jù)集。其中YelpChi是美國芝加哥地區(qū)的飯店、旅店評論,YelpNYC為美國紐約市飯店和旅店評論,YelpZip是美國多個州郵編連續(xù)區(qū)域的飯店、旅店評論。由于虛假評論標注的困難性,這些標注數(shù)據(jù)集被認為是接近準確的(nearground-truth)。3個數(shù)據(jù)集都包含了旅店、飯店評論,本文利用YelpNYC和YelpZip對店鋪類評論的虛假性進行檢測,具體統(tǒng)計信息見表l。
2店鋪類評論特征提取
為實現(xiàn)對虛假評論與真實評論的準確分類,從評論數(shù)據(jù)中提取有效評論作弊特征是其中的關鍵。通過對Yelp標注數(shù)據(jù)集進行探索性數(shù)據(jù)分析,本文設計了一系列文本特征和行為特征,以提高分類的準確性和召回率。令評論v= ,其中v.r表示評論v的作者,v.p表示評論v所評論的店鋪或服務,v.為評論v的打分,v.t表示評論v的評論時間(日期)。文獻[11]指出詞頻特征(unlgram或higram)對于Yelp虛假評論區(qū)分度較低,故本研究不采用詞頻特征。
2.1文本特征
(1 )WorciCou nt:評論文本包含的單詞個數(shù)。虛假評論者一般沒有購買產(chǎn)品就書寫評論,加上書寫評論會耗費大量時間與精力,所以其評論數(shù)量通常比真實消費者包含的單詞個數(shù)要少。
(2)TextSentiment:虛假評論者為了故意夸大或貶低產(chǎn)品,其評論文本的情感極性通常比較明顯[6]。本文利用情感極性計算包TextBloh計算評論文本的情感極性,取值范圍為[-1,1]。為使特征具有單調性,本文取其絕對值作為該評論的情感極性特征。
2.2行為特征
( l)RatingDev:為了提升自身信譽或貶低競爭對手聲譽,虛假評論打分值一般與真實評論的打分具有顯著偏差[11.16]。該特征計算公式為:
即評論v的特征是該評論打分與同一產(chǎn)品其它評論打分的均值之差。
(2) ExtremeRate:評論作者所寫評論中極端打分所占比例。真實用戶一般根據(jù)對J占鋪的滿意度進行打分,分數(shù)不盡相同。但虛假評論者往往書寫極力提升或貶低的評論。該特征可表示為:
(3) UserReviews:評論作者累計書寫的評論數(shù)。評論欺詐者往往只參加一次欺詐活動,其評論數(shù)量一般較少。將此評論人特征作為為該評論特征。
(4)TimeSpan:評論作者活躍時間。一般作弊評論者賬戶活躍度差,而真實用戶會不時地書寫評論。本特征的計算可表示為:
其中VT、V.分別表示v.r的最后一次評論日期和第一次評論日期。
(5)Rank:為了使評論影響極大化,虛假評論往往搶先發(fā)布,其排列位置靠前。本特征取該評論在同一店鋪內的排列次序。
(6)KernelDen:在群體評論欺詐中,存在多個欺詐者同時對一個店鋪進行爆發(fā)型評論,導致短期內評論密度過大的現(xiàn)象。核密度估計可以較好地體現(xiàn)評論密集度[17-18]。為了綜合考慮不同店鋪的評論總量,本文將該評論的核密度估計值乘以該店鋪評論時間跨度作為本特征值。令x1.x2...xn為店鋪v.p所有評論的評論日期序列,共有n條評論,則日期x對應核密度可表示為:
其中h為鄰域寬度,一般取1,K(-)為核函數(shù),可以取高斯核,則有: 于是有:
(7)TBurst:類似于KerneIDen特征,對一個占鋪而言,如果一條評論在相近時間內存在多條評論,則該評論有較大嫌疑。本特征取一條評論的周圍k條評論與該評論的平均時間差。本研究中取k=4。
2.3特征標準化
由于不同特征的取值范圍及其分布有顯著差異,不同特征之間難以相互比較,故采用文獻[15]提出的方法,按特征值進行排序,以其排列序號占總體評論數(shù)的比值作為其特征標準化值,從而使所有特征取值范圍均歸一化到[O,1]。進一步地,對于取值越小、越可疑的特征F,令F=1-F,從而使特征更趨近于1。
2.4特征有效性分析
通過比較每個特征中真實評論和虛假評論的累計分布函數(shù)( Cumulative Distribution Function,CDF)曲線,可以觀測到該特征對于分類的區(qū)分能力[19。YelpNYC數(shù)據(jù)集的9個特征對應的CDF比較曲線如圖1所示,可見各特征均有一定區(qū)分度,其中TimeSpan、UserReviews、ExtremeR -ate、WordCount、TextSentiment區(qū)分度明顯。RatingDev特征在該數(shù)據(jù)集中與文獻[11]、[16]中的亞馬遜數(shù)據(jù)集不一致,即本數(shù)據(jù)集中的作弊者打分偏差并不高于真實用戶,說明產(chǎn)品評論( Amazon)與店鋪評論數(shù)據(jù)存在不同行為特征。YelpZip與此類似,這里不再贅述。
3 基于有監(jiān)督學習的虛假評論檢測
3.1檢測算法
由于不同機器學習算法采用不同的優(yōu)化策略模型,根據(jù)“沒有免費午餐定理( No free lunch theorem)”,不同算法適合不同數(shù)據(jù)集。本文選取sklearn機器學習包中的決策樹( DecisionTree)、樸素貝葉斯(GaussianNB)、K近鄰(KNeighbors)以及集成學習算法隨機森林(RandomFor-est)。LightGBM[20]是最近提出的基于梯度提升決策樹的集成學習算法,被證實具有很高的學習效率與很好的分類性能,故本文引入LightGBM算法。
3.2檢測結果比較
對整個數(shù)據(jù)集采用交叉校驗法( Cross Validation),隨機抽取數(shù)據(jù)集中80%的數(shù)據(jù)作為訓練集,其余20%作為測試集。機器學習結果見表2、表3,其中每項指標的最優(yōu)值用黑體顯示,可見YelpZip數(shù)據(jù)集檢測性能整體優(yōu)于YelpNYC。如果側重檢測精度,則LightGBM和Random-Forest占優(yōu);如果考慮召回率,則GaussianNB占優(yōu)。
由于評論數(shù)據(jù)中虛假評論占少數(shù),屬于嚴重不均衡數(shù)據(jù),所以高AUC值往往是第一目標。對于不平衡數(shù)據(jù)集,下采樣(Under-sampling)可以提高分類器性能[5]。將整個數(shù)據(jù)集的20%作為測試集,從其余80%樣本中取出全部虛假評論作為正例,然后從真實評論中隨機取出數(shù)量相等的評論作為負例,構造訓練集訓練分類器。其中,每次對測試集和訓練集分別采樣5次,取其平均值。YelpNYC和YelpZip實驗結果見表4、表5。
可見采用下采樣時,使用任何機器學習算法均可得到較高的召回率與較低精度,整體AUC值大幅提升。主要由于訓練集中虛假/真實評論比值為1:1,而測試數(shù)據(jù)集中真實評論數(shù)量明顯偏大,所以分類器傾向于將真實評論分類為虛假評論??傮w來看,集成學習算法LGB和Random -Forest的性能較好。顯然,通過平衡下采樣訓練集中正例、負例的比率,可以權衡檢測精度和召回率。
4 結語
雖然學者們已提出多種針對產(chǎn)品類虛假評論的檢測方法,但對店鋪類虛假評論檢測的研究仍然較少。本文利用Yelp數(shù)據(jù)集中的虛假評論標注數(shù)據(jù),提取虛假評論的文本特征和行為特征,分別利用交叉校驗和下采樣法,采用多種機器學習算法對J占鋪評論數(shù)據(jù)進行有監(jiān)督分類。實驗結果表明,Yelp店鋪類評論欺詐具有極強的隱蔽性,虛假評論和真實評論特征分布區(qū)分度不明顯。有監(jiān)督方法在店鋪虛假評論檢測中具有一定效果,但需要在召回率和精度之間作出權衡,并提出利用下采樣法在虛假評論檢測中平衡檢測精度和召回率。本研究提出的有監(jiān)督方法在實際應用中取得了較好效果,也可為下一步設計基于無監(jiān)督學習的檢測方法提供參考。
參考文獻:
[1]陳燕方,婁策群.在線商品虛假評論形成路徑研究[J]?,F(xiàn)代情報,2015.35(1):49-53.
[2] LLCA M. Reviews, reputation, and revenue: the case of Yelp.Com[EB/OLl. https: //ssrn.com/abstract=1928601.
[3]IhrDAL N,LIL B Opinion spam and analysis[C].International Con-ference nn Weh Search&Data Mining, 2008.
[4]OTT M, CHOI Y,CARDIE C. et al. Finding deceptive opinion spambv aiUT stretch of the imagination[C]. In proc. of ACL:Human Lan-guage Technologies, 2011: 309-319.
[5]llil,QIN B, REN W,et al. Document representation and featurecomhination for deceptive spam review detection[J]. Neurncomput-ing, 2017,254(6):33-41.
[6]任亞峰,尹蘭.姬東鴻基于語言結構和情感極性的虛假評論識別[J].計算機科學與探索,2014.8(3):313-320.
[7]張建鑫 .基于聚類與句子加權的欺騙性評論檢測[J]軟件導刊 , 2019 ,18(2) : 34-37.
[8]WAhrC G, XIE S. LIU B. et al. Review graph based online store re-view spammer detec.tion[C] . Proceedings of ICDM , 201 I : 1 242-1247.
[9]WAhrG Z, HOU T. SONG D. et al. Detecting re,'iew spammer groupsvia hipartite graph projection [Jl. Computer Journal, 2016. 59(6) :861-874.
[10]WANG Z. CU S.ZHAO X. et al. Graph-hased review spammer groupdetection[J]. Knowledge and Information Systems, 2018. 55(3) :571-597.
[ll]MUKHERJEE A. VENKATARAMAN V. LIU B, et al. What yelpfake review filter might he doing:l[C]. Bosmn: Proceedings of IC-WSM , 2013.
[12]LIM E P. NCUYEhr y A. JINDAL N, et al. Detecting product review spammers using rating behaviors [C]. Proceedings of the 19th ACMConference on Information and Knowledge Management. 2010.
[13]孫升蕓 .田萱,何軍 .基 -T-評 ik行為的商 pOa垃圾評論的識別研究[J].計算機工程與設計 , 2012. 33(11) : 4314-43 19.
[14]LIH. FEI G, SHAO W, et al. Bimodal distrihution and co-hurstingin review spam detection rcl. Internatir,nal Conference on WorldWide Web . 2017.
[15]RAYAhrA S, AKOGLU L. Collectire opinion spam detection: bridg-ing review networks and metadata [c]. Sydney : Proceedings of KDD ,2015.
[16]MUKHERJEE A. KLrMAR A, LIU B, et al. Spotting opinion spam-mers using hehavioral footprint [C].Chicago : Prnceedings of KDD ,2013.
[17]FEI C. MUKHERJEE A, LIU B, et al. Exploiting hurstiness in re-views for reriew spammer detection [C]. 17th AAAI Conference onWehlogs and Social Media. 2013.
[18]wANG Z, cu s. XU X.CSLDA: LDA-hased group spamming de-tection in product reviews [J]. Applied Intelligence, 2018. 48 (9) :3094-3107.
[19]MUKHERJEE A. BINC L. GLAhrCE N. Spotting fake reviewergroups in consumer reviews [c].International Conference on V-orldWide Web . 2012.
[20]KEG, MENG Q, FIhrLEY T, et al. LightCBM: a highly efficientgradient boosting decision tree[C]. Long Beach: Proceedings ofNIPS.2017.
收稿日期:2019-05-13
作者簡介:王琢(1969-),男,碩士,CCF會員,沈陽理工大學信息科學與工程學院副教授,研究方向為機器學習;汪浩(1994-),男,沈陽
理工大學信息科學與工程學院碩士研究生,研究方向為機器學習。