武雅萱
隨著網(wǎng)上購(gòu)物成為一種最重要的日常購(gòu)物方式,產(chǎn)品評(píng)論成為了用戶是否購(gòu)買賣家產(chǎn)品的重要依據(jù),因而對(duì)虛假評(píng)論的識(shí)別具有重要意義。本文基于虛假評(píng)論和真實(shí)評(píng)論在情感極性上的差異,定義了8個(gè)特征并利用隨機(jī)初值的局部搜索法、模擬退火法兩種啟發(fā)式算法進(jìn)行特征選擇,再通過(guò)兩種聚類算法對(duì)虛假評(píng)論進(jìn)行識(shí)別。最后通過(guò)對(duì)構(gòu)造出的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),驗(yàn)證了算法的有效性。
【關(guān)鍵詞】虛假評(píng)論 情感極性 啟發(fā)式算法 聚類
1 引言
互聯(lián)網(wǎng)的發(fā)展極大地影響了人們的生活方式和消費(fèi)觀念,網(wǎng)購(gòu)越來(lái)越受到消費(fèi)者的歡迎。由于人貨分離,消費(fèi)者在消費(fèi)前需要大量的信息作為參考,面向產(chǎn)品的評(píng)論是其中重要的一環(huán)。在現(xiàn)實(shí)利益的驅(qū)動(dòng)下,垃圾評(píng)論快速“滋生”,特別是產(chǎn)品評(píng)論數(shù)量呈爆炸性趨勢(shì)增長(zhǎng),人為地辨別垃圾評(píng)論已不切實(shí)際,因此,研究出一種能夠識(shí)別和過(guò)濾垃圾評(píng)論的方法具有重要的現(xiàn)實(shí)意義。
2 相關(guān)工作
國(guó)內(nèi)外的研究者們?cè)诓┛秃袜]件領(lǐng)域的垃圾評(píng)論方面做了大量工作,取得了一定的成果,但對(duì)于產(chǎn)品虛假評(píng)論的識(shí)別依然困難重重。
文獻(xiàn)[1]首次定義了三種類型的垃圾評(píng)論以及基于產(chǎn)品、評(píng)論內(nèi)容以及評(píng)論者三類評(píng)論特征,建立Logistic回歸模型進(jìn)行識(shí)別。但這種方法對(duì)于虛假評(píng)論識(shí)別效果不佳。文獻(xiàn)[2]開(kāi)發(fā)了第一個(gè)識(shí)別虛假評(píng)論的“黃金”數(shù)據(jù)集,利用文本分類技術(shù)來(lái)對(duì)虛假評(píng)論進(jìn)行識(shí)別。文獻(xiàn)[3]提出通過(guò)用戶所給的評(píng)價(jià)等級(jí)來(lái)識(shí)別垃圾評(píng)論制造者的方法,用計(jì)算機(jī)所得分值進(jìn)行排名,從數(shù)據(jù)集中移除分值較高的評(píng)論者及其評(píng)論。文獻(xiàn)[4]從互聯(lián)網(wǎng)獲取產(chǎn)品評(píng)論集,并進(jìn)行手工標(biāo)注的數(shù)據(jù)集訓(xùn)練分類器來(lái)識(shí)別虛假評(píng)論。以上方法由于人的主觀因素難以確定合適的標(biāo)準(zhǔn),使數(shù)據(jù)集中存在過(guò)多的錯(cuò)誤標(biāo)注。文獻(xiàn)[5]現(xiàn)利用對(duì)評(píng)論文本進(jìn)行上下文無(wú)關(guān)文法的特征建模有助于提高識(shí)別的正確率。文獻(xiàn)[6]利用F統(tǒng)計(jì)量改進(jìn)K均值算法,在實(shí)現(xiàn)評(píng)論集的自適應(yīng)聚類后計(jì)算每個(gè)簇偏離的程度,從而實(shí)現(xiàn)對(duì)虛假評(píng)論的識(shí)別。
本文創(chuàng)新性地提出采用評(píng)論文本的語(yǔ)言結(jié)構(gòu)和情感極性上的差異來(lái)定義特征,使用隨機(jī)初值的局部搜索法、模擬退火法進(jìn)行特征選擇,然后利用聚類算法來(lái)識(shí)別虛假評(píng)論。
3 數(shù)據(jù)集
當(dāng)前阻礙虛假評(píng)論研究發(fā)展的一個(gè)重要因素是缺少評(píng)估檢測(cè)算法的標(biāo)注數(shù)據(jù)集,為了獲得可靠的已標(biāo)注數(shù)據(jù)集,我們選擇了西安市2家日化店,進(jìn)行人工構(gòu)造,具體構(gòu)造方式如下:
3.1 虛假評(píng)論
虛假評(píng)論是人工無(wú)法直接從評(píng)論集中有效識(shí)別出的,故我們進(jìn)行人工構(gòu)造虛假評(píng)論。在10天內(nèi),我們要求周邊市民(并未實(shí)際購(gòu)買產(chǎn)品)寫下正面積極、有利于產(chǎn)品售出的評(píng)價(jià),共收集到300條虛假評(píng)價(jià)。
3.2 真實(shí)評(píng)論
2個(gè)月內(nèi),我們共獲得437條真實(shí)的用戶評(píng)論。由于評(píng)價(jià)質(zhì)量良莠不齊,我們制定了一些約束條件對(duì)這437條評(píng)論進(jìn)行過(guò)濾處理,與虛假評(píng)論平衡,保持長(zhǎng)度分布一致,最終保留300條真實(shí)評(píng)論。
我們將這300條真實(shí)評(píng)論與300條虛假評(píng)論構(gòu)成本文所需的數(shù)據(jù)集。
4 特征工程
根據(jù)現(xiàn)有對(duì)特征定義和構(gòu)建的方法研究,并結(jié)合用戶語(yǔ)言心理學(xué)知識(shí)、文本的語(yǔ)言結(jié)構(gòu)及情感極性的分析,本文總結(jié)了以下8個(gè)特征。
4.1 特征定義
4.1.1 詞匯量
虛假評(píng)論者會(huì)大肆贊美產(chǎn)品,使評(píng)論冗長(zhǎng),而真實(shí)評(píng)論言簡(jiǎn)意賅。故詞匯量越大,評(píng)論真實(shí)度越低,由此定義詞匯量為評(píng)論中詞匯的數(shù)量。
4.1.2 修飾度
豐富的詞匯種類可以用來(lái)表達(dá)用戶的情感,虛假評(píng)論者使用的詞匯種類少于真實(shí)評(píng)論者使用的詞匯種類。為了便于統(tǒng)計(jì),本文定義形容詞與副詞與總詞匯量的比值為修飾度,修飾度越高,真實(shí)性越大。
4.1.3 人稱代詞詞頻
第一人稱代詞可以增加評(píng)論的真實(shí)度以及親切感,在無(wú)親身體驗(yàn)的虛假評(píng)論中,它被更多地使用。本文定義第一人稱代詞數(shù)量占總詞匯量的比值為人稱代詞詞頻。
4.1.4 產(chǎn)品提及度
定義產(chǎn)品提及度為產(chǎn)品各種屬性相關(guān)的詞匯量占總詞匯量的比值。虛假評(píng)論會(huì)更多地提及產(chǎn)品的品牌以及相關(guān)屬性以增加評(píng)論可信度,故產(chǎn)品提及度越高,該評(píng)論為虛假評(píng)論可能性越大。
4.1.5 正面情感
為了強(qiáng)調(diào)產(chǎn)品的正面性,虛假評(píng)論中能表現(xiàn)正面情感的詞匯較多。定義正面詞匯(利用正面情感詞典)數(shù)量占總詞匯數(shù)的比值代表正面情感。
4.1.6 負(fù)面情感
與正面情感相似,虛假評(píng)論者會(huì)為了贊美產(chǎn)品而盡量不使用負(fù)面情感詞匯。定義負(fù)面詞匯(利用負(fù)面情感詞典)數(shù)量占總詞匯數(shù)的比值代表負(fù)面情感。
4.1.7 極端評(píng)分
虛假評(píng)論者會(huì)為了提高產(chǎn)品的正面性而給出極端的評(píng)分(數(shù)據(jù)集中評(píng)分滿分為5分),設(shè)定5分為極端評(píng)分賦值為1,其他評(píng)分為0。
4.1.8 評(píng)分偏差
虛假評(píng)論者缺少真實(shí)的用戶體驗(yàn),所給出的評(píng)分常與平均評(píng)分有較大偏差,本文認(rèn)為偏差越大,該評(píng)論為虛假評(píng)論的可能性越大。定義評(píng)分偏差為用戶評(píng)分與均值的絕對(duì)值。
4.2 基于啟發(fā)式算法的特征選擇
在機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的實(shí)際應(yīng)用中,特征的數(shù)量往往較多,其中可能存在不相關(guān)的特征,特征之間也可能相互依賴,易導(dǎo)致如下的后果:
特征個(gè)數(shù)過(guò)多,分析特征、訓(xùn)練模型所需時(shí)間過(guò)長(zhǎng),計(jì)算成本大,容易引起“維度災(zāi)難”,模型也會(huì)相當(dāng)復(fù)雜,推廣能力會(huì)下降。
特征選擇能剔除不相關(guān)或冗余的特征,減少特征個(gè)數(shù),提高模型精確度,減少運(yùn)行時(shí)間。另一方面,真正相關(guān)的特征簡(jiǎn)化了模型,使得輸入對(duì)系統(tǒng)的響應(yīng)更具實(shí)際意義。
由于解空間維度較高,且對(duì)于每個(gè)解而言所要計(jì)算的目標(biāo)是分類的準(zhǔn)確率,計(jì)算較為復(fù)雜,故本文采用啟發(fā)式算法(隨機(jī)初值的局部搜索法、模擬退火法)來(lái)進(jìn)行特征選擇,并相互驗(yàn)證增加可信度。
4.2.1 隨機(jī)初值的局部搜索法
隨機(jī)初值的局部搜索法從多個(gè)初值出發(fā),重復(fù)運(yùn)行一個(gè)簡(jiǎn)單的上升算法直到其結(jié)束,所采用的初值隨機(jī)選取。
特征選擇步驟:
(1)編碼:采用n位二進(jìn)制編碼,1表示模型中包含該特征,0則相反。如此,每個(gè)解即為一個(gè)n維向量,θ=(θ1,…,θn)(θi∈{0,1},i=1…n) 。
(2)隨機(jī)初值的產(chǎn)生:對(duì)于解θ的每個(gè)元素θi使其有1/2的概率為0,1/2的概率為1,據(jù)此,產(chǎn)生5個(gè)隨機(jī)初值。
(3)上升算法的選擇:本文選取最速上升法,即在當(dāng)前解的鄰域中選擇最優(yōu)的解。(解鄰域局限于對(duì)當(dāng)前模型添加或去掉1個(gè)特征的1-變化,即每個(gè)解鄰域含有n個(gè)候選解。)
4.2.2 模擬退火法
特征選擇步驟:
(1)參數(shù)值的初始化,初始時(shí)刻t=0,此時(shí)初始解θ(0)=01100110,溫度τ0=10,共運(yùn)行15個(gè)階段,每個(gè)階段標(biāo)號(hào)為j長(zhǎng)度為mj;
(2)在θ(t)的鄰域Ω(θ(t))內(nèi),以相同的概率選取候選解θ*(解鄰域局限于對(duì)當(dāng)前模型添加或去掉1個(gè)特征的1-變化,即每個(gè)解鄰域含有n個(gè)候選解);
(3)以概率
兩個(gè)聚類之間的相似度采用Average-linkage方法計(jì)算:
步驟1:把每個(gè)向量化的評(píng)論各自歸為一個(gè)聚類,計(jì)算每?jī)蓚€(gè)向量之間的相似度。
步驟2:對(duì)所有聚類兩兩計(jì)算相似度,把相似度最高的兩個(gè)聚類合為一個(gè)聚類。
步驟3:新生成的聚類與其他所有聚類計(jì)算相似度。
步驟4:合并相似度最高的兩個(gè)聚類。
步驟5:重復(fù)步驟(3)(4)直到所有評(píng)論被劃分為一個(gè)聚類。
這種聚類方法在分類之前,不用給出最終聚類的個(gè)數(shù),分類完成后可以根據(jù)需要來(lái)選定聚類個(gè)數(shù)。利用這種方法計(jì)算得出的分類后的評(píng)論集,可以為下一種方法的初始迭代做鋪墊。
5.2 軟聚類
硬聚類把每個(gè)待辨識(shí)的對(duì)象嚴(yán)格地劃分到某類中,而虛假評(píng)論具有隱蔽性,直接為其分配類別標(biāo)簽并不是最好的辦法。我們采用模糊C-均值聚類算法(FCM)來(lái)研究虛假評(píng)論問(wèn)題。
5.2.1 模糊C-均值聚類算法(FCM)
在本文中,C=2,m=2,且初始隸屬矩陣我們按照下面方法給出。
5.2.2 隸屬度函數(shù)設(shè)計(jì)
本文中,根據(jù)前文已得到的特征選擇的結(jié)果來(lái)計(jì)算隸屬度矩陣,初始隸屬度矩陣用下面的隸屬度函數(shù)獲?。?/p>
5.2.3 算法步驟
根據(jù)前文,我們給出具體的算法步驟:
步驟1:根據(jù)隸屬度函數(shù)計(jì)算樣本對(duì)各類的隸屬度μij(0),建立初始隸屬度矩陣U(0)=[μij(0)]。
步驟2:用式(4)計(jì)算各類的聚類中心Ci(L),L為迭代次數(shù)。
步驟3:用式(5)計(jì)算新的隸屬度矩陣U(L+1)。
步驟4:返回步驟2,重復(fù)計(jì)算直到收斂,收斂的條件為:
使用上述方法計(jì)算的結(jié)果仍然是模糊集合,因此我們采用幾個(gè)閾值對(duì)結(jié)果進(jìn)行去模糊化。
6 數(shù)值實(shí)驗(yàn)
6.1 實(shí)驗(yàn)結(jié)果
如表1所示。
6.2 結(jié)果分析
結(jié)果表示,混合使用方法是由層次聚類法和效果最好的FCM方法組成。我們僅通過(guò)層次聚類法就獲得了80.3%的準(zhǔn)確率,調(diào)整參數(shù)和方法混用之后,準(zhǔn)確率有了提高。相較于前人的算法,我們的準(zhǔn)確率較高,說(shuō)明我們的模型在簡(jiǎn)化問(wèn)題方面和數(shù)值計(jì)算方面效果較好。從上表可以得知,當(dāng)m=1.5時(shí),準(zhǔn)確率最高。以層次聚類法為基礎(chǔ)的FCM法雖然在準(zhǔn)確率上沒(méi)有明顯變化,但是可以為FCM的隨機(jī)初始化設(shè)定一個(gè)標(biāo)桿,以使FCM方法有更好的效果,也便于設(shè)置FCM的終止條件。
7 結(jié)束語(yǔ)
本文基于虛假評(píng)論和真實(shí)評(píng)論在情感極性上的差異,利用啟發(fā)式算法進(jìn)行特征選擇,聚類算法進(jìn)行識(shí)別,驗(yàn)證了算法對(duì)過(guò)濾虛假評(píng)論的有效性。但該方法主要針對(duì)產(chǎn)品中的虛假評(píng)論,今后的工作可以提取更具普適性的特征,使模型可應(yīng)用于微博評(píng)論等領(lǐng)域。
參考文獻(xiàn)
[1]N.Jindal and B.Liu.Opinion spam and analysis.Proceedings of the 2008 WSDM.California, USA 2008:219-229.
[2]Ott M,Choi Y,Caridie C,et al. Finding deceptive opinion spam by any stretch of the imagination. Proceedings of the 49th Annual Meeting of the Association for Computa-tional Linguistics:Human Language Technologies (HLT 11),Portland,USA, Jun 19-24,2011.Stroudsburg,PA,USA: ACL,2011:309-319.
[3]N.Jindal and B.Liu,H.W.Lauw,et al.Detecting product review spammers using rating behaviors. In Proceedings of the 19th ACM International Conference on Information and Knowledge Management (CIKM10).Ontario,Canada,2010:938-949.
[4]Li Fangtao,Huang Minlie,Yang Yi,et al.Learning to identify review spam. Proceedings of the 22nd International Joint Conference on Artificial Intelligence (IJCAI 11),Bar-celona, Spain, Jul 16-22,2011.Palo Alto, CA,USA:AAAI,2011:2488-2493.
[5]Feng Song,Banerjee R,Choi Y. Syntactic stylometry for deception detection.Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics (ACL 12),Jeju Island, Korea,Jul 8-14, 2012.Stroudsburg,PA,USA:ACL,2012: 171-175.
[6]Song Haixia,Yan Xin,Yu Zhengtao,et al.Detection of fake reviews based on adaptive clustering.Journal of NanjingUniversity:Natural Sciences,2013,49(04):38-43.
[7]S.G.Zhou,J.H.Guan.Chinese documents classification based on N-grams. Proceedings of the 3 Annual Conference on Intelligent Text Processing and Computational Linguistics (CICLing-02).Melbourne, Australia,2002:405-414.
[8]J.M.Ponte,W.B.Croft.A language modeling approach to information retrieval.Proceedings of the 21 International ACM SIGIR Conference on Research and Development in Information Retrieval.New York,USA,1998:275-281.
[9]李培.產(chǎn)品評(píng)論挖掘的觀點(diǎn)抽取和分類技術(shù)研究[D].重慶:重慶大學(xué),2009:13-16.
[10]譚文堂,朱洪,葛斌,等.垃圾評(píng)論自動(dòng)過(guò)濾方法[J].國(guó)防科技大學(xué)學(xué)報(bào),2012(05):153-157.
[11]李霄,丁晟春.垃圾商品評(píng)論信息的識(shí)別研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2013(01):63-68.
作者單位
西北工業(yè)大學(xué) 陜西省西安市 710129