国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合情感極性和邏輯回歸的虛假評論檢測方法

2016-06-02 08:25:32趙軍王紅
智能系統(tǒng)學報 2016年3期
關鍵詞:電子商務

趙軍,王紅

(1.山東師范大學 信息科學與工程學院,山東 濟南 250014; 2.山東省分布式計算軟件新技術重點實驗室,山東 濟南 250014)

?

融合情感極性和邏輯回歸的虛假評論檢測方法

趙軍1,2,王紅1,2

(1.山東師范大學 信息科學與工程學院,山東 濟南 250014; 2.山東省分布式計算軟件新技術重點實驗室,山東 濟南 250014)

摘要:在線購物評論為消費者比較商品的質量和其他一些購買特性提供了有用信息,然而卻有大量的虛假評論者受利益驅使撰寫虛假或者不公正的評論來迷惑消費者。先前的研究一般都是使用文本相似度和評分模式來探測虛假評論,這些算法可以檢測特定類型的攻擊者,在現(xiàn)實場景中許多虛假評論者刻意模仿正常用戶對商品進行評論,因此先前的算法對檢測這類攻擊效果不佳。本文通過分析評論文本的感情極性,抽取不同的特征并使用邏輯回歸模型來檢測虛假評論;首先,借用自然語言處理的相關技術來分析評論文本的情感極性,判斷每個用戶的情感偏離大眾情感的程度,如果偏離越大則說明其是虛假評論者的概率就越大;然后再選取其他幾個重要特征結合邏輯回歸模型進行虛假檢測;通過實驗對比,表明了該方法取得了較好的效果。

關鍵詞:電子商務;虛假評論;購物行為;情感極性;邏輯回歸

互聯(lián)網的迅速崛起帶來了傳統(tǒng)商業(yè)模式的解放,傳統(tǒng)的實體購物模式在遭遇網上購物模式時受到了巨大的沖擊。電子購物網站上的商品種類齊全,同時網上購物方便快捷,可以節(jié)省消費者一定的購物時間,迎合了當代人們快速的生活節(jié)奏;但網上購物給我們帶來方便的同時也存在著自身固有的一些挑戰(zhàn)。最具挑戰(zhàn)性的是消費者無法像在實體店一樣真實地感受到商量的質地、性能等特點,只能通過購物網站展示的圖片和文本描述對商品有一個大致的了解。由于消費者無從得知商品地真實質量,所以他們開始過多的關注商品的評論,好的評論可以提升該產品的信譽,這會誘導更多的顧客購買該商品;相反,較差的評論無疑會降低商品的信譽值,這會大大降低該商品的成交量。正是由于這一原因,商家為了獲得更高的利益,開始雇傭網絡水軍冒充普通顧客對自己的商品進行好評,對競爭對手的產品進行差評以達到提升自己品牌的信譽、詆毀競爭對手信譽的目的。這些廣泛存在的不真實評論不僅會誤導消費者的購物決策,同時也危害了電子商務經濟的健康發(fā)展,為了提高消費者的購物體驗,并保證市場經濟的合理健康發(fā)展,因此迫切需要研究一種方法來發(fā)現(xiàn)并抑制虛假攻擊。

1相關工作

近年來,國內外學者在垃圾郵件[1]和垃圾網頁[2]的識別研究上做了大量工作,并取得了較好的效果。美國伊利諾斯大學的Bing Liu[3]教授團隊于2007年首次提出垃圾檢測,之后垃圾檢測就成為了一個研究熱點。

Jindal等[4]發(fā)現(xiàn)商品中存在著大量的虛假評論,并且這些評論在本質上與垃圾郵件和垃圾網頁截然不同,他們利用產品的評論數據,考慮評論文本、評論者和產品特征這3個因素進行建模來區(qū)分復制觀點和非復制觀點,若判斷為復制觀點,則將該評論歸為虛假評論。

WU F等[5]根據流行度是否被打亂來識別虛假評論。這兩種方法都是基于啟發(fā)式的策略,過程較為復雜。Tan等[6]利用電阻距離來判斷評論之間的上下文語義相似性,提出了一種基于電阻距離的無關虛假評論自動檢測方法,該方法取得了不錯的實驗效果。

OTT等[7]利用眾包平臺創(chuàng)造出了一個用于識別眾包攻擊的“黃金”數據集,該數據集包含真實評論和人為的虛假評論兩部分,在該數據集上,他們把虛假探測問題轉化為經典的文本極性分類問題解決。

任亞峰等[8]提出了一種基于語言結構和情感極性的虛假評論識別方法,從自然語言處理層面分析評論文本的正面情感和負面情感影響,最后使用遺傳算法,通過復制、交叉和變異實現(xiàn)種群的進化,從而提高探測準確率。

Guan等[9]為了識別在線商店的虛假評論者提出了一種社交評論圖的方法,他們提出了一種全新的概念——評論圖,他們捕獲了所有與某個商店相關聯(lián)的評論者和評論,并把這三者構造成了一個異質網絡,通過交互計算三者之間的影響來檢測虛假評論,實驗表明他們方法的正確探測率高達91.24%。

Gao等[10]為了解決網上評分系統(tǒng)中的虛假攻擊行為,提出一種基于群組排序的虛假探測方法,他們把對相同商品評分相同的用戶分為一組,根據群組的規(guī)模來檢測虛假評論者,實驗表明,他們所提出的方法取得了很好的探測效果。

通過總結前人已有的工作可以發(fā)現(xiàn),大部分研究者要么從評論文本著手,利用自然語言處理技術,分析評論文本的正負情感極性,從而達到探測虛假評論的目的;另一種常見的方法是分析商品的評分,通過分類或者聚類算法對不同的評分進行分組,挑選出虛假的商品評分;本文提出融合情感極性和邏輯回歸模型來檢測虛假攻擊。

2評論文本情感極性分析

評論文本的情感傾向分析是通過挖掘和分析評論文本中的立場、觀點、情緒等主觀信息,分析出評論者的正面或者負面情感趨向。

本文主要采用基于情感知識的情感極性判別方法,通過比較文本中的正負情感詞個數來判斷評論文本的情感極性,情感極性判別方式為

唐波等[11]考慮了否定詞對情感詞極性的影響,通過他們的實驗可以看出,考慮否定詞這一特征對情感傾向性分析具有重大意義。在本文中,也考慮了否定詞這一重要因素,并且構建專用于評論文本分析的否定詞詞典.判斷規(guī)則為:統(tǒng)計一句話中的否定詞個數,若個數為偶數則該句的傾向性不變;若否定詞的個數為奇數,那么語句的傾向性發(fā)生逆轉。

何鳳英等[12]考慮了程度副詞文本的傾向性影響,提出了程度副詞的4個量級:極量、高量、中量和低量,其對應的權重依次遞減,考慮程度副詞這一因素也提高了情感極性的分類精度。

邸鵬等[13]曾提出了基于轉折句式的文本分析方法,他們的任務主要是基于長文本的情感分析,所以考慮上下文的轉折關系是很有效的。但是他們的方法直接應用于評論文本是不合理的,因為評論文本往往是一兩句話的超短文本,無從考慮上下文信息,所以本文提出了基于關聯(lián)詞的分析方法,把分析的單位縮小到詞語級別,著重分析關聯(lián)詞前后的情感極性,其過程如算法1所示。

算法1Review Text Orientation Analysis

輸入Review Text

輸出Review Orientation

While(str.read())

For alli∈str.LengthDO

IF (str.wordsi?Review Dictionary) THEN

SO←0;EXIT;

ELSE {

IF (str.wordsi∈NegDictionary) THEN

IF(count % 2 == 0) THEN

WOi←WOi;

ELSE WOi←-WOi;

IF (str.wordsi∈AdjDictionary)THEN

WOi←WOi*Wadj

IF(str.wordsi∈Adversative)THEN

WOi←-WOi;

END ELSE

END FOR ;

END WHILE;

3邏輯回歸模型

在現(xiàn)實生活中經常需要分析離散變量問題,本文關心的是,哪些因素對虛假檢測的影響因素更明顯,這類問題實質上是一個回歸問題,因變量就是上述提到的這些離散變量,自變量X是與之有關的一些因素。因為因變量是離散的,不能直接使用線性回歸分析方法解決,這時最好的解決方案是Logistic回歸模型,它對因變量的分布沒有要求。與線性回歸分析相似,Logistic回歸分析的基本原理就是利用一組數據擬合一個Logistic回歸模型,然后借助這個模型揭示總體中若干個自變量與一個因變量取某個值的概率之間的關系。因變量Y是一個二值變量,取值為

自變量為X1,X2,…,Xm,P表示在m個自變量作用下事件發(fā)生的概率。想找到P與自變量的關系,如果用多元線性回歸方程。

(1)

(2)

(3)

我們將所研究的問題轉換一個角度,不是直接分析Y與X的關系,而是分析Y取某個值的概率P與X的關系。令Y為1、0變量,Y=0表示正常評論,Y=1表示虛假評論,X是與虛假評論有關的因素。如果P表示虛假攻擊的概率,那么研究虛假攻擊的概率P與X有關因素的關系就相對簡單一些。

3.1變量選取的衡量標準

優(yōu)勢比OR(odds ratio)是流行病衡量危險因素作用大小的比數比例指標,其計算公式為

(4)

式中:P1和P0分別表示在Xj取值為c1及c0存在虛假攻擊的概率,ORj稱作多變量調整后的優(yōu)勢比,表示扣除了其他自變量影響后的危險因素的作用。對比某一個危險因素兩個不同暴露水平Xj=c1與Xj=c0的虛假攻擊情況(假設其他因素的水平相同),其優(yōu)勢比的自然對數為式(5):

(5)

c1-c0=1

ORj=expβj

(6)

3.2變量選擇

使用邏輯回歸模型時,主要有3種選擇變量的方式:前向選擇、后向選擇和逐步回歸。本文采用逐步回歸的方式進行變量選擇,其基本思想是逐個引入影響模型的自變量,每次都是引入對Y影響最為顯著的自變量,并對方程中存在的變量逐個進行檢驗,把變?yōu)椴伙@著的變量逐個從模型中刪除,最終,使得模型中存在的變量是對Y影響最為顯著的變量,篩選的步驟如下:首先給出引入變量的顯著性水平αin和剔除變量的顯著性水平αout,然后按下圖1進行篩選,篩選過程如下。

圖1 變量篩選流程圖Fig.1 Flow chart of variable selection

3)此時的模型中已經包含Xe1和Xe2兩個變量,但是我們應該注意到,在引入變量Xe2之后,變量Xe1可能不再是顯著性變量,我們應該使用Wald檢驗分別計算它們的顯著值和響應的P值。如果P值大于αout,則此變量從模型中刪除,否則停止迭代計算;

4)依次進行迭代計算,每當向前選擇一個變量進入后,都進行向后刪除的檢查,循環(huán)終止的條件是:模型中的所有自變量的P值都小于αout,被刪除自變量的P值都大于αin。

4評論文本特征工程

這里首先提出可能影響虛假評論的10個特征,然后使用逐步回歸方法計算哪個特征對其影響嚴重,10個特征如下。

文本長度(F1)統(tǒng)計評論文本中的文字個數,正常用戶一般懶于評論只給出評分或給出簡短的評論文本,而虛假評論者為了提高或貶低某件商品,需要寫下比較冗長的評論文本。

復雜度(F2)評論文本的復雜度是指文本中所使用詞匯的復雜度,一般認為正常用戶所使用的評論詞匯比較簡單,而虛假評論的詞匯相對比較復雜和專業(yè)。

關聯(lián)度(F3)評論關聯(lián)度是指評論文本與被評論商品的相關程度,有些虛假評論者為了完成評論字數要求,常常會復制一些與商品無關的文本來完成虛假評論任務。

一致性(F4)一致性評論文本的情感強度與所給評分的相似度,是探測隨機評論的重要特征。

情感強度(F5)情感強度是指評論文本中的情感極性強度,普通用戶的評論情感比較公正,而虛假評論的情感強度比較激烈。

是否包含轉折詞(F6)正常用戶可能對產品的部分性能指標是滿意的,而對另外的某些特征是不太滿意的,所以他們的評論中常常包含轉折詞,而虛假評論者的情感極性高度一致,很少會有情感的逆轉。

復制文本(F7)虛假評論者為了快速完成自己的虛假攻擊任務,往往會把某個商品的虛假評論復制對商品以不同的消費者身份進行評論。

用戶信譽(F8)某個用戶的信譽是由他所發(fā)表的評論被其他消費者采納的數量決定的,如果采納該用戶的人數越多,說明其信譽越高。

初評和追評的一致性(F9)正常評論者在初評時一般只是從商品的外觀給商品進行評分,對該商品使用一定時間后,可能會給出更加具有意義的追評;而虛假評論者的初評和追評幾乎是同時完成的。

附廣告圖片(F10)現(xiàn)在商家為了提高商品信譽,還會進行“好評曬圖返現(xiàn)”活動,普通正常用戶很少拍圖上傳,而虛假評論中往往會伴隨著圖片的出現(xiàn),我們認為評論附圖的評論很可疑。

5特征選擇

本文主要使用優(yōu)勢比(OR)和逐步回歸變量篩選方法來選擇對邏輯回歸模型影響最為顯著的特征。

5.1數據集

在Liu[4]從Amazon收集并整理的415 179條評論數據的基礎上,篩選出含有評論文本的13 246條評論作為本文的實驗數據,其中包含虛假評論3 412條,真實評論9 834條,實驗數據集如表1。

表1 實驗數據表

5.2計算候選自變量的優(yōu)勢比

為了檢測哪些候選自變量對邏輯回歸模型的影響更為顯著,本文使用式(4)計算每個自變量的優(yōu)比,以評論文本長度為例來說明優(yōu)勢比的計算步驟。

表2 文本長度分布表

表310個候選特征及OR值

Table 3Ten candidate features and OR

變量賦值說明ORF1文本長度≥50=117.4文本長度<50=0F2復雜=1,不復雜=05.31F3不關聯(lián)=1,關聯(lián)=00.34F4不一致=1,一致=03.87F5強烈=1,不強烈=07.68F6不含=1,包含=015.6F7是=1,不是=02.87F8高=1,低=00.78F9不一致=1,一致=07.46F10附圖=1,不附圖=04.23

5.3模型檢驗

為了判斷選取的模型是否有效,需要對該模型進行檢驗。邏輯回歸模型主要包含3種假設檢驗方法,分別是似然比檢驗、Wald檢驗和計分檢驗,其中,似然比檢驗既適用于單個影響因素的假設檢驗,又適用于多個影響因素的同時檢驗;Wald檢驗適合單個影響因素的檢驗;計分檢驗與傳統(tǒng)的Mantelhaenszel檢驗結果相同,在小樣本空間中比似然比檢驗更接近χ2分布;本文采用似然比檢驗方法對模型進行檢驗。

似然比檢驗的原理是通過分析模型中變量變化對似然比的影響,依此來判斷增加或者去除某個自變量是否對因變量有顯著影響,檢驗統(tǒng)計量的公式如式(7)所示。

(7)

式中:ln(Lm-1)為不包含檢驗變量時模型的對數似然值, ln(Lm)為包含檢驗變量時模型的對數似然值.當檢驗一個變量時G服從自由度為1的χ2分布,當對整個模型進行檢驗時,就是相當于模型中所有的m個變量的回歸系數為0,G服從自由度為m的χ2分布。如果檢驗結果為拒絕H0,則表示該影響因素對回歸模型有統(tǒng)計學意義,即對事件發(fā)生有影響。我們分別計算了所選的6個特征的似然比,在顯著水平α=0.05的條件下,計算的結果如表4所示。

表4 似然比測試表

6實驗分析

本文借用Spss統(tǒng)計工具對實驗數據進行分析,采用對比實驗的方式驗證本文方法的有效性,由于數據樣本有限,我們采用五折交叉驗證,分別與任亞峰等[8]提出的基于語言結構和情感極性的虛假評論識別方法和Feng等[14]提出的基于句法結構的方法進行對比,從而分析本文方法的優(yōu)勢和不足。本文采用最為通用的3個評判指標來判斷虛假檢測的優(yōu)劣,即準確率、召回率和F1值。從圖中可以發(fā)現(xiàn)融合情感傾向和邏輯回歸模型的虛假攻擊檢測方法表現(xiàn)出了不錯的性能。

圖2 準確率對比Fig.2 Accuracy comparison

任亞峰等認為傳統(tǒng)的啟發(fā)式策略或者全監(jiān)督學習方法很難有效地解決虛假攻擊的檢測問題,他們分析了虛假評論和真實評論之間在語言結構和情感極性的差異,借用經典的遺傳算法對文本的書寫結構和情感極性兩大主要特征進行優(yōu)化選擇,最終選擇出了5個最為重要的特征,最后又根據這些特征結合無監(jiān)督的硬聚類和軟聚類算法實現(xiàn)了虛假評論的檢測。該方法的檢測準確率有所提高,主要原因是在考慮情感極性和強度的同時,融合了評論文本的較為重要的5個特征,使其分析的更加全面。該方法也有不足之處,即沒有突出哪些特征最為重要,如果能再把不同特征的權重考慮進去,檢測的效果可能會更好。召回率對比和F1指數對比見圖3和圖4。

圖3 召回率對比Fig.3 Recall comparison

圖4 F1指數對比Fig.4 F1_Measure comparison

Feng等提出的基于句法結構的虛假評論檢測算法相比于任亞峰等提出的算法又有明顯的提高,他們認為淺層次的句法模式是不可靠的,他們的工作主要研究了深層次的句法模式,并在前人的研究基礎之上加入了一些非常規(guī)的句法模式來構建語義樹。他們又從4個不同數據集中利用文本句法樹提取了幾種不常見的語義特征,該方法使其檢測精度達到了91.2%,召回率也有明顯提高。我們分析工作性能提高的主要原因是,購物評論往往是不規(guī)則的,文本長度極短并且沒有固定的書寫模式,所以任亞峰等提出的基于簡單語法模式的檢測算法受到了一定的限制,而Feng等正是針對評論文本和常規(guī)文本在句法上存在明顯差異的前提下,利用語義樹,挖掘深層的句法關系,構建出了專門用于分析評論短文本的語義樹,使得檢測性能得到大幅度提高。

本文方法相對于二者的研究方法準確率有所增加,而召回率比Feng等提出的方法的要差一些。本文方法首先提出了基于關聯(lián)詞(特別是轉折詞)的情感極性判別方法,以此來判斷評論的情感是否出現(xiàn)轉變、情感強度是否異常極端,然后又提取了10個候選的評論文本特征,經過極大似然檢驗后,選取了6個最為重要的特征,最后使用邏輯回歸模型對評論進行檢測,促使檢測的準確率有所增大。但是在加入更多特征使檢測精度提高的同時,我們也發(fā)現(xiàn),召回率比Feng等的要低一些,原因可能是更多的特征被加入了模型中,對數據的質量提出了更高的要求,如一些文本中可能不存在關聯(lián)詞這一特征。

7結束語

隨著電子商務的蓬勃發(fā)展,研究者們對虛假評論檢測作出了不懈的努力。針對評論文本過短,評論隨意等特點本文提出了融合關聯(lián)詞的情感傾向分析,然后再此基礎上又分析了影響分類的6個特征,把這些特征應用于邏輯回歸模型中實現(xiàn)了虛假評論的檢測,該方法取得了不錯的效果。但該模型還有待改進,首先,文本的極性判別方式過于粗糙,只是考慮了文本中的否定詞和關聯(lián)詞,沒有特別注重分析程度副詞,只分析了文本的極性,卻沒有定量分析其情感強度;其次,模型中沒有動態(tài)地考慮評論情況,研究表明,不誠實的商家往往在開辦網店的初期雇傭虛假評論人員通過刷單的方式提高自己的信譽,所以虛假評論往往發(fā)生在電商經營的初期。最后,可能評論文本中還隱藏著許多其他的因素可以提高檢測的精度,下一步的工作將主要集中在這3個方面。

參考文獻:

[1]KOLCZ A, ALSPECTOR J. SVM-based filtering of E-mail spam with content specific misclassification costs[C]//Proceedings of ICDM-2001 Workshop on Text Mining. Dallas, USA, 2001: 324-332.

[2]BECCHETTI L, CASTILLO C, DONATO D, et al. Link-based characterization and detection of web spam[C]//Adversarial Information Retrieval on the Web. Washington, USA, 2006: 1012-1021.

[3]JINDAL N, LIU Bing. Review spam detection[C]//Proceedings of the 16th International Conference on World Wide Web. Alberta, Canada, 2007: 1189-1190.

[4]JINDAL N, LIU Bing, et al. Opinion spam and analysis[C]//Proceedings of the 2008 International Conference on Web Search and Data Mining. California, USA, 2008: 219-230.

[5]WU Fang, HUBERMAN B A. Opinion information under costly express[J]. ACM transactions on intelligence systems and technology, 2010, 1(1): 5.

[6]譚文堂, 朱洪, 葛斌, 等. 垃圾評論自動過濾方法[J]. 國防科技大學學報, 2012, 34(5): 153-157, 168.

TAN Wentang, ZHU Hong, GE Bin, et al. Method of review spam detection[J]. Journal of national university of defense technology, 2012, 34(5): 153-157, 168.

[7]OTT M, CHOI Y, CARIDIE C, et al. Finding deceptive opinion spam by any stretch of the imagination[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: human language technologies. Portland, USA, 2011, 1: 309-319.

[8]任亞峰, 尹蘭, 姬東鴻. 基于語言結構和情感極性的虛假評論識別[J]. 計算機科學與探索, 2014, 8(3): 313-320.

REN Yafeng, YIN Lan, JI Donghong. Deceptive reviews detection based on language structure and sentiment polarity[J]. Journal of frontiers of computer science and technology, 2014, 8(3): 313-320.

[9]WANG Guan, XIE Sihong, LIU Bing, et al. Identify online store review spammers via social review graph[J]. ACM Transactions on intelligent systems and technology, 2012, 3(4): 61.

[10]GAO Jian, DONG Yuwei, SHANG Mingsheng, et al. Group-based ranking method for online rating systems with spamming attacks[J]. EPL (europhysics letters), 2015, 110(2): 28003.

[11]唐波, 陳光, 王星雅, 等. 微博新詞發(fā)現(xiàn)及情感傾向性判斷分析[J]. 山東大學學報:理學版, 2015, 50(1): 20-25.

TANG Bo, CHEN Guang, WANG Xingya, et al. Analysis on new word detection and sentiment orientation in Micro-blog[J]. Journal of Shandong university: nature science, 2015, 50(1): 20-25.

[12]何鳳英. 基于語義理解的中文博文傾向性分析[J]. 計算機應用, 2011, 31(8): 2130-2133, 2137.

HE Fengying. Orientation analysis for Chinese blog text based on semantic comprehension[J]. Journal of computer application, 2011, 31(8): 2130-2133, 2137.

[13]邸鵬, 李愛萍, 段利國. 基于轉折句式的文本情感傾向性分析[J]. 計算機工程與設計, 2014, 35(12): 4289-4295.

DI Peng, LI Aiping, DUAN Liguo. Text sentiment polarity analysis based on transition sentence[J]. Computer engineering and design, 2014, 35(12): 4289-4295.

[14]FENG Song, BANERJEE R, CHOI Y. Syntactic stylometry for deception detection[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Short Papers-Volume 2. Jeju, Korea, 2012: 171-175.

[15]LI Jiwei, CARDIE C, LI Sujian. TopicSpam: a topic-model-based approach for spam detection[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Sofi, Bulgaria, 2013: 217-221.

[16]JINDAL N, LIU Bing, LIM E P. Finding unusual review patterns using unexpected rules[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management. Ontario, Canada, 2010: 1549-1552.

[17]JO Y, OH A H. Aspect and sentiment unification model for online review analysis[C]//Proceedings of the 4th ACM International Conference on Web Search and Data Mining. New York, USA, 2011: 815-824.

趙軍,男,1989年生, 碩士研究生,主要研究方向為大數據、數據挖掘、機器學習。

王紅,女,1966年生,教授,博士生導師,主要研究方向為大數據、復雜網絡、數據挖掘。主持國家自然基金項目1項,參與國家自然基金項目3項,主持省級基金項目6項,發(fā)表學術論文43篇。

中文引用格式:趙軍,王紅.融合情感極性和邏輯回歸的虛假評論檢測方法[J]. 智能系統(tǒng)學報, 2016, 11(3): 336-342.

英文引用格式:ZHAO Jun,WANG Hong.Detection of fake reviews based on emotional orientation and logistic regression[J]. CAAI transactions on intelligent systems, 2016,11(3): 336-342.

Detection of fake reviews based on emotional orientation and logistic regression

ZHAO Jun1,2, WANG Hong1,2

(1. School of Information Science and Engineering, Shandong Normal University, Jinan 250014, China; 2. Shandong Provincial Key Laboratory for Distributed Computer Software Novel Technology, Ji′nan 250014, China)

Abstract:Online shopping reviews provide valuable customer information for comparing the quality of products and several other aspects of future purchases. However, spammers are joining this community to mislead and confuse consumers by writing fake or unfair reviews. To detect the presence of spammers, reviewer styles have been scrutinized for text similarity and rating patterns. These studies have succeeded in identifying certain types of spammers. However, there are other spammers who can manipulate their behaviors such that they are indistinguishable from normal reviewers, and thus, they cannot be detected by available techniques. In this paper, we analyze the orientation of comments, extract different features, and use a logic regression model to detect false comments. First, we utilize natural language processing technology to analyze the orientation of comments and compute the departures of those comments from those of the general public. The greater is the deviation, the greater is the probability of the comment being generated by a spammer. Then, we select several other important features and combine them with the logic regression model to identify fake comments. The experimental results verify the greater accuracy of the proposed method.

Keywords:Electronic commerce; fake review; shopping behavior; emotional polarity; logic regression

作者簡介:

中圖分類號:TP39

文獻標志碼:A

文章編號:1673-4785(2016)03-0336-07

通信作者:王紅.E-mail:wanghong106@163.com.

基金項目:國家自然科學基金項目(61373149,61472233);山東省科技計劃項目(2012GGX10118,2014GGX101026);山東省教育科學規(guī)劃項目(ZK1437B010).

收稿日期:2016-03-17.網絡出版日期:2016-05-13.

DOI:10.11992/tis.201603027

網絡出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20160513.0911.004.html

猜你喜歡
電子商務
2025年我國農村電子商務交易額達到2.8萬億元
《電子商務法》如何助力直銷
淺析中小企業(yè)電子商務服務外包
電子商務實踐能力的提升探析
電子商務
電子商務模式創(chuàng)新的相關研究
關于加快制定電子商務法的議案
跨境電子商務中的跨文化思考
基于AS仿真的電子商務交易系統(tǒng)研究
電子商務人的核心能力
奈曼旗| 镇巴县| 巴彦淖尔市| 增城市| 慈利县| 云林县| 申扎县| 双辽市| 沅陵县| 布尔津县| 赤壁市| 武川县| 清流县| 遵义县| 长泰县| 水城县| 台南市| 特克斯县| 扎兰屯市| 通榆县| 长泰县| 龙江县| 靖江市| 河津市| 广汉市| 蓝山县| 寿阳县| 丹棱县| 于都县| 桃园市| 衢州市| 广西| 城口县| 平山县| 泾川县| 和林格尔县| 浦北县| 科尔| 临泽县| 伊吾县| 内丘县|