国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

虛假評(píng)論的識(shí)別與過(guò)濾:現(xiàn)狀與展望

2022-02-12 12:32張紫瓊崔雪瑩
關(guān)鍵詞:評(píng)論者商家特征

□王 樂(lè) 張紫瓊 崔雪瑩

[1. 西安交通大學(xué) 西安 710061;2. 哈爾濱工業(yè)大學(xué) 哈爾濱 150001]

隨著互聯(lián)網(wǎng)的普及和物流行業(yè)的高速發(fā)展,電子商務(wù)得到了蓬勃發(fā)展。國(guó)家統(tǒng)計(jì)局?jǐn)?shù)據(jù)顯示,2020年全國(guó)社會(huì)消費(fèi)品零售總額下降3.9%;而線上零售額增長(zhǎng)10.9%,達(dá)到11.8萬(wàn)億元①。網(wǎng)上交易突破了時(shí)間和空間的限制,但買賣雙方的信息不對(duì)稱會(huì)阻礙交易的進(jìn)行。為了應(yīng)對(duì)網(wǎng)上交易的信息不對(duì)稱問(wèn)題,各大電商平臺(tái)建立了評(píng)價(jià)反饋機(jī)制,評(píng)價(jià)累積形成賣方的“聲譽(yù)”[1]。然而,虛假評(píng)論的出現(xiàn)嚴(yán)重影響了在線評(píng)論對(duì)產(chǎn)品質(zhì)量的診斷力。據(jù)中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)發(fā)布的《中國(guó)網(wǎng)民權(quán)益保護(hù)調(diào)查報(bào)告》[2]顯示,72.7%的消費(fèi)者遭遇過(guò)虛假評(píng)論的侵害,虛假評(píng)論嚴(yán)重影響了消費(fèi)者的購(gòu)買決策。Luca和Zervas[3]指出,美國(guó)著名餐飲點(diǎn)評(píng)網(wǎng)站Yelp上16%的評(píng)論為虛假評(píng)論,Amazon上該比例更是高達(dá)42%。

虛假評(píng)論增加了消費(fèi)者的信息搜索成本、商家的銷售成本和平臺(tái)的運(yùn)營(yíng)成本。鑒于虛假評(píng)論的危害,學(xué)術(shù)界和業(yè)界紛紛研究如何識(shí)別和過(guò)濾虛假評(píng)論。Jindal等[4]首次提出運(yùn)用有監(jiān)督學(xué)習(xí)的方法對(duì)評(píng)論進(jìn)行分類,以此區(qū)分虛假評(píng)論和真實(shí)評(píng)論。此后大量研究聚焦于虛假評(píng)論的特征并開發(fā)了相應(yīng)的算法。例如,Ott等[5]創(chuàng)建了第一個(gè)大規(guī)模、可公開獲取的虛假評(píng)論研究數(shù)據(jù)集,并專門聚焦于偽裝成真實(shí)評(píng)論的、迷惑性較高的虛假評(píng)論文本的識(shí)別。除評(píng)論文本特征外,Lim等[6]提出通過(guò)行為特征識(shí)別虛假評(píng)論者,從而間接識(shí)別虛假評(píng)論。Mukherjee等[7]進(jìn)一步提出虛假評(píng)論群組的檢測(cè)方法。上述研究從不同的方面對(duì)虛假評(píng)論的識(shí)別和過(guò)濾進(jìn)行了系統(tǒng)的研究,但是仍然有一些關(guān)鍵的問(wèn)題懸而未決。

首先,以往文獻(xiàn)主要關(guān)注虛假評(píng)論的“事后”識(shí)別和過(guò)濾,對(duì)虛假評(píng)論的“事先”預(yù)防關(guān)注不足。學(xué)者們競(jìng)相開發(fā)新的識(shí)別算法,各大平臺(tái)也都開發(fā)了相應(yīng)的虛假評(píng)論過(guò)濾系統(tǒng)。例如,Amazon開發(fā)FakeSpot去識(shí)別過(guò)濾虛假評(píng)論。然而該平臺(tái)虛假評(píng)論的占比由2019年的36%升至2020年的42%[8]??梢姡摷僭u(píng)論的事后過(guò)濾并不能完全杜絕虛假評(píng)論。

其次,雖然現(xiàn)有研究從不同角度研究了虛假評(píng)論的識(shí)別算法,但這些算法對(duì)虛假評(píng)論的識(shí)別精度有待提高。Emerson等[9]使用不同類型的算法和數(shù)據(jù)集,對(duì)各種虛假評(píng)論識(shí)別算法的速度和識(shí)別率進(jìn)行了評(píng)估。結(jié)果發(fā)現(xiàn),各種虛假評(píng)論識(shí)別算法的正確識(shí)別率均介于32%~43%。Yelp的Ghost Algorithm程序每年會(huì)過(guò)濾掉近11%的虛假評(píng)論,然而Luca和Zervas[3]指出,Yelp上虛假評(píng)論的比例超過(guò)16%,這意味著約5%的虛假評(píng)論未被識(shí)別。

一、文獻(xiàn)搜集

(一)文獻(xiàn)收集的范圍界定

本文的文獻(xiàn)主要來(lái)源于中國(guó)知網(wǎng)和Web of ScienceTM數(shù)據(jù)庫(kù)。虛假評(píng)論的相關(guān)研究,起源于Jindal等[4]。因此,本文將文獻(xiàn)檢索時(shí)間范圍設(shè)定為2007年(1月1日)~2021年(8月31日)。文獻(xiàn)的搜索和篩選采用關(guān)鍵詞檢索和回溯法相結(jié)合的檢索方法。

中文文獻(xiàn)的收集首先以“虛假評(píng)論”為關(guān)鍵詞在中國(guó)知網(wǎng)上進(jìn)行初步檢索,然后在梳理和閱讀文獻(xiàn)過(guò)程中不斷擴(kuò)充關(guān)鍵詞庫(kù),最終確定的關(guān)鍵詞包括:虛假評(píng)論、垃圾評(píng)論、欺詐虛假評(píng)論、異常評(píng)論、虛假評(píng)論檢測(cè)、虛假評(píng)論識(shí)別、虛假評(píng)論者檢測(cè)、虛假評(píng)論群組檢測(cè)。接下來(lái)按照選定的關(guān)鍵詞逐一搜索,并人工檢查文章標(biāo)題、關(guān)鍵詞、摘要等,將檢索結(jié)果中重復(fù)或不符合研究主題的文章剔除。

英文文獻(xiàn)的搜集思路類似:首先以關(guān)鍵詞review spam為起點(diǎn)在Web of ScienceTM數(shù)據(jù)庫(kù)中進(jìn)行初步檢索,然后逐漸擴(kuò)充關(guān)鍵詞庫(kù),最終確定的關(guān)鍵詞包括:review spam、fake review、opinion spam、deceptive review、review manipulation、spam detection、spam filtering、review spammer、spammer group。接下來(lái),按照關(guān)鍵詞庫(kù)進(jìn)一步檢索。

同時(shí),以Jindal等[4]的文章為起點(diǎn),運(yùn)用回溯法對(duì)其被引文獻(xiàn)以及被引的被引進(jìn)行搜索,與根據(jù)關(guān)鍵詞搜索到的文獻(xiàn)進(jìn)行比對(duì)。最終得到中文文獻(xiàn)186篇,英文文獻(xiàn)284篇(表1)。

(二)文獻(xiàn)脈絡(luò)和趨勢(shì)

國(guó)外對(duì)于虛假評(píng)論識(shí)別的研究起步較早。Jindal等[4]對(duì)虛假評(píng)論加以界定,并提出運(yùn)用機(jī)器學(xué)習(xí)模型對(duì)虛假評(píng)論進(jìn)行分類,為該領(lǐng)域的學(xué)術(shù)研究提供了新的視角。此后相關(guān)研究進(jìn)入快速增長(zhǎng)階段,且至今仍保持著持續(xù)增長(zhǎng)的態(tài)勢(shì)。近年來(lái),虛假評(píng)論相關(guān)研究的領(lǐng)域越來(lái)越廣泛,研究的視角也更加多樣。國(guó)內(nèi)對(duì)于虛假評(píng)論識(shí)別的研究起步相對(duì)較晚,但發(fā)展更為迅速,在2019年達(dá)到近幾年峰值40篇(圖1)。國(guó)內(nèi)在研究虛假評(píng)論識(shí)別技術(shù)的同時(shí),更能緊密結(jié)合中文語(yǔ)言表達(dá)、中國(guó)人行為方式以及電商平臺(tái)的運(yùn)作等特點(diǎn),由此得到更好的研究成果。

表 1 文獻(xiàn)主要分類

中文文獻(xiàn)主要集中在學(xué)位論文(52%)和計(jì)算機(jī)領(lǐng)域的學(xué)術(shù)期刊(21%),經(jīng)濟(jì)管理和情報(bào)學(xué)領(lǐng)域的學(xué)術(shù)期刊雖然有所涉及,但沒(méi)有形成群聚效應(yīng),總體發(fā)文量不高。而英文文獻(xiàn)分布相對(duì)比較均衡,在計(jì)算機(jī)(42%)、經(jīng)濟(jì)管理(24%)、數(shù)學(xué)(19%)、電信(11%)領(lǐng)域都有所關(guān)注。

二、虛假評(píng)論識(shí)別的研究框架

近年來(lái)虛假評(píng)論的文獻(xiàn)數(shù)量不斷增加,研究議題也不斷豐富。為系統(tǒng)性總結(jié)現(xiàn)有研究的進(jìn)展,解決開篇提到的爭(zhēng)議,發(fā)掘未來(lái)的研究方向,本文構(gòu)建了一個(gè)虛假評(píng)論的理論分析框架。在管理與行為科學(xué)研究領(lǐng)域中常用的ABC(Antecedents-Behavior-Consequences,前因-行為-結(jié)果)分析范式的基礎(chǔ)上,本文整合了虛假評(píng)論的特征和識(shí)別算法,以幫助我們更為系統(tǒng)地了解虛假評(píng)論的前因后果。這一模型主要包含5個(gè)知識(shí)模塊,各個(gè)知識(shí)模塊之間的邏輯聯(lián)系見圖2。

圖 1 國(guó)內(nèi)外發(fā)文趨勢(shì)

圖 2 虛假評(píng)論相關(guān)研究框架

(一)虛假評(píng)論的界定和分類

廣義上來(lái)講,虛假評(píng)論通常是指與商品本身特征不相符的評(píng)論[10],包含“虛”—沒(méi)有任何價(jià)值的無(wú)關(guān)評(píng)論和“假”—與事實(shí)不符的捏造評(píng)論[11]。Jindal等[4]依據(jù)評(píng)論者表達(dá)觀點(diǎn)的真實(shí)性、評(píng)論內(nèi)容與產(chǎn)品的相關(guān)性對(duì)虛假評(píng)論進(jìn)行界定。一是不真實(shí)評(píng)論,即內(nèi)容相關(guān)但觀點(diǎn)不真實(shí)的評(píng)論,包括為自身利益而發(fā)布的正面不實(shí)評(píng)論和為損害對(duì)手聲譽(yù)而發(fā)表的負(fù)面不實(shí)評(píng)論。二是無(wú)關(guān)評(píng)論,包括僅針對(duì)品牌的評(píng)論以及不包含任何觀點(diǎn)的評(píng)論,如產(chǎn)品的廣告宣傳和功能介紹或來(lái)自對(duì)手的相似產(chǎn)品宣傳等。由于這類評(píng)論很容易被閱讀者識(shí)別,所以文本對(duì)于消費(fèi)者決策影響較小,但是會(huì)對(duì)系統(tǒng)的評(píng)論評(píng)級(jí)產(chǎn)生影響。狹義的虛假評(píng)論通常指評(píng)論者出于某種目的發(fā)表的,與產(chǎn)品事實(shí)不符的評(píng)論[12~13]。此類評(píng)論通常是商家或者消費(fèi)者(發(fā)泄不滿或索要補(bǔ)償)為影響消費(fèi)者決策而發(fā)表的虛假好評(píng)或差評(píng)。狹義的虛假評(píng)論對(duì)消費(fèi)者的決策影響較大且不易被識(shí)別。因此,本文重點(diǎn)關(guān)注狹義虛假評(píng)論的識(shí)別和過(guò)濾。

根據(jù)評(píng)論是否通過(guò)欺騙消費(fèi)者,進(jìn)而對(duì)消費(fèi)者決策造成影響,Ott等[5]將虛假評(píng)論歸為兩類。一是破壞性評(píng)論,其評(píng)論本身難以誤導(dǎo)消費(fèi)者,但降低了評(píng)論信息質(zhì)量,甚至影響整體評(píng)分和排名;二是欺騙性評(píng)論,指為欺騙消費(fèi)者故意編造的過(guò)度夸贊或過(guò)分貶低的評(píng)論內(nèi)容,其目的是引導(dǎo)消費(fèi)者決策。還有研究將其進(jìn)一步細(xì)分,從信息有用性角度將虛假評(píng)論劃分為四類[14]。一是推銷、詆毀性評(píng)論,即為推銷自身產(chǎn)品或詆毀其他品牌而發(fā)布的不真實(shí)評(píng)論,其目的是影響消費(fèi)者觀點(diǎn)和行為決策以實(shí)現(xiàn)自身利益;二是干擾性評(píng)論,包括品牌宣傳、產(chǎn)品介紹、廣告鏈接等參考價(jià)值很低甚至沒(méi)有任何參考價(jià)值的評(píng)論信息,主要用于干擾消費(fèi)者獲取有效信息或者干擾系統(tǒng)的識(shí)別;三是無(wú)意義評(píng)論,其內(nèi)容未傳遞任何有用信息,如敷衍性的評(píng)論或單純的情緒宣泄等;四是系統(tǒng)評(píng)論,即具有默認(rèn)好評(píng)機(jī)制的平臺(tái),在消費(fèi)者一段時(shí)間沒(méi)有給出評(píng)論后自動(dòng)生成好評(píng),該評(píng)論對(duì)用戶來(lái)說(shuō)沒(méi)有任何參考價(jià)值。此外,還有學(xué)者根據(jù)發(fā)布虛假評(píng)論的類別將虛假評(píng)論者劃分為兩類[15]。第一類是隨機(jī)虛假評(píng)論者,其發(fā)表的內(nèi)容沒(méi)有任何參考價(jià)值,雖然可能不是出于惡意的目的,但降低了評(píng)論信息質(zhì)量;第二類是惡意虛假評(píng)論者,出于自身目的故意制造與產(chǎn)品事實(shí)不符的評(píng)論,來(lái)詆毀商家聲譽(yù)、誤導(dǎo)消費(fèi)者決策。

(二)虛假評(píng)論的產(chǎn)生

要識(shí)別和過(guò)濾虛假評(píng)論,首先要了解虛假評(píng)論如何產(chǎn)生。以往文獻(xiàn)從以下幾個(gè)方面討論了虛假評(píng)論的起源。

1. 為什么會(huì)產(chǎn)生虛假評(píng)論(Why)

從宏觀上來(lái)講,注入虛假的評(píng)分能夠提高整體評(píng)分水平,從而提升商品的排名,使得商家獲得更多的網(wǎng)絡(luò)流量和點(diǎn)擊率[16~17]。一般來(lái)說(shuō),消費(fèi)者在搜索目標(biāo)產(chǎn)品時(shí),平臺(tái)會(huì)根據(jù)產(chǎn)品的評(píng)分排名或者銷量排名依次展示商品信息,而排在商品首頁(yè)的商家占據(jù)了80%~90%的網(wǎng)絡(luò)流量[18]。大量的實(shí)證研究證明網(wǎng)絡(luò)流量和產(chǎn)品銷量之間存在正相關(guān)關(guān)系[19~21],因而評(píng)分和排名對(duì)于商家來(lái)說(shuō)至關(guān)重要。因此,商家選擇采取不正當(dāng)?shù)母?jìng)爭(zhēng)方式,通過(guò)增加自身的高分好評(píng)或競(jìng)爭(zhēng)對(duì)手的低分差評(píng),來(lái)提高產(chǎn)品整體得分和排名,增加產(chǎn)品曝光度,進(jìn)而提升銷量。

從微觀上來(lái)講,虛假評(píng)論的內(nèi)容可以通過(guò)影響產(chǎn)品口碑、商家聲譽(yù),進(jìn)而對(duì)消費(fèi)者決策產(chǎn)生影響。評(píng)論評(píng)分是以往消費(fèi)者對(duì)產(chǎn)品總體質(zhì)量的一個(gè)數(shù)字化的評(píng)價(jià),而評(píng)論的文本內(nèi)容則包含了消費(fèi)者的主觀感受、情感傾向、使用心得、產(chǎn)品優(yōu)缺點(diǎn)、商家服務(wù)等信息。相比于評(píng)論評(píng)分,評(píng)論內(nèi)容表達(dá)的信息量更加豐富,所以大部分消費(fèi)者在挑選產(chǎn)品時(shí),會(huì)參考以往消費(fèi)者對(duì)產(chǎn)品的評(píng)價(jià)[22~23]。因此,商家試圖利用大量正面評(píng)論夸大產(chǎn)品質(zhì)量,建立正面口碑,或發(fā)布負(fù)面評(píng)論詆毀競(jìng)爭(zhēng)對(duì)手產(chǎn)品,形成負(fù)面口碑,從而引導(dǎo)甚至轉(zhuǎn)變消費(fèi)者的購(gòu)買意愿。

總的來(lái)看,無(wú)論是出于提高整體評(píng)分和排名以吸引更多流量,還是建立虛假口碑、塑造良好的聲譽(yù),發(fā)布虛假評(píng)論的根本原因都是自身利益。因此,利益驅(qū)動(dòng)是產(chǎn)生虛假評(píng)論最主要的動(dòng)機(jī)。

2. 誰(shuí)在制造虛假評(píng)論(Who)

商家是產(chǎn)生虛假評(píng)論最主要的來(lái)源,商家為牟取更多的經(jīng)濟(jì)利益,試圖通過(guò)發(fā)布虛假評(píng)分以提升自身競(jìng)爭(zhēng)力,并企圖通過(guò)虛假的評(píng)論內(nèi)容誤導(dǎo)消費(fèi)者做出利于商家的決策。大量的研究表明,虛假評(píng)論會(huì)影響產(chǎn)品績(jī)效[24~25]。如Petrescu等[26]對(duì)亞馬遜網(wǎng)站上某剃須產(chǎn)品的評(píng)論進(jìn)行定量分析,發(fā)現(xiàn)在商家進(jìn)行虛假評(píng)論的激勵(lì)干預(yù)之后,產(chǎn)品評(píng)論數(shù)量和產(chǎn)品銷量顯著提升。競(jìng)爭(zhēng)對(duì)手發(fā)布虛假差評(píng)來(lái)打擊他人的手段更為卑劣,但負(fù)面評(píng)論能更有效地打擊對(duì)手,產(chǎn)生的影響也更加惡劣[27],所以仍是不少商家的慣用手段。Mayzlin等[28]發(fā)現(xiàn),一定地理范圍內(nèi)具有競(jìng)爭(zhēng)對(duì)手的酒店相對(duì)來(lái)說(shuō)更有可能收到虛假差評(píng),且隨著一定地理距離之內(nèi)競(jìng)爭(zhēng)對(duì)手的增加,酒店發(fā)布虛假評(píng)論的頻率也隨之增加。虛假評(píng)論除了來(lái)源于惡性競(jìng)爭(zhēng)的商家外,消費(fèi)者也可能出于發(fā)泄不滿[29]、索要獎(jiǎng)勵(lì)[30]、獲取小額返現(xiàn)[31]等目的發(fā)布虛假評(píng)論。最后,常常被忽略的一方面是來(lái)源于平臺(tái)的默認(rèn)好評(píng)。具有默認(rèn)好評(píng)機(jī)制的平臺(tái)在消費(fèi)者一段時(shí)間沒(méi)有給出評(píng)價(jià)后,會(huì)自動(dòng)生成好評(píng),而此類好評(píng)可能并未表達(dá)消費(fèi)者真實(shí)意愿,但當(dāng)前學(xué)術(shù)界對(duì)于默認(rèn)好評(píng)是否屬于虛假評(píng)論尚未有統(tǒng)一的定論。

3. 什么時(shí)候產(chǎn)生虛假評(píng)論(When)

持續(xù)性地增加好評(píng),會(huì)導(dǎo)致評(píng)論操控成本過(guò)高且被識(shí)破的風(fēng)險(xiǎn)大大增加。因此,商家會(huì)側(cè)重在某些時(shí)刻發(fā)布虛假評(píng)論。一是在商家自身評(píng)分下降或競(jìng)爭(zhēng)對(duì)手評(píng)分上升時(shí)。Luca和 Zervas[3]發(fā)現(xiàn),當(dāng)產(chǎn)品評(píng)分有下降趨勢(shì)時(shí),商家發(fā)布虛假評(píng)論的頻率增加。二是商家收到差評(píng)時(shí),此時(shí)商家為降低差評(píng)的影響,會(huì)選擇注入大量好評(píng)使負(fù)面評(píng)價(jià)迅速被“淹沒(méi)”。三是產(chǎn)品處于推廣期時(shí)[32],商家往往在產(chǎn)品推出初期持續(xù)地增加好評(píng)。一方面好評(píng)數(shù)量增加可以提高產(chǎn)品評(píng)分和排名,引來(lái)更多的流量;另一方面,面對(duì)新產(chǎn)品時(shí),消費(fèi)者試圖通過(guò)參考評(píng)論內(nèi)容獲取更多產(chǎn)品信息,以降低不確定性。Cui等[33]研究了在線評(píng)論對(duì)新興的電子產(chǎn)品和視頻游戲銷售的影響,結(jié)果表明在線評(píng)論對(duì)新產(chǎn)品發(fā)布初期的銷售有顯著影響,并且這種影響隨著時(shí)間的推移而減弱。Zhang等[34]指出,在產(chǎn)品的成長(zhǎng)期增加大量的正面評(píng)論可以使產(chǎn)品后續(xù)獲得更多的正面評(píng)論。四是當(dāng)周圍競(jìng)爭(zhēng)環(huán)境變化時(shí),如面臨同類競(jìng)爭(zhēng)對(duì)手增加的橫向擠壓和替代商家不斷出現(xiàn)的縱向擠壓時(shí)。Liu等[35]指出,由于營(yíng)業(yè)范圍的部分重合,周圍蛋糕店數(shù)量越多,星巴克操控虛假評(píng)論的頻率越高。Lee等[36]研究發(fā)現(xiàn)競(jìng)爭(zhēng)環(huán)境對(duì)虛假評(píng)論發(fā)布強(qiáng)度具有調(diào)節(jié)效應(yīng),當(dāng)行業(yè)競(jìng)爭(zhēng)水平提高時(shí),虛假評(píng)論發(fā)布的頻率隨之增加。

4. 如何產(chǎn)生虛假評(píng)論(How)

商家可以選擇不同的方法發(fā)布虛假評(píng)論,主要包括增加自身好評(píng)、刪除自身差評(píng)、給競(jìng)爭(zhēng)對(duì)手注入差評(píng)三種方式。首先,向自身增加虛假好評(píng)的方式最為普遍且形式多樣,如商家刷好評(píng)、激勵(lì)好評(píng)[32]、發(fā)放免費(fèi)樣本[37]、進(jìn)行好評(píng)返現(xiàn)[38]、差評(píng)威脅[31],甚至要求消費(fèi)者修改不利評(píng)價(jià)來(lái)制造虛假評(píng)論等[39]。此外,一些商家還通過(guò)刪除差評(píng)達(dá)到自身目的。Zhuang等[32]研究發(fā)現(xiàn)適量的增加好評(píng)確實(shí)會(huì)影響消費(fèi)者購(gòu)買意愿,而達(dá)到一定程度后則面臨著被消費(fèi)者懷疑或者識(shí)破的風(fēng)險(xiǎn),從而產(chǎn)生負(fù)效應(yīng)。刪除差評(píng)相對(duì)較為隱蔽,不易引起懷疑,但加劇了商家與消費(fèi)者之間的信息不對(duì)稱。最后,向競(jìng)爭(zhēng)對(duì)手注入差評(píng)也是較為常見的方法之一。Mayzlin等[28]發(fā)現(xiàn),一定地理范圍內(nèi)競(jìng)爭(zhēng)對(duì)手的數(shù)量與收到虛假差評(píng)的數(shù)量相關(guān),且虛假的負(fù)面評(píng)論可能會(huì)對(duì)商家產(chǎn)生更嚴(yán)重的消極影響[40]。Lappas等[17]發(fā)現(xiàn),向競(jìng)爭(zhēng)對(duì)手注入差評(píng)對(duì)產(chǎn)品排名的提升比增加自身相同數(shù)量的好評(píng)對(duì)產(chǎn)品排名提升的效率高40%。

此外,商家常用的發(fā)布虛假評(píng)論的渠道主要有兩種。一是自己制造虛假評(píng)論,如注冊(cè)新的賬號(hào)偽裝成真實(shí)用戶發(fā)布虛假評(píng)論,或者使用各種激勵(lì)手段促使消費(fèi)者發(fā)布虛假好評(píng);二是雇傭?qū)I(yè)的造假團(tuán)隊(duì)或者職業(yè)差評(píng)師,這種方式相對(duì)來(lái)說(shuō)成本更高,其手段更加卑劣,造成的負(fù)面影響也更為惡劣。

(三)虛假評(píng)論的危害

對(duì)電商平臺(tái)來(lái)說(shuō),虛假評(píng)論的存在降低了評(píng)論的信息質(zhì)量。消費(fèi)者在瀏覽到虛假評(píng)論后,會(huì)降低對(duì)平臺(tái)和在線評(píng)論系統(tǒng)的信任,進(jìn)而損害了平臺(tái)的聲譽(yù)。而電商平臺(tái)為了降低虛假評(píng)論帶來(lái)的惡劣影響,盡可能維持商家間的公平競(jìng)爭(zhēng)關(guān)系、維護(hù)消費(fèi)者權(quán)益、保護(hù)平臺(tái)聲譽(yù),勢(shì)必要采取各種辦法識(shí)別并過(guò)濾虛假評(píng)論。如亞馬遜和Yelp都已經(jīng)部署了各自的虛假評(píng)論識(shí)別系統(tǒng),京東日前也公開申請(qǐng)了“虛假評(píng)論檢測(cè)方法”專利,從而虛假評(píng)論大大增加了平臺(tái)的運(yùn)營(yíng)成本。

對(duì)商家來(lái)說(shuō),無(wú)論是自行發(fā)布虛假評(píng)論還是雇傭?qū)iT的造假團(tuán)隊(duì),都會(huì)增加自身的銷售成本。同時(shí),發(fā)布虛假評(píng)論的商家還會(huì)面臨被識(shí)破的風(fēng)險(xiǎn),從而損害商譽(yù),甚至面臨平臺(tái)和法律的懲罰。而對(duì)于被詆毀的商家,虛假的低分差評(píng)會(huì)損害產(chǎn)品的平均評(píng)分和排名以及商家的聲譽(yù),最終導(dǎo)致銷量的下降。

對(duì)消費(fèi)者來(lái)說(shuō),虛假評(píng)論的存在降低了評(píng)論有用性。為規(guī)避虛假評(píng)論的誤導(dǎo),消費(fèi)者需要花費(fèi)更多的時(shí)間和精力辨別評(píng)論真實(shí)性。

(四)虛假評(píng)論的特征

盡管虛假評(píng)論具有較高迷惑性,不易被識(shí)別,但其評(píng)論內(nèi)容和發(fā)布者行為的特征仍然會(huì)露出破綻,抓住這些特征對(duì)于辨別虛假評(píng)論至關(guān)重要?,F(xiàn)有研究不斷挖掘有效的識(shí)別特征并將各種特征組合運(yùn)用到模型中,實(shí)現(xiàn)對(duì)虛假評(píng)論的識(shí)別。根據(jù)特征選取角度的不同,主要包括評(píng)論文本特征和評(píng)論者行為特征。具體特征及描述見表2。由此,可將虛假評(píng)論的識(shí)別路徑大致分為三種。第一種主要依據(jù)評(píng)論的文本特征,從內(nèi)容本身出發(fā)識(shí)別虛假評(píng)論。第二種依據(jù)評(píng)論者行為特征,對(duì)虛假評(píng)論人或者群組進(jìn)行識(shí)別。第三種將文本與行為相結(jié)合對(duì)虛假評(píng)論進(jìn)行識(shí)別。

表 2 基于評(píng)論文本和評(píng)論者行為特征識(shí)別體系

1. 評(píng)論文本特征

盡管虛假評(píng)論的發(fā)布者試圖盡可能地模仿真實(shí)的體驗(yàn),但是在一些文字細(xì)節(jié)上仍然會(huì)有一些破綻,如文本相似性和冗余程度高,單一化的寫作風(fēng)格等[40~41]。因此,越來(lái)越多的文獻(xiàn)利用評(píng)論文本特征來(lái)識(shí)別虛假評(píng)論。

早期的研究主要運(yùn)用文本相似性、重復(fù)性等特征識(shí)別虛假評(píng)論[4]。但隨著虛假評(píng)論的隱蔽性越來(lái)越高,學(xué)者們開始尋找更多的文本特征以提高虛假評(píng)論識(shí)別的精度。如在文字層面使用文本長(zhǎng)度、詞匯的復(fù)雜度[42]、不同詞性的數(shù)量[42]、客觀性單詞比例和主觀性單詞比例、感嘆句數(shù)量[43]等特征。Jindal等[4]的虛假評(píng)論識(shí)別模型中,在文本特征方面重點(diǎn)考慮了評(píng)論和產(chǎn)品特征描述的符合程度、評(píng)論中的品牌提及率、評(píng)論文本的主客觀性以及評(píng)論獲得的反饋情況等。Zhao等[42]總結(jié)了虛假評(píng)論的六個(gè)文本特征,包括評(píng)論文本長(zhǎng)度和文本復(fù)雜程度等。

此外,評(píng)論文本的情感是識(shí)別虛假評(píng)論的語(yǔ)義特征中的重要組成部分[44~45]。Deng和Chen[46]認(rèn)為絕對(duì)正面或絕對(duì)負(fù)面的評(píng)論極有可能是虛假評(píng)論。任亞峰等[47]指出,可以利用情感極性和第一人稱代詞詞頻來(lái)區(qū)分虛假評(píng)論和真實(shí)評(píng)論:情感極性越強(qiáng),第一人稱詞頻越少,該評(píng)論為虛假評(píng)論的概率越大。文本中不同詞性數(shù)量一定程度上也可反應(yīng)心理認(rèn)知過(guò)程,從而幫助識(shí)別虛假評(píng)論[5]。Gregorio等[48]構(gòu)建了負(fù)向情感詞庫(kù),以此對(duì)虛假評(píng)論文本進(jìn)行分析,取得了比人工識(shí)別更好的效果。情感詞間的關(guān)系也能夠用于識(shí)別虛假評(píng)論,Evans等[49]對(duì)評(píng)論中情感詞的依存關(guān)系進(jìn)行了研究,運(yùn)用量化情感算法進(jìn)行分析能夠有效地識(shí)別出虛假評(píng)論。因此,引入情感分析在一定程度上能夠提升識(shí)別的準(zhǔn)確率和原有模型的效果[50]。

2. 評(píng)論者行為特征

虛假評(píng)論往往模仿真實(shí)評(píng)論的寫作方式,給依靠文本的虛假評(píng)論識(shí)別算法造成了極大困難。張文等[51]認(rèn)為,評(píng)論文本所能提供的信息是有限的,而虛假評(píng)論者的行為可以提供較多的信息并且檢測(cè)更為容易。因此,越來(lái)越多的研究者通過(guò)分析評(píng)論者的行為特征來(lái)識(shí)別惡意賬戶,以此鎖定虛假評(píng)論。已有研究表明,虛假評(píng)論者的行為不同于真實(shí)用戶的行為。例如,鄧勝利和汪奮奮[52]指出,虛假評(píng)論者會(huì)贊揚(yáng)或貶低某一特定品牌的產(chǎn)品。Mukherjee等[53]發(fā)現(xiàn),虛假賬戶往往會(huì)在短時(shí)間內(nèi)寫出大量的評(píng)論。所以評(píng)論發(fā)布時(shí)間越集中,突發(fā)性評(píng)論占比越大,賬戶為虛假評(píng)論者的可能性越高。此外,虛假評(píng)論者與真實(shí)評(píng)論者比較而言,多給出極端評(píng)價(jià)[54~55],即歷史評(píng)分在極端評(píng)論處的分布較為集中[4],且常常對(duì)特定產(chǎn)品重復(fù)評(píng)分[25],或?qū)Σ煌a(chǎn)品的評(píng)論內(nèi)容重復(fù)[56]。

隨著電子商務(wù)的發(fā)展,虛假評(píng)論發(fā)布者的規(guī)模也在不斷擴(kuò)大,甚至出現(xiàn)多人協(xié)同形式的虛假評(píng)論群組。群組憑借大規(guī)模地發(fā)布虛假評(píng)論,從而引導(dǎo)評(píng)論導(dǎo)向,因此更具破壞性[7]。由此對(duì)于虛假評(píng)論群組識(shí)別的研究應(yīng)運(yùn)而生。對(duì)于虛假評(píng)論群組的識(shí)別同樣可依據(jù)其行為特征。Mukherjee等[7]首次以群組為目標(biāo)進(jìn)行識(shí)別,指出虛假評(píng)論群組通常具有各成員共同評(píng)論同一產(chǎn)品的特征。Xu等[57]選取了八個(gè)群組特征識(shí)別虛假評(píng)論,涉及內(nèi)容相似性與偏差、群組規(guī)模和數(shù)量、時(shí)間上的評(píng)論差異等方面的指標(biāo)。

3. 評(píng)論文本與評(píng)論者行為相結(jié)合

單獨(dú)使用評(píng)論文本特征或評(píng)論者行為特征可能難以應(yīng)對(duì)復(fù)雜的情況,為提高識(shí)別的準(zhǔn)確度,越來(lái)越多的學(xué)者將二者相結(jié)合,建立更為全面的識(shí)別方法。Mukherjee等[53]使用Yelp數(shù)據(jù)集,驗(yàn)證了只選取評(píng)論文本特征情況下與加入行為特征情況下識(shí)別準(zhǔn)確度的差異,結(jié)果顯示,加入評(píng)論者行為特征后準(zhǔn)確率得到顯著提升。Li等[43]對(duì)選取的文本及行為特征采用樸素貝葉斯方法和聯(lián)合訓(xùn)練機(jī)制對(duì)虛假評(píng)論進(jìn)行識(shí)別,使用Epinions網(wǎng)站的評(píng)論數(shù)據(jù)進(jìn)行檢測(cè)得到了61.3%的F1值。楊超等[58]將評(píng)論文本特征與評(píng)論者行為特征融合,采取卷積神經(jīng)網(wǎng)絡(luò)對(duì)所選特征數(shù)據(jù)進(jìn)行處理,通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法的有效性和對(duì)虛假評(píng)論較高的識(shí)別率。

(五)虛假評(píng)論的識(shí)別算法

對(duì)于虛假評(píng)論識(shí)別早期的研究,由于評(píng)論形式較為簡(jiǎn)單,因此研究識(shí)別的對(duì)象主要針對(duì)重復(fù)性評(píng)論和廣告性評(píng)論。而隨著互聯(lián)網(wǎng)的蓬勃發(fā)展和電子商務(wù)的興起,虛假評(píng)論數(shù)量激增,形式也更為多樣,識(shí)別的復(fù)雜性隨之增加。因此,更為高效、智能的機(jī)器學(xué)習(xí)技術(shù)開始廣泛應(yīng)用到虛假評(píng)論的識(shí)別,下面從無(wú)監(jiān)督學(xué)習(xí)、有監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)三方面對(duì)虛假評(píng)論識(shí)別算法進(jìn)行歸類。

1. 無(wú)監(jiān)督學(xué)習(xí)

無(wú)監(jiān)督學(xué)習(xí)只使用未標(biāo)注真假的數(shù)據(jù)樣本進(jìn)行學(xué)習(xí),通過(guò)學(xué)習(xí)評(píng)論數(shù)據(jù)之間的相似性,將數(shù)據(jù)分成兩個(gè)組:虛假評(píng)論和非虛假評(píng)論,然后根據(jù)數(shù)據(jù)間的相似性和差異性對(duì)數(shù)據(jù)的分類進(jìn)行預(yù)測(cè)。基于圖結(jié)構(gòu)的方法是無(wú)監(jiān)督學(xué)習(xí)中的典型方法,Mukherjee等[7]率先使用無(wú)監(jiān)督學(xué)習(xí)算法,采用頻繁項(xiàng)挖掘方法來(lái)篩選可疑的候選組,然后通過(guò)建立模型進(jìn)一步鎖定虛假評(píng)論群組。宋海霞等[59]利用 F 統(tǒng)計(jì)量對(duì) K均值算法進(jìn)行改進(jìn),實(shí)現(xiàn)評(píng)論數(shù)據(jù)的自適應(yīng)聚類這一無(wú)監(jiān)督學(xué)習(xí),然后通過(guò)尋找異常簇的方法來(lái)識(shí)別虛假評(píng)論,并驗(yàn)證了該方法的有效性。

2. 有監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)利用已標(biāo)注真假的評(píng)論數(shù)據(jù)訓(xùn)練分類器,進(jìn)而對(duì)評(píng)論進(jìn)行分類。Ott等[5]通過(guò)在數(shù)據(jù)集上統(tǒng)計(jì)真實(shí)評(píng)論和虛假評(píng)論的慣用詞詞頻情況,構(gòu)建SVM分類器和樸素貝葉斯分類器進(jìn)行識(shí)別。鄧莎莎等[41]在由評(píng)論者分別撰寫的真實(shí)評(píng)論和虛假評(píng)論語(yǔ)料上,建立支持向量機(jī)、樸素貝葉斯、決策樹等有監(jiān)督學(xué)習(xí)算法,檢驗(yàn)詞性特征在虛假評(píng)論識(shí)別中的有效性。陳燕方[60]分別從評(píng)論文本特征、評(píng)論者行為特征、商家特征三個(gè)維度選取了十個(gè)指標(biāo),在此基礎(chǔ)上通過(guò)實(shí)驗(yàn)證明,采用DDAG-SVM多分類支持向量機(jī)能夠較好地兼顧評(píng)論識(shí)別的效率和準(zhǔn)確率。

3. 半監(jiān)督學(xué)習(xí)

由于人類無(wú)法通過(guò)先驗(yàn)知識(shí)有效識(shí)別虛假評(píng)論,手工標(biāo)注的數(shù)據(jù)集必定存在一定數(shù)量的誤例。因此,簡(jiǎn)單使用傳統(tǒng)的有監(jiān)督學(xué)習(xí)算法識(shí)別虛假評(píng)論并不合理,但可以通過(guò)啟發(fā)式的規(guī)則獲取少量真實(shí)評(píng)論和大量的未標(biāo)注評(píng)論?;谡鎸?shí)評(píng)論集和未標(biāo)注評(píng)論集,可建立一個(gè)半監(jiān)督學(xué)習(xí)的分類器用于識(shí)別虛假評(píng)論。半監(jiān)督學(xué)習(xí)是利用大量未標(biāo)注真假的評(píng)論和少量有標(biāo)注真假的評(píng)論訓(xùn)練分類器。協(xié)同訓(xùn)練算法作為一種典型的半監(jiān)督學(xué)習(xí)方式,可以結(jié)合評(píng)論文本特征和評(píng)論者行為特征訓(xùn)練分類器,大大提高了虛假評(píng)論的識(shí)別效率[51,61]。任亞峰等[62]先使用樸素貝葉斯有監(jiān)督學(xué)習(xí)和人工標(biāo)注的標(biāo)簽來(lái)評(píng)價(jià)不同特征建模性能,選出最好的特征組合,然后設(shè)計(jì)Co-training 和 Tri-training兩種半監(jiān)督學(xué)習(xí)算法充分利用大量未標(biāo)注文本,以提高識(shí)別性能。隨后任亞峰等[63]還提出一種創(chuàng)新的PU學(xué)習(xí)框架來(lái)識(shí)別虛假評(píng)論,使用兩種主流多核學(xué)習(xí)算法SILP 和LPSOLVE來(lái)訓(xùn)練分類器,實(shí)驗(yàn)證明所提方法可以有效用于虛假評(píng)論的識(shí)別。

目前虛假評(píng)論的識(shí)別算法以全監(jiān)督框架下的分類方法為主,但全監(jiān)督學(xué)習(xí)需要大量標(biāo)注真假的評(píng)論作為訓(xùn)練集,標(biāo)注數(shù)據(jù)集的缺少及人工標(biāo)注耗時(shí)費(fèi)力等問(wèn)題為全監(jiān)督框架下的算法帶來(lái)極大局限性。一些學(xué)者嘗試使用無(wú)監(jiān)督學(xué)習(xí)方法,該方法解決了標(biāo)注評(píng)論集缺失的問(wèn)題,但卻存在識(shí)別精度普遍偏低的情況。而半監(jiān)督學(xué)習(xí)很好地克服了全監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)的缺點(diǎn)。

三、現(xiàn)有研究局限

(一)以往文獻(xiàn)“重治輕防”

以往文獻(xiàn)主要關(guān)注虛假評(píng)論的“事后”識(shí)別和過(guò)濾,未能從根本上抑制虛假評(píng)論產(chǎn)生的內(nèi)在動(dòng)機(jī)。本文系統(tǒng)性梳理了虛假評(píng)論的相關(guān)研究發(fā)現(xiàn):93%的中文論文和89%的英文論文主要關(guān)注虛假評(píng)論的特征、分類和識(shí)別(圖3)。少量研究從法律法規(guī)和平臺(tái)制度的角度研究了虛假評(píng)論的治理(中文2篇、英文4篇),但僅限于定性理論分析。然而僅靠法律約束和平臺(tái)監(jiān)管并不能從根本上有效抑制虛假評(píng)論的產(chǎn)生。朱星圳等[64]研究發(fā)現(xiàn),加大平臺(tái)管控力度短期內(nèi)能夠約束商家行為,但長(zhǎng)期來(lái)看,該約束效果不明顯。因此,深入研究虛假評(píng)論產(chǎn)生的內(nèi)在動(dòng)機(jī),減少虛假評(píng)論的產(chǎn)生是未來(lái)研究的重點(diǎn)。

圖 3 虛假評(píng)論相關(guān)研究數(shù)量

(二)虛假評(píng)論識(shí)別算法訓(xùn)練集不充分不平衡,致使算法精度不高

采用監(jiān)督學(xué)習(xí)訓(xùn)練分類器的基礎(chǔ)是具備已標(biāo)注真假的數(shù)據(jù)集,而虛假評(píng)論識(shí)別的研究中所使用的數(shù)據(jù)集主要分為兩種:一種是真實(shí)數(shù)據(jù)集,另一種是人工構(gòu)造的數(shù)據(jù)集。真實(shí)數(shù)據(jù)集的獲取方式有如下兩種:一是直接使用亞馬遜、Yelp等平臺(tái)的公開數(shù)據(jù)集,二是研究人員通過(guò)網(wǎng)絡(luò)爬蟲技術(shù)搜集的數(shù)據(jù)。兩種方式收集到的數(shù)據(jù)集都需要對(duì)數(shù)據(jù)進(jìn)行人工標(biāo)注,而人工標(biāo)注工作量巨大,且標(biāo)注真假與真實(shí)情況相比存在一定的誤差,由此影響識(shí)別的精度。也有一部分研究采用人工數(shù)據(jù)集[5],即人工制造真實(shí)評(píng)論和虛假評(píng)論以此訓(xùn)練分類器。人工構(gòu)造的數(shù)據(jù)集雖然避免了標(biāo)注數(shù)據(jù)導(dǎo)致的偏差,但由于人工模擬的評(píng)論與現(xiàn)實(shí)中的虛假評(píng)論情況仍有差異,由此訓(xùn)練出來(lái)的分類器實(shí)踐效果不甚理想[53]。另外,虛假評(píng)論的相關(guān)算法面臨好評(píng)和差評(píng)數(shù)量不平衡問(wèn)題。通常情況下,產(chǎn)品的好評(píng)數(shù)量遠(yuǎn)大于差評(píng),造成了算法訓(xùn)練樣本的嚴(yán)重不平衡。從而訓(xùn)練所得的分類器往往更擅長(zhǎng)識(shí)別好評(píng)的真假,而對(duì)差評(píng)是真是假的診斷力不強(qiáng),大大削弱了虛假評(píng)論識(shí)別的精度。

(三)以往虛假評(píng)論的識(shí)別算法忽略了評(píng)論與環(huán)境的匹配性

以往虛假評(píng)論識(shí)別算法重點(diǎn)關(guān)注評(píng)論文本特征、評(píng)論者行為特征或二者的交互對(duì)虛假評(píng)論識(shí)別的影響。這些研究忽略了評(píng)論和評(píng)論環(huán)境的匹配性對(duì)虛假評(píng)論識(shí)別的影響。評(píng)論和評(píng)論環(huán)境的匹配性有三個(gè)方面:一是評(píng)論評(píng)分與產(chǎn)品平均評(píng)分的匹配性;二是評(píng)論情感與其他評(píng)論情感的匹配性;三是評(píng)論評(píng)分與產(chǎn)品生命周期的匹配性。Ansari等[65]指出,虛假評(píng)論往往與產(chǎn)品的平均評(píng)分差異較大,因此可以采用評(píng)論評(píng)分和產(chǎn)品平均評(píng)分的差異來(lái)識(shí)別虛假評(píng)論。Zhao等[42]指出,虛假評(píng)論的情感往往較為極端并且與真實(shí)評(píng)論差異較大。因此,可以采用評(píng)論情感和其他評(píng)論情感的差異來(lái)檢測(cè)虛假評(píng)論。此外,研究表明產(chǎn)品推出的早期發(fā)布虛假評(píng)論對(duì)產(chǎn)品銷量的影響更大,商家常常選擇在產(chǎn)品推出初期發(fā)布虛假評(píng)論[33]。產(chǎn)品推出初期的好評(píng)更有可能是商家自身產(chǎn)生的虛假好評(píng),而差評(píng)更有可能是競(jìng)爭(zhēng)對(duì)手產(chǎn)生的惡意差評(píng)。因此,評(píng)論和產(chǎn)品生命周期的匹配性也是虛假評(píng)論鑒別的重要變量之一。

(四)新用戶缺失歷史數(shù)據(jù),傳統(tǒng)的行為特征難以有效識(shí)別

已有研究表明,評(píng)論者的行為特征是識(shí)別虛假評(píng)論者的重要依據(jù),加入評(píng)論者行為特征能夠有效提升虛假評(píng)論識(shí)別的準(zhǔn)確率[6]。即使惡意評(píng)價(jià)者的行為特征對(duì)虛假評(píng)論的識(shí)別具有良好效果,但觀察惡意評(píng)價(jià)者的行為特征需要一段時(shí)間的積累。如評(píng)論頻繁度、突發(fā)性評(píng)論比例、歷史評(píng)分差異等等,都需要根據(jù)評(píng)論者行為的歷史數(shù)據(jù)獲得。然而,虛假評(píng)論發(fā)布者為了降低被識(shí)破的風(fēng)險(xiǎn),會(huì)定期更換新賬號(hào)偽裝成真實(shí)用戶發(fā)布虛假評(píng)論。這些新用戶無(wú)歷史數(shù)據(jù)可觀測(cè),導(dǎo)致現(xiàn)有研究所選取的行為特征不適用于檢測(cè)新注冊(cè)的用戶。

四、未來(lái)研究展望

(一)虛假評(píng)論的治理需要以“防”為主,以“治”為輔

以往文獻(xiàn)主要聚焦于虛假評(píng)論識(shí)別算法的精度和速度。雖然虛假評(píng)價(jià)識(shí)別系統(tǒng)可以幫助電商平臺(tái)快速識(shí)別過(guò)濾虛假評(píng)論,但卻無(wú)法抑制虛假評(píng)論產(chǎn)生的內(nèi)在動(dòng)機(jī)。每天仍有大量的虛假評(píng)論產(chǎn)生。此外,虛假評(píng)論的發(fā)布者也會(huì)根據(jù)虛假評(píng)論識(shí)別算法發(fā)布更為隱蔽的虛假評(píng)論,從而形成惡性循環(huán)。因此,虛假評(píng)論的治理需要以“防”為主,以“治”為輔。深入了解虛假評(píng)論產(chǎn)生的內(nèi)在動(dòng)機(jī),降低虛假評(píng)論發(fā)布者的意愿是未來(lái)研究的重要方向。另外,虛假評(píng)論發(fā)布者通過(guò)大量的虛假評(píng)論來(lái)提高產(chǎn)品的排名,帶來(lái)更多的網(wǎng)絡(luò)流量。因此,電商平臺(tái)可以升級(jí)現(xiàn)有的產(chǎn)品排名算法,以提升產(chǎn)品排名系統(tǒng)對(duì)虛假評(píng)論攻擊的穩(wěn)健性。最后,預(yù)防虛假評(píng)論的產(chǎn)生,還需要法律法規(guī)、平臺(tái)政策、商家自律的共同努力。對(duì)虛假評(píng)論的治理需懲前毖后并重,威懾理論認(rèn)為,懲罰的威懾力取決于感知懲罰確定性和感知懲罰嚴(yán)重性[66],所以防治虛假評(píng)論還需不斷完善相關(guān)法律、加大懲罰力度。平臺(tái)除制定相關(guān)制度外,還可以開發(fā)有效的反虛假評(píng)論機(jī)制,提高虛假評(píng)論制造的難度和成本。

(二)采用半監(jiān)督學(xué)習(xí)解決訓(xùn)練標(biāo)注樣本不足的問(wèn)題

訓(xùn)練集樣本標(biāo)注不足問(wèn)題是阻礙虛假評(píng)論識(shí)別領(lǐng)域快速發(fā)展的重要原因之一?,F(xiàn)有研究大多使用全監(jiān)督學(xué)習(xí)[5,41,60],不僅需要大規(guī)模已標(biāo)注的數(shù)據(jù)集,而且通常存在標(biāo)記誤差問(wèn)題。為徹底避開樣本標(biāo)注問(wèn)題,還有研究采用無(wú)監(jiān)督學(xué)習(xí)[7,60],自動(dòng)處理樣本尋找隱含的規(guī)律,從而實(shí)現(xiàn)樣本的分類,但卻難以取得較好的識(shí)別精度。而半監(jiān)督學(xué)習(xí)介于二者之間,可以在少量標(biāo)注真假的樣本基礎(chǔ)上,充分利用大量未標(biāo)注樣本提高識(shí)別性能,很好地兼顧了標(biāo)注樣本不足和提高識(shí)別精度的問(wèn)題。根據(jù)不同的情況和數(shù)據(jù)特征,還可以選擇最合適的半監(jiān)督學(xué)習(xí)方法。自訓(xùn)練(Self-training)可視為標(biāo)準(zhǔn)的半監(jiān)督學(xué)習(xí)模型,它可以從未標(biāo)記的數(shù)據(jù)中根據(jù)一定的置信水平標(biāo)注數(shù)據(jù),從而自動(dòng)擴(kuò)大標(biāo)記集,且具有易于和其他分類算法相結(jié)合的優(yōu)點(diǎn)[67]。協(xié)同訓(xùn)練(Co-training)是自訓(xùn)練的延伸,它具有兩視圖識(shí)別的優(yōu)勢(shì),研究證明某些情況下,這種兩視圖的方式有助于提升分類器的性能[43]。有學(xué)者進(jìn)一步提出多視圖的方法(Multi-view Learning),可用于多種資源、線索的結(jié)合。生成式方法(Generative Methods)通過(guò)統(tǒng)計(jì)學(xué)方法(最大似然估計(jì))處理缺失信息,該方法在標(biāo)注數(shù)據(jù)極少的情況下,具有相對(duì)較好的識(shí)別性能。此外,半監(jiān)督學(xué)習(xí)還可以與全監(jiān)督學(xué)習(xí)結(jié)合使用。任亞峰[62]的識(shí)別算法首先采用全監(jiān)督學(xué)習(xí)篩選最合適的特征組合,然后配合半監(jiān)督學(xué)習(xí)擴(kuò)充標(biāo)注樣本,從而二者優(yōu)勢(shì)互補(bǔ),以提高算法的有效性。因此,采用半監(jiān)督學(xué)習(xí)是解決訓(xùn)練樣本標(biāo)注不足問(wèn)題的重要途徑,值得未來(lái)研究深入探索。

(三)虛假評(píng)論識(shí)別的多領(lǐng)域結(jié)合

即使現(xiàn)有算法已經(jīng)能夠在一定程度上實(shí)現(xiàn)對(duì)虛假評(píng)論的有效識(shí)別,但與此同時(shí)商家也在根據(jù)算法做出相應(yīng)的策略改變來(lái)試圖躲避識(shí)別,并不斷尋找更隱蔽的方式。因此,對(duì)于虛假評(píng)論識(shí)別的方法不應(yīng)局限于計(jì)算機(jī)領(lǐng)域。一方面虛假評(píng)論的識(shí)別需要不斷了解虛假評(píng)論的新特征,提高算法精度,升級(jí)現(xiàn)有識(shí)別技術(shù),以應(yīng)對(duì)虛假評(píng)論形式和策略的變化。另一方面,虛假評(píng)論的識(shí)別需要多領(lǐng)域的交叉融合。

首先,考慮與心理學(xué)相融合。一般來(lái)說(shuō),虛假評(píng)論者和正常評(píng)論者相比,評(píng)論的心理過(guò)程和外在表現(xiàn)勢(shì)必存在差異。有學(xué)者從心理學(xué)角度出發(fā),發(fā)現(xiàn)虛假評(píng)論的情感傾向更加極端[46]。此外,不同的用詞、表情符號(hào)的使用、評(píng)論的自信度等特征都能反應(yīng)評(píng)論者的心理、情感和動(dòng)機(jī)[5,47,68]。還有研究應(yīng)用LIWC文本分析工具[62]和IBM Watson語(yǔ)氣分析工具[68],利用心理語(yǔ)言學(xué)對(duì)評(píng)論文本深入挖掘,從而探索評(píng)論中隱含的評(píng)論者的情感過(guò)程、認(rèn)知過(guò)程、社會(huì)過(guò)程等。因此,虛假評(píng)論的識(shí)別與心理學(xué)的結(jié)合有助于升級(jí)識(shí)別算法,提升識(shí)別的準(zhǔn)確率。

其次,與行為學(xué)的融合同樣重要。研究發(fā)現(xiàn),正常評(píng)論者發(fā)表評(píng)論的時(shí)間、對(duì)象一般是隨機(jī)的,而虛假評(píng)論者為達(dá)到特定目的,往往發(fā)布評(píng)論的時(shí)間、數(shù)量、評(píng)價(jià)對(duì)象存在一定規(guī)律[69]。如虛假評(píng)論者通常會(huì)在特定時(shí)間段內(nèi)高頻率地發(fā)布虛假評(píng)論,且大多聚集于某個(gè)品牌或某類產(chǎn)品[70],從而快速對(duì)產(chǎn)品評(píng)分或網(wǎng)絡(luò)口碑產(chǎn)生影響。另外,虛假評(píng)論者常在產(chǎn)品發(fā)布早期較為活躍,由于早期的評(píng)論信息影響范圍更大、影響持續(xù)時(shí)間更長(zhǎng),所以成為虛假評(píng)論的高發(fā)期。因此,將虛假評(píng)論識(shí)別與行為學(xué)相融合,有助于初步縮小識(shí)別與過(guò)濾范圍,提高識(shí)別效率,還能夠通過(guò)尋找有標(biāo)識(shí)的行為特征,幫助提高識(shí)別的準(zhǔn)確率。

(四)探索有效特征解決新用戶歷史數(shù)據(jù)缺失問(wèn)題

現(xiàn)有研究所選取的行為特征需要根據(jù)歷史行為觀察、計(jì)算得到可用指標(biāo),但是對(duì)于新注冊(cè)賬號(hào)的虛假評(píng)論者的有效識(shí)別是現(xiàn)有研究的缺失。未來(lái)研究需充分考慮新用戶的識(shí)別問(wèn)題,尋找適用于新用戶的行為特征彌補(bǔ)上述空白。如賬號(hào)注冊(cè)至首次評(píng)論的時(shí)間間隔、注冊(cè)后短期內(nèi)的評(píng)論次數(shù)等。一般來(lái)說(shuō),新用戶由于操作不熟悉或尚未建立平臺(tái)信任感等,短時(shí)間內(nèi)處于觀望狀態(tài),且消費(fèi)者通常從產(chǎn)品下單購(gòu)買到對(duì)產(chǎn)品產(chǎn)生使用感受具有一定的時(shí)間間隔。因此,新注冊(cè)的用戶較少會(huì)立即且頻繁地發(fā)表評(píng)論。而虛假評(píng)論者注冊(cè)新用戶,為達(dá)到使用效用最大化,會(huì)頻繁使用此賬戶發(fā)布虛假評(píng)論。因此,首先可以參考新用戶從注冊(cè)至首次評(píng)論發(fā)布的時(shí)間間隔,若此間隔時(shí)間很短,則是虛假評(píng)論者的可能性較大。其次,還可以考慮新賬戶短時(shí)間內(nèi)發(fā)布的評(píng)論數(shù),若新注冊(cè)賬號(hào)短時(shí)間內(nèi)頻繁操作則更有虛假評(píng)論者的嫌疑。最后,還可以著重關(guān)注新用戶評(píng)論的極端程度及其與大眾觀點(diǎn)的偏差,尋找可疑用戶并根據(jù)后續(xù)行為排查,盡可能降低新用戶識(shí)別不足帶來(lái)的負(fù)面影響。

五、總結(jié)

虛假評(píng)論是電商平臺(tái)聲譽(yù)機(jī)制的必然產(chǎn)物,也是電子商務(wù)健康發(fā)展的頑疾。隨著虛假評(píng)論數(shù)量的快速增長(zhǎng),虛假評(píng)論的識(shí)別和過(guò)濾成了學(xué)術(shù)界和業(yè)界關(guān)注的熱點(diǎn)。虛假評(píng)論的識(shí)別算法廣泛應(yīng)用到各大電商平臺(tái),電商平臺(tái)的制度和相關(guān)法律法規(guī)也在不斷完善。然而,評(píng)論操控不降反升,成為商家惡性競(jìng)爭(zhēng)的慣用手段。本文首先對(duì)虛假評(píng)論的相關(guān)概念進(jìn)行界定,然后對(duì)虛假評(píng)論的研究現(xiàn)狀進(jìn)行歸納分析,總結(jié)了現(xiàn)有研究的進(jìn)展和爭(zhēng)議,指出了未來(lái)研究方向,并對(duì)現(xiàn)有研究的爭(zhēng)議提出了具體解決方案。本文的研究結(jié)論對(duì)推動(dòng)虛假評(píng)論識(shí)別的相關(guān)研究有重要理論意義,對(duì)電商平臺(tái)的健康發(fā)展有一定實(shí)踐啟示。

注釋

① https://data.stats.gov.cn/easyquery.htm?cn=A01

猜你喜歡
評(píng)論者商家特征
中國(guó)人不騙中國(guó)人
離散型隨機(jī)變量的分布列與數(shù)字特征
網(wǎng)絡(luò)新聞評(píng)論者的倫理責(zé)任問(wèn)題及應(yīng)對(duì)路徑探析
抓特征解方程組
不忠誠(chéng)的四個(gè)特征
新聞評(píng)論的寫作方法討論和研究
商家告示不能打人臉
仲夏夜·輕時(shí)光生如夏花
新聞評(píng)論少不了科學(xué)精神
抓特征 猜成語(yǔ)
紫金县| 老河口市| 仁怀市| 凤山市| 富顺县| 崇礼县| 汝南县| 双辽市| 修水县| 南充市| 黄山市| 高唐县| 沿河| 乌鲁木齐市| 蚌埠市| 遂川县| 土默特左旗| 当涂县| 右玉县| 托克逊县| 肃北| 堆龙德庆县| 印江| 连平县| 双城市| 咸阳市| 建宁县| 靖远县| 封开县| 大港区| 龙川县| 德钦县| 兴和县| 青州市| 蒙山县| 霍州市| 西华县| 蒲城县| 梨树县| 沁水县| 遵化市|