劉高軍,印佳明
(北方工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,北京 100144)
豆瓣是一個(gè)中國社區(qū)網(wǎng)站,提供圖書、電影、音樂唱片的推薦、評(píng)論和價(jià)格比較,以及城市獨(dú)特的文化生活,在這里用戶談?wù)撍麄兿矚g的任何東西。如今它已經(jīng)擁有超過1.6億的注冊(cè)用戶,月平均活躍用戶3億,是目前最大的用戶分享的社區(qū)網(wǎng)站之一。在豆瓣上收錄的一些圖書吸引很多網(wǎng)友去發(fā)表評(píng)論,對(duì)某些圖書感興趣的人在決定是否要看這本書的時(shí)候,也往往會(huì)先去豆瓣上查看該圖書的評(píng)分和評(píng)價(jià)。然而由于豆瓣評(píng)論的機(jī)制,現(xiàn)在越來越多的水軍或者惡意詆毀的網(wǎng)友會(huì)在豆瓣上發(fā)表垃圾評(píng)論,這些評(píng)論會(huì)影響用戶正確地判斷這本書的價(jià)值,會(huì)對(duì)這本書和這些需要這些評(píng)論作為參考的網(wǎng)友產(chǎn)生不好的影響。
以前傳統(tǒng)的垃圾評(píng)論識(shí)別方法大多數(shù)都不完善[1],如樸素貝葉斯和支持向量機(jī)沒有考慮到垃圾評(píng)論中垃圾詞或短語的語義信息。文中將會(huì)充分考慮圖書評(píng)論中的單詞以及單詞組成的短語的語義信息,包括這些評(píng)論單詞的詞向量的表示和這些詞語之間的向量距離去表示這兩個(gè)詞之間的關(guān)系。根據(jù)文獻(xiàn)[2-4],從文本中的詞匯中挖掘額外語義特征已廣泛應(yīng)用于情感和文本分類,并取得了很好的效果。文中通過使用基于深度學(xué)習(xí)模型和統(tǒng)計(jì)分析結(jié)合的方法,檢測(cè)識(shí)別豆瓣圖書評(píng)論中的垃圾評(píng)論。提出一種垃圾評(píng)論詞典和圖書特征相結(jié)合的方法,其中詞典構(gòu)建過程分為三個(gè)階段:第一,主觀性判斷。找出單詞的語義區(qū)別,將每個(gè)詞匯劃分為正?;蚶u(píng)論詞匯;第二,詞匯類別判斷。將評(píng)論中的垃圾評(píng)論詞匯劃分為廣告詞匯類別和粗俗詞匯類別;第三,詞匯權(quán)重判斷。衡量圖書評(píng)論中評(píng)論詞匯的主觀性和類別的范圍。
權(quán)重比例過濾器模型將使用統(tǒng)計(jì)分析方法得到圖書評(píng)論中包含垃圾評(píng)論詞的權(quán)重和比例,權(quán)重和比例作為決定這個(gè)評(píng)論是否是垃圾評(píng)論的關(guān)鍵因素。這個(gè)模型解決了短文本評(píng)論和長文本評(píng)論中垃圾評(píng)論詞分布不同的問題。如果只是通過垃圾評(píng)論權(quán)重因子去檢測(cè)垃圾評(píng)論,則正常評(píng)論的文本越長,它在垃圾評(píng)論詞典中匹配更低權(quán)重單詞的可能性就會(huì)越大,這會(huì)導(dǎo)致正常評(píng)論的垃圾評(píng)論權(quán)重變高,從而降低垃圾評(píng)論的精確率。此外,如果評(píng)論只有一個(gè)或兩個(gè)中等加權(quán)垃圾詞匯的垃圾評(píng)論文本較短,將會(huì)導(dǎo)致總權(quán)重低于標(biāo)準(zhǔn)線,誤判這個(gè)評(píng)論是正常評(píng)論,從而降低召回率。可以通過這兩個(gè)關(guān)鍵因素的組合更精確地檢測(cè)垃圾評(píng)論。
文中的研究屬于社交網(wǎng)絡(luò)中的垃圾評(píng)論和垃圾評(píng)論者識(shí)別檢測(cè)領(lǐng)域。在過去的十幾年里,垃圾評(píng)論已成為互聯(lián)網(wǎng)的一個(gè)嚴(yán)重問題。這是因?yàn)樵絹碓蕉嗟木W(wǎng)絡(luò)用戶通過發(fā)布評(píng)論、評(píng)估產(chǎn)品質(zhì)量來分享他們的消費(fèi)體驗(yàn),同時(shí)很多網(wǎng)絡(luò)用戶會(huì)在做出消費(fèi)決策時(shí)參考其他用戶的評(píng)論,評(píng)論信息對(duì)用戶的觀點(diǎn)或消費(fèi)行為具有導(dǎo)向作用。
相關(guān)統(tǒng)計(jì)數(shù)據(jù)表明,約81%的美國互聯(lián)網(wǎng)用戶在購買產(chǎn)品前會(huì)參考產(chǎn)品評(píng)論,其中超過80%的用戶認(rèn)為評(píng)論對(duì)他們的購買行為產(chǎn)生了影響。這其中存在巨大的商業(yè)利益,人們對(duì)評(píng)論信息的依賴催生了垃圾評(píng)論的出現(xiàn)。垃圾評(píng)論,是指一些用戶出于商業(yè)或其他不良動(dòng)機(jī),在評(píng)論中捏造虛假的消費(fèi)體驗(yàn),對(duì)質(zhì)量的評(píng)價(jià)對(duì)象進(jìn)行宣傳或誹謗。有些用戶出于某些利益會(huì)對(duì)產(chǎn)品發(fā)表一些不實(shí)評(píng)論,刻意地吹捧或者詆毀某些產(chǎn)品,這些垃圾評(píng)論在一定程度上影響了評(píng)論信息的參考價(jià)值,混淆視聽,從而會(huì)誤導(dǎo)潛在消費(fèi)者。同時(shí)有些用戶會(huì)發(fā)布廣告、鏈接等與商品略微相關(guān)或者毫不相關(guān)的信息,來干擾用戶或者借助熱門商品營銷自己的商品,實(shí)現(xiàn)利益最大化。同時(shí)有些商家會(huì)雇傭網(wǎng)絡(luò)水軍為自家產(chǎn)品刷好評(píng)或者惡意給競(jìng)爭(zhēng)商家的產(chǎn)品差評(píng),這些評(píng)論會(huì)影響消費(fèi)者和商家自身對(duì)產(chǎn)品的判斷。垃圾評(píng)論會(huì)誤導(dǎo)用戶的觀點(diǎn)或決定,并影響人們的日常生活[5]。
其他垃圾評(píng)論研究工作者使用機(jī)器學(xué)習(xí)方法去識(shí)別檢測(cè)垃圾評(píng)論和垃圾評(píng)論者。文獻(xiàn)[6]提出了一種主題檢測(cè)方法,其中包含主題相似性度量,通過強(qiáng)制執(zhí)行自然語言處理技術(shù)和機(jī)器學(xué)習(xí)算法(如SVM、決策樹和樸素貝葉斯)來檢測(cè)垃圾評(píng)論。Mukherjee等在Yelp數(shù)據(jù)集上采用支持向量機(jī)分類器,運(yùn)用評(píng)論文本特征獲得65.6%~67.8%的準(zhǔn)確度。在加入評(píng)論者的特征之后,檢測(cè)準(zhǔn)確度提升至84.8%~86.1%。該研究說明評(píng)論者特征有助于提升對(duì)虛假評(píng)論文本的檢測(cè)能力。文獻(xiàn)[7]運(yùn)用樸素貝葉斯方法和聯(lián)合訓(xùn)練機(jī)制,采用文本及評(píng)論者特征對(duì)來自點(diǎn)評(píng)網(wǎng)站Epinions的虛假評(píng)論進(jìn)行檢測(cè),獲得61.3%的F1值。Hammad等在阿拉伯語上運(yùn)用樸素貝葉斯方法及文本、用戶行為特征對(duì)tripadvisor.com、booking.com和agoda.ae等網(wǎng)站的評(píng)論數(shù)據(jù)進(jìn)行虛假評(píng)論檢測(cè),獲得99.59%的F1值。但這些研究都沒有對(duì)評(píng)論文本進(jìn)行情感分析[8]。
目前主要是集中在分析和檢測(cè)國外英文垃圾評(píng)論或識(shí)別垃圾評(píng)論發(fā)送者的行為特征。與上述研究不同,文中的主要目的是借助識(shí)別豆瓣圖書評(píng)論的語義特征和相關(guān)統(tǒng)計(jì)分析技巧去識(shí)別檢測(cè)垃圾評(píng)論。
文中使用的數(shù)據(jù)集是通過分布式爬蟲爬取的豆瓣網(wǎng)上的圖書相關(guān)信息、圖書的真實(shí)評(píng)論以及相關(guān)用戶對(duì)書籍的偏好數(shù)據(jù),豆瓣中的偏好數(shù)據(jù)是對(duì)這些書籍進(jìn)行打分。這些數(shù)據(jù)中評(píng)論超過1 000條的圖書有1 283本,超過10 000條評(píng)論的圖書有80本,足夠?qū)嶒?yàn)使用。
通過分布式爬蟲爬取了豆瓣圖書700多萬條評(píng)論中的一部分,文中對(duì)這些評(píng)論文本使用“結(jié)巴”中文分詞工具分成單獨(dú)的中文單詞。對(duì)這些單獨(dú)的中文單詞,使用Word2Vec模型計(jì)算需要的80%評(píng)論單詞的向量表示。然后使用所得的矢量單詞文件建立候選的垃圾詞匯詞典。通過計(jì)算單詞之間的向量距離獲得了它們之間的語義相似度,然后用它來決定候選垃圾詞匯詞典中每個(gè)單詞的垃圾詞匯權(quán)重。然后通過自擴(kuò)展遞歸算法,從候選垃圾評(píng)論詞匯詞典中選出符合自擴(kuò)展垃圾評(píng)論詞匯詞典要求的垃圾評(píng)論詞匯。最后,使用剩下的20%手機(jī)的評(píng)論來驗(yàn)證權(quán)重-比例過濾器模型的準(zhǔn)確率和效率。圖1為在豆瓣圖書評(píng)論中檢測(cè)垃圾評(píng)論的流程。
垃圾評(píng)論詞匯是對(duì)讀者產(chǎn)生負(fù)面影響并在評(píng)論中存在時(shí)會(huì)影響用戶體驗(yàn)的詞??梢允莿?dòng)詞、名詞、形容詞、副詞甚至是成語,如“尼瑪”、“屌絲”、“逗比”、“碧池”和“傻帽”等等。因而,垃圾評(píng)論詞是檢測(cè)垃圾評(píng)論的根底。垃圾評(píng)論詞匯詞典是垃圾評(píng)論詞的集合,它被分為常見的廣告詞和具有粗鄙內(nèi)涵的詞,并添加了各自的垃圾評(píng)論權(quán)重值。
垃圾評(píng)論詞典中所選垃圾詞匯主要來自三個(gè)相關(guān)的基本詞典:基本俗詞詞典、基本廣告詞典和豆瓣垃圾評(píng)論詞典。這三個(gè)基礎(chǔ)詞典是由粗鄙字詞和廣告字詞種子組合而成。
垃圾評(píng)論詞匯(spam word,SW)定義為發(fā)布的評(píng)論中單詞的廣告單詞或粗俗特征。它有兩個(gè)屬性:詞匯類別(C)和權(quán)重(W)。詞匯類別包括“廣告”(A)或“粗俗”(V)兩個(gè)垃圾評(píng)論文本類別。權(quán)重表示在評(píng)論中發(fā)布單詞時(shí)給讀者帶來的不良影響的程度。垃圾評(píng)論詞匯類別和權(quán)重如下所示:
SW(span word)={C:W},C∈{A,V},W∈{0.1…0.5}
(1)
在該模型中,權(quán)重W在0.1~0.5之間的區(qū)間內(nèi)變化,值越高表示給讀者帶來的不良影響越大。當(dāng)詞匯的W處于較低值(小于0.1)時(shí),表示該詞匯可被視為正常單詞,這樣處理可以提高垃圾評(píng)論檢測(cè)的準(zhǔn)確率。因?yàn)榭紤]到圖書評(píng)論數(shù)量很大,如果將最高閾值定義成大于0.5,則很難確定迭代過程中的最低準(zhǔn)確度閾值(這是用于收集垃圾評(píng)論詞匯并計(jì)算相應(yīng)垃圾評(píng)論的過程)。通過自擴(kuò)展遞歸算法的多次迭代之后,發(fā)現(xiàn)W的值小于0.1的單詞與正常單詞高度相似,因此將0.1定義為最低閾值。通過這種方式,可以更加準(zhǔn)確地識(shí)別圖書垃圾評(píng)論。
在構(gòu)建垃圾評(píng)論詞典的過程中,基于現(xiàn)有的神經(jīng)網(wǎng)絡(luò)語言模型文獻(xiàn),主要利用Mikolov等[9-12]提出的Skip-Gram模型。在給定訓(xùn)練語料庫的前提下,Skip-Gram模型可以通過將評(píng)論單詞進(jìn)行向量表示,然后預(yù)測(cè)自擴(kuò)展詞匯與輸入單詞之間的相似度。
(2)
其中,w1…wa表示訓(xùn)練語料庫中的單詞;s表示訓(xùn)練窗口(span)的大小。在訓(xùn)練窗口中從-s到s求和來計(jì)算正確預(yù)測(cè)單詞wa+i的對(duì)數(shù)概率,給出中間的單詞wa。概率p(wa+i|wa是式3中目標(biāo)的核心部分,由歸一化指數(shù)函數(shù)定義:
(3)
其中,uw和uw'分別是單詞的上下文和目標(biāo)向量表示;W是詞匯表的大小。通過文獻(xiàn)[13-15]可知,由于歸一化等式的時(shí)間復(fù)雜度限制,式3需要O(|W|)時(shí)間復(fù)雜度。
“基本垃圾詞匯詞典”中列出的詞語被認(rèn)為是對(duì)用戶閱讀評(píng)論造成負(fù)面影響的詞匯,因?yàn)樗鼈兛赡軙?huì)讓讀者對(duì)這本圖書產(chǎn)生負(fù)面情緒。一般來說,讀者的情緒更可能受到詞典中包含的粗俗詞語的負(fù)面影響。詳細(xì)構(gòu)建過程如下:
(1)收集垃圾評(píng)論詞種子:收集了來自中國語料庫和新華詞典的5人提交的約200個(gè)粗俗詞。實(shí)際上,這些單詞不一定真正符合絕大多數(shù)人所持有的標(biāo)準(zhǔn)。通過這個(gè)過程,可以確定所選單詞的詞匯類別。在粗俗的詞匯收集之后,最后的粗俗詞語種子列表包含大約100個(gè)單詞。
(2)匹配垃圾評(píng)論:根據(jù)上面提到的粗俗詞種子列表,從豆瓣圖書所有評(píng)論中選擇了5萬條垃圾評(píng)論,發(fā)現(xiàn)其中包含3個(gè)或更多粗俗詞,同時(shí),這些圖書評(píng)論的長度至少包含12個(gè)單詞。
(3)補(bǔ)充詞典:使用“結(jié)巴”中文分詞工具將選定的圖書垃圾評(píng)論分解為單獨(dú)的單詞。接著通過Word2Vec中的Skip-Gram模型擴(kuò)充詞典,最后存放在一個(gè)文件中。
(4)設(shè)置權(quán)重:手動(dòng)分析文件中的每個(gè)單詞,最后在基本垃圾詞匯詞典中添加了另外380個(gè)粗俗單詞。因此,收集了總共480個(gè)粗俗詞,然后為每個(gè)詞附加了最高權(quán)重0.5,因?yàn)槿绻欢卧u(píng)論文本中出現(xiàn)這些詞,那么這條評(píng)論有很大的可能性是垃圾評(píng)論。
基本廣告詞典中的大部分單詞都出現(xiàn)于用戶評(píng)論發(fā)布廣告、鏈接等與圖書略微相關(guān)或者毫不相關(guān)的信息,來干擾用戶或者借助熱門圖書營銷自己的商品,實(shí)現(xiàn)利益最大化。然而對(duì)于讀者來說可能無法區(qū)分真假,因此,所有含有廣告詞的評(píng)論都可被視為讀者的潛在垃圾評(píng)論。文中使用構(gòu)造基本垃圾評(píng)論詞典的相同方法構(gòu)造了廣告基本詞典。最后廣告基本詞典包含380個(gè)廣告垃圾詞。將廣告基本詞典中單詞的權(quán)重設(shè)置為0.4,因?yàn)閺V告垃圾詞類似于普通單詞,并且對(duì)讀者的傷害小于粗俗單詞。
由于文中研究的是豆瓣圖書垃圾評(píng)論,所以肯定不能拋開圖書本身的屬性,每本書其實(shí)都有它自己的屬性特征。比如一本科幻類、描述人工智能的書籍,如果一條評(píng)論整篇全在說這本書如何烹飪,那這條評(píng)論肯定是垃圾評(píng)論。所以需要對(duì)每本書進(jìn)行特征提取,通過書籍的書名和簡(jiǎn)介提取關(guān)鍵字,將這些關(guān)鍵字與對(duì)應(yīng)的圖書唯一標(biāo)識(shí)組成一個(gè)數(shù)據(jù)行存儲(chǔ)到豆瓣圖書相關(guān)詞典,同時(shí)將這些關(guān)鍵字的權(quán)重設(shè)置為-0.5。因?yàn)槿绻u(píng)論包含這些關(guān)鍵字,則這條評(píng)論是普通評(píng)論的可能性很大。
驗(yàn)證垃圾評(píng)論,除了需要引入的語義相似度,主要是通過計(jì)算微博詞與構(gòu)造的基本詞典詞之間的向量距離得出,旨在弄清微博詞的語義指向。與K-nearest neighbor(KNN)方法類似,該方法首先標(biāo)記幾個(gè)樣本點(diǎn),然后計(jì)算那些標(biāo)記的樣本點(diǎn)與新點(diǎn)之間的相似性[16]。同時(shí),使用語義相似度計(jì)算注釋中每個(gè)單詞的垃圾評(píng)論權(quán)重值,這有助于構(gòu)建WDS詞典[17]。相似距離由詞向量的余弦距離測(cè)量,核心部分由式4給出。距離值越高,兩個(gè)詞的相似度越大。
(4)
在檢測(cè)豆瓣圖書垃圾評(píng)論時(shí),通過式4對(duì)豆瓣評(píng)論中的單詞與其評(píng)論圖書特征進(jìn)行相似度計(jì)算,按照一定比例計(jì)算這個(gè)單詞的權(quán)重,然后與基本垃圾評(píng)論集中的單詞權(quán)重求和,并進(jìn)行分析。
基本垃圾評(píng)論詞匯詞典中的每個(gè)垃圾評(píng)論詞都會(huì)有一個(gè)對(duì)應(yīng)的權(quán)重相匹配,所以可以通過每條評(píng)論中垃圾評(píng)論詞匯數(shù)量和權(quán)重去判定這條評(píng)論是否是垃圾評(píng)論。
首先需要將圖書評(píng)論分為句子S1,…,Sn并將每個(gè)句子的垃圾詞定義為W1,…,Wn。通過研究發(fā)現(xiàn),對(duì)于大多數(shù)用戶,特別是垃圾評(píng)論的發(fā)送者,更愿意在13個(gè)中文單詞內(nèi)發(fā)表評(píng)論,將其定義為簡(jiǎn)短評(píng)論,而長度大于13個(gè)中文單詞的評(píng)論則被定義為長評(píng)論。為了深入了解這些特征,從評(píng)論數(shù)量前十的圖書的所有評(píng)論中隨機(jī)選擇了4 000條。經(jīng)過統(tǒng)計(jì)分析得出,簡(jiǎn)短評(píng)論的比例占35.5%,長評(píng)論的比例占63.4%,而其余評(píng)論僅由表情符號(hào)組成或者太短,這部分評(píng)論直接判定為垃圾評(píng)論。
對(duì)不同長度評(píng)論中分發(fā)的垃圾詞的比例進(jìn)行了分析,如圖2所示。可以得出結(jié)論,評(píng)論中垃圾詞的分布是不對(duì)稱的,分配的垃圾詞的比例主要在0.5以下。
圖2 垃圾評(píng)論詞匯比例分布
通過上述統(tǒng)計(jì)分析的結(jié)果,在權(quán)重比例過濾模型中設(shè)置了兩個(gè)關(guān)鍵屬性:每條垃圾評(píng)論中垃圾詞匯的比例;評(píng)論中包含的所有垃圾詞權(quán)重的總和代表該評(píng)論的垃圾評(píng)論權(quán)重。將變量C(Si)定義為句子Si中垃圾詞的總和,變量P為垃圾詞的比例。句子Si的垃圾評(píng)論范圍計(jì)算如下:
(5)
(6)
根據(jù)已知豆瓣評(píng)論的特點(diǎn),可以合理推理句子Si,如下:
(1)如果P(Si)和SW(Si)的值都很小,Si可能不是垃圾評(píng)論;
(2)如果P(Si)的值很小且SW(Si)的值很大,Si是垃圾評(píng)論;
(3)如果P(Si)的值很大且SW(Si)的值很小,Si可能不是垃圾評(píng)論;
(4)如果P(Si)和SW(Si)的值都很大,Si是垃圾評(píng)論。
為了得到P(Si)和SW(Si)的閾值,從評(píng)論數(shù)量前十的圖書的評(píng)論中隨機(jī)抽取1 000條正常評(píng)論和1 000條垃圾評(píng)論。根據(jù)基本垃圾評(píng)論詞典計(jì)算每個(gè)評(píng)論的SW和P的值。SW和P的分布如圖3所示。
圖3 正常評(píng)論垃圾評(píng)論權(quán)重-比例分布
從圖3可明確看出,SW和P的閾值可以確定為1.0和0.3。評(píng)估垃圾評(píng)論的標(biāo)準(zhǔn)總結(jié)如下:
對(duì)于短評(píng)論Si,如果SW(Si)<0.5且P(Si)≤0.6,則其為正常評(píng)論,否則該評(píng)論被視為垃圾評(píng)論;對(duì)于長評(píng)論Si,如果SW(Si)<1.0且P(Si)≤0.3,則其為正常評(píng)論,否則該評(píng)論被視為垃圾評(píng)論。
為了評(píng)估所提出的模型和垃圾評(píng)論詞典的性能,進(jìn)行了如下兩個(gè)相關(guān)實(shí)驗(yàn):
(1)從評(píng)論數(shù)最多的圖書的評(píng)論中識(shí)別垃圾評(píng)論。
(2)通過對(duì)評(píng)論數(shù)前一百的豆瓣圖書隨機(jī)抽樣十本書,對(duì)這些圖書的評(píng)論進(jìn)行隨機(jī)抽樣。
使用分類算法對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行測(cè)量,定義見表1。
表1 分類算法混淆矩陣
其中,a表示正確分類為垃圾評(píng)論的評(píng)論數(shù);b表示錯(cuò)誤歸類為垃圾評(píng)論的正常評(píng)論數(shù);c表示錯(cuò)誤歸類為正常評(píng)論的垃圾評(píng)論數(shù);d表示正確分類成正常評(píng)論的評(píng)論數(shù)。
通過精確率(P)和召回率(R)來衡量實(shí)驗(yàn)結(jié)果:
P=a/(a+b)
(7)
R=a/(a+c)
(8)
F1是P和R的調(diào)和均值,將用它評(píng)估分類的總體結(jié)果:
F1=2*P*R/(P+R)
(9)
從評(píng)論數(shù)最多的圖書的評(píng)論中識(shí)別垃圾評(píng)論:
選取了豆瓣圖書《白夜行》的所有評(píng)論,將66 175條評(píng)論數(shù)據(jù)作為輸入文件。通過權(quán)重比例模型過濾這些評(píng)論,經(jīng)過統(tǒng)計(jì)分析,垃圾評(píng)論檢測(cè)精度為91.8%,召回率為82.5%,F(xiàn)1為86.9%,如圖4所示。
圖4 實(shí)驗(yàn)結(jié)果
從圖4可以得到,平均精確率為85.4%,平均召回率為89.02%,平均F1值為87.12%。從這些結(jié)果可知,通過權(quán)重比例模型識(shí)別垃圾評(píng)論得到了穩(wěn)定的精確率、召回率和F1值。因此,文中方法可以有效地檢測(cè)垃圾評(píng)論并具有相對(duì)準(zhǔn)確性。
目前還有很多研究人員在研究垃圾評(píng)論內(nèi)容檢測(cè)問題,但由于選擇了不同的數(shù)據(jù)集和垃圾評(píng)論特征,這些研究論文中垃圾評(píng)論內(nèi)容的定義各不相同。因此,將這些結(jié)果與文中得到的結(jié)果進(jìn)行比較是不合適的。
文中對(duì)豆瓣圖書評(píng)論進(jìn)行了深入分析。為了更準(zhǔn)確有效地檢測(cè)垃圾評(píng)論,從詞語語義特征的新視角構(gòu)建了垃圾評(píng)論詞典和圖書特征詞典,非常適合圖書類垃圾評(píng)論的檢測(cè)。此外,將單個(gè)評(píng)論的垃圾評(píng)論詞匯權(quán)重和垃圾評(píng)論比例定義為權(quán)重比例過濾器模型中的兩個(gè)關(guān)鍵屬性,以檢測(cè)不同長度的垃圾評(píng)論。這兩種垃圾評(píng)論檢測(cè)方法是文中研究的核心方法。在垃圾評(píng)論檢測(cè)實(shí)驗(yàn)中驗(yàn)證了該方法的有效性和準(zhǔn)確性。
盡管所獲得的結(jié)果對(duì)于豆瓣圖書垃圾評(píng)論檢測(cè)是很理想的,但是可以通過許多可識(shí)別的區(qū)域來改進(jìn)文中的模型,同時(shí)可以分析用戶的評(píng)論習(xí)慣,分析這些評(píng)論用戶的特征來進(jìn)一步檢測(cè)垃圾評(píng)論。通過考慮評(píng)論與發(fā)表評(píng)論用戶之間的關(guān)系,可以進(jìn)一步提高垃圾評(píng)論檢測(cè)的精確率和召回率。下一步將在研究檢測(cè)垃圾評(píng)論的下一階段引入更深層次的結(jié)構(gòu)化特征并考慮用戶特征,以便考慮用戶-垃圾評(píng)論組合關(guān)系等方面。