郭田奇
【摘要】隨著互聯(lián)網(wǎng)的迅速發(fā)展,團(tuán)購作為新興的電子商務(wù)盈利模式,已成為整個O2O(Online To Offline)市場不可或缺的一部分 ,對商家和消費者都有一定的引導(dǎo)和借鑒作用,因此運用大數(shù)據(jù)的方法對團(tuán)購評論的研究也具有更加現(xiàn)實的意義。本文運用R語言從團(tuán)購網(wǎng)頁上抓取了蘭州市火鍋店的評論數(shù)據(jù),建立語料庫進(jìn)而實現(xiàn)對評論的篩選,采用樸素貝葉斯分類算法建模,從大量的評論數(shù)據(jù)中訓(xùn)練垃圾評論的分類器,通過對已有模型進(jìn)行改進(jìn),使之更加適用于網(wǎng)購評論的分類,最終實現(xiàn)對團(tuán)購評論的最大化利用。研究結(jié)果表明:通過樸素貝葉斯算法模型訓(xùn)練出的分類器最終對有效評論的識別率達(dá)到99.4%,對垃圾評論的識別率達(dá)到54.6%,該分類器能準(zhǔn)確識別有效評論,對于垃圾評論的識別率有待提高,但仍具有一定的參考價值。
【關(guān)鍵詞】R語言 樸素貝葉斯 團(tuán)購評論 分類
一、研究背景
(一)O2O市場現(xiàn)狀
近年來,資本市場、互聯(lián)網(wǎng)巨頭與實體商業(yè)紛紛加速布局O2O領(lǐng)域,O2O產(chǎn)業(yè)如雨后春筍般在全國各地興起。調(diào)查顯示,有43.8%的網(wǎng)民表示喜歡在互聯(lián)網(wǎng)上發(fā)表評論,其中非常喜歡的占6.7%,比較喜歡的占37.1% 網(wǎng)絡(luò)空間已經(jīng)成為人們發(fā)表言論的重要場所。
二線城市團(tuán)購餐飲美食O2O用戶滲透率為23.2%,網(wǎng)上訂餐訂座O2O用戶滲透率為17.5%。從用戶層面來看,一二線城市餐飲和休閑O2O的用戶滲透率較高,非O2O用戶成功轉(zhuǎn)化成餐飲和休閑O2O用戶的概率較高,因此餐飲、休閑O2O市場發(fā)展已經(jīng)相對成熟。
(二)研究內(nèi)容
本文通過分析大量的垃圾評論,設(shè)定了一些泛化規(guī)則來提取評論所包含的明顯的特征詞,以此作為垃圾評論類的特征項,由于垃圾評論也會隨著網(wǎng)絡(luò)用戶的興趣轉(zhuǎn)移發(fā)生變化,為了提高分類器的過濾性能,我們通過對訓(xùn)練樣本,人工對樣本進(jìn)行標(biāo)注,基于樸素貝葉斯的算法思想,通過對蘭州市大眾點評網(wǎng)站上的有關(guān)于火鍋店鋪的團(tuán)購消費的評論數(shù)據(jù)進(jìn)行分類,剔除垃圾評論,從而為消費者提供了更為高效的選擇,也為商家提升自己提供了優(yōu)質(zhì)數(shù)據(jù)的支持。
二、基于樸素貝葉斯的垃圾評論過濾算法
基于樸素貝葉斯分類算法的過濾模型包括訓(xùn)練模塊和分類模塊兩部分,實現(xiàn)步驟首先計算算先驗概率P(C1);
P(C1)=■ (2.1)
P(C2)=■ (2.2)
對訓(xùn)練集中的所有評論進(jìn)行分詞處理,統(tǒng)計每個詞的詞頻;依據(jù)統(tǒng)計結(jié)果以特定的方法提取特征詞,生成特征詞集F=W1,W2,…,Wn計算特征詞Wi的類條件概率P(xi│C),對新輸入的評論進(jìn)行分詞,特征提取,生成代表該評論的特征向量X;計算P(x│c)和P(c│x)比較兩者計算結(jié)果,測試評論屬于概率值較大的那一類。
三、模型求解
(一)數(shù)據(jù)搜集
本文的數(shù)據(jù)是基于大眾點評網(wǎng)蘭州市火鍋團(tuán)購評論數(shù)據(jù)。數(shù)據(jù)的爬取工作,主要使用R語言,符合以下特點,認(rèn)為是垃圾評論:①顯示廣告信息,有超鏈接、色情等;②與餐飲、火鍋和團(tuán)購沒有關(guān)系的評論;③具有人身攻擊或者思想不健康的評論;④含有大量數(shù)字和其他符號的。
本文從大眾點評上爬取蘭州市火鍋店的評論數(shù)據(jù),共5568條數(shù)據(jù)。數(shù)據(jù)分為有效評論和垃圾評論,同時將所有數(shù)據(jù)分為訓(xùn)練集和測試集,訓(xùn)練集為4000條數(shù)據(jù),測試集為1568條數(shù)據(jù)。在訓(xùn)練集和測試集中有效評論和垃圾評論各自所占的比例為0.11:0.89,0.20:0.80。
(二)模型評估與優(yōu)化
通過訓(xùn)練集的數(shù)據(jù)進(jìn)行建模,構(gòu)建樸素貝葉斯分類器,用測試集來評估分類器的表現(xiàn),預(yù)測垃圾評論的準(zhǔn)確率偏低,40%左右,原因是不少的垃圾評論被識別為有效評論,垃圾評論在數(shù)據(jù)集中的分布不均勻,評論中有效詞數(shù)量頻率遠(yuǎn)高于含有垃圾評論的詞數(shù),導(dǎo)致分類器容易誤判,但分類器對有效評論的識別率高達(dá)99.1%。
模型建立詞條-文檔矩陣,擴(kuò)大進(jìn)入詞條-文檔矩陣的長度,同時小幅降低進(jìn)入字典詞語出現(xiàn)的頻率,分類器的識別率由40%上升到54.6%, 通過優(yōu)化之后的模型,不僅分類器對垃圾評論的識別率大幅提高了將近15個百分點,而且對有效評論的識別率也從99.1%上升到了更為精確的99.4%。
四、結(jié)論與展望
本文結(jié)合R語言的網(wǎng)絡(luò)爬蟲技術(shù),詳細(xì)介紹了數(shù)據(jù)采集的過程,同時給出了基于爬取數(shù)據(jù)對垃圾評論的定義,運用R語言完成了數(shù)據(jù)建模,得出了基于樸素貝葉斯的分類器,同時對測試集的數(shù)據(jù)進(jìn)行預(yù)測和對比,以此來評估分類器的表現(xiàn),根據(jù)預(yù)測結(jié)果分析分類器對垃圾評論識別準(zhǔn)確率偏低的原因,對模型進(jìn)行了簡單的優(yōu)化,使分類器對垃圾評論識別準(zhǔn)確率顯著提高。
本文對于一些具有明顯特征的垃圾平評論的識別效果不錯,但是對一些沒有明顯特征而且包含大量中性詞語的評論識別效果率不是很好,還有待于進(jìn)一步的提高和完善,可以考慮從以下幾個方面研究:
(1)很多評論都帶有消費者的主觀感情,因此可以參考情感計算的方法在提取特征詞的時候考慮詞語的感情傾向等問題;
(2)網(wǎng)絡(luò)上面的新詞和不合語法的日常用語不斷更新,需要構(gòu)建一個實時的網(wǎng)絡(luò)文本字典,正確區(qū)分垃圾評論;
(3)更多的考慮消費者與評論內(nèi)容所屬行業(yè)的聯(lián)系,從多角度分析消費者的行為偏好,更加全面的理解消費者的評論內(nèi)容;
隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,中文文本挖掘的研究也會越來越重要?,F(xiàn)階段針對文本分類的研究很多,關(guān)于中文分詞的算法也很多,如何將這些研究和算法更好的應(yīng)用在對垃圾評論的過濾上,值得我們進(jìn)一步的思考和實踐。
參考文獻(xiàn):
[1]中國互聯(lián)網(wǎng)絡(luò)信息中心.中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[R].2015.
[2]王佐仁,楊琳.貝葉斯統(tǒng)計推斷及其主要進(jìn)展[J].統(tǒng)計與信息論壇, 2012.
[3]許高建,胡學(xué)鋼,王慶人.文本挖掘中的中文分詞算法研究及實現(xiàn)[J].計算機(jī)技術(shù)與發(fā)展, 2007.