賈守帆 張博 彭世豪
摘要:在電子商務(wù)服務(wù)中,用戶的在線評(píng)論對(duì)消費(fèi)者的購(gòu)買決策與商家行為的影響日益凸顯,如何利用這一重要的在線文本數(shù)據(jù)去挖掘用戶的情感傾向成為學(xué)界以及業(yè)界關(guān)注的焦點(diǎn)。經(jīng)過文獻(xiàn)整理,本文梳理出一個(gè)在線評(píng)論的細(xì)粒度層次情感分析業(yè)務(wù)流程,基于這一流程分析了本領(lǐng)域的研究與發(fā)展現(xiàn)狀,為未來的研究提供參考。
關(guān)鍵詞:在線評(píng)論;文本挖掘;情感分析
引言
近年來我國(guó)電子商務(wù)飛速發(fā)展,各類電商平臺(tái)大量崛起,據(jù)國(guó)家統(tǒng)計(jì)局統(tǒng)計(jì)數(shù)據(jù)顯示:2017年網(wǎng)上零售額達(dá)到71751億元,同比2016年增長(zhǎng)32.2%。伴隨電子商務(wù)的不斷普及以及平臺(tái)逐步完善的業(yè)態(tài)功能體系,電商平臺(tái)帶來了大量個(gè)性化、網(wǎng)絡(luò)化、非結(jié)構(gòu)化的在線評(píng)論文本。在線評(píng)論作為一種新型的口碑傳播方式,打破了傳統(tǒng)口碑以人際擴(kuò)散為基礎(chǔ)的時(shí)空限制,使得潛在消費(fèi)者可以通過閱讀評(píng)論來完善對(duì)產(chǎn)品的認(rèn)知,輔助完成購(gòu)買決策。商家可以通過收集評(píng)論內(nèi)容來分析用戶對(duì)商品的態(tài)度,獲取用戶的喜好進(jìn)而更好的為消費(fèi)者服務(wù)?;谠诰€評(píng)論在電子商務(wù)鏈條中重要的作用,國(guó)內(nèi)外學(xué)者對(duì)此領(lǐng)域給予了極大關(guān)注,本文收集了近年國(guó)內(nèi)外在線評(píng)論研究的文獻(xiàn)成果,從情感分析視角出發(fā),對(duì)在線評(píng)論領(lǐng)域的相關(guān)技術(shù)應(yīng)用以及研究現(xiàn)狀進(jìn)行概述。
1、基于文本情感分析的在線評(píng)論研究
信息爆炸時(shí)代,互聯(lián)網(wǎng)的高度開放性和可追溯性使得消費(fèi)者在作出網(wǎng)購(gòu)決策前面對(duì)著海量的消費(fèi)者評(píng)論,這些評(píng)論通常包含著他人有價(jià)值的觀點(diǎn)意見,對(duì)這些包含觀點(diǎn)的評(píng)論文本進(jìn)行人工識(shí)別和分析是極其低效率的,因此自動(dòng)化的文本情感分析成為當(dāng)前主流的應(yīng)用領(lǐng)域。情感分析,是屬于文本挖掘的一個(gè)細(xì)分研究領(lǐng)域,是指通過自然語言的處理從文本中提取出人們對(duì)于實(shí)體及其屬性所表達(dá)的觀點(diǎn)、情感、態(tài)度和情緒等[1]。從分析的粒度層次來看可劃分為粗粒度情感分析和細(xì)粒度情感分析,粗粒度情感分析包括篇章級(jí)和句子級(jí)情感分析,細(xì)粒度層次的分析則是基于評(píng)價(jià)對(duì)象及其屬性的分析。伴隨著人工智能、自然語言處理技術(shù)的進(jìn)步,業(yè)界對(duì)情感分析的要求逐步提高,細(xì)粒度層次的情感分析正成為當(dāng)前國(guó)內(nèi)外研究的熱點(diǎn)內(nèi)容,本文通過分析當(dāng)前細(xì)粒度層次情感分析的業(yè)務(wù)流程來對(duì)當(dāng)前在線評(píng)論研究進(jìn)行概述。
1.1 預(yù)處理
研究人員從電商網(wǎng)站等第三方平臺(tái)取得的評(píng)論數(shù)據(jù)要首先經(jīng)過預(yù)處理階段,主要包括中文分詞,詞性標(biāo)注,語言學(xué)特征處理等。
(1)中文分詞指的是按照一定的規(guī)范將連續(xù)的字序列重組為詞序列的過程,中文分詞技術(shù)歸屬于自然語言處理技術(shù)范疇,現(xiàn)有的分詞算法可分為三大類:基于統(tǒng)計(jì)的分詞方法、基于字符串匹配的分詞方法和基于理解的分詞方法。常見的分詞工具有:Hightmon開發(fā)的中文分詞引擎scws;支持Linux及Windows系列操作系統(tǒng)的ICTCLAS;基于Jovo的開源中文分詞組件Pooding(庖丁解牛分詞)等。盡管已有分詞工具較為成熟,但中文是一種十分復(fù)雜的話種,計(jì)算機(jī)在識(shí)別過程中還是會(huì)出現(xiàn)無法分辨歧義詞以及無法識(shí)別網(wǎng)絡(luò)新詞等難題。
(2)詞性標(biāo)注即確定分詞結(jié)果中每個(gè)單詞是名詞、動(dòng)詞、形容詞或其他詞性的過程。
(3)語言學(xué)特征處理是指根據(jù)語言學(xué)特征對(duì)分詞和詞性標(biāo)注后的產(chǎn)品評(píng)論進(jìn)行進(jìn)一步的完善,一方面解決分詞工具無法識(shí)別的個(gè)別產(chǎn)品特征,此外為了提高處理文本的效率以及節(jié)省存儲(chǔ)空間,需過濾掉分詞結(jié)果中出現(xiàn)頻率高但無實(shí)際語義的停用詞(例如:的、是、啊等)。
1.2 屬性抽取
數(shù)據(jù)預(yù)處理完成后,需要從預(yù)處理結(jié)果中進(jìn)一步抽取產(chǎn)品屬性,產(chǎn)品屬性在評(píng)論文本中往往是用戶評(píng)價(jià)的對(duì)象。例如“這款手機(jī)的音效非常好”, “手機(jī)的屏幕清晰色彩好”,這兩句評(píng)論中產(chǎn)品屬性分別為“音效”和“屏幕”,屬性抽取的任務(wù)就是從在線評(píng)論文本中抽取出這樣的屬性。綜合目前的研究現(xiàn)狀來看,屬性提取主要分為四種方法:1)基于頻率的屬性抽取;2)利用句法關(guān)系抽取;3)利用監(jiān)督學(xué)習(xí)抽取;4)利用主題模型抽取,具體的方法特征與詳細(xì)信息如表1所示。
產(chǎn)品屬性的提取對(duì)于情感分析來說十分重要,它們代表著觀點(diǎn)評(píng)價(jià)的對(duì)象或者消費(fèi)者在評(píng)論中談?wù)摰闹黝}。過去學(xué)者們提出了許多無監(jiān)督和半監(jiān)督的模型用于屬性抽取,然而從實(shí)際應(yīng)用層面來說,目前這些模型還存在著一些問題。例如這些模型大都基于一元模型的,而實(shí)際生活中很多屬性都是由多個(gè)單詞組成的短語。此外,目前的方法主要著眼于抽取名詞和名詞短語類型的特征,實(shí)際在很多情況下許多特征并不全是由名詞和名詞短語構(gòu)成,存在通過動(dòng)詞表達(dá)的現(xiàn)象,這時(shí)已有的抽取算法就無法適用。
1.3 情感分類
情感分類的目標(biāo)是確定評(píng)論文本中針對(duì)不同屬性所表達(dá)的觀點(diǎn)傾向:正面、負(fù)面還是中性。在之前例子(“這款手機(jī)的音效非常好”)中,評(píng)論者對(duì)手機(jī)音效表達(dá)了正面的觀點(diǎn)。通過文獻(xiàn)的整理,我們總結(jié)出情感分類通常使用的兩類方法:基于監(jiān)督學(xué)習(xí)和基于詞典的無監(jiān)督學(xué)習(xí)。
1.3.1 基于監(jiān)督學(xué)習(xí)的方法
基于監(jiān)督學(xué)習(xí)的情感分類通常使用支持向量機(jī)(SVM)、樸素貝葉斯分類器等機(jī)器學(xué)習(xí)算法。該方法優(yōu)勢(shì)在于,它的學(xué)習(xí)算法可以通過優(yōu)化手段從各種特征中自動(dòng)學(xué)到一個(gè)有效的分類模型,而這些在學(xué)習(xí)算法中所習(xí)得的特征大部分情況下難應(yīng)用于基于詞典的分類方法。劣勢(shì)在于基于監(jiān)督學(xué)習(xí)的方法依賴于人工標(biāo)注的訓(xùn)練集,但不同領(lǐng)域數(shù)據(jù)的分布、類別標(biāo)記的分布都具有很大的差異性,導(dǎo)致現(xiàn)有基于監(jiān)督學(xué)習(xí)的方法難以應(yīng)用于大規(guī)模、多領(lǐng)域的實(shí)際數(shù)據(jù)。
1 .3.2 基于詞典的無監(jiān)督學(xué)習(xí)
基于詞典的情感分類方法是使用包含情感詞短語、俚語、組合規(guī)則的情感詞典,并結(jié)合情感聚合函數(shù)來識(shí)別出在線評(píng)論文本中針對(duì)每個(gè)屬性所表達(dá)的情感傾向,該方法主要包括以下四個(gè)步驟。
1)標(biāo)記情感表達(dá)詞
此步驟的目標(biāo)是在評(píng)論語句中找出每處情感表達(dá),并判斷情感傾向,每個(gè)正面的情感表達(dá)+1,負(fù)面的情感表達(dá)一1.
2)處理情感轉(zhuǎn)換詞與轉(zhuǎn)折從句
情感轉(zhuǎn)換詞指的是能改變情感傾向的詞或者短語,如“手機(jī)屏幕不清晰,但是還能接受”中的“不” “但是”屬于情感轉(zhuǎn)換詞。通常通過給定的詞典檢測(cè)并標(biāo)記出來,在情感分析過程中不考慮它們的情感貢獻(xiàn),只考慮它們的情感轉(zhuǎn)折作用。
3)聚合情感打分
用情感聚合函數(shù)來給得到的情感打分,從而確定評(píng)論文本中針對(duì)每個(gè)屬性的觀點(diǎn)情感傾向。假設(shè)句子S包含屬性集合{a1,…,am),情感表達(dá)集合{sel,…,sen)以及通過上述步驟得到的每個(gè)情感表達(dá)的得分,則句子S中每個(gè)屬性al的情感傾向可以通過下面的聚合函數(shù)得到:
基于詞典的分類方法能夠有效的避免監(jiān)督學(xué)習(xí)方法中的部分問題,在面對(duì)大規(guī)模、多領(lǐng)域的實(shí)際應(yīng)用場(chǎng)景時(shí)具有良好的效果,魯棒性強(qiáng),領(lǐng)域獨(dú)立,因此業(yè)界與學(xué)術(shù)界的許多開發(fā)與研究都使用此類方法。當(dāng)然基于詞典的分類方法缺點(diǎn)在于,構(gòu)建分類所需的知識(shí)庫(詞典、模板等)需要消耗大量的人力物力,另外難以解決的長(zhǎng)尾問題,利用已有的情感詞我們大概只能處理60%的情況,而剩下的低頻的40%語言現(xiàn)象是無法處理的。
2、總結(jié)
本文從細(xì)粒度層面對(duì)在線評(píng)論的情感分析進(jìn)行了介紹,并梳理出細(xì)粒度情感分析通用的業(yè)務(wù)流程?;谏衔牡姆治雠c梳理,我們可以發(fā)現(xiàn),情感分析是一個(gè)涉及多任務(wù)的綜合研究,有很多子問題相互交叉,不僅僅是一個(gè)單獨(dú)的問題。與此同時(shí),國(guó)內(nèi)該領(lǐng)域研究還存在一些亟待研究和解決的問題,主要包括以下幾點(diǎn)。
第一,缺乏對(duì)產(chǎn)品隱性屬性的挖掘。產(chǎn)品屬性層面上可細(xì)分為顯性屬性和隱性屬性,例如“這款手機(jī)的音效非常好”和“這款手機(jī)不容易放進(jìn)錢包里”兩條評(píng)論, “音效”可稱為顯性屬性,而“不容易放進(jìn)錢包里”則表達(dá)了產(chǎn)品的隱性屬性“體積”。通常隱性屬性的表達(dá)較為復(fù)雜,導(dǎo)致現(xiàn)有的研究缺乏對(duì)產(chǎn)品的隱形屬性進(jìn)行足夠深層次的挖掘。第二,缺乏成熟的語料庫和實(shí)驗(yàn)平臺(tái),用于公共研究使用的語料庫太少,同時(shí)因缺乏開放的實(shí)驗(yàn)平臺(tái)和統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn),導(dǎo)致方法的有效性較難驗(yàn)證。第三,研究缺乏規(guī)范化,現(xiàn)有研究在語料詞性標(biāo)注規(guī)范、情感特征提取定義等很多方面沒有達(dá)成共識(shí),很難對(duì)不同方法的實(shí)驗(yàn)結(jié)果進(jìn)行客觀的比較和評(píng)價(jià)。
伴隨我國(guó)電子商務(wù)的高速發(fā)展,對(duì)于從在線評(píng)論中挖掘出更多的潛在商業(yè)價(jià)值的需求越發(fā)增多,基于這些強(qiáng)烈的應(yīng)用需求以及技術(shù)上的挑戰(zhàn)將會(huì)使得這一研究領(lǐng)域在未來會(huì)有很大的研究?jī)r(jià)值和發(fā)展空間。
參考文獻(xiàn):
[l]吳應(yīng)良,黃媛,王選飛.在線中文用戶評(píng)論研究綜述:基于情感計(jì)算的視角[J].情報(bào)科學(xué),2017,35(06):159-163+170.
[2]鄭霖,徐德華.基于改進(jìn)TFIDF算法的文本分類研究[J].計(jì)算機(jī)與現(xiàn)代化,2014(09):6-9+14.
[3]杜曉靜.引入情感分析的推薦模型[D].東南大學(xué),2017.
[4]劉培玉,茍靜,費(fèi)紹棟,朱振方.基于隱馬爾可夫模型的主觀句識(shí)別[J].中文信息學(xué)報(bào),2016,30(04):206-212.
[5]李向前,李軍偉.利用三層條件隨機(jī)場(chǎng)模型進(jìn)行情感極性分類及強(qiáng)度分析[J].計(jì)算機(jī)應(yīng)用研究,2017,34(04):986-990.
[6]王建芳,劉峰.基于隱狄利克雷分配的情感分析[J],計(jì)算機(jī)工程與設(shè)計(jì),2014,35(06):2179-2182+2213.