国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于追加評(píng)論的情感分析研究

2019-12-12 06:05劉臣謝法舉周曉鳴
軟件導(dǎo)刊 2019年11期
關(guān)鍵詞:情感分析特征提取

劉臣 謝法舉 周曉鳴

摘 要:商品評(píng)論區(qū)存在很多虛假、偽造或者是垃圾形式的內(nèi)容,往往誘使用戶產(chǎn)生購(gòu)買意愿,而追加評(píng)論是用戶了解商品真實(shí)性、可靠性的重要信息渠道。通過(guò)對(duì)追加評(píng)論進(jìn)行特征提取,形成特征摘要,方便用戶在購(gòu)物時(shí)減少搜索時(shí)間與精力,對(duì)追加評(píng)論進(jìn)行情感分析,能夠判斷出用戶對(duì)商品的總體情感傾向。分析表明,其在準(zhǔn)確率與召回率方面都有約10%的提高。追加評(píng)論具有很高的研究?jī)r(jià)值,能夠幫助用戶快速了解產(chǎn)品信息,目前很多用戶會(huì)直接鎖定追加評(píng)論以作出購(gòu)買決策。

關(guān)鍵詞:追加評(píng)論;特征提取;情感分析;特征摘要

0 引言

追加評(píng)論是購(gòu)物網(wǎng)站的一種用戶評(píng)論形式,各大電商平臺(tái)都有追加評(píng)論區(qū)域,但每個(gè)平臺(tái)提供的有效時(shí)間不同,比如淘寶在原始評(píng)論之后3個(gè)月內(nèi)可以進(jìn)行追加評(píng)論,超過(guò)期限則無(wú)法進(jìn)行。目前很多用戶會(huì)直接鎖定追加評(píng)論形成購(gòu)買意愿,所以追加評(píng)論具有很高的研究?jī)r(jià)值,主要表現(xiàn)為:①追加評(píng)論能夠更加客觀地反映用戶態(tài)度;②追加評(píng)論往往較少,用戶閱讀起來(lái)會(huì)減少很多時(shí)間與精力;③追加評(píng)論中往往會(huì)出現(xiàn)原始評(píng)論中沒有出現(xiàn)過(guò)的商品特征,這些特征能夠及時(shí)反映當(dāng)下熱點(diǎn)問(wèn)題。圖1為京東平臺(tái)上的P20手機(jī)用戶評(píng)論文本。

追加評(píng)論是用戶了解商品真實(shí)性、可靠性的重要信息渠道,而對(duì)于追加評(píng)論的研究很少有人關(guān)注。Hearst[1]最早進(jìn)行情感分析研究,在處理文本問(wèn)題時(shí)主要從情感立場(chǎng)和文本思想兩個(gè)方面進(jìn)行,語(yǔ)料庫(kù)優(yōu)點(diǎn)在于提供了更加標(biāo)準(zhǔn)化的信息檢索系統(tǒng),不僅能夠避免理解文本的復(fù)雜性,而且還能減少資源消耗。情感分析概念在2003年正式出現(xiàn),Nasukawa等[2]利用自然語(yǔ)言處理相關(guān)技術(shù)判斷特定主題的情感傾向,包括語(yǔ)義詞典及句法分析等,系統(tǒng)在新聞?wù)Z料中取得了較高準(zhǔn)確率,當(dāng)然該準(zhǔn)確率依據(jù)數(shù)據(jù)集;Yan等[3]利用NodeRank算法提取顯式和隱式特征,以識(shí)別每個(gè)顯式特征與意見詞之間的關(guān)聯(lián),并檢索了具有相同觀點(diǎn)詞的所有特征觀點(diǎn)對(duì);Yi等[4]是較早研究情感分析的一批學(xué)者,隨后,情感分析在數(shù)據(jù)挖掘、Web挖掘和信息檢索中被廣泛研究,并從計(jì)算機(jī)科學(xué)領(lǐng)域擴(kuò)展到管理學(xué)領(lǐng)域及電子商務(wù)領(lǐng)域[5-6];Soo-Min等[7]則手工建立了兩個(gè)種子集作為極性詞典,一個(gè)是褒義詞詞典,另一個(gè)是貶義詞詞典,并分別將其作為正向類和負(fù)向類;Park等 [8]提出了另一個(gè)從新聞文章中產(chǎn)生觀點(diǎn)摘要的方法。

在中文領(lǐng)域,特征提取和情感分析研究也有一定成果。徐林宏等[9]利用知網(wǎng)提供的HowNet詞典,用詞匯與詞庫(kù)中已標(biāo)注情感極性近義詞之間的語(yǔ)義相似度判斷未知極性情感詞的情感傾向;孫曉等[10]采用一種基于條件隨機(jī)場(chǎng)和支持向量機(jī)模型的聯(lián)合模型,從在線商品評(píng)述中挖掘商品特征詞和情感詞;何晶璟[11]主要是從營(yíng)銷角度分析在線評(píng)論中相同評(píng)論內(nèi)容放在追加評(píng)論位置及放在初始評(píng)論位置對(duì)購(gòu)買意愿的影響;汪濤等[12]基于歸因理論研究得出不同類型產(chǎn)品評(píng)論時(shí)間間隔的有用性感知不同,與原始評(píng)論具有很大關(guān)聯(lián)性;劉曉云等[13]主要講述相對(duì)于初始評(píng)論,追加評(píng)論的信息提供參考價(jià)值更大,消費(fèi)者更加傾向于追加評(píng)論內(nèi)容的真實(shí)性,認(rèn)為追加評(píng)論更加可靠;王洪偉等[14]對(duì)文本進(jìn)行情感分類,主要考慮句子的情感極性以及貢獻(xiàn)度,首先也是采用傳統(tǒng)分類算法判斷在線評(píng)論句子的情感傾向,然后采用等權(quán)重、相關(guān)度以及情感假設(shè)三個(gè)方面確定句子對(duì)段落的貢獻(xiàn)度,最后綜合考慮句子的貢獻(xiàn)度和情感極性以判斷段落的整體情感傾向;唐曉波[15]提出一種基于情感本體和k-近鄰算法的評(píng)論文本情感分類方法,首先利用情感本體的情感強(qiáng)度及其極性分別對(duì)每一條評(píng)論的褒義性和貶義性進(jìn)行計(jì)算,并將計(jì)算結(jié)果作為數(shù)據(jù)集的特征項(xiàng),最后采用k-近鄰算法對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,然后形成分類模型,并用分類模型對(duì)相關(guān)評(píng)論進(jìn)行分類研究。

對(duì)于隱性特征提取,同樣也有不少學(xué)者進(jìn)行過(guò)研究。Karthikeyan等[16]提出基于關(guān)聯(lián)規(guī)則挖掘的方法,特征詞與觀點(diǎn)詞之間可以共同出現(xiàn),以找到頻繁項(xiàng)之間的關(guān)聯(lián)性;Mankar等[17]從旅游評(píng)論中提取了隱性特征,首先在顯性特征詞與觀點(diǎn)詞之間構(gòu)建共生矩陣,以形容詞和副詞作為觀點(diǎn)詞,然后基于該共生矩陣創(chuàng)建一組關(guān)聯(lián)規(guī)則。這些規(guī)則充當(dāng)對(duì)應(yīng)的隱式特征映射函數(shù),實(shí)驗(yàn)同樣也獲得了一定效果,但是實(shí)驗(yàn)僅僅考慮了形容詞與副詞,并沒有考其它詞;Lazhar 等[18]利用本體進(jìn)行隱性特征提取研究,利用本體概念、屬性和個(gè)體之間的語(yǔ)義關(guān)系進(jìn)行隱性特征提取,其提取的意見表達(dá)式與任何顯性特征沒有相關(guān)性,在意見詞和相關(guān)特征中考慮6種類型依賴關(guān)系,然后通過(guò)觀點(diǎn)表達(dá)式對(duì)本體進(jìn)行引航,找出相應(yīng)的隱性特征詞,以識(shí)別隱性特征;Santu等[19]采用概率模型方法進(jìn)行隱性特征提取研究,用生成概率特征模型對(duì)相關(guān)語(yǔ)料評(píng)論進(jìn)行建模,這些評(píng)論被表示為使用隱藏變量的句子與特征之間的關(guān)聯(lián),最后利用隱藏變量和計(jì)算參數(shù)值提取隱性特征。

相比較而言,本文創(chuàng)新之處在于:①在原始評(píng)論基礎(chǔ)上融入追加評(píng)論;②考慮追加評(píng)論中出現(xiàn)的新特征詞以及特征情感;③形成特征摘要,能夠幫助用戶在購(gòu)買時(shí)快速作出購(gòu)買決策。

1 追加評(píng)論語(yǔ)料獲取

追加評(píng)論語(yǔ)料同樣來(lái)源于京東商城,利用爬蟲技術(shù)爬取京東商城P20手機(jī)追加評(píng)論語(yǔ)料。獲取語(yǔ)料后對(duì)語(yǔ)料進(jìn)行優(yōu)化,通過(guò)樣本抽樣方式刪除一些虛假、偽造信息,即語(yǔ)料降噪處理,經(jīng)過(guò)降噪處理的語(yǔ)料為實(shí)驗(yàn)所需語(yǔ)料。對(duì)實(shí)驗(yàn)語(yǔ)料進(jìn)行分詞處理與詞性標(biāo)注,提取出文本中的特征詞,如果沒有特征詞,則進(jìn)入下一條評(píng)論,如果有特征詞,則判斷其是否為新的特征詞。將新特征詞錄入特征詞庫(kù)中,沒有再出現(xiàn)新的特征詞就直接對(duì)特征進(jìn)行檢測(cè),依據(jù)特征詞周邊的特征詞進(jìn)行情感判別,并記錄判別結(jié)果,然后進(jìn)入下一條評(píng)論,直到所有追加評(píng)論記錄完為止。圖2是追加評(píng)論處理具體流程。

1.1 追加評(píng)論時(shí)間特點(diǎn)

追加評(píng)論是指用戶在購(gòu)買商品后已經(jīng)作出原始評(píng)論,因發(fā)現(xiàn)商品相關(guān)屬性具備一些特殊性質(zhì),再次對(duì)購(gòu)買商品進(jìn)行評(píng)論。圖3為爬取數(shù)據(jù)分析結(jié)果顯示的追加評(píng)論與原始評(píng)論時(shí)間間隔,通過(guò)分析追加評(píng)論數(shù)量可以發(fā)現(xiàn),用戶往往會(huì)在原始評(píng)論過(guò)后10天作出追加評(píng)論,這是因?yàn)橛脩粼谫?gòu)買之后前10天基本上對(duì)物品有了親身體驗(yàn),及時(shí)追加評(píng)論以反映自己的情感。

1.2 追加評(píng)論特征

追加評(píng)論作為用戶購(gòu)買商品后的二次評(píng)論,有幾個(gè)重要特征:第一,內(nèi)容較短但是蘊(yùn)含信息量大;第二,情感比較真實(shí),更能反映出用戶態(tài)度,相對(duì)于原始評(píng)論前后情感差異較大;第三,具備不可刪除性,很多購(gòu)物平臺(tái)的商家會(huì)勸說(shuō)用戶刪除消極的原始評(píng)論,但是追加評(píng)論卻無(wú)法刪除;第四,具有滯后性,因?yàn)橛脩敉ǔT谑褂梦锲芬欢螘r(shí)間之后才能夠發(fā)現(xiàn)商品優(yōu)缺點(diǎn)(見圖3);第五,往往會(huì)出現(xiàn)很多原始評(píng)論不具備的新特征詞(見表1)。

2 追加評(píng)論與原始評(píng)論比較

追加評(píng)論與原始評(píng)論存在許多差異,最主要的三個(gè)維度分別為:評(píng)論數(shù)量、評(píng)論長(zhǎng)度以及情感表達(dá)。研究?jī)烧咧g差異能夠讓用戶更加具體地了解商品。

2.1 評(píng)論數(shù)量

在評(píng)論數(shù)量方面,追加評(píng)論相對(duì)于原始評(píng)論數(shù)量明顯減少。一方面,用戶初次購(gòu)買商品后,通常會(huì)及時(shí)作出評(píng)論,此時(shí)評(píng)論行為比較積極,而對(duì)于追加評(píng)論卻很少有人及時(shí)關(guān)注,除非是因?yàn)橛脩趔w驗(yàn)過(guò)商品且該商品具備一些特質(zhì),用戶才會(huì)對(duì)原始評(píng)論進(jìn)行補(bǔ)充,追加評(píng)論。另一方面,用戶初次評(píng)論時(shí)給出了消極評(píng)價(jià),經(jīng)過(guò)客戶溝通后刪除了消極評(píng)論,但是使用商品后非常失望,會(huì)再次作出追加評(píng)論,而追加評(píng)論相較于原始評(píng)論,句子中蘊(yùn)含的信息以及特征詞明顯減少。

2.2 評(píng)論長(zhǎng)度

商品評(píng)論越長(zhǎng),信息量往往就越大,對(duì)商品的介紹就會(huì)越完善,包含特征也就越多,其他用戶購(gòu)買時(shí)能用的信息量就會(huì)越大,購(gòu)買決策就會(huì)越清晰準(zhǔn)確。評(píng)論長(zhǎng)度越長(zhǎng)也能反映出用戶積極性越高。通過(guò)抽樣觀察發(fā)現(xiàn),追加評(píng)論的平均長(zhǎng)度明顯高于原始評(píng)論。對(duì)此分析得出以下結(jié)論:第一,對(duì)于原始評(píng)論而言,用戶并不是很了解該產(chǎn)品,隨意作出評(píng)價(jià);對(duì)于追加評(píng)論而言,用戶通過(guò)親身體驗(yàn),對(duì)商品有足夠了解,這時(shí)就會(huì)對(duì)商品的大部分已知屬性作出評(píng)價(jià),因此追加評(píng)論的數(shù)量雖然減少了,但是長(zhǎng)度會(huì)明顯變長(zhǎng)。第二,由于追加評(píng)論具有滯后性,當(dāng)用戶在購(gòu)買商品之后,因各種原因延遲發(fā)表追加評(píng)論,在這段時(shí)間內(nèi)同類型商品上市,就會(huì)給用戶提供一個(gè)參考物,通過(guò)審視幾個(gè)商品之間的區(qū)別,對(duì)該商品有更全面了解,從而作出全面評(píng)價(jià),因此追加評(píng)論就會(huì)變長(zhǎng)。

2.3 評(píng)論質(zhì)量

相對(duì)于原始評(píng)論,追加評(píng)論與用戶使用體驗(yàn)匹配度更高,因?yàn)檫@些評(píng)論基本上都是用戶的親身感觸,能夠直接反映出用戶情感,所以提供的信息更加可靠有用。追加評(píng)論的客觀性更強(qiáng),通過(guò)用戶對(duì)商品情感的表達(dá)更能反映出商品優(yōu)缺點(diǎn),以便更加有效地幫助未來(lái)用戶了解產(chǎn)品。

3 融入追加評(píng)論的情感分析

通過(guò)分析處理追加評(píng)論,一共得到有效句子2 002條,其中顯性句子1 483條、隱性句子519條(見表2)。共提取特征詞45個(gè),新增特征詞8個(gè)(信號(hào)、后殼、按鈕、卡槽、鎖屏、鏡頭、吃雞、網(wǎng)絡(luò)),另外37個(gè)為原始評(píng)論句子中的特征詞。產(chǎn)品特征得到肯定的是屏幕、價(jià)格、信號(hào)以及外觀,同時(shí)電池和吃雞兩個(gè)特征的負(fù)面情感較高,其中問(wèn)題最大的是電池。這些數(shù)據(jù)統(tǒng)計(jì)不僅能夠幫助用戶快速鎖定商品的最大優(yōu)缺點(diǎn),而且能夠及時(shí)幫助商家進(jìn)行產(chǎn)品調(diào)整與優(yōu)化。

當(dāng)融入追加評(píng)論之后,在原始評(píng)論基礎(chǔ)上,用戶情感會(huì)有很大變化,如表3所示。如果原始評(píng)論為正向情感,追加評(píng)論也為正向情感的僅占9%,追加評(píng)論為負(fù)向情感的為27%;如果原始評(píng)論為負(fù)向情感,很少有用戶會(huì)轉(zhuǎn)變?cè)荚u(píng)論態(tài)度,而用戶同樣會(huì)給出負(fù)面情感的比例高達(dá)57%。表4為華為手機(jī)P20評(píng)論融入追加評(píng)論后準(zhǔn)確率與召回率的變化情況。

4 追加評(píng)論與原始評(píng)論特征摘要對(duì)比分析

4.1 對(duì)比結(jié)果

4.2 原始評(píng)論對(duì)購(gòu)買意愿的影響

為弄清原始評(píng)論對(duì)購(gòu)買意愿的影響,進(jìn)行了問(wèn)卷調(diào)查。調(diào)查問(wèn)卷涉及人群為在校本科生和研究生,共發(fā)放問(wèn)卷100份,回收有效問(wèn)卷100份。經(jīng)過(guò)整理發(fā)現(xiàn),用戶初次對(duì)購(gòu)買商品作出評(píng)價(jià)時(shí)的評(píng)論非常龐大,幾乎涉及產(chǎn)品所有主要特征,特征摘要對(duì)未來(lái)用戶有很大幫助,使用戶能夠快速鎖定商品屬性,并獲取基本情感。用戶進(jìn)行購(gòu)買決策時(shí)可以關(guān)注原始評(píng)論,但是依靠原始評(píng)論就作出購(gòu)買決策的僅為18%,而未作出購(gòu)買決策的高達(dá)59%。圖7為原始評(píng)論對(duì)購(gòu)買意愿的影響。

4.3 融入追加評(píng)論后對(duì)購(gòu)買意愿的影響

用戶的購(gòu)買意愿直接影響產(chǎn)品銷量,而追加評(píng)論往往會(huì)對(duì)購(gòu)買意愿產(chǎn)生較大影響,所以追加評(píng)論的研究意義較大,同樣也要引起商家足夠重視。研究發(fā)現(xiàn),追加評(píng)論中大部分評(píng)論都是消極評(píng)論,消極評(píng)論會(huì)直接影響消費(fèi)者購(gòu)買意愿,進(jìn)而影響產(chǎn)品銷量,追加評(píng)論與原始評(píng)論共同決定個(gè)人對(duì)該商品的情感傾向。圖8顯示,融入追加評(píng)論后用戶更加傾向于作出購(gòu)買決策。

5 結(jié)語(yǔ)

本文在原始評(píng)論基礎(chǔ)上融入追加評(píng)論進(jìn)行情感分析。主要從追加評(píng)論的數(shù)量、長(zhǎng)度以及質(zhì)量3個(gè)方面比較分析追加評(píng)論與原始評(píng)論,最后介紹了追加評(píng)論與原始評(píng)論的情感文摘分析。通過(guò)融入追加評(píng)論,能夠提高準(zhǔn)確率與召回率約10%。今后將重點(diǎn)考慮在此基礎(chǔ)上以定量與定性相結(jié)合的方式進(jìn)行研究。

參考文獻(xiàn):

[1] HEARST M A. Direction-based text interpretation as an information access refinement[C]. Text-Based Intelligent Systems,2002: 257-274.

[2] NASUKAWA T, YI J. Sentiment analysis: capturing favorability using natural language processing[C]. International Conference on Knowledge Capture,2003: 70-77.

[3] YAN Z, XING M, ZHANG D, et al. EXPRS: an extended pagerank method for product feature extraction from online consumer reviews[J]. Information & Management,2015, 52(7):850-858.

[4] YI J,NASUKAWA T,BUNESCU,et a1.Sentiment analyzer:extracting sentiments about a given topicusing natural language processing techniques[C]. Third IEEE International Conference,2003:427-434.

[5] HU N,PAVLOU P A,ZHANG J.Can online reviews reveal a product's true quality:empirical findingsand analytical modeling of online word of mouth communication[C]. Proceedings of the 7th ACMconference on Electronic commerce,2006:324-330.

[6] ARCHAIC N,GHOSE A,IPEIROTIS P G. Show me the money:deriving the pricing power of productfeatures by mining consumer reviews[C]. Proceedings of the 13th ACM SIGKDD Intemational Conference on Knowledge Discovery and Data Raining,2007:56-65.

[7] SOO-MIN K,HOVY E. Determining the sentiment of opinions[C]. Proceedings of the 20th International Conference On Computational Linguistics,2004:1367-1373.

[8] PARK S, LEE K S, SONG J. Contrasting opposing views of news articles on contentious issues[J]. Proceedings of the Association for Computational Linguistics, 2011,33(14): 340-349.

[9] 徐琳宏,林鴻飛,楊志豪. 基于語(yǔ)義理解的文本傾向性識(shí)別[J]. 中文信息學(xué)報(bào),2007,21(1):96-100.

[10] 孫曉,唐陳意. 基于層疊模型細(xì)粒度情感要素抽取及傾向分析[J]. 模式識(shí)別與人工智能, 2015(6): 531-520.

[11] 何晶璟. 追加評(píng)論對(duì)消費(fèi)者購(gòu)買意愿的影響[J]. 知識(shí)經(jīng)濟(jì),2014(9):92-94.

[12] 汪濤,王魁,陳厚. 時(shí)間間隔何時(shí)能夠提高在線評(píng)論的有用性感知—基于歸因理論的視角[J]. 商業(yè)經(jīng)濟(jì)與管理,2015(2):46-56.

[13] 劉曉云,章艮鳳,徐麗麗. 在線追加評(píng)論對(duì)消費(fèi)者網(wǎng)購(gòu)意愿的影響研究[J].? 經(jīng)營(yíng)管理者,2015(21):278-279.

[14] 王洪偉, 鄭麗娟, 尹裴, 等. 基于句子級(jí)情感的中文網(wǎng)絡(luò)評(píng)論的情感極性分類[J]. 管理科學(xué)學(xué)報(bào), 2013, 16(9): 64-74.

[15] 唐曉波, 朱娟, 楊豐華. 基于情感本體和KNN算法的在線評(píng)論情感分類研究[J]. 情報(bào)理論與實(shí)踐, 2016(6): 110-114.

[16] KARTHIKEYAN T, RAVIKUMAR N. A survey on association rule mining[J].? International Journal of Advanced Research in Computer and Communication Engineering,2014,3(1):5223-5227.

[17] MANKAR S A, INGLE M. Implicit sentiment identification using aspect based opinion mining[J].? International Journal on Recent and Innovation Trends in Computing and Communication, 2015, 3(4):2184–2188.

[18] LAZHAR F,YAMINA T-G. Mining explicit and implicit opinions from reviews[J].? International Journal of Data Mining, Modelling and Management, 2016,8(1):75-92.

[19] SANTU K K S, SONDHI P, ZHAI C. Generative feature language models for mining implicit features from customer reviews[C]. Proceedings of the Twenty-Fifth ACM International on Conference on Information and Knowledge Management,2016:929-938.

(責(zé)任編輯:何 麗)

猜你喜歡
情感分析特征提取
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
基于Daubechies(dbN)的飛行器音頻特征提取
基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評(píng)價(jià)對(duì)象抽取研究
一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
在線評(píng)論情感屬性的動(dòng)態(tài)變化
基于DSP的直線特征提取算法
基于MED和循環(huán)域解調(diào)的多故障特征提取
Walsh變換在滾動(dòng)軸承早期故障特征提取中的應(yīng)用
班玛县| 建昌县| 漠河县| 上高县| 磐石市| 元阳县| 延津县| 吉安县| 甘肃省| 大丰市| 大荔县| 手游| 五常市| 昭平县| 兴城市| 黄浦区| 垦利县| 翁源县| 双柏县| 白河县| 康马县| 留坝县| 远安县| 溧水县| 阿拉善右旗| 平昌县| 黄石市| 海丰县| 大田县| 新营市| 乡城县| 长丰县| 阿克苏市| 西平县| 南宫市| 湘潭县| 清苑县| 温州市| 寻乌县| 寿光市| 绥化市|