耿曉利 陳淋
摘 要: 電子商務(wù)的迅速發(fā)展使得用戶滿意度分析的重要性日益凸顯,傳統(tǒng)的用戶滿意度分析大部分基于認(rèn)知理論,且難以適應(yīng)復(fù)雜的語(yǔ)言環(huán)境。針對(duì)此問(wèn)題,提出一種基于情感分析及LDA模型的在線用戶購(gòu)買(mǎi)滿意度影響因素挖掘方法。首先對(duì)在線用戶的評(píng)論文本進(jìn)行情感極性分析確定用戶情緒極性,通過(guò)語(yǔ)義網(wǎng)分析提取評(píng)論數(shù)據(jù)中影響用戶滿意度的因素指標(biāo),利用詞頻分析以及LDA主題模型,確定及驗(yàn)證用戶滿意度最重要的影響因素,最后,通過(guò)京東網(wǎng)蘋(píng)果手機(jī)商品的評(píng)論數(shù)據(jù)驗(yàn)證方法的有效性。
關(guān)鍵詞: 用戶滿意度; 情感分析; LDA模型
中圖分類號(hào): TP391.3
文獻(xiàn)標(biāo)志碼: A
文章編號(hào):1007-757X(2019)06-0038-04
Abstract: This study proposes a method of mining online users impact factors based on the LDA model and sentiment analysis. Firstly, the user's emotional polarity is determined by sentiment analysis. Secondly, the factors that influence the customer satisfaction are extracted by semantic network analysis, and then word frequency analysis and LDA topic model are used to verify and validate the most important factors affecting customer satisfaction. At last, the data of customers satisfaction in Jingdong Mall are used to check the validation.
Key words: Customers satisfaction; Sentiment analysis; LDA model
0?引言
電子商務(wù)的飛速展使得在線購(gòu)物成為人們生活必不可少的一項(xiàng),人們?cè)诰W(wǎng)上挑選商品的同時(shí)也關(guān)注商品的評(píng)論信息,據(jù)調(diào)查,有近70%的用戶很在意商品的在線評(píng)論,且有近50%的人把在線評(píng)論當(dāng)作影響其是否購(gòu)買(mǎi)的重要決策因素。據(jù)悉,用戶的在線評(píng)論往往涵蓋其購(gòu)買(mǎi)商品后的滿意情況以及不滿意的原因,因而可以通過(guò)挖掘在線評(píng)論文本中隱藏的用戶情感以及滿意情況,自動(dòng)識(shí)別用戶的潛在需求。根據(jù)已有的文獻(xiàn)信息,關(guān)于“網(wǎng)上購(gòu)買(mǎi)滿意度影響因素”的主題研究已有很多學(xué)者在研究,大部分學(xué)者從用戶使用體驗(yàn)出發(fā),基于顧客滿意度模型,采用結(jié)構(gòu)方程模型[1]的方法進(jìn)行研究,揭示觀測(cè)變量和潛變量的關(guān)系及各潛變量之間的相互關(guān)系等,評(píng)價(jià)顧客滿意度模型并對(duì)模型進(jìn)行修正。也有少數(shù)學(xué)者利用文本挖掘中情感分析的方法,如劉甲學(xué)[2]利用微軟開(kāi)發(fā)的商業(yè)智能軟件POWER BI對(duì)用戶評(píng)論文本進(jìn)行數(shù)據(jù)挖掘,提取評(píng)論數(shù)據(jù)中影響用戶滿意度的因素,再利用情感分析法進(jìn)行分值計(jì)算,從而識(shí)別出最重要的影響因素。但語(yǔ)言的復(fù)雜性仍處于探索階段,為增加分析結(jié)果的準(zhǔn)確率,本文通過(guò)引入語(yǔ)義的概念,更深層次的挖掘用戶的滿意度影響因素。本文提出在線用戶滿意度影響因素挖掘框架主要包括四個(gè)部分如圖1所示。
(1) 采集樣本數(shù)據(jù)并對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,從而得到“干凈”的文本數(shù)據(jù);(2) 基于情感分析和語(yǔ)義網(wǎng)絡(luò)分析,進(jìn)行用戶評(píng)論文本情感極性判斷(積極還是消極),并根據(jù)結(jié)果確定用戶的滿意度程度同時(shí)根據(jù)特征詞提取影響在線購(gòu)物用戶滿意度的因素指標(biāo);(3) 根據(jù)詞頻分析,確定特征關(guān)鍵詞出現(xiàn)的頻次,總結(jié)出影響用戶滿意度最重要的幾項(xiàng)因素指標(biāo);(4) 基于LDA模型自動(dòng)識(shí)別用戶的真正需求,并驗(yàn)證前面得到的用戶滿意度影響因素指標(biāo)是否正確。
1?相關(guān)研究綜述
1.1?情感分析
情感分析(sentiment analysis),是指分析人們對(duì)例如服務(wù)、產(chǎn)品、組織、問(wèn)題、事件、主題等實(shí)體以及其屬性的評(píng)價(jià)、觀點(diǎn)、態(tài)度、情感的研究領(lǐng)域,也稱為情感挖掘、傾向性分析、意見(jiàn)挖掘、觀點(diǎn)抽取等。[3]文本情感分析就是判斷文本作者所反映的情感態(tài)度是正面或負(fù)面,褒義或貶義,積極或消極。[4]情感分析的主要目的是對(duì)結(jié)果挖掘有價(jià)值的信息進(jìn)行預(yù)測(cè),并以更直接的方式向用戶展示預(yù)測(cè)結(jié)果。例如挖掘某電商網(wǎng)上用戶對(duì)手機(jī)評(píng)論文本,分析用戶對(duì)“品牌,外觀,價(jià)格,功能,屏幕尺寸,配置,續(xù)航待機(jī)”等屬性的情感傾向。Turney[5]等指出,文本傾向性分析也稱為情感分類,通過(guò)對(duì)文本中的觀點(diǎn)態(tài)度的分析來(lái)判斷文本的情感傾向,并以類別形式來(lái)表示結(jié)果。情感分析的相關(guān)研究對(duì)自然語(yǔ)言處理領(lǐng)域產(chǎn)生重大影響,同時(shí)也影響著政治學(xué),經(jīng)濟(jì)學(xué),社會(huì)科學(xué)等與人們的觀點(diǎn)相關(guān)的領(lǐng)域。本文將先對(duì)文本進(jìn)行情感傾向分析,積極情緒表示滿意,消極情緒表示對(duì)產(chǎn)品不滿意,通過(guò)分析了解用戶對(duì)產(chǎn)品的滿意程度。
1.2?LDA模型
LDA全稱為潛在狄利克雷分配(Latent Dirichlet Allocation)是由Blei等人[6]在2003年提出的生成式主題模型。生成模型,即每個(gè)文本的每個(gè)詞都是通過(guò)一定概率選擇某個(gè)主題,并從這個(gè)主題中通過(guò)一定的概率選擇某個(gè)詞語(yǔ)。
LDA模型又稱為三層貝葉斯概率模型[7],包含文檔,主題,詞三種結(jié)構(gòu),因此將LDA模型應(yīng)用于用戶評(píng)論挖掘領(lǐng)域,可以通過(guò)判斷文本的相似性,進(jìn)行更深層次的語(yǔ)義挖掘,并將文本中隱含的主題挖掘出來(lái),一個(gè)文本中如果包含多個(gè)主題,有些可以代表不同主題的詞語(yǔ)會(huì)頻繁出現(xiàn),運(yùn)用主題模型,能夠發(fā)現(xiàn)詞語(yǔ)出現(xiàn)的規(guī)律,利用這些規(guī)律將關(guān)聯(lián)詞語(yǔ)聯(lián)系起來(lái),從而得到文本中潛在的有用信息。比如,手機(jī)的商品評(píng)論中,代表手機(jī)特征的詞語(yǔ)如“速度快”“屏幕”“性價(jià)比”等會(huì)反復(fù)出現(xiàn)在評(píng)論里,此時(shí)運(yùn)用主題模型,將手機(jī)代表性特征相關(guān)的情感詞語(yǔ)同相關(guān)特征詞聯(lián)系起來(lái),從而深入了解用戶評(píng)價(jià)的聚焦點(diǎn)以及用戶的潛在需求。
2?實(shí)驗(yàn)設(shè)計(jì)與分析
2.1?數(shù)據(jù)來(lái)源及預(yù)處理
為了更好的分析在線用戶購(gòu)買(mǎi)商品的滿意度,本文選取京東商城中的蘋(píng)果手機(jī)作為研究實(shí)驗(yàn)樣本,利用數(shù)據(jù)采集軟件(八爪魚(yú)爬蟲(chóng)軟件)對(duì)蘋(píng)果手機(jī)的用戶評(píng)論數(shù)據(jù)進(jìn)行采集,采用基于商品編碼的爬取方式,由于iphone手機(jī)有多個(gè)商家在售賣(mài),并呈現(xiàn)多頁(yè)顯示,因而在采集數(shù)據(jù)時(shí)制定一個(gè)翻頁(yè)循環(huán)列表,設(shè)定規(guī)則點(diǎn)擊每個(gè)產(chǎn)品抽取每一條評(píng)論。抽取的字段:主要有:價(jià)格、顏色、用戶名、用戶購(gòu)買(mǎi)信息、用戶評(píng)論內(nèi)容、評(píng)論時(shí)間等,最終爬取了67 840條用戶評(píng)論文本。
觀測(cè)采集后的文本發(fā)現(xiàn)其中存在很多對(duì)分析無(wú)用的數(shù)據(jù),例如重復(fù)數(shù)據(jù)、異常數(shù)據(jù)等。如果將這些數(shù)據(jù)一起進(jìn)行分析,會(huì)嚴(yán)重影響到建模的成果,最后導(dǎo)致分析結(jié)果的偏差,因此在分析前需要對(duì)其進(jìn)行數(shù)據(jù)清洗,本研究利用武漢大學(xué)研發(fā)的ROCTCM6軟件進(jìn)行文本數(shù)據(jù)的預(yù)處理,對(duì)評(píng)論文本進(jìn)行文本去重、機(jī)械壓縮去詞以及短句刪除。
1) 文本去重就是刪除評(píng)論數(shù)據(jù)中重復(fù)的部分。為避免去掉重復(fù)數(shù)據(jù)中的有用數(shù)據(jù),本文采用相對(duì)簡(jiǎn)單的思路對(duì)文本去重——兩兩對(duì)比法,完全相同內(nèi)容的就去除一條,保證所有的有用數(shù)據(jù)保留下來(lái)。
2) 機(jī)械壓縮去詞就是比如“哈哈哈哈哈哈”“好評(píng)好評(píng)好評(píng)”,這樣存在連續(xù)重復(fù)的語(yǔ)料,也是較長(zhǎng)又無(wú)意義評(píng)論。因此需要對(duì)其進(jìn)行機(jī)械壓縮去詞,即是將其機(jī)械壓縮為“哈”“好評(píng)”,把重復(fù)累贅的表達(dá)去掉,而短而無(wú)意義的文本會(huì)在后邊進(jìn)行的短句去除中處理掉。
3) 短句刪除,由語(yǔ)言的特點(diǎn)可知,字?jǐn)?shù)越少能夠表達(dá)的意思越少,所以要表達(dá)相關(guān)意思是一定要有相應(yīng)數(shù)量的字?jǐn)?shù),過(guò)少字?jǐn)?shù)的評(píng)論必然是沒(méi)有意義的,為此,需要將保留評(píng)論字?jǐn)?shù)下限外的短句去除。一般4-8個(gè)國(guó)際字符都是較為合理的下限。
2.2?基于情感分析用戶滿意度情況
情感極性分析是對(duì)帶有主觀情感成分的文本進(jìn)行語(yǔ)義分析,識(shí)別該文本的情感傾向是正面、負(fù)面還是中立。從技術(shù)上情感分析可分為基于情感詞匯語(yǔ)義特性分析和統(tǒng)計(jì)自然語(yǔ)言處理分析,本文將使用基于情感詞匯語(yǔ)義特性進(jìn)行分析文本情感的方法,借助情感詞典判斷該文本整體情感傾向。[8]本文借助ROSTCM6軟件將評(píng)論數(shù)據(jù)分割為三大組,積極,消極,中性。評(píng)論前帶有前綴評(píng)分代碼,從數(shù)字可以看出各個(gè)評(píng)論的情感強(qiáng)度,如圖2所示。
根據(jù)圖3數(shù)據(jù)顯示,關(guān)于京東上蘋(píng)果手機(jī)產(chǎn)品的用戶評(píng)論,有71.74%的用戶評(píng)論帶有積極情緒的較多,表示大多數(shù)的用戶對(duì)該產(chǎn)品很滿意,中級(jí)情緒的占15.17%,則表明有15%左右的客戶對(duì)該產(chǎn)品無(wú)感,不是很滿意,13%的用戶帶有消極情緒,說(shuō)明還是有13%的用戶是非常不滿意的。且在情緒強(qiáng)度方面,大部分的用戶帶有積極情緒的強(qiáng)度普遍比帶有消極情緒高,不過(guò)也不能排除哪些消極情緒的用戶,有接近3%的用戶消極情緒達(dá)到中度以上,對(duì)該產(chǎn)品也在評(píng)論中反應(yīng)出極其的不滿意。因而針對(duì)這些消極情緒的評(píng)論,商家要認(rèn)真對(duì)待,并反思原因,爭(zhēng)取在最短的時(shí)間改善,從而換取用戶消極情緒的降低。
2.3?基于語(yǔ)義分析提取影響用戶滿意度的因素指標(biāo)
根據(jù)前面收集到的文本數(shù)據(jù),并對(duì)其進(jìn)行情感分析,標(biāo)注出哪些是屬于積極情感,哪些歸屬于負(fù)面情感,利用這些文本進(jìn)行語(yǔ)義網(wǎng)絡(luò)的構(gòu)建。在ROSTCM6界面,分別把積極情感詞匯與消極情感詞匯導(dǎo)入軟件中,點(diǎn)擊功能性分析,再點(diǎn)擊語(yǔ)義網(wǎng)絡(luò)與語(yǔ)義網(wǎng)絡(luò)分析,分別得到積極詞匯語(yǔ)義網(wǎng)絡(luò)圖與消極詞匯語(yǔ)義網(wǎng)絡(luò)圖,如圖4和圖5所示。
根據(jù)語(yǔ)義網(wǎng)絡(luò)可以直觀的看到用戶關(guān)注的點(diǎn),而且語(yǔ)義網(wǎng)絡(luò)圖的有向性能夠看到詞語(yǔ)的關(guān)聯(lián)性。圖4可以看到用戶所反映的狀況:手機(jī)漂亮,蘋(píng)果系統(tǒng)流暢速度快,屏幕好質(zhì)量好,包裝好是全新正品。京東值得信賴,物流速度快,服務(wù)好,購(gòu)物體驗(yàn)好等。圖5可以看到用戶所反映的狀況:手機(jī)發(fā)熱,不夠流暢反應(yīng)慢,鋼化、電池有毛病,質(zhì)量不夠好,聲音小,屏幕不合適,缺少發(fā)票,降價(jià)速度快。京東送貨速度慢,銷售的不是新機(jī),售后賣(mài)家態(tài)度不好,不夠讓消費(fèi)者放心等。
根據(jù)上文分析,本文提取影響用戶滿意度的主要因素有產(chǎn)品的質(zhì)量、價(jià)格、物流、服務(wù)以及京東自營(yíng)影響力,具體指標(biāo)如表1所示。
2.4?基于詞頻分析影響用戶滿意度的因素權(quán)重
為了進(jìn)一步了解用戶更重視哪些影響因素,本研究將利用高頻詞云圖來(lái)直接觀察用戶當(dāng)時(shí)熱點(diǎn)關(guān)注的話題,詞云可以把在評(píng)論文本數(shù)據(jù)中出現(xiàn)頻率較高的詞匯突顯出來(lái),詞匯出現(xiàn)次數(shù)越多,字體越大,視覺(jué)沖擊越強(qiáng)。且能根據(jù)詞云中字體大小不同的特點(diǎn),形成詞云層。從而過(guò)濾了大量的文本信息,人們不用去查看更多的信息,只需瀏覽便能了解大概主旨信息。
本文借助R軟件分別對(duì)積極情緒的文本及消極情緒的文本制作高頻詞云,可以得到積極情緒高頻詞云以及消極情緒高頻詞云,如圖6和圖7所示。
由于分詞軟件的局限性,有些詞匯因不在詞典里而被分開(kāi),如“不好”、“不是正品”、“不快”等,因此本文根據(jù)圖6和圖7的分詞結(jié)果,并結(jié)合原有的基礎(chǔ)數(shù)據(jù)進(jìn)行結(jié)果分析。
據(jù)圖6可以看到“不錯(cuò)”“流暢”“屏幕”“質(zhì)量”“服務(wù)”“態(tài)度”“速度”“系統(tǒng)”“京東”“正品”“價(jià)格”等等關(guān)鍵詞出現(xiàn)的頻率較高,從而可以反映出:手機(jī)運(yùn)行流暢、速度快、系統(tǒng)體驗(yàn)好、屏幕好、價(jià)格實(shí)惠、京東銷售正品、售后服務(wù)態(tài)度好等是用戶更注重的影響因素。
據(jù)圖7可以看到“不”“聲音”“小”“問(wèn)題”“垃圾”“價(jià)格”“屏幕”“翻新”“包裝”“速度”“時(shí)間”“換貨”“態(tài)度”“差”“慢”等關(guān)鍵詞出現(xiàn)的頻率較高,從而可以反映出:手機(jī)聲音比較小、質(zhì)量有問(wèn)題、屏幕不合適、手機(jī)價(jià)格貴、商品出現(xiàn)翻新、包裝不夠好、物流時(shí)間長(zhǎng)速度慢、售后態(tài)度不夠好等是用戶不滿意的重要原因。
綜合可知,手機(jī)的質(zhì)量,價(jià)格和服務(wù)態(tài)度、物流,這四個(gè)指標(biāo)都是用戶很關(guān)心的指標(biāo),其中“質(zhì)量”指標(biāo)中,“系統(tǒng)是否流暢、是否正品新機(jī)”這兩個(gè)二級(jí)指標(biāo)是用戶更看中的;在一級(jí)指標(biāo)“價(jià)格”中,“性價(jià)比是否值得購(gòu)買(mǎi)”是用戶更看中的;在“服務(wù)態(tài)度”指標(biāo)中,“售后服務(wù)態(tài)度”是用戶更看中的;“物流”指標(biāo)中,“送貨速度、包裝質(zhì)量”是用戶更看中的。
2.5?構(gòu)建LDA模型挖掘用戶潛在需求
通過(guò)之前的步驟,本文用ROSTCM6進(jìn)行情感分析機(jī)器分類,生成得到三種情感結(jié)果文本,抽取“積極情感結(jié)果”和“消極情感結(jié)果”進(jìn)行分析,并且對(duì)兩個(gè)文本進(jìn)行分詞。
筆者通過(guò)利用R軟件構(gòu)建在線用戶的LDA模型,首先利用該軟件對(duì)兩個(gè)文本分別進(jìn)行分詞處理,再通過(guò)刪除停用詞處理,將一些如“的”“了”“吧”等無(wú)用的詞刪除。然后借助R軟件中的主題模型函數(shù)包,進(jìn)行建模探究,最后積極情感文檔與消極情感文檔的主題各得到3個(gè),如圖8與圖9所示。
根據(jù)該產(chǎn)品積極情緒的3個(gè)潛在主題的特征詞提取,主題1中的高頻特征詞,京東,價(jià)格,客服,滿意,好用,流暢,速度快,主要反映京東客服態(tài)度令人滿意,手機(jī)好用速度快,價(jià)格好。主題2中的高頻特征詞,物流,快遞,發(fā)貨,送貨,滿意,服務(wù),包裝,屏幕,主要反映物流發(fā)貨送貨速度快,服務(wù)好,包裝的好,屏幕完好。主題3中的高頻特征詞,正品,速度,很快,質(zhì)量,系統(tǒng),值得,主要反映手機(jī)是正品質(zhì)量好,系統(tǒng)好速度快,值得購(gòu)買(mǎi)。根據(jù)該產(chǎn)品的消極情緒的3個(gè)潛在主題的特征詞提取,主題1中的高頻特征詞,問(wèn)題,屏幕,小,不好,發(fā)票,系統(tǒng),卡,發(fā)貨,主要反映手機(jī)屏幕小,質(zhì)量不好,缺少發(fā)票,系統(tǒng)卡,發(fā)貨慢。主題2中的高頻特征詞京東,快遞,速度,包裝,聲音,打電話,死機(jī),流暢,主要反映京東快遞速度慢,包裝不夠好,手機(jī)打電話聲音小,容易死機(jī)不夠流暢。主題3中的高頻特征詞,物流,問(wèn)題,客服,降價(jià),送貨,主要反映物流送貨慢,提問(wèn)客服回答不滿意,手機(jī)降價(jià)快。根據(jù)LDA構(gòu)建產(chǎn)品在線評(píng)論文本的主題模型可知,用戶的需求主要還是傾向于產(chǎn)品的質(zhì)量、價(jià)格、服務(wù)態(tài)度、物流速度。同時(shí)也驗(yàn)證了這幾個(gè)因素是影響用戶滿意度的主要指標(biāo)。
3?總結(jié)
本文在考慮文本的語(yǔ)義關(guān)聯(lián)的基礎(chǔ)上,引入的語(yǔ)義網(wǎng)絡(luò)和主題模型的方法,通過(guò)分析商品評(píng)論文本的情感極性,確定用戶購(gòu)買(mǎi)商品的滿意度情況。實(shí)驗(yàn)結(jié)果表明,通過(guò)該研究方法,可以有效的了解用戶滿意度情況,同時(shí)也很方便的提取出用戶對(duì)產(chǎn)品滿意或不滿意的因素指標(biāo)。對(duì)商家改進(jìn)服務(wù)和促進(jìn)銷售具有積極的意義。但因評(píng)論文本的非正式化,口語(yǔ)化偏多,筆者使用的情感詞表語(yǔ)料庫(kù)不完整,有些詞匯不能完全匹配出,導(dǎo)致在分析的準(zhǔn)確性上有一定的局限性。目前有很多的語(yǔ)言學(xué)專家專門(mén)研究情感詞詞典,在后續(xù)的工作中可以研究這些情感詞詞典的應(yīng)用場(chǎng)景,以更好的實(shí)現(xiàn)用戶與專家研究的有效結(jié)合。
參考文獻(xiàn)
[1]?向堅(jiān)持,陳曉紅.基于結(jié)構(gòu)方程模型的客戶滿意度建模及參數(shù)估計(jì)方法[J].湖南師范大學(xué)自然科學(xué)學(xué)報(bào),2009,32(2):31-36.
[2]?劉甲學(xué),陶易. 基于情感分析的評(píng)論數(shù)據(jù)用戶滿意度影響因素研究[J]. 現(xiàn)代情報(bào),2017,37(7):66-69.
[3]?楊佳能. 基于語(yǔ)義分析的中文微博情感分類研究[D]. 廣州:廣東外語(yǔ)外貿(mào)大學(xué), 2015.
[4]?羅芳. 意見(jiàn)挖掘中若干關(guān)鍵問(wèn)題研究[D]. 武漢:武漢理工大學(xué), 2012.
[5]?Turney P D. Littman M L. Measuring praise and criticism:inference of semantic orientation from association [J]. ACM Transactions on Information Systems,2003,21(4):315-346.
[6]?Blei D M,Ng A Y, Jordan M I. ?Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003, (3): 993-1002.
[7]?David M. Blei,John D. Lafferty. Dynamic topic models. In: Proc. of the ACM SIGKDD, Pittsburgh, Pennsylvania, USA, June 25-29, 2006:424-433.
[8]?趙鵬,何留進(jìn),孫凱,等. 基于情感計(jì)算的網(wǎng)絡(luò)中文信息分析技術(shù)[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2010(11):152-155.
(收稿日期: 2018.05.16)