吳楠楠 石家程 劉勝?gòu)?qiáng)
摘? 要:在互聯(lián)網(wǎng)高度發(fā)展和智能技術(shù)普及的大環(huán)境下,電商平臺(tái)出現(xiàn)了大量的評(píng)論數(shù)據(jù),它們對(duì)挖掘用戶需求和建立商品口碑具有重要價(jià)值。文章爬取了京東電商平臺(tái)上某品牌手機(jī)的評(píng)論數(shù)據(jù),并基于預(yù)處理之后的數(shù)據(jù)進(jìn)行了傾向性分析和LDA主題模型分析。研究結(jié)果表明,該品牌手機(jī)具有外觀好看、充電快、性價(jià)比高和拍照功能強(qiáng)大等優(yōu)勢(shì),但也有新品定價(jià)偏貴、保值率低、售后服務(wù)差、部分包裝零件不全等不足之處。所得結(jié)論為該品牌手機(jī)升級(jí)提供一定的參考依據(jù)。
關(guān)鍵詞:傾向性分析;LDA主題模型;品牌手機(jī)
中圖分類號(hào):TP181? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)02-0012-03
Analysis of Comment Data of a Brand Mobile Phone Based on LDA Theme Model
WU Nannan, SHI Jiacheng, LIU Shengqiang
(School of Mathematical & Computing Science, Guilin University of Electronic Technology, Guilin? 541004, China)
Abstract: In the context of the high development of the Internet and the popularization of intelligent technology, a large number of review data have emerged on E-commerce platforms, which are of great value in mining user needs and establishing product reputation. It crawls the review data of a brand's mobile phone on JD E-commerce platform, and conducts a tendentiousness analysis and LDA theme model analysis based on the pre processed data. The research results show that the mobile phone of this brand has the advantages of good-looking appearance, fast charging, high cost performance and strong photographing function, but it also has the disadvantages of expensive new product pricing, low value preservation rate, poor after-sales service, and incomplete parts of some packaging. The conclusion provides a reference for the upgrading of the mobile phone of this brand.
Keywords: tendentiousness analysis; LDA theme model; brand mobile phone
0? 引? 言
隨著互聯(lián)網(wǎng)的高度發(fā)展以及智能技術(shù)的普及,網(wǎng)絡(luò)購(gòu)物已成為一種熱潮,也成為人們購(gòu)物的一種主要方式。電商評(píng)論數(shù)據(jù)是指用戶在電商平臺(tái)完成購(gòu)物后,對(duì)已購(gòu)買的商品進(jìn)行評(píng)論所產(chǎn)生的文本數(shù)據(jù),這些數(shù)據(jù)里蘊(yùn)涵了顧客購(gòu)買后的主觀感受,反映了購(gòu)買者對(duì)商品及服務(wù)的態(tài)度、立場(chǎng)和意見(jiàn),因此這些評(píng)論數(shù)據(jù)也是潛在客戶在購(gòu)物之前的決策參考,從而越來(lái)越多的商家和顧客關(guān)注電商評(píng)論數(shù)據(jù)[1]。傾向性分析是指通過(guò)分析和歸納用戶對(duì)事件或商品的評(píng)論文本,進(jìn)而發(fā)現(xiàn)或找到用戶所持有的觀點(diǎn)[2]。因此,傾向性分析能從用戶的評(píng)論數(shù)據(jù)中挖掘出顧客的主觀感受,這些感受或信息可以幫助商家改善自身缺點(diǎn),提高其服務(wù)質(zhì)量,從而吸引更多顧客購(gòu)買。
某品牌手機(jī)作為中國(guó)乃至全世界的知名品牌手機(jī),它的發(fā)展屬于中高端市場(chǎng),雖然在國(guó)外的發(fā)展中具有一定的優(yōu)勢(shì),但在國(guó)內(nèi)的市場(chǎng)中所占份額不大,這說(shuō)明中國(guó)手機(jī)行業(yè)的競(jìng)爭(zhēng)非常激烈,同時(shí)該品牌手機(jī)在國(guó)內(nèi)市場(chǎng)中也存在某些競(jìng)爭(zhēng)劣勢(shì)。為能挖掘出該品牌手機(jī)在國(guó)內(nèi)市場(chǎng)上的優(yōu)勢(shì)和不足之處,本文對(duì)該品牌手機(jī)電商進(jìn)行了傾向性分析以及LDA主題模型分析。
1? LDA主題模型的簡(jiǎn)介
LDA主題模型,即潛在狄利克雷分配,由Blei等人在2003年提出[3],該模型對(duì)詞匯、主題和文檔的三層結(jié)構(gòu)進(jìn)行貝葉斯概率分布,認(rèn)為每個(gè)文檔由多個(gè)主題構(gòu)成,每個(gè)主題由多個(gè)特征詞匯構(gòu)成,文檔中的每個(gè)詞匯都是按照“以一定的概率選擇了某個(gè)主題,并從該主題中以一定的概率選擇了某個(gè)詞匯”的方式來(lái)獲得,將上述步驟重復(fù)即可獲得整個(gè)文檔[4]。
LDA模型一種采用詞袋的模型,它將每個(gè)文檔視為詞頻向量,并將文本信息轉(zhuǎn)換為易于建模的數(shù)字信息。LDA主題模型基于三個(gè)假設(shè)[5]:
(1)假設(shè)某一商品的評(píng)論集D由M篇評(píng)論(文檔)構(gòu)成,記為D=d1, d2,…, dM;每篇評(píng)論(文檔)中存在K個(gè)互相獨(dú)立的主題Zm,i(i=1, 2,…, K),并由K個(gè)主題隨機(jī)混合組成;每個(gè)主題下由N個(gè)詞wm,n(n=1, 2,…, N)構(gòu)成評(píng)論,每個(gè)詞是一個(gè)L維向量(1, 0, 0, …, 0, 0)。
(2)每篇評(píng)論(文檔)在主題上服從多項(xiàng)式分布,每個(gè)主題在單個(gè)詞上服從多項(xiàng)式分布。
(3)每一篇文檔在主題上的多項(xiàng)式分布的先驗(yàn)分布是參數(shù)為α的Dirichlet分布,每一個(gè)主題在詞匯上的多項(xiàng)式分布的先驗(yàn)分布是參數(shù)為β的Dirichlet分布。在以上假設(shè)下,對(duì)于評(píng)論(文檔)集D中的評(píng)論(文檔)dm,LDA模型生成文本的方式如下[3,5,6]:
1)從參數(shù)為α的Dirichlet分布中進(jìn)行采樣,生成第m個(gè)評(píng)論(文檔)的主題多項(xiàng)式分布θm。
2)從主題多項(xiàng)式分布θm中進(jìn)行采樣,生成第m個(gè)評(píng)論(文檔)第n個(gè)詞匯的主題Zm,n。
3)從參數(shù)為β的Dirichlet分布中進(jìn)行采樣,生成主題Zm,n所對(duì)應(yīng)的詞匯多項(xiàng)式分布φk。
4)從φk中進(jìn)行采樣,最終生成匯wm,n,其中,m∈[1, M ],n∈[1, Nm],k∈[1, K ],M為待處理評(píng)論(文檔)數(shù),Nm為第m個(gè)文本的總詞匯數(shù),K為待分類主題數(shù)。
LDA主題模型可采用變分最大期望法或Gibbs抽樣方法進(jìn)行參數(shù)估計(jì),訓(xùn)練出圖1中文本的主題分布概率θm以及主題對(duì)應(yīng)的詞匯分布概率φk[6]。
2? 實(shí)證分析
2.1? 數(shù)據(jù)的獲取與預(yù)處理
本文通過(guò)Python軟件對(duì)“京東商城”中“某品牌手機(jī)銷售”商品的評(píng)論數(shù)據(jù)的爬取,主要爬取評(píng)論數(shù)據(jù)中的好評(píng)與差評(píng)數(shù)據(jù),約800條。在京東商城平臺(tái)上,若電商產(chǎn)品在用戶確認(rèn)收貨的一段時(shí)間后未給出評(píng)價(jià),則系統(tǒng)會(huì)默認(rèn)好評(píng),這種文本數(shù)據(jù)對(duì)本文的分析無(wú)實(shí)質(zhì)作用,故需刪除。同時(shí),論中夾雜著許多數(shù)字與字母,以及較高頻率出現(xiàn)“京東”“京東商城”等詞,但它們對(duì)本次分析也無(wú)實(shí)質(zhì)作用,因此在分詞之前也將這些數(shù)據(jù)清洗掉。
2.2? 傾向性分析
2.2.1? 匹配傾向性詞
在商品評(píng)論中,可以理解為用戶對(duì)該商品表達(dá)自身觀點(diǎn)所持的態(tài)度是支持、反對(duì)還是中立。本文采用2007年10月知網(wǎng)分布的“傾向性分析用詞(beta版)”詞典匹配的方法,主要使用“中文正面評(píng)價(jià)”“中文負(fù)面評(píng)價(jià)”詞表。將每個(gè)“中文正面評(píng)價(jià)”詞語(yǔ)賦予初始權(quán)重1,作為本文的正面評(píng)價(jià)表;將每個(gè)“中文負(fù)面評(píng)價(jià)”賦予每個(gè)詞語(yǔ)初始權(quán)值-1,作為本文的負(fù)面評(píng)價(jià)表。
在匹配評(píng)價(jià)詞的時(shí)候,較多詞語(yǔ)在網(wǎng)絡(luò)購(gòu)物評(píng)論上出現(xiàn),但不在本次匹配表的詞庫(kù)中,因此要進(jìn)行詞語(yǔ)的優(yōu)化。例如“滿意”“好評(píng)”“很快”“還好”“還行”等根據(jù)詞語(yǔ)傾向添加至對(duì)應(yīng)的中文正面詞表內(nèi);同樣的,將“差評(píng)”“貴”“問(wèn)題”等詞語(yǔ)添加到中文負(fù)面詞表內(nèi)。
2.2.2? 修正傾向性詞語(yǔ)
詞語(yǔ)的傾向性修正是指通過(guò)查看傾向性詞的前兩個(gè)位置的詞中是否具有否定詞來(lái)判斷傾向性詞的正確性,如果存在否定詞,則當(dāng)否定詞出現(xiàn)奇數(shù)次時(shí),表示否定意義,將該詞調(diào)整為相反的傾向性詞性;而當(dāng)否定詞出現(xiàn)偶數(shù)次時(shí),表示的是肯定詞性,此時(shí)不需要調(diào)整詞性。如果傾向性詞的前兩個(gè)位置的詞中沒(méi)有否定詞,則也不需要調(diào)整詞性。本次分析所使用的否定詞主要有19個(gè),分別是:不、沒(méi)有、無(wú)、非、莫等。
2.2.3? 檢驗(yàn)傾向性詞分析結(jié)果
將原始評(píng)論的評(píng)論類型與基于詞表的傾向性詞分析進(jìn)行比較,得到評(píng)論類型的混淆矩陣,如表1所示。在不存在選好評(píng)的標(biāo)簽而寫(xiě)了差評(píng)內(nèi)容的情況下,基于詞表的傾向性詞分析的準(zhǔn)確率為87.82%,這表明通過(guò)詞表的傾向性詞分析去判斷某文檔的傾向程度是有效的。
2.3? 基于LDA模型的主題分析
運(yùn)用LDA主題模型,可以求得詞匯在主題中的概率分布,并獲得屬于該主題的概率及同一主題下的其他特征詞,從而解決多個(gè)指代的問(wèn)題。
計(jì)算主題間的平均余弦距離,該值最小,則相對(duì)應(yīng)的主題數(shù)最優(yōu)。正面評(píng)論和負(fù)面評(píng)論主題間平均余弦距離圖分別如圖2和圖3所示。圖2中橫軸代表主題數(shù),縱軸代表平均余弦,該圖表示當(dāng)主題數(shù)為3時(shí)主題間的平均余弦相似度。因此,對(duì)于正面評(píng)論數(shù)據(jù)做LDA模型分析時(shí),主題數(shù)為3。同理,由圖3可得,負(fù)面評(píng)論數(shù),當(dāng)主題數(shù)為4時(shí),主題間的平均余弦相似度最低。
使用Python語(yǔ)言gensim庫(kù)和LdaModel庫(kù)下的LDA l函數(shù),對(duì)正面評(píng)論數(shù)據(jù)和負(fù)面評(píng)論數(shù)據(jù)分別構(gòu)建LDA主題模型。經(jīng)過(guò)LDA主題分析后,在每個(gè)主題下生成10個(gè)最有可能出現(xiàn)的詞語(yǔ),隨后對(duì)主題分析的結(jié)果進(jìn)行評(píng)價(jià),潛在的正負(fù)面主題分別如表2和表3所示。
由表2可知,主題1中的高頻特征詞主要是:不錯(cuò)、屏幕、清晰、效果、很快、充電等,主要反映了該品牌手機(jī)屏幕顯示效果清晰,充電速度很快;主題2中的高頻特征詞主要是:拍照、好看、流暢、價(jià)格、性價(jià)比等,主要反映了該品牌手機(jī)拍照功能強(qiáng)大,深受用戶喜愛(ài),且性價(jià)比高;主題3中的高頻特征詞主要是:外觀、運(yùn)行、快、物流、滿意等、主要反映了該品牌手機(jī)外觀好看,運(yùn)行速度快、物流快。
由表3可知,主題1中的高頻特征詞主要是:卡、降價(jià)、使用、價(jià)格等,主要反映了該品牌手機(jī)有卡頓現(xiàn)象,降價(jià)快,保值率低;主題2中的高頻特征詞主要是:慢、反應(yīng)、時(shí)間、發(fā)現(xiàn)、無(wú)充等,主要反映了該品牌手機(jī)反應(yīng)慢,存在有些包裝沒(méi)有配套充電器的問(wèn)題;主題3中的高頻特征詞主要是:不好、貴、客服、差評(píng)等,主要反映了該品牌手機(jī)貴,客服態(tài)度不好的問(wèn)題;主題4中的高頻特征詞主要是:感覺(jué)、網(wǎng)絡(luò)、差評(píng)等,主要反映了該品牌手機(jī)存在用戶購(gòu)買體驗(yàn)較差的問(wèn)題。
綜合以上對(duì)主題及其中對(duì)高頻特征詞的分析得出,該品牌手機(jī)的優(yōu)勢(shì)主要有以下幾個(gè)方面:外觀好看、充電快、性價(jià)比高、拍照功能強(qiáng)大等。相對(duì)而言,用戶對(duì)該品牌手機(jī)的抱怨點(diǎn)主要在新品定價(jià)偏貴、保值率低、售后服務(wù)差、部分包裝零件不全等。
3? 結(jié)? 論
本文采用LDA模型對(duì)京東網(wǎng)站的某品牌手機(jī)的評(píng)論數(shù)據(jù)進(jìn)行了文本分析。由正面傾向性詞分析得出用戶對(duì)該手機(jī)品牌的評(píng)論主要是外觀好看、充電快、性價(jià)比高、拍照功能強(qiáng)大等??梢钥闯觯脩魧?duì)該電商產(chǎn)品的品質(zhì)還是認(rèn)可的,這些被用戶認(rèn)可的地方,應(yīng)繼續(xù)加強(qiáng)管理,讓產(chǎn)品在眾多商品中脫穎而出。由負(fù)面傾向性詞的研究分析得出該品牌手機(jī)的新品定價(jià)偏貴、保值率低、售后服務(wù)差、部分包裝零件不全等。
本文的研究結(jié)論為該品牌手機(jī)升級(jí)提供了一定的參考依據(jù)。
參考文獻(xiàn):
[1] 劉玉林,菅利榮.基于文本情感分析的電商在線評(píng)論數(shù)據(jù)挖掘 [J].統(tǒng)計(jì)與信息論壇,2018,33(12):119-124.
[2] 李天辰,殷建平.基于主題聚類的情感極性判別方法 [J].計(jì)算機(jī)科學(xué)與探索,2016,10(7):989-994.
[3] BLEI D M,NG A Y,JORDAN M I. Latent Dirichlet Allocation [J].Journal of Machine Learning Research,2003(3):993-1022.
[4] 王鵬飛,張斌.基于文獻(xiàn)計(jì)量的國(guó)內(nèi)LDA主題模型研究進(jìn)展分析 [J].圖文情報(bào)研究,2020,13(2):85-91+111.
[5] 王麗君.詞向量和文本隱含主題的聯(lián)合學(xué)習(xí)研究 [D].武漢:華中師范大學(xué),2018.
[6] 袁揚(yáng),李曉,楊雅婷.基于LDA主題模型的維吾爾語(yǔ)無(wú)監(jiān)督詞義消岐 [J].廈門大學(xué)學(xué)報(bào):自然科學(xué)報(bào),2020,59(2),198-205.
作者簡(jiǎn)介:吳楠楠(2002.05—),男,漢族,湖北武穴人,本科在讀,研究方向:數(shù)據(jù)分析;石家程(2001.11—),男,漢族,海南樂(lè)東人,本科在讀,研究方向:數(shù)據(jù)分析;劉勝?gòu)?qiáng)(1998.01—),男,漢族,廣西桂林人,JAVA技術(shù)顧問(wèn),本科,研究方向:軟件開(kāi)發(fā)。
收稿日期:2022-09-06
基金項(xiàng)目:廣西大學(xué)生創(chuàng)新創(chuàng)業(yè)項(xiàng)目(201910595202)