国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Gensim的LDA主題模型分析在商品評價中的應(yīng)用

2021-11-28 10:53肖自乾陳經(jīng)優(yōu)符天
電腦知識與技術(shù) 2021年30期
關(guān)鍵詞:文本分析評價

肖自乾 陳經(jīng)優(yōu) 符天

摘要:目前在網(wǎng)上購物已成為大多數(shù)人的首選,避免購物途中的勞累并且也節(jié)約時間。文章基于LDA主題模型對電商平臺商品的評論數(shù)據(jù)進行分析,得出用戶正面評價和負面評價分別主要集中在哪些方面,并提出針對性的改進建議,從而提高商品的質(zhì)量和用戶體驗。

關(guān)鍵詞:Gemsim;LDA;文本分析;主題模型;評價

中圖分類號:G642? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)30-0017-03

開放科學(xué)(資源服務(wù))標識碼(OSID):

1引言

隨著信息技術(shù)的不斷發(fā)展革新,線下物流業(yè)的蓬勃發(fā)展,人們在電商平臺購物已成為生活的一部分。2020年中國網(wǎng)上零售額達11.76萬億元,同比增長10.9%,實物商品網(wǎng)上零售額達9.76萬億元,同比增長14.8%[1]。面對如此龐大用戶群體、如此龐大的交易額,商家如何高效準確地獲取客戶反饋對提高銷售量、提升客戶滿意度及提高服務(wù)質(zhì)量顯得尤為重要。因此課題從電商平臺著手,獲取海量用戶對某一產(chǎn)品的評價,如好評、差評等,接著進行文本主題分析,得到該產(chǎn)品有哪些方面的優(yōu)點和缺點,進而提供相關(guān)的改進建議。

2 LDA主題模型

2.1 文本分析

文本分析是指對文本的表示及其特征項的選取,它把從文本中抽取出的特征詞進行量化來表示文本信息。課題用數(shù)學(xué)的方法進行選取,找出最具分類信息的特征,這是一種比較精確的方法,尤其適合于文本自動分類挖掘系統(tǒng)的應(yīng)用[2]。

2.2 LDA的概念和方法

LDA(Latent Dirichlet Allocation)是一種文檔主題生成模型,也稱為三層貝葉斯概率模型,包含詞、主題和文檔三層結(jié)構(gòu)。LDA是一種非監(jiān)督機器學(xué)習(xí)技術(shù),可以用來識別大規(guī)模文檔集或語料庫中潛藏的主題信息,它采用了詞袋的方法,這種方法將每一篇文檔視為一個詞頻向量,從而將文本信息轉(zhuǎn)化為了易于建模的數(shù)字信息[3]。課題主要應(yīng)用Gensim庫中的LDA模型。Gensim是一款開源的第三方Python工具包,用于從原始的非結(jié)構(gòu)化的文本中,無監(jiān)督地學(xué)習(xí)到文本隱藏層的主題向量表達。它支持包括TF-IDF,LSA,LDA,和word2vec在內(nèi)的多種主題模型算法,支持流式訓(xùn)練,并提供了諸如相似度計算,信息檢索等一些常用任務(wù)的API接口。

3抓取筆記本電腦用戶評論

我們選取電商平臺上一款銷售量較高的筆記本電腦產(chǎn)品,查看“商品評論”可以看到分為好評、中評以及差評。在評論數(shù)據(jù)包含用戶ID、商品名稱、評論內(nèi)容以及評論時間等。在數(shù)據(jù)抓取中我們可以使用“requests”庫或者“Scrapy”爬蟲框架來實現(xiàn)。

我們編寫程序抓取“好評”評論,對每條記錄標記為“pos”,抓取“差評”,對每條記錄標記為“neg”。抓取評論頁數(shù)設(shè)置為50頁。最終獲取正面評論500條,負面評論360條。

4 數(shù)據(jù)處理分析及LDA模型構(gòu)建

4.1 語料處理

第一步是進行數(shù)據(jù)去重和刪除筆記本電腦名稱等無關(guān)詞組。抓取到的數(shù)據(jù)是比較完整的,里面存在諸如商品名、商品型號等重復(fù)數(shù)據(jù),我們需要對這些數(shù)據(jù)進行刪除,保留能反映商品優(yōu)缺點的評論內(nèi)容。

第二步是進行分詞、刪除標點符號和停用詞。中文分詞是中文文本處理的一個基礎(chǔ)步驟,也是中文人機自然語言交互的基礎(chǔ)模塊,在進行中文自然語言處理時,通常需要先進行分詞。在項目中我們引入jieba庫,jieba分詞算法使用了基于前綴詞典實現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能生成詞情況所構(gòu)成的有向無環(huán)圖(DAG),再采用了動態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合。對于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用了Viterbi算法。下一步是去除停用詞(Stop Words)。停用詞被譯為“電腦檢索中的虛字、非檢索用字”。在SEO 搜索引擎中,為節(jié)省存儲空間和提高搜索效率,搜索引擎在索引頁面或處理搜索請求時會自動忽略某些詞,這些字或詞即被稱為停用詞。停用詞一定程度上相當(dāng)于過濾詞(Filter Words),區(qū)別是過濾詞的范圍更大一些,包含敏感信息的關(guān)鍵詞都會被視作過濾詞加以處理,停用詞本身則沒有這個限制。通常意義上,停用詞大致可分為如下兩類:一類是使用十分廣泛,甚至是過于頻繁的一些單詞。另一類是文本中出現(xiàn)頻率很高,但實際意義又不大的詞。主要包括了語氣助詞、副詞、介詞、連詞等,通常自身并無明確意義,只有將其放入一個完整的句子中才有一定作用的詞語。經(jīng)過分詞后,評論由一個字符串的形式變?yōu)槎鄠€由文字或詞語組成的字符串的形式,可判斷評論中詞語是否為停用詞。根據(jù)上述停用詞的定義整理出停用詞庫,對評論數(shù)據(jù)進行處理。

最后一步是合并評論ID、評論中詞的ID、詞、詞性以及評論類型成一張表,提取含有名詞類的評論,最后將語料處理結(jié)果寫入數(shù)據(jù)文件。

4.2 文本情感分析

情感傾向也稱為情感極性。在商品評論中,情感傾向可以理解為用戶對該商品表達自身觀點所持的態(tài)度是支持、反對還是中立,即通常所指的正面情感、負面情感、中性情感。由于課題主要是對產(chǎn)品的優(yōu)缺點進行分析,所以只要確定用戶評論信息中的情感傾向方向分析即可,不需要分析每一評論的情感程度。

首先我們建立負面評價詞語、負面情感詞語、正面評價詞語以及正面情感詞語四個文本庫,用于我們進行目標文本分析的時候用于計算情感值。即正面評價詞和正面情感詞分值為1,負面評價詞和負面情感詞分值為-1;然后是根據(jù)否定詞或雙重否定對情感值進行修正;最后是去掉情感值為0的評論,并分別得到正面和負面的評論信息關(guān)鍵詞。通過實驗表明,在使用原始的正面負面文本庫的情況下,假設(shè)不存在“好評”中給差評,和“差評”中給好評的情況,根據(jù)文本情感分析的正確率為0.8763326226012793,此時交叉矩陣如表3所示。

經(jīng)過查看文本數(shù)據(jù),發(fā)現(xiàn)較多正面評價詞語被歸到負面,或者一些情感詞沒有被歸類到相應(yīng)的類別,因此需要進行修正,即添加正面或負面評價詞語到相應(yīng)的文本庫中,再次運行并得到正確率提高到0.955,此時交叉矩陣如表4所示。

4.3 主題數(shù)尋優(yōu)

在這里我們引入Gensim庫,使用doc2bow方法分別將每個正面評論或負面評論生成一個n維向量即語料庫。應(yīng)用基于相似度的自適應(yīng)最優(yōu)LDA 模型選擇方法,確定主題數(shù)并進行主題分析。具體步驟如下:

(1)選擇初始主題數(shù)k 值,得到初始模型,計算各主題之間的相似度(平均余弦距離)。

(2)增加或減少k 值,重新訓(xùn)練模型,再次計算各主題之間的相似度。

(3)重復(fù)步驟2 直到得到最優(yōu)k 值。

利用各主題間的余弦相似度來度量主題間的相似程度。從詞頻入手,計算它們的相似度,用詞越相似,則內(nèi)容越相近。

對正面評論和負面評論分別執(zhí)行劃分2~10個主題并計算計算主題平均余弦相似度,生成折線圖如圖1、2所示,從而確定最佳的主題數(shù)。

從以圖1和圖2我們可以看出,對于正面、負面評論主題數(shù)我們分別選1個和2個較為合適。

4.4 LDA主題模型分析結(jié)論

根據(jù)主題數(shù)尋優(yōu)結(jié)果,進行基于LDA的主題分析,打印前10個詞組,正面評論生成1個主題,結(jié)果見表5,負面評論生成2個主題,結(jié)果見表6。

通過主題分析我們可以看出,對于正面評論,相對是比較集中在運行速度快、外觀等方面;負面評論有兩個方面,首先是對產(chǎn)品總體評價差、開機慢、卡頓等,其次是客服、售后服務(wù)質(zhì)量差,也存在散熱等問題。

5 結(jié)語

課題通過對電商平臺上一款筆記本電腦的正面評論和負面評論進行主題分析,得出相應(yīng)的結(jié)論,具體指出用戶正面評價、負面評價主要體現(xiàn)哪些方面,從而為產(chǎn)品制造商、電商平臺服務(wù)等提出針對性的建議,從而提高產(chǎn)品的質(zhì)量和平臺的服務(wù)質(zhì)量。

參考文獻:

[1] 2020年全年網(wǎng)絡(luò)零售市場發(fā)展情況[EB/OL].http://www.mofcom.gov.cn/article/i/jyjl/j/202101/20210103033716.shtml.

[2] 曾祥坤,張俊輝,石拓,邵可佳. 基于主題提取模型的交通違法行為文本數(shù)據(jù)的挖掘[J].電子技術(shù)應(yīng)用,2019(6):47-51.

[3] 程元堃,蔣言,程光. 基于word2vec的網(wǎng)站主題分類研究[J]. 計算機與數(shù)字工程,2019(1):174-178.

[4]張厚棟,徐愛民.基于LDA模型的電商用戶評價分析[J].浙江萬里學(xué)院學(xué)報,2020,33(6):91-96.

[5] 張心悅. 生鮮農(nóng)產(chǎn)品在線評論文本內(nèi)容對消費者滿意度的影響研究[D].哈爾濱工業(yè)大學(xué),2020.

[6] 陳俊宇. 基于文本挖掘的在線評論應(yīng)用研究[D].湖北工業(yè)大學(xué),2020.

【通聯(lián)編輯:王力】

猜你喜歡
文本分析評價
SBR改性瀝青的穩(wěn)定性評價
中藥治療室性早搏系統(tǒng)評價再評價
投資者情緒短期對股票市場的影響研究
維護正統(tǒng)還是觀念復(fù)辟?
文本情感計算系統(tǒng)“小菲”的設(shè)計及其在教育領(lǐng)域文本分析中的應(yīng)用
初中英語聽說課教學(xué)實踐探索
《化學(xué):概念與應(yīng)用》專題作業(yè)設(shè)計分析及啟示
基于Moodle的學(xué)習(xí)評價
關(guān)于項目后評價中“專項”后評價的探討
保加利亞轉(zhuǎn)軌20年評價