苗沐霖 王清濤
基金項目:河北省自然科學(xué)基金項目;項目編號:C2020402022。
作者簡介:苗沐霖(1992— ),男,河南長垣人,碩士研究生;研究方向:農(nóng)業(yè)大數(shù)據(jù)。
*通信作者:王清濤(1979— ),男,山東聊城人,講師,博士;研究方向:生態(tài)學(xué)。
摘要:近年來,隨著互聯(lián)網(wǎng)和電子商務(wù)的快速發(fā)展,農(nóng)產(chǎn)品電商平臺已經(jīng)成為農(nóng)產(chǎn)品流通的主要渠道之一。消費者通過在平臺上發(fā)布評論來表達對產(chǎn)品和服務(wù)的看法,針對這些評論進行數(shù)據(jù)挖掘可以為平臺的優(yōu)化提供有價值的信息。文章基于農(nóng)產(chǎn)品電商平臺的評論文本數(shù)據(jù),探討了一種針對該領(lǐng)域的數(shù)據(jù)挖掘方法,包括文本清洗、特征提取和情感分析3個步驟。實驗結(jié)果表明,該方法可以有效地抽取評論中包含的信息,為平臺的發(fā)展提供指導(dǎo)。該研究可為從事電商評論數(shù)據(jù)挖掘的學(xué)者和從業(yè)者提供一種新的思路和參考。
關(guān)鍵詞:農(nóng)產(chǎn)品電商平臺;評論文本數(shù)據(jù);數(shù)據(jù)挖掘;情感分析;特征提取
中圖分類號:TP311? 文獻標(biāo)志碼:A
0? 引言
隨著市場經(jīng)濟的發(fā)展和人們對生活品質(zhì)的不斷追求,農(nóng)產(chǎn)品電商平臺已經(jīng)成為現(xiàn)代市場經(jīng)濟發(fā)展的一種新型模式。通過農(nóng)產(chǎn)品電商平臺,消費者可以方便地購買到全國各地的農(nóng)產(chǎn)品,同時也為農(nóng)業(yè)生產(chǎn)者提供一個便利的銷售渠道,使得信息不對稱的現(xiàn)象得到了有效解決。然而,隨著電商平臺的迅速發(fā)展,面對著海量的數(shù)據(jù),如何挖掘其中的價值信息已經(jīng)成為當(dāng)前研究的重要課題之一。
農(nóng)產(chǎn)品電商平臺的評論數(shù)據(jù)是其中重要的資源,不僅可以讓消費者了解產(chǎn)品的優(yōu)劣,還可以為平臺提供一些重要的反饋信息。因此,如何提取出其中有價值的信息,對于平臺優(yōu)化和發(fā)展具有重要的意義。傳統(tǒng)的農(nóng)產(chǎn)品質(zhì)量評價體系主要是通過專家評估或客觀檢測方法進行,這種方法的效率較低,成本較高。而文本數(shù)據(jù)挖掘技術(shù),可以對海量的評論信息進行分析和分類,抽取其中有價值的信息,為平臺優(yōu)化提供指導(dǎo)。
本研究針對農(nóng)產(chǎn)品電商平臺評論文本數(shù)據(jù)進行挖掘,探討一種針對該領(lǐng)域的數(shù)據(jù)挖掘方法。
1? 相關(guān)研究
目前,關(guān)于電商評論文本數(shù)據(jù)挖掘的研究已經(jīng)較為成熟。其中,情感分析是其中的一項重要研究內(nèi)容。情感分析的主要目的是對文本數(shù)據(jù)進行情感分類,即對文本的主客觀判斷以及情感的正面、負面、中性等方面的判斷。在情感分析的研究方面,目前主要包括機器學(xué)習(xí)和自然語言處理兩個方向。
機器學(xué)習(xí)方面,目前主要采用基于支持向量機、樸素貝葉斯和神經(jīng)網(wǎng)絡(luò)等常用分類模型來進行情感分析。自然語言處理方面,主要采用基于詞典的鏈接方法、基于規(guī)則的方法和混合方法等來進行情感分析。此外,一些新興的算法和技術(shù)也逐漸被應(yīng)用到情感分析中。例如,近年來基于深度學(xué)習(xí)的模型也逐漸受到推崇,通過神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化,進一步提高了情感分類的準(zhǔn)確性和效率。
本研究針對農(nóng)產(chǎn)品電商平臺評論文本數(shù)據(jù),提出了一種數(shù)據(jù)挖掘的方法,包括文本清洗、特征提取和情感分析3個步驟,并對方法進行了驗證和評估。通過該研究,本研究希望能夠為農(nóng)產(chǎn)品電商平臺的進一步優(yōu)化和發(fā)展提供參考。
2? 數(shù)據(jù)預(yù)處理
針對評論文本數(shù)據(jù)的挖掘,首先需要進行一系列的數(shù)據(jù)預(yù)處理操作,包括文本清洗、分詞和去停用詞等。
2.1? 文本清洗
對于評論文本數(shù)據(jù),其中可能包含了一些無意義的信息,如標(biāo)點符號、HTML標(biāo)簽、表情符號等。因此,在進行數(shù)據(jù)挖掘前,需要將這些無意義的信息進行清洗和過濾[1],以得到干凈且有意義的文本數(shù)據(jù)。具體來說,本研究采用了如下清洗方法。
(1)去除HTML標(biāo)簽:評論數(shù)據(jù)是通過網(wǎng)頁爬蟲獲取的,因此其可能還包含HTML標(biāo)簽。針對此種情況,本研究需要使用正則表達式等方式,將HTML標(biāo)簽去除。
(2)去除標(biāo)點符號:標(biāo)點符號對于文本的情感分析并沒有太大的貢獻,因此,在進行情感分析前,需要將文本中的標(biāo)點符號去除。
(3)去除數(shù)字:評論中,可能會存在一些數(shù)字信息,例如價格、評分等。將這些數(shù)字去除后,可以使得情感分析的結(jié)果更加準(zhǔn)確。
(4)去除表情符號和特殊符號:評論中,可能會包含一些表情符號和特殊符號,但是這些信息對于情感分析并沒有實質(zhì)性的幫助,因此需要將其去除。
2.2? 分詞和去停用詞
在進行自然語言處理時,文本數(shù)據(jù)需要進行分詞,將文本拆分成有意義的詞語。而在分詞的基礎(chǔ)上,還需要去除一些無意義或過于常見的詞語,這些詞語通常被稱為停用詞。去除停用詞后,可以使得分詞結(jié)果更加準(zhǔn)確和有意義。
對于本研究而言,本研究采用了jieba分詞庫對文本數(shù)據(jù)進行分詞,并使用中文停用詞庫去除了其中的停用詞。
3? 特征提取
在完成文本數(shù)據(jù)預(yù)處理后,接下來需要從評論文本中抽取出有用的特征信息,建立特征向量表示。對于評論文本數(shù)據(jù)的特征提取,目前主要采用的方法包括詞頻、TF-IDF和詞嵌入等[2]。
3.1? 詞頻特征
詞頻是指在文本中出現(xiàn)的次數(shù)。在評論文本數(shù)據(jù)中,不同的詞匯會在不同程度上反映出用戶對產(chǎn)品和服務(wù)的評價。例如:“好”“滿意”等詞匯往往代表了正面情感,而“差”“不好”等詞匯則代表了負面情感。因此,本研究可以通過統(tǒng)計不同詞匯在文本中出現(xiàn)的次數(shù),建立詞頻特征,以此來描述評論文本的情感傾向。
3.2? TF-IDF特征
TF-IDF是一種常見的文本特征提取方法,可以得出每個詞語對于文本的重要性程度,就是這個詞語在文本中的出現(xiàn)頻率高,但是在整個語料庫中出現(xiàn)頻率較低。通過TF-IDF方法,可以得到每個詞匯在評論文本中的重要性權(quán)值,以此來描述文本的情感傾向[3]。
3.3? 詞嵌入特征
詞嵌入是一種基于神經(jīng)網(wǎng)絡(luò)的自然語言處理技術(shù),可以將文本中的每個詞匯轉(zhuǎn)化為一個向量,以此來描述文本的語義信息。在評論文本的情感分析中,詞嵌入特征的應(yīng)用可以進一步提高情感分類的準(zhǔn)確性。例如,使用Word2Vec算法,可以得到每個詞匯的向量表示,將其組合成文本向量,以此來描述文本中的情感信息[4]。
4? 情感分析
提取評論文本數(shù)據(jù)的特征之后,接下來需要進行情感分析,也就是將文本分類為正面、負面或中性。情感分析可以采用機器學(xué)習(xí)和自然語言處理技術(shù),目前常用的方法包括基于樸素貝葉斯、支持向量機和深度學(xué)習(xí)的分類模型等。在本研究中,本研究選擇了基于樸素貝葉斯的分類模型進行情感分析,具體流程如下。
(1)將評論數(shù)據(jù)集分為訓(xùn)練集和測試集。
(2)對于訓(xùn)練集數(shù)據(jù),先進行特征提取,并建立特征向量表示。
(3)將訓(xùn)練集特征向量和對應(yīng)的情感標(biāo)簽(正面、負面、中性)送入樸素貝葉斯分類器進行訓(xùn)練[5]。
(4)對于測試集數(shù)據(jù),同樣進行特征提取,并轉(zhuǎn)化為特征向量表示。
(5)將測試集特征向量送入已訓(xùn)練好的樸素貝葉斯分類器進行情感分類,并得出分類結(jié)果。
通過以上步驟,可以將評論文本數(shù)據(jù)進行情感分類,得出文本情感的傾向性。
5? 實驗結(jié)果
本研究采用了某電商平臺上的某樣農(nóng)產(chǎn)品評論數(shù)據(jù)作為實驗數(shù)據(jù)集,共包含1 000條評論文本數(shù)據(jù)。在進行情感分析前,本研究對數(shù)據(jù)進行了清洗、分詞和去停用詞等預(yù)處理操作,然后采用詞頻、TF-IDF和詞嵌入3種不同的特征提取方法,并采用樸素貝葉斯分類器對評論文本進行情感分類。為了評估情感分析結(jié)果的準(zhǔn)確性,本研究使用了精度(Accuracy)、精確率(Precision)、召回率(Recall)、F1值(F1-score)等指標(biāo)進行評估,具體如下式所示:
Accuracy=TP+TNTP+FP+TN+FN
Precision=TPTP+FP
Recall=TPTP+FN
F1-score=2×Precision×RecallPrecision+Recall
其中,TP表示真正例數(shù)(正確分類為正面情感的數(shù)量)、TN表示真反例數(shù)(正確分類為負面情感的數(shù)量)、FP表示假正例數(shù)(實際為負面情感但分類為正面情感的數(shù)量)、FN表示假反例數(shù)(實際為正面情感但分類為負面情感的數(shù)量)。實驗結(jié)果如表1所示。
從表中可以看出,使用3種不同的特征提取方法進行情感分析時,詞嵌入特征的效果最好,精度高達0.846。這表明,詞嵌入特征不僅可以對文本進行更好的表示,還能夠更好地描述文本中的情感信息。
總體來說,本研究提出的農(nóng)產(chǎn)品電商平臺評論文本數(shù)據(jù)挖掘方法可以有效地抽取評論中包含的信息,對于平臺的進一步優(yōu)化和發(fā)展提供了參考。但是需要注意的是,該方法還存在一定的局限性,例如在特定場景下可能需要采用不同的特征提取方法和情感分析模型。因此在實際應(yīng)用中需對方法進行進一步優(yōu)化和改進。
6? 結(jié)語
本研究使用樸素貝葉斯分類器對農(nóng)產(chǎn)品電商平臺的評論文本數(shù)據(jù)進行情感分析。通過實驗結(jié)果可以看出,詞嵌入特征方法在情感分析方面的效果最好。這表明,采用合適的特征提取方法對文本進行表示,可以有效地提高情感分析的準(zhǔn)確性。
本研究還存在一些問題需要進一步完善。例如:? 目前只使用了樸素貝葉斯分類器對評論數(shù)據(jù)進行情感分析,其他分類模型在該任務(wù)中的表現(xiàn)如何還需進一步研究。在實際應(yīng)用中,不同領(lǐng)域的評論文本可能具有不同的特點,因此仍需要結(jié)合實際情況選擇合適的數(shù)據(jù)挖掘方法。
參考文獻
[1]魏瑾瑞,王若彤,王晗.基于網(wǎng)絡(luò)結(jié)構(gòu)特征的大規(guī)模虛假評論群組識別[J].運籌與管理,2023(1):194-200.
[2]DENG L T,ZHAO Y R.Deep learning-based semantic feature extraction:a literature review and future directions[EB/OL].(2023-06-09)[2023-09-20].http://kns.cnki.net/kcms/detail/34.1294.TN.2023060 9.1033.002.html.
[3]孫士偉,王川,賈琳.基于多維度文本特征的電商平臺評論有用性研究[J].北京理工大學(xué)學(xué)報(社會科學(xué)版),2023(2):176-188.
[4]劉宇韜,施莉,劉詩含.基于TF-IDF與Word2vec的用戶評論分析研究[J].成都航空職業(yè)技術(shù)學(xué)院學(xué)報,2022(4):89-92.
[5]吳宗卓.文本分類中TF-IDF算法的改進研究[J].計算技術(shù)與自動化,2022(2):84-86.
(編輯? 沈? 強)
Research on the method of data mining technology of agricultural products e-commerce platform review text
Miao? Mulin, Wang? Qingtao*
(Hebei University of Engineering, Handan 056000, China)
Abstract:? In recent years, with the rapid development of the Internet and e-commerce, the e-commerce platform of agricultural products has become one of the main channels for the circulation of agricultural products. Consumers express their opinions about products and services by Posting reviews on the platform. Data mining for these comments can provide valuable information for the optimization of the platform. Based on the review text data of the e-commerce platform of agricultural products, this study discusses a data mining method for this field, including three steps: text cleaning, feature extraction and sentiment analysis. The experimental results show that the proposed method can effectively extract the information contained in the comments and provide guidance for the development of the platform. This study can provide a new way of thinking and reference for the scholars and practitioners engaged in e-commerce review data mining.
Key words: agricultural products e-commerce platform; review text data; data mining; sentiment analysis; feature extraction