国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于電商評價的文本情感分析研究與應用

2022-07-08 07:47唐孝國郭俊亮
黑龍江科學 2022年12期
關(guān)鍵詞:貝葉斯分類文本

王 恒,唐孝國,郭俊亮

(銅仁職業(yè)技術(shù)學院,貴州 銅仁 554300)

文本情感分析又稱意見挖掘、傾向性分析等[1]。電商平臺為受眾提供了評論途徑,而這些評價信息是基于用戶對所見所聞的事情或購買商品時而表達的個人感受,具有很高的應用價值,如果商家對這些評論信息進行挖掘,獲得用戶的情感態(tài)度和涉及的話題,就可以針對用戶的評論改善商品,對未購買過的用戶進行個性化推薦。同時,消費者也可以根據(jù)后臺的計算程序快速得到店鋪的商品信息,幫助消費者做出是否值得購買的建議,對電商平臺上的用戶評論信息進行深度挖掘,可為人們提供更加便利和智能化的服務[2-3]。

1 文本情感分析

文本情感分析是將帶有情感色彩的文本進行分析和挖掘。文本數(shù)據(jù)量由少量數(shù)據(jù)增長到大量數(shù)據(jù),人們發(fā)現(xiàn)將情感分類應用于文本處理具有重要的社會價值和商業(yè)價值,文本情感分析在此背景下成為自然語言處理的主要趨勢之一?;谠~典的應用方法、基于機器學習的應用方法、基于深度學習的應用方法是傳統(tǒng)文本情感分類的主要應用方法[4-5]?;谏疃葘W習的應用方法無論是面對大量數(shù)據(jù)還是少量數(shù)據(jù)都能得到較好的分析效果?;谠~典的應用方法在少量數(shù)據(jù)的情況下能得到較好的分類結(jié)果。隨著大數(shù)據(jù)時代的到來,傳統(tǒng)的情感分析方法已經(jīng)不適用,人們在發(fā)展和尋求新的情感分析方法,深度學習能在一定程度上解決這一問題[6]。文本情感分析是通過人工智能分析文本信息中的感情傾向,即發(fā)布者所表達的情感是消極還是積極的。隨著互聯(lián)網(wǎng)的發(fā)展,論壇、貼吧、微博、淘寶、京東等眾多APP為廣大用戶提供了可發(fā)表自己想法的平臺[7-8],想要對這些文本信息進行深度挖掘具有較大的難度,因此運用自然語言處理技術(shù)中的文本挖掘技術(shù)對這些信息進行處理就顯得尤為重要。

2 文本情感分類模型

2.1 LSTM 模型

LSTM也稱Long Short Term 網(wǎng)絡,是1997年由Hochreiter & Schmidhuber正式提出的。它可以學習長期的依賴信息,是RNN分類中特殊的一種。LSTM網(wǎng)絡在很多方面都取得了巨大的成功,因而廣受關(guān)注并得到了廣泛使用[9]。

LSTM模型由三個門構(gòu)成,如圖1所示,分別為“輸入門”“遺忘門”和“輸出門”。其中,“輸入門”和“遺忘門”能影響模型確定信息的丟棄和保留,起著決定性的作用[10]。

圖1 LSTM單元結(jié)果示意圖Fig.1 Schematic diagram of LSTM element results

2.2 基于貝葉斯的文本分類模型

樸素貝葉斯是一種常見的監(jiān)督學習的分類算法,人們熟知的有多項式模型及伯努利模型兩種[11]。

A.多項式模型的似然估計。

其中,c表示某個類別,wi表示某個詞語。

B.伯努利模型的似然估計。

首先看訓練階段的去除停用詞(保留核心詞)操作對兩個概率的影響。先看多項式模型,如果執(zhí)行了去除停用詞操作,分母減小,分子不變,則會增大核心詞的概率。但是與多項式模型不同,貝努利模型執(zhí)行去除停用詞操作,其分母文檔數(shù)基本不太可能會減少,分子不變,所以最終核心詞的概率基本不會受到影響,這是因為伯努利的計算粒度是文件,而多項式的計算粒度是單詞,二者不同的計算粒度導致其概率計算方法不同。

2.3 BERT模型

BERT(Bidirectional Encoder Representation from Transformers)是由谷歌于2018年提出的一個預訓練的語言表征模型[12],該模型生成深度的雙向語言特征,采用新的masked language model(MLM),不再采用之前傳統(tǒng)的單向語言模型,也不再采用簡單的拼接兩個單向語言模型的方法進行預訓練。Bert進行預訓練之后,會直接保存24層Transformer權(quán)重(BERT-LARGE)或Embedding table和Transformer權(quán)重(BERT-BASE)。使用訓練好的Bert模型可以直接進行文本分類、閱讀理解等操作。圖2是BERT模型的架構(gòu)圖。

圖2 BERT的架構(gòu)圖Fig.2 Framework of BERT

3 數(shù)據(jù)采集與預處理

3.1 數(shù)據(jù)采集

本次研究數(shù)據(jù)來源于某東的用戶評論,采用Python爬蟲技術(shù),將爬取的數(shù)據(jù)存入對應的文本中,選擇有研究意義的數(shù)據(jù),實驗數(shù)據(jù)爬取的是某東網(wǎng)站平臺上面10個類別的用戶評論,分別為杯子、電腦、鮮花、堅果、手機、書籍、玩具、牛奶、鞋子、口紅,一共49 000多條用戶評論數(shù)據(jù)。需要大致分析爬取的數(shù)據(jù),這些數(shù)據(jù)是電商平臺上面用戶真實的對商品的評論數(shù)據(jù),通過分析把不同評論數(shù)據(jù)分到不同的類別中,且每條數(shù)據(jù)只能屬于10個類中的某一個類,還需要對這些評論進行情感傾向性分析。要清洗掉數(shù)據(jù)中的空值和重復值,因為這些數(shù)據(jù)中可能會出現(xiàn)默認好評和一個用戶的多次評論。

3.2 數(shù)據(jù)預處理

在進行數(shù)據(jù)預處理之前先對數(shù)據(jù)進行去重,因為這些數(shù)據(jù)中可能會含有用戶未作出評價顯示默認好評的情況。在對中文文本進行預處理時需要對不完整的數(shù)據(jù)進行處理,還需要刪除重復數(shù)據(jù),對數(shù)據(jù)進行分詞。進行分詞之后還是會產(chǎn)生很多的沒有實際含義的標點符號和停用詞,需要將這些詞語刪除,因為這些符號和詞語對數(shù)據(jù)挖掘沒有意義,還會增加計算的復雜度和時間。清洗之后的分詞如表1所示。

表1 數(shù)據(jù)進行分詞并去停用詞對比圖表Tab.1 Comparison of data segmentation and stop words elimination

對數(shù)據(jù)進行分詞且對分詞去停用詞之后,對這些詞進行詞頻統(tǒng)計,以便了解哪些詞是數(shù)據(jù)集中的高頻詞匯,這對實驗數(shù)據(jù)判斷有一定的意義。為了方便文本分類模型的訓練,將中文代表的類別轉(zhuǎn)換成數(shù)字ID,如表2。將類別由中文轉(zhuǎn)換成數(shù)字代替(0~9)。

表2 label對應ID表Tab.2 ID corresponding to label

4 實驗評估與結(jié)果分析

采用文本分類中3個常用的指標對實驗結(jié)果進行評估。

第一個是系統(tǒng)選擇的正確項與全部正確項的比值準確率(precision)。在情感分類中準確率可以看成是正確的情感分類在總的情感分類中所占的比值,如公式(1)所示:

(1)

第二個是模型中情感分類的正確樣本結(jié)果與人工情感分類的文本數(shù)相比較的比率得到的召回率(recall),具體的計算公式如(2)所示:

(2)

第三個是F值(F-measure)。將結(jié)果值統(tǒng)一到一個全面的度量尺度上,以便能夠更直觀地觀察實驗結(jié)果,這個值稱為F值,如公式(3)所示:

(3)

根據(jù)表3數(shù)據(jù)類型及用戶評論數(shù)量分類統(tǒng)計表中的數(shù)據(jù),分別用LSTM模型、貝葉斯模型和BERT模型對處理好的數(shù)據(jù)進行訓練和預測,結(jié)合公式(1)(2)(3)得到了LSTM模型、貝葉斯模型、BERT模型的訓練結(jié)果圖,如表4所示。

表3 數(shù)據(jù)類型及用戶評論數(shù)量分類統(tǒng)計表Tab.3 Classification statistics of data type and the number of user’s comment

表4 LSTM模型、貝葉斯模型和BERT模型對比結(jié)果表Tab.4 Results of the comparison of LSTM, Bayesian and BERT model

貝葉斯模型和BERT模型的訓練結(jié)果的精準率、召回率,F(xiàn)1和準確率均低于LSTM模型的訓練結(jié)果。就準確率而言,LSTM的訓練模型準確率為0.83,貝葉斯的訓練模型準確率為0.68,BERT模型的訓練模型準確率為0.75。LSTM的訓練模型召回率為0.84,貝葉斯的訓練模型召回率為0.66,BERT模型的訓練模型召回率為0.69。LSTM的訓練模型F1值為0.83,貝葉斯的訓練模型F1值為0.69,BERT模型的訓練模型F1值為0.78。由此可以看出,LSTM模型的訓練效果要優(yōu)于以上兩種方法。

5 結(jié)語

隨著大數(shù)據(jù)時代的到來,情感分析在文本數(shù)據(jù)處理中有著越來越重要的社會價值和商業(yè)價值,挖掘這些信息對于商家和用戶都有很重要的實際意義?;贚STM模型、貝葉斯模型、Bert模型三種方法進行文本情感分析,綜合實驗得出,LSTM模型在文本情感分析中的效果優(yōu)于另外兩種模型,情感分析模型將會越來越廣泛地應用于人們的生活中,對這些數(shù)據(jù)進行分析具有社會意義。

猜你喜歡
貝葉斯分類文本
文本聯(lián)讀學概括 細致觀察促寫作
分類算一算
基于貝葉斯定理的證據(jù)推理研究
基于貝葉斯解釋回應被告人講述的故事
作為“文本鏈”的元電影
基于doc2vec和TF-IDF的相似文本識別
租賃房地產(chǎn)的多主體貝葉斯博弈研究
租賃房地產(chǎn)的多主體貝葉斯博弈研究
教你一招:數(shù)的分類
說說分類那些事
内乡县| 博乐市| 大同县| 丰宁| 马尔康县| 鹿邑县| 定襄县| 湖口县| 天等县| 石河子市| 长岭县| 南城县| 揭东县| 安西县| 湘西| 从江县| 芦山县| 德格县| 贵阳市| 定日县| 剑川县| 平江县| 沛县| 四子王旗| 东乌珠穆沁旗| 漯河市| 鄢陵县| 新巴尔虎左旗| 阿巴嘎旗| 化隆| 建阳市| 西贡区| 襄城县| 沙坪坝区| 临泉县| 荔波县| 宕昌县| 西城区| 府谷县| 宜宾市| 大新县|