袁鈺喜 陳義安 劉曉慧
收稿日期:2023-07-24
DOI:10.19850/j.cnki.2096-4706.2024.04.021
摘? 要:文章對(duì)在線購(gòu)物平臺(tái)的消費(fèi)者評(píng)價(jià)數(shù)據(jù)進(jìn)行了情感分析和分類。通過使用Python實(shí)現(xiàn)自動(dòng)化瀏覽器驅(qū)動(dòng)和反爬蟲技術(shù),成功采集了某東購(gòu)物平臺(tái)的消費(fèi)者評(píng)價(jià)信息。文章提出了一種改進(jìn)的集成算法,將LSTM、BiGRU、BiLSTM作為分類器,分別采用Voting和Bagging方法進(jìn)行集成。結(jié)果表明,與傳統(tǒng)的貝葉斯和邏輯回歸相比,LSTM+Bagging集成算法在準(zhǔn)確率方面分別提高了5.9%和6%,而與LSTM+Voting集成算法相比,準(zhǔn)確率提高了0.5個(gè)百分點(diǎn)。另外,LSTM+Bagging模型在穩(wěn)定性和魯棒性方面表現(xiàn)優(yōu)于LSTM+Voting算法。
關(guān)鍵詞:LSTM模型;Voting;Bagging;電商購(gòu)物
中圖分類號(hào):TP391.1? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2024)04-0101-05
Sentiment Analysis and Research on Consumer Evaluation of Online Shopping Platform Based on Integrated Algorithm
YUAN Yuxi1, CHEN Yian1,2, LIU Xiaohui1
(1.School of Mathematics and Statistics, Chongqing Technology and Business University, Chongqing? 400067, China; 2.Chongqing Key Laboratory of Economic and Social Applied Statistics, Chongqing? 400067, China)
Abstract: This paper performs sentiment analysis and classification on consumer evaluation data from online shopping platforms. By using Python to realize automatic browser driving and anti-crawler technology, it successfully collects consumer evaluation information of a certain shopping platform. This paper proposes an improved integration algorithm, which uses LSTM, BiGRU and BiLSTM as classifiers, and uses Voting and Bagging methods for integration respectively. The results show that compared with the traditional Bayesian and logistic regression, the LSTM+Bagging integration algorithm improves the accuracy by 5.9% and 6%, respectively, and compared with the LSTM+Voting integration algorithm, the accuracy increases by 0.5 percentage points. In addition, the LSTM+Bagging model outperforms the LSTM+Voting algorithm in terms of stability and robustness.
Keywords: LSTM model; Voting; Bagging; E-Commerce shopping
0? 引? 言
電商購(gòu)物平臺(tái)上的評(píng)價(jià)是消費(fèi)者對(duì)商品、服務(wù)、商家等多個(gè)方面的詳細(xì)描述,覆蓋面廣泛,內(nèi)容豐富。這些評(píng)價(jià)可以為商家提供第一手的用戶反饋,幫助商家深入了解消費(fèi)者的需求與意見,及時(shí)發(fā)現(xiàn)評(píng)價(jià)中存在的問題,主動(dòng)采取措施加以改進(jìn),提供更加貼近消費(fèi)者需求的商品與服務(wù),可以增強(qiáng)商家的競(jìng)爭(zhēng)力。同時(shí),這些評(píng)價(jià)也為其他消費(fèi)者提供寶貴的信息,幫助他們更加精確地選擇商品。所以,挖掘電商購(gòu)平臺(tái)的評(píng)價(jià)是一項(xiàng)具有重要意義的研究工作,可以為電商行業(yè)的發(fā)展和消費(fèi)者的消費(fèi)體驗(yàn)提供有力支持。
相較于傳統(tǒng)的文本分類模型,深度學(xué)習(xí)在文本特征處理和模型構(gòu)建上已有成熟的技術(shù)。例如,諸林云等采用BiLSTM方法實(shí)現(xiàn)了用戶對(duì)酒店服務(wù)情緒傾向的分析,在輸入層加入注意層突出重要信息,并使用BERT模型獲得文本特征,實(shí)驗(yàn)證明此方法在中文情感分類上具有更高精度[1]。王佳慧提出利用CNN和BiLSTM提取文本局部與全局特征并融合,生成語義特征豐富的模型,可有效提高中文分類精度[2]。YU Shujuan等在短文本分類上提出雙RNN并行架構(gòu),使用LSTM和GRU獲取上下文,生成注意力矩陣,此方法具有收斂速度快、精度高的特點(diǎn)[3]。SUNG Yunsick用FastText在Microsoft惡意軟件數(shù)據(jù)集上提取文本特征,相比one-hot編碼方法,性能提高1.87%[4]。陳可嘉提出融合詞級(jí)文本特征提取方法,構(gòu)建情感詞典獲取特征詞,多維特征向量表示文本特征,并轉(zhuǎn)為詞級(jí)與句級(jí)特征向量,此特征詞向量與LSTM融合,最后的分類效果優(yōu)于其他深度學(xué)習(xí)方法[5]。LI Weijiang提出SAMF-BiLSTM情感分類模型,使用自注意力和多通道特征增強(qiáng)情感信息,還利用目標(biāo)詞與情感詞關(guān)系,使得分類正確性高于其他方法[6]。TAM Sakirin用Word2Vec提取Twitter文本特征,研究CNN和BiLSTM集成模型ConvBiLSTM,而在推文數(shù)據(jù)上表現(xiàn)效果極佳[7]。本文在借鑒前人的基礎(chǔ)上使用Word2Vec方法提取文本特征,用LSTM的三種變體:LSTM、BiGRU、BiLSTM分別結(jié)合Voting和bagging集成算法進(jìn)行比較,實(shí)驗(yàn)表明集成算法相比單一的深度學(xué)習(xí)算法在穩(wěn)定性和正確性顯著提高。
1? 模型構(gòu)建
1.1? 三種LSTM變體
本節(jié)將分別介紹集成學(xué)習(xí)算法Voting+LSTM和Bagging+LSTM的三種記憶模型分類器,即LSTM、BiGRU和BiLSTM,這些模型專門用于文本數(shù)據(jù)的處理。通過結(jié)合三種算法的優(yōu)勢(shì),可以像隨機(jī)森林一樣構(gòu)建一種性能更好、準(zhǔn)確率更高的模型,即Voting+LSTM和Bagging+LSTM,其中集成算法的LSTM都是指三種記憶模型分類器,在隨機(jī)森林中稱為弱分類器。下面將詳細(xì)剖析這些模型的內(nèi)部結(jié)構(gòu)單元,揭示黑匣子的運(yùn)轉(zhuǎn)過程,并指出每一種弱分類器的優(yōu)缺點(diǎn)。
1.1.1? LSTM模型結(jié)構(gòu)
RNN循環(huán)神經(jīng)網(wǎng)絡(luò)是由若干個(gè)重復(fù)的神經(jīng)網(wǎng)絡(luò)模塊構(gòu)成的,在標(biāo)準(zhǔn)的RNN神經(jīng)網(wǎng)絡(luò)中每個(gè)神經(jīng)網(wǎng)絡(luò)模塊是相互獨(dú)立且有相同的結(jié)構(gòu)被重復(fù)鏈接在一起。LSTM網(wǎng)絡(luò)同循環(huán)神經(jīng)網(wǎng)絡(luò)一樣具有相同的結(jié)構(gòu),但是相對(duì)傳統(tǒng)的RNN架構(gòu)而言,每個(gè)神經(jīng)網(wǎng)絡(luò)模塊里面的內(nèi)容大大增加了,增添了遺忘門、輸入門、輸出門能在進(jìn)行誤差反饋修正時(shí)不產(chǎn)生梯度消失或發(fā)散[8]。
1.1.2? BiGRU模型結(jié)構(gòu)
在2014年提出門控循環(huán)單元(GRU)是針對(duì)LSTM的劣勢(shì)而提出的,GRU不僅保證信息向量在傳播的時(shí)候不會(huì)丟失,還相較于LSTM神經(jīng)網(wǎng)絡(luò)而言少了一個(gè)門函數(shù),因此在參數(shù)方面得到了減少,有利于在計(jì)算過程中省略了不必要的計(jì)算資源[9]。
1.1.3? BiLSTM模型結(jié)構(gòu)
BiLSTM是雙向長(zhǎng)短期記憶網(wǎng)絡(luò),同樣也是一種序列處理模型。其結(jié)構(gòu)是由兩個(gè)LSTM組成:一個(gè)從前向后輸入,另外一個(gè)從后向前輸入[10]。
1.2? Bagging+LSTM和VotingLSTM的集成
Voting+LSTM和Bagging+LSTM都是集成學(xué)習(xí)的算法,它們的目的均是通過組合弱分類器來提高分類的正確率。兩者的主要不同在于Voting+LSTM除了可以構(gòu)建同質(zhì)的分類器外,還可以選擇異質(zhì)的分類器。然后兩種集成算法都是用多數(shù)投票的原則來匯總各個(gè)分類器的結(jié)果。最常見的Bagging+LSTM應(yīng)用場(chǎng)景是組合決策樹構(gòu)成新的算法,也就是隨機(jī)森林。這里分別介紹本文的創(chuàng)新點(diǎn)兩種集成算法的理論知識(shí)。
1.2.1? Voting+LSTM投票法
本文后續(xù)的實(shí)驗(yàn)基于不同變體的LSTM模型預(yù)測(cè)類別的0-1間的值,也就是軟投票方法。
(1)
其中, 表示第i個(gè)分類器將樣本劃分為Cj類,而取值為1或者0,這種方法進(jìn)行投票稱硬投票。如果 ,是對(duì)于后驗(yàn)概率P(Cj | x)的估計(jì),被稱為軟投票,本文后續(xù)的實(shí)驗(yàn)就是基于不同變體的LSTM模型預(yù)測(cè)類別的0~1間的值,也就是軟投票方法。
1.2.2? Bagging+LSTM集成
Bagging(Bootstrap Aggregating)+ LSTM是一種并行式的集成學(xué)習(xí)方法,旨在通過對(duì)給定的包含m個(gè)樣本的數(shù)據(jù)集進(jìn)行自助采樣(Bootstrap Sampling),形成多個(gè)采樣集,并在每個(gè)采樣集上訓(xùn)練基學(xué)習(xí)器,最終通過集成這些基學(xué)習(xí)器的預(yù)測(cè)結(jié)果來提高模型的性能。Bagging+LSTM算法的核心思想類似于自助采樣法,即從原始數(shù)據(jù)集中隨機(jī)抽取樣本,放入采樣集中,并允許同一樣本在采樣集中出現(xiàn)多次(放回)。這樣,每個(gè)樣本都有被抽取到的概率,且概率相同,均為總樣本數(shù)的分之一。這種采樣方式能夠引入隨機(jī)性和多樣性,使得不同的基學(xué)習(xí)器在不同的采樣集上訓(xùn)練,從而增加了集成模型的泛化能力和魯棒性。為了更清晰地說明本文的Bagging+LSTM算法的實(shí)現(xiàn)過程,以下給出偽代碼過程:
輸入:訓(xùn)練集
基礎(chǔ)學(xué)習(xí)算法 ;
訓(xùn)練輪數(shù)T.
過程:
1: for t = 1,2,…,T do
2:
3: end for
輸出: .
Voting+LSTM和Bagging+LSTM都是訓(xùn)練多個(gè)模型并且對(duì)其結(jié)果進(jìn)行聚合的集成算法,用來提高模型的性能,也可以降低模型的方差,以避免過擬合。兩者的區(qū)別在于生成的模型的方式和聚合結(jié)果上的方式。Voting+LSTM軟投票采用不同的算法或者是加權(quán)平均分,Bagging+LSTM使用自助采樣,但兩者在不同的領(lǐng)域各有優(yōu)勢(shì)。
1.3? 評(píng)價(jià)指標(biāo)
在機(jī)器學(xué)習(xí)中分類的評(píng)價(jià)指標(biāo)是對(duì)模型性能優(yōu)劣的一個(gè)定量指標(biāo)。這里選取四種指標(biāo)綜合衡量模型的優(yōu)劣,其指標(biāo)分別為:精準(zhǔn)率、召回率、準(zhǔn)確率、F1值。
2? 數(shù)據(jù)分析
2.1? 爬取數(shù)據(jù)
本文使用Selenium和BeautifulSoup庫(kù)從某東在線購(gòu)物平臺(tái)頁面中爬取顧客購(gòu)買蚊帳后的在線評(píng)論。其腳本收集了用戶的姓名和評(píng)論日期、評(píng)論內(nèi)容、情感等級(jí)等字段。在調(diào)用XPath表達(dá)式解析HTML網(wǎng)頁內(nèi)容時(shí),將情感等級(jí)1~3星情感傾向設(shè)定為Negative,而4~5星的設(shè)置為Positive,這樣做有利于樣本情感的集中不至于分散。
2.2? 數(shù)據(jù)清洗
在標(biāo)注和情感檢測(cè)爬取的數(shù)據(jù)時(shí),發(fā)現(xiàn)評(píng)論中含有大量無意義的數(shù)字、與主題不相關(guān)或拼寫錯(cuò)誤的詞匯,以及錯(cuò)誤的情感態(tài)度。如一條評(píng)論中寫道“組裝方便,美觀大方,老婆很喜歡”,但情感標(biāo)簽卻被標(biāo)注為“Negative”。對(duì)所有評(píng)論進(jìn)行錯(cuò)誤信息統(tǒng)計(jì)分析后,發(fā)現(xiàn)購(gòu)買蚊帳商品用戶評(píng)價(jià)錯(cuò)誤樣本共162條,包含全數(shù)字評(píng)論12條,無關(guān)或拼寫錯(cuò)誤文本39條,以及情感錯(cuò)誤評(píng)論111條。為了優(yōu)化數(shù)據(jù)可視化和分類算法性能,刪除了錯(cuò)誤樣本,剩余樣本數(shù)量為10 483條,數(shù)據(jù)有效性高達(dá)98.47%,數(shù)據(jù)采集和內(nèi)容質(zhì)量較可靠。經(jīng)過低質(zhì)量樣本篩選和數(shù)據(jù)清洗,為集成學(xué)習(xí)的后續(xù)過程奠定了基礎(chǔ)。
2.3? 數(shù)據(jù)可視化
2.3.1? 分詞結(jié)果
表1是基于jieba分詞的部分詞頻統(tǒng)計(jì)結(jié)果,用以呈現(xiàn)用戶在線評(píng)論數(shù)據(jù)的主要關(guān)注點(diǎn)。根據(jù)數(shù)據(jù),可以看出“蚊帳”是評(píng)論的主題詞,用戶評(píng)價(jià)主要集中在購(gòu)買蚊帳后的使用體驗(yàn)上。此外,“質(zhì)量”是出現(xiàn)頻率較高的詞匯,這表明用戶對(duì)蚊帳的質(zhì)量問題非常關(guān)注,可能會(huì)在購(gòu)買前仔細(xì)考慮這一因素。另外,注意到,“不錯(cuò)”和“很好”等積極的詞匯被頻繁提到,這表明大多數(shù)用戶對(duì)蚊帳的評(píng)價(jià)比較正面。然而,一些用戶可能會(huì)遇到一些問題或不滿意,如“沒有”和“不”以及“安裝”等詞匯所顯示的,主要集中在蚊帳的安裝方面。
表1? 詞頻統(tǒng)計(jì)
分詞結(jié)果 詞頻 分詞結(jié)果 詞頻
蚊帳 2 570 京東 1 044
質(zhì)量 2 315 蚊子 1 013
不錯(cuò) 1 841 很好 916
安裝 1 288 沒有 900
2.3.2? 情感分析
經(jīng)過前面的數(shù)據(jù)清洗工作,成功篩選出了一批精品樣本數(shù)據(jù),共計(jì)10 483條。其中,情感標(biāo)簽為Negative的樣本有5 258條,而Positive的有5 225條,占比分別為50.16%和49.84%??梢钥闯觯瑑深悩颖緮?shù)量相當(dāng),不存在失衡的情況。
2.3.3? 詞向量矩陣
通過對(duì)用戶評(píng)論數(shù)據(jù)進(jìn)行分詞并使用Word2Vec 進(jìn)行訓(xùn)練,可以得到一個(gè)詞向量矩陣。每個(gè)詞都可以在50到300之間的維度上表示,這些詞向量具有一些有趣的語言關(guān)系。例如,可以使用“北京”-“中國(guó)”+“美國(guó)”=“華盛頓”的關(guān)系來表達(dá)“美國(guó)”和“中國(guó)”之間的國(guó)家關(guān)系,并且“華盛頓”與“北京”則是各自國(guó)家的首都。這些詞向量可以幫助我們更好地理解主題之間的聯(lián)系性。在本實(shí)驗(yàn)中,使用了Gensim庫(kù)中的Word2Vec算法來訓(xùn)練詞嵌入模型。該模型使用了詞向量的維度是100,最大距離為5,最小頻率閾值為1,并使用4線程進(jìn)行訓(xùn)練,迭代次數(shù)為1 000次。下面的表2就是訓(xùn)練得到的“蚊帳”“質(zhì)量”“不錯(cuò)”“安裝”相似的語義以及相似度。
表2? 語義表
蚊帳 相似度 質(zhì)量 相似度 不錯(cuò) 相似度 安裝 相似度
質(zhì)量 0.774 蚊帳 0.773 很好 0.846 蚊帳 0.654
安裝 0.654 安裝 0.615 喜歡 0.66 質(zhì)量 0.615
沒有 0.591 不錯(cuò) 0.511 好看 0.613 組裝 0.615
支架 0.540 很好 0.509 方便 0.601 不錯(cuò) 0.528
不好 0.534 支架 0.489 挺好 0.594 很好 0.478
表2展示了關(guān)鍵字“蚊帳”與其他詞之間的語義相似度,從中可以得知“蚊帳”與“質(zhì)量”和“安裝”最為相近。這說明用戶在選購(gòu)蚊帳時(shí)比較關(guān)注其質(zhì)量和是否易于安裝?!百|(zhì)量”一詞與“不錯(cuò)”和“很好”高度相似,表明用戶對(duì)蚊帳的質(zhì)量給予肯定的評(píng)價(jià)?!安诲e(cuò)”與“喜歡”“好看”和“挺好”也有較高相似度,顯示“不錯(cuò)”表達(dá)的主要是正面情感。而“安裝”與“組裝”“不錯(cuò)”和“很好”也有一定語義相似性,與“蚊帳”“質(zhì)量”和“不錯(cuò)”等詞的語義也有較高重合度。使用詞向量技術(shù)可以更好地理解文本數(shù)據(jù),發(fā)現(xiàn)詞與詞之間的內(nèi)在聯(lián)系。這也為后續(xù)使用深度學(xué)習(xí)進(jìn)行詞向量嵌入打下了基礎(chǔ)。
3? 模型實(shí)證分析和結(jié)果
3.1? 實(shí)驗(yàn)環(huán)境和模型參數(shù)
表3列出了不同模型的實(shí)驗(yàn)環(huán)境和對(duì)應(yīng)的參數(shù),以便比較它們的實(shí)驗(yàn)效果。使用的操作系統(tǒng)是Windows 10家庭中文版,實(shí)驗(yàn)環(huán)境是PyCharm 2021.3.3版本,解釋器是Python 3.9。主要庫(kù)的版本如下:Gensim為3.8.1,TensorFlow為2.2.0,tokenizers為0.13.3。貝葉斯和邏輯回歸都使用了默認(rèn)參數(shù)。針對(duì)兩種集成算法(Voting+LSTM和Bagging+LSTM),使用了LSTM、BiGRU和BiLSTM三種弱分類器進(jìn)行訓(xùn)練,其中Voting+LSTM算法每個(gè)弱分類器訓(xùn)練7輪,Bagging+LSTM算法每個(gè)弱分類器訓(xùn)練5輪,每次訓(xùn)練的批次都是16。LSTM的三種變體的參數(shù)設(shè)置如表3所示。
表3? 實(shí)驗(yàn)環(huán)境
嵌層維數(shù) 神經(jīng)單元 激活
函數(shù) 損失 訓(xùn)練輪數(shù) 訓(xùn)練批次 懲罰項(xiàng) 優(yōu)化器
100 16 sigmoid binary_crossentropy 25 16 l2 adam
3.2? 模型結(jié)果和分析
在這里,進(jìn)行了三種變體的LSTM模型的損失值和正確率的比較,并探討了它們作為弱分類器在兩種集成算法中的應(yīng)用。在所有的模型中,剔除了第一次產(chǎn)生的損失值和正確率,因?yàn)橐环矫孢@些值差異較大,另一方面模型也不太穩(wěn)定。
通過圖1可以觀察到,經(jīng)過10次迭代后,LSTM、BiLSTM和BiLSTM模型的損失值趨近于收斂狀態(tài),但在正確率方面沒有明顯的改善。值得注意的是,在收斂過程中,相較于其他兩種變體,LSTM表現(xiàn)較弱,無論是在損失值還是在正確率上都存在一定的欠缺。而BiLSTM模型則展現(xiàn)出最佳的性能,表明在訓(xùn)練過程中可能具有更好的收斂性能和預(yù)測(cè)準(zhǔn)確性。
在圖2和圖3中兩種集成算法Voting+LSTM和Bagging+LSTM,損失值和正確率都低于LSTM模型。例如在Voting+LSTM中,最佳損失值為0.2,但在LSTM模型的第十二次迭代時(shí)就已經(jīng)低于0.2。此外,Voting+LSTM模型的正確率在0.93~0.95之間,而LSTM模型在第十四次迭代時(shí)也在0.95左右,但在迭代二十幾次時(shí)都是0.96左右,說明深度學(xué)習(xí)可能存在過擬合的可能性,即在訓(xùn)練集表現(xiàn)優(yōu)秀,但在測(cè)試集上預(yù)測(cè)不太行。另外,需要說明的是,本文的Bagging+LSTM模型與LSTM模型在可視化展示時(shí)微不同,橫坐標(biāo)代表的是分類器,三種LSTM模型每種模型只訓(xùn)練了五次。
3.3? 模型評(píng)估
經(jīng)過對(duì)訓(xùn)練好的模型,包括貝葉斯、邏輯回歸、LSTM、集成算法等,在測(cè)試集上進(jìn)行評(píng)價(jià),并選取了多個(gè)評(píng)價(jià)指標(biāo),如精確率、召回率、F1值和正確率進(jìn)行綜合分析。從表4可以看出,傳統(tǒng)的機(jī)器學(xué)習(xí)方法存在不穩(wěn)定性的問題,特別是貝葉斯和邏輯回歸在類別為Positive的精確率以及Negative的召回率上存在較大的差異,差距高達(dá)十個(gè)百分點(diǎn)。此外,它們的正確率也沒有達(dá)到較高水平。
相比之下,三種LSTM模型,包括LSTM、BiGRU和BiLSTM,在穩(wěn)定性和正確率方面都取得了較傳統(tǒng)機(jī)器學(xué)習(xí)方法顯著的提升。此外,本文提出的兩種將LSTM、BiGRU和BiLSTM作為弱分類器的集成算法Voting+LSTM和Bagging+LSTM,在F1值方面都取得了一個(gè)百分點(diǎn)的提升。尤其是Bagging+LSTM方法的集成模型在正確率方面表現(xiàn)最佳,同時(shí)穩(wěn)定性也得到了顯著改善。
表4? 分類模型的對(duì)比
模型 類別 精確度 召回率 F1 正確率
貝葉斯 Negative 0.81 0.91 0.86 0.853
Positive 0.9 0.8 0.85
邏輯回歸 Negative 0.8 0.92 0.86 0.852
Positive 0.91 0.78 0.84
LSTM Negative 0.88 0.93 0.91 0.905
Positive 0.93 0.88 0.9
BiGRU Negative 0.86 0.93 0.89 0.889
Positive 0.92 0.86 0.89
BiLSTM Negative 0.89 0.89 0.89 0.894
Positive 0.9 0.9 0.9
Voting+LSTM Negative 0.89 0.93 0.91 0.907
Positive 0.93 0.88 0.91
Bagging+LSTM Negative 0.91 0.91 0.91 0.912
Positive 0.92 0.91 0.91
4? 結(jié)? 論
本文在考察傳統(tǒng)的機(jī)器學(xué)習(xí)時(shí)發(fā)現(xiàn)文本特征方面存在高維度,稀疏矩陣,且模型的泛發(fā)性、魯棒性的能力存在不足。筆者在最近幾年的熱點(diǎn)研究方向復(fù)現(xiàn)詞向量矩陣的方法結(jié)合不同變體的LSTM,發(fā)現(xiàn)模型的穩(wěn)定性方面得到了一定的提升。同時(shí)利用詞向量矩陣挖掘出主題詞相關(guān)的同義語義的詞,可以幫助我們做主題建模。當(dāng)然本文的最大的創(chuàng)新點(diǎn)在于利用隨機(jī)森林的思想,通過多顆決策樹作為弱分類器集成強(qiáng)模型的思路,利用到了Voting和Bagging的集成,進(jìn)一步的在變體LSTM基礎(chǔ)上提升了正確率和穩(wěn)健性,但集成算法的模型訓(xùn)練時(shí)間周期較長(zhǎng),也是實(shí)驗(yàn)上的缺點(diǎn)。在以后得實(shí)驗(yàn)中,將采取更大的訓(xùn)練集和測(cè)試集,另外語料庫(kù)的質(zhì)量上也要嚴(yán)格把關(guān),同時(shí)模型的參數(shù)也要限制,防止模型的過擬合的情況。
參考文獻(xiàn):
[1] 諸林云,曲金帥,范菁,等.基于BERT-BiLSTM-Attention的文本情感分析 [J].云南民族大學(xué)學(xué)報(bào):自然科學(xué)版,2023,32(4):520-527+540.
[2] 王佳慧.基于CNN與Bi-LSTM混合模型的中文文本分類方法 [J].軟件導(dǎo)刊,2023,22(1):158-164.
[3] YU S J,LIU D L,ZHU W F,et al. Attention-based LSTM,GRU and CNN for short text classification [J].Journal of Intelligent & Fuzzy Systems,2020,39(1):333-340.
[4] SUNG Y,JANG S,JEONG Y S,et al. Malware classification algorithm using advanced Word2vec-based Bi-LSTM for ground control stations [J].Computer Communications,2020,153:342-348.
[5] 陳可嘉,柯永誠(chéng).融合多特征的在線評(píng)論情感分類 [J/OL].小型微型計(jì)算機(jī)系統(tǒng),2023:1-9[2023-02-24].http://kns.cnki.net/kcms/detail/21.1106.TP.20230223.1407.014.html.
[6] LI W J,QI F,TANG M,et al. Bidirectional LSTM with self-attention mechanism and multi-channel features for sentiment classification [J].Neurocomputing,2020,387:63-77.
[7] TAM S,SAID R B,TANRI?VER ? ?. A convbilstm deep learning model-based approach for twitter sentiment classification [J].IEEE Access,2021,9:41283-41293.
[8] 施元昊,張健銘,徐正蓺,等.多運(yùn)動(dòng)模式下的累積誤差修正行人航位推算算法 [J].計(jì)算機(jī)工程,2020,46(12):305-312.
[9] 馬磊,黃偉,李克成,等. 基于Attention-LSTM的光伏超短期功率預(yù)測(cè)模型 [J].電測(cè)與儀表,2021,58(2):146-152.
[10] 袁程,熊青松,孔慶釗.鋼筋混凝土剪力墻抗震滯回性能的多元時(shí)序深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè) [J/OL].工程力學(xué),2022:1-12(2022-10-27).http://kns.cnki.net/kcms/detail/11.2595.O3.20221026.1310.017.html.
作者簡(jiǎn)介:袁鈺喜(1997—),男,漢族,重慶開州人,碩士研究生在讀,研究方向:自然語言處理、數(shù)據(jù)挖掘;通訊作者:陳義安(1968—),男,漢族,四川達(dá)州人,教授,碩士,研究方向:經(jīng)濟(jì)統(tǒng)計(jì)、非線性分析理論及其在社會(huì)經(jīng)濟(jì)中的應(yīng)用。