DOI:10.16601/j.cnki.issn2096-7330.2024.01.009"文章編號:2096-7330(2024)01-0070-08
摘"要:傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(CNN)難以獲取豐富的新聞文本特征.為了增強CNN網(wǎng)絡的混合文本特征,該文提出一種融合CNN和雙向長短期記憶網(wǎng)絡(BiLSTM)的雙通道文本分類模型.該模型利用CNN池化層提取新聞語句的前后兩段最大特征,以此構(gòu)建特征增強的CNN通道,從而提高CNN網(wǎng)絡捕捉新聞關(guān)鍵信息的能力;另一通道采用BiLSTM提取新聞句子結(jié)構(gòu)特征,并利用注意力機制進一步加強數(shù)據(jù);最后將兩個通道的特征融合利用Softmax函數(shù)分類.實驗結(jié)果表明,在兩個公開新聞數(shù)據(jù)集上,與傳統(tǒng)模型相比,該文提出的模型在準確率、召回率等常用指標上具有較大的優(yōu)勢.
關(guān)鍵詞:注意力機制;雙向長短期記憶網(wǎng)絡;新聞分類;池化層增強;雙通道
中圖分類號:TP391""""文獻標志碼:A
自然語言處理旨在分析理解人類所使用的自然語句,是人工智能研究的熱點之一[1].文本分類是自然語言處理中的一項有著廣泛應用的基礎(chǔ)性任務,也是挖掘語料信息的一種重要手段.文本分類涉及人們生活的方方面面,特別是隨著社交平臺的發(fā)展,人們對碎片化閱讀的需求越來越大,如今在媒體傳播中形式多樣的短語、新聞標題占據(jù)了主要地位.因此,挖掘新聞數(shù)據(jù)包含的價值信息,分析新聞之間的內(nèi)在相關(guān)性,能為信息化時代的社交平臺提供技術(shù)支持,讓人們獲得更便捷高效的文字交流體驗. 可見,研究新聞的相關(guān)文本分類是非常有意義的.
+1國內(nèi)外對于文本分類的研究經(jīng)歷了一個從傳統(tǒng)的人工統(tǒng)計方法逐漸過渡到機器學習方法,再進一步到深度學習的過程.傳統(tǒng)的人工統(tǒng)計方法操作復雜,依賴專家標記相關(guān)數(shù)據(jù),分類效率很低,而機器學習方法主要包括支持向量機、最近鄰方法、決策樹等.隨著人工智能的發(fā)展,深度學習[2]解決文本分類的技術(shù)逐漸取代傳統(tǒng)的機器學習方法,并且在文本分類任務上有良好的表現(xiàn).不過,由于中文文本的語句復雜性,目前對于中文文本分類的研究還有待進一步深入,適合短文本的深度學習模型還需要進一步優(yōu)化.
1"文本分類的相關(guān)研究
1.1"文本特征表示
文本分類的技術(shù)研究[3]主要包括對句子的分割、對分割后的單個字或者詞進行向量嵌入、模型的構(gòu)建等.由于中文文本的字與字之間獨立性較差,語句結(jié)構(gòu)復雜,采用合適的分割工具能提高分類效果.目前Jieba組件是廣泛應用的分詞工具之一,支持簡體中文和繁體中文的分詞.常用的Jieba分詞模式有精確模式、全模式和paddle模式三種.字嵌入向量的方法由早期的one-hot獨熱編碼發(fā)展為Word2vec[4],one-hot獨熱編碼會造成維度爆炸且每個向量之間的距離是一樣的,而Word2vec方法巧妙地將兩個字符的實際意義映射到數(shù)學的距離空間中,詞語之間的關(guān)系可以由Word2vec所表示的向量表征.例如詞語“香蕉”與“水果”的語義關(guān)系是近于“香蕉”與“蔬菜”的.
1.2"深度學習模型
實驗模型是影響分類效果的關(guān)鍵.Bengio[5]提出了神經(jīng)網(wǎng)絡語言模型NNLM(Neural Net Language Model),標志著使用神經(jīng)網(wǎng)絡可以進行語言建模.Kim[6]將CNN應用到文本分類任務中,提出了經(jīng)典的TextCNN模型,該模型使用不同尺寸的濾波器來獲取文本嵌入矩陣的卷積信息,然后將卷積信息送入最大池化層,以獲取一句話的最大特征.Guo等[7]提出跳越CNN網(wǎng)絡LSF-SCNN,讓濾波器對不相鄰的單詞進行卷積,從而為池化層提供更有效的特征,進而提高系統(tǒng)的特征表達能力.Soni等[8]利用二維多尺度卷積運算提取文本特征,提取句內(nèi)的n-gram特征,同時捕獲輸入文本句子間的n-gram特征.由于LSTM能關(guān)注到文本的前后語句關(guān)系,一些學者嘗試利用LSTM和CNN的變體模型處理自然語言分類問題.She [9]提出基于CNN-LSTM混合模型的文本分類算法,用Word2vec中的Skip-Gram(跳字)模型和CBOW(連續(xù)詞袋)模型將單詞表示為向量,將CNN輸出的特征向量作為LSTM的輸入.Hameed等[10]則利用雙向循環(huán)神經(jīng)網(wǎng)絡BiLSTM先獲取文本的上下文結(jié)構(gòu)信息,分別輸入到最大池化中和平均池化層中進一步強化特征,以提高模型的情感分析能力.
2017年Vaswani等[11]將注意力機制發(fā)揚光大.注意力機制能夠捕捉文本重點,調(diào)整模型動態(tài)權(quán)重,在文本中使用動態(tài)注意力機制可以提高模型的性能.Jang[12] 將LSTM和卷積神經(jīng)網(wǎng)絡結(jié)合,先用CNN網(wǎng)絡提取句子特征,再經(jīng)過混合LSTM網(wǎng)絡,最后進一步利用注意力機制加強特征,充分學習文本表示.Wu[13]則對文本進行字向量化表示,采用雙向循環(huán)神經(jīng)網(wǎng)絡提取文本上下文關(guān)系特征,通過自注意力機制動態(tài)調(diào)整特征權(quán)重,最后得到情感類別. 一些學者另辟蹊徑,如Li等[14]引入知識感知,通過外部知識庫增強句子的語義表達,但外部知識庫的引入信息有效性難以解釋. Zhang[15]則巧妙利用文本的語法信息融入循環(huán)神經(jīng)網(wǎng)絡中,增強文本特征信息.Shen[16]利用圖卷積神經(jīng)網(wǎng)絡解決分類問題,先建立整個語料庫的大型文本圖,將文本圖的鄰接矩陣和特征矩陣輸入到圖卷積神經(jīng)網(wǎng)絡中,最后引入注意力機制豐富信息特征,但語料庫需要隨著詞匯的更新去構(gòu)建和維護. 為了提高CNN和LSTM的特征提取能力,我們先對CNN網(wǎng)絡的最大池化層進行特征優(yōu)化,采用分段提取最大池化特征的方法來保留更多的語義信息,然后將此優(yōu)化的CNN網(wǎng)絡和雙向循環(huán)神經(jīng)網(wǎng)絡在輸出端進行特征融合.由此提出雙通道特征增強卷積循環(huán)模型(Double-CNN-BiLSTM-Attention,DCB).
2"DCB模型的構(gòu)建
DCB模型的整體框架如圖1所示,它主要包括字嵌入層、CNN增強信息層、雙向循環(huán)注意力機制層(BiLSTM-Attention).
2.1"字嵌入層1.75mm
文本分類的文字處理流程分為兩部分:第一部分是文本的預處理;第二部分是文本的向量化表示(又稱文本嵌入層),即將文本表示為計算機可識別的句子矩陣[17].文本的預處理主要包括對文本的分割和清洗,對中文文本可以選擇分字處理或分詞處理,不同的分割模式會產(chǎn)生不同的語句表達結(jié)構(gòu). 文本嵌入層是文本分類的基礎(chǔ)技術(shù),目的是對分割后的字詞結(jié)構(gòu)嵌入稀疏向量.對中文語句,嵌入層可相應選用字嵌入層或詞嵌入層. 新聞文本的特點是內(nèi)容簡短,有效信息稀少,針對此問題,本文對新聞文本采取分字處理,目的是盡量保留短文本的有效字符長度,后續(xù)選擇字嵌入Word2vec表示,盡可能多地保留文本包含的數(shù)字特征. 例如對一句中文新聞{文本分類的作用},處理后的語句為{文,本,分,類,的,作,用},此時可對每個字進行隨機嵌入向量,也可選擇預訓練的向量Word2vec,因為預訓練向量能更好地表征字與字之間的關(guān)聯(lián)性. 為了有效訓練下游的分類任務,本文采用預訓練向量Word2vec. 具體地,字向量采用Li等[18]在搜狗新聞語料庫訓練的Word2vec,訓練窗口大小為5,低頻詞閾值為10,字向量的維度為300.大規(guī)模語料訓練出的字向量一方面貼合文本的新聞屬性,另一方面能有效加強各個字符之間的語義聯(lián)系.
2.2"CNN強化層
傳統(tǒng)的CNN網(wǎng)絡包括卷積層和最大池化層,前者利用濾波器降低句子的特征維度,后者則對前者輸出的向量進行最大池化,從中選取特征最強的元素.本文提出CNN強化層,在最大池化層對卷積層輸出的向量進行分段池化,選取與前后語義信息最相關(guān)的特征,以避免最大池化層丟失其他關(guān)鍵信息.CNN強化層的主要過程如圖2所示.
CNN增強信息層是雙通道的其中一個通道.CNN網(wǎng)絡在提取新聞文本的關(guān)鍵信息時具有重要作用,它會定位到一句話中的顯著字符,將該字符的向量特征作為輸出類別的重要標志.例如對于句子S={阿根廷獲得卡塔爾世界杯冠軍},CNN網(wǎng)絡經(jīng)過數(shù)次模型迭代,大概率會提取“世界杯”或“冠軍”的字符特征進行分類,以此識別出該句話可能歸屬的體育類別.
CNN強化層的數(shù)據(jù)流分為兩步:第一步將句子S={阿根廷獲得卡塔爾世界杯冠軍}進行字嵌入表示,第二步使用CNN模型處理字嵌入層. 在第一步中,首先將S嵌入字向量,分割清洗后可表示為s={w1,w2,…,wn}.若每個字的字嵌入向量用zi∈d表示,則字嵌入矩陣W∈n×d代表句子s={w1,w2,…,wn}的數(shù)字化特征,其中n表示句子的長度,d表示嵌入的稠密向量維度(本文選用的是300).第二步利用CNN處理W∈n×d.本文使用大小為2,3,4的不同尺度的卷積核對矩陣進行卷積,每種尺寸卷積核的數(shù)量是256個.卷積核也稱為濾波器,它本質(zhì)上實現(xiàn)的是一個滑動窗口函數(shù)的作用,它能對嵌入矩陣逐步滑動,以此來提取各個局部窗口信息.卷積核在字嵌入矩陣中滑動的對應窗口元素為zi:i+h-1={zi,zi+1,...,zi+h-1},其中h為濾波器的高度,即卷積核的尺寸.卷積后得到的特征向量為
oi=f(w·zi:i+h-1+b),
+1其中w∈b×d是濾波器的權(quán)重矩陣,f是Relu激活函數(shù),b是偏置特征.卷積核對輸入的字嵌入矩陣W進行卷積后輸出oi.設(shè)濾波器的高度為hi=2,3,4,則濾波器對W的每個窗口滑動后產(chǎn)生的特征圖為
o=[o1,o2,...,on-h(huán)1+1],"c=[c1,c2,...,cn-h(huán)2+1],"p=[p1,p2,...,pn-h(huán)3+1].
向量o,c,p是卷積層得到的輸出特征,該種序列表征的是原始新聞句子的特征,改進的卷積神經(jīng)網(wǎng)絡會對o,c,p序列分段做最大池化,降低維度,提取前后兩端的關(guān)鍵信息.向量o經(jīng)過前后兩段池化后得到of表示句子前段的特征,得到ob表示句子后段的特征.同理,向量c經(jīng)過前后兩段池化,得到cf表示句子前段的特征,cb表示句子后段的特征;向量p經(jīng)過前后兩段池化后,得到pf和pb特征.最后將以上特征拼接融合,便可得到豐富的CNN通道新聞語義特征.
2.3"BiLSTM-Attention層
循環(huán)神經(jīng)網(wǎng)絡能捕捉句子的上下文信息,循環(huán)單元具有記憶功能,記憶細胞能保留對于分類有用的特征.雙向循環(huán)神經(jīng)網(wǎng)絡從兩個方向傳遞記憶信息,以此來增強模型的分類效果.
BiLSTM獲取字嵌入層的上下文結(jié)構(gòu)信息,編碼后的向量融合了文本的上下文信息.融合字的上下文信息將會輸入注意力機制層中.LSTM包括遺忘門、輸入門和輸出門等機制,其結(jié)構(gòu)單元如圖3所示.
LSTM的結(jié)構(gòu)中有遺忘門,其功能是對上一字符的信息進行選擇性遺忘,所以要先得到遺忘系數(shù).具體方法是通過sigmoid函數(shù)σ輸出0到1之間的系數(shù)ft,以此來控制上一時刻的信息被保留的占比.LSTM結(jié)構(gòu)中的輸入門與遺忘門類似,計算出當前輸入信息對單元狀態(tài)的影響系數(shù)it.計算公式為
ft=σ(Wf·[ht-1,xt]+bf),"it=σ(Wi·[ht-1,xt]+bi),
其中Wf和Wi分別表示遺忘門和輸入門的權(quán)重矩陣,ht-1表示上一時刻輸出的隱藏層向量,bf和bi是偏置量.輸入門獲取更新系數(shù)it之后,將該系數(shù)與當前細胞信息的中間狀態(tài)C~t相乘,得到更新后的C~t,它表征當前輸入信息xt對當前細胞狀態(tài)的貢獻值.接著考慮上一時刻的舊細胞狀態(tài)Ct-1,利用Ct-1和中間狀態(tài)C~t來計算當前細胞狀態(tài)Ct.輸出門負責決定當前時刻的單元狀態(tài)有多少輸出,通過sigmoid函數(shù)來確定細胞數(shù)據(jù)的輸出系數(shù)ot.得到Ct和ot后,再用非線性激活函數(shù)tanh處理Ct,最后將兩者相乘,得到當前時刻的隱藏層向量ht.具體計算公式如下:
C~t=tanh(Wc·[ht-1,xt]+bc),"Ct=ftCt-1+itC~t,
ot=σ(Wo·[ht-1,xt]+bo),"ht=ottanh(Ct),
其中Wc和Wo分別為中間狀態(tài)和輸出門的權(quán)重矩陣,bc和bo為偏置量.
注意力機制層接收BiLSTM層輸出的隱層向量,讓模型自動更新概率的分布值,獲取新聞分類中的重要特征.注意力機制首先確定查詢向量和鍵向量,通過一個分值函數(shù)計算出原始注意力分值,之后將分值歸一化為概率值,即注意力權(quán)重,最后將注意力權(quán)重與輸入序列的值向量相乘,得到加權(quán)和作為輸出結(jié)果.計算方式為
si=F(Q,K),
αi=softmax(si)=SX(exp(si)∑Nj=1exp(si)SX),
Attention((K,V),Q)=∑Ni=1αivi,
其中Q是查詢向量,K是鍵向量,F(xiàn)是分值函數(shù)(此處用的是點乘函數(shù)),si是計算得到的注意力得分.用softmax函數(shù)計算歸一化注意力分數(shù)αi,vi是第i個字對應的Value值,進而得到Attention的加權(quán)分布特征.加權(quán)特征對原始句子特征重新分配比重,以提高模型的識別能力.
3"實驗分析
3.1"數(shù)據(jù)集
數(shù)據(jù)集一來自公開的今日頭條數(shù)據(jù)的13個類別,共有150956條數(shù)據(jù),數(shù)據(jù)分布不均衡.數(shù)據(jù)集二是從公開的THUCNews新聞中抽取的20萬條新聞標題,文本長度在 20~30之間,共分為10種類別主題,且每一類有 2 萬條左右的新聞標題,數(shù)據(jù)分布均衡.
3.2"實驗環(huán)境
模型的運行平臺為Windows 10,編程語言為Python3.9,編譯平臺為PyCharm,模型用到的架構(gòu)為PyTorch.為更好衡量新聞分類的準確性,使用交叉熵損失函數(shù),優(yōu)化函數(shù)為Adam.KH-*1/2
3.3"評價指標
評價模型的分類效果,一般選用準確率Accuracy、精確率Precision、召回率Recall和F1 值這四個指標,計算方法為
Accuracy=SX(TP+TN(TP+FN+FP+TN)SX)×100%,
Precision=SX(TP(TP+FP)SX)×100%,
Recall=SX(TPTP+FNSX)×100%,
F1=2·SX(Precision·Recall(Precision+Recall)SX)×100%,
其中TP和TN分別為模型預測結(jié)果中實際正例的預測數(shù)量和實際負例的預測數(shù)量,F(xiàn)N和FP分別為模型預測結(jié)果中錯誤負例的預測數(shù)量和錯誤正例的預測數(shù)量.
3.4"實驗結(jié)果
我們選用如下幾個經(jīng)典且效果良好的模型.為了保證實驗的統(tǒng)一性,各模型均在同樣的參數(shù)和環(huán)境下進行對比.
(1) RCNN:先用BiRNN獲取句子的全局語義信息,再將輸出信息與嵌入的原始信息進行拼接,一起輸入卷積神經(jīng)網(wǎng)絡的最大池化層進一步提取顯著特征.
(2) BiLSTM:雙向循環(huán)網(wǎng)絡獲取句子的前后特征,將句子的序列信息通過循環(huán)單元從前至后傳遞信息,并從后至前傳遞后端語義,更新門得到句子的特征向量.
(3) BiLSTM-Attention(BL-Att)[19]:先用雙向的循環(huán)單元提取文本的特征,再將輸出的向量利用注意力機制抓取關(guān)注詞匯,提高模型的分類能力.
(4) LSTM-CNN[20]:利用LSTM和CNN各自的優(yōu)點,對LSTM輸出的信息進行關(guān)鍵特征處理,更好捕捉文本的全局信息.
DCB模型和各個對比模型在今日頭條和THUCNews數(shù)據(jù)集的實驗結(jié)果分別如表3和表4所示.
由表3可知,相對于經(jīng)典的BiLSTM模型,DCB模型加入了CNN分段池化層,能捕捉兩個關(guān)鍵字信息,且加入注意力機制的DCB模型更關(guān)注LSTM網(wǎng)絡的重點字符,通過動態(tài)權(quán)值改變對每個字的關(guān)注度.DCB模型在四個指標上的效果比BiLSTM模型分別提高了2.12、2.24、2.12和2.12個百分點,這表明DCB模型在綜合指標上有良好表現(xiàn).
相較于傳統(tǒng)的BiLSTM模型,BL-Att模型在準確率等指標上表現(xiàn)較優(yōu),這是加入注意力機制的作用;但優(yōu)勢并不明顯,因為無論是傳統(tǒng)的BiLSTM模型還是優(yōu)化的BL-Att模型,依賴的核心模型都是LSTM.中文短文本數(shù)據(jù)中的有效特征稀少,導致LSTM能提取到的上下文結(jié)構(gòu)信息不足,這限制了LSTM對中文短文本的分類效果.與 BL-Att模型相比,DCB模型在精確率、召回率和、F1值上分別高出1.55、1.51和1.50個百分點,優(yōu)勢顯著.可見,DCB模型在引入注意力機制的同時,有效地彌補了BL-Att不能關(guān)注最大特征的缺陷,這表明DCB模型具有較好的新聞類別辨別能力.
對比LSTM-CNN模型,DCB模型在準確率上提高了1.1個百分點,在精確率上提高了1.12個百分點.由于LSTM-CNN是對循環(huán)神經(jīng)網(wǎng)絡提取后的矩陣進行卷積運算,一方面提升了循環(huán)神經(jīng)網(wǎng)絡輸出矩陣的有效性,另一方面也弱化了新聞原始矩陣信息的重要性.同樣地,RCNN也是利用串行結(jié)構(gòu),對特征進行串行處理.DCB模型則是針對新聞原始矩陣信息,利用優(yōu)化后的雙通道LSTM和CNN網(wǎng)絡,從并行層面提升模型的表達特征能力,保留了CNN對原始新聞特征的捕捉能力,并且前后段池化增強了CNN網(wǎng)絡的識別能力.
由表4可知,相比于今日頭條新聞數(shù)據(jù)集,THUNews新聞數(shù)據(jù)集的數(shù)據(jù)噪聲小,數(shù)據(jù)量均衡,每個新聞類別的數(shù)據(jù)量和文本長度波動較小,所以DCB模型在該數(shù)據(jù)集上的指標評分高于今日頭條新聞數(shù)據(jù)集.DCB模型的準確率和精確率都是92.34%,相比BL-Att模型分別高出1.91和1.79個百分點,這表明加入CNN強化層的DCB模型獲取短文本能力較強,在數(shù)據(jù)量稀少時CNN強化層仍有較好表現(xiàn).
RCNN模型的準確率、精確率、召回率和F1值的數(shù)值均高于BL-Att模型和BiLSTM模型,這說明對于新聞短文本來說,CNN結(jié)構(gòu)更有助于獲取關(guān)鍵特征.LSTM-CNN模型和RCNN模型都含有CNN結(jié)構(gòu),但從表4可知前者的表現(xiàn)比后者較優(yōu),這是因為前者采用的卷積層能有效降低數(shù)據(jù)維度,且能避免網(wǎng)絡失真.相比RCNN模型,DCB模型的準確率和F1值分別高出1.51和1.53個百分點,原因是RCNN的單通道結(jié)構(gòu)限制了網(wǎng)絡提取多層次信息的能力,而DCB模型的雙通道融合結(jié)構(gòu)更能表征新聞的信息.由于LSTM-CNN采用的也是單通道結(jié)構(gòu),故DCB模型在分類效果上也優(yōu)于LSTM-CNN,在文本宏觀特征表達上更為精準全面.DCB模型在今日頭條新聞數(shù)據(jù)集和THUNews新聞數(shù)據(jù)集上都表現(xiàn)出較好的泛化能力,有效地提高了分類的準確率.
4"結(jié)束語
針對中文新聞文本的特征稀少、有效特征難以提取的問題,本文提出了一種基于雙通道的CNN信息增強模型. 該模型從兩個方面提升了新聞分類的效果.其一是結(jié)合CNN網(wǎng)絡和LSTM的各自優(yōu)勢,依靠CNN網(wǎng)絡降低數(shù)據(jù)維度、提取關(guān)鍵信息的優(yōu)點,同時利用LSTM網(wǎng)絡彌補CNN網(wǎng)絡不能關(guān)注句子結(jié)構(gòu)的不足,豐富了新聞短文本的語義特征.其二是關(guān)注傳統(tǒng)CNN網(wǎng)絡的最大池化層,在池化層對序列前后兩部分提取關(guān)鍵特征,以求豐富信息.實驗結(jié)果表明,DCB模型能夠關(guān)注到不同數(shù)據(jù)集的數(shù)據(jù)特征,具有一定的泛化性,收斂效果較好. 未來DCB模型還需要在更多不同類型的數(shù)據(jù)集上進行實驗,對訓練時間進一步縮短,該模型的參數(shù)比如字嵌入維度對數(shù)據(jù)集的影響還將進一步探索,以增強該模型提取文本特征的能力.
參考文獻:
[1]"檀瑩瑩,王俊麗,張超波.基于圖卷積神經(jīng)網(wǎng)絡的文本分類方法研究綜述[J].計算機科學,2022,49(8):205-216.
[2]"Minaee S, Kalchbrenner N, Cambria E, et al. Deep learning-based text classification: a comprehensive review[J]. ACM computing surveys (CSUR), 2021,54(3):1-40.
[3]"Li Q, Peng H, Li J, et al. A survey on text classification: From traditional to deep learning[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2022,13(2):1-41.
[4]"Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[C]//Proceedings of the International Conference on Learning Representations. Scottsdale: Journal of Machine Learning Research, 2013:1-12.
[5]"Bengio Y, Ducharme R, Vincent P, et al. A Neural Probabilistic Language Model[J]. The Journal of Machine Learning Research, 2003,3:1137-1155.
[6]"Kim Y. Convolutional neural networks for sentence classification[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg: Association for Computational Linguistics, 2014:1746-1751.
[7]"Guo J, Yue B, Xu G, et al. An enhanced convolutional neural network model for answer selection[C]//Proceedings of the 26th International Conference on World Wide Web Companion. Perth: International World Wide Web Conferences Steering Committee, 2017:789-790.
[8]"Soni S, Chouhan S S, Rathore S S. TextConvoNet: A convolutional neural network based architecture for text classification[J]. Applied Intelligence, 2023,53(11):14249-14268.
[9]"She X, Zhang D. Text classification based on hybrid CNN-LSTM hybrid model[C]//2018 11th International symposium on computational intelligence and design (ISCID). Hangzhou: IEEE,2018,2:185-189.
[10]Hameed Z, Garcia-Zapirain B. Sentiment classification using a single-layered BiLSTM model[J]. Ieee Access, 2020,8:73992-74001.
[11]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems,2017,30:6000-6010.
[12]Jang B, Kim M, Harerimana G, et al. Bi-LSTM model to increase accuracy in text classification: Combining Word2vec CNN and attention mechanism[J]. Applied Sciences, 2020,10(17):5841.
[13]吳小華,陳莉,魏甜甜,等.基于Self-Attention和Bi-LSTM的中文短文本情感分析[J].中文信息學報,2019,33(6):100-107.
[14]李博涵,向宇軒,封頂,等.融合知識感知與雙重注意力的短文本分類模型[J].軟件學報,2022,33(10):3565-3581.
[15]Zhang Y, Xu H, Xu K. Chinese short text classification based on dependency syntax information[C]//2021 The 5th International Conference on Compute and Data Analysis. Sanya: Association for Computing Machinery,2021:133-138.
[16]申艷光,賈耀清,生龍,等.結(jié)合GCN和注意力機制的文本分類方法研究[J].計算機仿真,2021,38(12):415-419.
[17]Onan A. Sentiment analysis on product reviews based on weighted word embeddings and deep neural networks[J]. Concurrency and Computation: Practice and Experience, 2021,33(23):e5909.
[18]Li S, Zhao Z, Hu R, et al. Analogical reasoning on Chinese morphological and semantic relations[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne: Association for Computational Linguistics,2018:138-143.
[19]Zhou P, Shi W, Tian J, et al. Attention-based bidirectional long short-term memory networks for relation classification[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin: Association for Computational Linguistics,2016:207-212.
[20]Li Y, Wang X, Xu P. Chinese text classification model based on deep learning[J]. Future Internet, 2018,10(11):113-124.
[責任編輯:彭喻振]
收稿日期:2023-09-08
*基金項目:廣西自然科學基金項目(2020GXNSFAA297184)
第一作者簡介:李亞寧(1997—),女,河南商丘人,碩士研究生,研究方向:自然語言處理和文本分類。
通信作者簡介:王汝涼(1963—),2男,教授,研究方向:人工智能、智能控制及神經(jīng)網(wǎng)絡. Email:wrl201236@yeah.net。