国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的短文本分類方法研究綜述

2023-02-28 09:19:18淦亞婷安建業(yè)
關(guān)鍵詞:短文語義卷積

淦亞婷,安建業(yè),徐 雪

天津商業(yè)大學(xué) 理學(xué)院,天津 300134

隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展與智能終端的不斷普及,網(wǎng)購、網(wǎng)聊、網(wǎng)課、遠(yuǎn)程辦公已是人們生活的新常態(tài)、新模式,由此產(chǎn)生了大量的短文本數(shù)據(jù)。如何從這些文本數(shù)據(jù)中挖掘有價(jià)值的信息,正成為廣大專家、學(xué)者關(guān)注的熱點(diǎn)課題。例如,在許多短信、郵件等文本數(shù)據(jù)中需要剔除垃圾信息,把有價(jià)值的短信或郵件自動(dòng)甄別出來[1-2];在眾多的評論性文本數(shù)據(jù)中需要對文本的情感特征進(jìn)行分析,把有價(jià)值的評論自動(dòng)挖掘出來[3];在海量的社交網(wǎng)絡(luò)用戶文本數(shù)據(jù)中需要監(jiān)測謠言與輿情,把有價(jià)值的特征用戶自動(dòng)分析出來[4-5],等等。要解決這類問題,就需要對其中的短文本數(shù)據(jù)進(jìn)行自動(dòng)分類,即按照一定的分類規(guī)則或標(biāo)準(zhǔn),對文本所屬類別進(jìn)行自動(dòng)劃分[6]。然而,由于短文本大多是用戶與社交網(wǎng)平臺(tái)交互過程中產(chǎn)生的語言,內(nèi)容嘈雜,主題分散,往往包含許多網(wǎng)絡(luò)用語和符號。具體如下特征:

一是篇幅短小。一般由十幾個(gè)詞或幾個(gè)短語組成,內(nèi)容稀疏,缺少上下文信息,提取有效特征困難。

二是數(shù)量龐大。用戶與社交平臺(tái)頻繁地交互,使得短文本增長非常迅速,數(shù)據(jù)規(guī)模龐大,從而降低了文本信息的價(jià)值密度。

三是規(guī)范性差。短文本通常是口語化的語言,雖然言簡意賅,但往往不遵守語法規(guī)則,有時(shí)還會(huì)包含不規(guī)則詞語、拼寫錯(cuò)誤、網(wǎng)絡(luò)流行用語以及特殊表情、符號等情況,增加了文本噪聲,容易引起詞匯或句法歧義。

短文本的這些特征大大增加了對其準(zhǔn)確分類的難度。為了提高分類的效果,傳統(tǒng)的基于機(jī)器學(xué)習(xí)的方法[7-10]主要通過改進(jìn)特征工程來實(shí)現(xiàn)[11]。但是機(jī)器學(xué)習(xí)的特征工程構(gòu)建是靠人工完成的,難以進(jìn)行大規(guī)模數(shù)據(jù)處理,也無法解決特征向量高度稀疏的問題。相對于機(jī)器學(xué)習(xí),深度學(xué)習(xí)在短文本分類方面卻具有明顯的優(yōu)勢:

其一,將文本特征提取融入模型訓(xùn)練過程中,無需手動(dòng)構(gòu)建特征工程,實(shí)現(xiàn)端到端的分類方式。

其二,深度學(xué)習(xí)能夠獲得短文本低維稠密的特征表示,且能表達(dá)足夠的上下文信息以及文本更深層次的語義關(guān)系。

其三,深度學(xué)習(xí)方法不僅能夠處理海量數(shù)據(jù),而且隨著數(shù)據(jù)量的增大還能夠不斷學(xué)習(xí)新知識。

基于此,深度學(xué)習(xí)逐漸取代了機(jī)器學(xué)習(xí),成為短文本分類應(yīng)用領(lǐng)域研究的熱點(diǎn)。早期,劉琴等[12]就深度學(xué)習(xí)在短文本分類方面的應(yīng)用進(jìn)行了綜述,但是沒有涵蓋近年來的相關(guān)研究成果,因此對短文本分類中的深度學(xué)習(xí)方法進(jìn)行系統(tǒng)的梳理、歸納與總結(jié),具有重要的應(yīng)用價(jià)值。

下面以卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[13]、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[14]、圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)[15]三種最具代表性的深度學(xué)習(xí)方法為切入點(diǎn),分析這些方法在短文本分類方法中的應(yīng)用研究現(xiàn)狀,并就分類中重要的標(biāo)簽數(shù)據(jù)集進(jìn)行歸納與總結(jié)。

1 基于CNN的短文本分類研究

CNN 源于計(jì)算機(jī)視覺研究,后來諸多學(xué)者將其應(yīng)用于短文本分類,基本結(jié)構(gòu)如圖1所示。

圖1 典型CNN結(jié)構(gòu)圖Fig.1 Typical CNN architecture diagram

由圖1 可知,基于CNN 的短文本分類模型,通常包括輸入層、卷積層、池化層、全連接層和輸出層五部分,其中卷積層和池化層是最為關(guān)鍵的特征提取環(huán)節(jié)。卷積層通過構(gòu)造一維卷積核,并將其上下移動(dòng),在卷積窗口內(nèi)與文本表示矩陣進(jìn)行卷積操作,以此來提取文本特征。池化層則是對提取的特征進(jìn)行選擇,篩選出最為顯著的特征,同時(shí)也能降低特征維度,防止過擬合。通常,在短文本分類時(shí),需要對卷積層與池化層進(jìn)行多層交替疊加,經(jīng)過多次特征提取與特征選擇,多角度獲取文本特征信息;然后,進(jìn)入全連接層,將特征信息進(jìn)行整合,并將結(jié)果在輸出層展示。

Kim[16]較早將CNN 運(yùn)用到文本分類中,構(gòu)建了TextCNN模型。該模型以詞為單位,首先將短文本句子表示成矩陣(每個(gè)詞矩陣的一行)后作為輸入數(shù)據(jù),并選擇窗口大小分別為3、4、5的卷積核來提取文本特征;然后通過特定的池化層Max-over-time篩選出短文本的最顯著特征;最后經(jīng)過全連接層,利用softmax函數(shù)輸出分類結(jié)果。雖然TextCNN 模型構(gòu)建的卷積和池化是單層的,且調(diào)參簡單,但是在進(jìn)行實(shí)驗(yàn)驗(yàn)證時(shí)具有較好的分類效果,在一定程度上說明了CNN 對短文本分類的有效性。

為了進(jìn)一步提高TextCNN模型的分類效果,彌補(bǔ)在獲取短文本語義和上下文信息等方面的不足,文獻(xiàn)[17-19]通過增加層數(shù),增大了卷積核獲取信息的視野,構(gòu)建了深度CNN 模型。為驗(yàn)證模型的改進(jìn)效果,將文本的字符向量表示、詞向量表示分別作為輸入,并與參數(shù)相同的其他淺層模型進(jìn)行對比,結(jié)果表明:以字符向量表示作為輸入的深層模型比淺層模型具有更好的性能,但差別并不顯著;以詞向量表示作為輸入的深層模型效果還不及淺層模型,并且淺層模型效果優(yōu)于以字符向量表示作為輸入的深層模型??傮w來說,從縱向增加層數(shù)構(gòu)建的深度CNN模型,對提高短文本分類效果并不明顯。

為此,諸多學(xué)者另辟蹊徑,從橫向改變模型的卷積層、池化層的結(jié)構(gòu),提取更多的短文本特征,優(yōu)化TextCNN模型。Guo 等[20]借助于跳躍卷積、K-Max 池化操作,構(gòu)建了增強(qiáng)CNN 模型,細(xì)化了短文本特征提??;同時(shí),在池化層保留前K個(gè)最大特征值,從多個(gè)維度獲取短文本特征。Wang H 等[21]從構(gòu)建N-gram 不連續(xù)滑動(dòng)窗口、K-Max 平均池化兩方面改進(jìn)了TextCNN 模型。該模型基于N-gram機(jī)制建立了卷積窗口的非線性組合,使得卷積核在提取特征時(shí),既關(guān)注了相鄰詞間的依賴關(guān)系,又學(xué)習(xí)到了不相鄰詞間的語義關(guān)系;在構(gòu)建池化層時(shí),將前K個(gè)最大特征的平均值作為輸出,綜合了最大池化與平均池化的優(yōu)勢;在篩選主要特征時(shí),也關(guān)注到了其他的必要特征。這類改進(jìn)模型,在一定程度上提高了CNN 獲取短文本特征的效率,擁有更豐富的特征表達(dá)。但是由于短文本自身內(nèi)容的稀疏性,使得改進(jìn)后的模型在獲取短文本特征方面仍存在信息不足的問題。

近年來,在深度學(xué)習(xí)中引入外部知識來擴(kuò)展短文本信息,成為短文本分類方法研究的重點(diǎn)。Wang P 等[22]通過引入外部訓(xùn)練好的詞嵌入,在利用密度峰值快速聚類得到相應(yīng)語義團(tuán)系的基礎(chǔ)上,將分類文本語義單元與語義團(tuán)系之間的歐氏距離和特定的閾值進(jìn)行比較,找出語義團(tuán)系中最近的詞嵌入作為短文本拓展矩陣,對CNN 模型進(jìn)行了優(yōu)化。Sotthisopha 等[23]考慮到大規(guī)模詞嵌入聚類的計(jì)算成本以及外部預(yù)訓(xùn)練詞嵌入建模的特點(diǎn),在Wang P等工作的基礎(chǔ)上,通過相似度匹配法擴(kuò)大了詞的預(yù)訓(xùn)練嵌入覆蓋,巧妙利用了詞的分布式表示所具有的“相鄰詞語義相關(guān)”特點(diǎn),提出了基于小批量K-Means++聚類算法。因此,這種通過找出空間內(nèi)最相近的詞嵌入作為拓展特征的建模方法,雖然豐富了短文本語義信息,但嚴(yán)重依賴于大規(guī)模詞嵌入模型,而且對詞嵌入質(zhì)量要求較高,在某種程度上影響了模型的應(yīng)用效果。

另外,諸多研究則引入了字符、概念等文本相關(guān)特征。Wang J等[24]首次通過連接一個(gè)大的外部知識庫獲取短文本的一組相關(guān)概念,并將這組概念嵌入進(jìn)行線性組合,作為文本的概念嵌入表示,與詞向量進(jìn)行連接,輸入到卷積層和池化層來提取特征;另外考慮到新詞嵌入無法識別造成的語義信息遺漏,將字符嵌入帶入新的卷積層和池化層來獲取字符特征,最后通過融合獲取特征來進(jìn)行分類。Wang H等[25]基于概念信息在文本層面和相關(guān)詞層面對短文本語義進(jìn)行擴(kuò)展。研究認(rèn)為在短文本中,通常只有幾個(gè)詞能代表句子的語義,于是通過注意力機(jī)制提取出最能體現(xiàn)短文本語義的幾個(gè)相關(guān)詞;然后連接外部知識庫獲取相關(guān)詞的概念以及短文本的一組概念,并進(jìn)行拼接來作為輸入。

上述模型將字符、概念、詞和文檔等顯性特征表示與深度學(xué)習(xí)獲取的隱式特征表示進(jìn)行結(jié)合,極大地拓展短文本信息,較好地解決了短文本內(nèi)容稀疏、缺乏上下文信息的問題,是目前運(yùn)用比較多的短文本分類框架。但是這些模型所依賴的外部知識庫,其構(gòu)建方法仍在研究過程中,且存在引入信息有效性難以解釋的問題,后續(xù)研究需予以關(guān)注。

2 基于RNN的短文本分類研究

RNN 是傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)的擴(kuò)展,是一類通過使用帶有自反饋功能的神經(jīng)元,處理任意長度時(shí)序數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),相比于前饋神經(jīng)網(wǎng)絡(luò),RNN的輸出不僅依賴于當(dāng)前的輸入,還與其過去一段時(shí)間的輸出有關(guān)。RNN應(yīng)用于不同的任務(wù)時(shí)具有不同的模式,對于短文本分類任務(wù),是多個(gè)輸入對應(yīng)一個(gè)輸出的模式,具體結(jié)構(gòu)如圖2所示。

圖2 典型RNN結(jié)構(gòu)圖Fig.2 Typical RNN architecture diagram

由圖2 可知,在利用RNN 進(jìn)行分類時(shí),按照短文本序列的順序,將長度為t的樣本序列X1:t={x1,x2,…,xt-1,xt}依次輸入到RNN中,并通過反向傳播得到不同時(shí)刻的隱藏狀態(tài){h1,h2,…,ht-1,ht},將ht作為短文本序列最終的特征表示,帶入分類函數(shù)實(shí)現(xiàn)分類。以時(shí)刻t為例,不同時(shí)刻隱藏狀態(tài)的更新如下:

式中,U是上一個(gè)時(shí)刻t-1 輸出到下一個(gè)時(shí)刻t輸入的權(quán)重,W是時(shí)刻t輸入的權(quán)重,b為偏置,σ是激活函數(shù)。RNN這種自反饋串聯(lián)結(jié)構(gòu)特別適合于文本這類具有順序結(jié)構(gòu)的數(shù)據(jù),能有效地獲取上下文信息。在實(shí)際應(yīng)用中,RNN逆時(shí)間順序逐步反向傳播,當(dāng)文本序列較長時(shí),容易出現(xiàn)梯度消失或梯度爆炸問題,難以建立文本間的長期依賴關(guān)系?;诖?,許多研究者進(jìn)行了改進(jìn),其中最為有效的是引入門控機(jī)制。Hochreiter等[26]、Gers 等[27]提出長短期記憶網(wǎng)(long short-term memory,LSTM),其循環(huán)單元結(jié)構(gòu)如圖3所示。

圖3 LSTM循環(huán)單元結(jié)構(gòu)圖Fig.3 LSTM recurrent unit structure diagram

由圖3可知,此單元結(jié)構(gòu)是通過引入一個(gè)新的內(nèi)部狀態(tài)Ct來記錄當(dāng)前狀態(tài)的歷史信息,并進(jìn)行內(nèi)部信息傳遞。首先,利用當(dāng)前狀態(tài)xt和上一時(shí)刻隱藏狀態(tài)ht-1計(jì)算輸入門it、遺忘門ft和輸出門ot;然后,通過輸入門it、遺忘門ft分別控制保留多少歷史信息和當(dāng)前狀態(tài)信息,得到新的Ct;最后,再利用輸出門ot將內(nèi)部狀態(tài)信息傳遞給隱藏狀態(tài)ht。

Cho 等[28]則將輸入門與遺忘門合并成一個(gè)更新門,提出門控循環(huán)單元(gated recurrent unit,GRU)。LSTM和GRU通過門控機(jī)制有選擇地學(xué)習(xí)文本歷史信息和當(dāng)前狀態(tài)信息,不僅可以有效地解決梯度消失或爆炸問題,而且細(xì)化了內(nèi)部處理單元,能更有效地存儲(chǔ)和更新上下文信息,在許多任務(wù)上表現(xiàn)優(yōu)于RNN。

CNN 進(jìn)行短文本分類時(shí),要求其輸入具有固定維數(shù),且捕獲文本特征時(shí)卷積核的窗口大小也是固定的,這無疑限制了文本序列信息表達(dá),難以學(xué)到文本序列間長距離依賴關(guān)系。盡管可以通過增加CNN模型的深度來獲取文本更長距離的依賴關(guān)系,但很大程度上提高了計(jì)算成本。而RNN 以可變長度的文本序列作為輸入,能夠利用具有自反饋功能神經(jīng)元來獲取序列間長期依賴關(guān)系[29],有效地捕獲短文本上下文信息,較好地解決了基于CNN短文本方法存在的問題。

Liu P等[30]將RNN集成到多任務(wù)框架中,利用信息共享機(jī)制改進(jìn)LSTM 方法,建立了經(jīng)典的TextRNN 模型。該模型將所有相關(guān)任務(wù)都集成到一個(gè)聯(lián)合訓(xùn)練的系統(tǒng),特定任務(wù)層學(xué)習(xí)單任務(wù)信息,共享層則是多任務(wù)進(jìn)行信息共享。此外,該研究還引入Tree-LSTM[31]作為對比模型,在SST-1 數(shù)據(jù)集上優(yōu)于TextRNN,取得了較好的分類效果。這是因?yàn)槎涛谋揪哂幸欢ǖ慕Y(jié)構(gòu),而LSTM是一種按照時(shí)序進(jìn)行線性信息傳遞的網(wǎng)絡(luò),難以學(xué)習(xí)短文本內(nèi)部依存關(guān)系以及語法等結(jié)構(gòu)信息。Tai等[31]將文本拓?fù)浣Y(jié)構(gòu)信息引入LSTM模型中,分別構(gòu)建了基于依存樹和短語結(jié)構(gòu)樹的LSTM模型,在網(wǎng)絡(luò)結(jié)構(gòu)上使得門向量與內(nèi)部狀態(tài)的更新依賴于所有與之相關(guān)的多個(gè)子單元的狀態(tài),從而能夠有效地結(jié)合短文本的依存關(guān)系、短語構(gòu)成等語法特性,來獲得更準(zhǔn)確的短文本語義表達(dá)。Zhang 等[32]基于短文本的結(jié)構(gòu)信息來進(jìn)行分類。該方法通過關(guān)系解析學(xué)習(xí)單詞間的結(jié)構(gòu)關(guān)系,先將句子用三元組表示,然后依賴三元組得到單詞新的表示,并與原始表示相連接作為Bi-LSTM 的輸入來進(jìn)行分類。此方法依賴三元組對詞向量進(jìn)行訓(xùn)練,在語義、語法層面上對短文本進(jìn)行表征,能同時(shí)獲取短文本語義和語法信息。

上述基于短文本句法結(jié)構(gòu)信息進(jìn)行分類的方法,均需要通過外部解析器來獲取句子的拓?fù)浣Y(jié)構(gòu),模型構(gòu)建比較復(fù)雜,影響了模型的應(yīng)用推廣。

Zhou 等[33]從字符級和詞級層面建立了特征混合短文本分類模型。該模型通過預(yù)訓(xùn)練得到詞和字符的低維向量表示,運(yùn)用LSTM或Bi-LSTM提取字符和詞的特征進(jìn)行拼接生成句子表示,然后輸入到分類函數(shù)來進(jìn)行分類。此方法將字符特征和單詞特征相結(jié)合,并利用語義上的補(bǔ)充性,減少了中文分詞錯(cuò)誤導(dǎo)致的語義缺失。該研究還探索了預(yù)訓(xùn)練詞嵌入、字符嵌入對LSTM分類的有效性,結(jié)果表明預(yù)訓(xùn)練詞嵌入和字符嵌入能提高LSTM的分類性能,且詞嵌入起主導(dǎo)作用。另外,眾多學(xué)者[34-36]研究基于Word2Vec、GloVe 和BERT 等預(yù)訓(xùn)練模型,研究了LSTM短文本分類方法,也取得了不錯(cuò)的效果。

在短文本序列中,并非所有信息都同等重要,一般只有部分關(guān)鍵信息對分類起著重要作用,因此賦予關(guān)鍵信息更高的權(quán)值能提高短文本分類效果。而注意力機(jī)制[37]能給RNN 中每個(gè)單元的輸出向量賦予不同的權(quán)值,并將加權(quán)結(jié)果作為文本特征表示,使模型更加關(guān)注有利于分類的關(guān)鍵信息。Yang Z等[38]結(jié)合分層注意網(wǎng)絡(luò)和Bi-GRU對英文短文本進(jìn)行分類。該模型首先通過預(yù)訓(xùn)練模型得到詞的向量表示,將其輸入到融合Attention機(jī)制的Bi-GRU網(wǎng)絡(luò)中,得到句子向量的表示;然后將句子向量表示也輸入到融合Attention 機(jī)制的Bi-GRU 網(wǎng)絡(luò)中,得到整篇文檔的向量表示來進(jìn)行分類。此方法將文本劃分為詞、句子、文檔三個(gè)層次,并在每個(gè)層次間引入Atention 機(jī)制賦予不同的詞、句子以不同的權(quán)值,逐層選出關(guān)鍵信息。Zhou 等[39]在Yang 的啟發(fā)下,提出結(jié)合詞和字符的混合注意網(wǎng)絡(luò)對中文短文本進(jìn)行分類。模型通過融合注意力機(jī)制的Bi-LSTM來獲取短文本詞嵌入表示和字符嵌入表示,進(jìn)而提取出最關(guān)鍵的詞信息和字符信息。實(shí)驗(yàn)結(jié)果表明:融合注意力的Bi-LSTM具有更好的性能;相比之下,融合注意力機(jī)制的CNN模型則沒有明顯性能上的提升,甚至分類性能有所下降。這可能是因?yàn)槲谋娟P(guān)鍵信息間的距離較長,CNN 只能捕捉窗口范圍內(nèi)的語義信息。此外,陶志勇等[40]利用Bi-LSTM 進(jìn)行語義特征提取,然后利用注意力機(jī)制將Bi-LSTM獲取的正向與反向特征進(jìn)行融合,得到更深語義特征的短文本向量表示。吳小華等[41]、陳立潮等[42]則是利用自注意力機(jī)制來動(dòng)態(tài)調(diào)整由Bi-LSTM獲取的特征權(quán)值。石磊等[43]則是通過自注意力機(jī)制來關(guān)注對分類貢獻(xiàn)較大的文本部分,然后再利用LSTM進(jìn)行特征提取。

3 基于CNN、RNN融合的短文本分類研究

CNN 的最大優(yōu)勢在于提取短文本的局部特征,而RNN 則能有效獲取短文本的長距離依賴關(guān)系,因此諸多研究綜合二者的優(yōu)勢,構(gòu)建了CNN與RNN的融合模型來提高短文本的分類效果。

Lai 等[44]提出RCNN 模型,通過Bi-LSTM 學(xué)習(xí)中心左側(cè)和右側(cè)的單詞表示,拼接后作為中心詞表示,然后將中心詞表示輸入到CNN中提取特征來進(jìn)行分類。Xu等[45]則是在文獻(xiàn)[24]的基礎(chǔ)上進(jìn)行了改進(jìn)。該研究引入Bi-GRU 來提取詞的上下文信息,然后利用注意力機(jī)制來動(dòng)態(tài)提取與上下文相關(guān)的一組概念,再經(jīng)過聚合來獲得概念表示。與文獻(xiàn)[24]相比,該方法減少了一般概念對CNN提取特征的影響。Hao等[46]、Chen等[47]則引入了字符信息。Hao等利用Bi-LSTM分別獲取詞和字符表示,并通過注意力機(jī)制將兩者整合,輸入到CNN 中提取特征進(jìn)行分類。Chen 等進(jìn)一步引入了概念信息,并建立了雙重注意力機(jī)制。首先利用Bi-LSTM獲取文本的字符、詞和概念表示,然后分別在概念-短文本以及概念-概念間建立注意力機(jī)制,提取概念集層面和文本層面上較為主要的概念信息。上述研究均是將LSTM 的輸出作為CNN 的輸入類來提取特診進(jìn)行分類。She 等[48]則是先運(yùn)用CNN獲取文本的局部特征來作為LSTM的輸入,也獲得了較好的分類性能。另外,也有研究引入集成學(xué)習(xí)的思想,將多種基于CNN、RNN的分類模型作為基分類器,然后通過多個(gè)模型表決進(jìn)行分類。如鄭承宇等[49]將TextCNN、DPCNN[50]、RNN 和RCNN 等作為基學(xué)習(xí)器,通過Stacking 集成不同的特征信息表達(dá)用于分類,增強(qiáng)了模型的場景適應(yīng)性和泛化能力。關(guān)于CNN、RNN融合的短文本分類方法研究,大多數(shù)是利用RNN 對短文本及其外部特征進(jìn)行向量表示來獲取相關(guān)的上下文信息,在此基礎(chǔ)上再利用CNN進(jìn)一步提取特征,不過這樣構(gòu)建的模型通常比較復(fù)雜。

在短文本分類中,針對短文本語義稀疏性問題,引入外部知識進(jìn)行語義擴(kuò)充是主要的解決方法。另外,短文本的嵌入表示,基本上是直接匹配基于大規(guī)模語料知識庫訓(xùn)練好的詞向量;或者是通過引入基于大規(guī)模語料知識庫的預(yù)訓(xùn)練模型來進(jìn)行微調(diào),以此獲得短文本嵌入表示。由此可知,大規(guī)模知識庫對短文本分類具有極其重要的意義。目前,經(jīng)過諸多學(xué)者的不斷努力,已研發(fā)了許多大規(guī)模的知識庫。如表1所示,為便于后續(xù)相關(guān)研究,整理了常用的重要知識庫。

表1 外部知識庫Table 1 External knowledge base

4 基于GCN的短文本分類研究

GCN是一種通過在非歐空間里定義卷積來提取圖數(shù)據(jù)特征的深度學(xué)習(xí)算法。在譜域中,圖上的卷積定義為傅里葉變換下的點(diǎn)積。對圖的拉普拉斯矩陣進(jìn)行分解得到一組正交基U=[u1,u2,…,un],信號x在圖上的傅里葉變換為。對于圖信息x和y,其圖卷積運(yùn)算定義為:

其中,A是鄰接矩陣,D為圖上的度矩陣,Wi是權(quán)重參數(shù),σ是激活函數(shù)。為進(jìn)一步提升網(wǎng)絡(luò)的效果,Velickovic等[53]提出圖注意力網(wǎng)絡(luò)(graph attention network,GAT),將注意力機(jī)制作為聚合函數(shù)來聚合中心節(jié)點(diǎn)與鄰居節(jié)點(diǎn)的信息[54],增加了GCN的解釋性,其權(quán)重計(jì)算公式為:

其中,a是節(jié)點(diǎn)間的權(quán)重,||表示向量拼接?;贕CN的短文本分類一般過程如圖4所示。

圖4 基于GCN的短文本分類結(jié)構(gòu)圖Fig.4 Short text classification structure diagram based on GCN

由圖4可知,首先,將文本構(gòu)建為圖的形式,直觀表示文本元素間豐富的結(jié)構(gòu)關(guān)系;然后,經(jīng)過圖卷積層提取特征,即圖上的節(jié)點(diǎn)通過邊傳遞信息來得到新的節(jié)點(diǎn)特征表示;最后,將節(jié)點(diǎn)特征表示帶入softmax函數(shù)完成分類。相比于將文本表示為詞、句等矩陣提取特征的CNN、RNN 短文本分類方法。GCN 則是把文本元素表示為節(jié)點(diǎn),并構(gòu)建邊連接元素間的關(guān)系,能有效地保留全局圖信息,提高分類的科學(xué)性。

Yao等[55]首次運(yùn)用GCN進(jìn)行文本分類,基于詞共現(xiàn)信息、詞與句子包含關(guān)系等結(jié)構(gòu)信息來構(gòu)建文本圖,簡稱TextGCN。該圖的節(jié)點(diǎn)是單詞和文檔,邊是單詞-單詞、文檔-單詞以及鄰接矩陣為:

文本圖上節(jié)點(diǎn)以獨(dú)熱向量作為初始值,經(jīng)過兩層GCN得到節(jié)點(diǎn)特征表示進(jìn)行分類。實(shí)驗(yàn)表明該方法在長文本數(shù)據(jù)集上具有更好的表現(xiàn)。這是因?yàn)槎涛谋臼軆?nèi)容稀疏性的影響,導(dǎo)致文本圖節(jié)點(diǎn)間的邊較少,阻礙了節(jié)點(diǎn)間的信息傳遞,影響了節(jié)點(diǎn)的特征信息表達(dá)。Yang T等[56]基于短文本語義信息,提出了一種異構(gòu)圖注意力網(wǎng)絡(luò)(heterogeneous graph attention networks,HGAT)。該模型以文檔、主題以及實(shí)體為文本圖的節(jié)點(diǎn),并在主題-文檔、實(shí)體-文檔和實(shí)體-實(shí)體間構(gòu)建邊來獲取關(guān)系信息。同時(shí)設(shè)計(jì)了雙重注意力機(jī)制,捕捉不同鄰居節(jié)點(diǎn)的重要性以及不同類型節(jié)點(diǎn)的重要性,降低了噪聲信息,增強(qiáng)了模型的解釋性。與TextGCN模型相比,HGAT通過引入實(shí)體、主題等外部語義信息并學(xué)習(xí)信息間關(guān)系,雖然能在一定程度上緩解短文本特征稀疏性的問題,但忽略了短文本句法結(jié)構(gòu)信息,影響了分類的效果。這些基于短文本結(jié)構(gòu)、引入外部語義信息構(gòu)建文本圖的分類方法,很少考慮文本的語義、語法及上下文等自身信息。

基于此,Liu X等[57]基于短文本語義、語法和序列信息構(gòu)建一種張量圖卷積神經(jīng)網(wǎng)絡(luò)TensorGCN。該模型構(gòu)建了多個(gè)文本圖,分別捕獲文本的語義信息、句法依賴關(guān)系和局部序列上下文信息,并構(gòu)建規(guī)則使圖與圖之間進(jìn)行信息傳播,獲得融合文本語義、語法以及局部上下文信息的節(jié)點(diǎn)表示來進(jìn)行分類。雖然文本圖的節(jié)點(diǎn)、邊的類型與TextGCN 相同,但TensorGCN 通過圖內(nèi)和圖間傳播策略,有效地協(xié)調(diào)和集成了多個(gè)圖的異構(gòu)信息。Li 等[58]則建立了同時(shí)考慮語法結(jié)構(gòu)與語義相關(guān)性的雙重GCN模型DualGCN。該模型設(shè)計(jì)了具有豐富句法知識的SynGCN 模塊和帶有自注意機(jī)制的SemGCN模塊,不僅可以減輕依存關(guān)系解析所帶來的錯(cuò)誤,還能夠捕獲語義相關(guān)性。

Lin等[59]融合大規(guī)模預(yù)訓(xùn)練與GCN的優(yōu)勢,構(gòu)建了BertGCN來進(jìn)行分類。該模型沿用TextGCN的文本圖,利用BERT模型對文檔節(jié)點(diǎn)進(jìn)行嵌入表示。BERT模型在大規(guī)模無標(biāo)簽語料庫上進(jìn)行預(yù)訓(xùn)練,掩碼語言模型和下一句子預(yù)測兩個(gè)預(yù)訓(xùn)練任務(wù)能夠從詞級別和句子級別提取文本豐富的語義和上下文信息。同時(shí),還構(gòu)建了一個(gè)直接作用于BERT 嵌入的輔助分類器來提升分類性能。相比于TextGCN,BertGCN模型獲得了更好的分類效果,特別是在較短的文本數(shù)據(jù)集上。

另外,Gao 等[60]在兩層GCN 間引入門控機(jī)制,來平衡BERT 獲取的上下文信息和圖嵌入信息。該方法首先通過BERT 獲得包含上下文信息的文檔嵌入和單詞嵌入,改進(jìn)TetxGCN中詞共現(xiàn)信息不適合短文本分類的問題,將歐式距離與詞共現(xiàn)信息有機(jī)結(jié)合;然后借助于一層GCN 獲得圖嵌入信息,通過門控機(jī)制將兩者進(jìn)行集成,再經(jīng)過第二層GCN 獲得節(jié)點(diǎn)特征表示來進(jìn)行短文本分類。

上述研究均是基于整個(gè)分類語料庫來構(gòu)建文本圖,當(dāng)語料庫很大時(shí),對計(jì)算機(jī)內(nèi)存消耗巨大。為此,許多研究基于單個(gè)文檔來構(gòu)建文本圖,即圖上的節(jié)點(diǎn)僅表示文檔中的單詞,從而將文本分類任務(wù)轉(zhuǎn)化為圖分類任務(wù)。Huang等[61]在相當(dāng)小的窗口內(nèi)連接詞節(jié)點(diǎn)來構(gòu)建文檔圖,獲取更精確的上下文信息。在文檔圖上,將相同的節(jié)點(diǎn)和邊權(quán)值進(jìn)行全局共享,來保留文本全局信息;再通過信息傳遞機(jī)制來進(jìn)行節(jié)點(diǎn)更新,即每個(gè)節(jié)點(diǎn)先聚合其鄰居信息得到新的表示,并根據(jù)新的表示與原始表示來進(jìn)行更新,使節(jié)點(diǎn)表示可以獲得上下文信息。該模型與TextGCN 進(jìn)行對比,具有更好的分類效果,并且大大減少了存儲(chǔ)消耗。

綜合以上分析,下面就CNN、RNN 和GCN 等深度學(xué)習(xí)方法在短文本分類應(yīng)用中的優(yōu)缺點(diǎn)進(jìn)行對比,如表2所示,以便于更好地運(yùn)用這些方法開展短文本分類研究。

表2 基于深度學(xué)習(xí)的短文本分類方法優(yōu)缺點(diǎn)對比Table 2 Comparison of advantages and disadvantages of short text classification methods based on deep learning

5 基于其他深度學(xué)習(xí)方法的短文本分類研究

在利用深度學(xué)習(xí)進(jìn)行短文本分類時(shí),除了以上主流的CNN、RNN、CNN-RNN、GCN 等方法外,也有一些基于其他深度學(xué)的方法被提出。Yang M等[62]將膠囊網(wǎng)絡(luò)引入文本分類任務(wù)。膠囊網(wǎng)絡(luò)將文本表示為張量,不僅有大小還具有方向,能很好地保持模型的空間信息。實(shí)驗(yàn)結(jié)果表明膠囊網(wǎng)絡(luò)比CNN、RNN 具有更好的分類性能。王超凡等[63]提出多尺度特征部分連接膠囊網(wǎng)絡(luò)。首先,通過雙循環(huán)層獲取包含文本上下文信息的單詞表示;然后,再利用多個(gè)卷積來提取文本多尺度特征;最后,部分連接膠囊網(wǎng)絡(luò)進(jìn)行分類,僅使與父膠囊關(guān)系最密切的子膠囊被路由。該模型不僅具有強(qiáng)大的特征學(xué)習(xí)能力,部分連接路由也在一定程度上減少了信息冗余問題。

此外,考慮到CNN、RNN、GCN等模型的訓(xùn)練難度,一些較為簡單的深度分類模型被提出。Iyyer 等[64]提出一種帶有正則化的無序模型。首先,計(jì)算句子或文檔中詞向量的平均值,并利用dropout 正則方法隨機(jī)丟棄部分詞來提升模型效果;然后,將平均值傳遞給幾個(gè)線性的隱藏網(wǎng)絡(luò);最后,利用softmax 函數(shù)進(jìn)行分類,在情感分析和問答任務(wù)上,分類性能接近當(dāng)時(shí)的最佳模型效果。FastText快速分類[65]考慮到詞序,引入了N-gram特征。該模型首先獲取文本詞嵌入,然后將文檔所有的詞嵌入與其N-gram特征取平均作為文檔向量表示,將文檔向量表示輸入到softmax進(jìn)行分類。此方法保證了一定的分類效果,大大節(jié)約了訓(xùn)練的時(shí)間成本。

6 短文本分類常用的標(biāo)簽數(shù)據(jù)集

標(biāo)簽數(shù)據(jù)集在短文本分類中起著基礎(chǔ)性作用,已成為影響這一研究領(lǐng)域發(fā)展的重要因素。為了便于后續(xù)研究,這里對短文本分類研究中的開源數(shù)據(jù)進(jìn)行了梳理,從訓(xùn)練集、測試集文檔數(shù)、類別數(shù)、平均句子長度、相關(guān)文獻(xiàn)、來源等方面總結(jié)了常用短文本標(biāo)簽數(shù)據(jù)集,如表3所示。

由表3可知,對基于深度學(xué)習(xí)的短文本分類模型進(jìn)行有效性檢驗(yàn)時(shí),選取的標(biāo)簽數(shù)據(jù)集主要是電影評論、新聞、社交評論等特定領(lǐng)域,且大多情況是對評論的情感極性進(jìn)行分類,涉及的領(lǐng)域較少;另外,在語言上,相比于英文標(biāo)簽數(shù)據(jù)集,中文標(biāo)簽數(shù)據(jù)集無論在數(shù)量規(guī)模上還是領(lǐng)域廣度上,均具有較大的提升空間。

表3 常用短文本標(biāo)簽數(shù)據(jù)集Table 3 Commonly used short text label datasets

7 總結(jié)與展望

本文對基于深度學(xué)習(xí)的短文本分類方法進(jìn)行了梳理和總結(jié),從CNN、RNN、CNN-RNN、GCN 以及其他方法五方面分析了研究現(xiàn)狀,并對相關(guān)標(biāo)簽數(shù)據(jù)集進(jìn)行了整理。

目前,深度學(xué)習(xí)在短文本分類中的應(yīng)用研究取得了許多實(shí)質(zhì)性進(jìn)展,但在預(yù)訓(xùn)練模型改進(jìn)、拓展特征研究、模型集成以及標(biāo)簽數(shù)據(jù)集構(gòu)建等方面仍存在諸多問題需要進(jìn)一步的探索與研究。具體如下:

其一,基于領(lǐng)域語料庫的預(yù)訓(xùn)練模型的研究。預(yù)訓(xùn)練詞嵌入模型能夠?qū)⑽谋居成錇榈途S稠密的向量表示,很好地解決短文本特征稀疏問題;詞嵌入質(zhì)量在一定程度上決定分類性能。研究表明,詞嵌入質(zhì)量與語料庫的大小密切相關(guān),基于大規(guī)模語料庫訓(xùn)練得到的詞嵌入表示具有更好的分類效果,因此目前主流的詞嵌入模型都是基于大規(guī)模的語料庫來訓(xùn)練的。在實(shí)際任務(wù)中,考慮到訓(xùn)練成本,通常是直接使用已訓(xùn)練好的詞向量來進(jìn)行建模,但短文本存在領(lǐng)域差異性。如何減少詞嵌入偏差對分類帶來的影響、或構(gòu)建基于領(lǐng)域內(nèi)的語料庫來訓(xùn)練詞向量模型是今后研究中關(guān)注的重點(diǎn)。

其二,外部知識與自身特征融合進(jìn)行特征拓展研究。短文本篇幅較短,難以獲取充足的語義、語法等信息用于分類,因此如何拓展和獲取短文本語義、語法等信息一直是研究的熱點(diǎn)。目前主流方法是連接外部知識庫,獲取文本的字符、實(shí)體、概念以及句法依存關(guān)系等信息、再通過深度學(xué)習(xí)提取特征并進(jìn)行融合,起到擴(kuò)展分類信息的作用。但是目前可用的外部知識庫數(shù)量較少,尤其是中文知識庫少之又少,構(gòu)建這樣的知識庫是需要進(jìn)一步研究的工作。另外,外部知識的引入可能帶來一定的噪聲,降低了分類性能,因此如何將外部知識與短文本自身特征融合起來進(jìn)行更有效的分類仍是未來研究的重要方向。

其三,基于組合模型的短文本分類研究。研究發(fā)現(xiàn)多模型組合的分類方法一般優(yōu)于單個(gè)模型。隨著深度學(xué)習(xí)的不斷發(fā)展,知識蒸餾、Transformers等技術(shù)不斷提出,如何將這些技術(shù)進(jìn)行組合來構(gòu)建模型,不僅能充分發(fā)揮不同技術(shù)的優(yōu)勢,還能提高模型的泛化性和魯棒性。因此,基于多模型組合的短文本分類方法引起了諸多學(xué)者廣泛關(guān)注。

其四,高質(zhì)量標(biāo)簽數(shù)據(jù)集構(gòu)建研究。由于深度學(xué)習(xí)性能受樣本數(shù)據(jù)影響,當(dāng)樣本數(shù)據(jù)質(zhì)量低、不平衡時(shí),會(huì)導(dǎo)致分類精度下降。此外,目前可用的短文本標(biāo)簽數(shù)據(jù)集較少,且集中在某幾個(gè)特定領(lǐng)域。因此,加強(qiáng)相關(guān)研究,構(gòu)建基于多領(lǐng)域的高質(zhì)量數(shù)據(jù)集,對于獲取短文本更準(zhǔn)確的分類性能具有重要意義。

猜你喜歡
短文語義卷積
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
語言與語義
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
KEYS
Keys
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
短文改錯(cuò)
囊谦县| 丹江口市| 德江县| 长顺县| 密山市| 开阳县| 宝清县| 兴安县| 罗城| 土默特右旗| 三原县| 奎屯市| 芦溪县| 那坡县| 邻水| 瑞丽市| 宜川县| 扎囊县| 社会| 泸水县| 仁怀市| 沐川县| 工布江达县| 江永县| 社会| 会昌县| 乌苏市| 东山县| 平塘县| 呼伦贝尔市| 罗平县| 张家港市| 大关县| 新巴尔虎右旗| 富平县| 大港区| 故城县| 永定县| 双鸭山市| 寿阳县| 尼木县|