国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的文本分類研究綜述

2024-01-09 09:01:26汪家偉
電子科技 2024年1期
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)分類

汪家偉,余 曉

(1.東南大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,江蘇 南京 210096;2.東南大學(xué) 繼續(xù)教育學(xué)院,江蘇 南京 210096)

文本分類指用計算機(jī)對文本按照一定的分類標(biāo)準(zhǔn)進(jìn)行自動分類標(biāo)記。隨著互聯(lián)網(wǎng)的發(fā)展,信息量快速增長,人工標(biāo)注數(shù)據(jù)耗時、質(zhì)量低下,且易受到標(biāo)注人主觀意識的影響,因此利用機(jī)器自動化地實(shí)現(xiàn)對文本的標(biāo)注具有現(xiàn)實(shí)意義。將重復(fù)且枯燥的文本標(biāo)注任務(wù)由計算機(jī)進(jìn)行處理能夠有效克服以上問題,同時所標(biāo)注的數(shù)據(jù)具有一致性、高質(zhì)量等特點(diǎn)。文本分類的應(yīng)用場景眾多,包括詞性標(biāo)注、情感分析、意圖識別、主題分類、問答任務(wù)和自然語言推理等。

深度學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,通過結(jié)合多層次神經(jīng)網(wǎng)絡(luò),計算機(jī)能自動完成學(xué)習(xí)過程。與傳統(tǒng)的機(jī)器學(xué)習(xí)相比,深度學(xué)習(xí)不僅減少了面對不同問題時的人工設(shè)計成本,實(shí)現(xiàn)了自動化的機(jī)器學(xué)習(xí),還針對數(shù)據(jù)中的潛在信息提升了對其提取和分析的能力。本文對當(dāng)前深度學(xué)習(xí)在文本分類領(lǐng)域的發(fā)展展開綜述性討論,詳細(xì)闡述了目前文本分類的研究進(jìn)展和最新的技術(shù)方法。

1 基于傳統(tǒng)模型的文本分類方法

不同于數(shù)值、圖像或信號數(shù)據(jù),文本數(shù)據(jù)需要利用自然語言處理技術(shù)(Natural Language Processing, NLP)提取文本特征。傳統(tǒng)模型通常需要通過人工方法獲得良好的樣本特征,然后用經(jīng)典機(jī)器學(xué)習(xí)算法進(jìn)行分類。因此,該方法的有效性在較大程度上受到特征提取的限制。

在過去幾年,傳統(tǒng)的文本分類模型占主導(dǎo)地位。傳統(tǒng)方法是指基于統(tǒng)計的模型,例如樸素貝葉斯(Naive Bayes, NB),K-最近鄰(K-Nearest Neighbor, KNN)和支持向量機(jī)(Support Vector Machine, SVM)。NB的參數(shù)較小,對缺失數(shù)據(jù)不太敏感,算法簡單,但其假定特征之間相互獨(dú)立。當(dāng)特征數(shù)量較大或特征之間相關(guān)性顯著時,NB的性能下降。支持向量機(jī)可以解決高維和非線性問題,具有較高的泛化能力,但對缺失數(shù)據(jù)較敏感。KNN主要依靠周圍有限的相鄰樣本,而不是區(qū)分類域來確定類別。因此,對于要用類域的交叉或重疊進(jìn)行劃分的數(shù)據(jù)集,它比其他方法更適合。基于傳統(tǒng)模型的方法從數(shù)據(jù)中學(xué)習(xí),這些數(shù)據(jù)是對預(yù)測值性能較重要的預(yù)定義特征。然而,特征工程是一項(xiàng)重要且復(fù)雜的工作。在訓(xùn)練分類器之前,研究人員需要收集知識或經(jīng)驗(yàn)以從原始文本中提取特征。此外,這些方法通常忽略文本數(shù)據(jù)中的自然順序結(jié)構(gòu)或上下文信息,使學(xué)習(xí)單詞的語義信息具有挑戰(zhàn)性。

2 深度學(xué)習(xí)概述

深度學(xué)習(xí)[1]是機(jī)器學(xué)習(xí)的一個新領(lǐng)域。與傳統(tǒng)的淺層模型不同,深度學(xué)習(xí)模型結(jié)構(gòu)相對復(fù)雜,不依賴于人工獲取的文本特征,可以直接對文本內(nèi)容進(jìn)行學(xué)習(xí)、建模。其次,深度學(xué)習(xí)闡明了特征學(xué)習(xí)的重要性,并通過逐層特征變換將樣本在原空間的特征表示轉(zhuǎn)換為新的特征空間,從而使NLP更容易。

2.1 循環(huán)神經(jīng)網(wǎng)絡(luò)

循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks, RNN)能挖掘數(shù)據(jù)中的時序信息和語義信息,故其能有效處理具有序列特性的數(shù)據(jù)。

如圖1所示,RNN的基本結(jié)構(gòu)由輸入層、隱藏層和輸出層組成。RNN在處理數(shù)據(jù)時,每次計算都將當(dāng)前層的輸出送入下一層的隱藏層中,并和下一層的輸入一起計算輸出。雖然RNN在處理序列數(shù)據(jù)上具有良好的性能,但對長期的記憶影響較小,不能應(yīng)對輸入較長的情況。

圖1 循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Figure 1. Structure of RNN

2.2 長短期記憶網(wǎng)絡(luò)

長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)[2]作為特殊的RNN,在長序列訓(xùn)練任務(wù)中表現(xiàn)更好。LSTM主要有遺忘階段、選擇記憶階段和輸出階段,遺忘階段主要是選擇性遺忘上一個節(jié)點(diǎn)傳過來的輸出,選擇記憶階段對當(dāng)前階段的輸入進(jìn)行選擇性的進(jìn)行記憶,輸出階段決定被當(dāng)成當(dāng)前階段的輸出。LSTM的傳輸狀態(tài)通過門控狀態(tài)來控制。

2.3 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的主要特點(diǎn)在于權(quán)值共享與局部連接兩個方面[3]。作為一種前饋神經(jīng)網(wǎng)絡(luò),CNN一般用于處理圖像數(shù)據(jù)。對一張輸入的圖片,CNN使用一個卷積核來掃描圖片,卷積核里的數(shù)就是權(quán)重,圖片的每個位置被相同的卷積核掃描就叫做權(quán)值共享。對圖像來說,每個神經(jīng)元只需要感知當(dāng)前網(wǎng)絡(luò)層的局部信息,而全局信息可以由低層的局部信息綜合獲取。局部連接可以減少參數(shù)量,提高訓(xùn)練效率。

卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示。與處理圖像不同,在自然語言處理領(lǐng)域,需要將CNN的輸入轉(zhuǎn)換成矩陣表示的句子或文檔。矩陣的每一行對應(yīng)于一個元素的向量表示,向量可以是單詞,也可以是字符。向量可以通過詞嵌入或one-hot編碼形式獲得。卷積層是CNN中的重要組成部分,通過卷積運(yùn)算卷積層的每一個節(jié)點(diǎn)對應(yīng)上一層網(wǎng)絡(luò)的局部信息,其目的是關(guān)注輸入圖片或者文本的不同特征。在處理文本序列問題時,通過改變卷積核的大小能幫助提取文本序列中的不同特征。與卷積層的操作類似,池化層也使用卷積核提取特征,但池化層的卷積核只取對應(yīng)位置的最大值或平均值。池化層不斷減少參數(shù)數(shù)量,不僅可以提高計算速度和減少計算量,一定程度上也控制了過擬合。在卷積層和池化層之后,CNN一般加上一個全連接層,該層的主要作用是降維,并且保留有用信息。向量通過卷積層和池化層之后,相當(dāng)于自動完成了特征提取,在特征提取后,可以傳輸?shù)捷敵鰧油瓿蓪?yīng)的下游任務(wù),例如分類或預(yù)測。

圖2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Figure 2. Structure of CNN

2.4 預(yù)訓(xùn)練方法

預(yù)訓(xùn)練的語言模型[4]有效學(xué)習(xí)了全局語義表示并且明顯提升了自然語言處理任務(wù)的性能。首先通過自監(jiān)督學(xué)習(xí)獲得預(yù)訓(xùn)練模型,然后預(yù)訓(xùn)練模型針對具體的任務(wù)修正網(wǎng)絡(luò)。

ELMo(Embeddings from Lauguage Models)[5]是一個使用雙向LSTM的詞表示模型,具有深度上下文化的特征并且易集成到模型中。通過使用雙向LSTM并FGPT根據(jù)上下文學(xué)習(xí)每個詞嵌入,可以對單詞的復(fù)雜特征進(jìn)行建模,并為各種語言上下文學(xué)習(xí)不同的表示。GPT(Generative Pre-Training Transformer)[6]算法包含兩個階段,即預(yù)訓(xùn)練和微調(diào)。GPT算法的訓(xùn)練過程通常包括兩個階段:1)神經(jīng)網(wǎng)絡(luò)模型的初始參數(shù)由建模目標(biāo)在未標(biāo)記的數(shù)據(jù)集上學(xué)習(xí);2)根據(jù)具體的任務(wù),通過有標(biāo)簽的數(shù)據(jù)對模型進(jìn)行微調(diào)。BERT(Bidirectional Encoder Representation from Transformers)模型[7]增強(qiáng)了NLP任務(wù)的性能。BERT應(yīng)用雙向編碼器,旨在通過聯(lián)合調(diào)整所有層中的上下文來預(yù)訓(xùn)練深度的雙向表示,其可以在預(yù)測被屏蔽單詞時利用上下文信息。為進(jìn)行微調(diào),可以通過添加一個額外的輸出層來微調(diào)多個NLP任務(wù)構(gòu)建模型。

2.5 圖神經(jīng)網(wǎng)絡(luò)

圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)[8]是近年來出現(xiàn)的一種利用深度學(xué)習(xí)直接對圖結(jié)構(gòu)數(shù)據(jù)進(jìn)行學(xué)習(xí)的框架,其優(yōu)異的性能引起了研究人員的高度關(guān)注和深入探索。通過在圖中的節(jié)點(diǎn)和邊上制定一定策略,GNN將圖結(jié)構(gòu)數(shù)據(jù)轉(zhuǎn)化為規(guī)范而標(biāo)準(zhǔn)的表示,并輸入到多種不同的神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,在節(jié)點(diǎn)分類、邊信息傳播和圖聚類等任務(wù)上取得了優(yōu)良的效果。基于GNN的模型通過對句子的句法結(jié)構(gòu)進(jìn)行編碼,在語義角色標(biāo)記任務(wù)、關(guān)系分類任務(wù)和機(jī)器翻譯任務(wù)上展現(xiàn)了較佳的性能。

DGCNN(Dilate Gated Convolutional Neural Network)[9]能將文本轉(zhuǎn)換為詞圖結(jié)構(gòu),具有使用CNN模型學(xué)習(xí)不同級別語義的優(yōu)勢。TextGCN[10]為整個數(shù)據(jù)集構(gòu)建了一個異構(gòu)的詞文本圖并捕獲了全局詞共現(xiàn)信息。TextING[11]通過GNN的方法,為每個文檔構(gòu)建單獨(dú)的圖,并學(xué)習(xí)文本級單詞交互,有效地為新文本中的晦澀單詞生成嵌入。

3 文本分類研究進(jìn)展

文本分類主要研究內(nèi)容包括情感分析、話題標(biāo)記、新聞分類、問答系統(tǒng)、對話行為分類、自然語言推理、關(guān)系分類以及事件預(yù)測等。

3.1 基于RNN方法

文獻(xiàn)[12]提出了BiLSTM-CRF(Bi-directional Long Short-Term Memory-Conditional Random Field)模型并將其應(yīng)用到基于方面的情感分析任務(wù)中。利用雙向長短期記憶網(wǎng)絡(luò)可以捕獲長距離雙向語義依賴關(guān)系并且能學(xué)習(xí)文本語義信息的特點(diǎn),預(yù)測句子級別的全局最佳標(biāo)簽序列。文獻(xiàn)[13]提出了上下文推理網(wǎng)絡(luò)進(jìn)行對話情緒識別,從認(rèn)知角度充分理解會話上下文。其還設(shè)計了多輪推理模塊來提取和整合情緒線索。文獻(xiàn)[14]展示了文檔可以表示為帶有語義含義的向量序列,并使用識別遠(yuǎn)程關(guān)系的循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。在該表示中,額外的情感向量可以較容易地作為一個完全連接的層附加到詞向量上,以進(jìn)一步提高分類準(zhǔn)確性。文獻(xiàn)[15]使用Word2Vec工具對語料庫進(jìn)行訓(xùn)練,得到文本詞向量表示后使用引入注意力機(jī)制的LSTM模型進(jìn)行文本特征提取,結(jié)合交叉熵訓(xùn)練模型并將模型應(yīng)用到旅游問題文本分類方法中。

RNN是順序計算,不能并行計算。RNN的缺點(diǎn)使在當(dāng)前模型趨于具有更深和更多參數(shù)的趨勢中成為主流更具挑戰(zhàn)性。

3.2 基于CNN方法

文獻(xiàn)[16]通過創(chuàng)建接受無序和可變長度池的并行CNN,并在創(chuàng)建雙向LSTM時移除了輸入/輸出門,改進(jìn)了傳統(tǒng)的深度學(xué)習(xí)方法。該方法使用4個基準(zhǔn)數(shù)據(jù)集進(jìn)行主題和情感分類。文獻(xiàn)[17]將上下文相關(guān)特征與基于時間卷積網(wǎng)絡(luò)(Temporal Convolutional Network,TCN)和CNN的多階段注意力模型相結(jié)合提出了一種新的短文本分類方法。該模型解決了短文本的數(shù)據(jù)稀疏性和歧義性,并且通過提高模型的并行化以提高效率。文獻(xiàn)[18]提出了一種基于CNN的架構(gòu)TextConvoNet,不僅可以提取句內(nèi)n-gram特征,還可以捕獲輸入文本數(shù)據(jù)中的句間n-gram特征。

CNN通過卷積核從文本向量中提取特征。卷積核捕獲的特征數(shù)量與其大小有關(guān)。CNN由多層神經(jīng)網(wǎng)絡(luò)組成,層次足夠深,理論上其可以捕獲遠(yuǎn)距離的特征。與RNN相比,CNN具有并行計算能力,可以有效地為改進(jìn)版的CNN保留位置信息。它對于長距離的特征捕捉能力仍然較弱。

3.3 基于GNN方法

隨著圖形神經(jīng)網(wǎng)絡(luò)受到日益關(guān)注,基于GNN的模型通過對文本分類任務(wù)中的句子句法結(jié)構(gòu)進(jìn)行編碼獲得了優(yōu)異的性能。

文獻(xiàn)[19]提出了一種雙圖卷積網(wǎng)絡(luò)模型用于基于方面的情感分析,該模型同時考慮了句法結(jié)構(gòu)的互補(bǔ)性和語義相關(guān)性。文獻(xiàn)[20]提出了一種使用有向無環(huán)圖對詞語進(jìn)行編碼的想法,并設(shè)計了一個有向無環(huán)神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)該想法。該模型提供了一種更為直觀的方法來模擬遠(yuǎn)程對話背景和附近上下文之間的信息流。文獻(xiàn)[21]提出了一種新的基于圖的方法,通過利用常識知識來建模情感觸發(fā)路徑,以增強(qiáng)候選子句和情感子句之間的語義依賴關(guān)系。文獻(xiàn)[22]提出了一種用于多標(biāo)簽文本分類的模型,該模型使用圖形數(shù)據(jù)庫存儲文檔。使用標(biāo)準(zhǔn)字典對文檔進(jìn)行預(yù)處理,然后生成分類字典,分類字典用于生成子圖。該模型維護(hù)一個查找表以減少新文檔的搜索空間。

GNN為文本構(gòu)建圖。當(dāng)設(shè)計的圖結(jié)構(gòu)足夠有效時,學(xué)習(xí)的表示可以更好地捕捉結(jié)構(gòu)信息。

3.4 基于Attention方法

CNN和RNN在與文本分類相關(guān)的任務(wù)上提供了出色的結(jié)果。然而,這些模型不夠直觀,難以解釋,尤其是在分類錯誤的情況下,由于隱藏數(shù)據(jù)的不可讀性,分類錯誤無法解釋,因此一些研究者將基于注意力的方法應(yīng)用到了文本分類中。

文獻(xiàn)[23]提出了一種使用兩種新穎的深度學(xué)習(xí)架構(gòu)的醫(yī)學(xué)文本分類范式來對醫(yī)學(xué)文本進(jìn)行有效處理。第一種方法是利用4個通道實(shí)現(xiàn)四通道混合長短期記憶的深度學(xué)習(xí)模型。第二種方法是開發(fā)并實(shí)施了具有多頭注意力的混合雙向門控循環(huán)單元深度學(xué)習(xí)模型。文獻(xiàn)[24]構(gòu)建了FMNN(Fused with Multiple Neural Network)模型,該模型融合了多種神經(jīng)網(wǎng)絡(luò)模型的特性并使用Attention提取文本的全局語義特征。

3.5 基于預(yù)處理模型方法

文獻(xiàn)[25]提出了一種基于BERT的文本分類模型BERT4TC。該模型通過構(gòu)造輔助句將分類任務(wù)轉(zhuǎn)化為二元句對,旨在解決訓(xùn)練數(shù)據(jù)受限問題和任務(wù)感知問題。文獻(xiàn)[26]BERT模型捕捉審稿人的心理特征,并將其應(yīng)用于短文本分類,以提高其分類準(zhǔn)確率。

BERT學(xué)習(xí)一種語言表示法,可以用于對許多NLP任務(wù)進(jìn)行微調(diào)。主要方法是增加數(shù)據(jù),提高計算能力,并設(shè)計訓(xùn)練程序以獲得更好的結(jié)果。

3.6 方法總結(jié)

在過去幾年中,研究人員提出了較多用于文本分類的深度學(xué)習(xí)模型,如表1所示,將深度學(xué)習(xí)模型的主要信息制成表格用于文本分類。表1中的應(yīng)用包括情感分析(Sentiment Analysis,SA)、主題標(biāo)簽(Topic Lable,TL)、基于方面的情感分析(Aspect-Based Sentiment Analysis,ASBA)、短文本分類(Short Text Classification,STC)、對話情緒識別(Emotion Recognition in Conversation,ERC)和情緒原因提取(Emotion Cause Extraction,ECE)。為提升模型分類的性能,研究人員嘗試了,例如融合一些神經(jīng)網(wǎng)絡(luò)模型或注意力機(jī)制,或者改進(jìn)常見的神經(jīng)網(wǎng)絡(luò)模型等方法。此外,一些研究人員研究了基于圖神經(jīng)網(wǎng)絡(luò)(GNN)的文本分類技術(shù),以捕獲文本中的結(jié)構(gòu)信息,其他方法無法替代。

表1 基于不同模型的文本分類方法

傳統(tǒng)模型主要通過改進(jìn)特征提取方案和分類器設(shè)計來提高文本分類性能。相比之下,深度學(xué)習(xí)模型通過改進(jìn)演示學(xué)習(xí)方法、模型結(jié)構(gòu)以及其他數(shù)據(jù)和知識來提高性能。

深度學(xué)習(xí)可以基于詞和向量學(xué)習(xí)語言特征,掌握更高層次、更抽象的語言特征。深度學(xué)習(xí)架構(gòu)不同于傳統(tǒng)方法需要過多的人工干預(yù)和先驗(yàn)知識,可以直接學(xué)習(xí)輸入中的特征表示。然而,深度學(xué)習(xí)以數(shù)據(jù)為驅(qū)動,該技術(shù)若要實(shí)現(xiàn)高性能,需要大量數(shù)據(jù)用于訓(xùn)練。

4 結(jié)束語

通過使用NLP、機(jī)器學(xué)習(xí)和其他技術(shù),深度學(xué)習(xí)模型能自動進(jìn)行不同的分類任務(wù)。文本分類的輸入可以是多種不同類型的文本,經(jīng)過預(yù)訓(xùn)練文本表示為向量。然后將訓(xùn)練好的詞向量輸入到網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練,將神經(jīng)網(wǎng)絡(luò)得到的輸出通過下游任務(wù)驗(yàn)證,根據(jù)下游任務(wù)的結(jié)果計算訓(xùn)練模型的性能。現(xiàn)有模型已經(jīng)顯示出在文本分類中的有用性,但需探索改進(jìn)之處。

該領(lǐng)域研究的難點(diǎn)在于模型的參數(shù)調(diào)整,較優(yōu)的參數(shù)選擇能方便模型的優(yōu)化。但滿足深度學(xué)習(xí)需要的龐大的訓(xùn)練數(shù)據(jù)仍然是一個難題。深度學(xué)習(xí)模型對訓(xùn)練數(shù)據(jù)量和運(yùn)算時間的要求較高。深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練結(jié)果是否準(zhǔn)確,主要取決于訓(xùn)練數(shù)據(jù)量是否足夠龐大。同時,深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時間隨著網(wǎng)絡(luò)模型的增大而增加,既能保持模型性能不變,又能將模型體積不斷減小將是未來的一個研究方向。

深度學(xué)習(xí)是一種黑盒模型,訓(xùn)練過程難以重現(xiàn),隱含語義和輸出可解釋性較差,使模型的改進(jìn)和優(yōu)化失去了明確的指導(dǎo)方針。除此之外,目前也無法準(zhǔn)確解釋深度學(xué)習(xí)模型性能提高的原因。

猜你喜歡
卷積神經(jīng)網(wǎng)絡(luò)分類
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實(shí)現(xiàn)
分類算一算
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
教你一招:數(shù)的分類
基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
沽源县| 论坛| 鹿泉市| 潜山县| 饶河县| 惠水县| 临江市| 惠州市| 宁夏| 渑池县| 淮安市| 电白县| 渭南市| 喀喇| 扶余县| 资阳市| 昂仁县| 高陵县| 得荣县| 赤水市| 南丹县| 罗江县| 涪陵区| 隆昌县| 普兰县| 镇远县| 将乐县| 九江县| 辛集市| 南川市| 赤城县| 高州市| 平江县| 手机| 新野县| 冷水江市| 漠河县| 绥滨县| 嵊泗县| 邵东县| 荣昌县|