国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合字注釋的文本分類模型

2022-06-21 06:29:04楊先鳳趙家和李自強(qiáng)
計(jì)算機(jī)應(yīng)用 2022年5期
關(guān)鍵詞:特征提取向量分類

楊先鳳,趙家和,李自強(qiáng)

(1.西南石油大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,成都 610500; 2.四川師范大學(xué) 影視與傳媒學(xué)院,成都 610066)(?通信作者電子郵箱565695835@qq.com)

融合字注釋的文本分類模型

楊先鳳1*,趙家和1,李自強(qiáng)2

(1.西南石油大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,成都 610500; 2.四川師范大學(xué) 影視與傳媒學(xué)院,成都 610066)(?通信作者電子郵箱565695835@qq.com)

針對(duì)傳統(tǒng)文本特征表示方法無(wú)法充分解決一詞多義的問(wèn)題,構(gòu)建了一種融合字注釋的文本分類模型。首先,借助現(xiàn)有中文字典,獲取文本由字上下文選取的字典注釋,并對(duì)其進(jìn)行Transformer的雙向編碼器(BERT)編碼來(lái)生成注釋句向量;然后,將注釋句向量與字嵌入向量融合作為輸入層,并用來(lái)豐富輸入文本的特征信息;最后,通過(guò)雙向門控循環(huán)單元(BiGRU)學(xué)習(xí)文本的特征信息,并引入注意力機(jī)制突出關(guān)鍵特征向量。在公開數(shù)據(jù)集THUCNews和新浪微博情感分類數(shù)據(jù)集上進(jìn)行的文本分類的實(shí)驗(yàn)結(jié)果表明,融合BERT字注釋的文本分類模型相較未引入字注釋的文本分類模型在性能上有顯著提高,且在所有文本分類的實(shí)驗(yàn)?zāi)P椭?,所提出的BERT字注釋_BiGRU_Attention模型有最高的精確率和召回率,能反映整體性能的F1-Score則分別高達(dá)98.16%和96.52%。

一詞多義;字注釋;基于Transformer的雙向編碼器;雙向門控循環(huán)單元;注意力機(jī)制;文本分類

0 引言

隨著中國(guó)互聯(lián)網(wǎng)行業(yè)的快速發(fā)展,根據(jù)第43次《中國(guó)互聯(lián)網(wǎng)發(fā)展趨勢(shì)報(bào)告》[1],截至2020年12月,中國(guó)互聯(lián)網(wǎng)用戶已達(dá)9.89億,互聯(lián)網(wǎng)普及率達(dá)70.4%。人們?cè)诰W(wǎng)絡(luò)上隨時(shí)隨地獲取自己熱愛(ài)領(lǐng)域的優(yōu)質(zhì)文本信息,已經(jīng)超越傳統(tǒng)紙質(zhì)閱讀成為了新的閱讀熱潮。用戶日常面臨海量的文本信息,對(duì)文本信息進(jìn)行文本分類能夠使得網(wǎng)絡(luò)運(yùn)營(yíng)商推送用戶感興趣的某些文本信息,同時(shí)提高用戶的閱讀體驗(yàn)。如何對(duì)用戶感興趣的文本信息進(jìn)行更加精準(zhǔn)的分類,成為了當(dāng)前自然語(yǔ)言處理(Natural Language Processing, NLP)領(lǐng)域下文本分類技術(shù)面臨的熱點(diǎn)問(wèn)題。

文獻(xiàn)[2]中提出了基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的文本分類,句子的表示采用預(yù)訓(xùn)練好的詞向量(Word Embedding)矩陣,利用多個(gè)不同的CNN卷積核提取輸入文本的不同特征,進(jìn)一步證明了優(yōu)化詞向量和特征提取能力可以提高文本分類準(zhǔn)確度。文獻(xiàn)[3]中提出了一種基于多通道CNN模型,通過(guò)引入多通道分布式詞表示,獲取更多特征信息來(lái)改善文本分類效果。然而,CNN在處理文本時(shí)存在無(wú)法考慮語(yǔ)言結(jié)構(gòu)的問(wèn)題,忽略了詞語(yǔ)之間的依存關(guān)系。文獻(xiàn)[4]中提出了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)的多任務(wù)學(xué)習(xí)的文本分類模型,利用RNN具有“記憶”功能來(lái)捕獲序列之間的依賴關(guān)系。文獻(xiàn)[5]中引入了雙向RNN(Bidirectional RNN, BiRNN)進(jìn)行手寫文本分類,BiRNN將序列的正向信息和逆向信息結(jié)合訓(xùn)練網(wǎng)絡(luò)。文獻(xiàn)[6]中利用長(zhǎng)短期記憶(Long Short?Term Memory, LSTM)網(wǎng)絡(luò)進(jìn)行短文分類,避免了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度爆炸、梯度消失和長(zhǎng)期依賴等問(wèn)題;但是LSTM模型參數(shù)過(guò)多,模型較復(fù)雜。文獻(xiàn)[7]中提出了門控循環(huán)單元(Gated Recurrent Unit, GRU)網(wǎng)絡(luò)對(duì)LSTM進(jìn)行部分修改,模型更簡(jiǎn)單,在保證擁有LSTM功能的同時(shí)提升了訓(xùn)練效率。

文獻(xiàn)[8]中提出了詞的分布式表示,通過(guò)一種較低維度的稠密向量表示,將詞信息分布式地表示在稠密向量的不同維度上,具備一定的語(yǔ)義表示能力。文獻(xiàn)[9]中提出了Word2Vector詞向量訓(xùn)練工具,為了學(xué)習(xí)更具意義的詞向量,包括了CBOW(Continuous Bag-of-Words)和Skip-Gram兩種不同訓(xùn)練模型。CBOW模型思想通過(guò)前后單詞預(yù)測(cè)當(dāng)前單詞,而Skip-Gram思想是通過(guò)當(dāng)前單詞預(yù)測(cè)其前后單詞。Word2Vector訓(xùn)練出的詞向量是唯一不變的,無(wú)法解決一詞多義的問(wèn)題。文獻(xiàn)[10]中提出了Doc2Vector模型,目的是為了保存句子上下文信息,解決詞序和語(yǔ)義問(wèn)題,可將任意長(zhǎng)度句子表示為固定長(zhǎng)度的句向量。文獻(xiàn)[11]中提出了ELMo(Embeddings from Language Models),基于動(dòng)態(tài)詞向量的思想,通過(guò)語(yǔ)言模型得到詞的單一表示后根據(jù)上下文語(yǔ)境不同再調(diào)整詞向量,從而使在不同語(yǔ)境下的詞向量表示不同。文獻(xiàn)[12]中提出了基于多層Transformer[13]的雙向編碼器(Bidirectional Encoder Representations from Transformers, BERT),通過(guò)大量語(yǔ)料訓(xùn)練,考慮詞語(yǔ)在不同上下文的表達(dá)應(yīng)該不同,形成融合位置信息和上下文信息的動(dòng)態(tài)詞向量,并可通過(guò)訓(xùn)練好的BERT模型獲取指定句子的句向量,該句向量能夠較充分地表示句子意思。

上述方法對(duì)文本分類作出的貢獻(xiàn)主要在優(yōu)化詞向量和特征提取部分,但是在這兩部分還存在更多的提升空間需要去研究。為了更加準(zhǔn)確地進(jìn)行文本分類,需要設(shè)計(jì)出更加完善的文本表示方法以及充分的特征提取網(wǎng)絡(luò)。針對(duì)以上問(wèn)題,本文提出了一種融合BERT字注釋的文本分類模型。在文本表示部分,由于字典和詞典中往往包含這一個(gè)字或詞的各種注釋信息,這些注釋能夠非常準(zhǔn)確地描述這個(gè)字詞,BERT可以將注釋信息轉(zhuǎn)換為句向量,將注釋句向量和字嵌入向量拼接作為該字基于上下文的文本表示,解決一詞多義問(wèn)題。在特征提取部分,使用雙向GRU(Bidirectional GRU, BiGRU)網(wǎng)絡(luò)提取文本雙向特征,在BiGRU網(wǎng)絡(luò)后引入注意力(Attention)機(jī)制[14],計(jì)算注意力概率分布,獲得具有重要性分布的特征表示,增強(qiáng)特征提取能力。

1 相關(guān)工作

1.1 文本分類

文本分類是自然語(yǔ)言處理的一個(gè)重要分支,目的是將給定文本歸類為預(yù)設(shè)定的類別。文本分類應(yīng)用廣泛,包含新聞分類、情感識(shí)別和垃圾郵件過(guò)濾等。隨著大數(shù)據(jù)和人工智能時(shí)代的到來(lái),文本分類的研究由傳統(tǒng)的基于規(guī)則匹配方法轉(zhuǎn)向機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)方法。傳統(tǒng)的機(jī)器學(xué)習(xí)算法如K近鄰(K-Nearest Neighbor, KNN)[15]、支持向量機(jī)(Support Vector Machine, SVM)[16]和樸素貝葉斯(Naive Bayesian, NB)[17]等在進(jìn)行文本分類時(shí)通常存在無(wú)法學(xué)習(xí)較深的文本語(yǔ)義、準(zhǔn)確率較低和數(shù)據(jù)稀疏等問(wèn)題。

基于深度學(xué)習(xí)的文本分類方法能夠通過(guò)神經(jīng)網(wǎng)絡(luò)去提取更多的文本特征,進(jìn)行自動(dòng)分類。這類方法通常分為兩個(gè)主要步驟:一是將輸入文本表示為合適的向量矩陣;二是選擇合適的神經(jīng)網(wǎng)絡(luò),如采用CNN、RNN來(lái)提取文本特征信息完成文本分類。本文選用BiGRU結(jié)合Attention機(jī)制來(lái)提取文本特征信息。

1.2 BERT模型

文本表示是自然語(yǔ)言處理中的基礎(chǔ)工作,將詞表示成固定長(zhǎng)度的稠密向量稱為詞向量,又叫詞嵌入(Word Embedding)。詞向量大幅度提升了神經(jīng)網(wǎng)絡(luò)處理文本數(shù)據(jù)的能力。文本表示的好壞直接影響到下游網(wǎng)絡(luò)進(jìn)行文本分類的效果。本文使用BERT模型對(duì)字典注釋信息編碼,獲取句級(jí)別的注釋向量。

圖1 BERT模型結(jié)構(gòu)Fig. 1 Structure of BERT model

Transformer是一個(gè)Encoder-Decoder結(jié)構(gòu),由多個(gè)編碼器和多個(gè)解碼器堆疊構(gòu)成。BERT模型中只采用了Transformer的Encoder部分,其結(jié)構(gòu)如圖2所示。編碼器由多頭自注意力機(jī)制(Multi-Head Self-Attention)、殘差網(wǎng)絡(luò)和前饋網(wǎng)絡(luò)組成,可將輸入信息轉(zhuǎn)化成特征向量。

1.3 GRU網(wǎng)絡(luò)

GRU是對(duì)LSTM的一種效果很好的變體,GRU將LSTM的忘記門和輸入門合成了一個(gè)單一的更新門,同樣還混合了細(xì)胞狀態(tài)和隱藏狀態(tài)以及其他一些改動(dòng),它比LSTM結(jié)構(gòu)更簡(jiǎn)單,參數(shù)更少,收斂性更好,而且很好地解決了RNN中的長(zhǎng)依賴問(wèn)題。GRU由更新門和重置門構(gòu)成,具體結(jié)構(gòu)如圖3所示。

圖2 Transformer Encoder結(jié)構(gòu)Fig. 2 Structure of Transformer Encoder

圖3 GRU結(jié)構(gòu)Fig. 3 GRU structure

重置門用來(lái)控制前一狀態(tài)有多少信息被寫入到當(dāng)前的候選集上,重置門越小,前一狀態(tài)的信息被寫入得越少。更新門用來(lái)控制前一時(shí)刻的狀態(tài)信息引入到當(dāng)前狀態(tài)的程度,更新門的值越大,前一時(shí)刻的狀態(tài)信息被引入得越多。GRU模型的更新方式如式(1)~(4)所示:

1.4 Attention機(jī)制

Attention機(jī)制使網(wǎng)絡(luò)模型對(duì)少量重要信息重點(diǎn)關(guān)注學(xué)習(xí),關(guān)注學(xué)習(xí)表現(xiàn)為權(quán)重系數(shù)的計(jì)算,權(quán)重越大表示對(duì)應(yīng)的特征信息重要程度越大。Attention機(jī)制被廣泛應(yīng)用于機(jī)器翻譯、語(yǔ)音識(shí)別、詞性標(biāo)注等領(lǐng)域,且表現(xiàn)較優(yōu)。

2 網(wǎng)絡(luò)模型

本文提出了一種融合BERT字注釋、雙向GRU和注意力機(jī)制的文本分類模型,其模型結(jié)構(gòu)如圖4所示。

圖4 本文模型結(jié)構(gòu)Fig. 4 Proposed model structure

本文模型由文本向量化、文本特征提取和文本分類器三部分組成。文本向量化的目的是將輸入文本轉(zhuǎn)為向量矩陣,向量矩陣由字嵌入和BERT對(duì)字注釋編碼拼接所得。文本特征提取部分采取BiGRU網(wǎng)絡(luò)提取文本篇章語(yǔ)義信息,Attention機(jī)制對(duì)BiGRU輸出特征計(jì)算序列的重要性分布,輸出包含注意力概率分布的文本特征表示。文本分類器部分采用Dropout方法[18]防止過(guò)擬合,通過(guò)Softmax分類器得出文本不同類別概率,達(dá)到了預(yù)測(cè)文本類別的效果。

2.1 文本向量化

文本向量化是將文本轉(zhuǎn)化為向量形式表示,所表示的向量可以體現(xiàn)文本的特征信息,本文提出了將字嵌入和注釋向量拼接作為文本向量化方式。

2.1.1 字嵌入

2.1.2 注釋向量

BERT模型對(duì)輸入文本編碼可以得到兩部分向量:一部分是字符級(jí)別的向量,即輸入文本的每個(gè)字符對(duì)應(yīng)的向量表示;另一部分是句向量,即BERT模型輸出的最左邊[CLS]符號(hào)的向量,BERT模型認(rèn)為[CLS]向量可以代表整個(gè)句子的語(yǔ)義。BERT的輸出如圖5所示。

圖5 BERT模型的輸出Fig. 5 Output of BERT model

注釋是對(duì)一個(gè)字所表達(dá)含義的解釋,一個(gè)字或詞在不同語(yǔ)境下具有不同的意思。本文選擇通過(guò)BERT模型對(duì)語(yǔ)料庫(kù)所有字注釋信息進(jìn)行編碼,獲得句子級(jí)別的向量(句向量)。一個(gè)字有多條注釋,一條注釋對(duì)應(yīng)一個(gè)句向量。為了對(duì)輸入語(yǔ)句中每個(gè)字選擇出符合語(yǔ)境的注釋句向量,還需要通過(guò)BERT對(duì)每個(gè)字結(jié)合上下文編碼后得到語(yǔ)境句向量,注釋句向量的選擇方法通過(guò)余弦相似度(Cosine Similarity)計(jì)算不同注釋句向量與語(yǔ)境句向量的相似度,相似度最高的注釋向量即為當(dāng)前字對(duì)應(yīng)的注釋信息。

假設(shè)輸入句子中第i個(gè)字有k條注釋,BERT對(duì)k條注釋進(jìn)行句向量編碼得到k*m的矩陣A,BERT對(duì)的上下文進(jìn)行句向量編碼得到1*m的向量t,則在當(dāng)前語(yǔ)境下對(duì)應(yīng)的注釋是t和A的k條向量計(jì)算余弦相似度的最大值。

2.1.3 融合注釋向量

在訓(xùn)練過(guò)程中,本文模型的字嵌入矩陣和其他模型參數(shù)會(huì)進(jìn)行更新,以達(dá)到最佳分類效果。

2.2 文本特征提取

本文使用BiGRU網(wǎng)絡(luò)提取文本向量化后的特征信息,并引入注意力機(jī)制計(jì)算特征向量的注意力概率分布。

循環(huán)神經(jīng)網(wǎng)絡(luò)是具有記憶功能的網(wǎng)絡(luò),可以發(fā)現(xiàn)樣本之間的序列關(guān)系,是處理序列樣本的首選模型。BiGRU是雙向門控循環(huán)單元,由于單向GRU只能依據(jù)之前時(shí)刻的時(shí)序信息來(lái)預(yù)測(cè)下一時(shí)刻的輸出,在語(yǔ)言類任務(wù)中,下一時(shí)刻的輸出由之前狀態(tài)和未來(lái)狀態(tài)共同預(yù)測(cè)得到顯得尤為重要。而BiGRU增加反向時(shí)序信息傳遞,對(duì)于每一時(shí)刻,輸入會(huì)同時(shí)提供給兩個(gè)方向相反的GRU,輸出由這兩個(gè)單向GRU共同決定。BiGRU相較單向GRU能夠?qū)W習(xí)到雙向長(zhǎng)期依賴關(guān)系,提取特征更豐富,且實(shí)驗(yàn)結(jié)果表明BiGRU的表現(xiàn)優(yōu)于單向GRU。BiGRU的結(jié)構(gòu)如圖6所示。

圖6 BiGRU結(jié)構(gòu)Fig. 6 BiGRU structure

本文在BiGRU模塊之后引入注意力機(jī)制,可以生成含有注意力概率分布的文本語(yǔ)義特征表示,突出重要特征信息對(duì)文本分類結(jié)果的影響,改善模型分類效果。注意力機(jī)制中文本特征向量的計(jì)算過(guò)程如式(8)~(10)所示:

2.3 文本分類器

本文引入Dropout方法防止過(guò)擬合,采用Softmax回歸模型對(duì)Dropout后文本特征進(jìn)行多分類。預(yù)測(cè)文本類別的計(jì)算如式(11)~(12)所示:

通過(guò)全連接網(wǎng)絡(luò)將特征向量映射到N維向量上,其中N為類別個(gè)數(shù),并對(duì)其通過(guò)Softmax計(jì)算得到在每個(gè)類別上的概率值,是概率值最高的類。

2.4 文本分類算法

本文提出了融合字注釋模型分類算法,具體步驟如下:

算法1 融合字注釋模型分類算法。

步驟2 對(duì)輸入中每個(gè)字通過(guò)固定滑動(dòng)窗口獲取充分體現(xiàn)每個(gè)字漢語(yǔ)意思部分的上下文,并對(duì)其進(jìn)行BERT編碼獲得句向量,通過(guò)新華字典,對(duì)輸入每個(gè)字的注釋信息BERT編碼獲得句向量,求與矩陣中余弦相似度最高的句向量作為該字的注釋信息。

步驟3 輸入每個(gè)字的字向量和BERT注釋向量拼接得到E_B,將其作為文本向量化結(jié)果。

步驟4 將E_B輸入BiGRU網(wǎng)絡(luò),再接Attention網(wǎng)絡(luò),提取帶注意力值的特征向量。

步驟5 將步驟4得到的特征向量經(jīng)Dropout后輸入Softmax分類器進(jìn)行分類訓(xùn)練,輸出文本分類模型。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本文選擇在以下兩個(gè)數(shù)據(jù)集上做對(duì)比實(shí)驗(yàn)。

數(shù)據(jù)集1是由清華自然語(yǔ)言處理實(shí)驗(yàn)室提供的THUCNews新聞文本分類的數(shù)據(jù)集。THUCNews是根據(jù)新浪新聞RSS訂閱頻道2005—2011年間的歷史數(shù)據(jù)篩選過(guò)濾生成。從THUCNews中抽取了80 000條新聞數(shù)據(jù),數(shù)據(jù)類別為體育、財(cái)經(jīng)、房產(chǎn)、家居、教育、科技、時(shí)尚、時(shí)政、游戲、娛樂(lè),各8 000條,訓(xùn)練集、測(cè)試集和驗(yàn)證集的樣本數(shù)比例為6∶1∶1,其中,訓(xùn)練集總樣本數(shù)為60 000條,測(cè)試集和驗(yàn)證集的總樣本數(shù)均為10 000條。

數(shù)據(jù)集2是新浪微博情感分類數(shù)據(jù)集,從中隨機(jī)抽取正負(fù)樣本數(shù)各6 000條。將這12 000條數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集,數(shù)據(jù)類別分為正向情感和反向情感兩類,各6 000條,訓(xùn)練集、測(cè)試集和驗(yàn)證集的樣本數(shù)比例為4∶1∶1。

3.2 評(píng)估指標(biāo)

本文對(duì)所有實(shí)驗(yàn)?zāi)P偷姆诸愋阅茉u(píng)價(jià)指標(biāo)選擇采用精確率(Precision)、召回率(Recall)和F1分?jǐn)?shù)(F1-Score)。

精確率的計(jì)算如式(14)所示:

召回率的計(jì)算如式(15)所示:

F1分?jǐn)?shù)綜合了精確率和召回率,是反映整體的指標(biāo),F(xiàn)1分?jǐn)?shù)越高說(shuō)明實(shí)驗(yàn)方法越有效。F1分?jǐn)?shù)的計(jì)算如式(16)所示:

其中:TP(True Positive)表示真正例;FP(False Positive)表示假正例;FN(False Negative)表示假負(fù)例;TN(True Negative)表示正負(fù)例。

3.3 實(shí)驗(yàn)設(shè)置

為了驗(yàn)證將注釋信息融入文本向量化階段的有效性和BERT字注釋_BiGRU_Attention模型在擁有更優(yōu)的特征提取能力后的分類效果更好,本文選擇了在THUCNews數(shù)據(jù)集上使用多個(gè)目前在中文文本分類任務(wù)上應(yīng)用廣泛且效果較好的網(wǎng)絡(luò)結(jié)構(gòu)以及引入BERT字注釋網(wǎng)絡(luò)結(jié)構(gòu)作為baseline模型進(jìn)行對(duì)比實(shí)驗(yàn)。用于對(duì)比的模型包括:TextCNN、LSTM、BiGRU、Word2Vec_TextCNN、Word2Vec_LSTM、Word2Vec_BiGRU、BERT字注釋_TextCNN、BERT字注釋_LSTM、BERT字注釋_BiGRU。

根據(jù)BERT字注釋_BiGRU_Attention對(duì)兩個(gè)數(shù)據(jù)集分類的F1分?jǐn)?shù)和模型損失值對(duì)模型參數(shù)進(jìn)行調(diào)整,主要是Embedding維度和BiGRU節(jié)點(diǎn)數(shù),經(jīng)多次實(shí)驗(yàn)后模型參數(shù)設(shè)置如表1所示。

3.4 結(jié)果分析

在數(shù)據(jù)集1上進(jìn)行對(duì)比的實(shí)驗(yàn)結(jié)果如表2所示,可以看出使用了BERT字注釋的網(wǎng)絡(luò)結(jié)構(gòu)的F1分?jǐn)?shù)均高于字嵌入網(wǎng)絡(luò)結(jié)構(gòu)和Word2Vec網(wǎng)絡(luò)結(jié)構(gòu)。由此可知,在文本表示階段引入BERT字注釋后,同一個(gè)字在不同語(yǔ)境下文本向量化結(jié)果不同,相較于Word2Vec和字嵌入形成的靜態(tài)字向量,對(duì)語(yǔ)義消歧有一定的幫助,BERT字注釋和字嵌入拼接豐富了文本特征信息,增加的BERT字注釋特征信息對(duì)后續(xù)網(wǎng)絡(luò)進(jìn)行文本分類產(chǎn)生積極影響。

通過(guò)表2還可以看出,使用了BiGRU網(wǎng)絡(luò)結(jié)構(gòu)的F1分?jǐn)?shù)相較TextCNN和LSTM網(wǎng)絡(luò)結(jié)構(gòu)分別提高了1.16個(gè)百分點(diǎn)和3.62個(gè)百分點(diǎn)。在融入BERT字注釋,豐富輸入特征后,BiGRU的優(yōu)勢(shì)更能體現(xiàn)出來(lái),BERT字注釋_BiGRU的F1分?jǐn)?shù)相較BERT字注釋_TextCNN提高了2.48個(gè)百分點(diǎn),表明BiGRU網(wǎng)絡(luò)通過(guò)提取雙向時(shí)序特征信息,有效學(xué)習(xí)到了長(zhǎng)文本中的長(zhǎng)期依賴關(guān)系,使分類效果得到顯著提升。與BERT字注釋_BiGRU網(wǎng)絡(luò)相比,本文提出的引入Attention機(jī)制后的BERT字注釋_BiGRU_Attention網(wǎng)絡(luò),通過(guò)Attention機(jī)制對(duì)BiGRU提取的不同特征信息進(jìn)行權(quán)重分配,在增強(qiáng)特征提取能力的同時(shí)進(jìn)一步提高了文本分類的F1分?jǐn)?shù),其F1分?jǐn)?shù)達(dá)到了98.16%。

表1 模型參數(shù)Tab. 1 Model parameters

表2 數(shù)據(jù)集1上各模型的指標(biāo)對(duì)比Tab. 2 Indicator comparison of different models on dataset 1

在數(shù)據(jù)集2上進(jìn)行對(duì)比實(shí)驗(yàn)的結(jié)果如表3所示,融入字注釋信息的模型在短文本的情感分類任務(wù)上是可行的,融入字注釋信息對(duì)TextCNN網(wǎng)絡(luò)的性能提升相對(duì)較多。BERT字注釋_BiGRU_Attention仍然可以取得最高的F1分?jǐn)?shù),達(dá)到了96.52%,但是在短文本情感分類數(shù)據(jù)集上,模型性能提升效果并不是很好。

表3 數(shù)據(jù)集2上各模型指標(biāo)對(duì)比Tab. 3 Indicator comparison of different models on dataset 2

由表3還可以看出,在面對(duì)序列數(shù)據(jù)時(shí),循環(huán)網(wǎng)絡(luò)能夠展現(xiàn)出自己的優(yōu)勢(shì),配合Attention機(jī)制后F1分?jǐn)?shù)有所提高。

綜上,將字典信息融合進(jìn)文本表示是可行的,BERT對(duì)字注釋編碼后拼接字嵌入作為文本表示,特征提取采用BiGRU_Attention的網(wǎng)絡(luò)結(jié)構(gòu)能夠在文本分類任務(wù)上取得較優(yōu)的表現(xiàn)。

4 結(jié)語(yǔ)

本文借助中文字典,提出了通過(guò)BERT預(yù)訓(xùn)練模型對(duì)字典中注釋信息編碼,并將符合語(yǔ)境的注釋編碼和字嵌入拼接作為文本表示,豐富了文本特征信息,對(duì)語(yǔ)義消歧有一定的幫助。實(shí)驗(yàn)結(jié)果表明,融合字注釋模型在新聞文本分類和情感分類任務(wù)上相較傳統(tǒng)網(wǎng)絡(luò)LSTM和TextCNN的分類效果有顯著提升,同時(shí)融合BERT字注釋的BiGRU_Attention網(wǎng)絡(luò)面對(duì)時(shí)序數(shù)據(jù)時(shí),特征提取能力表現(xiàn)較優(yōu),相應(yīng)的分類效果也更好。下一步將針對(duì)精確分詞后優(yōu)化文本表示,整合字典注釋和詞典注釋,以及注釋如何更好地融合模型發(fā)揮更強(qiáng)大的作用,進(jìn)一步優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),使之在面對(duì)自然語(yǔ)言處理領(lǐng)域的任務(wù)時(shí)性能更優(yōu)。

[1] 中國(guó)互聯(lián)網(wǎng)信息中心.第47次《中國(guó)互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[R/OL].[2021-02-03].http://cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/202102/P020210203334633480104.pdf.(China Internet Network Information Center. The 47th China Statistical Report on Internet Development [R/OL]. [2021-02-03]. http://cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/202102/P020210203334633480104.pdf.)

[2] KIM Y. Convolutional neural networks for sentence classification [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: ACL,2014: 1746-1751.

[3] HASHIDA S, TAMURA K, SAKAI T. Classifying tweets using convolutional neural networks with multi-channel distributed representation [J]. IAENG International Journal of Computer Science, 2019, 46(1): 68-75.

[4] LIU P F, QIU X P, HUANG X J. Recurrent neural network for text classification with multi-task learning [C]// Proceedings of the 2016 25th International Joint Conference on Artificial Intelligence. California: IJCAI Organization, 2016: 2873-2879.

[5] PHAN T van, NAKAGAWA M. Text/non-text classification in online handwritten documents with recurrent neural networks [C]// Proceedings of the 2014 14th International Conference on Frontiers in Handwriting Recognition. Piscataway: IEEE, 2014: 23-28.

[6] NOWAK J, TASPINAR A, SCHERER R. LSTM recurrent neural networks for short text and sentiment classification [C]// Proceedings of the 2017 International Conference on Artificial Intelligence and Soft Computing, LNCS 10246. Cham: Springer, 2017: 553-562.

[7] CHO K, VAN MERRI?NBOER B , GU?L?EHRE ?, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: ACL, 2014: 1724-1734.

[8] HINTON G E. Learning distributed representations of concepts [M]// MORRIS R G M. Parallel Distributed Processing: Implications for Psychology and Neurobiology. Oxford: Clarendon Press, 1989: 46-61.

[9] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space [EB/OL]. [2021-02-21]. https://arxiv.org/pdf/1301.3781.pdf.

[10] LE Q, MIKOLOV T. Distributed representations of sentences and documents [C]// Proceedings of the 2014 31st International Conference on Machine Learning. New York: JMLR.org, 2014: 1188-1196.

[11] PETERS M E, NEUMANN M, IYYER M, et al. Deep contextualized word representations [C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). Stroudsburg: ACL, 2018:2227-2237.

[12] DEVLIN J, CHANG M W, LEE K, et al. BERT:pre-training of deep bidirectional transformers for language understanding [C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Stroudsburg: ACL, 2019:4171-4186.

[13] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 2017 31st International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc., 2017: 6000-6010.

[14] SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks [C]// Proceedings of the 2014 27th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2014:3104-3112.

[15] BILAL M, ISRAR H, SHAHID M, et al. Sentiment classification of Roman-Urdu opinions using Na?ve Bayesian, decision tree and KNN classification techniques [J]. Journal of King Saud University — Computer and Information Sciences, 2016, 28(3): 330-344.

[16] SUN A X, LIM E P, LIU Y. On strategies for imbalanced text classification using SVM: a comparative study [J]. Decision Support Systems, 2009, 48(1): 191-201.

[17] JIANG L X, LI C Q, WANG S S, et al. Deep feature weighting for naive Bayes and its application to text classification [J]. Engineering Applications of Artificial Intelligence, 2016, 52:26-39.

[18] HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors [EB/OL]. [2021-02-21]. https://arxiv.org/pdf/1207. 0580.pdf.

Text classification model combining word annotations

YANG Xianfeng1*, ZHAO Jiahe1, LI Ziqiang2

(1.School of Computer Science,Southwest Petroleum University,Chengdu Sichuan610500,China;2.College of Movie and Media,Sichuan Normal University,Chengdu Sichuan610066,China)

The traditional text feature representation method cannot fully solve the polysemy problem of word. In order to solve the problem, a new text classification model combining word annotations was proposed. Firstly, by using the existing Chinese dictionary, the dictionary annotations of the text selected by the word context were obtained, and the Bidirectional Encoder Representations from Transformers (BERT) encoding was performed on them to generate the annotated sentence vectors. Then, the annotated sentence vectors were integrated with the word embedding vectors as the input layer to enrich the characteristic information of the input text. Finally, the Bidirectional Gated Recurrent Unit (BiGRU) was used to learn the characteristic information of the input text, and the attention mechanism was introduced to highlight the key feature vectors. Experimental results of text classification on public THUCNews dataset and Sina weibo sentiment classification dataset show that, the text classification models combining BERT word annotations have significantly improved performance compared to the text classification models without combining word annotations, the proposed BERT word annotation _BiGRU_Attention model has the highest precision and recall in all the experimental models for text classification, and has the F1-Score of reflecting the overall performance up to 98.16% and 96.52% respectively.

polysemy; word annotation; Bidirectional Encoder Representations from Transformers (BERT); Bidirectional Gated Recurrent Unit (BiGRU); attention mechanism; text classification

TP183;TP391.1

A

1001-9081(2022)05-1317-07

10.11772/j.issn.1001-9081.2021030489

2021?03?31;

2021?07?08;

2021?07?21。

國(guó)家自然科學(xué)基金資助項(xiàng)目(61802321);四川省科技廳重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2020YFN0019)。

楊先鳳(1974—),女,四川南部人,教授,碩士,主要研究方向:計(jì)算機(jī)圖像處理、智慧教育; 趙家和(1997—),男,陜西渭南人,碩士研究生,主要研究方向:自然語(yǔ)言處理; 李自強(qiáng)(1970—),四川青神人,教授,博士,CCF會(huì)員,主要研究方向:機(jī)器學(xué)習(xí)、智慧教育。

This work is partially supported by National Natural Science Foundation of China (61802321), Key Research and Development Program of Science and Technology Department of Sichuan Province (2020YFN0019).

YANG Xianfeng, born in 1974, M. S., professor. Her research interests include computer image processing, wisdom education.

ZHAO Jiahe, born in 1997, M. S. candidate. His research interests include natural language processing.

LI Ziqiang, born in 1970, Ph. D., professor. His research interests include machine learning, wisdom education.

猜你喜歡
特征提取向量分類
向量的分解
分類算一算
聚焦“向量與三角”創(chuàng)新題
分類討論求坐標(biāo)
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
Bagging RCSP腦電特征提取算法
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
关岭| 洛浦县| 都匀市| 鹤峰县| 金沙县| 筠连县| 额济纳旗| 乌拉特前旗| 邹城市| 南丹县| 宁安市| 潼关县| 大洼县| 井冈山市| 梁平县| 永仁县| 武威市| 且末县| 乌拉特后旗| 民权县| 德清县| 白城市| 常山县| 城步| 页游| 共和县| 新蔡县| 法库县| 台南市| 通江县| 泰宁县| 汉源县| 天镇县| 大渡口区| 准格尔旗| 融水| 兴国县| 石阡县| 祁阳县| 洪湖市| 武宁县|