国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合BERT 和圖注意力網(wǎng)絡(luò)的多標(biāo)簽文本分類①

2022-06-29 07:48:06裘杭萍
關(guān)鍵詞:分類器標(biāo)簽膠囊

郝 超, 裘杭萍, 孫 毅

(陸軍工程大學(xué) 指揮控制工程學(xué)院, 南京 210007)

在全球信息化大潮的推動下, 大數(shù)據(jù)得到了快速的發(fā)展, 人們處在一個(gè)海量數(shù)據(jù)的世界, 每時(shí)每刻都有新的數(shù)據(jù)信息產(chǎn)生, 這些數(shù)據(jù)不僅數(shù)量大并且還具有多樣性, 這也使得人們用傳統(tǒng)手段統(tǒng)計(jì)此類數(shù)據(jù)的時(shí)候變得困難[1]. 如何高效地處理這些數(shù)據(jù)是一個(gè)很有研究意義的問題, 這也推動著自動分類技術(shù)的發(fā)展.傳統(tǒng)的文本分類問題中每個(gè)樣本只對應(yīng)一個(gè)標(biāo)簽類別, 屬于單標(biāo)簽文本分類. 但在現(xiàn)實(shí)生活中, 樣本信息往往不夠理想, 一個(gè)樣本可能擁有更加復(fù)雜的語義和內(nèi)容[2]. Schapire 等人[3]提出了多標(biāo)簽學(xué)習(xí), 與單標(biāo)簽文本分類不同, 多標(biāo)簽學(xué)習(xí)指的是從標(biāo)簽集中為每個(gè)樣本分配最相關(guān)的標(biāo)簽子集的過程, 從而能夠更加準(zhǔn)確地、有效地表示單標(biāo)簽文本分類中不能表達(dá)復(fù)雜語義和內(nèi)容. 比如題為“打造特色體育教學(xué), 推進(jìn)陽光體育運(yùn)動”的新聞可能被同時(shí)認(rèn)為與“體育”和“教育”兩者相關(guān), 一條微博可能同時(shí)與“新冠”“疫苗”和“醫(yī)療”有關(guān)等等.

1 相關(guān)工作

目前, 有關(guān)多標(biāo)簽文本分類已經(jīng)提出很多方法, 這些方法主要可以分為3 大類: 問題轉(zhuǎn)換方法、算法自適應(yīng)方法和基于深度學(xué)習(xí)方法.

問題轉(zhuǎn)換方法是最經(jīng)典的方法, 通過將多標(biāo)簽分類問題轉(zhuǎn)化為多個(gè)單標(biāo)簽分類問題來解決, 代表性的方法包括二元相關(guān)(binary relevance, BR)[4]、標(biāo)簽冪集分解(label powerset, LP)[5]和分類器鏈(classifier chain,CC)[6]. BR 方法將多標(biāo)簽分類問題分解為多個(gè)二分類問題來進(jìn)行處理; LP 方法通過將標(biāo)簽組合看成分類類別, 將多標(biāo)簽分類問題轉(zhuǎn)化為多分類問題來處理;CC 方法將多標(biāo)簽分類任務(wù)轉(zhuǎn)化為二進(jìn)制分類問題鏈,后續(xù)的二進(jìn)制分類器鏈基于前面的進(jìn)行預(yù)測.

算法自適應(yīng)方法通過擴(kuò)展相應(yīng)的機(jī)器學(xué)習(xí)方法來直接處理多標(biāo)簽分類問題, 代表性的方法包括ML-DT(multi-label decision tree)、排名支持向量機(jī)(ranking support vector machine, Rank-SVM)和多標(biāo)簽K 最近鄰(multi-label K-nearest-neighborhood, ML-KNN). MLDT 方法通過構(gòu)造決策樹來執(zhí)行分類操作; Rank-SVM方法通過支持向量機(jī)(support vector machine, SVM)來處理多標(biāo)簽分類問題; ML-KNN 方法通過改進(jìn)KNN方法以實(shí)現(xiàn)通過K 近鄰來處理多標(biāo)簽數(shù)據(jù).

隨著深度學(xué)習(xí)的發(fā)展許多基于深度學(xué)習(xí)的多標(biāo)簽文本分類方法被提出, 代表性的方法包括TextCNN[7]、XML-CNN[8]、CNN-RNN[9]、SGM[10]和MAGNET[11].TextCNN 首次將CNN 應(yīng)用于文本分類; XML-CNN 方法是對TextCNN 方法的改進(jìn), 采用了動態(tài)池化和二元交叉熵?fù)p失函數(shù); CNN-RNN 方法通過將CNN 和RNN進(jìn)行融合來實(shí)現(xiàn)多標(biāo)簽分類; SGM 方法采用Seq2Seq結(jié)構(gòu), 首次將序列生成的思想應(yīng)用到多標(biāo)簽文本分類中; MAGNET 方法利用Bi-LSTM 提取文本的特征, 用圖神經(jīng)網(wǎng)絡(luò)構(gòu)建各標(biāo)簽之間的內(nèi)在聯(lián)系.

現(xiàn)有的方法沒能充分考慮標(biāo)簽之間的相關(guān)性, 從而影響了分類效果. 針對此問題, 本文提出了一種基于BERT 和圖注意力網(wǎng)絡(luò)(graph attention network, GAT)的模型, 主要利用BERT 模型獲得文本的上下文表示,通過Bi-LSTM 和膠囊網(wǎng)絡(luò)分別提取全局特征和局部特征, 利用GAT 捕獲標(biāo)簽之間的相關(guān)性, 從而來提升分類的性能.

2 模型構(gòu)建

多標(biāo)簽文本分類(multi-label text classification,MLTC)的主要任務(wù)是通過若干類別標(biāo)簽對文本樣本進(jìn)行標(biāo)注分類, 可形式化描述:d維的實(shí)例空間X=Rd,q個(gè)標(biāo)簽組成的標(biāo)簽空間Y={y1,y2,y3,···,yq}, 訓(xùn)練集為D={(xi,Yi)|1 ≤i≤m}, 模型通過從實(shí)例空間到標(biāo)簽空間學(xué)習(xí)一個(gè)映射:h:X→2Y多標(biāo)簽文本分類任務(wù).其中, 在每個(gè)實(shí)例(xi,Yi)中,xi∈X是d維特征向量,Yi?Y是實(shí)例xi的標(biāo)簽集合, 測試樣本通過映射h便可得到相應(yīng)的標(biāo)簽集合[12].

本文提出的模型主要包括BERT 模塊、特征提取與融合模塊、GAT 分類器模塊3 個(gè)部分, 具體的框架如圖1 所示.

圖1 模型框架

2.1 BERT 模塊

文本信息對于人而言是可以直觀理解的, 但是對于計(jì)算機(jī)而言無法直接處理, 因此需要將文本轉(zhuǎn)化為計(jì)算機(jī)能夠處理的數(shù)據(jù). 傳統(tǒng)的文本表示包括one-hot和矩陣分解, 但是在表示的時(shí)候會產(chǎn)生維度災(zāi)難、花費(fèi)代價(jià)高等缺點(diǎn), 隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展, 詞嵌入(word embedding)作為一種新的詞表示方式出現(xiàn), 使用一個(gè)連續(xù)、低維、稠密的向量來表示單詞, 簡稱為詞向量.Word2Vec[13]和Glove[14]是一種靜態(tài)的詞向量表示方式, 對于任意一個(gè)詞, 其向量是恒定的, 不隨其上下文的變化而變化. 比如“apple”一詞在“APPLE Inc”和“apple tree”中有同樣的詞向量, 但是這兩處的意思是明顯不一樣的, 一個(gè)代表的是蘋果科技公司, 一個(gè)代表蘋果樹, 靜態(tài)詞向量無法解決一詞多義的問題.

為了更好的文本, 本文采用了預(yù)訓(xùn)練模型BERT[15]來計(jì)算每個(gè)單詞的上下文表示, 依據(jù)不同的上下文對同一個(gè)單詞有不同的表示, BERT 模型由多層Transformer構(gòu)成, 接受512 個(gè)詞的序列輸入, 并輸出該序列的表示,流程如圖2 所示. 對于由k個(gè)詞組成的文檔作為輸入W=[w1,w2,···,wk], 經(jīng)過BERT 模型得到相對應(yīng)的詞向量E=[e1,e2,···,ek].

圖2 BERT 模塊

2.2 GAT 分類器

在圖卷積網(wǎng)絡(luò)(graph convolutional network, GCN)中, 一個(gè)節(jié)點(diǎn)的相鄰節(jié)點(diǎn)具有相同的權(quán)重, 然而在圖結(jié)構(gòu)中相鄰節(jié)點(diǎn)的重要性存在一定差異. 在GAT 中引入“注意力機(jī)制”[16]對此缺點(diǎn)進(jìn)行改進(jìn), 通過計(jì)算當(dāng)前節(jié)點(diǎn)和相鄰節(jié)點(diǎn)的“注意力系數(shù)”, 在聚合相鄰節(jié)點(diǎn)時(shí)進(jìn)行加權(quán), 使得當(dāng)前節(jié)點(diǎn)更加關(guān)注重要的節(jié)點(diǎn). 因此, 本文采用了GAT[17], 利用圖注意力訓(xùn)練得到的結(jié)果作為該模型的分類器, 以便更好地挖掘標(biāo)簽之間的相關(guān)性.結(jié)構(gòu)如圖3 所示.

圖3 GAT 分類器

在此模塊中, 將標(biāo)簽向量矩陣和鄰接矩陣作為GAT 輸入, 經(jīng)過兩層的GAT 得到最終的分類器. 標(biāo)簽向量采用Stanford 官方預(yù)訓(xùn)練好的Glove 詞向量, 其中包括有50 維、100 維和300 維3 種, 為了使標(biāo)簽包含更多的語義信息, 本文采用300 維的Glove 詞向量作為GAT 的輸入. 通過數(shù)據(jù)驅(qū)動[18]的方式建立鄰接矩陣, 首先獲得訓(xùn)練數(shù)據(jù)集中的標(biāo)簽共現(xiàn)矩陣M∈Rc×c,頻率向量F∈Rc,Fi表示的就是標(biāo)簽i在訓(xùn)練集中出現(xiàn)的頻率, 其中,c代表的是標(biāo)簽數(shù)量. 通過以下計(jì)算能夠獲得初始鄰接矩陣A:

用如下公式更新l層的每個(gè)節(jié)點(diǎn)i的向量表示, 其中W是一個(gè)訓(xùn)練參數(shù):

其中, ‖代表連接操作.

在本文模型中, 采用了Vaswani 等人[16]提到的多頭注意力, 通過不同的注意力來獲得更多的標(biāo)簽間的關(guān)系. 此操作將被復(fù)制K次, 每一次的參數(shù)都是不相同的, 最終將K次結(jié)果求均值得到最終的輸出, 其計(jì)算公式如下:

2.3 特征提取與融合模塊

將BERT 模塊得到詞向量分別作為Bi-LSTM 和膠囊網(wǎng)絡(luò)的輸入, 之后進(jìn)行特征提取. 在特征提取時(shí)采用Bi-LSTM 來提取全局特征, 并通過膠囊網(wǎng)絡(luò)來兼顧局部特征, 最后通過特征融合的方式得到最終的特征向量. 這樣能夠充分利用上下文信息, 減少特征的丟失,從而帶來更好的分類效果.

(1)膠囊網(wǎng)絡(luò)

通過對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn)形成了膠囊網(wǎng)絡(luò),在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中, 池化步驟往往采用的是最大池化或者平均池化, 此過程中會造成特征信息大量丟失. 針對這一問題, Hinton 提出的膠囊網(wǎng)絡(luò)[19]用神經(jīng)元向量代替卷積神經(jīng)網(wǎng)絡(luò)中的單個(gè)神經(jīng)元節(jié)點(diǎn), 能夠確保保存更多的特征信息, 提取到局部特征.

動態(tài)路由是膠囊網(wǎng)絡(luò)的核心機(jī)制, 通過動態(tài)路由來訓(xùn)練神經(jīng)網(wǎng)絡(luò), 能夠獲取文本序列中的單詞位置信息并捕獲文本的局部空間特征, 動態(tài)路由的過程如圖4所示.

圖4 膠囊網(wǎng)絡(luò)

在膠囊網(wǎng)絡(luò)中, 底層膠囊ui將輸入向量傳遞到高層膠囊u?j|i的過程稱為路由, 高層膠囊和底層膠囊的權(quán)重通過動態(tài)路由獲得, 過程如下:

其中,Wij為權(quán)重矩陣;cij為耦合系數(shù).

cij用來預(yù)測上一層膠囊和下一層膠囊的相似性,其通過動態(tài)路由的過程來決定, 并且輸入層和輸出層之間所有cij值和為1;bij的初始值設(shè)置為0, 通過迭代更新.

傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)中, 多數(shù)情況下會使用Sigmoid、tanh 和ReLU 等激活函數(shù), 但在膠囊網(wǎng)絡(luò)中創(chuàng)建了一個(gè)新的激活函數(shù)Squash, 只會改變向量的長度, 不會改變向量的方向. 其中,sj通過耦合系數(shù)cij和u?j|i加權(quán)求和來得到, 作為Squash函數(shù)的輸入.

通過膠囊網(wǎng)絡(luò)動態(tài)路由的迭代, 可以獲得局部特征Hc=(v1,v2,v3,···,vk).

(2) Bi-LSTM

長短時(shí)記憶網(wǎng)絡(luò)(long short-term memory, LSTM)[20]能夠有效緩解梯度消失問題, 但RNN 和LSTM 都只能依據(jù)前一時(shí)刻的信息來預(yù)測下一時(shí)刻的輸出. 在有些問題中, 當(dāng)前時(shí)刻的輸出除了與之前的狀態(tài)有關(guān)外, 還可能和未來的狀態(tài)有一定的聯(lián)系. 比如在對缺失單詞進(jìn)行預(yù)測時(shí), 往往需要將其上下文同時(shí)考慮才能獲得最準(zhǔn)確的結(jié)果.

雙向長短時(shí)記憶網(wǎng)絡(luò)(bi-directional long short-term memory, Bi-LSTM)[21]有效地改善了這一問題. 一個(gè)前向的LSTM 和一個(gè)后向的LSTM 組合成Bi-LSTM. 通過前向和后向的特征提取, 能夠更好地建立上下文之間的關(guān)系, 從而捕獲全局文本特征. Bi-LSTM 結(jié)構(gòu)如圖5 所示, 計(jì)算公式如下:

圖5 Bi-LSTM 結(jié)構(gòu)

(3)特征融合

傳統(tǒng)的模式識別通常運(yùn)用的是人工設(shè)計(jì)的特征,經(jīng)過特征提取算法得到特征數(shù)據(jù); 神經(jīng)網(wǎng)絡(luò)相比與傳統(tǒng)模式識別, 具有自動提取特征的特點(diǎn)和更好的特征提取效果, 特征的優(yōu)劣影響分類結(jié)果的好壞. 因此, 需要提取較優(yōu)的特征. 膠囊網(wǎng)絡(luò)作為對卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn), 在提取局部特征的時(shí)候有著不錯(cuò)的效果; Bi-LSTM通過前向和后向的傳播, 能夠較好關(guān)聯(lián)上下文信息, 提取全局特征.

在本文模型中, 充分的發(fā)揮兩者的優(yōu)勢, 分別采用膠囊網(wǎng)絡(luò)和Bi-LSTM 來提取文本的局部和全局的特征, 通過特征融合的方式將兩者特征提取結(jié)果進(jìn)行信息的融合連接. 融合連接有兩種常用方式: 第一種是相加融合, 通過直接將對應(yīng)維度的數(shù)據(jù)進(jìn)行相加實(shí)現(xiàn), 這種方式不會改變特征向量的維度, 能夠避免維數(shù)災(zāi)難;另一種是拼接融合, 通過將維度進(jìn)行拼接來實(shí)現(xiàn), 這種方式會是將兩種特征向量拼接后, 維度會變大[22]. 由于拼接融合會導(dǎo)致維度增大, 可能會造成維度災(zāi)難, 因此,本文選擇相加融合的方式.

膠囊網(wǎng)絡(luò)提取的特征可以用Hc=(v1,v2,v3,···,vk)來表示, Bi-LSTM 提取的特征可以用HL=(h1,h2,h3, ···,hk)來表示, 通過相加融合的方式, 可以得到新的特征H, 從而提升模型的效果.

通過分類器訓(xùn)練獲得的每個(gè)標(biāo)簽向量和膠囊網(wǎng)絡(luò)以及Bi-LSTM 獲得的融合特征向量相乘就可以得到標(biāo)簽最終的得分, 得到最終的結(jié)果. 計(jì)算公式如下:

2.4 損失函數(shù)

在實(shí)驗(yàn)中, 損失函數(shù)選擇二元交叉熵(binary cross entropy loss), 它廣泛應(yīng)用于神經(jīng)網(wǎng)絡(luò)分類訓(xùn)練任務(wù)中.假設(shè)文本的真實(shí)值是y∈Rc,yi={0,1}表示標(biāo)簽i是否屬于該文本, ^yc表示的是模型的預(yù)測值. 具體的計(jì)算公式如下:

其中, σ(·)代表的是Sigmoid 函數(shù).

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)集介紹

本文采用了多標(biāo)簽文本分類領(lǐng)域常用的數(shù)據(jù)集.包括Reuters-21578 和AAPD, 表1 為數(shù)據(jù)集詳細(xì)信息.

表1 數(shù)據(jù)集簡介

Reuters-21578: 該數(shù)據(jù)集是由路透社新聞組成的,收集了10788 條來自路透社的新聞, 包括7769 條訓(xùn)練集和3019 條測試集組成, 一共包含90 個(gè)類別.

AAPD[9]: 該數(shù)據(jù)集是由Yang 等人提供. 是從網(wǎng)絡(luò)上收集了55840 篇論文的摘要和相應(yīng)學(xué)科類別, 一篇學(xué)術(shù)論文屬于一個(gè)或者多個(gè)學(xué)科, 總共由54 個(gè)學(xué)科組成.

3.2 實(shí)驗(yàn)參數(shù)設(shè)置

本實(shí)驗(yàn)利用了GAT 來捕獲標(biāo)簽之間的關(guān)系, 在進(jìn)行實(shí)驗(yàn)時(shí), 主要采用了兩層帶有多頭注意力的GAT 層.在對句子和標(biāo)簽進(jìn)行表示時(shí)候, 均采用了BERT 向量獲得其表示. 對于Reuters-21578 和AAPD 數(shù)據(jù)集, 模型的批處理大小Batch Size 均設(shè)置為250, 訓(xùn)練過程中使用了Adam 優(yōu)化器來使目標(biāo)函數(shù)最小化, 學(xué)習(xí)率大小Learning Rate 設(shè)置為0.001, 并且在模型中添加了Dropout 層來防止過擬合, Dropout 的值取0.5, 多頭注意力機(jī)制頭的個(gè)數(shù)K=8. 表2 為實(shí)驗(yàn)參數(shù)的匯總.

表2 網(wǎng)絡(luò)參數(shù)說明表

3.3 實(shí)驗(yàn)評價(jià)指標(biāo)

在本文的實(shí)驗(yàn)中, 使用Micro-precision、Microrecall、Micro-F1[23]和漢明損失[3]作為評價(jià)指標(biāo), 其中,將Micro-F1 作為主要的評價(jià)指標(biāo), 各個(gè)指標(biāo)的具體計(jì)算公式如下:

其中,L代表類別標(biāo)簽數(shù)量,TP代表原來是正樣本被預(yù)測為正的數(shù)量,FP代表原來是正樣本被預(yù)測為負(fù)的數(shù)量,FN代表原來是負(fù)樣本被預(yù)測為正的數(shù)量.

漢明損失指的是被錯(cuò)分的標(biāo)簽的比例大小, 也就是兩個(gè)標(biāo)簽集合的差別占比. 其計(jì)算公式如下:

其中, |S|是樣本的數(shù)量, |L|是標(biāo)簽的總數(shù),xi表示標(biāo)簽,yi表示真實(shí)標(biāo)簽, XOR 是異或運(yùn)算.

3.4 實(shí)驗(yàn)結(jié)果與分析

3.4.1 實(shí)驗(yàn)對比

為了驗(yàn)證本文提出模型的有效性, 選擇與現(xiàn)有的多標(biāo)簽文本分類方法: BR[4]、CC[6]、ML-KNN[24]、CNN[7]、CNN-RNN[9]、S2S+Attn[25]、MAGNET[11]進(jìn)行對比實(shí)驗(yàn).

本文提出的方法在Reuters-21578 和AAPD 數(shù)據(jù)集的結(jié)果如表3 和表4. 在正確率(P)、召回率(R)、F1 值和漢明損失(HL) 4 個(gè)常用的評價(jià)指標(biāo)上與其他模型進(jìn)行了對比, P、R 和F1 中的“+”代表該值越高,模型的效果越好, HL 這一列中的“–”代表該值越小, 模型的效果越好. 其中實(shí)驗(yàn)的最佳結(jié)果由加粗黑體表示.

表3 Reuters-21578 數(shù)據(jù)集上結(jié)果對比

表4 AAPD 數(shù)據(jù)集上結(jié)果對比

從表3 和表4 的實(shí)驗(yàn)結(jié)果可以看出, 本文提出的模型在Reuters-21578和AAPD 數(shù)據(jù)集上大部分評價(jià)指標(biāo)上都展示了最好的結(jié)果. 在Reuters-21578 數(shù)據(jù)集上, 與CNN-RNN 相比在F1 值上面提升了接近4%, 漢明損失的值也取得了最優(yōu)的結(jié)果; 在AAPD 數(shù)據(jù)集上,本文模型在召回率、F1 值和HL 值上相比于其他模型均達(dá)到了最佳效果, 其中F1 值比最優(yōu)模型MAGNET提升了約1.5%. 在準(zhǔn)確率指標(biāo)上, 傳統(tǒng)的CNN 表現(xiàn)最佳, 本文模型次之. 主要原因在于CNN 是基于字符級別的模型, 利用網(wǎng)絡(luò)特點(diǎn)細(xì)粒度地抓取標(biāo)簽與字符文本之間的關(guān)聯(lián), 從而提高模型的準(zhǔn)確率, 另外, 在實(shí)驗(yàn)訓(xùn)練方面, CNN 在分類任務(wù)上超參數(shù)調(diào)整較小, 也是其在準(zhǔn)確率上取得最佳表現(xiàn)的原因之一. 綜合4 類評價(jià)指標(biāo)的實(shí)驗(yàn)結(jié)果來看, 本文提出的模型比其他模型更具適用性, 在有效提升F1 值、召回率和減少漢明損失的同時(shí), 兼顧了多標(biāo)簽文本分類的準(zhǔn)確率.

從實(shí)驗(yàn)結(jié)果看, 深度學(xué)習(xí)方法普遍要比傳統(tǒng)機(jī)器學(xué)習(xí)方法(包括BR、CC、LP 等方法)表現(xiàn)更好. 這主要是由于傳統(tǒng)機(jī)器學(xué)習(xí)方法處理此類問題的時(shí)候是利用人來提取特征, 往往會帶來一些誤差, 并且在一些復(fù)雜情況下, 有更多的局限性. 而深度學(xué)習(xí)方法最大的進(jìn)步就是能夠自動提取特征, 從而比傳統(tǒng)機(jī)器學(xué)習(xí)方法有更好的效果, 在特征提取上, 深度學(xué)習(xí)領(lǐng)域也涌現(xiàn)出了很多方法, 本文提出的方法采用了Bi-LSTM 和膠囊網(wǎng)絡(luò)的方法, 比只采用了Bi-LSTM 的模型MAGNET有著更好的效果, 證明了膠囊網(wǎng)絡(luò)的有效性.

在處理多標(biāo)簽文本分類問題的時(shí)候, 標(biāo)簽之間的相關(guān)性是非常重要的信息之一. 傳統(tǒng)的機(jī)器學(xué)習(xí)模型在處理多標(biāo)簽文本分類問題上沒有考慮標(biāo)簽之間的相關(guān)性, 本文提出的方法利用GAT 來捕獲標(biāo)簽之間的相關(guān)性并建模, 從而來生成分類器, 提升了在多標(biāo)簽文本分類任務(wù)上的效果.

綜上可知, 本文提出的方法與傳統(tǒng)機(jī)器學(xué)習(xí)方法和現(xiàn)有的深度學(xué)習(xí)方法相比, 取得了具有競爭力的結(jié)果.

3.4.2 不同詞向量比較

為了驗(yàn)證BERT 在詞向量上的表現(xiàn), 采用了一組對比實(shí)驗(yàn)來說明. 采用了目前比較常用的3 種詞向量包括Word2Vec 向量、Glove 向量和BERT 向量, 并且在對比實(shí)驗(yàn)中加入隨機(jī)向量(random). 在Reuters-21578數(shù)據(jù)集上進(jìn)行比較, 結(jié)果如圖6 所示.

從圖6 可以看出, Word2Vec 向量和Glove 向量的結(jié)果接近, 隨機(jī)向量的結(jié)果是最差的, BERT 向量的結(jié)果是最好的, 因此, 用BERT 向量能夠提升本文方法的準(zhǔn)確率.

圖6 Reuters-21578 數(shù)據(jù)集詞向量比較

4 總結(jié)

本文提出了一種基于BERT 和GAT 的模型HBGA來解決多標(biāo)簽文本分類問題, 該模型是一個(gè)端到端的結(jié)構(gòu). 首先, 利用BERT 模型獲取文本的上下文向量,通過GAT 來捕獲標(biāo)簽之間的注意力依賴結(jié)構(gòu), 使用特征矩陣和鄰接矩陣來探索標(biāo)簽之間的關(guān)系, 進(jìn)行訓(xùn)練后形成一個(gè)分類器, 利用Bi-LSTM 和膠囊網(wǎng)絡(luò)分別提取文本的全局特征和局部特征, 進(jìn)行特征融合獲得文本的特征向量, 最后將分類器和特征向量進(jìn)行整合得到最終的結(jié)果. 實(shí)驗(yàn)結(jié)果表明, 提出的模型在F1 值上均優(yōu)于對比模型, 有效地提升了多標(biāo)簽文本分類的性能. 目前模型僅僅在標(biāo)簽集小的數(shù)據(jù)集下取得不錯(cuò)的效果, 在接下來的工作中, 將探究如何在大規(guī)模標(biāo)簽集下的提升性能.

猜你喜歡
分類器標(biāo)簽膠囊
膠囊可以打開吃嗎?
Shugan Jieyu capsule (舒肝解郁膠囊) improve sleep and emotional disorder in coronavirus disease 2019 convalescence patients: a randomized,double-blind,placebo-controlled trial
Shumian capsule(舒眠膠囊)improves symptoms of sleep mood disorder in convalescent patients of Corona Virus Disease 2019
無懼標(biāo)簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
標(biāo)簽化傷害了誰
基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
天镇县| 乐业县| 盐源县| 库尔勒市| 潍坊市| 阿荣旗| 资溪县| 基隆市| 琼海市| 汕头市| 昌都县| 平塘县| 师宗县| 淄博市| 八宿县| 平顺县| 克什克腾旗| 平塘县| 伊宁县| 禄劝| 卓资县| 扎赉特旗| 桂阳县| 永嘉县| 嘉禾县| 温州市| 重庆市| 宿州市| 平山县| 九龙城区| 西乡县| 兴国县| 忻城县| 正定县| 林西县| 麻阳| 清徐县| 桐乡市| 綦江县| 广西| 攀枝花市|