国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于聯(lián)合模型的多標(biāo)簽文本分類研究

2020-07-17 08:19:50劉心惠陳文實(shí)魯明羽
關(guān)鍵詞:類別注意力標(biāo)簽

劉心惠,陳文實(shí),周 愛,陳 飛,屈 雯,魯明羽

大連海事大學(xué) 信息科學(xué)技術(shù)學(xué)院,遼寧 大連 116026

1 引言

多標(biāo)簽文本分類是自然語言處理領(lǐng)域的一個(gè)重要研究方向,目標(biāo)是為數(shù)據(jù)集中的每個(gè)樣本分配一個(gè)或多個(gè)類別標(biāo)簽。目前多標(biāo)簽文本分類算法廣泛應(yīng)用于推薦算法[1]、信息檢索[2]、垃圾郵件檢測[3]等任務(wù)。

當(dāng)前多標(biāo)簽文本分類方法大致分為三類:問題轉(zhuǎn)換方法、算法適應(yīng)方法和神經(jīng)網(wǎng)絡(luò)方法。問題轉(zhuǎn)換方法將多標(biāo)簽分類轉(zhuǎn)化為單標(biāo)簽分類問題,Binary Relevance(BR)算法將每個(gè)標(biāo)簽作為單獨(dú)的類別進(jìn)行分類處理[4];Label Powerset(LP)方法為每一個(gè)標(biāo)簽組合創(chuàng)建一個(gè)二進(jìn)制分類器[5];Classifier Chains(CC)算法通過模擬標(biāo)簽之間的相關(guān)性進(jìn)行分類[6]。算法適應(yīng)方法通過擴(kuò)展現(xiàn)有的算法,使其適用多標(biāo)簽分類任務(wù),不需要進(jìn)行問題轉(zhuǎn)換,Clare等人通過ML-DT方法構(gòu)建基于多標(biāo)簽熵的決策時(shí)進(jìn)行分類[7];Elisseeff等人提出Rank-SVM,使用支持向量機(jī)進(jìn)行分類[8];陸凱等人使用ML-KNN方法來處理大數(shù)據(jù)集問題[9]。上述兩類方法都是基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法,依賴于大量的特征工程,隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)方法被廣泛應(yīng)用于多標(biāo)簽文本分類任務(wù),相比于傳統(tǒng)機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)方法可以自動(dòng)學(xué)習(xí)文本特征,具有泛化性更強(qiáng)的優(yōu)點(diǎn)。

當(dāng)前主流神經(jīng)網(wǎng)絡(luò)有卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)等,在不同的領(lǐng)域表現(xiàn)出較好的性能[10]。膠囊網(wǎng)絡(luò)(CapsuleNet)由深度學(xué)習(xí)之父Hinton提出,在圖像處理領(lǐng)域表現(xiàn)出較好的結(jié)果,但是在自然語言處理領(lǐng)域的有效性仍在探索[11]。Zhao等人首次將膠囊網(wǎng)絡(luò)應(yīng)用在文本分類任務(wù)上,分類性能超過CNN[12]。Google團(tuán)隊(duì)提出多頭注意力機(jī)制,在輸入文本序列內(nèi)部做注意力操作,尋找序列內(nèi)部之間的聯(lián)系,自動(dòng)學(xué)習(xí)輸入文本序列的權(quán)重分布[13]。

本文利用多頭注意力機(jī)制、膠囊網(wǎng)絡(luò)和BiLSTM組成聯(lián)合模型,獲得更為豐富的信息。注意力機(jī)制對文本中的每個(gè)單詞的向量權(quán)重進(jìn)行重新分配,對文本內(nèi)容貢獻(xiàn)大的信息賦以較大的權(quán)重,從而來區(qū)分每個(gè)單詞對于文本識別重要性的大小。再通過特征融合的方式將膠囊網(wǎng)絡(luò)提取的局部特征和BiLSTM提取的全局特征進(jìn)行平均融合,可以同時(shí)提取不同層次、具有不同特點(diǎn)的文本特征。

2 相關(guān)研究

深度學(xué)習(xí)在自然語言處理領(lǐng)域的應(yīng)用廣泛[14],與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,不需要人工設(shè)計(jì)特征,可以自動(dòng)學(xué)習(xí)并提取文本特征,并且取得了比傳統(tǒng)方法更好的效果。周志華等人提出了BP-MLL方法,首次將神經(jīng)網(wǎng)絡(luò)模型用于多標(biāo)簽文本分類,使用全連接網(wǎng)絡(luò)和排序損失來進(jìn)行分類[15];Nam等人在周志華提出的方法上,采用adagrad和dropout來加速收斂并防止訓(xùn)練過程中發(fā)生過擬合,將交叉熵函數(shù)作為目標(biāo)函數(shù)[16];Berger等人使用預(yù)訓(xùn)練的word2vec詞向量捕獲單詞順序,作用在CNN和GRU上直接用到多標(biāo)簽文本分類中,相比于傳統(tǒng)的詞袋模型分類性能得到提升[17];Kurata等人把CNN的輸出層利用類別標(biāo)簽之間的共現(xiàn)關(guān)系進(jìn)行初始化,來獲得標(biāo)簽之間相關(guān)性[18];Chen等人提出一種CNN和RNN的融合機(jī)制,把CNN得到的輸出作為RNN的輸入,來捕獲文本的語義信息,然后進(jìn)行類別的預(yù)測[19];Nam首次將機(jī)器翻譯中的Encoder-Decoder模型用于多標(biāo)簽分類,提出一種計(jì)算標(biāo)簽聯(lián)合概率的公式,按照順序生成類別標(biāo)簽[20];Yang等人首次將強(qiáng)化學(xué)習(xí)用于多標(biāo)簽文本分類,提出基于深度強(qiáng)化學(xué)習(xí)的Encoder-Decoder模型,把類別標(biāo)簽視為集合,來減弱標(biāo)簽之間的依賴關(guān)系[21]。

上述模型大多基于CNN和RNN網(wǎng)絡(luò)結(jié)構(gòu),CNN的池化操作造成信息丟失,RNN會(huì)隨著序列輸入長度的增加而產(chǎn)生梯度爆炸或梯度消失問題。膠囊網(wǎng)絡(luò)不僅獲取單詞在文本中的位置信息,還可以捕獲文本的局部空間特征;BiLSTM不僅加入門控機(jī)制,而且可以捕獲文本的上下文順序信息[22]。另外,考慮到文本序列中詞語的重要程度對分類結(jié)果的影響不同,本文引入注意力機(jī)制(attention mechanism)。注意力機(jī)制是一種用來識別關(guān)鍵詞信息的選擇機(jī)制,廣泛應(yīng)用于神經(jīng)機(jī)器翻譯任務(wù)中,考慮輸入文本的單詞貢獻(xiàn)差異,突出關(guān)鍵輸入對輸出類別標(biāo)簽的作用,對貢獻(xiàn)大的詞賦予較高的權(quán)重,其他詞賦予較低的權(quán)重[23]。

本文模型提出一種基于聯(lián)合模型的多標(biāo)簽文本分類方法,利用多頭注意力機(jī)制來獲取關(guān)鍵詞信息,膠囊網(wǎng)絡(luò)提取文本的局部特征表示,BiLSTM提取文本的全局特征表示,并通過融合層將其融合,從而獲得更為全面、細(xì)致的文本特征,提升分類性能。

3 模型構(gòu)建

多標(biāo)簽分類問題可以定義為:設(shè)X=?d表示輸入樣本有d維特征空間,Y={y1,y2,…,yq}表示所有類別標(biāo)簽集合,共有q個(gè)類別標(biāo)簽。通過訓(xùn)練集D={(xi,Yi)|1≤i≤n}訓(xùn)練樣本得到分類器 f:X→2Y,其中 xi∈X是輸入空間X的訓(xùn)練樣本,Yi∈Y是xi的類別標(biāo)簽集合,最終通過分類器 f得到測試樣本的所屬標(biāo)簽集合[24]。

基于聯(lián)合模型的多標(biāo)簽文本分類框架如圖1所示,本文所提出的模型由五部分組成:文本的向量表示、多頭注意力機(jī)制、特征提取、模型融合和分類。

(1)向量表示:通過預(yù)訓(xùn)練GloVe詞嵌入將輸入的文本序列轉(zhuǎn)化為向量表示。

(2)多頭注意力機(jī)制:在文本向量表示的基礎(chǔ)上使用多頭注意力機(jī)制來發(fā)現(xiàn)文本中的重要信息,自動(dòng)學(xué)習(xí)輸入文本序列的相對重要的單詞。

(3)特征提?。簩⒆⒁饬\(yùn)算后的結(jié)果作為膠囊網(wǎng)絡(luò)和BiLSTM的輸入,不僅可以獲得文本的局部特征表示,還可以捕捉文本的局部特征表示。

(4)模型融合:利用融合層實(shí)現(xiàn)對全局特征信息和局部特征信息進(jìn)行平均融合,實(shí)現(xiàn)多層次提取文本信息,有效減少文本信息丟失。

(5)分類:將特征融合后的向量信息輸入到sigmoid分類器中,進(jìn)行分類操作。

圖1 聯(lián)合模型結(jié)構(gòu)圖

3.1 多頭注意力機(jī)制模型

將輸入序列表示為W=(w1,w2,…,wn),n為輸入文本序列的單詞數(shù),通過詞嵌入將每個(gè)詞進(jìn)行向量化表示,每篇文章形成一個(gè)詞向量矩陣E={e1,e2,…,en},ei代表第i個(gè)詞的詞向量,維度為z,其中e∈?n×z。

由于多標(biāo)簽文本分類任務(wù)的每篇文本對應(yīng)多個(gè)類別標(biāo)簽,不同單詞對不同類別標(biāo)簽的影響程度不同,多頭注意力機(jī)制可以作用在對分類具有決定性作用的詞匯上,與其他注意力相比,多頭注意力機(jī)制可以同時(shí)捕獲與多個(gè)類別標(biāo)簽相關(guān)的不同單詞,從多角度多層面獲取重要的單詞信息。

多頭注意力機(jī)制使用單獨(dú)的注意頭在相同的輸入上多次應(yīng)用注意機(jī)制,獲取不同類別標(biāo)簽的關(guān)鍵單詞,從不同方面提取不同類別標(biāo)簽的重要信息。多頭注意力機(jī)制的計(jì)算方法為:

Q∈?n×dk,K∈?m×dk,V∈?n×dv,i∈h

其中,Q、K、V 分別代表query矩陣、key矩陣、value矩陣,attention操作表示為查詢Q到鍵值對K-V的映射。將其編碼形成一個(gè)新的n×dv的序列,起到調(diào)節(jié)作用,控制Q和K的內(nèi)積不會(huì)太大,每個(gè)注意力的頭部使用自注意力機(jī)制,尋找序列內(nèi)部之間的聯(lián)系。在文本分類任務(wù)中,Q、K、V的值相等,代表嵌入層的輸出E,大小為n×dk,其中dk為嵌入層的輸出維數(shù)。h表示頭的數(shù)量,i表示第i個(gè)注意力頭部,每個(gè)注意力的頭部采用公式(2)計(jì)算,從左到右拼接每個(gè)頭,最終形成注意力矩陣X。

3.2 膠囊網(wǎng)絡(luò)模型

傳統(tǒng)的CNN通過池化操作來降低卷積運(yùn)算的計(jì)算復(fù)雜度,來捕獲局部特征,但是池化操作會(huì)造成信息損失。膠囊網(wǎng)絡(luò)中使用神經(jīng)元向量(膠囊)代替?zhèn)鹘y(tǒng)神經(jīng)網(wǎng)絡(luò)的單個(gè)神經(jīng)元節(jié)點(diǎn),每一個(gè)值都由向量表示,通過動(dòng)態(tài)路由(Dynamic Routing)訓(xùn)練神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)單詞之間的關(guān)系,對特征向量進(jìn)行特征間聚類,從而不僅獲取單詞在文本中的位置信息,還可以捕獲文本的局部空間特征。動(dòng)態(tài)路由過程如圖2所示,計(jì)算方法如公式(4)~(9)所示。

其中,sj為網(wǎng)絡(luò)的輸入,u為上一層膠囊的輸出,W為權(quán)重矩陣,cij為耦合系數(shù),用來預(yù)測上層膠囊和下層膠囊之間的相似性,bij的初始值設(shè)置為0,通過動(dòng)態(tài)路由更新bij從而更新cij。

squash為壓縮激活函數(shù),對向量進(jìn)行壓縮,得到向量的模長hj。向量的模長越大,所表示的特征就越強(qiáng)。整個(gè)動(dòng)態(tài)路由過程迭代r次,以獲取局部特征向量HC=(hC1,hC2,…,hCn)。

圖2 動(dòng)態(tài)路由過程

3.3 BiLSTM模型

LSTM模型是在RNN的基礎(chǔ)上改進(jìn)而來,由門機(jī)制和記憶單元組成,可以選擇性地記住或遺忘記憶單元中的信息,門機(jī)制包括遺忘門、輸入門和輸出門,從而每一個(gè)LSTM單元都具有記憶能力,可以體現(xiàn)上下文信息之間的相互影響。神經(jīng)單元計(jì)算方法如下:

其中,ft、it、ot分別表示遺忘門、輸入門、輸出門,x、h、c表示輸入層、隱藏層、記憶單元,W、b表示權(quán)重矩陣、偏置。

3.4 特征融合

膠囊網(wǎng)絡(luò)無法體現(xiàn)上下文之間的深層語義影響,只能提取局部的文本特征;BiLSTM單元在同層神經(jīng)網(wǎng)絡(luò)之間相互傳遞,能體現(xiàn)相隔較遠(yuǎn)的單詞之間的聯(lián)系,從而提取文本的全局特征表示。單一的神經(jīng)網(wǎng)絡(luò)提取的特征有局限性,通過特征融合的方式可以同時(shí)利用不同神經(jīng)網(wǎng)絡(luò)的各自特點(diǎn),優(yōu)勢互補(bǔ),獲得不同層次上的文本信息特征,提高分類效果。

本文在特征融合階段使用平均融合的方式,而不是采用合并拼接的融合方式即拼接膠囊網(wǎng)絡(luò)生成的特征向量和BiLSTM生成的特征向量,形成一個(gè)維度更大的特征向量。采用拼接方式的缺點(diǎn)是由于維度過大,產(chǎn)生梯度爆炸問題。膠囊網(wǎng)絡(luò)輸出的維度和BiLSTM輸出具有相同的維度,不會(huì)增加數(shù)據(jù)維度計(jì)算,不僅節(jié)約計(jì)算成本,還能獲取不同層次的文本特征。膠囊網(wǎng)絡(luò)輸出的特征向量HC=(hC1,hC2,…,hCn)和BiLSTM輸出的特征向量HL=(hL1,hL2,…,hLn)進(jìn)行特征融合,形成一個(gè)新的特征向量H,計(jì)算方法為:

本文模型采用sigmoid分類器:

函數(shù)返回值為不同的概率值,每個(gè)概率值對應(yīng)于一個(gè)輸出類別的概率,以此劃分該文本所屬類別信息,完成分類。計(jì)算特征融合后的向量H屬于各個(gè)類別標(biāo)簽的概率,概率值在[0,1]之間,設(shè)定一個(gè)閾值,本實(shí)驗(yàn)選取的閾值為0.5,如果大于該閾值,則認(rèn)為屬于某個(gè)類別。

4 實(shí)驗(yàn)與結(jié)果分析

本文采用路透社新聞?wù)Z料庫Reuters-21578和arxiv網(wǎng)站上與計(jì)算機(jī)相關(guān)論文的摘要,每篇論文對應(yīng)不同的主題的AAPD(Arxiv Academic Paper Dataset)語料庫進(jìn)行實(shí)驗(yàn)。

4.1 實(shí)驗(yàn)數(shù)據(jù)

Reuters-21578和AAPD數(shù)據(jù)集概況如表1所示。

表1 數(shù)據(jù)集概況

表1表示數(shù)據(jù)集的基本信息,T表示數(shù)據(jù)集文本總數(shù),L表示類別標(biāo)簽數(shù)量,VC表示每個(gè)數(shù)據(jù)集的平均標(biāo)簽數(shù),VL表示平均文本長度,M表示最大標(biāo)簽數(shù)。本文將數(shù)據(jù)集中的2/3用于訓(xùn)練集,1/3用于測試集,并且訓(xùn)練集中的1/5用于驗(yàn)證集。

4.2 實(shí)驗(yàn)設(shè)置

本文實(shí)驗(yàn)基于Keras框架,TensorFlow后端實(shí)現(xiàn),編程語言為python3.6。通過多次實(shí)驗(yàn)及驗(yàn)證實(shí)驗(yàn)結(jié)果,選定最優(yōu)的實(shí)驗(yàn)參數(shù)。由于提取的文本特征維度過大容易產(chǎn)生梯度爆炸問題,維度過少無法提取充分的特征信息,因此提取全局特征和局部特征的維度為設(shè)置為240。本文使用GloVe預(yù)訓(xùn)練的300維詞向量,選定Adam(Adaptive Moment Estimation)作為優(yōu)化器函數(shù)來優(yōu)化神經(jīng)網(wǎng)絡(luò),dropout值設(shè)置為0.5來防止過擬合。模型的具體參數(shù)設(shè)置如表2。

表2 實(shí)驗(yàn)參數(shù)設(shè)置

4.3 評價(jià)指標(biāo)

本文使用四個(gè)性能評價(jià)指標(biāo)來評價(jià)本文模型的實(shí)驗(yàn)效果,分別是精確率(P)、召回率(R)、F1值(F1 Score)、漢明損失(Hamming Loss)(公式(20)),其中F1值為主要的參考指標(biāo)。

其中, ||D表示樣本總數(shù), ||L表示標(biāo)簽總數(shù),xi和yi分別表示預(yù)測的標(biāo)簽結(jié)果和真實(shí)標(biāo)簽,xor表示異或運(yùn)算。

4.4 結(jié)果分析與討論

本文提出的基于聯(lián)合模型的多標(biāo)簽分類方法ATTCapsule-BiLSTM在Reuters-21578和AAPD數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表3和表4所示,在P、R、F1、HL四個(gè)評價(jià)指標(biāo)上進(jìn)行對比,P、R、F1中“+”表示該值越大,模型性能越好,HL中“-”表示該值越小,模型性能越好。下面通過對比實(shí)驗(yàn)來驗(yàn)證本文提出方法的有效性。

表3 Reuters-21578數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

表4 AAPD數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

為了驗(yàn)證本文提出ATT-Capsule-BiLSTM模型的有效性,設(shè)置與代表性的機(jī)器學(xué)習(xí)方法Binary Relevance(BR)、Classifier Chains(CC)、Label Powerset(LP)和深度學(xué)習(xí)CNN-RNN方法進(jìn)行對比實(shí)驗(yàn),并將CNN-RNN方法[19]作為基線模型。

上述結(jié)果表明,與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,本文模型不基于特征工程,取得了合理的性能。在Reuters-21578數(shù)據(jù)集上,其F1指標(biāo)取得了較好的性能,相比于CNN-RNN模型提升了4.32%;在AAPD數(shù)據(jù)集上,其F1值提升了1.08%。并且本文的模型在P、R和HL指標(biāo)上也展現(xiàn)出了較好的結(jié)果。

為了驗(yàn)證膠囊網(wǎng)絡(luò)相比較于CNN提取局部文本局部特征展現(xiàn)出的優(yōu)勢,設(shè)置ATT-CNN-BiLSTM和ATTCapsule-BiLSTM對比實(shí)驗(yàn)。使用膠囊網(wǎng)絡(luò)提取特征展現(xiàn)了較好的效果,幾乎所有的指標(biāo)都超過了使用CNN網(wǎng)絡(luò)提取的特征的結(jié)果,F(xiàn)1值分別提升了1.29%和1.16%。

對實(shí)驗(yàn)結(jié)果進(jìn)行進(jìn)一步分析,比較了數(shù)據(jù)集中不同類別的F1值差異,和不同實(shí)例的分類情況如圖3~圖6所示。

圖3 21578數(shù)據(jù)集各個(gè)類別標(biāo)簽的分類情況

圖4 21578數(shù)據(jù)集樣本預(yù)測結(jié)果可視化

圖5 AAPD數(shù)據(jù)集各個(gè)類別標(biāo)簽的分類情況

圖6AAPD數(shù)據(jù)集樣本預(yù)測結(jié)果可視化

圖3 表示21578數(shù)據(jù)集每個(gè)類別標(biāo)簽的分類效果,橫軸表示類別標(biāo)簽,縱軸表示F1值,4/5的類別標(biāo)簽的分類結(jié)果F1值超過0.8,取得了較好的效果。

圖4表示在21578數(shù)據(jù)集的測試集隨機(jī)抽取28個(gè)文本實(shí)例,查看其分類情況,縱軸表示測試文本實(shí)例的ID。綠色代表該類別預(yù)測正確,紅色代表類別預(yù)測錯(cuò)誤,橙色代表沒有預(yù)測到該類別。從圖4中可以看出,只有2個(gè)標(biāo)簽預(yù)測錯(cuò)誤,11個(gè)類別標(biāo)簽預(yù)測缺失,其余均預(yù)測正確。

圖5表示AAPD數(shù)據(jù)集每個(gè)類別標(biāo)簽的分類效果,橫軸表示類別標(biāo)簽,縱軸表示F1值,1/4的類別標(biāo)簽的分類結(jié)果F1值超過0.7,由于類別分布不平衡,屬于cs.it和math.it類別的文本數(shù)占總文本數(shù)的32%。因此F1值達(dá)到了89%;math.st占總文本數(shù)的1.63%,F(xiàn)1值僅為25%,導(dǎo)致分類結(jié)果較差。

圖6表示在AAPD數(shù)據(jù)集的測試集隨機(jī)抽取28個(gè)文本實(shí)例,查看其分類情況,橫軸表示類別標(biāo)簽(未涉及到的類別已剔除),縱軸表示測試文本實(shí)例的ID。綠色代表該類別預(yù)測正確,紅色代表類別預(yù)測錯(cuò)誤,橙色代表沒有預(yù)測到該類別。從圖6中可以看出,ID為28的實(shí)例“Algorithmic randomness theory starts with a notion of an individual random object to be reasonable,this notion should have some natural properties,an object should be random with respect to image distribution only if it has a random preimage this result was known for a long time in this paper we prove its natural generalization for layerwise computable mappings,discuss the related quantitative results.”預(yù)測結(jié)果最差,其真實(shí)類別標(biāo)簽共有四個(gè)“math.io;cs.it;math.it;math.pr”,預(yù)測結(jié)果為“cs.ds;cond.stat;cs.pl”,有1個(gè)標(biāo)簽預(yù)測正確,漏掉了3個(gè)標(biāo)簽,2個(gè)標(biāo)簽預(yù)測錯(cuò)誤。該實(shí)例中有64個(gè)單詞,而AAPD數(shù)據(jù)集的文本平均長度是111,由于這個(gè)實(shí)例中文本長度過短,未表達(dá)出能預(yù)測所有類別的信息,導(dǎo)致這個(gè)實(shí)例的預(yù)測效果最差。

結(jié)合圖3~圖6分析可知,由于21578數(shù)據(jù)集的平均標(biāo)簽數(shù)為1.34,AAPD數(shù)據(jù)集的平均標(biāo)簽數(shù)為2.41,并且21578數(shù)據(jù)集的標(biāo)簽數(shù)和平均文本長度都遠(yuǎn)小于AAPD數(shù)據(jù)集,因此在21578數(shù)據(jù)集的F1值高于AAPD數(shù)據(jù)集。

5 結(jié)束語

本文提出了一種基于多頭注意力機(jī)制、膠囊網(wǎng)絡(luò)和BiLSTM網(wǎng)絡(luò)的聯(lián)合模型用于多標(biāo)簽文本分類研究,利用于多頭注意力機(jī)制學(xué)習(xí)輸入文本中的關(guān)鍵信息,膠囊網(wǎng)絡(luò)有效提取文本的局部特征,BiLSTM充分考慮了詞的上下文信息提取文本的全局特征。通過不同層次的特征融合,減少信息丟失。結(jié)果表明,本文提出的聯(lián)合模型在F1指標(biāo)上優(yōu)于對比模型,有效地提升了分類的性能。本文的下一步工作是將該模型的結(jié)構(gòu)用于seq2seq模型的編碼器結(jié)構(gòu)中,不僅可以學(xué)習(xí)文本不同層次的特征信息,還可以捕獲類別標(biāo)簽的相關(guān)性。

猜你喜歡
類別注意力標(biāo)簽
讓注意力“飛”回來
無懼標(biāo)簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
A Beautiful Way Of Looking At Things
標(biāo)簽化傷害了誰
服務(wù)類別
新校長(2016年8期)2016-01-10 06:43:59
基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
論類別股東會(huì)
商事法論集(2014年1期)2014-06-27 01:20:42
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
栾川县| 苗栗县| 太原市| 平遥县| 历史| 尼木县| 南阳市| 神池县| 南乐县| 嘉黎县| 栾城县| 红安县| 施秉县| 洪洞县| 友谊县| 容城县| 景东| 北辰区| 山东| 资阳市| 罗平县| 沽源县| 朝阳县| 深圳市| 沁阳市| 抚顺市| 且末县| 贵州省| 东海县| 镇远县| 启东市| 双牌县| 奈曼旗| 奉节县| 建平县| 青州市| 南岸区| 墨玉县| 崇信县| 新平| 新津县|