支港,鐘學(xué)燕,王欣,何山,石佳
(西南石油大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,四川 成都 610500)
多標(biāo)簽文本分類已經(jīng)成為自然語言處理的一項(xiàng)重要的任務(wù),目前被廣泛應(yīng)用于情感分析[1]、安全生產(chǎn)事故分類[2]、在線問診[3]和許多其他現(xiàn)實(shí)場景。多標(biāo)簽文本分類任務(wù)中,復(fù)雜的語義信息可能隱含在文本中的各個(gè)部分,并且一個(gè)文本樣本對應(yīng)著多個(gè)標(biāo)簽。這些標(biāo)簽不僅和文本信息存在著一定的聯(lián)系,而且標(biāo)簽與標(biāo)簽之間也存在著復(fù)雜的依賴關(guān)系。為提高分類效果,現(xiàn)有研究重點(diǎn)關(guān)注三個(gè)方面[4]:①如何從文本信息中充分捕捉語義信息;②如何從每個(gè)文本中提取與對應(yīng)標(biāo)簽相關(guān)的判別信息;③如何準(zhǔn)確挖掘標(biāo)簽之間的相關(guān)性。
傳統(tǒng)的機(jī)器學(xué)習(xí)算法把多標(biāo)簽問題轉(zhuǎn)換為多個(gè)相互獨(dú)立的二分類問題,如Binary Rele?vance[5]、ML-KNN[6]等,這類方法雖然簡單有效,但沒有考慮標(biāo)簽之間的相關(guān)性。為了捕獲標(biāo) 簽 相 關(guān) 性 ,Rank-SVM[7]、Calibrated Label Ranking[8],考慮了標(biāo)簽之間的成對關(guān)系,但是難以建立標(biāo)簽高階相關(guān)性。Classifier Chains[9]、Ensemble Classifier Chain[9]利用鏈?zhǔn)揭?guī)則和先前分類器的預(yù)測結(jié)果作為輸入來考慮標(biāo)簽之間的高階相關(guān)性,但是在大型數(shù)據(jù)集上的訓(xùn)練成本很高。
使用基于序列到序列(sequence to se?quence, Seq2Seq)[10]的方法將多標(biāo)簽文本分類問題轉(zhuǎn)換為序列生成問題能夠很好地建立標(biāo)簽高階相關(guān)性。該方法提出了一個(gè)帶有decoder結(jié)構(gòu)的序列生成模型,并考慮到以前預(yù)測的標(biāo)簽,以先后順序的方式預(yù)測結(jié)果。Yang等[11]提出了由Bi-LSTM編碼器和基于加性注意力的LSTM解碼器組成的序列生成模型(SGM),當(dāng)模型預(yù)測不同的標(biāo)簽時(shí),注意力機(jī)制會(huì)考慮文本不同部分的貢獻(xiàn),但缺乏對編碼階段提取的信息文本的充分利用。
鑒于Transformer使用多頭注意力機(jī)制提取多重語義信息且兼具可解釋性的特點(diǎn),本文在Seq2Seq模型中的解碼器部分采用Transformer,提出了基于Transformer解碼器的序列生成模型。在多層Transformer解碼器層中,通過其自注意力機(jī)制建立標(biāo)簽之間的高階相關(guān)性,利用其交叉注意力機(jī)制自適應(yīng)地對文本特征進(jìn)行多頭交叉關(guān)注,為不同的詞匯賦以相應(yīng)的權(quán)重,并聚合與標(biāo)簽相關(guān)的關(guān)鍵特征。序列生成Transformer能夠在建立標(biāo)簽相關(guān)性的同時(shí)更全面地考慮文本和標(biāo)簽之間的語義相關(guān)性。
本文主要貢獻(xiàn)有如下三個(gè)方面:
1) 將Transformer解碼器用于多標(biāo)簽文本分類任務(wù)。可視化實(shí)驗(yàn)表明,Transformer解碼器中的多頭交叉注意力子層可以有選擇地關(guān)注上下文表征里不同子空間的語義信息來聚合更為全面的判別特征,提高分類性能的同時(shí)有著更好的可解釋性;
2) 探究了位置編碼對模型效果的影響。實(shí)驗(yàn)表明,相對于標(biāo)準(zhǔn)Transformer外置的位置編碼,將位置編碼內(nèi)嵌進(jìn)Transformer多頭注意力子層可以幫助模型更好地識(shí)別不同詞匯間的順序關(guān)系;
3) 通過在不同公開數(shù)據(jù)集上與當(dāng)前流行的RNN類基線模型進(jìn)行綜合實(shí)驗(yàn)對比,驗(yàn)證了序列生成Transformer的有效性和高效性。
近年來,大量基于深度學(xué)習(xí)的方法被應(yīng)用于多標(biāo)簽分類算法研究,如 CNN[12],RNN[13],R-CNN[14],注意力機(jī)制[15]等,然而,這些方法僅傾向于提取文本表示,將標(biāo)簽視為一個(gè)整體序列進(jìn)行預(yù)測,不但沒有考慮文本內(nèi)容的貢獻(xiàn)差異,而且忽略了標(biāo)簽間的相關(guān)性。
文本中的一些關(guān)鍵詞,通常對分類結(jié)果起著決定性作用。例如,“一年一度的首都高校大學(xué)生籃球聯(lián)賽在北京林業(yè)大學(xué)隆重舉行”,它被分為校園和體育兩個(gè)類別。顯然“高?!薄按髮W(xué)生”等詞與校園的相關(guān)性遠(yuǎn)大于體育,而“籃球聯(lián)賽”則與體育密切相關(guān)。為此,Xiao等[16]提出LSAN方法利用文本和標(biāo)簽信息,借助自注意力和標(biāo)簽注意機(jī)制來建立文本內(nèi)容和標(biāo)簽之間的相關(guān)性,雖然取得不錯(cuò)的效果,卻忽略了標(biāo)簽之間的相關(guān)性。Nam等[10]、Yang等[11]、Qin等[17]使用基于 Seq2Seq的方法來建立標(biāo)簽相關(guān)性,并使用注意力機(jī)制提取文本信息中的判別特征,然而,傳統(tǒng)的單頭注意力機(jī)制只考慮詞匯間單一層面的語義信息,不能全面地捕獲上下文信息。
本文將Transformer解碼器用于Seq2Seq架構(gòu),借助其多頭注意力子層關(guān)注文本上下文表征里不同子空間的語義信息進(jìn)而獲取更為全面的判別特征,序列生成Transformer模型可以在建立標(biāo)簽相關(guān)性的同時(shí),更全面、更深層次地考慮文本信息和標(biāo)簽之間的語義相關(guān)性。
Transformer最 初 是 作 為 機(jī) 器 翻 譯[18]的Seq2Seq模型,并廣泛應(yīng)用于計(jì)算機(jī)視覺任務(wù)[19-20]。最近研究表明,Transformer在多標(biāo)簽文本分類領(lǐng)域也有一定進(jìn)展。
Adhikari等[21]通過對 BERT 進(jìn)行微調(diào)克服了原始BERT的幾個(gè)限制,并將BERT提煉成更簡單的神經(jīng)模型,從而以更小的計(jì)算成本建立多標(biāo)簽文本分類任務(wù)。Chang等[22]提出XTransformer模型,通過微調(diào)Transformer使得輸入文本到標(biāo)簽集有更好的映射。Gong等[23]使用多層Transformer編碼器從單詞、句子和圖形級(jí)別的文本當(dāng)中提取文本表征。Yarullin等[24]提出了序列生成BERT模型(BERT+SGM),首次將Transformer用于多標(biāo)簽分類任務(wù)的Seq2Seq架構(gòu)。Transformer編碼器有著強(qiáng)大的表征能力,然而,對于Transformer 解碼器在多標(biāo)簽文本分類任務(wù)的研究還有待進(jìn)一步探索。
受上述研究啟發(fā),本文認(rèn)為Transformer解碼器可以很好地應(yīng)用于序列生成多標(biāo)簽分類任務(wù),通過其自注意力機(jī)制建立標(biāo)簽之間的高階相關(guān)性,并利用其交叉注意力子層捕獲文本序列內(nèi)各種范圍的語義信息,這與大多數(shù)現(xiàn)有工作使用Transformer編碼器中的自注意力機(jī)制來改進(jìn)文本表示有很大不同。
假設(shè)樣本空間X?Rd,d表示詞向量維度。標(biāo)簽空間 L={λ1,λ2,…,λq}。給定數(shù)據(jù)集 D=,其中n表示樣本總數(shù),假定這些樣本獨(dú)立且同分布在一個(gè)未知分布P(X,Y)中。則多標(biāo)簽文本分類任務(wù)旨在學(xué)習(xí)一個(gè)決策函數(shù)f:X→2L,其中2L為L的子集,使得每一段文本匹配一組標(biāo)簽集合。
在多標(biāo)簽分類的序列生成模型中,預(yù)測階段解碼器輸出的標(biāo)簽序列是逐個(gè)生成的,要將Transformer解碼器應(yīng)用于Seq2Seq架構(gòu)中,就得保留解碼器中自回歸的屬性。訓(xùn)練模型時(shí)在解碼器自注意力子層中添加了掩碼向量,以便任何查詢都只會(huì)與已經(jīng)生成的標(biāo)簽進(jìn)行注意力計(jì)算。
在掩蔽自注意力機(jī)制的實(shí)現(xiàn)中,首先通過計(jì)算查詢Q∈RT1×d和鍵K∈RT2×d每一行向量的內(nèi)積,得到相似度矩陣A∈RT1×T2,其中 T1、T2分別為查詢和鍵對應(yīng)標(biāo)簽向量的數(shù)目,At,i表示標(biāo)簽t和標(biāo)簽i之間的注意力強(qiáng)度。為了防止計(jì)算得到的內(nèi)積過大,采用公式(1)平衡計(jì)算結(jié)果,
為了確保每個(gè)標(biāo)簽只考慮該位置之前的所有標(biāo)簽,使用Softmax計(jì)算得到歸一化注意力權(quán)重之前,需要在矩陣A中加入n個(gè)標(biāo)簽所對應(yīng)的掩碼向量R mask∈Rn×m。最后將A與值向量V∈Rn×d相乘得到掩蔽自注意力的輸出。計(jì)算如公式(2)和(3)所示:
如圖1所示,序列生成Transformer模型主要是由編碼和解碼兩個(gè)階段組成。首先將輸入文本傳入編碼器提取文本特征,編碼器可以是RNN、CNN或Transformer等。解碼階段由兩個(gè)模塊組成:用于更新查詢和聚合特征的多層Transformer解碼器塊,以及將輸出擴(kuò)展到與標(biāo)簽詞典大小一樣維度的全連接層。
2.3.1 編碼階段
給定單個(gè)樣本的文本信息W=[w1,w2,…,wK],K 表示文本信息長度。將詞 wi通過詞嵌入得到向量表示ei∈Rd從而形成嵌入矩 陣 X=[e1,e2,…,eK]∈ RK×d。 然 后 將 X 送 入編碼器進(jìn)行特征提取得到文本特征表示H=[h1,h2,…,hK]∈ RK×d。 為 了驗(yàn)證 Transformer解碼器的可行性,本文先后使用Transformer和GRU作為編碼器進(jìn)行實(shí)驗(yàn)。
2.3.2 解碼階段
解碼階段每個(gè)Transformer解碼器層包含了三個(gè)子層:掩蔽多頭自注意力(Masked Multi-Head Self-Attention)、多頭交叉注意力(Multi-Head Cross-Attention)和逐位前饋網(wǎng)絡(luò)(FFN)。這些子層都被殘差連接和緊隨的層歸一化(Layer Norm)圍繞,加速模型收斂的同時(shí),并防止其過擬合。為簡潔起見,本文省略了網(wǎng)絡(luò)層中的殘差連接、層歸一化以及網(wǎng)絡(luò)子層的參數(shù),詳細(xì)參考Transformer原文[17]。
建立標(biāo)簽相關(guān)性:輸入文本在經(jīng)過編碼器編碼提取特征后,使用標(biāo)簽嵌入Q0∈RT×d作為初始查詢,并采用掩蔽多頭自注意力機(jī)制建立標(biāo)簽之間的相關(guān)性來更新查詢得到標(biāo)簽嵌入,其中T是輸入標(biāo)簽的數(shù)量。每一個(gè)Trans?former解碼器層l從其前一層的輸出Ql?1更新查詢,標(biāo)簽嵌入更新如下:
其中,Concat表示拼接每一個(gè)頭部的注意力輸出,波浪上標(biāo)~表示為原始向量添加位置編碼,為可學(xué)習(xí)參數(shù),dq=dk=dv=d/h,h為注意力頭數(shù)。
標(biāo)簽預(yù)測:假設(shè)Transformer解碼器共有L層,將在最后一層得到T個(gè)注入了標(biāo)簽信息以及文本信息的標(biāo)簽嵌入Ql∈RT×d。將每個(gè)標(biāo)簽嵌入 QL,t∈ Rd通過全連接層(Linear)和 Softmax計(jì)算得到q個(gè)不同標(biāo)簽的預(yù)測概率,q為標(biāo)簽空間大小。標(biāo)簽預(yù)測計(jì)算所下:
其中 Wt∈Rd×p,bt∈ Rp,是全連接層中的權(quán)重參數(shù),引入It是為了避免重復(fù)預(yù)測前一時(shí)刻的預(yù)測結(jié)果。
本文通過最小化交叉熵?fù)p失(Cross-Entro?py Loss)函數(shù)來訓(xùn)練模型,其定義見式(11):
其中,ynt表示第n個(gè)樣本中標(biāo)簽t的真實(shí)值,表示第n個(gè)樣本中標(biāo)簽t的預(yù)測值,N表示樣本空間大小,q表示標(biāo)簽空間大小。
為了檢驗(yàn)序列生成Transformer的性能,本文在公開文本數(shù)據(jù)集AAPD[11]和 SLASH?DOT[17]進(jìn)行了對比實(shí)驗(yàn)。AAPD來源于arxiv網(wǎng)站收集的計(jì)算機(jī)科學(xué)領(lǐng)域的論文,SLASH?DOT來源于資訊科技網(wǎng)站中的新聞信息。數(shù)據(jù)集詳細(xì)信息如表1所示。
文本序列和標(biāo)簽序列可能具有不同的長度,為了提高計(jì)算效率,本文對數(shù)據(jù)集進(jìn)行了填充操作,AAPD最大長度設(shè)置為400,SLASH?DOT最大設(shè)置長度為120,如果文本序列長度低于閾值,將在末尾添加“
本文使用的評估指標(biāo)為:Instance-F1、La?bel-F1和漢明損失(Hamming-Loss,HL),定義如下所示:
本文使用的基線對比模型如下:
(1) Binary Relevance(BR)[5]:將多標(biāo)簽分類問題分解為多個(gè)獨(dú)立二分類問題,忽略標(biāo)簽之間的相關(guān)性。
(2) Classifier Chains(CC)[9]:將多標(biāo)簽分類問題轉(zhuǎn)化為有序的二分類問題,前一分類器預(yù)測結(jié)果作為后一分類器輸入,該方法能考慮到標(biāo)簽之間的相關(guān)性。
(3) Ensemble Classifier Chains(ECC)[9]:利用集成學(xué)習(xí)隨機(jī)生成多種標(biāo)簽順序訓(xùn)練模型。
(4) Seq2Seq--GRU[10]:帶有 GRU 編碼器和基于注意力機(jī)制的GRU解碼器的Seq2Seq架構(gòu),將多標(biāo)簽分類問題轉(zhuǎn)化為多標(biāo)簽序列生成問題。
(5) set--RNN[17]:基于集合概率的原則提出了新的訓(xùn)練目標(biāo)和預(yù)測目標(biāo),使得模型能夠自適應(yīng)地發(fā)現(xiàn)最佳標(biāo)簽順序。
幾種方法的對比結(jié)果如表2所示,可以看出,本文的方法在Instance-F1和Label-F1上都明顯優(yōu)于其他方法,HL指標(biāo)表現(xiàn)僅比ECC差,可能的原因是基于Seq2Seq架構(gòu)的方法在預(yù)測階段受到先前錯(cuò)誤預(yù)測結(jié)果的影響導(dǎo)致了誤差累計(jì)。對于傳統(tǒng)方法,BR忽略了標(biāo)簽之間的相關(guān)性,CC建模標(biāo)簽高階相關(guān)性,因此在In?stance-F1和Label-F1上都有著更好的表現(xiàn)。
ECC在CC基礎(chǔ)上結(jié)合了集成學(xué)習(xí)方法,在各項(xiàng)指標(biāo)上優(yōu)于CC。基于深度學(xué)習(xí)的方法Seq2Seq-GRU相對于傳統(tǒng)方法能建立更復(fù)雜的標(biāo)簽相關(guān)性,在Instance-F1和Label-F1有著突破性的提升。set-RNN避免了Seq2Seq架構(gòu)對預(yù)定義標(biāo)簽順序依賴的問題,其各項(xiàng)指標(biāo)均優(yōu)于Seq2Seq-GRU。為了驗(yàn)證Transformer解碼器在Seq2Seq架構(gòu)中的可行性,本文測試了編碼器為GRU和Transformer兩種情況下的結(jié)果,在AAPD數(shù)據(jù)上,與傳統(tǒng)效果最優(yōu)的set-RNN相比,Instance-F1分別提高了1.37%和1.44%,La?bel-F1分別提高了1.24%和1.83%,HL指標(biāo)均降低了0.02%。在SLASHDOT數(shù)據(jù)集上,In?stance-F1分別提高了0.94%和1.09%,Label-F1分別提高了0.73%和3.25%,HL指標(biāo)分別降低了0.07%和0.08%。兩種模型不管在AAPD還是SLASHDOT數(shù)據(jù)集上都有著更好的表現(xiàn),尤其在Instance-F1和Label-F1指標(biāo)上都明顯優(yōu)于其他基線。說明序列生成Transformer在建立標(biāo)簽相關(guān)性的同時(shí),還能更全面地考慮文本和標(biāo)簽之間的語義相關(guān)性。
為了進(jìn)一步驗(yàn)證序列生成Transformer在預(yù)測不同的標(biāo)簽時(shí),能夠有選擇地捕獲不同單詞的權(quán)重,本文從數(shù)據(jù)集SLASHDOT中取出一篇文本, 計(jì)算每個(gè)頭部注意力權(quán)重的平均值,并在圖2中可視化了預(yù)測不同標(biāo)簽時(shí)對應(yīng)單詞的注意力權(quán)重??梢钥吹剑陬A(yù)測兩個(gè)不同的標(biāo)簽時(shí),模型對文本中單詞的關(guān)注度是有差別的,顏色深的單詞為模型更加關(guān)注的關(guān)鍵詞匯,預(yù)測標(biāo)簽“IT”時(shí)模型更加關(guān)注單詞 “Help Net,networks”等,而預(yù)測標(biāo)簽“Security”則更加關(guān) 注“protect computer,intruders security,de?fense”等。
除此之外,本文還繪制了解碼器使用單頭注意力時(shí)的權(quán)重?zé)崃D。如圖3所示,可以看到預(yù)測標(biāo)簽“IT”時(shí)兩者沒有明顯差別,可能是由于文本隱含的標(biāo)簽相關(guān)的語義信息有限。然而預(yù)測標(biāo)簽“Security”時(shí),從全局來看“neverending battle”以及“are deploying a,defense”等詞作為上下文語義信息,能更加突出文本的關(guān)鍵特征。而單頭注意力卻無法準(zhǔn)確捕獲這些單詞的權(quán)重。以上實(shí)驗(yàn)表明,多頭交叉注意力機(jī)制能進(jìn)一步捕獲更為全面的判別信息,提高分類性能的同時(shí)有著更好的可解釋性。
為了探究注意力頭數(shù)對解碼器的影響,本文可視化了每個(gè)頭部單獨(dú)的注意力權(quán)重以及平均注意力權(quán)重。如圖4所示,不同的頭部能夠關(guān)注文本中不同內(nèi)容,對于標(biāo)簽“Software”,可以發(fā)現(xiàn)Head_1、Head_3、和Head_4分別或者共同關(guān)注“An experiment focusing open source tools,Ubuntu Linux,compete Aperture,find worthwhile open source solution,formidable raw processing tools”等,這些信息更像是對文本整體內(nèi)容進(jìn)行關(guān)于標(biāo)簽“Software”的精簡概括。Head_2關(guān)注的信息較少,相反Head_5則關(guān)注了許多與標(biāo)簽“Software”無關(guān)的冗余信息。因此,設(shè)置不同的頭數(shù)影響著解碼器從文本中捕獲標(biāo)簽相關(guān)的語義信息。通過設(shè)置不同的注意力頭數(shù)進(jìn)行了對比實(shí)驗(yàn),結(jié)果如表3所示,在AAPD上設(shè)置為10時(shí)表現(xiàn)最好,設(shè)置為3和15時(shí)較差,在SLASHDOT上設(shè)置為5時(shí)最好,設(shè)置為3和15時(shí)較差。以上結(jié)果說明,在設(shè)置注意力頭數(shù)時(shí),應(yīng)該根據(jù)文本平均長度進(jìn)行設(shè)置,不宜過小或過大。當(dāng)頭數(shù)過小時(shí),難以從文本信息中捕獲足夠的語義信息;頭數(shù)設(shè)置過大效果則沒有明顯提升,甚至可能因?yàn)槿哂嘈畔⒈憩F(xiàn)更差。實(shí)際上,更多的注意力頭所帶來的模型參數(shù)會(huì)加大模型訓(xùn)練的開銷,因此選擇注意力頭數(shù)時(shí)需要在模型性能和計(jì)算開銷上進(jìn)行綜合考慮。
序列生成Transformer中的注意力機(jī)制是執(zhí)行多標(biāo)簽分類的關(guān)鍵部分,并且詞序信息對于模型學(xué)習(xí)句子間的語義關(guān)系有著十分重要的影響。然而,注意力機(jī)制由于其并行特性丟失了詞序信息,需要使用位置編碼(positional encod?ing, PE)把詞序信號(hào)加到詞匯上幫助模型學(xué)習(xí)這些信息。本節(jié)實(shí)驗(yàn)探究了外置PE以及內(nèi)嵌PE對模型的影響,結(jié)果如表4。可以看到,外置PE(和原始Transformer模型一致)效果一般,將可學(xué)習(xí)的PE或固定的PE內(nèi)嵌進(jìn)Transformer的注意力子層對于分類結(jié)果都有著顯著的提升,即使編碼器不加PE其各項(xiàng)指標(biāo)(尤其是HL)均有著可靠的效果??赡艿脑蚴禽斎胄畔⒃赥ransformer子層傳遞的過程中會(huì)丟失一定的詞序信息,將位置編碼內(nèi)嵌進(jìn)每個(gè)注意力子層可以幫助模型更好地識(shí)別不同詞匯間的順序關(guān)系。
為驗(yàn)證序列生成Transformer在模型訓(xùn)練時(shí)的高效性,本節(jié)實(shí)驗(yàn)評估Transformer與RNN在兩種數(shù)據(jù)集上訓(xùn)練的時(shí)間損耗對比。如圖5所示,其中Totaltime為算法在不同數(shù)據(jù)集上訓(xùn)練一次所消耗的總時(shí)間??梢钥吹?,基于Trans?former解碼器的序列生成模型耗時(shí)更少。而這得益于Transformer自身的并行特性,使得模型訓(xùn)練的解碼階段能夠同時(shí)處理多個(gè)標(biāo)簽達(dá)到節(jié)省時(shí)間開銷的目的。
為了進(jìn)一步驗(yàn)證Transformer解碼器的重要性,本節(jié)在兩個(gè)數(shù)據(jù)集上進(jìn)行了相應(yīng)的消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。其中GRU表示僅使用GRU編碼器進(jìn)行文本特征提取,seq2seq-GRU表示編碼器解碼器均為GRU,GRUTransformer表示編碼器使用GRU,解碼器使用Transformer??梢钥吹?,僅使用GRU編碼器表現(xiàn)最差,基于Seq2Seq架構(gòu)的方法在Instance-F1和Label-F1指標(biāo)均有著更好的表現(xiàn)。說明解碼器建模標(biāo)簽相關(guān)性對提升模型的分類效果起到了很大的作用。并且Transformer解碼器在建模標(biāo)簽相關(guān)性的同時(shí),能夠更深層次地考慮文本和標(biāo)簽之間的語義相關(guān)性,幫助解碼階段聚合更為全面的判別特征,提高分類效果。
本文提出基于Transformer的序列生成模型來處理多標(biāo)簽文本分類問題。相對于傳統(tǒng)的單頭注意力機(jī)制,Transformer解碼器中的多頭交叉注意力子層能進(jìn)一步捕獲更為全面的判別特征。將位置編碼內(nèi)嵌進(jìn)Transformer多頭注意力子層可以幫助模型更好地捕獲不同詞匯間的順序信息,這也為Transformer解碼器應(yīng)用于多標(biāo)簽文本分類任務(wù)提供了可能。
雖然序列生成Transformer模型在捕獲文本語義關(guān)系上取得了不錯(cuò)的效果,但沒有考慮標(biāo)簽間的層級(jí)關(guān)系;而且基于Seq2Seq架構(gòu)的方法在預(yù)測階段容易受到先前錯(cuò)誤預(yù)測結(jié)果的影響導(dǎo)致誤差累計(jì);同時(shí)在SLASHDOT這類有大量標(biāo)簽的數(shù)據(jù)集上的分類效果還有著很大的提升空間;下一階段將針對以上問題進(jìn)行更深一步的研究。