劉瀚鍇,黃賢英,朱小飛,付朝燕
(重慶理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶 巴南 400054)
文本分類是自然語(yǔ)言處理技術(shù)中非常重要的領(lǐng)域,被廣泛應(yīng)用于垃圾郵件過濾、新聞分類、情感分析、惡意評(píng)論檢測(cè)等場(chǎng)景。層級(jí)文本分類(Hierarchical Text Classification,HTC)是文本分類領(lǐng)域中的一項(xiàng)特殊任務(wù),分類結(jié)果對(duì)應(yīng)標(biāo)簽層級(jí)結(jié)構(gòu)中的一個(gè)或多個(gè)節(jié)點(diǎn)。如圖1所示,標(biāo)簽被分層存儲(chǔ)在預(yù)先定義好的樹形結(jié)構(gòu)中。層級(jí)文本分類可用于解決為專利申請(qǐng)分配分類代碼[1]、網(wǎng)頁(yè)分類[2]、表情符號(hào)推薦等任務(wù)。工業(yè)界和學(xué)術(shù)界對(duì)HTC任務(wù)都進(jìn)行了廣泛的研究。
圖1 預(yù)先定義好的標(biāo)簽層級(jí)結(jié)構(gòu)Fig.1 Structure of predefined label hierarchy
Fall等[3]提出使用傳統(tǒng)分類模型(樸素貝葉斯),將HTC問題簡(jiǎn)化為平坦的多標(biāo)簽分類問題,直接預(yù)測(cè)位于最后一級(jí)葉子結(jié)點(diǎn)的類別。這種簡(jiǎn)化方法忽略了標(biāo)簽的層級(jí)結(jié)構(gòu)信息。為解決這個(gè)問題,Read等[4]提出對(duì)于每個(gè)二分類模型的屬性空間都用0或1來拓展,代表之前所有分類器的標(biāo)記相關(guān)性,從而形成分類器鏈。然而當(dāng)?shù)谝粋€(gè)分類器中的一個(gè)或多個(gè)預(yù)測(cè)較差時(shí),分類誤差可能會(huì)沿鏈進(jìn)行傳播。同樣,Mayne等[5]將獨(dú)立的樸素貝葉斯分類器組成分層分類器,父分類器的輸出概率作為額外特征傳播到子分類器,每個(gè)分類器都使用二元正態(tài)分離進(jìn)行單詞特征選擇。Shimura等[6]在學(xué)習(xí)層級(jí)信息的時(shí)候,將上層標(biāo)簽信息以微調(diào)卷積神經(jīng)網(wǎng)絡(luò)的方式傳遞到下層標(biāo)簽的學(xué)習(xí)中。Zhou等[7]通過引入先驗(yàn)層級(jí)信息和樣本分布概率,使用Bi-TreeLSTM和GCN構(gòu)建層次感知結(jié)構(gòu)編碼器來建模標(biāo)簽關(guān)系。然而通過樣本集中標(biāo)簽出現(xiàn)次數(shù)計(jì)算得到的標(biāo)簽節(jié)點(diǎn)傳遞概率可能存在移植性較差的問題,在實(shí)際應(yīng)用場(chǎng)景中,不同類別文本的數(shù)量可能隨著熱點(diǎn)的變化而變化。且該模型只考慮了標(biāo)簽層級(jí)結(jié)構(gòu)信息,并未考慮標(biāo)簽語(yǔ)義結(jié)構(gòu)信息,其在一定程度上造成了標(biāo)簽特征的浪費(fèi)。
總之,現(xiàn)有的研究方法主要分為兩類:(1)關(guān)注局部,傾向于構(gòu)造多個(gè)層次分類模型,然后以自頂向下的方式遍歷層次結(jié)構(gòu)。每個(gè)分類器預(yù)測(cè)對(duì)應(yīng)的類別或類別層次。(2)關(guān)注全局,將所有類別集合在一起,用單個(gè)分類器進(jìn)行預(yù)測(cè)。
盡管這些方法從一定程度上引入了標(biāo)簽的結(jié)構(gòu)信息,卻忽略了標(biāo)簽的語(yǔ)義結(jié)構(gòu)特征、層級(jí)結(jié)構(gòu)特征以及它們與輸入文本特征之間的關(guān)系。同時(shí),大多數(shù)HTC任務(wù)標(biāo)簽集有多個(gè)層級(jí),且一篇文本可能同時(shí)屬于多個(gè)類別。如圖1所示,語(yǔ)義相似度較高的標(biāo)簽可能隸屬于同一個(gè)或不同的父級(jí)標(biāo)簽下。當(dāng)標(biāo)簽數(shù)量較大、標(biāo)簽相似度較高時(shí),通過人工閱讀進(jìn)行標(biāo)注的方法構(gòu)造數(shù)據(jù)集存在諸多主觀因素,容易造成分類錯(cuò)誤和分類缺失的問題。
為解決以上問題,提出了融合標(biāo)簽結(jié)構(gòu)的層級(jí)標(biāo)簽文本分類模型(LHSSL)。首先通過傳統(tǒng)編碼器提取輸入文本特征,連接激活函數(shù)得到預(yù)測(cè)概率分布。然后引入使用外部語(yǔ)料預(yù)訓(xùn)練好的語(yǔ)言模型得到標(biāo)簽嵌入向量,計(jì)算標(biāo)簽嵌入向量間的相似度得到標(biāo)簽的語(yǔ)義相關(guān)結(jié)構(gòu)圖。根據(jù)數(shù)據(jù)集給出的多層級(jí)類別標(biāo)簽,構(gòu)建標(biāo)簽的層級(jí)結(jié)構(gòu)矩陣。同時(shí)由于標(biāo)簽數(shù)量較少,使用單層圖卷積就可以提取整個(gè)圖結(jié)構(gòu)的特征。因此使用共享參數(shù)的單層圖卷積學(xué)習(xí)語(yǔ)義結(jié)構(gòu)圖與層級(jí)結(jié)構(gòu)圖的共享特征得到了兩種標(biāo)簽嵌入。利用自注意力機(jī)制學(xué)習(xí)標(biāo)簽之間的關(guān)系得到新的標(biāo)簽嵌入向量。計(jì)算文本嵌入與標(biāo)簽嵌入的相似度,并且動(dòng)態(tài)融合輸入文本的特征。經(jīng)過激活后構(gòu)造標(biāo)簽?zāi)M分布,將兩個(gè)分布加和平均并激活后得到最終的分類結(jié)果。
本文的主要工作有:(1)通過數(shù)據(jù)標(biāo)簽集提取標(biāo)簽的語(yǔ)義結(jié)構(gòu)信息與層級(jí)結(jié)構(gòu)信息。(2)提出LHSSL文本分類模型,將標(biāo)簽語(yǔ)義結(jié)構(gòu)信息、層級(jí)信息以及輸入文本特征進(jìn)行融合,學(xué)習(xí)標(biāo)簽的模擬分布作為預(yù)測(cè)的soft target。(3)在20NG、8NG_E、8NG_H、WOS11967四個(gè)數(shù)據(jù)集上驗(yàn)證了模型的有效性。(4)當(dāng)標(biāo)簽數(shù)量較多且層級(jí)劃分較精細(xì)時(shí),不同的標(biāo)簽可能具有較強(qiáng)的相似性從而導(dǎo)致數(shù)據(jù)標(biāo)簽標(biāo)注錯(cuò)誤。因此引入一定噪聲并驗(yàn)證了在數(shù)據(jù)集標(biāo)簽含有30%噪聲時(shí),LHSSL同樣有效。
圖結(jié)構(gòu)數(shù)據(jù)含有豐富的信息,其中屬性信息描述了圖中節(jié)點(diǎn)的固有屬性,結(jié)構(gòu)信息描述了圖中節(jié)點(diǎn)的關(guān)聯(lián)性質(zhì)。相較于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò),圖卷積神經(jīng)網(wǎng)絡(luò)更適用于處理非歐幾里得結(jié)構(gòu)性的圖數(shù)據(jù)。圖卷積的目的是通過聚合節(jié)點(diǎn)自身以及鄰居節(jié)點(diǎn)的信息提取拓?fù)鋱D的空間特征?;诮D卷積神經(jīng)網(wǎng)絡(luò)時(shí)關(guān)注領(lǐng)域不同[8],研究人員提出了如Spectral CNN[9]、GAT[10]、R-GCNs[11]、FastGCN[12]等多種變體。許多現(xiàn)實(shí)世界中的問題都能通過圖結(jié)構(gòu)進(jìn)行表述,圖卷積神經(jīng)網(wǎng)絡(luò)也在社交網(wǎng)絡(luò)、推薦系統(tǒng)、知識(shí)圖譜、生物遺傳和路徑規(guī)劃等領(lǐng)域有著廣泛的應(yīng)用。
圖卷積神經(jīng)網(wǎng)絡(luò)同樣可以應(yīng)用在文本分類任務(wù)中。Yao等[13]對(duì)整個(gè)語(yǔ)料庫(kù)構(gòu)圖,將詞與文檔作為節(jié)點(diǎn),詞節(jié)點(diǎn)之間的邊依據(jù)詞的共現(xiàn)信息構(gòu)建,文檔節(jié)點(diǎn)與詞節(jié)點(diǎn)之間的邊由詞頻和詞的文檔頻率構(gòu)建,通過圖神經(jīng)網(wǎng)絡(luò)對(duì)圖進(jìn)行建模從而將文本分類問題轉(zhuǎn)化為節(jié)點(diǎn)分類問題。Liu等[14]提出TensorGCN框架用于文本分類問題,框架利用語(yǔ)義、句法、順序上下文信息構(gòu)造文本圖張量,并執(zhí)行圖內(nèi)傳播、圖間傳播分別用于在單個(gè)圖中聚合來自鄰居節(jié)點(diǎn)的信息以及協(xié)調(diào)圖之間的異構(gòu)信息。
標(biāo)簽嵌入學(xué)習(xí)是通過學(xué)習(xí)標(biāo)簽的向量表示來增強(qiáng)模型的分類效果。Chai等[15]提出引入外部知識(shí)生成標(biāo)簽的模板描述、從輸入文本中抽取關(guān)鍵句生成標(biāo)簽的提取表述和通過語(yǔ)言模型生成輸入文本的摘要得到標(biāo)簽的抽象描述從而得到標(biāo)簽的向量表示;Zhou等[6]利用不同標(biāo)簽在數(shù)據(jù)集中出現(xiàn)的次數(shù)作為先驗(yàn)概率來構(gòu)建標(biāo)簽結(jié)構(gòu)樹對(duì)標(biāo)簽進(jìn)行編碼;Pappas等[16]提出一種連接文本向量和標(biāo)簽向量的方式,用來提取標(biāo)簽之間的非線性關(guān)系;Du等[17]通過計(jì)算單詞向量與標(biāo)簽向量的logits來解決傳統(tǒng)文本分類忽略字級(jí)匹配的問題。Huang等[18]使用注意力機(jī)制,讓學(xué)習(xí)的文本向量與標(biāo)簽向量進(jìn)行循環(huán)學(xué)習(xí)、交互。本文也構(gòu)建了模型學(xué)習(xí)標(biāo)簽之間的關(guān)系從而生成含有豐富信息的標(biāo)簽嵌入向量。
標(biāo)簽平滑算法(label smoothing:LS)由Szegedy等[19]于2016年提出。標(biāo)簽平滑用于解決由使用one-hot向量表示標(biāo)簽帶來的模型過擬合的問題,以及全概率和零概率導(dǎo)致樣本所屬類別和其他類別預(yù)測(cè)概率相差盡可能大致使模型過于自信的問題。當(dāng)面對(duì)數(shù)據(jù)集標(biāo)簽集合中某些標(biāo)簽存在一定相似性以及數(shù)據(jù)集存在誤標(biāo)的情況下仍使用one-hot向量表示標(biāo)簽會(huì)一定程度上影響模型的預(yù)測(cè)能力。標(biāo)簽平滑通過引入超參數(shù)E作為錯(cuò)誤率,當(dāng)樣本標(biāo)簽為0時(shí),使用較小的E而不直接使用0作為標(biāo)簽進(jìn)行訓(xùn)練,同樣的,當(dāng)樣本標(biāo)簽為1時(shí),使用1-E作為樣本標(biāo)簽進(jìn)行訓(xùn)練,使樣本標(biāo)簽變得不那么極端,從一定程度上增強(qiáng)了模型的泛化能力。Müller等[20]指出LS除了可以提高模型的泛化能力以外還可以提高模型的校準(zhǔn)性。He等[21]也驗(yàn)證了LS在圖片分類任務(wù)中取得的優(yōu)異表現(xiàn)。
標(biāo)簽分布反映了數(shù)據(jù)集中每個(gè)標(biāo)簽與樣本匹配的程度。然而大多數(shù)數(shù)據(jù)集的標(biāo)簽都是單一標(biāo)簽的集合,要獲取數(shù)據(jù)真實(shí)的標(biāo)簽分布,需要對(duì)每條樣本進(jìn)行大量的標(biāo)注,當(dāng)標(biāo)簽數(shù)目較多時(shí),會(huì)花費(fèi)大量的時(shí)間與精力,標(biāo)注的準(zhǔn)確性也得不到保障。因此,Gayar等[22]、Wang 等[23]、Hou等[24]、Guo等[25]分別提出了 Fuzzy C-Means、Label Propagation、Mainifold Learning、Labe confusion learning 等標(biāo)簽增強(qiáng)的方法,利用樣本集自身的特征空間構(gòu)造標(biāo)簽分布。
LHSSL的模型框架如圖2所示。整個(gè)框架主要分為三個(gè)部分:預(yù)測(cè)概率分布計(jì)算、標(biāo)簽?zāi)M分布構(gòu)造以及損失計(jì)算。
圖2 模型結(jié)構(gòu)Fig.2 Model structure
計(jì)算輸入文本分類預(yù)測(cè)概率分布,可以使用任何一種輸入編碼器,例如:CNN、RNN、LSTM、Bert等用于提取輸入文本特征。連接softmax激活函數(shù)進(jìn)行非線性轉(zhuǎn)換得到預(yù)測(cè)的標(biāo)簽的概率分布。
其中fI為輸入編碼函數(shù),用于將長(zhǎng)度為n的輸入文本 w=[w1,w2,…,wn]轉(zhuǎn)化為長(zhǎng)度為 n、維度為 d 的向量表示 v=[v1,v2,…,vn]。yp為預(yù)測(cè)的概率分布。
2.2.1 標(biāo)簽信息提取模塊
標(biāo)簽信息提取模塊分為兩個(gè)子模塊:標(biāo)簽語(yǔ)義結(jié)構(gòu)特征提取和標(biāo)簽層級(jí)結(jié)構(gòu)特征提取。
標(biāo)簽語(yǔ)義結(jié)構(gòu)特征提取模塊首先初始化標(biāo)簽嵌入向量,將包含層級(jí)結(jié)構(gòu)的標(biāo)簽集L中的每個(gè)標(biāo)簽按照層級(jí)結(jié)構(gòu)拆分為多個(gè)單詞。如talk.politics.mideast可拆分為單詞talk、politics、mideast三個(gè)單詞的共同表示。通過引入使用外部語(yǔ)料庫(kù)預(yù)訓(xùn)練好的語(yǔ)言模型,如word2vec、glove等,得到每個(gè)單詞的嵌入向量。將單詞嵌入向量累加后除以單詞的個(gè)數(shù)得到每個(gè)層級(jí)標(biāo)簽的嵌入表示。
其中n(i)為第i個(gè)層級(jí)標(biāo)簽中的單詞數(shù)量。拼接每個(gè)層級(jí)標(biāo)簽嵌入向量后得到標(biāo)簽集初始嵌入矩陣為標(biāo)簽層級(jí)結(jié)構(gòu)葉子節(jié)點(diǎn)個(gè)數(shù),即數(shù)據(jù)集標(biāo)簽個(gè)數(shù)。通過余弦相似度計(jì)算每個(gè)標(biāo)簽嵌入向量間的相似度用于構(gòu)圖,連接相似度大于0.8的節(jié)點(diǎn)對(duì),并將節(jié)點(diǎn)對(duì)間的連接強(qiáng)度用min-max進(jìn)行標(biāo)準(zhǔn)化后作為鄰接矩陣Af中對(duì)應(yīng)元素的值。
標(biāo)簽層級(jí)結(jié)構(gòu)特征提取模塊通過數(shù)據(jù)集中標(biāo)簽本身的層級(jí)結(jié)構(gòu)構(gòu)造結(jié)構(gòu)關(guān)系圖。圖3為20NG數(shù)據(jù)集標(biāo)簽層級(jí)結(jié)構(gòu)的一部分。其中標(biāo)簽talk.politics.guns和talk.politics.mideast分別由單詞 talk、politics、guns和單詞 talk、politics、mideast組成。其中相同的單詞為talk和politics,即兩個(gè)標(biāo)簽同屬于父級(jí)標(biāo)簽talk下的politics中,因此具有兩級(jí)的層級(jí)相關(guān)性,關(guān)系圖中對(duì)應(yīng)邊的權(quán)重為2。基于這個(gè)規(guī)則,再次構(gòu)建一個(gè)初始值為0,大小為C*C的鄰接矩陣As,其中元素的值由兩兩標(biāo)簽之間的層級(jí)相關(guān)度決定。
圖3 Talk標(biāo)簽組層級(jí)結(jié)構(gòu)圖及層級(jí)結(jié)構(gòu)矩陣Fig.3 “Talk”label group hierarchy chart and hierarchy matrix
標(biāo)簽的語(yǔ)義結(jié)構(gòu)特征和層級(jí)結(jié)構(gòu)特征并不是完全無關(guān)的。Ding等[26]在異常節(jié)點(diǎn)檢測(cè)任務(wù)中提出通過元學(xué)習(xí)利用同領(lǐng)域中不同關(guān)系圖提取節(jié)點(diǎn)的特征,并驗(yàn)證了其有效性。同時(shí),數(shù)據(jù)集標(biāo)簽數(shù)量較少。基于這兩點(diǎn),提出通過共享參數(shù)矩陣的單層圖卷積提取兩個(gè)圖數(shù)據(jù)的相關(guān)特征并得到包含共享特征的標(biāo)簽嵌入。
2.2.2 標(biāo)簽混淆模塊
通過點(diǎn)積計(jì)算輸入文本嵌入v與兩種標(biāo)簽嵌入LAf和LAs中每個(gè)標(biāo)簽的相似度得到兩個(gè)相似度分布隨著輸入文本的變化也是基于輸入樣本動(dòng)態(tài)變化的,在只考慮標(biāo)簽之間相關(guān)性的基礎(chǔ)上又增加了一定的靈活性。
其中Wf∈RC×C、Ws∈RC×C、bf∈RC、bs∈RC分別為可學(xué)習(xí)的參數(shù)矩陣和偏置項(xiàng)。將兩個(gè)相似度概率分布相加取平均值后可得到標(biāo)簽分布yc:
將通過相似度計(jì)算得到的標(biāo)簽概率分布作為target缺乏一定的準(zhǔn)確性與說服力。因此引入原始樣本真實(shí)標(biāo)簽的one-hot向量yt構(gòu)建標(biāo)簽?zāi)M分布ys,并用超參數(shù)α控制真實(shí)標(biāo)簽的指導(dǎo)程度(標(biāo)簽?zāi)M分布的流程如表1所示):
表1 標(biāo)簽?zāi)M分布構(gòu)造流程Table 1 Flowchart of construction of label simulation distribution
使用KL散度作為損失函數(shù),衡量模擬標(biāo)簽分布ys和預(yù)測(cè)標(biāo)簽分布yp的匹配程度:
通過最小化KL散度對(duì)模型進(jìn)行優(yōu)化。學(xué)習(xí)的標(biāo)簽?zāi)M分布使得標(biāo)簽的表示更加平滑,有助于使模型更好地表達(dá)容易混淆的樣本。面對(duì)相似性較強(qiáng)的樣本時(shí),模型會(huì)將錯(cuò)誤標(biāo)簽的概率按標(biāo)簽結(jié)構(gòu)關(guān)系和語(yǔ)義關(guān)系分配到相似的標(biāo)簽上,增強(qiáng)了模型的泛化能力以及應(yīng)對(duì)噪聲的能力。
本文在4個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn):20NG、8NG_H、8NG_E和WOS11967。
20NG全名為20NewsGroups,是一個(gè)用于文本分類、文本挖掘和信息檢索研究的新聞?wù)Z料數(shù)據(jù)集。20NG數(shù)據(jù)集一共有18 821條樣本,分為20個(gè)標(biāo)簽,屬于5個(gè)標(biāo)簽組。從20NG數(shù)據(jù)集中選取相關(guān)性較強(qiáng)的8個(gè)類別和相關(guān)性較弱的8個(gè)類別的樣本集合,并將他們劃分為20NG的兩個(gè)子數(shù)據(jù)集8NG_H和8NG_E,如表2所示。
表2 8NG_H和8NG_E數(shù)據(jù)集的標(biāo)簽劃分Table 2 Label division of 8NG_H and 8NG_E dataset
WOS11967[27]是通過 Web of Science 論文數(shù)據(jù)庫(kù)構(gòu)建的文本分類數(shù)據(jù)集。WOS11967是WOS數(shù)據(jù)集的子數(shù)據(jù)集,共有35個(gè)類別標(biāo)簽,隸屬于 Computer Science、Electrical Engineering、Psychology、Mechanical Engineering、Civil Engineering、Medical Science、biochemistry共7個(gè)大類下。每條樣本包含一篇文章的標(biāo)簽、關(guān)鍵詞和摘要,練集本文只選擇文章的標(biāo)簽和摘要作為最終的數(shù)據(jù)。每個(gè)數(shù)據(jù)集中的訓(xùn)、驗(yàn)證集、測(cè)試集隨機(jī)劃分,訓(xùn)練集、驗(yàn)證集的樣本數(shù)量占整個(gè)數(shù)據(jù)集的60%和15%,剩余的為測(cè)試集。
4個(gè)數(shù)據(jù)集的基本信息如表3所示。其中|L|是每個(gè)數(shù)據(jù)集的標(biāo)簽數(shù)量,Max Depth是標(biāo)簽層級(jí)結(jié)構(gòu)最大深度,Avg(|Li|)是平均每個(gè)節(jié)點(diǎn)的深度。Train Size、Val Size、Test Size分別表示訓(xùn)練集、驗(yàn)證集、測(cè)試集的樣本數(shù)目。
表3 數(shù)據(jù)集基本信息Table 3 Basic information of data set
模型中主要超參數(shù)α、st的設(shè)置如表4-5所示。
表4 噪聲為0時(shí)α和st的取值Table 4 Values ofαandstwhen the noise is 0
表5 噪聲為0.3時(shí)α和st的取值Table 5 Values ofαandstwhen the noise is 0.3
除α以及st以外,構(gòu)建標(biāo)簽語(yǔ)義結(jié)構(gòu)圖時(shí)使用的相似度閥值參數(shù)設(shè)置為0.8。詞嵌入維度為768,詞典大小為20 000。實(shí)驗(yàn)將LHSSL模型與傳統(tǒng)的文本分類模型Bert、LSTM以及加入標(biāo)簽平滑后的Bert和LSTM進(jìn)行對(duì)照。其中Bert中Transformer編碼器隱層為2、隱層神經(jīng)元數(shù)為128、多注意力頭的數(shù)目為2。模型的隱層維度為64維。在訓(xùn)練中使用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為0.000 1,訓(xùn)練過程中的批處理大小為512,使用Bert為基本預(yù)測(cè)模型時(shí)的迭代次數(shù)為150次,使用LSTM為基本預(yù)測(cè)模型時(shí)迭代次數(shù)為60次。為了防止過擬合,在網(wǎng)絡(luò)的每一層加入Dropout,丟棄概率為0.5。同時(shí),label smooth的E為0.1,圖卷積的Adam優(yōu)化器的學(xué)習(xí)率為0.2。
觀察表6-8中數(shù)據(jù)可以得到結(jié)論:無論數(shù)據(jù)集的標(biāo)簽中是否含有噪聲,利用標(biāo)簽的語(yǔ)義關(guān)系以及層級(jí)結(jié)構(gòu)關(guān)系特征,從一定程度上都能提高模型的分類性能。
表6 無噪聲時(shí)測(cè)試集上的準(zhǔn)確率Table 6 Accuracy on test set without noise
當(dāng)數(shù)據(jù)真實(shí)標(biāo)簽中不含噪聲且使用Bert作為基本預(yù)測(cè)模型時(shí),加入標(biāo)簽平滑或使用LHSSL并沒有明顯的提升,甚至在8NG_E數(shù)據(jù)集上有了0.247 8%的輕微下降。其中8NG_E標(biāo)簽數(shù)量少、相關(guān)性弱、層級(jí)結(jié)構(gòu)少且淺,導(dǎo)致加入元素基本都為0的矩陣作為標(biāo)簽關(guān)系信息對(duì)模型幾乎起不到任何作用,這是導(dǎo)致出現(xiàn)這一結(jié)果的主要原因。同理,8NG_H由于標(biāo)簽層級(jí)結(jié)構(gòu)較為單一,準(zhǔn)確率提升同樣不明顯。而20NG、WOS11967數(shù)據(jù)集標(biāo)簽相對(duì)較多,標(biāo)簽結(jié)構(gòu)相對(duì)復(fù)雜,學(xué)習(xí)到的標(biāo)簽相關(guān)性也更加豐富,分類的效果因此挺升得相對(duì)較多。當(dāng)使用LSTM作為基本預(yù)測(cè)模型時(shí),這一特點(diǎn)更加顯著。因此可以得出:當(dāng)數(shù)據(jù)集標(biāo)簽數(shù)量越多、標(biāo)簽關(guān)系越復(fù)雜時(shí),LHSSL模型的提升效果越好。同時(shí),當(dāng)數(shù)據(jù)集中不存在噪音或存在少量噪音時(shí),分類準(zhǔn)確率提升更加顯著。
表7 10%噪聲時(shí)測(cè)試集上的準(zhǔn)確率Table 7 Accuracy on test set at 10% noise
表8 30%噪聲時(shí)測(cè)試集上的準(zhǔn)確率Table 8 Accuracy on test set at 30% noise
對(duì)模型分類結(jié)果(如圖4-圖5)可視化后可以觀察到在相似度較高的標(biāo)簽的樣本上分類效果提升并不明顯。但在對(duì)分類效果較差的類別上,增加LHSSL模塊的確對(duì)準(zhǔn)確率提高有一定作用。例如用黃框中sci.med被誤分為comp.sys.mac.hardware的數(shù)量明顯下降,證明在標(biāo)簽關(guān)系上模型學(xué)習(xí)到一些有用信息,為標(biāo)簽增加了一定的區(qū)分度。
圖4 Bert在20NG測(cè)試集上的分類結(jié)果Fig.4 Classification results of Bert on 20NG test set
圖5 Bert+LHSSL在20NG測(cè)試集上的分類結(jié)果Fig.5 Classification results of Bert+LHSSL on 20NG test set
由圖6可以觀察到,除了類別19,20NG數(shù)據(jù)集中每個(gè)類別的樣本數(shù)目幾乎不存在明顯差異。而WOS11967數(shù)據(jù)集中,每個(gè)類別的樣本數(shù)量逐漸減少,最多只有450條左右,最少只有53條,相差將近8倍。這可能導(dǎo)致模型在訓(xùn)練集上沒有捕捉到足夠的特征信息,出現(xiàn)在訓(xùn)練集上準(zhǔn)確率高而在驗(yàn)證集與測(cè)試集上準(zhǔn)確率較差的情況。因此在未來的工作中還需要針對(duì)樣本數(shù)量少以及樣本不均衡的問題進(jìn)一步對(duì)模型進(jìn)行改進(jìn)。
圖6 20NG(a)、WOS11967(b)數(shù)據(jù)集樣本分布Fig.6 Sample distribution of 20NG(a)and WOS11967(b)data sets
為驗(yàn)證加入標(biāo)簽語(yǔ)義圖、標(biāo)簽結(jié)構(gòu)圖以及融合兩個(gè)圖的特征對(duì)模型分類效果的提升作用,在 20NG、8NG_H、8NG_E、WOS11967四個(gè)數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。觀察僅通過預(yù)訓(xùn)練詞向量生成的標(biāo)簽嵌入與輸入文本嵌入構(gòu)造模擬分布、只對(duì)標(biāo)簽語(yǔ)義圖進(jìn)行卷積、只對(duì)標(biāo)簽結(jié)構(gòu)圖進(jìn)行卷積以及提取標(biāo)簽語(yǔ)義圖和標(biāo)簽結(jié)構(gòu)圖的共享特征四種情況時(shí),模型的分類效果。并在20NG數(shù)據(jù)集上采用T檢驗(yàn)進(jìn)行顯著性驗(yàn)證。首先提出零假設(shè),即各模塊對(duì)模型分類效果提升沒有明顯差別。設(shè)立檢驗(yàn)水準(zhǔn)為0.05,通過計(jì)算,p值分別為0.007 89、0.006 77、0.014 40均小于檢驗(yàn)水準(zhǔn),因此拒絕原假設(shè),統(tǒng)計(jì)顯著。
觀察表9,可以得出結(jié)論,無論標(biāo)簽語(yǔ)義結(jié)構(gòu)特征還是標(biāo)簽層級(jí)結(jié)構(gòu)特征,對(duì)分類都有較好的提升作用。這表明,當(dāng)面對(duì)標(biāo)簽沒有層級(jí)結(jié)構(gòu)的文本分類任務(wù)數(shù)據(jù)集時(shí),通過構(gòu)造標(biāo)簽語(yǔ)義結(jié)構(gòu)并學(xué)習(xí)其特征,同樣能提高模型預(yù)測(cè)的準(zhǔn)確率。而在融合兩個(gè)圖的共享特征后,模型的性能有了進(jìn)一步提高。大部分情況下,使用標(biāo)簽語(yǔ)義結(jié)構(gòu)特征對(duì)模型的提升作用大于使用標(biāo)簽層級(jí)結(jié)構(gòu)特征。由于8NG_H數(shù)據(jù)集中標(biāo)簽的層級(jí)結(jié)構(gòu)較為單一,大多數(shù)標(biāo)簽為父級(jí)標(biāo)簽下一級(jí)的標(biāo)簽,相較于層級(jí)結(jié)構(gòu)信息,標(biāo)簽集的語(yǔ)義相關(guān)信息更加復(fù)雜,因此使用語(yǔ)義圖特征的效果提升比使用層級(jí)結(jié)構(gòu)圖特征更加明顯,甚至在學(xué)習(xí)共享特征后,模型的準(zhǔn)確率比起只使用語(yǔ)義結(jié)構(gòu)特征反而降低了1.409 2%。而當(dāng)使用8NG_E數(shù)據(jù)集時(shí),使用層級(jí)結(jié)構(gòu)特征比使用語(yǔ)義結(jié)構(gòu)特征準(zhǔn)確率更高,這是因?yàn)?NG_E中標(biāo)簽差異性較強(qiáng)而相關(guān)性較弱,因此并不能生成相較豐富的語(yǔ)義結(jié)構(gòu)特征供模型進(jìn)行學(xué)習(xí)訓(xùn)練。
表9 標(biāo)簽噪聲為0時(shí)消融實(shí)驗(yàn)效果Table 9 Effect of ablation on test data sets with 0 noise
模型引入超參數(shù)α用來控制真實(shí)標(biāo)簽的指導(dǎo)程度,不同的數(shù)據(jù)集α的取值不同。經(jīng)過實(shí)驗(yàn),發(fā)現(xiàn)引入標(biāo)簽噪聲、數(shù)據(jù)集標(biāo)簽數(shù)量、標(biāo)簽層級(jí)結(jié)構(gòu)的深度和復(fù)雜度等因素對(duì)α的取值都有一定影響。
實(shí)驗(yàn)結(jié)果表明,在20NG數(shù)據(jù)集中,數(shù)據(jù)集樣本標(biāo)簽不含有噪聲時(shí),α設(shè)置為0.5的準(zhǔn)確率相較于設(shè)置為3和8時(shí)更高。當(dāng)對(duì)標(biāo)簽引入0.3的噪聲時(shí),α設(shè)置為3時(shí)模型的準(zhǔn)確率高于α設(shè)置為0.5,因此面對(duì)包含一定噪聲的數(shù)據(jù)集時(shí),需要原始標(biāo)簽對(duì)模型預(yù)測(cè)指導(dǎo)程度更強(qiáng)。圖7呈現(xiàn)的是擾動(dòng)為0和0.3時(shí)WOS11967驗(yàn)證集的準(zhǔn)確率??梢杂^察到在添加擾動(dòng)時(shí)設(shè)置一個(gè)相對(duì)較大的α模型的準(zhǔn)確率更高,而不添加擾動(dòng)時(shí)設(shè)置相對(duì)較大的α效果同樣較好,這可能是因?yàn)閃OS11967數(shù)據(jù)集中每個(gè)標(biāo)簽都隸屬于某個(gè)父標(biāo)簽,層級(jí)結(jié)構(gòu)都為2,導(dǎo)致不同標(biāo)簽的層級(jí)結(jié)構(gòu)信息幾乎完全相似,因此需要原始標(biāo)簽較強(qiáng)的指導(dǎo)。
圖7 在噪聲為0(a)與0.3(b)的WOS11967數(shù)據(jù)集上α的敏感性實(shí)驗(yàn)Fig.7 Sensitivity experiment ofαon WOS11967 data set with noise of 0(a)and 0.3(b),respectively
圖8呈現(xiàn)的是擾動(dòng)為0時(shí)模型在8NG_H和8NG_E驗(yàn)證集上的準(zhǔn)確率。由于8NG_E數(shù)據(jù)集標(biāo)簽相關(guān)性較低且?guī)缀鯖]有層級(jí)結(jié)構(gòu),可看作相對(duì)獨(dú)立的標(biāo)簽,因此α的取值仍較大。8NG_H數(shù)據(jù)集存在各標(biāo)簽層級(jí)信息差異不明顯,但其標(biāo)簽層級(jí)結(jié)構(gòu)相較于8NG_E更加豐富,因此α取值分別為0.5、3、8時(shí)模型準(zhǔn)確率的差異沒有8NG_E大。
圖8 在噪聲為0的8NG_H(a),8NG_E(b)數(shù)據(jù)集上α的敏感性實(shí)驗(yàn)Fig.8 Sensitivity experiment ofαon 8NG_H(a),8NG_E(b)data sets with noise of 0,respectively
同時(shí)為了避免過擬合,獲得相對(duì)較好的泛化能力,使用早停策略。即當(dāng)模型在數(shù)據(jù)集上進(jìn)行了st次完整的訓(xùn)練時(shí),停止使用標(biāo)簽混淆分布而使用原始的one-hot向量和基本分類模型進(jìn)行訓(xùn)練。圖9可以觀察到在加入早停策略后,模型在無噪聲的WOS11967數(shù)據(jù)集上分類準(zhǔn)確率有了明顯提高,而在數(shù)據(jù)集存在噪聲時(shí)提升較小,且由于標(biāo)簽混亂導(dǎo)致持續(xù)波動(dòng),模型不能很好地?cái)M合。
圖9 在噪聲為0(a)與0.3(b)的WOS11967數(shù)據(jù)集上st的敏感性實(shí)驗(yàn)Fig.9 Sensitivity experiment ofston WOS11967 data set with noise of 0(a)and 0.3(b),respectively
本文通過學(xué)習(xí)標(biāo)簽結(jié)構(gòu)特征解決層級(jí)標(biāo)簽文本分類任務(wù)沒有充分利用標(biāo)簽信息的問題。首先使用基本編碼器連接softmax得到標(biāo)簽預(yù)測(cè)分布。然后通過共享參數(shù)的圖卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)利用標(biāo)簽集構(gòu)造的標(biāo)簽語(yǔ)義結(jié)構(gòu)圖和標(biāo)簽層級(jí)結(jié)構(gòu)圖的特征,得到兩種標(biāo)簽嵌入,并使用自注意力機(jī)制學(xué)習(xí)標(biāo)簽關(guān)系。計(jì)算輸入文本嵌入與標(biāo)簽嵌入的相似度分布。引入超參數(shù)控制樣本真實(shí)標(biāo)簽的指導(dǎo)程度,構(gòu)造標(biāo)簽?zāi)M分布。計(jì)算標(biāo)簽?zāi)M分布與標(biāo)簽預(yù)測(cè)分布的KL散度。通過與忽視標(biāo)簽信息直接對(duì)輸入文本分類與使用標(biāo)簽平滑提高模型的魯棒性,LHSSL能進(jìn)一步提升層級(jí)標(biāo)簽分類的準(zhǔn)確率。該模型不改變?cè)挤诸惸P偷慕Y(jié)構(gòu),并且只在訓(xùn)練的過程中使用,因此不會(huì)增加模型預(yù)測(cè)的時(shí)間損耗。并且標(biāo)簽關(guān)系越復(fù)雜,預(yù)測(cè)準(zhǔn)確率提升越明顯。