国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

層次多標簽文本分類方法

2022-05-09 10:59趙海燕陳慶奎
小型微型計算機系統(tǒng) 2022年4期
關鍵詞:層次結(jié)構(gòu)分類器類別

趙海燕,曹 杰,陳慶奎,曹 健

1(上海市現(xiàn)代光學系統(tǒng)重點實驗室 光學儀器與系統(tǒng)教育部工程研究中心 上海理工大學光電信息與計算機工程學院 上海市軍工路 516 號,上海 200093)

2(上海交通大學 計算機科學與技術系,上海 200030)

1 引 言

分類問題是機器學習中的經(jīng)典問題.有一些對象具有多個類別,預測這些類別就成為了一個多分類問題,也被稱為多標簽分類問題.在現(xiàn)實世界的許多問題上,標簽之間具有層次結(jié)構(gòu),其中,一個標簽可以被特殊化為子類(Subclass)或者被一個超類(Superclass)所包含[1-3].層次多標簽可以采用樹(Tree)或者有向無環(huán)圖(DAG)[4-6]進行表示(如圖1所示,根節(jié)點下有Chemistry和Physics兩個子類,而Chemistry有Inorganic Chemistry和Organic Chemistry兩個子類,Physics有Mechanics和Optics兩個子類;圖2和圖1的區(qū)別是Material Science是Chemistry和Physics的子類;后面使用圖示類似),其中對于樹結(jié)構(gòu)來說,一個標簽節(jié)點只有一個父節(jié)點;而對于DAG結(jié)構(gòu)來說,一個標簽節(jié)點可以有多個父節(jié)點.對于一個給定的樣本,同時將一個或多個類標簽指定給該樣本[7],并且這些類標簽以層次結(jié)構(gòu)(Hierarchical Structure)的形式存儲,這就是層次多標簽分類(Hierarchical Multi-label Classification,HMC)問題.

圖1 樹結(jié)構(gòu)樣例圖Fig.1 Example diagram of tree structure

圖2 有向無環(huán)圖結(jié)構(gòu)樣例圖Fig.2 Example diagram of DAG

層次多標簽分類和標準平面多標簽分類相比,在于前者的標簽是以預定義的層次結(jié)構(gòu)存儲的,這帶來了不同層級以及相同層級之間的標簽之間的內(nèi)在關系,而對于平面多分類問題不用考慮這種關聯(lián)關系.如何學習和利用這些不同層級的關系、并對分類結(jié)果從層級關系遵循性的角度進行評價成為了層次多標簽分類問題的難點和挑戰(zhàn).

在本文中,主要對層次多標簽文本分類(Hierarchical Multi-label Text Classification,HMTC)方法進行總結(jié)和討論.HMTC具有廣泛的應用場景,比如國際專利分類[8,9]、產(chǎn)品注釋[10]、Web網(wǎng)頁分類[11]、問答系統(tǒng)等,同時它也可以應用于蛋白質(zhì)功能預測[12]等可以用文本進行表示的場合.近年來圍繞HMTC取得了許多的研究進展.有些工作專注于分類器設計,有些則針對文本表示進行研究.從如何利用預定義的層次結(jié)構(gòu)信息可以分為局部方法、全局方法和混合方法;從利用的算法可以分為傳統(tǒng)機器學習方法和深度學習方法.本文將對這些方法進行梳理、比較和討論.

本文的后續(xù)內(nèi)容安排如下:第2節(jié)給出層次多標簽文本分類的相關概念,第3節(jié)給出層次多標簽文本分類面臨的一些挑戰(zhàn),第4節(jié)闡述層次多標簽文本分類的研究現(xiàn)狀,第5節(jié)分析常見的數(shù)據(jù)集和評估指標,第6節(jié)給出展望,第7節(jié)給出總結(jié).

2 基本概念

2.1 分類問題

2.1.1 二元分類(Binary Classification)

對于一批樣本X={X1,X2,X3,…,Xk},確定它們對應的標簽L={L1,L2,L3,…,Lk},其中,|Li|=1,Li∈{l1,l2},其中k表示樣本數(shù)目.

2.1.2 多類分類(Multi-Class Classification)

對于一批樣本X={X1,X2,X3,…,Xk},確定它們對應的標簽L={L1,L2,L3,…,Lk},其中,|Li|=1,Li∈{l1,l2,l3,…,lm},其中k表示樣本數(shù)目,m表示的是標簽總數(shù)目.

2.1.3 多標簽分類(Multi-Label Classification)

對于一批樣本X={X1,X2,X3,…,Xk},確定它們對應的標簽L={L1,L2,L3,…,Lk},其中,|Li|=n,1≤n≤m,Li∈{l1,l2,l3,…,lm},其中k表示樣本數(shù)目,m表示的是標簽總數(shù)目,n表示的是每個樣本的標簽數(shù)目.

2.1.4 多輸出-多類分類(Multioutput-Multiclass Classification,或者Multi-Task Classification)

表1 對L個目標變量(標簽),每K個值Table 1 For L target variables(labels),every K values

2.2 層次分類

2.2.1 層次結(jié)構(gòu)(Hierarchical Structureγ)

文獻[13]給出了層次分類的定義:基于樹形結(jié)構(gòu)的規(guī)則概念層次上偏序集(C,),其中C代表的是一個定義在應用領域中類概念的有限集,代表的是“IS-A”的關系,在該文獻中作者將其認為是反自反的、傳遞的,但文獻[4]添加了反對稱這一特性;另外文獻[14]在給出層次結(jié)構(gòu)時,添加了補充說明,對于給定的層次結(jié)構(gòu)H中C={C1,C2,C3,…,CH},其中Ci={c1,c2,c3,…}∈{0,1}|ci|,其中Ci代表的是層次結(jié)構(gòu)H中第i所層的可能的類標簽,而|ci|表示的是該層可能的標簽的數(shù)目.綜合這3方面的定義,可以給出層次分類的定義如下:

層次分類體系的樹形結(jié)構(gòu)中有且只有一個最大值為“R”的根(Root);

反對稱:?ci,cj∈C,ifcicjthencj≮ci;

反自反:?cj∈C,cj≮cj;

傳遞:?ci,cj,ck∈C,cicjandcjckimplycick;

2.2.2 層次多標簽文本分類(Hierarchical Multi-Label Text Classification)

與多標簽分類(Multi-Label Classification)類似,給定一個文檔(Document)樣本可以有一個或者多個類標簽與之對應,不同的是,這些標簽是以層次結(jié)構(gòu)存儲的[15],層次結(jié)構(gòu)中低的標簽受到層級較高的標簽的約束[16],層次結(jié)構(gòu)在帶來類標簽之間層次關系的同時,也帶來了計算復雜等更具有挑戰(zhàn)性的特點.

根據(jù)文獻[14],一組文本文檔M可以表示為帶有期望層次類別的元組形式,X={(D1,L1),(D2,L2),…,(D|M|,L|M|)},其中Di=(w1,w2,w3,…,wn),n表示的是統(tǒng)一的文檔摘要表示的單詞數(shù)目,wi表示的文本文檔中第i個單詞,而Li={l1,l2,l3,…,lH},表示的文檔期望的標簽體系,li?Ci是在層次結(jié)構(gòu)γ中對應的類標簽.

所以有了上一節(jié)對層次結(jié)構(gòu)的定義以及本節(jié)對文檔的定義后,可以將HMC問題描述為,給定一組文檔和相對應的層次類別結(jié)構(gòu),希望找到文檔D對應的層次結(jié)構(gòu)γ,通過訓練數(shù)據(jù)學習一個模型Ω,用于預測未見過的文檔層次類別L,上述表述可以形式化定義為:

Ω(D,γ,θ)→L,其中θ是模型Ω要訓練得到的參數(shù).

2.3 HMTC問題的處理過程

HMTC問題中涉及到數(shù)據(jù)集獲取、文本預處理、文本表示、特征降維、層次結(jié)構(gòu)標簽表示、分類器設計、結(jié)果輸出等工作,其中文本預處理、文本表示、特征降維、層次結(jié)構(gòu)標簽表示、分類器設計比較重要.

1)文本預處理:文本預處理是處理文本分類任務的重要過程,通過文本預處理可以抽取文本中的重要信息[17],去除不必要的內(nèi)容.文本預處理的一般步驟是固定的,包括分詞(一般英語單詞已經(jīng)分詞,而對中文需要進行分詞)、詞干提取(去除單詞的不同詞性表示,得到一致的單詞表示)、刪除停用詞等.

2)文本表示:文本是非結(jié)構(gòu)化數(shù)據(jù),而擬合訓練的模型輸入一般需要的是結(jié)構(gòu)化數(shù)據(jù),所以在上面的文本預處理階段后,一般采用以向量的形式來表示文本,準確的向量文本表示可以在很大程度上提升模型的效果.常用的文本向量化的方法主要有兩種:第1種是離散的表示,常見的有獨熱編碼(One-Hot Encodding)、N-Grams模型等;第2種是分布式的表示(Distributed Representation),比如有BERT[18]、Word2vec[19]、Dov2vec[20]等等.

3)特征降維:由于向量空間模型來描述的文本向量通常具有較高的維度,這對于后續(xù)的分類任務來說,將帶來效率低下和精確性下降的危害.在文本分類中,特征降維可以分為基于特征選擇(Term Selection)和基于特征提取(Term Extraction)的方法.

4)層次結(jié)構(gòu)標簽表示:由于HMTC問題對應的標簽體系是存儲在層次結(jié)構(gòu)中的,所以越來越多的混合方法[6,14,16]不僅考慮了文本提供的信息,也對層次結(jié)構(gòu)標簽進行了相應的表示,未來的方法也將會越來越重視標簽的表示來提高模型性能.

5)分類器設計:由于層次結(jié)構(gòu)標簽體系下,標簽之間具有結(jié)構(gòu)關系語義,因此,其分類器的設計也與一般的分類器不同,本文將重點對分類器的設計進行討論.

3 層次多標簽文本分類面臨的挑戰(zhàn)

3.1 合適的文本表示方式

文本一般是非結(jié)構(gòu)化或者半結(jié)構(gòu)化數(shù)據(jù),而分類模型的輸入一般是結(jié)構(gòu)化的向量或者張量等,所以怎樣將文本進行編碼表示,以盡可能保留文本中單詞和單詞、單詞和句子以及句子和句子的順序和語義關系信息是文本分類的第一步,也是很關鍵的一步.

3.2 層次標簽結(jié)構(gòu)語義表示

在層次多標簽文本分類中,標簽之間具有的天然層次依賴關系,例如父-子關系、祖先-后代關系等,這些關系有著不同權重的依賴,它們也叫做標簽的層次約束(Hierarchical Constraint)[21],文本和這些標簽具有不同層次不同的關聯(lián)如何利用它們之間的關系以及標簽之間的關系是一個挑戰(zhàn),以樹或者DAG結(jié)構(gòu)進行建模是目前普遍使用的方法.不過,這些方法相對簡單,對標簽之間以及文本和標簽的復雜語義關聯(lián)刻畫并不充分.

3.3 缺乏合適的評估指標

3.4 數(shù)據(jù)集傾斜問題

HMTC任務中,很多會有這樣的現(xiàn)象,即存在一些標簽、一般在層次標簽結(jié)構(gòu)的底層或者葉子節(jié)點處,數(shù)據(jù)集中的對應樣例很少,因此,有數(shù)據(jù)分布傾斜的問題,導致分類器很少學習到這些標簽的特征,從而很少預測甚至不預測這類標簽.層次多標簽文本分類中數(shù)據(jù)集傾斜的問題尤為嚴重,怎樣解決和處理這個問題是個難點.

3.5 分類器的設計

分類器不僅要關注于文本的層次關系,而且要關注不同層次不同標簽和文本的關系,分類器如何利用文本的層次關系以及文本和標簽之間的關系,利用的程度有多深,這些都是需要研究的難點,當然這也取決于具體的任務.

4 層次多標簽文本分類器研究現(xiàn)狀

根據(jù)是否利用層次類標簽信息以及如何利用層次信息,可以將層次多標簽分類算法主要分為非層次方法和層次方法:非層次方法又可以叫做平面方法;層次方法主要可以分為3種,分別是局部方法、全局方法以及它們的組合—混合方法.

4.1 平面方法

平面方法忽略層次標簽之間的依賴關系,將其轉(zhuǎn)換為平面的多標簽分類問題,然后再使用多標簽分類的方法進行處理,對于層次標簽的內(nèi)部標簽節(jié)點,以層次約束為準則,任何被歸類為子標簽的樣本都自動被歸類于其所有祖先標簽節(jié)點.

在這種方法中,許多多分類方法都可以應用.例如,文獻[9]使用了樸素貝葉斯(Na?ve Bayes,NB)、K-Nearest Neighbors(K-NN)、支持向量機(SVM)等這些傳統(tǒng)機器學習進行平面分類.

在平面方法中,分類器的設計不是重點,許多工作集中于如何對文本信息進行表示上.傳統(tǒng)的模型一般使用詞袋(Bag-of-Words)或者預訓練向量作為輸入,而文獻[22]以文本的獨熱(One-Hot)向量表示作為輸入,然后設計了以兩個不同深度神經(jīng)網(wǎng)絡,分別是Seq-CNN和Bow-CNN,來進行一維CNN卷積運算,獲取文本的局部特征用于后階段的文本分類;使用一維卷積是考慮了文本中的詞序,作者還對CNN框架設置了并行運算,可以學習和組合幾種類型的嵌入,它們可以互補得到更高的分類性能.文本訓練數(shù)據(jù)中不是所有單詞都對分類有著重要的貢獻,所以一個好的關鍵詞提取算法可以提高下游的文本挖掘任務.傳統(tǒng)的關鍵詞提取算法大都是基于文本的離散詞袋類型的詞表示,文獻[23]針對這個問題,為平面分類提出一個關鍵詞抽取算法,用于專利分類,該算法基于Skip-Gram模型、K-Means和余弦相似度,其中Skip-Gram模型用于訓練模型獲取單詞的嵌入表示,K-Means算法作為著名的聚類算法用來獲取當前的質(zhì)心向量,余弦相似度用來計算每個候選關鍵詞向量和質(zhì)心向量的相似度來獲取前N個關鍵詞;為了評估抽取關鍵詞的質(zhì)量,使用SVM提出了一套基于信息增益的評估指標,實驗證明,該關鍵詞抽取算法能對專利文檔進行有效的分類.

將HMTC問題轉(zhuǎn)換為平面多標簽任務是最差的方法,因為它忽略了層次分類中各類別之間的依賴關系,這種依賴關系不僅存在于不同層級之間,也存在于同一層級的不同類之間,平面方法沒有考慮這些特點.

4.2 局部方法

局部方法是利用分而治之的思想,將整個分類問題轉(zhuǎn)換成多個局部的子問題,通過解決多個子問題,在層次結(jié)構(gòu)上建立多個局部分類器,最后再將這些分類結(jié)果組合起來為全局的分類結(jié)果.

根據(jù)使用局部信息的不同,局部方法可以劃分為不同的策略,主要有LCN(one Local Classifier per Node)[24]、LCPN(one Local Classifier per Parent Node)[25]、LCL(one Local Classifier per Level)[26].它們的結(jié)構(gòu)分別如圖3,圖4和圖5所示.

圖3 LCN示例圖,圖中每個圓形代表一個類節(jié)點,每個虛線矩形代表一個分類器Fig.3 LCN example diagram,in which each circle represents a class node and each dotted rectangle represents a classifier

圖4 LCPN示例圖,圖中每個圓形代表一個類節(jié)點,每個虛線矩形代表一個分類器,用于預測它們的子類Fig.4 LCPN example diagram,in which each circle represents a class node and each open dotted represents a classifier for predicting their subclasses

圖5 LCL示例圖,圖中每個圓形代表一個類節(jié)點,每個虛線矩形代表一個分類器,用于預測每個層級的類別Fig.5 LCL example diagram,in which each circle represents a class node and each dotted rectangle represents a classifier to predict the category of each level

局部方法的3種策略訓練的分類器個數(shù)不同,另外使用的局部標簽依賴信息也不同,比如LCN和LCPN是使用不同層級的關系,而LCL使用了同一層級的關系,但是在測試階段卻都是以自上而下(Top-Down)的范式進行的,即從根節(jié)點開始,只有被當前的分類器預測為正的樣本才會被傳遞給其子節(jié)點的分類器,依此類推,直至到達葉子節(jié)點分類器;需要注意的是,隨著類層次向葉子方向移動,錯誤分類也有著向下傳播的風險,除非采取特別的方法進行處理[27],比如對于非強制性葉節(jié)點預測,不同層級不同標簽設置不同的閾值來阻止分類器向下傳播.

4.2.1 傳統(tǒng)機器學習方法

1)基于貝葉斯方法

貝葉斯方法是用有向無環(huán)圖構(gòu)建一個概率模型網(wǎng)絡,網(wǎng)絡中的每個節(jié)點代表一個變量(特征),若兩個節(jié)點之間存在邊則說明它們之間存在直接的概率依賴關系,否則說明這兩個特征是條件獨立,即它們之間沒有直接的概率依賴,但是這些節(jié)點可以通過中間特征來產(chǎn)生依賴關系.貝葉斯分類器的基本過程是通過某樣本的先驗概率,以貝葉斯公式計算對應的后驗概率,選擇后驗概率最大的或者最大的幾類作為最終的分類類別.

文獻[28]分析了平面方法無法利用層次信息的缺陷以及以全局方法解決層次分類的計算代價大的問題,提出了利用局部信息在分類樹的每個節(jié)點上建立一個貝葉斯分類器的模型,屬于LCN方法.算法分為兩個步驟:先進行特征選擇,使用基于齊夫定律(Zipf′s Law)的特征修剪方法減少原始訓練集的特征數(shù)目,然后根據(jù)信息論的特征選擇方法確定原始領域特征的子集,接著在每個子任務上建立分類器,最終各個分類器組織為層次結(jié)構(gòu).在預測的時候,以自上而下的方式進行預測,所以出現(xiàn)錯誤不可修正[29],文獻[30]和之類似,訓練多個分類器后使用貝葉斯網(wǎng)絡來判斷標簽的后驗分布.

文獻[31]提出了層次貝葉斯分類器Hbayes,它為所有層次節(jié)點訓練一個分類器,并為所有訓練樣本計算類概率.其分類過程為:先在集合中對所有類進行初始化;然后分類將逐個移除類標簽,每次給樣本賦予一個給定的類標簽,同時,考慮層次約束,樣本也會被分配給屬于該類和根節(jié)點之間的所有路徑上的類標簽.只有在某個節(jié)點是葉子節(jié)點或者其子樹的所有節(jié)點都已經(jīng)被移除,則可以從集合中移除它,至此集合中剩下的類節(jié)點就是為當前樣本賦予的類標簽.而文獻[32]提出它的變體HBayes-CS(HBayes Cost Sensitive),來平衡假陽性和假陰性的錯誤成本,通過引入一個權重參數(shù)實現(xiàn),此外,HBayes-CS更適合處理傾斜數(shù)據(jù)集,即數(shù)據(jù)集中存在層次結(jié)構(gòu)中位于較低層的標簽具有較少的實例的問題.

上述的工作都使用了局部的層次信息,但是較少考慮層級之間的依賴關系,文獻[33]的改進之處在于對于上層輸出概率,會作為附加信息傳遞給下層分類器,這樣從某種程度上利用了層次各級別之間的關系,類似地,分類器使用的是樸素貝葉斯分類器,輸入使用文獻[34]中的雙正態(tài)分離度量(BNS)來進行特征選擇,然后附加上文檔屬于父節(jié)點的概率;該方法可以很容易擴展到任意深層次,但是若深度太長,會影響特征向量的長度,為了限制長度,可以只包含前一級的概率,即上層的概率只影響到其直接子女的分類.

2)基于多標簽分類問題轉(zhuǎn)換方法

基于多標簽分類問題轉(zhuǎn)換方法,將層次多標簽分類任務按照層次結(jié)構(gòu)進行分解,然后在每個子問題上利用多標簽分類,主要方法括二元關聯(lián)(Binary Relevance,BR)和標簽Powerset(Label Powerset,LP).二元關聯(lián)是將每個標簽當做一個單獨的二元分類問題,標簽Powerset是將訓練數(shù)據(jù)中所有的唯一的標簽的組合訓練一個多類分類器,顯而易見,隨著訓練數(shù)據(jù)和標簽的增多,標簽的組合數(shù)目也越來越多,另外,對于在訓練數(shù)據(jù)中沒有出現(xiàn)過的標簽組合將不能在測試數(shù)據(jù)中進行預測.

文獻[35]中提出了兩個局部方法,分別是HMC-LP和HMC-CT,HMC-LP基于標簽交叉[36]的LCL方法,對于每個示例樣本,在特定的層次上將所有的標簽組合成新的唯一的標簽,組合過后就可以將問題轉(zhuǎn)變成層次單標簽問題,然后自頂向下進行訓練,在預測時恢復原來的多標簽分類.可以看出,這種方法橫向考慮了同級類之間的關系,但是不同的標簽組合會大大增加類的數(shù)量,而有些類的組合可能只包含很少的樣本.HMC-CT是基于交叉訓練(Cross-Training)方法[37],它在訓練時會多次使用多標簽數(shù)據(jù),將每個樣本作為其所屬的每個類別的正例使用,這會避免出現(xiàn)使用LP策略可能出現(xiàn)的數(shù)據(jù)稀疏問題,因為它使用了可用于每個模型的所有相關數(shù)據(jù).在此過程中,對于每個樣本,每個可能的類都被視為序列中的正類,在訓練階段多次使用多標簽數(shù)據(jù),這種方法會大大增加訓練時間和計算成本.該篇文獻中還對比了HMC-BR,對層次樹中的各個節(jié)點訓練二元分類器,屬于當前類的是正例,而其他都是負例,忽略了類之間的關系,所以泛化能力較差;上述方法都采用支持向量機(SVM)進行分類,文獻[38]擴展了文獻[35],使用了不同算法作為基分類器.可以看出,上述方法部分考慮了層次關系,或從橫向考慮,或縱向考慮,這也是總體上局部方法性能優(yōu)于平面方法的一個原因.

3)基于集成方法

集成方法,是把多個弱分類器整合成一個強分類器的方法,值得注意的是,不是所有集成學習都能提高整體的泛化能力,一般需要滿足兩個條件:一是分類器之間應該有差異性;二是每個分類器的精度必須大于50%.

文獻[39]提出了TREEBOOST.MH,它是ADABOOST.MH[40]的變體.TREEBOOST.MH針對層次結(jié)構(gòu)中的非葉子節(jié)點各自生成分類器,所以首先確認是否到達葉子節(jié)點,如果未到達,則先遞歸地將層次結(jié)構(gòu)劃分為以當前節(jié)點為根節(jié)點的子樹,然后對訓練數(shù)據(jù)進行特征選擇,得到簡化的特征集,接著運行ADABOOST.MH算法,最后對遞歸得到的子樹執(zhí)行這個過程,從而生成一個分類器樹.經(jīng)過實驗證明,TREEBOOST.MH的計算成本比ADABOOST.MH要低,并且宏觀平均有效性更高,這得益于該算法在訓練時局部地選擇約簡的特征集,有利于處理傾斜分布的數(shù)據(jù)集.

文獻[24]以集成方法,提出了真路徑集成(True Path Rule Ensemble,TPR),作者將層次分類問題轉(zhuǎn)換為路徑預測問題,每個局部分類器都會對給定樣本作出各個類別的預測,在集成階段,從自上而下和自下而上兩個方向上傳遞不對稱的預測信息:對一個類別的正預測向上影響祖先,負預測向下影響后代,這是基于樹形結(jié)構(gòu)層次約束的事實,一個樣本屬于一個類別就必定屬于其所有祖先類別,而若不屬于一個類別就必定不屬于其所有后代類別,以這種TPR的方式考慮層次關系,最終得到一致的總體概率.文獻[41]和文獻[42]對TPR方法添加了一個調(diào)整類和其后代預測之間的關系,在父類使用了一個父親權重參數(shù)wp,wp的取值范圍為0到1,按照wp的比例劃分局部分類器和其后代分類器之間的重要程度,越接近1越重視局部分類器.文獻[43]和文獻[24]類似,將問題建模為基于路徑選擇(Based on Path Selection,BPS)的方法,BPS為層次標簽樹的內(nèi)部節(jié)點每個訓練一個分類器,以含有其兄弟節(jié)點標簽的數(shù)據(jù)集作為負例樣本,用于路徑的裁剪,解決可以預測內(nèi)部節(jié)點的問題,該方法根據(jù)路徑得分,選擇層次樹中的一條或者多條路徑.

集成方法可以在不需要提出更高性能分類器的情況下,使用幾個弱分類器能夠獲得較高的分類效果.這是在得不到非常好的分類器的情況下不錯的選擇.

4.2.2 深度學習方法

隨著深度學習的蓬勃發(fā)展,越來越多的研究者轉(zhuǎn)向神經(jīng)網(wǎng)絡,HMTC任務也不例外.

文獻[7]中提出了HMC-LMLP模型,是針對樹形結(jié)構(gòu)的LCL的局部方法.該模型在各個層級上都訓練一個多層感知機(Multi-Layer Perceptron,MLP),每個層級的輸出是該層級的預測向量,所以該輸出層的神經(jīng)元的個數(shù)為當前層級的類別的總數(shù),作為下一個MLP的輸入,利用了上一層提供的信息,直到最后一個匯集整個層次結(jié)構(gòu)的預測,其中第一層是對文檔的特征向量化.通過使用LCL策略,可以在使用局部信息的時候避免全局方法和局部方法的缺陷,由于文檔的特征只在第一層會被作為輸入,會導致特征被稀釋,從而出現(xiàn)預測不一致[4]的情況,這不同于混合方法[4,5,16]的通過重復使用輸入特征,所以作者提出的后續(xù)處理不一致的策略是直接將沒有預測超類的預測類別移除;另外,和LCN和LCPN相比優(yōu)點在于沒有劃分為大量的子問題,避免丟失很多重要的局部信息[4].

由于傳統(tǒng)方法和深度學習方法都有各自的優(yōu)勢和缺點,所以文獻[44]針對新聞分類問題,在淺層以CLR(Calibrated Label Ranking)策略構(gòu)建多標簽分類任務,使用樸素貝葉斯方法進行訓練,深度學習方法以二元相關(Binary Relevance,BR)策略構(gòu)建,使用CNN訓練;以Word2vec和Glove作為詞嵌入表示(語義),然后乘以詞干頻率(詞義)來結(jié)合單詞和句子之間的關系,這種方法關注了文本的層次結(jié)構(gòu)(單詞和句子之間).

局部方法的缺點在于隨著層次結(jié)構(gòu)加深和類標簽的增多,計算成本明顯提高,并且依賴于級聯(lián)分類器,更適合從類層次的區(qū)域中獲取信息,會最終導致過擬合;優(yōu)點在于沒有預測不一致的問題等.

4.3 全局方法

全局方法利用整體的信息,在層次結(jié)構(gòu)上只建立一個分類器[4]來同時處理所有的類別.大多數(shù)全局方法是基于平面方法修改得來的.近年來,全局方法大部分是以神經(jīng)網(wǎng)絡實現(xiàn)的,當然也有基于傳統(tǒng)機器學習方法的,所以本節(jié)從這兩種大類入手.

4.3.1 傳統(tǒng)機器學習方法

1)基于決策樹方法

決策樹以樹形結(jié)構(gòu)為架構(gòu),在面對分類問題時,通過信息增益或者信息增益比等以各個特征對實例樣本進行分類的過程,即通過樹形結(jié)構(gòu)的模型,在每一層上對特征值進行判斷,遞歸到葉子節(jié)點的決策過程.

C4.5[45]算法原本是平面的決策樹算法,不能用于層次分類,而文獻[46]提出的HMC4.5方法,基于C4.5對計算類熵的方法進行了修改:在C4.5原始的算法中,每次都是選取信息增益比最大的屬性作為當前分類的子樹根節(jié)點,但是HMC4.5使用所有類的熵的和,相當于描述屬于一個示例的所有類的信息量之和.該模型將整個層次歸納為一個決策樹,歸納過程較為復雜,但是會生成一組簡單的規(guī)則.

預測聚類樹(Predictive Clustering Trees,PCT)是決策樹的推廣,通過對標準的決策樹自頂向下進行貪婪歸納而得到,文獻[27]基于PCT提出了Clus-HMC,決策樹被自上而下劃分為簇狀結(jié)構(gòu),每個簇包含相應訓練樣本,以加權歐氏距離來關注層次依賴,即認為處于層次結(jié)構(gòu)更深層次的類比更高層次具有更多的信息,因為處于層次結(jié)構(gòu)越深處,其信息越具體,所以權重隨著深度的加深而降低,另外作者還將結(jié)構(gòu)從樹形結(jié)構(gòu)推廣到了DAG結(jié)構(gòu).

基于決策樹的方法的優(yōu)勢在于具有很高的可解釋性,對樣本作出的決策易于理解,但是缺點在于會歸納出過于復雜的規(guī)則,所以一般需要對決策樹進行剪枝,以提高泛化能力,對于更深的層次結(jié)構(gòu)和更多的類別而言,會提高計算代價.

2)基于集成方法.

文獻[47]中,提出了一個由Clus-HMC[27]為基礎引入決策樹的集成來改進HMC,即Clus-HMC-ENS,該模型利用Bagging機制[48]在訓練數(shù)據(jù)中進行復制(Bootstrap),從而為每個復制版本訓練一個分類器.預測的結(jié)果由目標值結(jié)合而成:如果是回歸問題,則求平均值;如果是分類問題,則由投票得到.

文獻[49]將基因功能注釋看做文本分類問題,并考慮層次結(jié)構(gòu)上的語義,文中提出一個基于AdaBoost.MH[40]的全局方法,該方法針對DAG結(jié)構(gòu)采用非強制性葉節(jié)點預測(NMLNP):先對文本數(shù)據(jù)進行預處理,然后結(jié)合AdaBoost.MH進行數(shù)據(jù)集上的規(guī)則學習,最后對樣本進行測試且對預測不一致進行處理:對不一致的節(jié)點,考慮其所有祖先類的預測置信度,如果它們的置信度足夠高,那么就將其所有祖先類來標記實例,否則去除掉該不一致的類標記.此外,作者提出了3個指標來彌補使用“平面”評估指標的弊端,分別是hierarchical-Precision(hP)、hierarchical-Recall(hR)、hierarchical F-measure(hF),這些同樣也在文獻[6]中被提到,將在后面詳細說明.

4.3.2 深度學習方法

1)基于圖的文本表示(對文檔和標簽結(jié)構(gòu)使用圖的表示)

對于文本表示,傳統(tǒng)的方法只是簡單地使用詞袋模型;對于層次多標簽文本分類來說,每個文檔具有多個不同層次的主題標簽,詞袋模型可能就不夠了.而深度學習模型已經(jīng)被證明能夠有效地獲取低級別的特征和高級別的特征.例如,文獻[50]以Word2vec為基礎作為模型輸入,然后使用不同大小的窗口作為特征提取器進行卷積運算,得到不同層次的文本表示.

RNN只能在短文本上捕捉語義,而CNN類似于N-Grams,只能在單詞上建模,文獻[51]使用了單詞圖(Graph-of-Words)來獲取文本中非連續(xù)和長距離的語義.作者提出的HR-DGCNN模型首先對文本以詞共現(xiàn)矩陣將文本轉(zhuǎn)換為圖,然后使用Word2vec進行圖嵌入,類似圖像一樣進行交替卷積、池化操作,最后通過全連接層進行分類預測.模型中以遞歸正則化(Recursive Regularization)來利用標簽之間的層次關系,將遞歸正則化和網(wǎng)絡模型最后的交叉熵函數(shù)共同加權作為損失函數(shù),在全局的層次上考慮層次關系;為了減少模型的復雜度,采用遞歸層次分割將原始問題轉(zhuǎn)換為多個子問題,從而降低整個問題的復雜度.模型整體上沒有改變基于CNN的本質(zhì),是將文本表示成圖來進行處理,而且文本的圖表示的邊是無權邊,可以對其加上權重來表示不同單詞的之間的不同權重關系.

文獻[52]也把文本建模為圖結(jié)構(gòu),這和文獻[51]類似,使用隨機游走生成標簽的序列,接著使用Skip-Gram訓練得到標簽的嵌入表示,提出基于標簽相似度的權重損失函數(shù)來捕捉標簽之間的依賴關系,通過優(yōu)化這個損失函數(shù),保持標簽之間的依賴關系.文獻[53]通過共現(xiàn)矩陣將文本轉(zhuǎn)換為圖表示,而標簽結(jié)構(gòu)是自然的樹形結(jié)構(gòu)或者DAG結(jié)構(gòu).

2)基于注意力機制(Attention Mechanism)

注意力機制(Attention Mechanism)[54]就是把注意力放在重要的信息上,在文本分類情境下,就是將和層次結(jié)構(gòu)各層最關聯(lián)的文本內(nèi)容利用注意力機制,對文本語義表示的不同部分分配不同的權重來突出實現(xiàn)的.

文獻[53]在將文本和標簽使用圖表示后,將文本以BERT和雙向GRU進行上下文語義信息抽取,并通過多頭注意力機制,將標簽的圖表示作為查詢,文檔作為鍵值對,讓標簽的層次信息融入到文本表示輸出中,抽取文本的不同部分和標簽層次中各個層次、各個類別之間的關系信息,在作者使用的90多萬的中文數(shù)據(jù)集上獲得了很有競爭力的結(jié)果.

文獻[55]使用雙向LSTM將文檔轉(zhuǎn)換為向量表示,在每層基于注意力生成不同的動態(tài)表示,這種想法在混合方法[6]中得到了更廣闊的應用,以多層感知機來預測當前層次的級別.動態(tài)生成的各個層級的文檔表示不僅能夠提高模型的性能,同時提供了額外的可解釋性;此外,還以主題類別分類法的形式使用了外部知識.

注意力機制除了可以對不同層級的文本表示之外,還可以通過編碼器的堆疊提取深層次的文本特征,文獻[56]將金融事件檢測建模為一個層次多標簽文本分類問題,提出了F-HMTC的模型,模型由嵌入網(wǎng)絡和標簽預測網(wǎng)絡組成,嵌入網(wǎng)絡的輸入類似Transformer,由Token和位置信息連接組合而成,然后通過多個編碼器的堆疊,最后輸入到標簽預測網(wǎng)絡.對標簽的依賴是以基于距離的度量HMD和文獻[51]相同的遞歸正則化來實現(xiàn)的,損失函數(shù)為這兩個部分的加權之和.

文獻[52]分別在文本的單詞級、句子級和子圖級上使用多頭注意力的Transformer,這種層次的Transformer能夠捕捉文本中不同部分的語義信息。

上述的幾個模型建模期間沒有考慮標簽的依賴關系,而是根據(jù)最后的損失函數(shù)以不同的優(yōu)化項來體現(xiàn)層次結(jié)構(gòu)的,這當然也是一種方式,混合方法[5,6,14]是在建模中顯式考慮了層次依賴,局部方法[24,41]也是以顯式的方式考慮的.

3)其他網(wǎng)絡

文獻[12]提出了一個新的基于競爭人工神經(jīng)網(wǎng)絡(MHC-CNN)的全局分類器.競爭網(wǎng)絡的特征之一是實現(xiàn)從輸入空間到輸出空間的映射,并且能夠保持各自的拓撲結(jié)構(gòu),其中學習過程基于競爭學習[57].在MHC-CNN中,輸入層連接到輸入向量數(shù)據(jù)集,處理層也叫作輸出層是一個網(wǎng)絡拓撲結(jié)構(gòu),對應于DAG層次結(jié)構(gòu),其中每個神經(jīng)元和其祖先(父親)和后代(孩子)神經(jīng)元相連;此外,輸出層中的每個神經(jīng)元都連接到輸入層的所有神經(jīng)元.與傳統(tǒng)的競爭網(wǎng)絡一樣,將訓練過程分為3個階段:競爭、合作和適應;在競爭階段,根據(jù)輸入實例的類的數(shù)量,分類器根據(jù)輸入向量和每個輸出神經(jīng)元權重向量的歐式距離,選擇最小相應數(shù)量的“贏家”;在合作階段,“贏家”傾向于更新其鄰域的神經(jīng)元的權重,在該算法中,鄰域標準是通過當前神經(jīng)元和其祖先及后代之間的層次關系確定;最后在適應階段,與期望輸出對比,對于正確預測時,將調(diào)整輸出權重,使得更接近實例;對于預測錯誤時,權重將被更新到距離實例更遠的地方;不斷迭代這個過程,直到選擇所有實例.

另一種網(wǎng)絡結(jié)構(gòu)叫做膠囊網(wǎng)絡,文獻[10]將膠囊網(wǎng)絡(Capsule Networks)[58,59]第1次應用在HMC任務上,膠囊的一大特點就是通過將每個膠囊和層次結(jié)構(gòu)中各個標簽節(jié)點相關聯(lián)來為各個節(jié)點進行編碼,然后組合各個膠囊獨立的編碼特征進行分類,從而獲得比之前的方法更好的效果,這是因為父節(jié)點和子節(jié)點會共享類似的特征.膠囊的這一特點也讓傳統(tǒng)的分類器很難獲得父-子節(jié)點的這種關系,從而會出現(xiàn)預測出錯的情況,特別是在訓練樣本中未出現(xiàn)特定父-子標簽組合的情況下.膠囊網(wǎng)絡的第1層被稱為初級膠囊,接收來自卷積層或者循環(huán)網(wǎng)絡的隱藏狀態(tài)作為輸入.第2層被稱為分類膠囊,其輸入是初級膠囊的預測向量的加權求和,這些權值是由動態(tài)路由啟發(fā)式(Dynamic Routing Heuristic)算法[58]計算而得.路由機制與最大池化類似,不過后者關注最突出集中的特征而會忽略其他特征,而前者在關注突出的特征的同時也不會忽略其他特征,從而提高了組合和概括信息的能力,這一特點也讓路由算法在HMC問題中對出現(xiàn)次數(shù)較少的父-子節(jié)點關系得到更好的層次分類,實驗結(jié)果也表明膠囊網(wǎng)絡比CNN和LSTM性能更好,標簽層次信息也被直接應用于在預測階段執(zhí)行標簽校正(Label Correction).

全局方法的優(yōu)點在于計算代價通常比局部方法低,并且沒有局部方法存在的錯誤傳播問題,因為在預測時每個分類器的都是在上個標簽被預測為正才會被啟用,缺點在于不能從層次結(jié)構(gòu)中獲取信息,可能導致欠擬合.對全局方法的總結(jié)如表2所示.

表2 對全局方法的總結(jié)Table 2 Summary of global approaches

4.4 混合方法

為了結(jié)合局部方法和全局方法的優(yōu)勢,可以在利用層次結(jié)構(gòu)局部信息的同時也利用全局信息,最后對這兩部分進行統(tǒng)一處理,這類方法叫做混合方法.目前,大多數(shù)混合方法是基于神經(jīng)網(wǎng)絡的.

文獻[5]提出的HMCN的混合模型,是第一個結(jié)合局部和全局信息進行層次分類的基于神經(jīng)網(wǎng)絡的HMC方法,可以適用在樹結(jié)構(gòu)或者DAG結(jié)構(gòu),它有兩個版本,分別是前饋版本HMCN-F和遞歸版本HMCN-R,二者的主要區(qū)別在于前者需要訓練更多的參數(shù),而后者因為在層級之間共享權重矩陣并且使用類LSTM結(jié)構(gòu)對層次信息進行編碼,在關聯(lián)相鄰層次結(jié)構(gòu)的同時也減少了需要訓練的參數(shù),并且隨著層級越多遞歸版本的優(yōu)勢越大.在標簽層級結(jié)構(gòu)的每一層都會輸出局部預測以及最后的全局預測,而最終的預測是各個局部預測的連接以及全局預測的加權組合而成;此外,各層的輸入結(jié)合了上層的激活和重用輸入特征,從而在原始特征和給定層級之間建立緊密的聯(lián)系;對于預測不一致的情況,則通過在優(yōu)化局部和全局損失函數(shù)的同時加上懲罰層次違規(guī)來保存預測遵循層級制約.與HMC-LMLP、Clus-HMC相比,HMCN同時利用了局部和全局信息,所以它是一個混合方法.

針對文獻[5]中提出的HMCN沒有對文本進行有效的詞嵌入、沒有考慮文本和層次標簽結(jié)構(gòu)的關系等問題,文獻[14]基于注意力機制提出了一個遞歸神經(jīng)網(wǎng)絡模型HARNN以處理樹結(jié)構(gòu)的層次類型.該模型先對文本和層次結(jié)構(gòu)進行預訓練嵌入表示,然后對文本表示以雙向LSTM進行增強表示;基于注意力機制的遞歸層(HARL)是該模型的重點,以自上而下的方式將文本和層次結(jié)構(gòu)每層類標簽的依賴關系以注意力建模,限制每個單詞和每層各個類別的貢獻,并且文本類別相關信息也會影響到下一個類別,這就考慮到了文本表示和層次結(jié)構(gòu)的關聯(lián)以及層次結(jié)構(gòu)中不同層次的關系;對于類別預測,與文獻[5]類似,最終的預測由每層的局部預測和全局預測加權集成,由于該模型在HARL中考慮了層次之間的依賴,所以在損失函數(shù)中沒有考慮類別依賴關系.

模型HARNN是基于文本的典型注意力來實現(xiàn)的,和層次結(jié)構(gòu)的多個層次關聯(lián),而不同層次的注意力是不同的,所以這樣做會導致文本的相關特征被稀釋,另外局部和全局使用了相同的文本嵌入.文獻[6]為了解決這些問題,提出了基于標簽的注意力機制的模型LA-HCN,從各層標簽出發(fā)建模與文本的關聯(lián),文本-標簽的依賴在層次之間共享,可以基于不同的標簽來捕獲文本的重要信息,而HARNN只能抽取到前一層的信息,所以對下層重要的信息可能由于和上層信息不那么重要而會被忽視,從而在下層時捕捉不到.對于文本和層次標簽的關系,模型引入組件(Component Mechanism)機制,有助于在標簽和文本單詞之間建立潛在的聯(lián)系;另外,該模型在局部和全局的分類器使用不同的嵌入表示,從而減少了錯誤傳播的問題.除了LA-HCN對層次特征進行了抽取之外,文獻[60]也基于文檔結(jié)構(gòu)(即從單詞到句子)而不是標簽結(jié)構(gòu)來提取層次信息,接著進行后續(xù)的文本分類任務,文獻[61]除了使用BERT為基礎模型外,其他和HAN類似.文獻[62]基于NMF-SVM(Non negative Matrix Factorization-Support Vector Machine)抽取文本的層次特征,在深度學習模型中生成相應的詞向量,使用基于句間親和度文本注意力機制SEAM與詞向量生成新的矩陣表示,作為深度模型的輸入,經(jīng)過卷積運算后全連接進行分類.

不同于上述的基于深度神經(jīng)網(wǎng)絡的監(jiān)督學習方法,文獻[63]將層次文本分類視為馬爾可夫決策過程,為了解決訓練和推理之間的不匹配問題,也能更好地對標簽的依賴性進行建模,提出了一個新穎的基于深度強化學習的模型HiLAP,它可以結(jié)合不同的神經(jīng)編碼器作為端到端的基礎學習模型,然后在強化學習的策略網(wǎng)絡(Policy Network)中采取行動、獎勵以及更新狀態(tài)來將對象放置在標簽層次結(jié)構(gòu)中的適當位置來標記對象,通過學習標簽分配策略以確定在哪里放置(Where to place)對象以及何時停止(When to stop)分配過程.

除了上面提出的各種模型之外,騰訊[64]還推出了一個開源的NLP的深度文本分類工具包,叫做NeuralClassifier,它提供了多種文本編碼器,比如FastText、TextCNN、Transformer等;主要分為4層,包括輸入層、嵌入層、編碼器層和輸出層.輸入層將輸入的單詞序列組織處理成單詞、字符或者N-Gram,嵌入層處理各種嵌入,可以選擇的嵌入有4種,分別是隨機嵌入、預訓練嵌入、區(qū)域嵌入[65]、位置嵌入(Position Embedding)[54],其中位置嵌入是Transformer中提出的考慮輸入序列位置信息的嵌入方法.輸出層對于層次標簽的依賴,使用遞歸正則化將層次依賴合并到參數(shù)的正則化結(jié)構(gòu)中,從而鼓勵層次中比較接近的類節(jié)點共享相似的模型參數(shù).對混合方法的總結(jié)如表3所示.

表3 對混合方法的總結(jié)Table 3 Summary of hybrid approaches

混合方法結(jié)合了局部方法和全局方法的優(yōu)點,越來越得到研究者的歡迎,但是由于如今的方法很多都是基于深度神經(jīng)網(wǎng)絡來實現(xiàn)的,所以可解釋性和可視化能力不夠,這需要更多的研究.

5 常用數(shù)據(jù)集和評估指標

5.1 常用公開數(shù)據(jù)集

本文搜集了一些用于層次多標簽文本分類研究的公開數(shù)據(jù)集,其基本信息如下:

1)BlurbGenreCollection(BGC)[10](1)https://www.inf.uni-hamburg.de/en/inst/ab/lt/resources/data/blurb-genre-collection.html:是作者收集的由書籍介紹以及層次結(jié)構(gòu)的寫作題材組成,共有91892個文本,4個層級,146個類別,4個層級分別有7,46,77,16個類別.

2)WOS-11967(Web of Science)[66]:由Web of Science發(fā)表的論文的摘要組成,共有11967個文本,兩個層級,40個類別,兩個層級分別有7,33個類別.

3)WIPO-alpha(2)https://www.wipo.int/classifications/ipc/en/ITsupport/Categorization/dataset/index.html:共有4個層級,5229個類別,4個層級分別有8,114,451,4656個類別.

4)Enron[67]:是一個郵件的語料數(shù)據(jù)集,共有3個層級,56個類別,3個層級分別有3,40,13個類別.

5)Reuters[68]:是由路透社提供的人工新聞分類數(shù)據(jù)集,有超過800000條的數(shù)據(jù),共有3個層級,101個類別,3個層級分別有4,55,42個類別.

6)中文新聞數(shù)據(jù)集[53]:是作者收集得到來自電視臺的真實新聞稿件,該數(shù)據(jù)集包含932354條文檔,共有3個層級,683個類別,3個層級分別有13,163,507個類別.

5.2 評估指標

對于層次多標簽文本分類的評價指標來說,很多研究者使用了平面方法的評價指標,這些指標并不能體現(xiàn)這個問題的特點[4].本文總結(jié)了研究者提出并使用地較為廣泛的針對層次分類的評價指標.

首先是針對傳統(tǒng)的平面多標簽分類所使用的精準率和召回率以及漢明損失.

1)精準率(Precision)[27],對于給定類別i∈C,其TPi,FPi,FNi分別表示混淆矩陣中的真陽性、假陽性、假陰性的數(shù)量,Precision見公式(1):

(1)

2)召回率(Recall)[27],各種變量的解釋同Precision,其Recall見公式(2):

(2)

3)漢明損失(HammingLoss)[69],漢明損失越低,模型的效果越好,漢明損失見公式(3):

(3)

其中,N表示文檔個數(shù),q表示每篇文檔的標簽數(shù),Z,Y分別表示一篇文檔的預測和真實的標簽集合,而運算符Δ表示的是二者集合的對稱差.

下面的是層次評估指標,對于預測類別和實際類別處于層次中不同位置予以不同的關注,從而考慮了標簽的層次結(jié)構(gòu)的特性,分別有hP、hR和hFβ.

4)h精準度(hierarchical-Precision,hP):

文獻[5]提出了hP、hR、hF3個指標.簡單來說,就是對部分正確的分類給予信任,對距離更遠的預測錯誤更大的懲罰,對更高層次的預測錯誤更大的懲罰,hP的值越大,說明模型預測為真的樣本更多的為正例.見公式(4):

(4)

5)h召回率(hierarchical-Recall,hR):

hR的值越大,說明模型將更多為真的樣本預測正確,h召回率見公式(5):

(5)

6)如上而言,hP和hR分別從真實樣本和預測為真的樣本出發(fā),考慮不夠全面,所以有指出可以將二者結(jié)合起來,就變成了hFβ,見公式(6):

(6)

一般,將β取為1,表示將hP和hR賦予同等重要的權重,這也是大多數(shù)研究中缺省設置的參數(shù)值.

雖然在很多應用場景中,沒有一個評估指標可以被認為是最好的,但是hP、hR和hF可以在大多數(shù)情況下表現(xiàn)良好,在文本分類任務也是不差的.它們不僅可以運用于樹形結(jié)構(gòu)也可以用于DAG結(jié)構(gòu),但是文獻[4]指出了hP和hR的一些問題:分別是泛化錯誤(Generalization Errors)和特定化錯誤(Specialization Errors).這兩種錯誤是對于非強制性葉節(jié)點預測而言,前者表示的是預測的類別比真實類別更一般的情況,即預測的層次結(jié)構(gòu)更淺,這對于一個固定的預測類別,泛化錯誤越大(即真實為更深的類別),hR值越小,hP值則不變,后者表示的預測的類別比真實類別更具體的情況,即預測的層次結(jié)構(gòu)更深,這對于一個固定的預測類別,特定化錯誤越大,即預測更深的類別,hP值越小,hR值則不變.

6 展 望

未來的需要繼續(xù)突破的研究方向主要包括下面幾點:

1)分類器的設計.本文的重點在于關注文本分類器的設計,在此過程中如何利用文本和各層標簽的關系、如何利用層次標簽的依賴關系是考察分類器優(yōu)劣的一個重要方面,這也是本文劃分層次方法的依據(jù),只有在具體的任務中較為精準地抓住上述的關系,并在標簽預測時,將這些關系進行有機的利用是一個難點,也是未來的一個重要研究方向.

2)尋找更好的文本編碼表示.文本分類和其他分類的一個很大區(qū)別在于,因為文本一般是非結(jié)構(gòu)化或者半結(jié)構(gòu)數(shù)據(jù),如何將其表示并能夠較少地損失其原來蘊含的信息,這對后續(xù)的文本分類來說很重要,當然,Transformer和BERT是兩個目前效果較好的語言模型,也可以尋求其他方法來表示文本,比如文本的圖表示等.但是這些表示都是通用的表示方法,而什么樣的編碼表示更適合于層次多標簽文本分類還有待進一步研究.

3)極端的層次多標簽文本分類問題.隨著應用的深入,不少應用面臨極端的層次多標簽文本分類任務.它的特點是層次標簽的數(shù)目非常多,層次級別也非常深,造成模型規(guī)模可能非常龐大,目前的計算能力難以處理.如何高效地處理極端層次多標簽文本分類問題將成為未來的一個研究方向.

4)現(xiàn)實數(shù)據(jù)集中標簽的長尾問題.在現(xiàn)實數(shù)據(jù)集中,大部分標簽的數(shù)據(jù)是相對較少的,即很少的數(shù)據(jù)和一些標簽關聯(lián),甚至沒有數(shù)據(jù)關聯(lián),特別在層次結(jié)構(gòu)的底層靠近葉子節(jié)點處.長尾問題在極端的層次多標簽文本分類問題中尤其嚴重.這種情況對于模型學習將造成困難,可能導致無法預測的問題.因此,如何處理層次多標簽文本分類中的長尾問題,也是未來的一個重要研究方向.

7 總 結(jié)

本文對層次多標簽文本分類的相關概念做了總結(jié),分析了層次多標簽和普通多標簽分類問題的區(qū)別和聯(lián)系,以及這些區(qū)別所帶來的挑戰(zhàn);接著從不同的角度對層次多標簽文本分類的研究現(xiàn)狀進行了闡述,將分類方法主要分為非層次方法和層次方法,非層次方法忽略預定義的層次標簽給出的標簽之間的依賴關系;層次方法根據(jù)使用層次信息的不同分為局部方法、全局方法和混合方法,它們利用層次信息的程度逐步加深,然后對于這些方法下依據(jù)使用不同的技術進一步劃分,這些方法里面有的是對分類器進行了著重研究,有的是關注于文本的嵌入表示,還有的強調(diào)對標簽結(jié)構(gòu)關系的有效利用,最后本文對本領域常用數(shù)據(jù)集和評估指標進行了說明,并對未來的研究方向進行了展望.

猜你喜歡
層次結(jié)構(gòu)分類器類別
分類器集成綜述
少樣本條件下基于K-最近鄰及多分類器協(xié)同的樣本擴增分類
學貫中西(6):闡述ML分類器的工作流程
一起去圖書館吧
簡析基于概率預測的網(wǎng)絡數(shù)學模型建構(gòu)
基于AdaBoost算法的在線連續(xù)極限學習機集成算法
基于層次分析法的電子設備結(jié)構(gòu)方案評價研究
基于部件替換的三維模型生成方法
基于計算機防火墻防護技術探究分析
配網(wǎng)自動化通信系統(tǒng)相關問題研究
庐江县| 保亭| 湖北省| 遵化市| 水城县| 建水县| 敦化市| 阿克苏市| 沁水县| 吴旗县| 湄潭县| 和林格尔县| 边坝县| 德安县| 孝感市| 天全县| 洪雅县| 尼玛县| 边坝县| 高陵县| 博罗县| 开封县| 休宁县| 辽宁省| 平安县| 湟源县| 湖口县| 哈巴河县| 达孜县| 扎鲁特旗| 铜川市| 寻乌县| 西昌市| 长子县| 武穴市| 林周县| 岳普湖县| 乌拉特后旗| 东城区| 镇赉县| 军事|