李冬梅,楊 宇,孟湘皓,張小平,宋 潮,趙玉鳳+
1.北京林業(yè)大學(xué)信息學(xué)院,北京 100083
2.國(guó)家林業(yè)草原林業(yè)智能信息處理工程技術(shù)研究中心,北京 100083
3.中國(guó)中醫(yī)科學(xué)院中醫(yī)藥數(shù)據(jù)中心,北京 100700
隨著信息技術(shù)的不斷發(fā)展,蘊(yùn)含豐富信息的標(biāo)簽數(shù)據(jù)在呈指數(shù)級(jí)別地增長(zhǎng)。為了從中獲取更多有價(jià)值的信息,研究人員開(kāi)展了一系列與標(biāo)簽分類(lèi)相關(guān)的研究。傳統(tǒng)的單標(biāo)簽分類(lèi)包括二分類(lèi)和多分類(lèi),其最終結(jié)果都是將標(biāo)簽集中的單個(gè)標(biāo)簽分配給一個(gè)實(shí)例。目前,這一研究方向已有許多成熟的算法,這些算法具有較好的性能,并成功地應(yīng)用于許多領(lǐng)域[1]。然而,在現(xiàn)實(shí)情況中,一個(gè)實(shí)例往往同時(shí)與多個(gè)標(biāo)簽相關(guān)聯(lián)[2]。例如,在文本分類(lèi)中,一份電子病例可能與糖尿病、高血壓、冠心病等多種疾病有關(guān)[3];在圖像分類(lèi)中,一張舌診圖像可以同時(shí)表達(dá)舌色、舌苔、形狀等特征[4],進(jìn)而能推斷出患者的多種體征標(biāo)簽[5];在音樂(lè)分類(lèi)中,一段音頻可以傳遞各種信息,如鋼琴、古典樂(lè)、莫扎特等[6]。這一研究方向被稱(chēng)為多標(biāo)簽分類(lèi),其本質(zhì)是將一個(gè)實(shí)例與一個(gè)標(biāo)簽集合相關(guān)聯(lián)。與單標(biāo)簽分類(lèi)不同的是,在多標(biāo)簽分類(lèi)中,每個(gè)實(shí)例對(duì)應(yīng)的標(biāo)簽不止一種,標(biāo)簽的數(shù)量也是不確定的。此外,標(biāo)簽與標(biāo)簽之間存在語(yǔ)義相關(guān)性,一些領(lǐng)域的數(shù)據(jù)集還存在標(biāo)簽不均衡現(xiàn)象,這些問(wèn)題都給多標(biāo)簽分類(lèi)任務(wù)帶來(lái)了一定的挑戰(zhàn)。
多標(biāo)簽分類(lèi)問(wèn)題的研究出現(xiàn)在2000 年初,Tsoumakas等人[7]于2007 年首次對(duì)多標(biāo)簽分類(lèi)進(jìn)行了綜述。隨后,Zhang 等人[8]介紹了多標(biāo)簽學(xué)習(xí)的基本原理,同時(shí)還分析了挖掘標(biāo)簽之間相關(guān)性的3 種策略,并對(duì)8 種典型的多標(biāo)簽學(xué)習(xí)算法進(jìn)行了討論。Mayano 等人[9]根據(jù)標(biāo)簽間的依賴(lài)性和維數(shù)等特征,對(duì)來(lái)自不同領(lǐng)域具有不同特征的20 個(gè)數(shù)據(jù)集上的18種多標(biāo)簽分類(lèi)集成算法進(jìn)行了評(píng)估。武紅鑫等人[10]從監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)兩方面對(duì)多標(biāo)簽分類(lèi)算法進(jìn)行了綜述,同時(shí)還從不同的領(lǐng)域?qū)ζ鋵?shí)際應(yīng)用進(jìn)行了介紹。近年來(lái),深度學(xué)習(xí)技術(shù)發(fā)展迅猛,不少結(jié)合深度學(xué)習(xí)的多標(biāo)簽分類(lèi)方法被提出。目前,多標(biāo)簽分類(lèi)方法可以分為傳統(tǒng)的多標(biāo)簽分類(lèi)方法以及基于深度學(xué)習(xí)的多標(biāo)簽分類(lèi)方法。傳統(tǒng)機(jī)器學(xué)習(xí)方法從機(jī)器學(xué)習(xí)的理論出發(fā),存在文本表示向量特征表達(dá)能力不足、人工實(shí)現(xiàn)特征表示的成本過(guò)高等問(wèn)題;深度學(xué)習(xí)方法則通過(guò)卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等結(jié)構(gòu)自動(dòng)對(duì)特征進(jìn)行提取,釋放了人工成本,增強(qiáng)了特征表達(dá)能力。因此,本文將從傳統(tǒng)和深度學(xué)習(xí)兩個(gè)角度分別對(duì)多標(biāo)簽分類(lèi)方法進(jìn)行介紹,總體框架如圖1 所示。
圖1 多標(biāo)簽分類(lèi)方法的總體框架Fig.1 Overall framework of multi-label classification methods
給定一個(gè)樣本空間X=R,xi∈X是維度為d的特征向量,以及標(biāo)簽空間Y={y1,y2,…,yq},yi∈Y表示標(biāo)簽集合中的各個(gè)標(biāo)簽,q表示標(biāo)簽空間的大小。當(dāng)標(biāo)簽j和樣例xi相關(guān)時(shí),yj等于1;當(dāng)標(biāo)簽j和樣例xi不相關(guān)時(shí),yj等于0。多標(biāo)簽分類(lèi)任務(wù)的最終目的是學(xué)習(xí)一個(gè)分類(lèi)器h(X),該分類(lèi)器使預(yù)測(cè)樣本P的預(yù)測(cè)結(jié)果h(P)∈Y。因此,對(duì)于每個(gè)樣例xi∈X,都能產(chǎn)生標(biāo)簽空間Y的二分集合(Yi,,其中Yi表示相關(guān)標(biāo)簽的集合,Yˉi表示不相關(guān)標(biāo)簽的集合。在大多數(shù)情況下,多標(biāo)簽分類(lèi)模型對(duì)應(yīng)于一個(gè)實(shí)值函數(shù)f:X×Y→R,其中f(x,y)表示y∈Y是x的正確標(biāo)簽的置信度。該實(shí)值函數(shù)也可以轉(zhuǎn)換為一個(gè)排名函數(shù)rankf(x,y),它將輸出映射至[1,q]的空間中,排名越靠前代表該標(biāo)簽評(píng)分越高,即如果f(xi,y1)>f(xi,y2),那么rankf(xi,y1) 多標(biāo)簽分類(lèi)的流程如圖2 所示,包括數(shù)據(jù)預(yù)處理、特征工程、多標(biāo)簽分類(lèi)模型訓(xùn)練以及性能評(píng)估4個(gè)階段。原始數(shù)據(jù)集中往往包含了許多噪聲數(shù)據(jù),如停用詞、數(shù)據(jù)缺失以及拼寫(xiě)錯(cuò)誤等。這些噪聲和不必要的特征在一定程度上會(huì)影響模型的性能,因此需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理操作。特征工程是分類(lèi)任務(wù)中最重要的部分,包含特征表示以及特征選取兩大步驟。典型的特征表示方法有one-hot、Word2Vec等,典型的特征選取方法有TF-IDF、期望交叉熵等。不同性能的多標(biāo)簽分類(lèi)算法對(duì)分類(lèi)的結(jié)果有著直接影響,可以分為傳統(tǒng)的多標(biāo)簽分類(lèi)算法和基于深度學(xué)習(xí)的多標(biāo)簽分類(lèi)算法。在最終的性能評(píng)估環(huán)節(jié)中,將符合預(yù)期的模型保留下來(lái)即可得到最佳分類(lèi)模型。 圖2 多標(biāo)簽分類(lèi)的流程圖Fig.2 Flowchart of multi-label classification 根據(jù)處理問(wèn)題的角度,可以將傳統(tǒng)的多標(biāo)簽分類(lèi)算法分為兩大類(lèi),分別為問(wèn)題轉(zhuǎn)化方法和算法自適應(yīng)方法。 2.1.1 問(wèn)題轉(zhuǎn)換方法 問(wèn)題轉(zhuǎn)換(problem transformation,PT)方法的本質(zhì)是簡(jiǎn)單地將多標(biāo)簽分類(lèi)問(wèn)題轉(zhuǎn)換為多個(gè)單標(biāo)簽分類(lèi)問(wèn)題。Boutell 等人[11]提出了一種二元相關(guān)(binary relevance,BR)算法。該算法為每一個(gè)標(biāo)簽訓(xùn)練一個(gè)單獨(dú)的二分類(lèi)器,然后用所有的分類(lèi)器對(duì)樣本進(jìn)行預(yù)測(cè)。這樣的做法實(shí)現(xiàn)起來(lái)較為容易,但是并沒(méi)有考慮各標(biāo)簽間的相關(guān)性。在實(shí)際應(yīng)用中,考慮標(biāo)簽間的相關(guān)性在一定程度上對(duì)多標(biāo)簽問(wèn)題模型具有促進(jìn)效果,如具有“武俠”標(biāo)簽的電影很可能同時(shí)具有“動(dòng)作”標(biāo)簽。針對(duì)該問(wèn)題,Read 等人[12]提出了分類(lèi)器鏈(classifier chains,CC)算法。該算法在BR 的基礎(chǔ)上對(duì)樣本標(biāo)簽進(jìn)行了排序,在預(yù)測(cè)樣本某一個(gè)標(biāo)簽時(shí),除了要考慮對(duì)應(yīng)的特征之外,還要考慮當(dāng)前標(biāo)簽的上一個(gè)標(biāo)簽。圖3 對(duì)比了BR 算法和CC 算法,其中X表示輸入樣本空間,Y表示標(biāo)簽空間。這兩類(lèi)算法都將一個(gè)多標(biāo)簽分類(lèi)問(wèn)題轉(zhuǎn)換為了3 個(gè)二元單標(biāo)簽分類(lèi)問(wèn)題,不同的是,CC 算法在各分類(lèi)器上額外考慮了之前的標(biāo)簽。 圖3 BR 算法和CC 算法對(duì)比Fig.3 Comparison of BR algorithm and CC algorithm 更為復(fù)雜地,可以將多標(biāo)簽分類(lèi)問(wèn)題轉(zhuǎn)換為多分類(lèi)問(wèn)題。Tsoumakas 等人[7]提出了標(biāo)簽冪集(label power-set,LP)算法。該算法將每個(gè)樣本對(duì)應(yīng)的標(biāo)簽集合當(dāng)作一個(gè)新的類(lèi)別標(biāo)簽,當(dāng)兩個(gè)樣本對(duì)應(yīng)的標(biāo)簽集合相同時(shí),則將這兩個(gè)樣本歸為一類(lèi)。然而,當(dāng)標(biāo)簽數(shù)量n過(guò)多時(shí),其產(chǎn)生的類(lèi)別標(biāo)簽數(shù)量將在[0,2n-1]的空間中分配,導(dǎo)致數(shù)據(jù)變得非常稀疏。由此可見(jiàn),LP 算法的本質(zhì)就是將多標(biāo)簽分類(lèi)任務(wù)轉(zhuǎn)化為具有2n個(gè)類(lèi)別標(biāo)簽的多分類(lèi)任務(wù),它僅適用于標(biāo)簽較少的場(chǎng)景。針對(duì)LP 的缺陷,Tsoumakas 等人[13]提出了隨機(jī)子標(biāo)簽集成(randomk-labelsets,RAkEL)算法。該算法結(jié)合了集成學(xué)習(xí)和LP 算法,將初始標(biāo)簽集根據(jù)相交策略或者重疊策略劃分為若干個(gè)隨機(jī)的小標(biāo)簽集,然后集成多個(gè)LP 分類(lèi)器以保證預(yù)測(cè)的完整性。 2.1.2 算法自適應(yīng)方法 不同于PT方法,算法自適應(yīng)(algorithm adaptation,AA)方法的核心思想是通過(guò)修改現(xiàn)有合適的算法直接處理多標(biāo)簽分類(lèi)問(wèn)題。Clare 等人[14]提出了多標(biāo)簽決策樹(shù)算法。該算法借鑒了決策樹(shù)的思想,首先計(jì)算每個(gè)特征對(duì)所有標(biāo)簽的鑒別能力,即特征對(duì)應(yīng)的信息增益,然后根據(jù)信息增益挑選特征并生成分類(lèi)器。Elisseeff等人[15]提出了排名支持向量機(jī)算法。該算法遵循支持向量機(jī)的原理,核心思想是利用最大間距的方法。為了使排序損失評(píng)價(jià)指標(biāo)最小化,該算法定義了一組線性分類(lèi)器,同時(shí)還針對(duì)非線性分類(lèi)任務(wù)引入了核技巧的思想。Zhang 等人[16]根據(jù)K近鄰算法(Knearest neighbors,KNN)的思想提出了ML-KNN,其偽代碼如下所示。 該算法基于多標(biāo)簽訓(xùn)練實(shí)例,首先計(jì)算未知標(biāo)簽的樣本與所有已知標(biāo)簽的樣本的距離,然后選出K個(gè)最近的已知標(biāo)簽樣本,最后選擇概率最大的標(biāo)簽作為當(dāng)前樣本最終的標(biāo)簽。具體而言,步驟1 和2 用于估計(jì)先驗(yàn)概率P(),步驟3 到13 用于估計(jì)后驗(yàn)概率,步驟14 到18 利用貝葉斯規(guī)則,根據(jù)估計(jì)的概率計(jì)算算法的輸出。其中,rt是一個(gè)實(shí)數(shù)值向量,該向量用于計(jì)算標(biāo)簽排名,以便利用多標(biāo)簽分類(lèi)的評(píng)價(jià)指標(biāo)來(lái)分析算法的性能。 總體來(lái)說(shuō),問(wèn)題轉(zhuǎn)換方法的關(guān)鍵思想是數(shù)據(jù)與算法的擬合,通過(guò)轉(zhuǎn)換問(wèn)題數(shù)據(jù)的方式,將轉(zhuǎn)換后的數(shù)據(jù)應(yīng)用于現(xiàn)有的算法。而算法自適應(yīng)方法的關(guān)鍵思想則是算法與數(shù)據(jù)的擬合,將特定的算法進(jìn)行擴(kuò)展或者改進(jìn),使之能應(yīng)用于多標(biāo)簽數(shù)據(jù)。由于問(wèn)題轉(zhuǎn)換方法需要額外進(jìn)行預(yù)處理操作,即將多標(biāo)簽問(wèn)題轉(zhuǎn)換為單標(biāo)簽問(wèn)題,在標(biāo)簽類(lèi)別過(guò)多的情況下,這一過(guò)程可能會(huì)導(dǎo)致算法性能下降。因此,當(dāng)數(shù)據(jù)集中的標(biāo)簽類(lèi)別過(guò)多時(shí),建議采用算法自適應(yīng)方法。為了方便地分析傳統(tǒng)的多標(biāo)簽分類(lèi)算法的性能和優(yōu)缺點(diǎn),表1 從代表算法、應(yīng)用領(lǐng)域、優(yōu)缺點(diǎn)等方面對(duì)所提出的算法進(jìn)行了總結(jié)。 表1 傳統(tǒng)的多標(biāo)簽分類(lèi)算法Table 1 Traditional multi-label classification algorithms 在多標(biāo)簽分類(lèi)領(lǐng)域,各種深層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)得到了廣泛應(yīng)用,并且取得了良好的分類(lèi)效果。其中,用于多標(biāo)簽分類(lèi)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可分為三種類(lèi)型,分別為卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)以及Transformer結(jié)構(gòu)。 2.2.1 基于卷積神經(jīng)網(wǎng)絡(luò)的方法 卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)最初應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域,隨著研究的深入,該類(lèi)神經(jīng)網(wǎng)絡(luò)在圖像分類(lèi)、文本分類(lèi)等領(lǐng)域取得了較大的進(jìn)展。Kim等人[17]首次在文本分類(lèi)任務(wù)中使用了CNN結(jié)構(gòu)并提出了Text-CNN。Johnson等人[18]在此基礎(chǔ)上進(jìn)一步研究了單詞級(jí)別的CNN,并提出了一種深層金字塔CNN,用來(lái)捕獲訓(xùn)練數(shù)據(jù)的全局表示。在多標(biāo)簽圖像分類(lèi)領(lǐng)域,Wei 等人[19]提出了一種靈活的深度CNN 架構(gòu)(hypotheses CNN pooling,HCP)。如圖4所示[19],首先通過(guò)假設(shè)選擇方法,將數(shù)量較少的候選窗口作為假設(shè);然后將選定的假設(shè)輸入到共享的CNN中,并將輸出的置信度向量通過(guò)融合層與最大池化操作組合在一起,生成最終的多標(biāo)簽預(yù)測(cè)。其中,共享的CNN 首先在大規(guī)模單標(biāo)簽圖像數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,然后在目標(biāo)多標(biāo)簽圖像數(shù)據(jù)集上進(jìn)行微調(diào)。實(shí)驗(yàn)表明,HCP 相較于其他先進(jìn)模型具有更加優(yōu)越的性能,在VOC 2007和VOC 2012多標(biāo)簽圖像數(shù)據(jù)集上的平均精確度分別達(dá)到了90.9%和90.5%。 圖4 HCP 的模型結(jié)構(gòu)圖Fig.4 Model structure diagram of HCP Yang 等人[20]在前人工作的基礎(chǔ)上提出了一種孿生卷積神經(jīng)網(wǎng)絡(luò)(hybrid-Siamese convolutional neural network,HSCNN),該網(wǎng)絡(luò)可以用于處理不平衡數(shù)據(jù)中的尾標(biāo)簽問(wèn)題。在多標(biāo)簽分類(lèi)任務(wù)中,他們對(duì)樣本數(shù)量更多的標(biāo)簽采用相同的CNN結(jié)構(gòu),而對(duì)樣本數(shù)量更少的標(biāo)簽則采用HSCNN 結(jié)構(gòu)。Tan 等人[21]提出了一種動(dòng)態(tài)嵌入投影門(mén)控(dynamic embedding projection gate,DEPG)卷積神經(jīng)網(wǎng)絡(luò),該模型首次在詞嵌入矩陣上應(yīng)用DEPG。通過(guò)使用門(mén)控單元來(lái)轉(zhuǎn)換和攜帶單詞信息,可以有效地將單詞嵌入矩陣中每個(gè)元素所攜帶的信息與對(duì)應(yīng)位置的上下文信息進(jìn)行合并。 上述基于CNN 的多標(biāo)簽分類(lèi)模型大多都是在現(xiàn)有CNN 結(jié)構(gòu)的基礎(chǔ)上進(jìn)行不同程度的改進(jìn)或者與其他先進(jìn)模型相結(jié)合,其本質(zhì)都并未對(duì)CNN 自身的缺陷進(jìn)行改進(jìn)。在利用CNN 進(jìn)行池化操作時(shí),容易丟失關(guān)鍵信息。同時(shí),在處理長(zhǎng)文本時(shí),CNN 也并不適用于捕捉長(zhǎng)距離文本的語(yǔ)義消息。 2.2.2 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法 與CNN 相比,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)更適用于自然語(yǔ)言處理中序列化數(shù)據(jù)的輸入。隨著研究的深入,RNN在多標(biāo)簽分類(lèi)領(lǐng)域也得到越來(lái)越廣泛的應(yīng)用。然而,由于RNN自身存在梯度消失、梯度爆炸以及長(zhǎng)距離依賴(lài)等問(wèn)題,現(xiàn)階段研究大都集中于改進(jìn)后的LSTM(long short-term memory)、GRU(gated recurrent unit)以及Seq2Seq模型。 Yazici等人[22]提出了一種用于訓(xùn)練多標(biāo)簽分類(lèi)任務(wù)的無(wú)序LSTM 模型的方法,其模型結(jié)構(gòu)如圖5 所示[22],包括CNN 圖像編碼器、LSTM 文本解碼器和注意力機(jī)制。其中,CNN 編碼器用于從圖像中提取緊湊的視覺(jué)表示,LSTM 解碼器使用編碼生成的標(biāo)簽序列對(duì)標(biāo)簽依賴(lài)進(jìn)行建模。注意力模塊關(guān)注的則是圖像的不同部分,它將這些不同部分的注意力加權(quán)特征與前一個(gè)時(shí)間步中預(yù)測(cè)的類(lèi)的詞嵌入連接起來(lái),作為當(dāng)前時(shí)間步的輸入提供給LSTM。實(shí)驗(yàn)表明,這種圖像編碼器和語(yǔ)言解碼器的標(biāo)準(zhǔn)架構(gòu)在MS-COCO、NUS-WIDE 多標(biāo)簽圖像分類(lèi)數(shù)據(jù)集上的F1 值分別為77.14%、72.37%。 圖5 基于LSTM 的模型結(jié)構(gòu)圖Fig.5 Model structure diagram based on LSTM 然而,由于LSTM 模型基于單向傳播,Yazici 等人的模型忽略了反向內(nèi)容之間的語(yǔ)義相關(guān)性。Hu 等人[23]利用Word2Vec 和雙向LSTM 對(duì)模型進(jìn)行訓(xùn)練。該模型充分考慮了正反兩個(gè)方向的語(yǔ)義相關(guān)性,提高了多標(biāo)簽文本的分類(lèi)精度。Liu 等人[24]為了解決包含大量類(lèi)標(biāo)簽的多標(biāo)簽分類(lèi)問(wèn)題,提出了一種基于多層注意力和標(biāo)簽相關(guān)性的多標(biāo)簽文本分類(lèi)模型LELC(label embedding and label correlation)。該模型首先利用雙向GRU 捕獲文本的內(nèi)容信息和序列信息,然后利用注意力機(jī)制選擇與標(biāo)簽相關(guān)的有效特征,最后通過(guò)標(biāo)簽相關(guān)矩陣進(jìn)行空間降維。在11 個(gè)真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明,LELC 能取得最先進(jìn)的性能。Chen 等人[25]提出了一種具有潛在詞標(biāo)記的多標(biāo)簽分類(lèi)模型(multi-label classification with latent word-wise label,MLC-LWL),并在學(xué)術(shù)文獻(xiàn)和新聞數(shù)據(jù)集上取得了71.10%和88.10%的微觀F1 值。該模型首先利用標(biāo)簽主題模型構(gòu)造有效的詞標(biāo)簽信息,然后利用門(mén)控網(wǎng)絡(luò)將單詞所攜帶的標(biāo)簽信息和上下文信息結(jié)合起來(lái),最后通過(guò)標(biāo)簽到標(biāo)簽的結(jié)構(gòu)獲取標(biāo)簽之間的相關(guān)性。Xiao等人[26]提出了一種基于歷史注意力機(jī)制的Seq2Seq模型,通過(guò)考慮歷史信息,有效地探索多標(biāo)簽文本分類(lèi)中標(biāo)簽預(yù)測(cè)的信息表示。其中,基于歷史的上下文注意力(history-based context attention,HCA)著重考慮上下文歷史權(quán)重趨勢(shì),有助于瑣碎標(biāo)簽的預(yù)測(cè);基于歷史的標(biāo)簽注意力(history-based label attention,HLA)通過(guò)探索歷史標(biāo)簽來(lái)緩解錯(cuò)誤傳播的問(wèn)題。相較于MLC-LWL,HCA-HLA 的微觀F1 值分別提高了0.10%和0.7%。 2.2.3 基于Transformer的方法 Google 于2017 年提出了Transformer[27]網(wǎng)絡(luò)結(jié)構(gòu)。該網(wǎng)絡(luò)打破了原有的編碼器、解碼器模式,僅僅采用注意力機(jī)制來(lái)執(zhí)行自然語(yǔ)言處理任務(wù)。面對(duì)更具挑戰(zhàn)的極端多標(biāo)簽分類(lèi)(extreme multi-label classification,XMC)[28]任務(wù),Chang等人[29]提出了X-Transformer模型。其中,XMC 是指在一個(gè)非常大的標(biāo)簽空間中,為每一個(gè)樣本分配最相關(guān)的若干標(biāo)簽。X-Transformer模型由語(yǔ)義標(biāo)簽索引組件、深度神經(jīng)匹配組件和集成排名組件構(gòu)成,是第一個(gè)用于微調(diào)Transformer 的可擴(kuò)展框架,并在4 個(gè)基準(zhǔn)數(shù)據(jù)集上取得了最佳分類(lèi)效果。Jiang 等人[30]發(fā)現(xiàn)X-Transformer 模型在訓(xùn)練標(biāo)簽排序模型時(shí),靜態(tài)采樣負(fù)值標(biāo)簽的方法降低了模型的效率和準(zhǔn)確性。因此,他們提出了LightXML 模型。該模型采用端到端訓(xùn)練和動(dòng)態(tài)負(fù)值標(biāo)簽采樣的方法,使用生成式合作網(wǎng)絡(luò)對(duì)標(biāo)簽進(jìn)行回收和排序,并在5 個(gè)XMC 數(shù)據(jù)集上表現(xiàn)優(yōu)于最先進(jìn)的方法。 隨后,基于Transformer 提出的BERT(bidirectional encoder representations from transformers)預(yù)訓(xùn)練模型[31]在自然語(yǔ)言處理領(lǐng)域取得了突破性的進(jìn)展。這類(lèi)模型本質(zhì)上是利用海量語(yǔ)料訓(xùn)練大量參數(shù),免去了從零開(kāi)始訓(xùn)練的過(guò)程。在多標(biāo)簽分類(lèi)領(lǐng)域,大量研究人員也逐漸引入該類(lèi)模型。Jin 等人[32]提出了一種基于BERT 和改進(jìn)TF-IDF 的多標(biāo)簽文本分類(lèi)模型,通過(guò)計(jì)算單個(gè)類(lèi)別標(biāo)簽的不同權(quán)重,更好地反映其重要性。在餐廳顧客評(píng)論數(shù)據(jù)集上進(jìn)行的多標(biāo)簽分類(lèi)實(shí)驗(yàn)表明,該模型與基準(zhǔn)BERT 相比,性能略有提高,微觀F1 值達(dá)到了73.59%。Kim 等人[33]提出了一種基于KoBERT 的多標(biāo)簽文本分類(lèi)模型EnvBERT,通過(guò)數(shù)據(jù)過(guò)采樣技術(shù)解決了多標(biāo)簽數(shù)據(jù)的不平衡問(wèn)題。實(shí)驗(yàn)表明,該方法對(duì)不平衡的、有噪聲的多標(biāo)簽新聞數(shù)據(jù)具有更加優(yōu)越的預(yù)測(cè)性能,準(zhǔn)確度達(dá)到了80%。林森等人[34]針對(duì)地震災(zāi)害社交媒體數(shù)據(jù)的特點(diǎn),提出了一種BERT 遷移學(xué)習(xí)模型。他們利用BERT 預(yù)訓(xùn)練模型建立地震災(zāi)害社交媒體信息多標(biāo)簽分類(lèi)模型,并達(dá)到了91.6%的準(zhǔn)確度,為災(zāi)后快速輔助響應(yīng)決策提供科學(xué)依據(jù)。 目前已有的多標(biāo)簽文本分類(lèi)器存在以下問(wèn)題:一方面,忽略了文本中不同層次的語(yǔ)義特征;另一方面,忽略了語(yǔ)義標(biāo)簽的意義以及標(biāo)簽與底層文本之間的關(guān)系。為了克服這些問(wèn)題,Lu 等人[35]設(shè)計(jì)了一種CNN-BiLSTM-Attention 分類(lèi)器,如圖6 所示[35]。該分類(lèi)器結(jié)合了BERT 模型,可以更好地利用標(biāo)簽和基礎(chǔ)文本之間的多級(jí)語(yǔ)義特征。首先,使用預(yù)先訓(xùn)練好的BERT 模型生成詞嵌入和標(biāo)簽嵌入。然后,利用CNN 層提取文本的局部語(yǔ)義特征。BiLSTM 層將該局部語(yǔ)義特征作為初始狀態(tài),通過(guò)融合文本的上下文特征,生成表示全局語(yǔ)義信息的混合特征。最后,利用注意力層為每個(gè)標(biāo)簽選擇最相關(guān)的特征。在某市電子政務(wù)多標(biāo)簽數(shù)據(jù)集以及新聞、法律兩個(gè)領(lǐng)域公共數(shù)據(jù)集上的微觀F1 值分別達(dá)到了87.52%、77.22%、84.42%?;赥ransformer 的方法利用了預(yù)訓(xùn)練模型的優(yōu)點(diǎn),未來(lái)可以對(duì)各類(lèi)預(yù)訓(xùn)練模型進(jìn)行改進(jìn),使其更適用于下游任務(wù)。 圖6 CNN-BiLSTM-Attention 的模型結(jié)構(gòu)圖Fig.6 Model structure diagram of CNN-BiLSTM-Attention 總體來(lái)說(shuō),深度學(xué)習(xí)模型無(wú)需人工構(gòu)造特征,就能從原始數(shù)據(jù)中學(xué)習(xí)有利的特征,從而獲得更加有效的特征表示。這類(lèi)模型能很好地解決多標(biāo)簽分類(lèi)任務(wù)中的數(shù)據(jù)表達(dá)能力不足、標(biāo)簽相關(guān)性考慮不充分以及模型復(fù)雜程度高等問(wèn)題。為了方便地分析基于深度學(xué)習(xí)的多標(biāo)簽分類(lèi)算法的性能和優(yōu)缺點(diǎn),表2從代表算法、應(yīng)用領(lǐng)域、優(yōu)缺點(diǎn)等方面對(duì)所提出的算法進(jìn)行了總結(jié)。 表3 展示了來(lái)自不同領(lǐng)域的多標(biāo)簽分類(lèi)數(shù)據(jù)集。其中,N表示數(shù)據(jù)集中實(shí)例的數(shù)量,L表示數(shù)據(jù)集中預(yù)定義的標(biāo)簽的數(shù)量,LC表示標(biāo)簽基數(shù),其定義如式(1)所示,表示與每個(gè)實(shí)例相關(guān)聯(lián)的標(biāo)簽的平均數(shù)量。所有數(shù)據(jù)集和它們的更多相關(guān)信息可以從https://mulan.sourceforge.net/datasets-mlc.html 或其原始文獻(xiàn)中獲得。 表3 多標(biāo)簽分類(lèi)數(shù)據(jù)集Table 3 Multi-label classification datasets yeast 數(shù)據(jù)集包含2 417 個(gè)酵母基因的微陣列表達(dá)和系統(tǒng)發(fā)育譜,每個(gè)基因都與一組功能類(lèi)相關(guān),共注釋了14 個(gè)功能類(lèi)別子集,如代謝、能量等。 mediamill 數(shù)據(jù)集是一個(gè)類(lèi)別不平衡的大規(guī)模數(shù)據(jù)集,共包含43 907 個(gè)視頻幀,通過(guò)手動(dòng)注釋的方式產(chǎn)生了101個(gè)語(yǔ)言概念的詞典,如軍事、沙漠、籃球等。 scene 數(shù)據(jù)集用于多標(biāo)簽場(chǎng)景分類(lèi),包含2 407 張圖像,每張場(chǎng)景圖像可能包括海灘、落日、落葉、山脈、田野、城市這6 類(lèi)概念中的一種或多種。 NUS-WIDE 數(shù)據(jù)集由新加坡國(guó)立大學(xué)媒體檢索實(shí)驗(yàn)室創(chuàng)建,共包含269 648 張圖片,邀請(qǐng)具有不同背景的學(xué)生手動(dòng)標(biāo)注了81個(gè)屬于不同類(lèi)別的概念,如游泳、跑步等活動(dòng)類(lèi)概念和沙灘、馬路等場(chǎng)景類(lèi)概念。 medical 數(shù)據(jù)集來(lái)源于美國(guó)辛辛那提兒童醫(yī)院醫(yī)學(xué)中心放射科,經(jīng)過(guò)消除歧義、匿名化等預(yù)處理步驟,最終得到978 份臨床文本報(bào)告,每份病歷標(biāo)記有45 種疾病代碼中的一種或多種。 tmc2007 數(shù)據(jù)集包含28 596 份自由文本形式的航空安全報(bào)告,注釋了飛行期間出現(xiàn)的22 種問(wèn)題類(lèi)型中的一種或多種。 bibtex 數(shù)據(jù)集包含7 395 個(gè)由論文標(biāo)題、作者等信息組成的bibtex 條目,注釋了159 個(gè)由用戶分配的標(biāo)簽集,如統(tǒng)計(jì)、數(shù)據(jù)挖掘等。 CAL500 數(shù)據(jù)集包含500 首西方流行音樂(lè),每首歌曲都有至少3 位聽(tīng)眾的注釋?zhuān)紤]了135 個(gè)屬于不同類(lèi)別的音樂(lè)相關(guān)概念,如鋼琴、吉他等樂(lè)器類(lèi)概念和古典、流行等流派類(lèi)概念,最終經(jīng)過(guò)語(yǔ)義特征處理得到174 個(gè)概念標(biāo)簽。 在多標(biāo)簽分類(lèi)任務(wù)中,評(píng)價(jià)指標(biāo)可以概括為兩種。如圖7 所示,一種是基于實(shí)例的評(píng)價(jià)指標(biāo),另一種則是基于標(biāo)簽的評(píng)價(jià)指標(biāo)?;趯?shí)例的評(píng)價(jià)指標(biāo)是針對(duì)每個(gè)實(shí)例去預(yù)測(cè)標(biāo)簽,而基于標(biāo)簽的評(píng)價(jià)指標(biāo)則是對(duì)每個(gè)標(biāo)簽預(yù)測(cè)實(shí)例。 圖7 多標(biāo)簽分類(lèi)評(píng)價(jià)指標(biāo)的總體框架Fig.7 Overall framework of multi-label classification evaluation metrics 基于實(shí)例的評(píng)價(jià)指標(biāo)用于評(píng)估模型在各測(cè)試實(shí)例上的性能,最終返回其在整個(gè)測(cè)試集上的平均值。 根據(jù)多標(biāo)簽分類(lèi)器h(?),可以定義以下6 個(gè)基于實(shí)例的分類(lèi)指標(biāo)。 (1)子集準(zhǔn)確度 子集準(zhǔn)確度用于評(píng)估正確分類(lèi)實(shí)例的比例。其中對(duì)于???,如果“?”成立則返回1,否則返回0。它對(duì)應(yīng)于傳統(tǒng)分類(lèi)任務(wù)中的準(zhǔn)確度,只有當(dāng)實(shí)例預(yù)測(cè)的標(biāo)簽完全正確時(shí)才被認(rèn)定為正確分類(lèi),因此過(guò)于嚴(yán)格,將導(dǎo)致較低的度量值。 (2)漢明損失 漢明損失用于評(píng)估錯(cuò)誤分類(lèi)標(biāo)簽的實(shí)例的比例。其中Δ 表示兩個(gè)集合之間的異或關(guān)系。當(dāng)數(shù)據(jù)集中的每個(gè)實(shí)例僅與標(biāo)簽集中的單個(gè)標(biāo)簽相關(guān)聯(lián)時(shí),即在單標(biāo)簽情況下,漢明損失將退化為傳統(tǒng)誤分類(lèi)率的2/q。 (3)準(zhǔn)確度 準(zhǔn)確度用于評(píng)估正確分類(lèi)標(biāo)簽的實(shí)例的比例。 (4)精確度 精確度用于評(píng)估樣本中被正確分類(lèi)標(biāo)簽的實(shí)例的比例。 (5)召回率 召回率用于評(píng)估所有實(shí)例成功預(yù)測(cè)相關(guān)標(biāo)簽的平均比例。 (6)F值 F值通常被認(rèn)為是比精確度和召回率更好的性能評(píng)價(jià)指標(biāo),它通過(guò)精確度和召回率加權(quán)得到。其中β表示平衡因子,通常取值為1。 根據(jù)實(shí)值函數(shù)f(?,?),還可以定義以下5 個(gè)基于實(shí)例的排序指標(biāo)。 (1)1-錯(cuò)誤率 1-錯(cuò)誤率用于評(píng)估排名最高的標(biāo)簽不在相關(guān)標(biāo)簽集合中的實(shí)例的比例。 (2)覆蓋率 覆蓋率根據(jù)排序后的標(biāo)簽列表,計(jì)算覆蓋實(shí)例所有相關(guān)標(biāo)簽的步數(shù)。 (3)排序損失 排序損失用于評(píng)估錯(cuò)誤排序標(biāo)簽對(duì)的比例,即不相關(guān)標(biāo)簽的排名高于相關(guān)標(biāo)簽。 (4)平均精確度 平均精確度用于評(píng)估排名高于某一特定標(biāo)簽的相關(guān)標(biāo)簽的平均得分。 (5)前k個(gè)的精確度 前k個(gè)的精確度用于評(píng)估前k個(gè)評(píng)分標(biāo)簽中正確分類(lèi)標(biāo)簽的百分比。 在上述基于實(shí)例的評(píng)價(jià)指標(biāo)中,對(duì)于1-錯(cuò)誤率、覆蓋率和排序損失,值越低,模型的性能越好;對(duì)于其他評(píng)價(jià)指標(biāo),值越高,模型的性能越好。 基于標(biāo)簽的評(píng)價(jià)指標(biāo)用于評(píng)估模型在每個(gè)類(lèi)別標(biāo)簽上的性能。對(duì)于第j類(lèi)標(biāo)簽,根據(jù)多標(biāo)簽分類(lèi)器h(?),可以定義以下兩個(gè)基于標(biāo)簽的分類(lèi)指標(biāo)。 (1)宏觀平均值 (2)微觀平均值 宏觀平均值是在單個(gè)類(lèi)別標(biāo)簽上計(jì)算得到的,而微觀平均值是在所有類(lèi)別標(biāo)簽上計(jì)算得到的。其中B∈{Arruracy,Precision,Recall,Fβ},TP、FP、TN、FN分別表示真陽(yáng)性、假陽(yáng)性、真陰性、假陰性的數(shù)量。 根據(jù)實(shí)值函數(shù)f(?,?),還可以定義以下兩個(gè)基于標(biāo)簽的排序指標(biāo)。 (1)宏觀AUC (2)微觀AUC 曲線下面積(area under curve,AUC)代表特征曲線下的面積,它是一種統(tǒng)計(jì)度量,表示真陽(yáng)性占實(shí)際陽(yáng)性的比例以及假陽(yáng)性占實(shí)際陰性的比例。 對(duì)于上述所有基于標(biāo)簽的評(píng)價(jià)指標(biāo)而言,值越高,模型的性能越好。 在評(píng)價(jià)算法性能時(shí),通常不僅僅考慮某一特定的評(píng)價(jià)指標(biāo),而是結(jié)合多個(gè)評(píng)價(jià)指標(biāo)一起使用。為了方便地了解評(píng)價(jià)指標(biāo)在多標(biāo)簽分類(lèi)中的作用,表4對(duì)上述多標(biāo)簽分類(lèi)算法的評(píng)價(jià)指標(biāo)進(jìn)行了總結(jié)。其中HL 代表漢明損失,Acc 代表準(zhǔn)確度,Pre 代表精確度,Re 代表召回率,OE 代表1-錯(cuò)誤率,Co 代表覆蓋率,RL 代表排序損失,AP 代表平均精確度,P@k代表前k個(gè)的精確度。 表4 多標(biāo)簽分類(lèi)算法的評(píng)價(jià)指標(biāo)Table 4 Evaluation metrics of multi-label classification algorithms 由于子集精確度在評(píng)估時(shí)過(guò)于嚴(yán)格,大多數(shù)算法并沒(méi)有考慮該評(píng)價(jià)指標(biāo)。若要研究分類(lèi)器的性能,則可以采用一些分類(lèi)指標(biāo)對(duì)算法進(jìn)行評(píng)估;若要考慮返回的實(shí)值函數(shù),則可以采用一些排序指標(biāo)對(duì)算法進(jìn)行評(píng)估。在XMC 任務(wù)中,標(biāo)簽數(shù)量非常多,通常意義上的精確度等指標(biāo)不太適用,因此選擇P@k作為評(píng)價(jià)指標(biāo)。AUC 在單標(biāo)簽領(lǐng)域較為常用,在多標(biāo)簽分類(lèi)領(lǐng)域,也可以對(duì)結(jié)果計(jì)算宏觀AUC 或微觀AUC,其更適用于一些標(biāo)簽不平衡數(shù)據(jù)集。 現(xiàn)有的一些多標(biāo)簽分類(lèi)方法已經(jīng)能較好地運(yùn)用在實(shí)際使用中,但目前仍有一些問(wèn)題需要解決,例如多模態(tài)數(shù)據(jù)多標(biāo)簽分類(lèi)、基于提示學(xué)習(xí)的多標(biāo)簽分類(lèi)和不平衡數(shù)據(jù)多標(biāo)簽分類(lèi)。下面將對(duì)這三類(lèi)問(wèn)題進(jìn)行分析,并將其作為未來(lái)的研究方向。 (1)多模態(tài)數(shù)據(jù)多標(biāo)簽分類(lèi) 隨著時(shí)代的發(fā)展,數(shù)據(jù)類(lèi)型不僅僅局限于文本一種,人們可以借助各種設(shè)備采集音頻、視頻、圖片等多模態(tài)數(shù)據(jù)。于玉海等人[43]提出了生物醫(yī)學(xué)圖像多標(biāo)簽分類(lèi)方法,融合了圖像內(nèi)容和相關(guān)說(shuō)明文本這兩種模態(tài)的數(shù)據(jù),可以更加有效地識(shí)別生物醫(yī)學(xué)模式標(biāo)簽。井佩光等人[44]提出了一種基于多模態(tài)子空間編碼的短視頻多標(biāo)簽分類(lèi)模型,充分將短視頻的多模態(tài)特性與多標(biāo)簽相關(guān)聯(lián)。Tang 等人[45]提出了一種用于多標(biāo)簽皮膚病分類(lèi)的兩階段多模態(tài)學(xué)習(xí)算法FusionM4Net-FS,在標(biāo)簽不平衡的醫(yī)學(xué)數(shù)據(jù)集上取得了強(qiáng)大的分類(lèi)性能。Zhang 等人[46]提出了一種用于多標(biāo)簽情感識(shí)別的通用多模態(tài)學(xué)習(xí)方法,通過(guò)對(duì)抗性多模態(tài)細(xì)化模塊,充分挖掘不同模態(tài)之間的共性。由于各模態(tài)數(shù)據(jù)之間存在差異性,如何更好地融合多個(gè)模態(tài)的特征是一大難點(diǎn)。針對(duì)這一問(wèn)題,可以根據(jù)模態(tài)特征的粗細(xì)粒度采用分層交叉模態(tài)融合的方法。此外,在多標(biāo)簽分類(lèi)中合理地融入多模態(tài)數(shù)據(jù),將多模態(tài)表示與標(biāo)簽語(yǔ)義對(duì)齊,也具有重要的研究?jī)r(jià)值。 (2)基于提示學(xué)習(xí)的多標(biāo)簽分類(lèi) 近年來(lái),人們對(duì)于提示學(xué)習(xí)的研究越來(lái)越深入,它作為自然語(yǔ)言處理領(lǐng)域的第四范式,在實(shí)體關(guān)系抽取、問(wèn)答、推薦等任務(wù)中取得了不錯(cuò)的效果[47]。在多標(biāo)簽分類(lèi)任務(wù)中,Chai等人[48]提出了一種基于提示的多標(biāo)簽情感預(yù)測(cè)模型,該模型利用標(biāo)簽提示和對(duì)比學(xué)習(xí)來(lái)捕獲標(biāo)簽信息,能夠更好地預(yù)測(cè)情感標(biāo)簽。Song 等人[49]提出了一種標(biāo)簽提示多標(biāo)簽文本分類(lèi)模型,設(shè)計(jì)了一套多標(biāo)簽文本分類(lèi)模板,將標(biāo)簽集成到預(yù)訓(xùn)練模型的輸入中,有效地提高了模型的性能。Wang等人[50]提出了一種自動(dòng)多標(biāo)簽提示AMuLaP,為少樣本文本分類(lèi)設(shè)計(jì)了一種自動(dòng)選擇標(biāo)簽映射的方法。上述方法通過(guò)引入標(biāo)簽提示,將標(biāo)簽整合到預(yù)訓(xùn)練語(yǔ)言模型的輸入中,可以有效地捕獲標(biāo)簽和文本間的語(yǔ)義信息。此外,鑒于提示學(xué)習(xí)可以有效地應(yīng)用在小樣本甚至零樣本場(chǎng)景下,基于提示學(xué)習(xí)的低資源多標(biāo)簽分類(lèi)也是未來(lái)的一個(gè)研究方向。 (3)不平衡數(shù)據(jù)多標(biāo)簽分類(lèi) 不平衡是大多數(shù)多標(biāo)簽數(shù)據(jù)集的固有特征,其特點(diǎn)是樣本及其對(duì)應(yīng)的標(biāo)簽在數(shù)據(jù)空間上的分布是不均勻的。現(xiàn)有的分類(lèi)算法更適用于對(duì)平衡數(shù)據(jù)進(jìn)行分類(lèi),在處理不平衡數(shù)據(jù)時(shí),分類(lèi)性能會(huì)急劇下降。Tarekegn 等人[51]對(duì)處理多標(biāo)簽數(shù)據(jù)中的不平衡問(wèn)題的方法進(jìn)行了綜述。在多標(biāo)簽分類(lèi)任務(wù)中,集成方法通常被用來(lái)解決不平衡和標(biāo)簽相關(guān)性問(wèn)題。Zhu 等人[52]提出了一種新的多標(biāo)簽分類(lèi)與動(dòng)態(tài)集成學(xué)習(xí)方法,通過(guò)選擇并組合最有效的基分類(lèi)器集合來(lái)預(yù)測(cè)每個(gè)未知的實(shí)例。鑒于不同的基分類(lèi)器組合對(duì)于特定的問(wèn)題具有不同的性能,如何在多標(biāo)簽分類(lèi)中選擇基分類(lèi)器也有待進(jìn)一步研究。此外,還可以采用重新采樣的方法對(duì)不平衡數(shù)據(jù)進(jìn)行擴(kuò)充,以減輕類(lèi)不平衡造成的影響。2 多標(biāo)簽分類(lèi)方法
2.1 傳統(tǒng)的多標(biāo)簽分類(lèi)
2.2 基于深度學(xué)習(xí)的多標(biāo)簽分類(lèi)
3 數(shù)據(jù)集
4 評(píng)價(jià)指標(biāo)
4.1 基于實(shí)例的評(píng)價(jià)指標(biāo)
4.2 基于標(biāo)簽的評(píng)價(jià)指標(biāo)
4.3 小結(jié)
5 未來(lái)工作展望