羅 俊,高清維,檀 怡,趙大衛(wèi),盧一相,孫 冬
(安徽大學(xué) 電氣工程與自動(dòng)化學(xué)院,合肥 230601)
近年來(lái),隨著新興互聯(lián)網(wǎng)技術(shù)以及數(shù)據(jù)采集設(shè)備的日益更新,需要分析和處理的數(shù)據(jù)規(guī)模也日漸增大,隨之而來(lái)的是關(guān)于這些龐大數(shù)據(jù)的分類問(wèn)題。數(shù)據(jù)分類問(wèn)題一般分為單標(biāo)簽分類和多標(biāo)簽分類。當(dāng)樣本數(shù)據(jù)只有1 個(gè)類別標(biāo)簽時(shí),數(shù)據(jù)分類問(wèn)題為單標(biāo)簽分類問(wèn)題。而1 個(gè)樣本數(shù)據(jù)具有多個(gè)類別標(biāo)簽時(shí),就是多標(biāo)簽分類問(wèn)題。多標(biāo)簽學(xué)習(xí)應(yīng)用在各個(gè)不同場(chǎng)景中,例如,圖像以及視頻分類[1-2]、生物信息學(xué)[3-4]、文本分類[5-6]、文件分類[7]等。因此,多標(biāo)簽學(xué)習(xí)備受研究人員的廣泛關(guān)注。
多標(biāo)簽學(xué)習(xí)算法在大多數(shù)情況下分為問(wèn)題轉(zhuǎn)換法和算法自適應(yīng)法[8]。問(wèn)題轉(zhuǎn)換法是將多個(gè)單標(biāo)簽分類問(wèn)題組合成多標(biāo)簽分類問(wèn)題,典型的問(wèn)題轉(zhuǎn)換法 有MLC-LR[9]、標(biāo)簽冪級(jí)方法[10]、二元關(guān)聯(lián)法[11]等。算法自適應(yīng)法是優(yōu)化傳統(tǒng)單標(biāo)簽學(xué)習(xí)方法,用于處理多標(biāo)簽分類問(wèn)題,如 ML-KNN[12]、RankSVM[13]以及多標(biāo)簽神經(jīng)網(wǎng)絡(luò)方法[14]等。盡管以上算法在分類效果上表現(xiàn)優(yōu)異,但是上述多標(biāo)簽分類方法并沒(méi)有考慮標(biāo)簽之間的關(guān)聯(lián)信息。因此,研究人員相繼提出眾多關(guān)于學(xué)習(xí)標(biāo)簽相關(guān)性進(jìn)行多標(biāo)簽分類的算法。根據(jù)標(biāo)簽之間相關(guān)性的不同,將多標(biāo)簽分類算法分為一階方法、二階方法和高階方法[15]。一階方法沒(méi)有考慮標(biāo)簽相關(guān)性進(jìn)行多標(biāo)簽分類[16-17]。二階方法考慮了兩兩標(biāo)簽對(duì)之間的相關(guān)性進(jìn)行多標(biāo)簽學(xué)習(xí)[18-19]。高階方法則通過(guò)添加所有標(biāo)簽或標(biāo)簽集合的相關(guān)性進(jìn)行多標(biāo)簽學(xué)習(xí)[20]。
與此同時(shí),在處理多標(biāo)簽分類問(wèn)題時(shí),樣本數(shù)據(jù)的特征往往都是高維的,這給數(shù)據(jù)分析、決策、篩選以及預(yù)測(cè)帶來(lái)了巨大的挑戰(zhàn)。在處理高維數(shù)據(jù)過(guò)程中會(huì)導(dǎo)致計(jì)算成本增加和存儲(chǔ)資源的消耗,還存在過(guò)擬合問(wèn)題[21-22]、維數(shù)災(zāi)難[23]等。因此,研究人員提出很多關(guān)于提取標(biāo)簽特定特征的算法進(jìn)行多標(biāo)簽分類。LIFT[24]算法最早提出根據(jù)標(biāo)簽特定特征進(jìn)行多標(biāo)簽學(xué)習(xí),利用K-means 算法對(duì)每個(gè)類別標(biāo)簽進(jìn)行聚類分析,根據(jù)聚類分析結(jié)果學(xué)習(xí)標(biāo)簽的特定特征,最后利用二元分類器進(jìn)行多標(biāo)簽分類。MLLS[25]算法同時(shí)考慮了實(shí)例信息和標(biāo)簽信息學(xué)習(xí)通用特征和標(biāo)簽特定特征,最后進(jìn)行多標(biāo)簽分類。此外,LF-LPLC[26]算法同時(shí)集成標(biāo)簽特定特征和局部成對(duì)標(biāo)簽相關(guān)性進(jìn)行多標(biāo)簽分類。將原始特征空間轉(zhuǎn)化為低維標(biāo)簽特定特征空間,采用最近鄰算法考慮每對(duì)標(biāo)簽之間的局部相關(guān)性,用于擴(kuò)展每個(gè)標(biāo)簽的特定特征,最后利用二元分類器進(jìn)行多標(biāo)簽分類。LSGL[27]算法同時(shí)利用標(biāo)簽特定特征以及全局和局部相關(guān)性進(jìn)行多標(biāo)簽學(xué)習(xí),利用L1 范數(shù)提取每個(gè)類標(biāo)簽的標(biāo)簽特定特征,學(xué)習(xí)高階全局標(biāo)簽相關(guān)性和標(biāo)簽局部平滑性,在學(xué)習(xí)低維標(biāo)簽特定特征表示后,利用二元分類器進(jìn)行多標(biāo)簽分類學(xué)習(xí)。與此同時(shí),LSDM[28]利用標(biāo)簽特定判別映射特征來(lái)解決多標(biāo)簽分類問(wèn)題。LSDM通過(guò)聚類分析構(gòu)建包含距離信息和空間拓?fù)浣Y(jié)構(gòu)的標(biāo)簽特定特征空間,利用線性判別分析挖掘每個(gè)標(biāo)簽的最優(yōu)組合,最后進(jìn)行多標(biāo)簽分類。然而,上述算法大多數(shù)并沒(méi)有充分利用標(biāo)簽和特征的流形結(jié)構(gòu)信息,導(dǎo)致生成次優(yōu)結(jié)果。
在多標(biāo)簽學(xué)習(xí)研究中,特征信息和標(biāo)簽信息同樣重要。最近的研究發(fā)現(xiàn),引入流形學(xué)習(xí)方法可以充分利用標(biāo)簽信息和特征信息。例如,MDFS[29]算法利用流形正則化從原始特征空間生成低維嵌入,再利用標(biāo)簽的全局和局部相關(guān)性進(jìn)行多標(biāo)簽特征選擇。MRDM[30]算法將流形正則化和依賴最大化相結(jié)合進(jìn)行多標(biāo)簽特征選擇,該算法引入HSIC(Hilbert-Schmidt Independence Criterion)測(cè)量來(lái)評(píng)估流形空間和標(biāo)簽空間之間的依賴性。此外,DRMFS[31]算法同時(shí)采用特征圖正則化和標(biāo)簽圖正則化以保持特征和標(biāo)簽的幾何結(jié)構(gòu)進(jìn)行多標(biāo)簽特征選擇。為增強(qiáng)特征選擇方法的魯棒性,在損失函數(shù)中還添加了L1 和L2 范數(shù)。LA-ADMM[32]算法是一種增強(qiáng)型矩陣補(bǔ)全模型,在多標(biāo)簽學(xué)習(xí)中利用流形正則化處理標(biāo)簽缺失問(wèn)題。該算法使用圖拉普拉斯算子規(guī)范秩最小化過(guò)程,以確保標(biāo)簽空間上的標(biāo)簽平滑度。上述多標(biāo)簽學(xué)習(xí)算法均利用流形學(xué)習(xí)方法進(jìn)行多標(biāo)簽學(xué)習(xí)。然而,在大多數(shù)情況下,它們都只是進(jìn)行多標(biāo)簽特征選擇,不能直接進(jìn)行多標(biāo)簽分類。
本文提出一種結(jié)合標(biāo)簽特定特征、雙拉普拉斯正則化和因果推斷的多標(biāo)簽學(xué)習(xí)算法。利用線性回歸建立多標(biāo)簽?zāi)P偷幕痉诸惪蚣埽ㄟ^(guò)標(biāo)簽之間的因果關(guān)系提高模型性能。在投影過(guò)程中,通過(guò)標(biāo)簽幾何結(jié)構(gòu)以及特征相似度組成雙拉普拉斯正則化,有效保持?jǐn)?shù)據(jù)的局部流形結(jié)構(gòu)。本文將標(biāo)簽因果推斷以及雙拉普拉斯正則化聯(lián)合在1 個(gè)整體的框架中,可以有效提取標(biāo)簽特定特征并進(jìn)行多標(biāo)簽分類。
在多標(biāo)簽學(xué)習(xí)中設(shè)實(shí)例特征矩陣X=[x1,x2,…,xn]T?Rn×d相應(yīng)的標(biāo)簽矩陣為Y=[y1,y2,…,yn]T?Rn×m,其中,n代表數(shù)據(jù)集的實(shí)例個(gè)數(shù),d為數(shù)據(jù)集的實(shí)例特征個(gè)數(shù),m為數(shù)據(jù)集的標(biāo)簽個(gè)數(shù)。多標(biāo)簽訓(xùn)練集設(shè)為S={(xi,yi)|(1 ≤i≤n)},其中,xi={xi1,xi2,…,xid} 為實(shí)例特征向量,yi={yi1,yi2,…,yim}為標(biāo)簽向量。當(dāng)標(biāo)簽yi屬于實(shí)例xi時(shí),yij=1,否則yij=0。
多標(biāo)簽分類的目標(biāo)是建立1 個(gè)映射關(guān)系:f:X→2Y。由LLSF[33]可知,每個(gè)類別標(biāo)簽都具有標(biāo)簽特定的特征,并且與原始特征相比,這些標(biāo)簽的特定特征是稀疏的。因此,與LLSF 類似,在處理多標(biāo)簽分類問(wèn)題時(shí),通過(guò)線性回歸模型和L1范數(shù)正則化學(xué)習(xí)標(biāo)簽的特定特征[34]。優(yōu)化的目標(biāo)函數(shù)可定義為:
其 中:W=[w1,w2,…,wm]Τ?Rd×m為系數(shù)矩陣;L1 范數(shù)正則化可以模擬標(biāo)簽的稀疏化過(guò)程;β為權(quán)衡系數(shù),控制模型的復(fù)雜度,避免模型過(guò)擬合。W中的非零元素可以確定標(biāo)簽的特定特征,因此,通過(guò)學(xué)習(xí)系數(shù)矩陣W可以有效區(qū)分相應(yīng)的類別標(biāo)簽。
在多標(biāo)簽學(xué)習(xí)研究中可以發(fā)現(xiàn),標(biāo)簽之間存在較強(qiáng)的關(guān)聯(lián)性。為提高模型的分類能力,探索標(biāo)簽之間的潛在關(guān)系具有重要的研究意義。
當(dāng)標(biāo)簽之間存在強(qiáng)關(guān)聯(lián)性時(shí),對(duì)應(yīng)的特征也有類似的關(guān)聯(lián)性。假設(shè)2 個(gè)不同的標(biāo)簽yi和yj具有強(qiáng)相關(guān)性,它們對(duì)應(yīng)的標(biāo)簽特定特征wi和wj具有較高的相似性。反之,在不相關(guān)標(biāo)簽之間的標(biāo)簽特定特征就不相似。因此,本文采用一種新穎的標(biāo)簽因果相關(guān)性來(lái)優(yōu)化模型,利用標(biāo)簽之間的因果關(guān)系提高模型性能。優(yōu)化的目標(biāo)函數(shù)可以寫(xiě)為:
其中:R?Rm×m表示標(biāo)簽因果關(guān)系矩陣;α為權(quán)衡系數(shù),用于控制標(biāo)簽因果關(guān)系對(duì)模型系數(shù)W的相對(duì)重要性。由于標(biāo)簽因果關(guān)系為非對(duì)稱的,因此R為1 個(gè)非嚴(yán)格對(duì)稱的矩陣。為了防止R對(duì)優(yōu)化目標(biāo)函數(shù)中的第2 項(xiàng)產(chǎn)生不利影響,本文將R定義為R=(R+RT)/2。此外,對(duì)于式(2)中的第2 項(xiàng),本文采用因果學(xué)習(xí)機(jī)[35]學(xué)習(xí)標(biāo)簽之間的因果關(guān)系,其中標(biāo)簽因果關(guān)系矩陣R通過(guò)GSBN[36]算法計(jì)算得到。在考慮標(biāo)簽因果關(guān)系的基礎(chǔ)上,本文利用常用的歐氏距離度量標(biāo)簽特定特征之間的相似性。當(dāng)標(biāo)簽yi和標(biāo)簽yj具有因果相關(guān)性時(shí),對(duì)應(yīng)的系數(shù)向量wi和wj往往會(huì)非常接近,即標(biāo)簽的特定特征具有強(qiáng)相似性。
式(2)的優(yōu)化目標(biāo)是生成標(biāo)簽的特定特征,用于多標(biāo)簽分類。這個(gè)過(guò)程可以被認(rèn)為是從高維的實(shí)例特征空間中學(xué)習(xí)一種低維的映射表示,然后進(jìn)行多標(biāo)簽分類。在映射過(guò)程中,本文最大的目標(biāo)是減少原始數(shù)據(jù)的冗余特征,使學(xué)習(xí)到的低維特定特征對(duì)標(biāo)簽具有較強(qiáng)的辨識(shí)度[37]。在以往的研究中,保持原始特征數(shù)據(jù)的局部流形數(shù)據(jù)結(jié)構(gòu)至關(guān)重要[38-39]。因此,本文在投影過(guò)程中加入雙拉普拉斯正則化,進(jìn)而有效地保持原始數(shù)據(jù)的局部流形結(jié)構(gòu)。式(2)的目標(biāo)函數(shù)可以優(yōu)化為:
其中:L1(W)和L2(W)為雙拉普拉斯正則化;λ1和λ2為相應(yīng)的平衡參數(shù),用來(lái)權(quán)衡局部結(jié)構(gòu)對(duì)模型系數(shù)的相對(duì)重要性。
根據(jù)問(wèn)題假設(shè),對(duì)于式(3)中的第4 項(xiàng),如果原始特征xi和xj結(jié)構(gòu)相似,那么它們的低維映射表示也應(yīng)該是相互封閉的,即對(duì)應(yīng)的系數(shù)向量wi和wj是相似的。因此,本文構(gòu)建以下模型捕捉特征之間的局部關(guān)系。該正則化可以根據(jù)特征xi和xj之間的相似性調(diào)整系數(shù)向量wi和wj,其表達(dá)式為:
其中:Sij為特征親和力矩陣的第i行第j個(gè)元素。本文采用高斯核函數(shù)定義Sij:
其中:t?R;Nk(wi)表示wi的第k個(gè)近鄰集。通過(guò)以下推導(dǎo),L1(W)可以寫(xiě)成如下形式:
其中:M?Rd×d為對(duì)角矩陣;LS=M-S為對(duì)應(yīng)的拉普拉斯矩陣。
另一個(gè)拉普拉斯正則化項(xiàng)為式(3)中的最后一項(xiàng)。如果標(biāo)簽yi和標(biāo)簽yj非常接近,那么它們對(duì)應(yīng)的xiW和xjW也應(yīng)該更加緊密。因此,構(gòu)建標(biāo)簽圖的拉普拉斯正則化,根據(jù)標(biāo)簽yi和yj的相似度調(diào)整系數(shù)矩陣W,使得W能更好地學(xué)習(xí)標(biāo)簽特定特征用于多標(biāo)簽分類,其表達(dá)式如下:
其中:P?Rn×n為對(duì)角矩陣為P的 第i個(gè) 對(duì)角元素為標(biāo)簽相似度矩陣A的拉普拉斯矩陣;Aij為標(biāo)簽相似度矩陣A第i行、第j列的元素,表示標(biāo)簽yi和yj之間的相似度。標(biāo)簽相似度矩陣A可以采用多種方法給出,利用核函數(shù)構(gòu)造標(biāo)簽關(guān)聯(lián)矩陣A:
其中:t?R。綜上所述,本文最終的目標(biāo)函數(shù)可以優(yōu)化為:
從式(9)目標(biāo)函數(shù)的優(yōu)化模型中可以看出,在基本的線性多標(biāo)簽分類模型框架下,本文通過(guò)特征相似度和標(biāo)簽幾何結(jié)構(gòu)組成的雙拉普拉斯正則化、標(biāo)簽因果關(guān)系建模多標(biāo)簽分類模型。因此,本文將標(biāo)簽因果關(guān)系以及雙拉普拉斯正則化聯(lián)合在1 個(gè)整體的框架中,不僅可以有效提取標(biāo)簽的特定特征,而且還可以進(jìn)行多標(biāo)簽分類。
本節(jié)目的是對(duì)MLDL 模型進(jìn)行求解,由式(9)可以看出,目標(biāo)函數(shù)的最小化問(wèn)題是1 個(gè)凸優(yōu)化問(wèn)題。在凸優(yōu)化問(wèn)題中存在目標(biāo)函數(shù)不可微的情況。一般的解決方案是通過(guò)迭代引入次梯度法(SD)[40]或者引入交替方向乘子法(ADMM)[41]。然而,次梯度法的收斂速度比梯度下降法慢,同時(shí)ADMM 需要在非光滑目標(biāo)函數(shù)的基本框架上引入多個(gè)輔助變量乘子,極大程度地減慢算法的收斂速度。當(dāng)凸函數(shù)整體不可微但非光滑可以分解為可微和不可微函數(shù)時(shí),加速近端梯度算法的收斂速度可以達(dá)到二階收斂,相比其他方法有明顯的速度優(yōu)勢(shì)。同時(shí)由于L1 范數(shù)正則化具有不光滑性,因此目標(biāo)函數(shù)的優(yōu)化趨于非光滑。受文獻(xiàn)[42]的啟發(fā),通過(guò)加速近端梯度法(APG)[43]求解目標(biāo)函數(shù)。在式(10)中,本文用Φ表示模型系數(shù)。由APG 算法可知,目標(biāo)函數(shù)的凸優(yōu)化問(wèn)題可以寫(xiě)成:
其中:Η 為希爾伯特空間;f(?)為凸可微函數(shù);g(?)為凸不可微函數(shù)。fW(Φ)和gW(Φ)可以表示為:
APG 算法并不是直接最小化F(·),而是最小化F(·)的可分離2 次接近序列Q(·),記為:
其 中:(·)+=max(·,0);1 ≤i≤d;1 ≤j≤l。
為證明式(9)的利普希茨連續(xù)性,根據(jù)式(15)和西爾維斯特不等式,得到如下結(jié)論:
本文在算法1 中總結(jié)利用APG 算法求解MLDL的優(yōu)化步驟,將訓(xùn)練數(shù)據(jù)集X?Rn×d、標(biāo)簽訓(xùn)練矩陣Y?Rn×m、權(quán)重參數(shù)α、β、λ1、λ2、γ作為輸入,最終經(jīng)過(guò)迭代求出模型系數(shù)矩陣W,得到學(xué)習(xí)到的標(biāo)簽特定特征。步驟主要有:
1)初始化:b0=b1=1,k=1,W0=W1=(XΤX+γI)-1XΤY;
2)采用因果學(xué)習(xí)機(jī)計(jì)算標(biāo)簽因果矩陣R;
3)利用式(5)計(jì)算特征親和力矩陣S,并且計(jì)算LS=M-S;
4)利用式(8)計(jì)算標(biāo)簽關(guān)聯(lián)矩陣A,并且計(jì)算
5)利用式(21)計(jì)算利普希茨常數(shù)Lf;
10)k=k+1;
11)直到收斂。
此外,算法2 總結(jié)本文所提MLDL 算法的測(cè)試過(guò)程。利用算法1 得到的模型系數(shù)矩陣W和測(cè)試集Xtest,以及閾值τ,Ytest給定閾值τ通過(guò)Sign(Stest-τ)獲得預(yù)測(cè)的標(biāo)簽Ytest,其中Stest=XtestW。MLDL 算法將生成標(biāo)簽特定特征與后續(xù)分類模型統(tǒng)一到1 個(gè)框架中進(jìn)行多標(biāo)簽分類。當(dāng)學(xué)習(xí)到標(biāo)簽的特定特征之后,MLDL 還可以結(jié)合二元分類器進(jìn)行多標(biāo)簽分類。
本節(jié)主要對(duì)MLDL 算法優(yōu)化部分的復(fù)雜度進(jìn)行分析,算法的復(fù)雜度主要取決于算法不收斂時(shí)的迭代過(guò)程。在MLDL 算法中,X?Rn×d,Y?Rn×m,W?Rd×m,R?Rm×m,其中,n表示樣本個(gè)數(shù),d表示樣本維數(shù),m表示類標(biāo)簽個(gè)數(shù)。迭代中最耗時(shí)部分為式(17),其復(fù)雜度為O(d2m+ndm+dm2),當(dāng)進(jìn)行t次迭代時(shí),總的時(shí)間復(fù)雜度為O((n+d+m)mdt)。實(shí)驗(yàn)中,迭代次數(shù)一般不超過(guò)80 次。當(dāng)訓(xùn)練數(shù)據(jù)集滿足n?d>m時(shí),MLDL 的時(shí)間復(fù)雜度與樣本數(shù)量n成正比。此外,由于本文學(xué)習(xí)的標(biāo)簽特定特征W是稀疏的,因此實(shí)際時(shí)間成本將更低。
為驗(yàn)證本文提出的MLDL 算法的有效性和競(jìng)爭(zhēng)性,本文在10 個(gè)基準(zhǔn)多標(biāo)簽數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn)評(píng)估算法性能。實(shí)驗(yàn)中所用的數(shù)據(jù)集可以在Mulan(http://mulan.sourceforget.net/datasets-mlc.html)和Yahoo(http://www.kecl.ntt.co.jp/as/members/ueda/yahoo.tar)下載。表1 所示為數(shù)據(jù)集的詳細(xì)信息。
表1 數(shù)據(jù)集的詳細(xì)信息Table 1 Detailed information of datasets
在本節(jié)中將最先進(jìn)的8 種算法和MLDL 算法的實(shí)驗(yàn)結(jié)果進(jìn)行比較。MLDL 算法可以單獨(dú)進(jìn)行多標(biāo)簽分類,也可以在提取標(biāo)簽特定特征之后和其他分類器組合,實(shí)驗(yàn)時(shí)所采用的是BSVM 分類器。此外,對(duì)比算法和MLDL 算法均對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行五折交叉驗(yàn)證,緩解模型過(guò)擬合問(wèn)題以及避免數(shù)據(jù)集劃分不合理導(dǎo)致實(shí)驗(yàn)結(jié)果可靠性降低。對(duì)比算法的模型參數(shù)均采用原始文獻(xiàn)中提供的范圍進(jìn)行網(wǎng)格搜索得到的。
1)LLSF[33]是一種在基于標(biāo)簽特定特征的多標(biāo)簽分類方法。模型參數(shù)α,β?{2-10,…,210},閾值τ=0.5。
2)LIFT[24]探索每個(gè)標(biāo)簽的正負(fù)實(shí)例聚類結(jié)果,學(xué)習(xí)標(biāo)簽特定特征進(jìn)行多標(biāo)簽分類。聚類比率r=0.1。
3)ML-KNN[12]是一種多標(biāo)簽學(xué)習(xí)的懶惰學(xué)習(xí)方法,通過(guò)經(jīng)典的k 近鄰方法進(jìn)行多標(biāo)簽分類。本文實(shí)驗(yàn)中最近鄰數(shù)k=10,平滑參數(shù)s=1。
4)JLCLS[44]是一種聯(lián)合標(biāo)簽補(bǔ)全和標(biāo)簽特定特征的多標(biāo)簽學(xué)習(xí)方法,模型參數(shù)α、β和θ取值范圍為{2-10,2-9,…,29,210},γ的取值范圍為{0.1,1,10}。
5)BDLS[45]是一種基于雙向映射和標(biāo)簽特定特征進(jìn)行多標(biāo)簽分類方法。模型參數(shù)α、λ和β區(qū)間為{2-7,2-6…,26,27},γ的取值范圍為{0.01,0.1,1,10},閾值τ=0.5。
6)LSGL[27]是一種聯(lián)合學(xué)習(xí)標(biāo)簽特定特征以及全局和局部標(biāo)簽相關(guān)性的多標(biāo)簽分類算法。在{10-3,10-2,…,102,103} 中尋找折中參數(shù)λ1,在{10-3,10-2,…,101}中尋找λ2、λ3、λ4、λ5。
7)WRAP[46]是一種在嵌入特征空間學(xué)習(xí)標(biāo)簽的特定特征進(jìn)行多標(biāo)簽分類算法。模型參數(shù)λ1、λ2取值范圍為{0,1,…,10},λ3=0.1,α=0.9。
8)MLDL 是本文提出的一種聯(lián)合雙拉普拉斯和因果推斷的多標(biāo)簽分類方法。模型參數(shù)α、β、λ1和λ2的區(qū)間為{2-7,2-6,…,23,24},閾值τ=0.5。
9)MLDL-SVM 利 用MLDL 提取標(biāo)簽的特定特征,再通過(guò)SVM 訓(xùn)練每個(gè)二分類器進(jìn)行多標(biāo)簽分類。模型參數(shù)α、β、λ1和λ2取值范圍和MLDL 相同。
本文在Windows 10、Intel?CoreTMi7-7700K、16 GB RAM 上進(jìn)行實(shí)驗(yàn),方法在MATLAB 2016b 中實(shí)現(xiàn)。本文選取6 個(gè)廣泛使用的多標(biāo)簽分類評(píng)價(jià)指標(biāo)對(duì)每種算法進(jìn)行評(píng)價(jià),包括漢明損失(Hamming Loss,HL)[47]、1 次錯(cuò)誤率(One Error,OE)[47]、覆蓋率(CV)[47]、排序損失(Ranking Loss,RL)[47]、平均精度(Average Precision,AP)[47]、ROC 曲線下的面積(AUC)[48]。AP 和AUC 值越大,算法性能越好,而其他值越小,算法性能越好。給定測(cè)試集Dt=設(shè)h(xi)為多標(biāo)簽分類器,f(xi,y)為預(yù)測(cè)函數(shù),rankf為排序函數(shù)。
HL 計(jì)算錯(cuò)誤分類的實(shí)例標(biāo)簽對(duì)數(shù)量,表示實(shí)例樣本的實(shí)際標(biāo)簽和預(yù)測(cè)標(biāo)簽之間的錯(cuò)誤匹配數(shù)量。漢明損失的計(jì)算式如下:
AP 計(jì)算特定標(biāo)簽排列的正確標(biāo)簽的平均分?jǐn)?shù),計(jì)算式如下:
OE 計(jì)算排名最高的標(biāo)簽不在相關(guān)標(biāo)簽集中實(shí)例的得分,計(jì)算式如下:
RL 評(píng)估不相關(guān)標(biāo)簽的排名高于相關(guān)標(biāo)簽的指標(biāo),計(jì)算式如下:
CV 用于評(píng)估遍歷給定樣本的所有相關(guān)標(biāo)簽的平均步數(shù)指標(biāo),計(jì)算式如下:
AUC 評(píng)估所有類別標(biāo)簽的平均AUC,計(jì)算式如下:
本文介紹9 種算法在10 個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。對(duì)于每個(gè)數(shù)據(jù)集,使用5 倍交叉驗(yàn)證進(jìn)行系統(tǒng)評(píng)估,將數(shù)據(jù)集的80%作為訓(xùn)練集,20%作為測(cè)試集,對(duì)所有算法進(jìn)行5 次重復(fù)實(shí)驗(yàn),得到實(shí)驗(yàn)結(jié)果如表2~表7 所示,加粗表示最優(yōu)數(shù)據(jù)。本文從表2~表7的實(shí)驗(yàn)結(jié)果得到如下結(jié)論:
表2 在10 個(gè)數(shù)據(jù)集上不同算法的的漢明損失Table 2 Hamming loss among different algorithms on ten datasets
1)從表2 和表3 可以看出,除了Cal500 以外其他數(shù)據(jù)集上MLDL-SVM 的HL 和AP 都表現(xiàn)最佳的性能。從表4 可以看出,在所有數(shù)據(jù)集上MLDL-SVM算法的OE 都優(yōu)于其他算法。從表5 可以看出,MLDL-SVM 在7 個(gè)數(shù)據(jù)集上RL 最佳,其次是LIFT和WRAP。從 表6 和表7 可以看出,在Social、Entertainment 等數(shù)據(jù)集上MLDL-SVM 表現(xiàn)出最優(yōu)的實(shí)驗(yàn)結(jié)果。因此,本文提出的MLDL-SVM 算法具有更優(yōu)的性能。
表3 在10 個(gè)數(shù)據(jù)集上不同算法的平均精度Table 3 Average precision among different algorithms on ten datasets
表4 在10 個(gè)數(shù)據(jù)集上不同算法的1 次錯(cuò)誤率Table 4 One error among different algorithms on ten datasets
表5 在10 個(gè)數(shù)據(jù)集上不同算法的排序損失Table 5 Ranking loss among different algorithms on ten datasets
表6 在10 個(gè)數(shù)據(jù)集上不同算法的覆蓋率Table 6 Coverage rate among different algorithms on ten datasets
表7 在10 個(gè)數(shù)據(jù)集上不同算法的AUCTable 7 AUC among different algorithms on ten datasets
2)從整體上看,在Social、Entertainment、Education、Science 和Reference 5 個(gè)數(shù)據(jù)集上,MLDL-SVM 算法相較于其他算法均表現(xiàn)出更優(yōu)的性能,說(shuō)明本文提出的MLDL-SVM 具有一定的有效性和競(jìng)爭(zhēng)性。
3)通過(guò)比較MLDL-SVM、MLDL、LIFT 算法的實(shí)驗(yàn)結(jié)果可以看出,在大多數(shù)情況下,MLDL-SVM算法性能更優(yōu)。由于LIFT 算法和MLDL-SVM 算法類似,都是先提取標(biāo)簽特定特征再用SVM 進(jìn)行多標(biāo)簽分類,因此進(jìn)一步說(shuō)明本文所提算法在提取標(biāo)簽特定特征上的有效性。
為進(jìn)一步驗(yàn)證MLDL 和MLDL-SVM 算法的有效性,本文采用額外的統(tǒng)計(jì)假設(shè)檢驗(yàn)方法對(duì)所有對(duì)比算法的相對(duì)性能進(jìn)行評(píng)估。本文采用Friedman 檢驗(yàn)方法[49]進(jìn)行性能分析。表8 所示為在6 個(gè)評(píng)價(jià)指標(biāo)下MLDL-SVM 對(duì)應(yīng)的Friedman 統(tǒng)計(jì)量FF。當(dāng)臨界值α=0.05 時(shí),評(píng)價(jià)指標(biāo)下的值為2.069 8。基于此,本文采用Nemenyi 檢驗(yàn)[49]作為事后檢驗(yàn)方法比較各個(gè)對(duì)比算法的性能,進(jìn)一步驗(yàn)證MLDL 和MLDL-SVM 算法的競(jìng)爭(zhēng)性。如果2 個(gè)算法的平均排序小于臨界差異(Critical Difference,CD)(CCD=,則認(rèn)為2 個(gè)算法之間沒(méi)有顯著性差異。相反,若2 個(gè)算法之間的平均排名大于臨界值時(shí),說(shuō)明2 種算法具有顯著差異。
表8 在評(píng)價(jià)指標(biāo)下MLDL-SVM 對(duì)應(yīng)的Friedman 檢驗(yàn)Table 8 Friedman test corresponding to MLDL-SVM under evaluation indicators
當(dāng)顯著性水平α=0.05 時(shí),qα=3.102,CCD=3.799 2(k=9,N=10)。圖1 所示為在6 個(gè)評(píng)價(jià)指標(biāo)下9 種對(duì)比算法的臨界差異圖。實(shí)線連接表示算法之間沒(méi)有顯著性差異,相反,沒(méi)有被實(shí)線連接的算法之間具有顯著性差異。
圖1 不同算法的臨界差異示意圖Fig.1 Schematic diagram of critical difference among different algorithms
從圖1 可以看出,當(dāng)實(shí)線將MLDL-SVM 算法和其他比較算法相連接時(shí),表示MLDL-SVM 算法和該算法沒(méi)有顯著性差異。由圖1(a)可知,在HL 評(píng)價(jià)指標(biāo)上,MLDL-SVM、LSGL、LIFT、JLCLS 和WRAP 算法之間沒(méi)有顯著性差異。從圖1(b)可以看出,在CV 評(píng)價(jià)指標(biāo)上MLDL-SVM 分別和WRAP、JLCLS、LLSF 具有顯著性差異。從圖1(c)可以看出,在AP 評(píng)價(jià)指標(biāo)上MLDL-SVM、LSGL、LIFT、JLCLS 和WRAP 算法之間沒(méi)有顯著性差異。從圖1(d)可以看出,在OE 評(píng)價(jià)指標(biāo)上MLDL-SVM、LSGL、LIFT 和JLCLS 算法之間沒(méi)有顯著性差異。此外,從圖1(e)可以看出,在RL 評(píng)價(jià)指標(biāo)上MLDL-SVM、BDLS、LIFT 和MLDL 算法之間無(wú)顯著性差異。從圖1(f)可以看出,在評(píng)價(jià)指標(biāo)AUC上MLDL-SVM 分別與LLSF、JLCLS、LSGL 存在顯著性差異。因此,在50%的情況下,MLDL-SVM 算法顯著性優(yōu)于其他算法。
從整體上看,MLDL-SVM 算法在6個(gè)評(píng)價(jià)指標(biāo)上的平均排名均最優(yōu)。通過(guò)比較MLDL-SVM 和LIFT可以看出,在同樣采用BSVM 作為分類器時(shí),MLDLSVM 算法優(yōu)于LIFT 算法,側(cè)面反映MLDL-SVM 在提取標(biāo)簽特定特征上比LIFT 更優(yōu)。
比較MLDL 和BDLS 算法可以看出,在多數(shù)情況下2 種算法無(wú)顯著性差異,然而MLDL 在HL、AP和AUC 上具有更優(yōu)的排名。其原因?yàn)镸LDL 加入雙拉普拉斯正則化,充分利用標(biāo)簽和特征的信息,因此具有較優(yōu)的分類效果。
本節(jié)進(jìn)行MLDL 的參數(shù)敏感性分析實(shí)驗(yàn)。在MLDL 算法中有4 個(gè)重要的平衡參數(shù)α、β、λ1和λ2。α控制標(biāo)簽因果關(guān)系對(duì)模型系數(shù)的影響。β控制模型系數(shù)W的稀疏性。λ1和λ2分別控制標(biāo)簽局部流形結(jié)構(gòu)和特征局部流形結(jié)構(gòu)對(duì)模型系數(shù)的影響。圖2所示為MLDL 算法在Medical數(shù)據(jù)集上AP、RL 和HL 的評(píng)價(jià)指標(biāo),并且在其他數(shù)據(jù)集上也有類似的結(jié)果。圖2(a)所示為當(dāng)固定參數(shù)λ1和λ2時(shí),參數(shù)α和β在區(qū)間{2-5,2-4,…,24,25}上的變化曲線圖。圖2(b)所示為固定參數(shù)α和β時(shí),參數(shù)λ1和λ2在區(qū)間{2-5,2-4,…,24,25}的變化曲線,通過(guò)網(wǎng)格搜索得到固定的參數(shù)。從圖2可以看出,當(dāng)β過(guò)大時(shí),MLDL 的性能較差。由于β控制著模型系數(shù)的稀疏性,β過(guò)大使得MLDL 無(wú)法有效提取標(biāo)簽的特定特征。此外,當(dāng)λ1過(guò)小時(shí),MLDL 性能也較差。該結(jié)果進(jìn)一步說(shuō)明標(biāo)簽的局部流形結(jié)構(gòu)在MLDL 中的重要作用。因此,參數(shù)λ1不能設(shè)置太小。MLDL 在大多數(shù)情況下對(duì)參數(shù)α和λ2不敏感。從圖2 可以看出,每個(gè)參數(shù)在一定范圍內(nèi)是相對(duì)不敏感的,超過(guò)一定范圍算法的性能就會(huì)下降。
圖2 MLDL 算法參數(shù)敏感性分析Fig.2 Parameter sensitivity analysis of MLDL algorithm
為進(jìn)一步驗(yàn)證所提的標(biāo)簽因果推斷和雙拉普拉斯正則化的有效性,本文對(duì)MLDL 算法進(jìn)行成分分析實(shí)驗(yàn),并在10 個(gè)數(shù)據(jù)集上進(jìn)行額外實(shí)驗(yàn)。MLDL算法有3 個(gè)變體算法:1)只考慮因果推斷和拉普拉斯正則化第1 項(xiàng)特征流形正則化的MLDL-L 算法;2)只考慮因果推斷和拉普拉斯正則化第2 項(xiàng)標(biāo)簽流形正則的MLDL-F 算法;3)只考慮雙拉普拉斯正則化的MLDL-C 算法。圖3 所示為在10 個(gè)數(shù)據(jù)集上MLDL 算法及其變體算法的評(píng)價(jià)指標(biāo)對(duì)比。
圖3 MLDL 算法及其變體算法的評(píng)價(jià)指標(biāo)對(duì)比Fig.3 Comparison of evaluation indicators for MLDL algorithm and its variant algorithms
本文選取AUC、CV 和HL 作為評(píng)價(jià)指標(biāo),其中AUC 越高算法性能越好,其他均是值越小算法性能越好。從圖3 可以看出,MLDL 算法在所有情況下都優(yōu)于其他3 種變體算法,證明雙拉普拉斯正則化和因果推斷的有效性。此外,從圖3(a)、圖3(b)和圖3(c)可以看出,在AUC、CV 和HL 評(píng)價(jià)指標(biāo)上,MLDL 算法表現(xiàn)出最優(yōu)的性能。因此,MLDL 算法的雙拉普拉斯正則化和標(biāo)簽因果推斷都提升模型的多標(biāo)簽分類性能,側(cè)面反映MLDL 算法的有效性和競(jìng)爭(zhēng)性。
本節(jié)對(duì)MLDL 算法的收斂性進(jìn)行分析實(shí)驗(yàn)。圖4 所示為MLDL 算法在Medical 和Arts 數(shù)據(jù)集上的收斂曲線。從圖4 可以看出,MLDL 算法在迭代70 次左右呈現(xiàn)收斂趨勢(shì)。此外,在其他數(shù)據(jù)集上也都在迭代70 次左右收斂。因此,在實(shí)驗(yàn)中采用的公開(kāi)數(shù)據(jù)集上MLDL 算法都能快速收斂。
圖4 MLDL 算法的收斂性分析Fig.4 Convergence analysis of MLDL algorithm
本文提出一種基于雙拉普拉斯正則化和因果推斷的多標(biāo)簽學(xué)習(xí)算法。在統(tǒng)一的線性多標(biāo)簽分類模型框架下,引入雙拉普拉斯正則化有效地保持原始數(shù)據(jù)的局部流形結(jié)構(gòu),加入因果推斷深入挖掘標(biāo)簽潛在的內(nèi)在聯(lián)系。通過(guò)線性回歸方法建立多標(biāo)簽學(xué)習(xí)的基本框架,加入因果推斷深入探討標(biāo)簽之間的相互關(guān)系,最后引入雙拉普拉斯正則化保持原始特征數(shù)據(jù)的局部流形結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明,相比多個(gè)主流算法,該算法性能表現(xiàn)更佳。由于加入雙拉普拉斯正則化只是保持原始數(shù)據(jù)的局部流形結(jié)構(gòu),因此下一步將利用雙拉普拉斯正則化進(jìn)行局部和全局標(biāo)簽關(guān)系的結(jié)合。