黃 俊,田佳洪
(1.安徽工業(yè)大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 馬鞍山 243032; 2.合肥綜合性國家科學(xué)中心人工智能研究院,安徽 合肥 230088)
在機(jī)器學(xué)習(xí)[1]的研究中,標(biāo)記多義性問題受到廣泛關(guān)注。單標(biāo)記學(xué)習(xí)(single-label learning,SLL)和多標(biāo)記學(xué)習(xí)(multi-label learning,MLL)[2,3]是解決此問題比較成熟的兩種機(jī)器學(xué)習(xí)范式。二者雖然能解決“示例可以被哪個/些標(biāo)記描述”的問題,但是卻不能解決“每個標(biāo)記可以在多大程度上描述示例”的問題。為了解決這一問題,Geng等[4]提出了標(biāo)記分布學(xué)習(xí)(label distribution learning,LDL)。LDL在描述每一個示例時,給描述此示例的每個標(biāo)記一個描述度,準(zhǔn)確地表示出每個標(biāo)記在示例的描述程度上的差異,強(qiáng)化了標(biāo)注信息的能力?,F(xiàn)有的LDL專用方法大多僅關(guān)注學(xué)習(xí)模型的設(shè)計,將模型建立在原始高維特征空間上,并且從全局的角度探索和利用標(biāo)記相關(guān)性。這樣做只是簡單的讓所有特征被所有標(biāo)記共享,忽略了實(shí)際分類學(xué)習(xí)任務(wù)中無關(guān)和冗余特征對算法性能的影響。并且,在現(xiàn)實(shí)世界的任務(wù)中,不同組示例間大多共享不同的標(biāo)記相關(guān)性,很少有標(biāo)記相關(guān)性能全局適用。因此本文提出一種基于局部標(biāo)記相關(guān)性的標(biāo)記分布學(xué)習(xí)算法(LDL-LLC),給LDL模型同時引入特征選擇和局部標(biāo)記相關(guān)性,試圖挖掘出每組局部訓(xùn)練示例中的標(biāo)記相關(guān)性,并學(xué)習(xí)每個標(biāo)記的私有特征和所有標(biāo)記的共享特征,最終達(dá)到提高LDL算法性能的目的。
LDL的形式化表述如下。令X∈n×d為訓(xùn)練數(shù)據(jù)特征空間,D∈n×c為訓(xùn)練數(shù)據(jù)標(biāo)記分布空間,LDL是通過建立的目標(biāo)函數(shù)學(xué)得一個從X到D的映射,基于該映射可以預(yù)測未見示例的標(biāo)記分布。xi∈X為第i個示例的特征向量,與其對應(yīng)的為第i個示例的標(biāo)記分布,其中為第j個標(biāo)記對第i個示例的描述程度,且每個示例的描述程度總和
為了更好地標(biāo)注出示例的標(biāo)記分布,研究者們提出了許多LDL算法。目前,已有的LDL算法主要分為以下3類:①問題轉(zhuǎn)換方法:將LDL問題轉(zhuǎn)換為多個SLL問題,然后利用已有的SLL算法去處理這些SLL問題。這類算法包括PT-SVM和PT-Bayes算法[4]。②算法適應(yīng)方法:直接修改已有SLL和MLL算法的一些約束條件,使其可以處理LDL問題。這類算法包括AA-kNN和AA-BP算法[4]。③專用方法:直接聚焦標(biāo)記分布的預(yù)測問題,通常由輸出模型、目標(biāo)函數(shù)和優(yōu)化求解3部分組成。這類算法的典型代表包括SA-IIS[4]和CPNN算法[5]。
現(xiàn)有的LDL專用方法大多僅關(guān)注學(xué)習(xí)模型的設(shè)計,將模型直接建立在原始高維特征空間上,忽略了實(shí)際分類學(xué)習(xí)任務(wù)中無關(guān)和冗余特征的存在。當(dāng)訓(xùn)練數(shù)據(jù)特征空間維度較高時,示例的標(biāo)注結(jié)果就可能會受到無關(guān)和冗余特征的影響而變差。
LSE-LDL算法[6]和LDLSF算法[7]是兩種將學(xué)習(xí)模型和特征選擇結(jié)合起來的算法。LSE-LDL算法為減少噪音特征的干擾,將具有鑒別性的特征編碼為潛在語義特征。同時,為了消除無關(guān)和冗余特征,對權(quán)重參數(shù)矩陣采用l2,1范數(shù)正則化約束來選擇一些與潛在語義特征空間最相關(guān)的原始特征。LDLSF算法利用l1和l2,1范數(shù)對權(quán)重參數(shù)進(jìn)行正則化約束,來學(xué)習(xí)每個標(biāo)記的私有特征和所有標(biāo)記的共享特征。
現(xiàn)有的LDL算法大多從全局角度利用標(biāo)記間的相關(guān)性[9]。然而,在現(xiàn)實(shí)世界的任務(wù)中,不同的示例大多共享不同的標(biāo)記相關(guān)性,并且標(biāo)記間的相關(guān)性很少能全局適用。GD-LDL-SCL算法[10]將訓(xùn)練數(shù)據(jù)聚類為m組,并為每組示例設(shè)計一個局部相關(guān)向量作為每組數(shù)據(jù)的附加特征部分,在附加特征部分引入局部相關(guān)性信息。EDL-LRL算法[11]將訓(xùn)練數(shù)據(jù)聚類為m組,并利用低秩結(jié)構(gòu)去約束每組示例的預(yù)測標(biāo)記分布矩陣,來捕獲局部標(biāo)記相關(guān)性。LDL-LCLR算法[12]對聚類后的每組數(shù)據(jù)使用流形正則化器約束,來探索和利用局部標(biāo)記相關(guān)性。
上述3種利用局部標(biāo)記相關(guān)性的LDL算法,GD-LDL-SCL算法和EDL-LRL算法沒有將標(biāo)記輸出和標(biāo)記間的相關(guān)性緊密的聯(lián)系起來。LDL-LCLR算法雖然將標(biāo)記相關(guān)性約束在標(biāo)記輸出上,但聚類后的每組訓(xùn)練數(shù)據(jù)仍使用統(tǒng)一的全局標(biāo)記相關(guān)性矩陣作為度量。
本文提出的基于局部標(biāo)記相關(guān)性的標(biāo)記分布學(xué)習(xí)算法(LDL-LLC)屬于解決LDL問題的專用方法。在第2節(jié)中,2.1將介紹LDL-LLC算法的輸出模型,2.2介紹目標(biāo)函數(shù),2.3介紹優(yōu)化求解。
假設(shè)特征空間和標(biāo)記分布空間是線性相關(guān)的,則輸出模型表示為
(1)
LDL-LLC算法的目標(biāo)函數(shù)由3部分組成:2.2.1損失函數(shù)、2.2.2共享和私有特征建模和2.2.3局部標(biāo)記相關(guān)性建模。
2.2.1 損失函數(shù)
將損失函數(shù)定義為最小二乘損失函數(shù)形式,來度量預(yù)測標(biāo)記分布和真實(shí)標(biāo)記分布之間的差距。損失函數(shù)表示為
(2)
式中:D∈n×c是真實(shí)標(biāo)記分布矩陣, 1c×1和1n×1為元素都是1的列向量, 0n×c∈n×c為元素都是0的矩陣。
2.2.2 共享和私有特征建模
對W采用l1范數(shù)正則化約束來增強(qiáng)W的稀疏性,以學(xué)習(xí)標(biāo)記私有特征。同時,對W采用l2,1范數(shù)正則化約束來確保W的每一行是稀疏的,以學(xué)習(xí)所有標(biāo)記的共享特征。為了避免兩種范數(shù)正則化對變量W進(jìn)行約束時,會相互干擾,影響了特征選擇的效果。將W拆分為M和V兩個部分,一部分采用l1范數(shù)正則化進(jìn)行約束,另一部分采用l2,1范數(shù)正則化進(jìn)行約束。最后,將M和V的求和約束為W。 共享和私有特征建模表示為
(3)
式中:M∈d×c為選擇每個標(biāo)記私有特征的權(quán)重參數(shù)矩陣,V∈d×c為選擇所有標(biāo)記共享特征的權(quán)重參數(shù)矩陣。
2.2.3 局部標(biāo)記相關(guān)性建模
現(xiàn)實(shí)世界的任務(wù)中,不同的示例大多共享不同的標(biāo)記相關(guān)性,并且很少有標(biāo)記相關(guān)性是全局適用的。假設(shè)訓(xùn)練數(shù)據(jù)可以被劃分為m組 {G(1),G(2),…,G(m)}。 為了便于實(shí)現(xiàn),使用k-means作為聚類方法,將訓(xùn)練數(shù)據(jù)聚為m組。同一組示例共享相同的標(biāo)記相關(guān)性,并引入局部流形正則化器將每組示例間的標(biāo)記相關(guān)性直接約束在標(biāo)記輸出上[13]。局部標(biāo)記相關(guān)性建模表示為
(4)
(5)
式中:Lk=P(k)-R(k)∈c×c為第k組訓(xùn)練數(shù)據(jù)的拉普拉斯矩陣,其中,R(k)∈c×c為第k組訓(xùn)練數(shù)據(jù)的標(biāo)記相關(guān)性矩陣,P(k)∈c×c為對角矩陣,對角線元素是R(k)×1c×1, 1nk×1∈nk×1為元素都是1的列向量, 0nk×c∈nk×c為元素都是0的矩陣。
(6)
2.2.4 目標(biāo)函數(shù)總式
LDL-LLC算法的目標(biāo)函數(shù)由損失函數(shù)L(W)、 共享和私有特征建模F(W) 和局部標(biāo)記相關(guān)性建模R(W) 組成。表示如下
(7)
式中:λ1、λ2和λ3是平衡參數(shù)。
LDL-LLC算法的目標(biāo)函數(shù)總式共有4項。第一項是損失函數(shù),用來測量預(yù)測的標(biāo)記分布和真實(shí)標(biāo)記分布之間的距離;第二項用來學(xué)習(xí)每個標(biāo)記的私有特征;第三項用來學(xué)習(xí)所有標(biāo)記的共享特征;最后一項探索和利用了局部標(biāo)記相關(guān)性。
目標(biāo)函數(shù)式(7)有多個變量,采用交替迭代的方法求解。每次迭代只更新一個變量,其它變量固定為它們每次迭代后的最新值。
2.3.1 更新變量Z
將將變量W,M,V固定,式(7)可簡化為m個優(yōu)化問題,其中第k個問題表示為
(8)
利用MANOPT工具箱[13]對式(8)在歐幾里得空間上用線性搜索實(shí)現(xiàn)梯度下降求解,來對Zk進(jìn)行更新。式(8)的梯度表示如下
(9)
(10)
2.3.2 更新變量W
將變量M,V,Z固定,通過增廣拉格朗日乘子法[7]構(gòu)造出含有變量W的增廣拉格朗日函數(shù),使得目標(biāo)函數(shù)總式中含有變量W的約束條件轉(zhuǎn)換為無約束的形式。對于非負(fù)約束XW≥0n×c, 使用投影算子將XW中不滿足條件的元素轉(zhuǎn)換為0。轉(zhuǎn)換形式后,求解問題表示為
(11)
式中: 〈·,·〉 為兩個矩陣的點(diǎn)積, Γ1∈d×c和Γ2∈n×1為拉格朗日乘子,ρ>0為正項的懲罰標(biāo)量。
使用有限內(nèi)存擬牛頓法(L-BFGS)[14]對式(11)進(jìn)行求解。L-BFGS的計算主要與一階梯度有關(guān),式(11)一階梯度表示如下
(12)
2.3.3 更新變量M
將變量W,V,Z固定,通過增廣拉格朗日乘子法構(gòu)造出含有變量M的增廣拉格朗日函數(shù),使得目標(biāo)函數(shù)總式中含有變量M的約束條件轉(zhuǎn)換為無約束的形式。求解問題表示為
(13)
式(13)可以改寫為
(14)
改寫后的式(14)有一個閉合解,可以直接進(jìn)行求解。
2.3.4 更新變量V
將變量W,M,Z固定,通過增廣拉格朗日乘子法構(gòu)造出含有變量V的增廣拉格朗日函數(shù),使得目標(biāo)函數(shù)總式中含有變量V的約束條件轉(zhuǎn)換為無約束的形式。求解問題表示為
(15)
式(15)可以改寫為
(16)
改寫后的式(16)有一個閉合解,可以直接進(jìn)行求解。
2.3.5 更新乘子Γ1和Γ2
拉格朗日乘子Γ1和Γ2可以直接更新,更新公式表述如下
(17)
(18)
本文提出的LDL-LLC算法的總體過程見表1。
表1 LDL-LLC算法
在7個LDL真實(shí)數(shù)據(jù)集上,使用6種評價指標(biāo)將本文提出的LDL-LLC算法與6種現(xiàn)有LDL算法進(jìn)行比較。
采用7個LDL真實(shí)數(shù)據(jù)集:S-JAFFE、S-BU_3DFE、Emotion6、M2B、SCUT-FBP、Natural Scene和Movie。其中,S-JAFFE、S-BU_3DFE和Emotion6是面部表情識別數(shù)據(jù)集,M2B和SCUT-FBP是面部美容評估數(shù)據(jù)集,Natural Scene是自然場景識別數(shù)據(jù)集,Movie是電影評級數(shù)據(jù)集。7個LDL真實(shí)數(shù)據(jù)集詳細(xì)信息見表2。
表2 實(shí)驗(yàn)選用的標(biāo)記分布數(shù)據(jù)集描述
前兩個數(shù)據(jù)集S-JAFFE和S-BU_3DFE是對兩種廣泛使用的面部表情圖像數(shù)據(jù)庫JAFFE和BU_3DFE的擴(kuò)展。S-JAFFE包含213張?zhí)卣骶S度為243的表情灰度圖。60個人根據(jù)6種基本情緒標(biāo)記(即:快樂、悲傷、驚訝、恐懼、憤怒和厭惡),用5個級別的分?jǐn)?shù)對每張圖像打分。每個情緒標(biāo)記的平均得分作為其描述程度來生成一個標(biāo)記分布。同樣,SBU 3DFE包含2500張表情灰度圖,每一張圖像由23個人以相同的方式打分。
第三個數(shù)據(jù)集Emotion6是包含1980張人臉圖像,采用梯度直方圖法同時提取人臉圖像的特征,并采用PCA技術(shù)將其特征維度降到168維[15]。Emotions6數(shù)據(jù)集中有7種情緒標(biāo)記,除了S-JAFFE和S-BU_3DFE數(shù)據(jù)集中的6種基本情緒標(biāo)記外,進(jìn)一步引入中立情緒標(biāo)記,用對7種情緒的投票來生成標(biāo)記分布。
第四個數(shù)據(jù)集M2B和第五個數(shù)據(jù)集SCUT-FBP分別包含1240張像素大小為128×128的面部圖像和1500張像素大小為350×350的面部圖像,每次隨機(jī)顯示一張面部圖像,評估者被要求從5個不同層次評估其面部美麗的吸引力,最后,由每個層次吸引力水平的百分比生成每張面部圖像的標(biāo)記分布。
第六個數(shù)據(jù)集Natural Scene包含2000幅自然場景圖像,每一張圖像有9個場景標(biāo)記(即:植物、天空、云、雪、建筑、沙漠、山、水和太陽)。10位人工標(biāo)注員根據(jù)每張圖像與9個場景標(biāo)記的相關(guān)度進(jìn)行獨(dú)立決策降序排序,最后,通過非線性規(guī)劃過程轉(zhuǎn)化為標(biāo)記分布。
第七個數(shù)據(jù)集Movie包含7755部電影,每一部電影包含從1星到5星的5個電影評級,相當(dāng)于5個標(biāo)記。將每部電影各評級上評分人數(shù)占總評分人數(shù)的比值作為各標(biāo)記上的描述程度,來生成每部電影示例的標(biāo)記分布。
表3 標(biāo)記分布學(xué)習(xí)的評價指標(biāo)
為了驗(yàn)證本文提出的LDL-LLC算法的性能,將其與6種常用的LDL算法進(jìn)行對比,分別是:問題轉(zhuǎn)換方法PT-Bayes,算法適應(yīng)方法AA-BP,專用方法SA-IIS、CPNN、LDL-LCLR和LDLSF,6種對比算法的參數(shù)設(shè)置和搜索范圍均與原文一致。其中,LDL-LCLR算法的參數(shù)λ1、λ2、λ3、λ4、k和ρ分別被設(shè)為10-4、10-3、10-3、4和1。LDLSF算法的參數(shù)λ1、λ2和λ3從 {10-6,10-5,…,10-1} 中搜索選取,正項的懲罰標(biāo)量ρ設(shè)置為10-3。
本文提出的LDL-LLC算法的參數(shù)λ1, 它的作用是約束l1范數(shù)正則化對權(quán)重參數(shù)的影響,λ1取值越大,意味著模型會更注重擬合l1范數(shù)正則化學(xué)習(xí)每個標(biāo)記特有特征的特性。為了防止過擬合,λ1從 {10-6,10-5,…,10-1} 中搜索選取。同理,約束LDL-LLC的參數(shù)λ2和λ3也從 {10-6,10-5,…,10-1} 中搜索選取,令使用最小二乘法度量真實(shí)標(biāo)記分布和預(yù)測標(biāo)記分布間距離的損失函數(shù)占據(jù)主導(dǎo)地位。參數(shù)m是k-means方法對訓(xùn)練數(shù)據(jù)進(jìn)行聚類后的組數(shù),m從 {1,2,3,4,…,9} 中搜索選取。正項的懲罰標(biāo)量ρ設(shè)置為10-3,變量Z的列數(shù)u設(shè)置為3。W初始化為單位矩陣,M和V都初始化為對角矩陣,所有對角元素都為0.5,其它變量初始化為0。
在每個數(shù)據(jù)集上,都進(jìn)行10次5折交叉驗(yàn)證。具體來說,就是將數(shù)據(jù)集隨機(jī)劃分為10份,選取其中的8份作為訓(xùn)練集,剩下的2份作為測試集,重復(fù)10次該過程。表4和表5分別展示了Chebyshev和Cosine評價指標(biāo)上本文提出的LDL-LLC算法和6種對比算法在7個LDL真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,并對表中每一行的最優(yōu)數(shù)據(jù)進(jìn)行加粗。
表4 標(biāo)記分布方法Chebyshev距離比較
表5 標(biāo)記分布方法Cosine相似度比較
為了更直觀分析7種算法在性能的差異,表6展示了每種評價指標(biāo)的Friedman統(tǒng)計量FF和相應(yīng)的臨界值,每種評價指標(biāo)在α=0.05顯著水平下的Friedman檢驗(yàn)都拒絕“全部對比的算法具有相等的預(yù)測性能”這一原假設(shè)。
表6 Friedman檢驗(yàn)統(tǒng)計值和臨界值
圖1繪制了每種評價指標(biāo)上顯著性水平α=0.05的臨界差分圖。在每張臨界差分圖中,每個算法的位置表示它在對應(yīng)評價指標(biāo)上性能的平均排名,位置靠右的算法性能越好。如果兩種算法在所有數(shù)據(jù)集上的平均排名相差至少一個臨界值域(CD=3.4014),則兩種算法之間的性能就會顯著不同。反之,兩種算法之間性能差異不顯著,使用粗線連接。由圖1可得到如下結(jié)論:
圖1 每個評價指標(biāo)下所有算法的臨界差分
(1)7種LDL算法總排名為:LDL-LLC>LDLSF>LDL-LCLR>SA-IIS>AA-BP>CPNN>PT-Bayes。本文提出的LDL-LLC算法始終處于臨界差分圖的最右端,表明了LDL-LLC算法性能的優(yōu)越性。
(2)LDL-LLC、LDLSF、LDL-LCLR、SA-IIS算法的平均排名優(yōu)于AA-BP和PT-Bayes算法,原因在于算法適應(yīng)方法AA-BP是直接修改BP算法的一些約束條件來擴(kuò)展BP算法,用神經(jīng)網(wǎng)絡(luò)的輸出作為標(biāo)記的描述程度。問題轉(zhuǎn)換方法PT-Bayes將處理單標(biāo)記學(xué)習(xí)問題的貝葉斯算法計算出每個標(biāo)記上的后驗(yàn)概率作為對應(yīng)標(biāo)記的描述程度。AA-BP和PT-Bayes算法通過改造現(xiàn)有的BP算法和貝葉斯算法后,雖然能處理LDL問題,但是效果不如直接聚焦標(biāo)記分布的預(yù)測問題設(shè)計的專用方法:LDL-LLC、LDLSF、LDL-LCLR和SA-IIS算法。
(3)LDL-LLC、LDLSF、LDL-LCLR算法的平均排名優(yōu)于CPNN和SA-IIS算法,原因在于LDL-LLC、LDLSF、LDL-LCLR算法對標(biāo)記相關(guān)性進(jìn)行了挖掘和利用,借助這些隱藏在標(biāo)記空間中的額外信息,來提升LDL算法的性能。
(4)LDL-LLC算法的平均排名優(yōu)于LDLSF和LDL-LCLR算法,原因在于:①LDLSF算法挖掘和利用的是全局標(biāo)記相關(guān)性,但是在現(xiàn)實(shí)世界的任務(wù)中,不同的示例大多共享不同的標(biāo)記相關(guān)性,很少有標(biāo)記相關(guān)性是全局適用的。并且LDLSF算法在計算標(biāo)記間的相關(guān)性時,直接計算訓(xùn)練標(biāo)記矩陣各列之間的皮爾遜相關(guān)系數(shù),用計算出的系數(shù)來衡量兩兩標(biāo)記間的相關(guān)性。但是一些標(biāo)記在訓(xùn)練數(shù)據(jù)中可能只有很少的正面示例,因此由訓(xùn)練標(biāo)記矩陣求出的標(biāo)記相關(guān)性可能會不可靠。②LDL-LCLR算法雖然將訓(xùn)練數(shù)據(jù)進(jìn)行了分組,在每組數(shù)據(jù)上挖掘和利用標(biāo)記間的相關(guān)性。但是LDL-LCLR算法用全局標(biāo)記相關(guān)性來度量每組訓(xùn)練數(shù)據(jù)標(biāo)記間的相關(guān)性。并且LDL-LCLR算法的模型建立在原始高維特征空間上,忽略了實(shí)際分類學(xué)習(xí)任務(wù)中存在無關(guān)和冗余特征的事實(shí)。③本文提出的LDL-LLC算法通過引入局部流形正則化器,不去預(yù)先指定任何標(biāo)記相關(guān)性矩陣來生成流形正則化器中的拉普拉斯矩陣,而是將每組訓(xùn)練數(shù)據(jù)的拉普拉斯矩陣當(dāng)成變量去迭代更新,更全面的挖掘和利用了局部標(biāo)記相關(guān)性。同時,利用l1和l2,1范數(shù)對權(quán)重參數(shù)進(jìn)行正則化約束,來學(xué)習(xí)每個標(biāo)記的私有特征和所有標(biāo)記的共享特征,減少了無關(guān)和冗余特征干擾。
本文提出一種基于局部標(biāo)記相關(guān)性的標(biāo)記分布學(xué)習(xí)算法(LDL-LLC),該算法將特征選擇和局部標(biāo)記相關(guān)性結(jié)合起來。通過引入局部流形正則化器,不去預(yù)先指定任何標(biāo)記相關(guān)性矩陣來生成流形正則化器中的拉普拉斯矩陣,而是將拉普拉斯矩陣當(dāng)成變量去迭代更新,探索和利用局部標(biāo)記相關(guān)性。同時,利用l1和l2,1范數(shù)對權(quán)重參數(shù)矩陣進(jìn)行正則化約束,來學(xué)習(xí)每個標(biāo)記的私有特征和所有標(biāo)記的共享特征,以減少無關(guān)和冗余特征干擾。最后,用求得的權(quán)重參數(shù)矩陣去預(yù)測未見示例的標(biāo)記分布。在多個真實(shí)標(biāo)記分布數(shù)據(jù)集上的對比實(shí)驗(yàn)結(jié)果表明本文提出的算法是有效且可行的。