国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

增強(qiáng)學(xué)習(xí)標(biāo)簽相關(guān)性的多標(biāo)簽特征選擇方法

2024-08-17 00:00滕少華盧建磊滕璐瑤張巍

摘 要:針對(duì)現(xiàn)有多標(biāo)簽特征選擇方法存在的兩個(gè)問(wèn)題:第一,忽略了學(xué)習(xí)標(biāo)簽相關(guān)性過(guò)程中噪聲信息的影響;第二,忽略探索每個(gè)簇的綜合標(biāo)簽信息,提出一種增強(qiáng)學(xué)習(xí)標(biāo)簽相關(guān)性的多標(biāo)簽特征選擇方法。首先,對(duì)樣本進(jìn)行聚類(lèi),并將每個(gè)簇中心視為一個(gè)綜合樣本語(yǔ)義信息的代表性實(shí)例,同時(shí)計(jì)算其對(duì)應(yīng)的標(biāo)簽向量,而這些標(biāo)簽向量體現(xiàn)了每個(gè)簇包含不同標(biāo)簽的重要程度;其次,通過(guò)原始樣本和每個(gè)簇中心的標(biāo)簽級(jí)自表示,既捕獲了原始標(biāo)簽空間中的標(biāo)簽相關(guān)性,又探索了每一個(gè)簇內(nèi)的標(biāo)簽相關(guān)性;最后,對(duì)自表示系數(shù)矩陣進(jìn)行稀疏處理,以減少噪聲的影響,并將原始樣本和每個(gè)簇代表性實(shí)例分別從特征空間映射到重構(gòu)標(biāo)簽空間進(jìn)行特征選擇。在9個(gè)多標(biāo)簽數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提算法與其他方法相比具有更好的性能。

關(guān)鍵詞:多標(biāo)簽學(xué)習(xí); 特征選擇; 標(biāo)簽相關(guān)性; 聚類(lèi)

中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)07-022-2079-08

doi:10.19734/j.issn.1001-3695.2023.11.0550

Multi-label feature selection method with enhanced learning of label correlations

Abstract:Aiming at two problems of existing multi-label feature selection methods: first, ignoring the influence of noise information in the process of learning label correlations; second, neglecting to explore the comprehensive label information of each cluster, the paper proposed a multi-label feature selection method that enhanced label correlation learning. Initially, it clustered the samples and treated each cluster center as a representative instance of the comprehensive semantic information of the samples, while computing its corresponding label vectors which reflected the importance of different labels contained in each cluster. Then, through the label-level self-representation of the original samples and the center of each cluster, it both captured the label correlations in the original label space, and explored the label correlations within each cluster. Finally, the self-representation coefficient matrix was sparse to reduce the effect of noise, and the original sample and the representative instance of each cluster were mapped from the feature space to the reconstructed label space for feature selection. Experimental results on nine multi-labeled datasets show that the proposed algorithm has better performance compared with other methods.

Key words:multi-label learning; feature selection; label correlation; clustering

0 引言

隨著計(jì)算機(jī)和通信技術(shù)的飛速發(fā)展,多標(biāo)簽數(shù)據(jù)集在不同領(lǐng)域有著廣泛的應(yīng)用,如文本挖掘[1]、圖像識(shí)別[1,2]、蛋白質(zhì)功能檢測(cè)[3]和信息檢索[4]等。這些數(shù)據(jù)集為機(jī)器學(xué)習(xí)和模式識(shí)別提供了豐富的研究數(shù)據(jù)源。在傳統(tǒng)的單標(biāo)簽監(jiān)督學(xué)習(xí)中,每個(gè)實(shí)例只與一個(gè)類(lèi)標(biāo)簽相關(guān)聯(lián)。然而,在真實(shí)世界的場(chǎng)景中,往往會(huì)涉及與多個(gè)語(yǔ)義相關(guān)聯(lián)的實(shí)例[5]。例如,一份報(bào)告可能有多個(gè)主題,包括時(shí)尚、經(jīng)濟(jì)和體育;一首音樂(lè)可以表達(dá)多種情緒,包括悲傷、平靜和孤獨(dú)。因此,現(xiàn)有的多標(biāo)簽學(xué)習(xí)方法的目的是在訓(xùn)練實(shí)例和相應(yīng)的標(biāo)簽集之間學(xué)習(xí)一個(gè)合適的映射函數(shù),以便通過(guò)映射函數(shù)預(yù)測(cè)新實(shí)例中不可見(jiàn)的多個(gè)標(biāo)簽[6]。然而,在現(xiàn)實(shí)世界中,多標(biāo)簽數(shù)據(jù)集的特征表示通常具有高維性,并且容易受到噪聲和冗余信息的影響[7]。這些因素不僅會(huì)增加計(jì)算和存儲(chǔ)需求,還會(huì)對(duì)學(xué)習(xí)模型的分類(lèi)性能產(chǎn)生不利影響,因此帶來(lái)了巨大挑戰(zhàn)[7]。

在高維數(shù)據(jù)處理領(lǐng)域,有特征提取和特征選擇兩種降維方法[8]。特征提取通常會(huì)產(chǎn)生新的特征,而特征選擇不會(huì)改變數(shù)據(jù)的原始表示,其目的是獲取一個(gè)特征子集來(lái)表示原始數(shù)據(jù)[9~11]。因此,本文將重點(diǎn)放在特征選擇上。一般來(lái)說(shuō),關(guān)于特征選擇的研究可分為基于過(guò)濾的、基于包裝的和基于嵌入的方法三類(lèi)[12,13]?;谶^(guò)濾的方法用于生成特征子集,而不依賴(lài)于任何特定的學(xué)習(xí)算法。這些方法通過(guò)采用不同的評(píng)估標(biāo)準(zhǔn)來(lái)評(píng)估特征的相關(guān)性,包括卡方統(tǒng)計(jì)、互信息和樣本距離[14]。然而,過(guò)濾的方法無(wú)法為特定的學(xué)習(xí)任務(wù)選擇信息量最大的特征?;诎b的方法使用進(jìn)化算法來(lái)搜索最佳特征子集,這種模型容易出現(xiàn)過(guò)擬合問(wèn)題,還會(huì)產(chǎn)生巨大的計(jì)算成本[15]?;谇度氲姆椒ㄍㄟ^(guò)同時(shí)訓(xùn)練模型和選擇特征,提供了一種獨(dú)特的解決方案[16]。它們直接利用從模型訓(xùn)練中得到的特征系數(shù)矩陣來(lái)確定特征的排序,從而獲得高效的執(zhí)行和出色的分類(lèi)性能[16]。因此,本文重點(diǎn)討論嵌入式方法。

對(duì)于設(shè)計(jì)多標(biāo)簽特征選擇方法,探索標(biāo)簽相關(guān)性是至關(guān)重要的,因?yàn)榭梢圆东@非對(duì)稱(chēng)的標(biāo)簽關(guān)系[17]。在圖1中,顯示了一個(gè)非對(duì)稱(chēng)的標(biāo)簽關(guān)系例子。圖(a)有“樹(shù)”標(biāo)簽,也可能帶有“天空”標(biāo)簽。然而,圖(b)帶有“天空”標(biāo)簽,但不一定帶有“樹(shù)”標(biāo)簽。因此,一些現(xiàn)有方法利用標(biāo)簽相關(guān)性設(shè)計(jì)多標(biāo)簽特征選擇方法,取得不錯(cuò)的成果。例如,Li等人[18]提出了一種具有兩種標(biāo)簽相關(guān)性的魯棒多標(biāo)簽特征選擇方法。Fan等人[19]提出了一種基于標(biāo)簽相關(guān)性和特征冗余的新的多標(biāo)簽特征選擇方法,將低維嵌入用于挖掘標(biāo)簽相關(guān)性,這樣可以保持原始標(biāo)簽空間的全局和局部標(biāo)簽結(jié)構(gòu)。

然而,現(xiàn)有的多標(biāo)簽特征選擇方法[10,13,18]在探索標(biāo)簽相關(guān)性時(shí)仍存在一些問(wèn)題,進(jìn)而導(dǎo)致模型學(xué)習(xí)效率降低。第一,忽略了學(xué)習(xí)標(biāo)簽相關(guān)性過(guò)程中噪聲信息的影響。在原始標(biāo)簽空間中往往包含噪聲信息,如果直接利用標(biāo)簽集中的數(shù)據(jù)來(lái)探索標(biāo)簽與標(biāo)簽之間的關(guān)系,會(huì)影響標(biāo)簽相關(guān)性的探索,導(dǎo)致產(chǎn)生一些不必要的依賴(lài)關(guān)系,降低模型的學(xué)習(xí)效率。在這里,通過(guò)一個(gè)例子說(shuō)明在探索標(biāo)簽相關(guān)性時(shí)處理噪聲影響的必要性。假設(shè)大部分實(shí)例都同時(shí)具有“標(biāo)簽1”與“標(biāo)簽2”,則本文認(rèn)為“標(biāo)簽1”與“標(biāo)簽2”相關(guān)程度較高。由于人工過(guò)失,將個(gè)別實(shí)例的“標(biāo)簽2”標(biāo)記為“標(biāo)簽3”,則本文認(rèn)為“標(biāo)簽3”為噪聲信息,“標(biāo)簽1”與“標(biāo)簽3”為不必要的標(biāo)簽依賴(lài)關(guān)系。如果不對(duì)上述情況作出處理,則會(huì)產(chǎn)生錯(cuò)誤傳播,即認(rèn)為“標(biāo)簽1”與“標(biāo)簽3”存在相關(guān)性。第二,忽略探索每個(gè)簇的綜合標(biāo)簽信息,僅在原始標(biāo)簽空間中探索標(biāo)簽相關(guān)性,無(wú)法挖掘更深層次的標(biāo)簽信息。直接利用原始標(biāo)簽數(shù)據(jù),往往探索的是一個(gè)標(biāo)簽與其他所有標(biāo)簽的關(guān)系,無(wú)法描述一個(gè)局部區(qū)域內(nèi)標(biāo)簽之間的關(guān)系。而高度相關(guān)的標(biāo)簽共用同一個(gè)特征子集,有利于提高特征選擇的效率,因此,需要挖掘更深層次的標(biāo)簽信息,更好捕獲標(biāo)簽與標(biāo)簽之間的關(guān)系。

為此,本文利用數(shù)據(jù)增強(qiáng)技術(shù)和標(biāo)簽級(jí)自表示模型,探索了不同標(biāo)簽之間的相關(guān)性。針對(duì)上述第二點(diǎn)問(wèn)題,本文對(duì)樣本進(jìn)行聚類(lèi)形成多個(gè)簇,則每個(gè)簇的中心可以看作是每個(gè)簇的綜合信息實(shí)例,并假設(shè)其對(duì)應(yīng)的特征向量和標(biāo)簽向量是簇中所有樣本向量的平均值。每個(gè)簇中心的標(biāo)簽向量則反映了一個(gè)簇中每個(gè)標(biāo)簽的重要程度。然后,通過(guò)樣本和每個(gè)簇的綜合信息實(shí)例的標(biāo)簽級(jí)自表示,既可以探索原始標(biāo)簽空間中的標(biāo)簽相關(guān)性,又可以探索了每個(gè)簇內(nèi)重要標(biāo)簽的相關(guān)性。此外,針對(duì)上述第一點(diǎn)問(wèn)題,本文對(duì)自表達(dá)系數(shù)矩陣施加2,1范數(shù)約束,確保每個(gè)標(biāo)簽由與其最相關(guān)的標(biāo)簽表示,以減少噪聲信息產(chǎn)生的不利影響。最后,設(shè)計(jì)了一種交替最小化方法來(lái)求解目標(biāo)函數(shù)。綜上所述,本文的主要貢獻(xiàn)如下:

a)對(duì)樣本聚類(lèi),并將每個(gè)簇的中心視為一個(gè)綜合信息實(shí)例,以簇中所有樣本向量的平均值作為綜合信息實(shí)例的特征向量和標(biāo)簽向量。

b)引入樣本和綜合信息實(shí)例的標(biāo)簽級(jí)自表示,既捕獲了原始標(biāo)簽空間中的標(biāo)簽相關(guān)性,又探索了每個(gè)簇內(nèi)的標(biāo)簽相關(guān)性。

c)對(duì)標(biāo)簽級(jí)自表示系數(shù)矩陣施加2,1范數(shù)約束,增進(jìn)每個(gè)標(biāo)簽與其最相關(guān)的標(biāo)簽之間的關(guān)系,以減少噪聲信息產(chǎn)生的不利影響。

d)設(shè)計(jì)了一種具有收斂性證明的優(yōu)化方案求解目標(biāo)函數(shù),并通過(guò)多重綜合實(shí)驗(yàn)證明了該方法的優(yōu)越性。

1 相關(guān)工作

1.1 多標(biāo)簽學(xué)習(xí)

近年來(lái),許多成熟的多標(biāo)簽學(xué)習(xí)方法被提出?,F(xiàn)有的多標(biāo)簽學(xué)習(xí)方法包括三種不同探索標(biāo)簽相關(guān)性的策略[19]。一階策略是將多標(biāo)簽數(shù)據(jù)轉(zhuǎn)換為單標(biāo)簽數(shù)據(jù),從而利用傳統(tǒng)的單標(biāo)簽算法,例如BR算法[20]可以對(duì)多標(biāo)簽分類(lèi)問(wèn)題進(jìn)行變換。然而,這類(lèi)方法忽略了標(biāo)簽相關(guān)性,而標(biāo)簽相關(guān)性對(duì)研究工作至關(guān)重要。因此,一些方法引入了二階策略,主要側(cè)重探索標(biāo)簽之間的成對(duì)相關(guān)性。例如,Huang等人[21]使用標(biāo)簽級(jí)正則化約束來(lái)考慮成對(duì)的標(biāo)簽相關(guān)性。盡管這些方法取得一些進(jìn)步,但現(xiàn)實(shí)世界的多標(biāo)簽數(shù)據(jù)集往往包含的實(shí)例與多個(gè)標(biāo)簽相關(guān)聯(lián),顯然標(biāo)簽之間的相關(guān)性超過(guò)成對(duì)關(guān)系。因此,一些方法引入了高階策略,通過(guò)探索多個(gè)標(biāo)簽之間的相關(guān)性來(lái)解決這一問(wèn)題。例如,分類(lèi)器鏈(CC)[22],另一種高階方法LEAD利用標(biāo)簽依賴(lài)性,通過(guò)使用貝葉斯方法來(lái)學(xué)習(xí)多標(biāo)簽數(shù)據(jù)[18]。

此外,本文還回顧了一些通過(guò)探索標(biāo)簽相關(guān)性而設(shè)計(jì)的具有代表性和影響力的多標(biāo)簽特征選擇方法。Hu等人[23]介紹了一種稱(chēng)為共享共模多標(biāo)簽特征選擇(SCMFS)的方法,該方法利用耦合矩陣分解(CMF)來(lái)提取特征矩陣和標(biāo)簽矩陣之間的共享共模。這種方法結(jié)合了來(lái)自?xún)蓚€(gè)矩陣的綜合數(shù)據(jù)信息,提高了特征選擇性能。Fan等人[24]開(kāi)發(fā)了一種名為基于局部判別模型和標(biāo)簽相關(guān)性的多標(biāo)簽特征選擇的算法。該方法考慮實(shí)例的相鄰實(shí)例,為實(shí)例構(gòu)建局部聚類(lèi),并全局集成局部判別模型來(lái)評(píng)估所有實(shí)例的聚類(lèi)性能。Li等人[25]提出了具有動(dòng)態(tài)局部和全局結(jié)構(gòu)保持的魯棒稀疏和低冗余多標(biāo)簽特征選擇方法,該特征選擇方法使用圖結(jié)構(gòu)以保持全局標(biāo)簽相關(guān)性和動(dòng)態(tài)局部標(biāo)簽關(guān)聯(lián)。該方法的目標(biāo)函數(shù)包括范數(shù)和內(nèi)積正則化項(xiàng),以實(shí)現(xiàn)高行稀疏性和低冗余特征選擇。值得注意的是,上述大多方法局限于從給定的訓(xùn)練樣本中探索標(biāo)簽相關(guān)性,無(wú)法探索每個(gè)簇蘊(yùn)涵的標(biāo)簽信息。

1.2 數(shù)據(jù)增強(qiáng)

數(shù)據(jù)增強(qiáng)[26]是一種在機(jī)器學(xué)習(xí)任務(wù)中廣泛使用的技術(shù),它的目的是在原始訓(xùn)練集上應(yīng)用一些轉(zhuǎn)變,來(lái)綜合創(chuàng)建新的樣本,以擴(kuò)大訓(xùn)練集。用于圖像分類(lèi)任務(wù)的傳統(tǒng)數(shù)據(jù)增強(qiáng)技術(shù)通常通過(guò)翻轉(zhuǎn)、扭曲、添加少量噪聲或從原始圖像中裁剪一個(gè)補(bǔ)丁,從原始訓(xùn)練數(shù)據(jù)中生成新的樣本[26]。除了傳統(tǒng)的數(shù)據(jù)增強(qiáng)技術(shù)之外,簡(jiǎn)單配對(duì)法也是一種數(shù)據(jù)增強(qiáng)方法[27],隨機(jī)選擇兩個(gè)樣本(xa,ya)和(xb,yb),然后通過(guò)((xa+xb)/2, ya)或者((xa+xb)/2,yb)隨機(jī)生成一個(gè)新的樣例。這種方法通過(guò)關(guān)注兩個(gè)實(shí)例來(lái)產(chǎn)生新的實(shí)例,雖然取得不錯(cuò)的效果,但如何從多個(gè)樣本中產(chǎn)生新的實(shí)例,以及如何應(yīng)用生成的新實(shí)例提高多標(biāo)簽學(xué)習(xí)的性能仍然具有挑戰(zhàn)性。Shu等人[27]提出對(duì)原始樣本進(jìn)行聚類(lèi),并將聚類(lèi)中心作為虛擬樣本。然后,在同一聚類(lèi)中的例子具有相同標(biāo)簽的假設(shè)下,他們提出了一個(gè)新的正則化術(shù)語(yǔ)來(lái)彌補(bǔ)實(shí)例和虛例之間的差距,從而提高學(xué)習(xí)函數(shù)的局部平滑性。然而,該方法忽略了探索標(biāo)簽相關(guān)性。因此,本文利用數(shù)據(jù)增強(qiáng)技術(shù)生成每個(gè)簇的綜合代表實(shí)例,在探索原始樣本的標(biāo)簽相關(guān)性之余,還探索了每個(gè)簇內(nèi)的標(biāo)簽相關(guān)性,并用標(biāo)簽相關(guān)性重構(gòu)標(biāo)簽空間,以提高多標(biāo)簽?zāi)P偷膶W(xué)習(xí)性能。

2 研究方法

對(duì)于一個(gè)多標(biāo)簽數(shù)據(jù)集{(x1,y1),…,(xn,yn)},假設(shè)特征

所提方法工作原理分為兩個(gè)基本步驟,包括生成每個(gè)簇中心對(duì)應(yīng)的特征向量、標(biāo)簽向量和多標(biāo)簽特征選擇模型訓(xùn)練。因此,所提方法按照以下兩個(gè)部分介紹:a)首先使用K-means方法對(duì)原始樣本進(jìn)行聚類(lèi),并將每個(gè)簇中心視為對(duì)應(yīng)簇的綜合代表實(shí)例。b)探索原始樣本與每個(gè)簇中心的標(biāo)簽相關(guān)性,并重構(gòu)標(biāo)簽空間,以進(jìn)行特征選擇。

2.1 生成每個(gè)簇中心對(duì)應(yīng)的特征向量和標(biāo)簽向量

聚類(lèi)技術(shù)被廣泛應(yīng)用于數(shù)據(jù)分析,本文采用常用的K-means算法。如圖2所示,通過(guò)對(duì)原始樣本聚類(lèi),并將每個(gè)簇的中心作為一個(gè)綜合代表的實(shí)例。假設(shè)原始樣本可以被劃分為q個(gè)不相交的簇{C1,C2,…,Cq},如果第j個(gè)實(shí)例被劃分為第i個(gè)簇,則xj∈Ci。通常,每個(gè)簇的中心是簇的一個(gè)代表性實(shí)例,因此其語(yǔ)義可以是簇中所有樣本的語(yǔ)義平均值。假設(shè)hi表示Ci簇中心對(duì)應(yīng)的特征向量,可以表示為

其中:Ci表示第i個(gè)簇包含的樣本個(gè)數(shù)。同樣地,每個(gè)簇中心的標(biāo)簽語(yǔ)義可以是簇中所有實(shí)例的標(biāo)簽語(yǔ)義的平均值。假設(shè)ti表示Ci簇中心對(duì)應(yīng)的標(biāo)簽信息,則ti應(yīng)為Ci中所有樣本的平均標(biāo)簽向量,可以表示為

這樣可以得到一個(gè)簇中心集合{(hi,ti),…,(hq,tq)},在這里,可以通過(guò)一個(gè)具體例子說(shuō)明這種數(shù)據(jù)增強(qiáng)方法的優(yōu)勢(shì)。假設(shè)一個(gè)簇里面包含三個(gè)樣本(xa,ya),(xb,yb)和(xc,yc),其

2.2 構(gòu)建多標(biāo)簽特征選擇模型

嶺回歸是一種無(wú)偏差的最小二乘法,通常用于處理機(jī)器學(xué)習(xí)的一些基本任務(wù),包括分類(lèi)、降噪、降維等[28]。將傳統(tǒng)的嶺回歸應(yīng)用于多標(biāo)簽特征選擇,其一般形式如下:

其中:λ1是超參數(shù),控制每個(gè)簇的綜合代表實(shí)例(即簇中心)對(duì)特征選擇W學(xué)習(xí)的貢獻(xiàn)。由于簇中心是每個(gè)簇的綜合代表實(shí)例,用其訓(xùn)練模型會(huì)增大每個(gè)簇對(duì)應(yīng)特定特征的選擇權(quán)值,從而提高模型學(xué)習(xí)性能。但是,式(5)在帶有噪聲和冗余信息的原始標(biāo)簽空間中進(jìn)行特征選擇,會(huì)降低了算法的學(xué)習(xí)性能。因此,需要利用標(biāo)簽相關(guān)性來(lái)重建標(biāo)簽空間,以更好進(jìn)行特征選擇。

從實(shí)例級(jí)的自表示模型得到啟發(fā),類(lèi)似地,每個(gè)標(biāo)簽也可以用其他標(biāo)簽進(jìn)行表示,從而探索一個(gè)標(biāo)簽和其他標(biāo)簽之間的關(guān)系。因此,可以得到改進(jìn)后的標(biāo)簽級(jí)自表示模型如下:

從而探索一個(gè)標(biāo)簽和其他標(biāo)簽之間的關(guān)系),以互補(bǔ)原始數(shù)據(jù)探索的標(biāo)簽相關(guān)性。則其表達(dá)式為

結(jié)合式(6)(7),本文探索標(biāo)簽相關(guān)的表達(dá)式為

這樣,既探索了原始標(biāo)簽空間中的標(biāo)簽相關(guān)性,又探索了每個(gè)簇內(nèi)的標(biāo)簽相關(guān)性,充分捕獲了標(biāo)簽信息。然而原始標(biāo)簽空間中往往包含噪聲信息,會(huì)導(dǎo)致在探索標(biāo)簽相關(guān)性時(shí),產(chǎn)生不必要的關(guān)系依賴(lài)。為此,本文通過(guò)對(duì)自表示系數(shù)矩陣施加2,1范數(shù),確保每個(gè)標(biāo)簽由與其最相關(guān)的標(biāo)簽表示,以減少噪聲信息的影響。則式(8)可以改寫(xiě)為

其中:λ3是正則化參數(shù)。結(jié)合式(5)(9),利用標(biāo)簽相關(guān)性重構(gòu)原始標(biāo)簽空間,得到新的標(biāo)簽空間,然后通過(guò)特征矩陣投影到標(biāo)簽重構(gòu)矩陣,以進(jìn)行特征選擇。另外,對(duì)W和Z施加非負(fù)約束,以保證數(shù)據(jù)的非負(fù)性。因此,最終的目標(biāo)函數(shù)構(gòu)造如下:

其中:‖XW-YZ‖2F為原始樣本從特征空間映射到重建的標(biāo)簽空間以進(jìn)行特征選擇;‖HW-TZ‖2F為每個(gè)簇中心從特征映射到標(biāo)簽,以加強(qiáng)每個(gè)簇的標(biāo)簽對(duì)應(yīng)特定特征的選擇;‖YZ-Y‖2F和‖TZ-T‖2F為原始樣本和簇中心的標(biāo)簽級(jí)自表達(dá)(即一個(gè)標(biāo)簽由其他標(biāo)簽進(jìn)行表示,從而探索一個(gè)標(biāo)簽和其他標(biāo)簽之間的關(guān)系),分別探索了原始標(biāo)簽空間中的標(biāo)簽相關(guān)性和每個(gè)簇內(nèi)的標(biāo)簽相關(guān)性;‖Z‖2,1為避免學(xué)習(xí)標(biāo)簽相關(guān)性過(guò)程中噪聲信息的影響;λ1是超參數(shù),控制每個(gè)簇的綜合代表實(shí)例(即簇中心)對(duì)特征選擇W學(xué)習(xí)的貢獻(xiàn);λ2正則化參數(shù),調(diào)節(jié)原始樣本和每個(gè)簇的綜合代表實(shí)例的標(biāo)簽級(jí)自表示對(duì)多標(biāo)簽學(xué)習(xí)模型的影響;λ3與λ4是正則化參數(shù)。

2.3 優(yōu)化模型

在本節(jié)中,給出關(guān)于目標(biāo)函數(shù)式(10)的優(yōu)化方案證明。目標(biāo)函數(shù)有兩個(gè)優(yōu)化目標(biāo)W和Z,以及對(duì)W和Z施加2,1范數(shù)的非光滑性,本文采用交替優(yōu)化的方法來(lái)求解。

對(duì)于上述目標(biāo)函數(shù)的迭代更新方法包含以下兩個(gè)子問(wèn)題。

子問(wèn)題1 固定Z,更新W。

當(dāng)固定Z時(shí),獲得只關(guān)于W的函數(shù),可以表示為

根據(jù)拉格朗日定理,將約束條件Wij≥0整合到Θ(W),可以得到拉格朗日函數(shù)如下:

根據(jù)Karush-Kuhn-Tucker條件[18],ΦijWij=0,可得

(XTXW-XTYZ+λ1HTHW-λ1HTTZ+2λ4UW)ijWij=0(15)

最后,得到W的更新規(guī)則:

子問(wèn)題2 固定W,更新Z。

當(dāng)固定W時(shí),可以獲得只關(guān)于Z的函數(shù),可以表示為

同樣地,根據(jù)拉格朗日定理,將約束條件Zij≥0整合到Θ(Z),可以得到拉格朗日函數(shù)如下:

根據(jù)Karush-Kuhn-Tucker條件,ΨijZij=0,可得

最后,得到Z的更新規(guī)則:

重復(fù)交替更新W和Z變量的值,直到目標(biāo)函數(shù)收斂,最后計(jì)算‖Wi·‖2。本文算法流程如算法1所示。

算法1 所提方法的優(yōu)化算法

算法1偽代碼如下:

3 實(shí)驗(yàn)

將本文算法與其他五種先進(jìn)的多標(biāo)簽特征選擇方法進(jìn)行比較,九個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明本文算法具有更好的學(xué)習(xí)性能,下面將描述實(shí)驗(yàn)詳細(xì)過(guò)程。

3.1 實(shí)驗(yàn)數(shù)據(jù)

在本節(jié)中,將描述相關(guān)的實(shí)驗(yàn)數(shù)據(jù)集。采用從Mulan Library獲取的九個(gè)不同領(lǐng)域的多標(biāo)簽數(shù)據(jù)集。 這些數(shù)據(jù)集包括各種領(lǐng)域,如音頻、音樂(lè)、圖像、生物學(xué)和文本,為評(píng)估提供了不同的數(shù)據(jù)。表2給出了關(guān)于所選數(shù)據(jù)集的詳細(xì)信息。

3.2 實(shí)驗(yàn)設(shè)置

為了與其他方法進(jìn)行比較,本文使用Hamming loss,ran-king loss,average precision,Macro-F1和Micro-F1來(lái)評(píng)估本文算法的性能。從解釋上看,Hamming loss和ranking loss的值越小,說(shuō)明分類(lèi)性能越好,最佳值為0,意味著完美分類(lèi)。相反,average precision,Macro-F1和Micro-F1的值越大,表示分類(lèi)性能越好,最佳值為1,表示理想的分類(lèi)結(jié)果。

為了確保公平性和可比性,本文在{0.01,0.1,0.3,…, 0.9,1.0}的范圍內(nèi)調(diào)整方法的正則化參數(shù)。

實(shí)驗(yàn)采用如下五種多標(biāo)簽特征選擇方法作為對(duì)比算法:

a)MIFS[29]。基于流形框架探索標(biāo)簽相關(guān)性,以確保結(jié)構(gòu)性。參數(shù)α,β和γ在{0.01,0.1,0.3,…,0.9,1.0}內(nèi)進(jìn)行調(diào)參。

b)SCMFS[23]。它通過(guò)耦合矩陣因式分解建立共享的共同模型。參數(shù)α,β和γ在{0.01,0.1,0.3,…,0.9,1.0}內(nèi)進(jìn)行調(diào)參。

c)MDFS[30]。它探索流形結(jié)構(gòu)下的局部標(biāo)簽相關(guān)性和全局標(biāo)簽相關(guān)性。參數(shù)α設(shè)為1,其余參數(shù)β和γ在{0.01,0.1,1,…,10,100}內(nèi)進(jìn)行調(diào)參。

d)MRMD[28]。提出一種新的多標(biāo)簽特征選擇方法,它有效地結(jié)合了流形正則化和依賴(lài)性最大化。參數(shù)α設(shè)為1,其余參數(shù)β和γ在{0.01,0.1,1,…,10,100}內(nèi)進(jìn)行調(diào)參。

e)LMFS[10]。結(jié)合邏輯回歸、流形學(xué)習(xí)和稀疏正則化,構(gòu)建了多標(biāo)簽特征選擇的聯(lián)合框架。參數(shù)α,β和γ在{0.001,0.01,0.1,1,10,100,1000}內(nèi)進(jìn)行調(diào)參。

為了評(píng)估所有競(jìng)爭(zhēng)方法的性能,本文使用ML-KNN(K=10) 作為統(tǒng)一分類(lèi)器來(lái)測(cè)試它們所選的特征,并采用五倍交叉驗(yàn)證來(lái)記錄每個(gè)多標(biāo)簽數(shù)據(jù)集的平均性能。

3.3 實(shí)驗(yàn)結(jié)果與分析

本節(jié)將展示和分析所有實(shí)驗(yàn)結(jié)果,在所有使用的數(shù)據(jù)集中使用了最優(yōu)排序前20%的特征。表3~7描述了所有算法在每個(gè)評(píng)估指標(biāo)下的結(jié)果。為了更清楚地突出實(shí)驗(yàn)結(jié)果,對(duì)每個(gè)數(shù)據(jù)集的最佳結(jié)果都采用了粗體字。此外,在最后一行中,計(jì)算了在數(shù)據(jù)集上的性能排名平均值。

從表3~7可知,本文算法在各項(xiàng)評(píng)價(jià)指標(biāo)上的表現(xiàn)總體優(yōu)于其他比較算法。在表3中,本文算法在9個(gè)數(shù)據(jù)集中的6個(gè)數(shù)據(jù)集上獲得了最佳結(jié)果,并且在所有數(shù)據(jù)集上都優(yōu)于PUM、MIFS和SCMFS。在數(shù)據(jù)集arts和birds上,本文算法的性能僅次于MRMD。在表4中,本文算法在6個(gè)數(shù)據(jù)集上取得最佳結(jié)果,在其他數(shù)據(jù)集上也取得中等以上的排名。在表5中,除了數(shù)據(jù)集birds和business,本文算法在其他數(shù)據(jù)集上都取得最佳結(jié)果或次優(yōu)結(jié)果。在表6中,除了數(shù)據(jù)集arts和yeast,本文算法在其他數(shù)據(jù)集上都取得最佳結(jié)果或次優(yōu)結(jié)果。在表7中,本文算法在6個(gè)數(shù)據(jù)集上取得最佳結(jié)果,另外在數(shù)據(jù)集education上性能效果欠佳。

為了更好地觀察各種多標(biāo)簽特征選擇算法在Hamming loss、ranking loss、average precision、Macro-F1和Micro-F1指標(biāo)下的性能曲線(xiàn),本文給出emotions和image兩個(gè)數(shù)據(jù)集的指標(biāo)趨勢(shì)圖。對(duì)于每個(gè)數(shù)據(jù)集,所選特征的數(shù)量設(shè)置為前{1%,2%,3%,…,20%}個(gè)特征。如圖3、4所示,隨著所選特征數(shù)量的增加,所有算法的學(xué)習(xí)性能都會(huì)發(fā)生變化。

在所有數(shù)據(jù)集中,本文算法的學(xué)習(xí)性能首先隨著所選特征的增加而提高,最后趨于穩(wěn)定。這表明該算法是一種有效的多標(biāo)簽特征選擇算法??傮w而言,無(wú)論選擇的特征數(shù)量如何,本文方法在所有數(shù)據(jù)集上都優(yōu)于大多數(shù)比較算法。

接下來(lái),通過(guò)消融研究,分析本文算法引入簇中心探索標(biāo)簽相關(guān)性和增強(qiáng)模型學(xué)習(xí)的效果。通過(guò)目標(biāo)函數(shù)式(10)去除有關(guān)簇中心部分,來(lái)驗(yàn)證該部分模型學(xué)習(xí)的性能。因此,可以得到消融實(shí)驗(yàn)的目標(biāo)函數(shù)為

式(22)去除了簇中心特征選擇和簇中心探索標(biāo)簽相關(guān)性部分,選取Hamming loss、Macro-F1和Micro-F1三個(gè)指標(biāo)與本文算法進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果如表8所示,在三個(gè)指標(biāo)下,本文算法在多數(shù)數(shù)據(jù)集上的結(jié)果都優(yōu)于消融實(shí)驗(yàn)。這表明,引入簇中心探索標(biāo)簽相關(guān)性對(duì)訓(xùn)練多標(biāo)簽?zāi)P推鹬匾淖饔谩?/p>

此外,本文還統(tǒng)一使用前20%的特征多標(biāo)簽學(xué)習(xí)的特征子集,系統(tǒng)分析本文算法與比較算法之間的相對(duì)性能。與其他算法類(lèi)似,使用弗里德曼檢驗(yàn)[31]進(jìn)行相對(duì)性能分析。表9描述了每個(gè)評(píng)價(jià)度量的弗里德曼統(tǒng)計(jì)量FF和相應(yīng)的臨界值??梢钥闯?,在顯著水平α=0.05的情況下,每個(gè)度量都明確地否定了所有算法都具有相同性能的假設(shè)。因此,可以通過(guò)事后檢驗(yàn)[32]來(lái)分析本文算法與比較算法之間的相對(duì)性能。

出,本文算法與MIFS、SCMFS這兩種算法有顯著的不同。在大部分評(píng)價(jià)度量下,與LMFS也有顯著的差異。另外,本文算法與MDFS、MRDM沒(méi)有顯著的差異,但在每個(gè)評(píng)價(jià)指標(biāo)中排名第一。

綜合上述所有實(shí)驗(yàn)結(jié)果,本文算法具有比競(jìng)爭(zhēng)方法更好的學(xué)習(xí)性能。從原理上看,本文算法與流形框架下探索標(biāo)簽相關(guān)性設(shè)計(jì)的算法(MIFS、MDFS、MRMD、LMFS)相比,避免使用低質(zhì)量的圖探索局部標(biāo)簽相關(guān)性,而是通過(guò)數(shù)據(jù)增強(qiáng)技術(shù),對(duì)樣本聚類(lèi),將每個(gè)簇的中心視為綜合代表實(shí)例,而這些實(shí)例的標(biāo)簽向量恰恰能體現(xiàn)每個(gè)簇所包含標(biāo)簽的重要程度。通過(guò)原始樣本和每個(gè)簇綜合代表實(shí)例共同學(xué)習(xí)特征選擇函數(shù),又能增強(qiáng)每個(gè)簇對(duì)應(yīng)特定特征的選擇權(quán)重。其次,本文算法通過(guò)改進(jìn)的自表示模型探索標(biāo)簽相關(guān)性,更重要的是,通過(guò)稀疏標(biāo)簽相關(guān)性矩陣,避免了原始空間中的噪聲信息帶來(lái)的影響,進(jìn)而提高模型的精度。

最后,為了驗(yàn)證本文算法在實(shí)例上的應(yīng)用結(jié)果,采用南京大學(xué)機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘研究所公開(kāi)的自然圖像數(shù)據(jù)集(https://www.lamda.nju.edu.cn/data_MIMLimage.ashx),并利用分類(lèi)指標(biāo)評(píng)判本文算法的性能。該圖像庫(kù)共2 000張,分為desert(沙漠)、mountains(山脈)、sea(海洋)、sunset(日落)和trees(樹(shù)木)五種類(lèi)別。這些圖像以單一標(biāo)簽、兩個(gè)標(biāo)簽以及三個(gè)標(biāo)簽的形式存在,分別包含了1 543張、442張和15張。在圖6,本文給出部分樣本的分類(lèi)結(jié)果,根據(jù)預(yù)測(cè)結(jié)果,除了圖(k)(q)外,預(yù)測(cè)結(jié)果與圖像的真實(shí)標(biāo)簽相匹配,表明本文算法是一種有效的多標(biāo)簽特征選擇算法。對(duì)于一些無(wú)法準(zhǔn)確預(yù)測(cè)真實(shí)標(biāo)簽的情況,如圖(k)預(yù)測(cè)多了sea標(biāo)簽,原因可能是由于該圖片包含mountains與sea或sunnet與sea共用特征子集中的特征,從而導(dǎo)致預(yù)測(cè)時(shí)關(guān)聯(lián)的兩個(gè)標(biāo)簽同時(shí)出現(xiàn);而對(duì)于另一種情況,如圖(q)未能預(yù)測(cè)到desert標(biāo)簽,原因可能是該類(lèi)型的標(biāo)記圖像數(shù)量過(guò)少,模型沒(méi)有很好地學(xué)習(xí)到該特征。

4 結(jié)束語(yǔ)

基于數(shù)據(jù)增強(qiáng)技術(shù),本文提出標(biāo)簽相關(guān)性增強(qiáng)的特征選擇算法。本文算法旨在利用數(shù)據(jù)增強(qiáng)技術(shù)生成每個(gè)簇的綜合代表實(shí)例,擴(kuò)充多標(biāo)簽數(shù)據(jù)集,進(jìn)而用于探索標(biāo)簽相關(guān)性和優(yōu)化模型學(xué)習(xí)。具體來(lái)說(shuō),通過(guò)原始樣本聚類(lèi),將每個(gè)簇的中心作為綜合代表實(shí)例,這些簇中心對(duì)應(yīng)的標(biāo)簽向量自然體現(xiàn)了簇內(nèi)包含不同標(biāo)簽的重要程度。將原始樣本和每個(gè)簇綜合代表實(shí)例同時(shí)進(jìn)行標(biāo)簽級(jí)自表示,并對(duì)自表示系數(shù)矩陣進(jìn)行稀疏處理,避免原始標(biāo)簽空間中噪聲信息帶來(lái)的影響。該算法既捕獲了原始標(biāo)簽空間中的標(biāo)簽相關(guān)性,又探索了每個(gè)簇內(nèi)標(biāo)簽相關(guān)性。同時(shí),又處理了傳統(tǒng)算法因?yàn)樵肼曅畔⒍a(chǎn)生不必要的標(biāo)簽依賴(lài)問(wèn)題。與近幾年的五種算法在九個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果表明本文算法的學(xué)習(xí)性能有優(yōu)勢(shì)。在未來(lái)將關(guān)注利用因果機(jī)制探索標(biāo)簽相關(guān)性,進(jìn)而設(shè)計(jì)性能更好的特征選擇方法。

參考文獻(xiàn):

[1]Tang Bo, Kay S, He Haibo. Toward optimal feature selection in naive Bayes for text categorization[J]. IEEE Trans on Knowledge and Data Engineering, 2016,28(9): 2508-2521.

[2]Ma Zhigang, Nie Feiping, Yang Yi, et al. Web image annotation via subspace-sparsity collaborated feature selection[J]. IEEE Trans on Multimedia, 2012,14(4): 1021-1030.

[3]Li Yonghao, Hu Liang, Gao Wanfu. Multi-label feature selection via robust flexible sparse regularization[J]. Pattern Recognition, 2023, 134: 109074.

[4]Miri M, Dowlatshahi M B, Hashemi A. Evaluation multi label feature selection for text classification using weighted borda count approach[C]//Proc of the 9th Iranian Joint Congress on Fuzzy and Intelligent Systems. Piscataway,NJ:IEEE Press, 2022: 1-6.

[5]Li Junlong, Li Peipei, Hu Xuegang, et al. Learning common and label-specific features for multi-label classification with correlation information[J]. Pattern Recognition, 2022,121: 108259.

[6]Siblini W, Kuntz P, Meyer F. A review on dimensionality reduction for multi-label classification[J]. IEEE Trans on Knowledge and Data Engineering, 2019, 33(3): 839-857.

[7]潘敏瀾, 孫占全, 王朝立,等. 結(jié)合標(biāo)簽集語(yǔ)義結(jié)構(gòu)的多標(biāo)簽特征選擇算法[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2023, 44(1): 90-96. (Pan Minlan, Sun Zhanquan, Wang Chaoli, et al. Multi label feature selection algorithm based on semantic structure of label set[J]. Journal of Chinese Computer Systems, 2023, 44(1): 90-96).

[8]Liu Jinghua, Li Yuwen, Weng Wei, et al. Feature selection for multi-label learning with streaming label[J]. Neurocomputing, 2020, 387: 268-278.

[9]Fan Yuling, Liu Jinghua, Weng Wei, et al. Multi-label feature selection with constraint regression and adaptive spectral graph[J]. Knowledge-Based Systems, 2021, 212: 106621.

[10]Zhang Yao, Ma Yingcang, Yang Xiaofei. Multi-label feature selection based on logistic regression and manifold learning[J]. Applied Intelligence, 2022, 52:9256-9273.

[11]Cheng Yusheng, Zhang Chao, Pang Shufang. Multi-label space reshape for semantic-rich label-specific features learning[J]. International Journal of Machine Learning and Cybernetics, 2022,13(6): 1-15.

[12]Teng Luyao, Feng Zhenye, Fang Xiaozhao, et al. Unsupervised feature selection with adaptive residual preserving[J]. Neurocompu-ting, 2019, 367: 259-272.

[13]Fan Yuling, Liu Jinghua, Liu Peizhong, et al. Manifold learning with structured subspace for multi-label feature selection[J]. Pattern Recognition, 2021, 120: 108169.

[14]Lim H, Kim D W. MFC: initialization method for multi-label feature selection based on conditional mutual information[J]. Neurocomputing, 2020, 382: 40-51.

[15]Tawhid M A, Ibrahim A M. Feature selection based on rough set approach, wrapper approach, and binary whale optimization algorithm[J]. International Journal of Machine Learning and Cyberne-tics, 2020, 11: 573-602.

[16]Hu Juncheng, Li Yonghao, Gao Wanfu, et al. Robust multi-label feature selection with dual-graph regularization[J]. Knowledge-Based Systems, 2020, 203: 106126.

[17]Kumar S, Rastogi R. Low rank label subspace transformation for multi-label learning with missing labels[J]. Information Sciences, 2022, 596: 53-72.

[18]Li Yonghao, Hu Liang, Gao Wanfu. Label correlations variation for robust multi-label feature selection[J]. Information Sciences, 2022, 609: 1075-1097.

[19]Fan Yuling, Chen Baihua, Huang Weiqin, et al. Multi-label feature selection based on label correlations and feature redundancy[J]. Knowledge-Based Systems, 2022, 241: 108256.

[20]Zhang Minling, Zhou Zhihua. A review on multi-label learning algorithms[J]. IEEE Trans on Knowledge and Data Engineering, 2013, 26(8): 1819-1837.

[21]Huang Jun, Qin Feng, Zheng Xiao, et al. Learning label-specific features for multi-label classification with missing labels[C]//Proc of the 4th IEEE International Conference on Multimedia Big Data. Piscataway,NJ:IEEE Press, 2018: 1-5.

[22]Read J, Pfahringer B, Holmes G, et al. Classifier chains for multi-label classification[J]. Machine Learning, 2011, 85: 333-359.

[23]Hu Liang, Li Yonghao, Gao Wanfu, et al. Multi-label feature selection with shared common mode[J]. Pattern Recognition, 2020, 104: 107344.

[24]Fan Yuling, Liu Jinghua, Weng Wei, et al. Multi-label feature selection with local discriminant model and label correlations[J]. Neurocomputing, 2021, 442: 98-115.

[25]Li Yonghao,Hu Liang,Gao Wanfu. Robust sparse and low-redundancy multi-label feature selection with dynamic local and global structure preservation[J]. Pattern Recognition, 2023, 134: 109120.

[26]Inoue H. Data augmentation by pairing samples for images classification[EB/OL]. (2018-04-11). https://arxiv.org/abs/1801.02929.

[27]Shu Senlin, Lyu Fengmao, Yan Yan, et al. Incorporating multiple cluster centers for multi-label learning[J]. Information Sciences, 2022, 590: 60-73.

[28]Huang Rui, Wu Zhejun. Multi-label feature selection via manifold regularization and dependence maximization[J]. Pattern Recognition, 2021, 120: 108149.

[29]Jian Ling, Li Jundong, Shu Kai, et al. Multi-label informed feature selection[C]//Proc of International Joint Conference on Artificial Intelligence. San Francisco,CA: Morgan Kaufmann Publishers, 2016,16: 1627-1633.

[30]Zhang Jia, Luo Zhiming, Li Candong, et al. Manifold regularized discriminative feature selection for multi-label learning[J]. Pattern Recognition, 2019, 95: 136-150.

[31]Demar J. Statistical comparisons of classifiers over multiple data sets[J]. The Journal of Machine Learning Research, 2006, 7: 1-30.