国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于標(biāo)記權(quán)重和mRMR的多標(biāo)記特征選擇

2023-04-06 18:58:23孫林徐楓王振徐久成
關(guān)鍵詞:互信息特征選擇子集

孫林,徐楓 ,王振 ,徐久成

(1.河南師范大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,河南 新鄉(xiāng) 453007;2.河南師范大學(xué) 智慧商務(wù)與物聯(lián)網(wǎng)技術(shù)河南省工程實(shí)驗(yàn)室,河南 新鄉(xiāng) 453007)

0 引言

隨著大數(shù)據(jù)應(yīng)用的快速發(fā)展,處理高維多標(biāo)記數(shù)據(jù)已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域亟需解決的關(guān)鍵問(wèn)題之一[1-2]。在多標(biāo)記數(shù)據(jù)中存在許多的冗余與不相關(guān)的特征,這些特征一方面給學(xué)習(xí)算法帶來(lái)了較高的時(shí)間和空間開(kāi)銷,另一方面也降低了分類器的精度和泛化能力[3-4]。在多標(biāo)記數(shù)據(jù)處理中,特征選擇作為一種重要的預(yù)處理工具[5],可以更好地消除冗余特征,對(duì)數(shù)據(jù)進(jìn)行處理以獲得更好的分類效果[6]。目前,多標(biāo)記特征選擇模型大致可以分為過(guò)濾式、封裝式和嵌入式模型三種[7]。過(guò)濾式模型不需要關(guān)注其學(xué)習(xí)方法,是根據(jù)數(shù)據(jù)的共有屬性來(lái)選擇特征,由于其簡(jiǎn)捷性和效率上的優(yōu)勢(shì),該模型得到了更多的應(yīng)用[8]。封裝式模型需要針對(duì)學(xué)習(xí)器進(jìn)行多次特征選擇訓(xùn)練,因而其計(jì)算開(kāi)銷較大[9]。嵌入式模型結(jié)合兩者的優(yōu)點(diǎn),將特征選擇的訓(xùn)練過(guò)程和學(xué)習(xí)算法聯(lián)合,但缺點(diǎn)是對(duì)于某些特定的算法存在較大的局限性[10]。由于封裝式與嵌入式模型在特征選擇過(guò)程中會(huì)出現(xiàn)過(guò)擬合現(xiàn)象,且其效率并不如過(guò)濾式[11]。并且,針對(duì)高維數(shù)據(jù)過(guò)濾式模型會(huì)更容易實(shí)現(xiàn)[12],本文采用基于過(guò)濾式策略進(jìn)行多標(biāo)記數(shù)據(jù)的特征選擇。

作為一種非常有效的過(guò)濾式特征選擇模型,最大相關(guān)最小冗余(mRMR)算法在篩選出與分類變量最相關(guān)特征的同時(shí),能夠使特征之間的差異最大化,進(jìn)而獲取最佳特征組合[13]。截止目前,利用最大相關(guān)最小冗余算法處理多標(biāo)記數(shù)據(jù)的成果越來(lái)越多。張俐和王樅[14]使用互信息和交互信息定義相關(guān)性和冗余性,提出了基于mRMR聯(lián)合互信息的多標(biāo)記特征選擇算法。但是,該算法處理數(shù)據(jù)的標(biāo)記數(shù)偏少。Lin等[15]考慮多標(biāo)記特征的依賴性和冗余性,結(jié)合互信息與mRMR設(shè)計(jì)了多標(biāo)記特征選擇算法。但是,該算法沒(méi)有考慮標(biāo)記之間的相關(guān)性和互依賴性。Huang等[16]將鄰域分類精度與mRMR結(jié)合,提出了基于Relief和mRMR的鄰域粗糙集多標(biāo)記特征選擇算法。Fan等[17]利用嶺回歸創(chuàng)建特征選擇矩陣和低維嵌入,并通過(guò)余弦相似性分析特征冗余度,提出了一種基于標(biāo)記相關(guān)性和特征冗余的多標(biāo)記特征選擇算法。但是,上述兩種算法計(jì)算開(kāi)銷較大。Sun等[18]基于模糊鄰域粗糙集和mRMR提出了一種缺失標(biāo)記特征選擇算法。但是,該算法并沒(méi)有充分考慮標(biāo)記與標(biāo)記之間的權(quán)重。為解決該問(wèn)題,本文利用標(biāo)準(zhǔn)互信息計(jì)算標(biāo)記與標(biāo)記之間的關(guān)聯(lián)度,使用每個(gè)標(biāo)記和標(biāo)記集關(guān)聯(lián)度占所有標(biāo)記與標(biāo)記集之間關(guān)聯(lián)度之和的比例定義標(biāo)記權(quán)重,進(jìn)而計(jì)算特征與標(biāo)記之間的關(guān)聯(lián)度,結(jié)合標(biāo)記權(quán)重改進(jìn)最大相關(guān)性,使用新的mRMR算法進(jìn)行多標(biāo)記特征初選,獲取候選特征子集。

盡管mRMR算法在多標(biāo)記特征選擇方面取得了一些研究成果,但是大多數(shù)算法并沒(méi)有充分考慮標(biāo)記之間以及特征與標(biāo)記集之間的相關(guān)性。例如,李田力等[19]利用模糊熵計(jì)算特征與標(biāo)記之間的相關(guān)性,提出了一種標(biāo)記不平衡性的多標(biāo)記粗糙互信息特征選擇方法,但是該方法沒(méi)有完全考慮到標(biāo)記之間的相關(guān)性。唐莉等[20]利用樣本的分類間隔及差異性度量特征的重要性,提出了一種基于樣本差異性的多標(biāo)記特征選擇算法。王晶晶和楊有龍[21]提出了一種針對(duì)弱標(biāo)記數(shù)據(jù)的多標(biāo)簽分類算法,通過(guò)迭代訓(xùn)練樣本的權(quán)重并考慮標(biāo)記之間的相關(guān)性恢復(fù)缺失的標(biāo)記信息。但是上述兩種算法沒(méi)有涉及到特征與標(biāo)記集之間的相關(guān)性。蔡亞萍和楊明[22]通過(guò)標(biāo)記相似度衡量?jī)蓚€(gè)樣本標(biāo)記集的相似度,提出了結(jié)合局部標(biāo)記相關(guān)性的多標(biāo)記特征選擇算法,但是該算法對(duì)于不同的測(cè)試樣本有不同的標(biāo)記相關(guān),會(huì)增加時(shí)間開(kāi)銷。魏葆雅等[23]使用標(biāo)記對(duì)樣本的可分性賦予標(biāo)記權(quán)重,基于核映射后的特征空間來(lái)度量特征對(duì)樣本的可分性,但該模型未考慮特征與標(biāo)記之間的相關(guān)性。針對(duì)此問(wèn)題,計(jì)算特征與標(biāo)記之間的標(biāo)準(zhǔn)互信息,結(jié)合關(guān)聯(lián)度占比定義的標(biāo)記權(quán)重,設(shè)計(jì)特征與標(biāo)記集之間的相關(guān)度公式,在最初候選特征子集基礎(chǔ)上進(jìn)一步剔除冗余特征,以獲取最優(yōu)特征子集。

針對(duì)多標(biāo)記高維數(shù)據(jù)集,為解決現(xiàn)有mRMR算法沒(méi)有充分考慮標(biāo)記之間和特征與標(biāo)記集之間的相關(guān)性,以及沒(méi)有有效計(jì)算標(biāo)記與樣本的可分度等問(wèn)題,本文提出基于標(biāo)記權(quán)重和mRMR的多標(biāo)記特征選擇方法。首先,運(yùn)用標(biāo)準(zhǔn)互信息計(jì)算每個(gè)標(biāo)記與標(biāo)記集的關(guān)聯(lián)度,由關(guān)聯(lián)度占比定義新的標(biāo)記權(quán)重;然后,計(jì)算特征與標(biāo)記之間的關(guān)聯(lián)度,結(jié)合標(biāo)記權(quán)重改進(jìn)最大相關(guān)性,基于標(biāo)準(zhǔn)互信息定義最小冗余性,構(gòu)建新的mRMR評(píng)價(jià)準(zhǔn)則,獲取最初的候選特征子集;最后,計(jì)算特征與標(biāo)記之間的標(biāo)準(zhǔn)互信息,結(jié)合標(biāo)記權(quán)重,計(jì)算特征與標(biāo)記集之間的相關(guān)度,進(jìn)一步剔除冗余特征,篩選最優(yōu)特征子集,提升算法的分類性能。

1 基礎(chǔ)理論

假設(shè) MLDS = 是一個(gè)多標(biāo)記決策系統(tǒng)[24],其中 U = {x1,x2,…,xn}表示由n個(gè)樣本構(gòu)成的樣本集;F表示特征集和L表示樣本對(duì)應(yīng)的標(biāo)記集,T = {(xi,yi)|i = 1,2,…,n}表示在標(biāo)記上的映射關(guān)系。每個(gè)樣本由f維表示,記為xi∈Rf,對(duì)應(yīng)的標(biāo)記集由向量yi∈{0,1}l表示,其中 l∈L。如果 xi有第 l個(gè)類別標(biāo)記,則yi(l) = 1,否則yi(l)= 0;且∑yi≥ 1。

在MLDS = 中,任意樣本xi∈X?U,i = 1,2,…,n,p(xi)為樣本 xi的先驗(yàn)概率,則樣本X的信息熵[25]可以表示為:

在MLDS = 中,任意樣本子集 X 和 Y?U,xi∈X 和 yj∈Y,i,j = 1,2,…,n,p(yj|xi)為條件先驗(yàn)概率,Y在給定X下的條件熵[25]表示為:

X和Y的互信息量表示已知Y的條件下,X不確定性的改變量,從統(tǒng)計(jì)學(xué)角度反映了X和Y的關(guān)聯(lián)程度,所以X和Y的互信息[25]可表示為:

2 基于mRMR的多標(biāo)記特征選擇算法

2.1 標(biāo)記權(quán)重

在多標(biāo)記數(shù)據(jù)中,每個(gè)樣本可能同時(shí)隸屬于多個(gè)類別標(biāo)記,而每個(gè)類別標(biāo)記對(duì)樣本有著不同程度的可辨別性[26]。因此,本文通過(guò)對(duì)標(biāo)記賦予一定的權(quán)重來(lái)探索各類別標(biāo)記對(duì)樣本的可區(qū)分性程度。

定義1 在 MLDS = 中,L = {l1,l2,…,lz}表示含有 z個(gè)標(biāo)記的集合,li∈L,i =1,2,…,z,基于標(biāo)準(zhǔn)互信息計(jì)算標(biāo)記與標(biāo)記集之間關(guān)聯(lián)度,其計(jì)算公式為:

2.2 改進(jìn)的mRMR

mRMR是基于互信息的特征選擇方法,根據(jù)最大統(tǒng)計(jì)依賴性準(zhǔn)則選擇重要特征[13]。為解決傳統(tǒng)mRMR算法沒(méi)有充分考慮標(biāo)記權(quán)重,從而導(dǎo)致去除最小相關(guān)冗余特征后帶來(lái)的分類精度下降的問(wèn)題,本文將標(biāo)記權(quán)重與mRMR結(jié)合,并將其運(yùn)用于多標(biāo)記特征選擇中。

定義3 在 MLDS = 中,F(xiàn) = {f1,f2,…,fn},fj∈F,j = 1,2,…,n,L ={l1,l2,…,lz},li∈L,i =1,2,…,z,結(jié)合標(biāo)準(zhǔn)互信息計(jì)算特征與標(biāo)記之間的關(guān)聯(lián)度,其表達(dá)式為:

定義4 在 MLDS = 中,F(xiàn) = {f1,f2,…,fn},fj∈F,j = 1,2,…,n,L ={l1,l2,…,lz},l∈L,結(jié)合特征與標(biāo)記之間的關(guān)聯(lián)度和標(biāo)記權(quán)重定義最大相關(guān)性,其計(jì)算公式為:

定義2 在 MLDS = 中,L = {l1,l2,…,lz},li∈L,i =1,2,…,z,使用每個(gè)標(biāo)記與標(biāo)記集關(guān)聯(lián)度占所有標(biāo)記與標(biāo)記集之間關(guān)聯(lián)度之和的比例定義標(biāo)記權(quán)重,其計(jì)算公式為:

定義5 在 MLDS = 中,F(xiàn) = {f1,f2,…,fn},fi,fj∈F,i,j = 1,2,…,n,基于特征與特征之間的標(biāo)準(zhǔn)互信息定義最小冗余性,其計(jì)算公式為:

定義6 在 MLDS = 中,F(xiàn) = {f1,f2,…,fn},L = {l1,l2,…,lz},l∈L,基于最大相關(guān)性和最小冗余性定義新的mRMR,其計(jì)算公式為:

2.3 相關(guān)度

為了解決沒(méi)有考慮特征和標(biāo)記之間的相關(guān)度而造成分類精度不高的問(wèn)題,引入特征和標(biāo)記之間的互信息并結(jié)合標(biāo)記權(quán)重,計(jì)算特征與標(biāo)記集之間的相關(guān)度,有效篩選與標(biāo)記集相關(guān)度較高的特征子集。

定義7 在 MLDS = 中,F(xiàn) = {f1,f2,…,fn},f∈F,L = {l1,l2,…,lz},li∈L,i = 1,2,…,z,結(jié)合標(biāo)準(zhǔn)互信息和新的標(biāo)記權(quán)重計(jì)算特征f和標(biāo)記集L之間的相關(guān)度,其計(jì)算公式為:

2.4 算法描述

為了設(shè)計(jì)基于標(biāo)記權(quán)重和mRMR的多標(biāo)記特征選擇算法(Multilabel Feature Selection Us?ing Label Weight and mRMR, MFSLM),首先計(jì)算每個(gè)標(biāo)記與標(biāo)記集之間的關(guān)聯(lián)度,并根據(jù)關(guān)聯(lián)度的占比計(jì)算標(biāo)記權(quán)重;然后使用改進(jìn)后的mRMR得到初選多標(biāo)記特征子集;最后,結(jié)合互信息和標(biāo)記權(quán)重計(jì)算每個(gè)特征與標(biāo)記集之間的相關(guān)度,通過(guò)相關(guān)度降序排序特征,進(jìn)而得到最終篩選的最優(yōu)特征子集。其詳細(xì)偽代碼描述如算法1。

算法1 MFSLM算法

輸入:MLDS =

輸出:最優(yōu)特征子集R0

步驟1. For 每個(gè)標(biāo)記l∈L

步驟2. 通過(guò)式(5)計(jì)算標(biāo)記權(quán)重W(li)

步驟3. End For

步驟4. For 特征子集R1

步驟5. 根據(jù)式(9)計(jì)算NMR(R1)

步驟6. End For

步驟7. 對(duì)NMR值進(jìn)行排序并選擇排序較前的作為最初篩選的特征子集R1

步驟8. For 每個(gè)特征f∈F

步驟9. For 每個(gè)標(biāo)記l∈L

步驟10. 根據(jù)式(10)計(jì)算特征和標(biāo)記集之間的相關(guān)度CDE(f, L)

步驟11. End For

步驟12. End For

步驟13. 根據(jù)特征和標(biāo)記集之間的CDE(f, L)值篩選出最終特征子集 R0(|R1|≥2|R0|)

步驟14. Return 最優(yōu)多標(biāo)記特征子集R0

在MFSLM算法中,假設(shè)多標(biāo)記數(shù)據(jù)集包括m個(gè)樣本、n個(gè)特征和t個(gè)標(biāo)記。在篩選模塊1中,步驟1至步驟3計(jì)算標(biāo)記權(quán)重的時(shí)間復(fù)雜度為O(mt),步驟4至步驟6計(jì)算新的mRMR值的時(shí)間復(fù)雜度為O(n2+nt);在篩選模塊2中,步驟8至步驟12計(jì)算特征與標(biāo)記集之間的相關(guān)度的時(shí)間復(fù)雜度為O(nt),其中步驟7和步驟13為兩次篩選特征子集的時(shí)間復(fù)雜度為O(nlogn)。由分析可知,該算法總的時(shí)間復(fù)雜度為 O(n2+nt+mt)。

3 實(shí)驗(yàn)結(jié)果及分析

3.1 實(shí)驗(yàn)準(zhǔn)備

為驗(yàn)證本文MFSLM算法的有效性,在Mu?lan數(shù)據(jù)庫(kù)(http://mulan.sourceforge.net)中選取了8個(gè)多標(biāo)記數(shù)據(jù)集,數(shù)據(jù)集的具體信息如表1所示。參考文獻(xiàn)[19]和文獻(xiàn)[26],對(duì)這些多標(biāo)記數(shù)據(jù)集進(jìn)行了劃分,分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。

參照文獻(xiàn)[27],本文實(shí)驗(yàn)使用5個(gè)常用的多標(biāo)記評(píng)價(jià)指標(biāo):平均分類精度(Average Preci?sion,AP)、漢明損失(Hamming Loss,HL)、1錯(cuò)誤率(One Error,OE)、覆蓋率(Coverage,CV)和排序損失(Ranking Loss,RL),驗(yàn)證對(duì)比算法的分類性能。其中,AP值越大效果越好(1為最優(yōu)),其他指標(biāo)越小效果越好(0為最優(yōu))。為后續(xù)結(jié)果的觀察方便,使用“↑”表示實(shí)驗(yàn)結(jié)果越大越好,“↓”表示實(shí)驗(yàn)結(jié)果越小越好。使用多標(biāo)記K最近鄰(K Multilabel k-nearest neigh?bor, ML-KNN)作為多標(biāo)記特征選擇后的分類器,其中近鄰個(gè)數(shù)為10,平滑參數(shù)為1,分類后的結(jié)果驗(yàn)證多標(biāo)記特征選擇算法的實(shí)驗(yàn)效果。實(shí)驗(yàn)環(huán)境為Windows 10、CPU inter i7-4790 3.60 GHz、8.00 GB和MATLAB R2019a。

3.2 ML-KNN分類器上的實(shí)驗(yàn)結(jié)果分析

在本節(jié)實(shí)驗(yàn)的第一部分是將MFSLM算法與其他4種多標(biāo)記特征選擇算法做對(duì)比分析,包括:基于AP聚類和互信息的弱標(biāo)記特征選擇 算 法 (Weak label feature selection method based on AP clustering and mutual information,WFSAM)[28]、基于標(biāo)記相關(guān)性的多標(biāo)記特征選擇算法(Multi-label feature selection with label correlation algorithm, MUCO)[29]、基于最大相關(guān)性的多標(biāo)記維數(shù)約簡(jiǎn)算法 (Multi-label dimen?sionality reduction algorithm via dependence maxi?mization, MDDMspc)[30]和基于陣營(yíng)的多標(biāo)記特征選擇算法 (Alignment based feature selection algorithm for multi-label learning, MFS-KA)[31]。從表1中選擇3個(gè)代表性數(shù)據(jù)集:Yeast、Enron和 Reference,采用 5個(gè)指標(biāo)(AP、CV、OE、HL和RL)評(píng)估上述5種比較算法的分類性能。圖1為實(shí)驗(yàn)結(jié)果對(duì)比圖,其中橫坐標(biāo)和縱坐標(biāo)分別表示所選特征的個(gè)數(shù)(Number of selected fea?tures, N)和5個(gè)評(píng)價(jià)指標(biāo)的分類結(jié)果。為了更清晰地展示上述5種算法的最優(yōu)結(jié)果,表2給出了在3個(gè)數(shù)據(jù)集上5種算法在5個(gè)評(píng)價(jià)指標(biāo)上的最佳實(shí)驗(yàn)結(jié)果。

由圖1可知,在AP指標(biāo)下,在Yeast數(shù)據(jù)集上,當(dāng)N = 10時(shí),MFSLM算法略差于WFSAM算法,優(yōu)于其他3種算法,但在其余情況下均為最優(yōu);在Enron數(shù)據(jù)集上,當(dāng)N = 100時(shí),MF?SLM算法差于MFS-KA算法,優(yōu)于其他3種算法,當(dāng)N = 300時(shí)略差于WFSAM算法,但在其余情況下均為最優(yōu);在Reference數(shù)據(jù)集上,當(dāng)50 ≤ N ≤ 200時(shí),MFSLM算法差于WFSAM、MUCO和MFS-KA這3種算法,當(dāng)250 ≤ N ≤400時(shí),MFSLM算法與MUCO和MFS-KA這2種算法基本持平,當(dāng)N > 450時(shí)均為最優(yōu)。在CV指標(biāo)下,在Enron數(shù)據(jù)集上,MFSLM算法明顯優(yōu)于其他算法;在Yeast數(shù)據(jù)集上,當(dāng)N > 30時(shí),MFSLM算法均為最優(yōu);在Reference數(shù)據(jù)集上,僅在N = 450或N = 500時(shí)為最優(yōu)。在HL指標(biāo)下,在Yeast數(shù)據(jù)集上,MFSLM算法均優(yōu)于其他算法;在Enron數(shù)據(jù)集上,當(dāng)N = 200或N = 300時(shí),MFSLM算法差于MFS-KA與WFSAM這2種算法,當(dāng)N > 400時(shí),MFSLM算法遠(yuǎn)優(yōu)于其他4種算法;在Reference數(shù)據(jù)集上,當(dāng) 50 ≤ N ≤ 450時(shí),MFSLM 算法略差于MFS-KA與WFSAM這2種算法,與MUCO算法相差不大,當(dāng)450 ≤ N ≤ 650時(shí),MFSLM算法優(yōu)于其他4種算法。在OE指標(biāo)下,在Yeast數(shù)據(jù)集上,MFSLM算法與WFSAM算法基本持平,明顯優(yōu)于其他算法;在Enron數(shù)據(jù)集上,當(dāng)N > 400時(shí),MFSLM算法明顯優(yōu)于其他算法;在Reference數(shù)據(jù)集上,在N < 450時(shí),MF?SLM算法略差于WFSAM、MUCO和MFS-KA這3種算法,但當(dāng)N > 450時(shí)優(yōu)于其他4種算法。在RL指標(biāo)下,在Enron數(shù)據(jù)集上,MFSLM算法均為最優(yōu);在Yeast數(shù)據(jù)集上,當(dāng)N > 10時(shí),MFSLM算法優(yōu)于其他算法;在Reference數(shù)據(jù)集上,當(dāng)450 ≤ N ≤ 650時(shí),MFSLM算法優(yōu)于其他算法。從表2中看出,在CV、HL和RL這3個(gè)指標(biāo)下,MFSLM算法均表現(xiàn)最優(yōu)。在AP和OE指標(biāo)下,在Yeast和Enron數(shù)據(jù)集上,MFSLM算法均為最優(yōu),但由于Reference數(shù)據(jù)集是稀疏矩陣數(shù)據(jù)集,說(shuō)明MFSLM算法在稀疏矩陣上的效果表現(xiàn)不好,致使MFSLM算法略差于WFSAM算法。從整體來(lái)分析,MFSLM算法相對(duì)于其他4種比較算法是有效的。

基于最大相關(guān)性的多標(biāo)記維數(shù)約簡(jiǎn)算法(MDDMproj)[30]、基于 ReliefF 的多標(biāo)記特征選擇算法(ReliefF for multilabel feature selection al?gorithm, RF-ML)[32]和基于標(biāo)記權(quán)重的多標(biāo)記特征選擇算法 (Multilabel feature selection algo?rithm based on label weighting, LWMF)[26]。從表1中選擇3個(gè)代表性數(shù)據(jù)集Yeast、Education和Arts,采用4個(gè)指標(biāo)(AP、CV、HL和RL)評(píng)估比較算法的分類性能。圖2是實(shí)驗(yàn)結(jié)果的對(duì)比圖,其中縱坐標(biāo)和橫坐標(biāo)含義與圖1相同。為了更清晰地展示上述6種算法在這3個(gè)數(shù)據(jù)集上的最優(yōu)結(jié)果,表3給出了在3個(gè)數(shù)據(jù)集上6種算法在4個(gè)評(píng)價(jià)指標(biāo)下的最佳實(shí)驗(yàn)結(jié)果。

由圖2可知,在AP指標(biāo)下,在Yeast數(shù)據(jù)集上,當(dāng) 40 ≤ N ≤ 100時(shí),MFSLM 算法略差于WFSNR 算 法 ,在 30 ≤ N ≤ 70時(shí) 略 差 于LWMF算法,但優(yōu)于其他算法;在Arts數(shù)據(jù)集上,MFSLM算法優(yōu)于其他算法;對(duì)于Education數(shù)據(jù)集,當(dāng) 50 ≤ N ≤ 300時(shí),MFSLM 算法均優(yōu)于其他算法。在CV指標(biāo)下,在Yeast數(shù)據(jù)集上,當(dāng)N = 30時(shí),MFSLM算法為最優(yōu),在其他情況下略差于WFSNR算法和LWMF算法;在Education數(shù)據(jù)集上,當(dāng)350 ≤ N ≤ 450時(shí),MF?SLM算法差于LWMF算法,在400 ≤ N ≤ 500時(shí)略差于WFSNR算法,但優(yōu)于其他算法;在Arts數(shù)據(jù)集上,MFSLM算法基本表現(xiàn)最優(yōu)。在HL指標(biāo)下,在Yeast和Education這2個(gè)數(shù)據(jù)集上,僅有少數(shù)情況MFSLM算法略差于LWMF算法,其余情況都優(yōu)于其他算法;在Arts數(shù)據(jù)集上,MFSLM算法均為最優(yōu)。在RL指標(biāo)下,在Yeast數(shù)據(jù)集上,MFSLM算法與LWMF算法差距不大,在50 ≤ N ≤ 100時(shí)略差于WFSNR算法,但仍優(yōu)于其他算法;對(duì)于Education數(shù)據(jù)集,當(dāng) 50 ≤ N ≤ 300時(shí),MFSLM 算法優(yōu)于其它算法;在Arts數(shù)據(jù)集上,在450 ≤ N ≤ 500時(shí),MFSLM算法略差于WFSNR算法和MFSR算法,但均優(yōu)于其他算法。從表3中看出,在CV、HL和RL這3個(gè)指標(biāo)下,MFSLM算法均為最優(yōu)。在AP指標(biāo)下,在Education和Arts這2個(gè)數(shù)據(jù)集上MFSLM算法為最優(yōu);但由于Yeast數(shù)據(jù)集是缺失數(shù)據(jù)填補(bǔ)常用數(shù)據(jù)集,WFSNR算法填補(bǔ)大部分缺失標(biāo)記,致使MFSLM算法略差于WFSNR算法。從整體來(lái)看,MFSLM算法相比于其他5種算法是有效的。

為進(jìn)一步展示MFSLM算法在不同數(shù)據(jù)集上的有效性,選擇文獻(xiàn)[19]中的5種對(duì)比的多標(biāo)記特征選擇算法:標(biāo)記不平衡性的多標(biāo)記粗糙互信息特征選擇算法(Multilabel feature selec?tion use rough mutual information with imbalance lable,MFS-RMI-IL)[19]、基于多變量互信息的多標(biāo)記特征選擇算法(Pairwise multivariate mu?tual information,PMU)[33]、基于最大相關(guān)性的多標(biāo)記約簡(jiǎn)算法(MDDMspc和 MDDMproj)[30]和基于局部子空間的多標(biāo)記特征選擇算法(Multilabel feature selection algorithm base on lo?cal subspace, MFSLS)[34],從表 1 中選擇 4 個(gè)代表性數(shù)據(jù)集:Arts、Health、Society和Science。表4描述了6種算法在4個(gè)指標(biāo)下的實(shí)驗(yàn)結(jié)果。

從表4中看出,在AP指標(biāo)下,MFSLM算法表現(xiàn)均優(yōu)于其他5種算法;尤其在Society數(shù)據(jù)集上,MFSLM算法比次優(yōu)的MFS-RMI-IL算法高0.030 6;在OE指標(biāo)下,MFSLM算法結(jié)果均最為優(yōu)異;尤其是在Society和Science這2個(gè)數(shù)據(jù)集上,MFSLM算法比次優(yōu)的MFS-RMI-IL算法分別低0.032 7和0.038。在HL指標(biāo)下,MFSLM算法在Health和Society數(shù)據(jù)集上均優(yōu)于其他算法;在Arts和Science數(shù)據(jù)集上,MF?SLM算法與最優(yōu)的MFS-RMI-IL算法僅差0.000 3和0.000 1。究其原因是:HL指標(biāo)的重點(diǎn)可能只是針對(duì)單個(gè)標(biāo)記的分類效果,沒(méi)有考慮標(biāo)記間的相關(guān)性和標(biāo)記間的分布,而MF?SLM算法考慮了標(biāo)記間的相關(guān)性。在RL指標(biāo)下,MFSLM算法都取得了最優(yōu)值;尤其是在Society數(shù)據(jù)集上,MFSLM算法比次優(yōu)的MFSRMI-IL算法低0.012 9。

從上述實(shí)驗(yàn)結(jié)果分析可知,MFSLM算法在對(duì)多標(biāo)記數(shù)據(jù)進(jìn)行特征選擇時(shí)表現(xiàn)出優(yōu)異的分類性能。

3.3 統(tǒng)計(jì)分析

使用 Firedman 檢驗(yàn)[24]和 Nemenyi測(cè)試[35]分析所有實(shí)驗(yàn)結(jié)果的統(tǒng)計(jì)意義。Firedman檢驗(yàn)的計(jì)算公式為:

參考文獻(xiàn)[35]的統(tǒng)計(jì)計(jì)算方法,表2中的實(shí)驗(yàn)結(jié)果對(duì)應(yīng)的統(tǒng)計(jì)結(jié)果如表5所示,CD圖如圖3所示。在顯著水平α = 0.1時(shí),則qa=2.459,CD = 3.174 6,其中s = 5和 T = 3。從圖3可以看出,MFSLM算法在5個(gè)指標(biāo)上均為最優(yōu)。表3中的實(shí)驗(yàn)結(jié)果對(duì)應(yīng)的統(tǒng)計(jì)結(jié)果如表6所示,CD圖如圖4所示。在顯著水平α = 0.1時(shí),則 qa= 2.589,CD = 3.756 2,其中 s = 6和T = 3。從圖4看出,MFSLM算法在4個(gè)指標(biāo)上均為最優(yōu)。表4中的實(shí)驗(yàn)結(jié)果的統(tǒng)計(jì)結(jié)果如表7所示,CD圖如圖5所示。在顯著水平α =0.1時(shí),則qa= 2.589,CD = 3.253 0,其中s = 6和T = 4。由圖5可知,MFSLM算法在4個(gè)指標(biāo)上均為最優(yōu)。

4 結(jié)論

為有效處理多標(biāo)記數(shù)據(jù),本文提出了一種基于標(biāo)記權(quán)重和mRMR的多標(biāo)記特征選擇算法。算法首先基于標(biāo)準(zhǔn)互信息計(jì)算標(biāo)記之間關(guān)聯(lián)度,結(jié)合特征與標(biāo)記之間的關(guān)聯(lián)度和標(biāo)記權(quán)重,定義了新的最大相關(guān)性,構(gòu)建新的mRMR算法,初次篩選特征子集;然后,計(jì)算特征與標(biāo)記之間的標(biāo)準(zhǔn)互信息,結(jié)合標(biāo)記權(quán)重計(jì)算特征與標(biāo)記集之間的相關(guān)度,在最初候選特征子集基礎(chǔ)上進(jìn)一步剔除冗余特征,篩選最優(yōu)特征子集,提高特征與標(biāo)記之間的相關(guān)性,從而提升算法的分類性能。在8個(gè)多標(biāo)記數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,MFSLM算法在對(duì)多標(biāo)記數(shù)據(jù)進(jìn)行特征選擇時(shí),其分類性能得到了有效提升。但是,本文算法未充分考慮特征與特征集之間的關(guān)聯(lián)性,因此在處理大規(guī)模多標(biāo)記數(shù)據(jù)集時(shí)仍然存在一定的缺陷。在未來(lái)工作中,針對(duì)大規(guī)模多標(biāo)記數(shù)據(jù)集,如何提升多標(biāo)記特征選擇的時(shí)效性是今后研究的方向。

猜你喜歡
互信息特征選擇子集
由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
拓?fù)淇臻g中緊致子集的性質(zhì)研究
關(guān)于奇數(shù)階二元子集的分離序列
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
聯(lián)合互信息水下目標(biāo)特征選擇算法
改進(jìn)的互信息最小化非線性盲源分離算法
每一次愛(ài)情都只是愛(ài)情的子集
都市麗人(2015年4期)2015-03-20 13:33:22
基于增量式互信息的圖像快速匹配方法
基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
邻水| 二连浩特市| 翁牛特旗| 盐源县| 松滋市| 泗阳县| 体育| 拉萨市| 泊头市| 上林县| 隆化县| 北票市| 寿宁县| 湘乡市| 安宁市| 武山县| 迁西县| 公主岭市| 苍梧县| 岳阳县| 砚山县| 黄平县| 双桥区| 沙洋县| 武宁县| 清徐县| 特克斯县| 左云县| 通海县| 南康市| 克什克腾旗| 海淀区| 旺苍县| 泰州市| 江津市| 香港| 桐柏县| 循化| 壤塘县| 黎城县| 山阴县|