【摘 要】 線性判別分析(Linear discriminant analysis, LDA)作為一種有監(jiān)督的降維方法,已經(jīng)廣泛應用于各個領域。然而,傳統(tǒng)的LDA存在以下缺點:1)LDA假設數(shù)據(jù)是高斯分布和單一模態(tài)的;2)LDA對異常值和噪聲十分敏感;3)LDA的判別投影方向?qū)μ卣鞯目山忉屝缘颓覍稻S數(shù)較為敏感。為克服以上問題,提出了基于信息熵的魯棒稀疏子類判別分析(Robust sparse subclass discriminant analysis based on information entropy, RSSDAIE)新方法。具體而言,對每個類別劃分不同數(shù)量的子類后,重新定義類內(nèi)散射矩陣和類間散射矩陣,使其更適應現(xiàn)實數(shù)據(jù)。另外,引入[21]范數(shù)、稀疏矩陣和正交重構(gòu)矩陣以確保RSSDAIE具有更高的魯棒性、更好的可解釋性和更低的維度敏感性。同時采用交替方向乘子法對目標函數(shù)求解,避免類內(nèi)散射矩陣不可逆的情形。在多個數(shù)據(jù)集上進行了對比實驗,證明了RSSDAIE在數(shù)據(jù)適用類型、降低噪聲影響、減少降維數(shù)影響等方面更有優(yōu)越性,分類準確率更高。
【關鍵詞】 類內(nèi)多模態(tài);信息熵;判別分析;[21]范數(shù)
Robust Sparse Subclass Discriminant Analysis
Based on Information Entropy
Yang Yuan, Zhou Yuejin*
(Anhui University of Science and Technology, Huainan 232001, China)
【Abstract】 Linear discriminant analysis (LDA), as a supervised dimension reduction method, has been widely applied in various fields497e4863aa9b2a2daac2978870bc9e8dcbf55e148eab2993e7018902d2054591. However, traditional LDA has the following drawbacks: 1) LDA assumes that the data are Gaussian distributed and unimodal. 2) LDA is very sensitive to outlier and noise. 3) the discriminant projection direction of LDA has low interpretability of features and is sensitive to the number of dimension reduction. In this paper, a novel method called robust sparse subclass discriminant analysis based on information entropy(RSSDAIE) is proposed to solve the above problems. Specifically, to make RSSDAIE more consistent with real data, each class is divided into different subclasses, and the within-class and between-class scattering matrix are redefined. The [21] norm, a sparse matrix and orthogonal reconstruction matrix are also simultaneously introduced to ensure that RSSDAIE has more robustness and interpretability and reduces the dimensional sensitivity. The objective function is solved by the alternating direction multiplier method to avoid the irreversibility of the within-class scattering matrix. Extensive experiments on several datasets prove that RSSDAIE has more superior advantage in adapting to data types, reducing the effect of noise and dimensionality and has higher classification accuracy compared with other related methods.
【Key words】 within-class multimodality; information entropy; discriminant analysis; [21] norm
〔中圖分類號〕 TP391.4 〔文獻標識碼〕 A 〔文章編號〕 1674 - 3229(2024)03 - 0042 - 11
0 引言
在數(shù)據(jù)的收集過程中數(shù)據(jù)的維度越來越高,特征工程的重要性日益增加。特征工程[1]是指在高維的數(shù)據(jù)中提取能代表數(shù)據(jù)的重要特征,其本質(zhì)是對原始數(shù)據(jù)空間進行學習,研究一個低維子空間對原始數(shù)據(jù)進行表示,從而降低數(shù)據(jù)的特征個數(shù)、提高模型的效率和準確率。在眾多方法中,降維[2]是特征工程的主要方法。降維將原數(shù)據(jù)空間投影到低維子空間,從而解決“維度禍根”問題,通過對降維后的數(shù)據(jù)進行處理,能夠減少計算量、增強模型的效能。
根據(jù)是否利用標簽信息,降維分為無監(jiān)督降維方法和有監(jiān)督降維方法。在無監(jiān)督降維方法中,常見的有獨立成分分析[3]、t分布隨機鄰居嵌入[4]、流形學習[5]等,其中最典型的是主成分分析(Principal component analysis, PCA)[6]。PCA降維保留數(shù)據(jù)集中方差貢獻大的特征,隨著維度的增加,特征的重要性依次遞減。有監(jiān)督降維方法的典型代表是線性判別分析(Linear discriminant analysis, LDA)[7]。LDA充分利用標簽信息找到最具判別性的特征,其核心思想是找到一個投影矩陣使同一類別的數(shù)據(jù)更緊湊、不同類別的數(shù)據(jù)更分散,即最大化類間散射矩陣(between-class scattering matrix, [Sb])和類內(nèi)散射矩陣(with-class scattering matrix, [Sw])的比值。由于LDA充分利用標簽信息后提取的特征具有可判別性,這使得LDA的應用更為廣泛。
在LDA的應用過程中,為提升其性能和效率研究者提出了許多相關的變體。Lu等[8]直接對[Sw]進行正則化處理,避免LDA目標函數(shù)求解時[Sw]不可逆的情形。Ye等[9]提出了廣義不相關的線性判別分析,通過對LDA目標函數(shù)進行轉(zhuǎn)換,將[Sb]和[Sw]的比率問題轉(zhuǎn)化為非比率問題的等價形式。Zhang等[10]和Murthy等[11]對[Sb]和[Sw]進行了不同的函數(shù)映射,不僅解決了[Sw]不可逆的問題,還擴大了不同類別樣本間的距離。雖然這些方法都解決了LDA中[Sw]不可逆的缺陷,但是針對數(shù)據(jù)的結(jié)構(gòu)和方法的魯棒性沒有進行研究。
LDA的前提假設是數(shù)據(jù)為單模態(tài)的(每個類別中沒有集群)并且符合高斯分布,但是在真實的應用數(shù)據(jù)中,數(shù)據(jù)往往是多模態(tài)的和非高斯分布的。Zhu等[12]提出了子類判別分析(Subclass discriminant analysis, SDA),對每個類別劃分了子類后重新定義[Sb]和[Sw]。Gkalelis等[13]進一步提出了混合子類判別分析(Mixture subclass discriminant analysis, MSDA),只針對非高斯分布的類別考慮了子類。Wan等[14]提出了面向可分離性的子類判別分析(Separability oriented subclass discriminant analysis, SSDA)。SSDA通過平均歐式距離最小化為每個類找到最佳子類數(shù)量,從不同的層面重新定義了[Sb]和[Sw]。雖然這些方法都考慮了數(shù)據(jù)的多模態(tài),但仍然無魯棒性和可解釋性。
LDA目標函數(shù)本質(zhì)上是范數(shù)的平方,當數(shù)據(jù)有噪聲和異常值時,LDA的投影方向會因異常值和噪聲發(fā)生嚴重的偏移,使LDA的性能下降。Nie等[15]提出了[21]范數(shù),對目標函數(shù)的[2]范數(shù)求和,減少異常值和噪聲的影響。Oh等[16]對目標函數(shù)施加了[p]范數(shù),可根據(jù)數(shù)據(jù)自身的特點選擇不同的[p]值,從而減少異常值和噪聲的影響。Liu等[17]對[21]范數(shù)增加了閾值,進一步降低了異常值和噪聲對投影方向的影響。此外,LDA的投影矩陣是廣義特征值分解中最大特征值對應的特征向量,投影矩陣沒有稀疏性使得LDA的可解釋性差。Clemmensen等[18]和Anzarmou等[19]提出學習一個稀疏判別子空間增加模型的可解釋性。Wen等[20]對投影矩陣施加[21]范數(shù)并融入了PCA的正交重構(gòu)思想,不僅提升了魯棒性而且具有可解釋性。Wang等[21]在此基礎上考慮數(shù)據(jù)的局部流形結(jié)構(gòu)提升模型的表現(xiàn)。Li等[22]通過對投影矩陣增加稀疏上界,用交替方向乘子法對目標函數(shù)求解并應用遞歸程序進行貪婪搜索尋找投影矩陣。
為了使模型適用性更廣魯棒性更高,本文提出了一種基于信息熵的魯棒稀疏子類判別分析(Robust sparse subclass discriminant analysis based on information entropy, RSSDAIE)的新方法。首先,數(shù)據(jù)是多模態(tài)的,通過最小化子類數(shù)據(jù)分布的信息熵為每個類別尋找最佳子類數(shù)量,通過分層聚類方法劃分子類。其次,重新定義了類內(nèi)散射矩陣[Sw]和類間散射矩陣[Sb]。再次,在目標函數(shù)中融入PCA的正交重構(gòu)思想并考慮魯棒性和稀疏性。最后,通過構(gòu)造增廣拉格朗日函數(shù),用交替方向乘子法對目標函數(shù)進行求解。
1 相關介紹
1.1 符號解釋
給定數(shù)據(jù)集[Z=x1,y1,x2,y2,…,xN,yN],其中[xl∈RD]表示第[l]個樣本,[yl∈1,2,…,C]表示第[l]個類標簽,[l=1,2,…,N]。[X=x1,x2,…,xN∈RD×N]為特征矩陣,[D]為樣本的維度,[N]為樣本總量。[x=1N∑Nl=1xl]表示總樣本均值。設第[i]類樣本中有[Ni]個樣本數(shù)據(jù),第[i]類的樣本均值為[xi=1Ni∑Nih=1xhi],其中[h=1,2,…,Ni],[i=1,2,…,C],[xhi]是第[i]類的第[h]個樣本。對于多模態(tài)數(shù)據(jù),假設[X]的第[i]類樣本中有[Ki]個子類且第[i]類的第[j]個子類中有[Nij]個樣本數(shù)據(jù),第[i]類的第[j]個子類的樣本均值為[xij=1Nij∑Nijm=1xmij],其中[m=1,2,…,Nij],[j=1,2,…,]
[Ki],[xmij]是第[i]類的第[j]個子類的第[m]個樣本。
1.2 線性判別分析 (LDA)
LDA[7]作為一種具有判別性的有監(jiān)督降維方法,已經(jīng)廣泛應用于機器學習的各種領域。LDA目標是使數(shù)據(jù)的類間散射矩陣[Sb]和類內(nèi)散射矩陣[Sw]的比值最大化,其中[Sb]描述了不同類別之間的分離性,[Sw]描述了同一類別之內(nèi)的緊湊性。LDA使不同類別的樣本距離最大化、同一類別的樣本距離最小化,從而找到最佳的投影方向,其目標函數(shù)為:
[JW*=maxWtrWTSbWtrWTSwW] (1)
其中,[W∈RD×d]是LDA將原始高維數(shù)據(jù)投影到低維的投影矩陣,[d(d≤D)]是數(shù)據(jù)降維后的維數(shù),[Sb]和[Sw]分別為:
[Sb=1Ni=1CNixi-xxi-xT]
[Sw=1Ni=1Ch=1Nixhi-xixhi-xiT]
Ye等[9]已經(jīng)證明,式(1)等價于式(2)
[W*=argminWTW=IWTSw-λSbW] (2)
其中,[λ>0]是調(diào)節(jié)參數(shù)。
對于LDA目標函數(shù),如果[Sw]可逆,最優(yōu)解[W*=(w1,w2,…,wd)]為[SwW=λSbW]的前[d]個最小非零特征值對應的特征向量。在得到投影矩陣[W*]后,對任意樣本數(shù)據(jù)[xl∈RD],通過LDA降維后的樣本數(shù)據(jù)為[xl=W*Txl∈Rd],[l=1,2,…,N]。
2 基于信息熵的魯棒稀疏子類判別分析(RSSDAIE)
LDA處理分析單模態(tài)數(shù)據(jù),即每個類別中沒有子類(集群)。但是在現(xiàn)實中,不同的采集方法、觀察角度等都會使數(shù)據(jù)成為多模態(tài)的,即每個類中有多個子類。比如,一個人臉(即一個類別)可能呈現(xiàn)出正面視圖的子類和側(cè)面視圖的子類或戴眼鏡的子類和不戴眼鏡的子類等。研究文獻[23]表明,當數(shù)據(jù)存在多模態(tài)的情形時,同時最大化類間分離性與子類間分離性、最小化類內(nèi)緊湊性與子類中的緊湊性,能夠使模型的性能顯著提升,所以本文研究假設數(shù)據(jù)是多模態(tài)的。
2.1 最佳子類數(shù)量的確定
對于最佳子類數(shù)量的確定,不同的方法有不同的確定標準。SDA基于近鄰的聚類方法將每個2CxVo0BDZ3l8iCsSyr9RNA==類劃分成不同的子類,用留一測試(leave-one-out-test, LOOT)和快速的穩(wěn)定準則確定最佳子類數(shù)量。MSDA基于峰度和偏度的非高斯標準劃分子類,同時也用留一測試和快速的穩(wěn)定準則確定最佳子類數(shù)量。SSDA基于分層聚類方法劃分子類,通過可分離性準則確定最佳子類數(shù)量。
分層聚類在給定子類數(shù)量[K]和數(shù)據(jù)集的情形下,對子類的劃分是固定的,即分層聚類具有穩(wěn)定性,所以本文仍采取分層聚類方法。對于最佳子類數(shù)量的確定,一個好的指標能夠衡量子類之間的分離性和子類內(nèi)部的緊湊性,本文采用基于信息熵的指標衡量。具體而言,如果一個子類的信息熵很低說明子類樣本集中在某一個區(qū)域,則視為同一子類。如果一個子類的信息熵很高說明子類樣本比較分散,則認為它們不是同一子類。該標準的公式定義如下:
[K*i=argminKi1KiEntropyKi] (3)
[EntropyKi=j=1Ki-NijNilog2NijNi] (4)
其中,[NijNi]是指第[i]類中第[j]個子類的樣本數(shù)量占第[i]類的樣本數(shù)量的比值。式(3)能夠確保給定子類數(shù)量[Ki]后,第[i]類的平均信息熵最小。式(4)是第[i]類中每個子類的信息熵之和。每個類別的最佳子類數(shù)量[K*i],[i=1,2,…,C]的詳細確認方法如下。
輸入:訓練數(shù)據(jù)集[Z=x1,y1,x2,y2,…,xN,yN,]
最大子類數(shù)[Kmax]。
步驟1:令[i=1,2,…,C],計算每個類的樣本數(shù)據(jù)[Xi]和樣本數(shù)量[Ni]。
步驟2:令[Ki=2,3,…,Kmax],使用分層聚類算法獲取子類。
步驟3:令j[=1,2,…,Ki],計算子類的樣本數(shù)據(jù)[Xij]和子類數(shù)量[Nij]。
步驟4:計算子類的信息熵之和
[EntropyKi=j=1Ki-NijNilog2NijNi]。
步驟5:計算[K*i=argminKi1KiEntropyKi]。
輸出:最佳子類數(shù)量[K*=(K*1,K*2,…,K*C)]。
上面的步驟用信息熵為每個類找到了最佳子類數(shù)量后,用分層聚類方法對每個類劃分了子類。值得注意的是,在每個類中尋找最佳子類數(shù)量時,[Ki]是從2到[Kmax],因為本文的前提假設是數(shù)據(jù)為類內(nèi)多模態(tài)。
2.2 類內(nèi)散射矩陣和類間散射矩陣的定義
確定每個類的最佳子類數(shù)量[K*]后,基于多模態(tài)數(shù)據(jù)需要重新定義類內(nèi)散射矩陣和類間散射矩陣。
對于類內(nèi)散射矩陣,不僅要考慮每個類中樣本的緊湊性,還要考慮每個子類中樣本的緊湊性。一方面,用每個類別中的子類均值和該類別的均值差異衡量類層面的樣本點分布,其公式為:
[Sw1=1Ni=1CNij=1K*ixij-xixij-xiT] (5)
另一方面,用每個子類樣本點和該子類均值的差異衡量子類層面的樣本點分布,其計算公式為:
[Sw2=i=1Cj=1K*im=1Nijxmij-xijxmij-xijT] (6)
本方法的類內(nèi)散射矩陣為[Sw=Sw1+Sw2]。
對于類間散射矩陣,用每個子類均值和總均值的差異衡量,其公式為:
[Sb=1Ni=1CNij=1K*ixij-xxij-xT] (7)
由于RSSDAIE方法重新定義了類內(nèi)散射矩陣和類間散射矩陣,結(jié)合LDA方法中的類內(nèi)散射矩陣和類間散射矩陣,本文考慮3種不同的組合,即[(Sb,Sw)]、[(Sb,Sw)]和[(Sb,Sw)]。在接下來的分析過程中以[(Sb,Sw)]為例。
2.3 稀疏性和魯棒性的考慮
LDA的投影矩陣W是特征值分解中非零特征值對應的特征向量,所以LDA降維后的特征數(shù)據(jù)可解釋性低。另外,LDA對異常值和噪聲十分敏感,導致在真實的數(shù)據(jù)中性能降低。為克服以上的問題,本文進一步對RSSDAIE增加稀疏性和魯棒性。
首先,根據(jù)LDA目標函數(shù)的等價形式,RSSDAIE的目標函數(shù)為:
[W*=argminWTW=IWTSw-λSbW] (8)
其次,由于[2,1]范數(shù)具有行稀疏性,本文對投影矩陣[W]考慮[2,1]范數(shù)增加投影方向的可解釋性,其目標函數(shù)變?yōu)椋?/p>
[minWtrWTSw-λSbW+λ1W2,1] (9)
其中,[λ1]是平衡參數(shù),[ 2,1]是[2,1]范數(shù)。
再次,由于PCA降維后的數(shù)據(jù)能保留主要的特征信息,利用PCA的思想在約束條件中增加正交重構(gòu)矩陣,從而降低對維度數(shù)[d]的敏感性,其目標函數(shù)改進為:
[minW,PtrWTSw-λSbW+λ1W2,1 ]
[s.t. X=PWTX,PTP=I] (10)
式(10)的限制條件相當于通過正交重構(gòu)矩陣[P∈RD×d],使重構(gòu)后的特征矩陣[X]盡可能保留主要的特征息。
最后,在真實的應用數(shù)據(jù)中存在大量的冗余信息和噪聲,本文通過引入稀疏矩陣減少噪聲帶來的負面影響,因此目標函數(shù)改進為:
[minW,P,EtrWTSw-λSbW+λ1W2,1+λ2E1 ]
[s.t. X=PWTX+E,PTP=I] (11)
其中,[λ2]是平衡參數(shù),稀疏矩陣[E]表示誤差,用來彌補噪聲所導致的負面影響,[ 1]是[1]范數(shù)。
2.4 目標函數(shù)求解
RSSDAIE的目標函數(shù)式(11)可以構(gòu)建增廣拉格朗日函數(shù),然后采用交替方向乘子法對增廣拉格朗日函數(shù)求解。式(11)的增廣拉格朗日函數(shù)為:
[LW,P,E,Y=trWTSw-λSbW+λ1W2,1+λ2E1][+Y,X-PWTX-E+β2X-PWTX-E2][=trWTSw-λSbW+λ1W2,1+λ2E1][-12βY2+β2X-PWTX-E+Yβ2] (12)
其中,[Y]是拉格朗日乘子,[?,?]是矩陣的內(nèi)積,[β]是懲罰系數(shù),[ ]是范數(shù)。對于[W, P, E, Y]的求解采用交替方向乘子法,即將增廣拉格朗日函數(shù)分解成若干個子問題,然后對每個子問題進行求解。
步驟1:固定[P, E, Y],更新投影矩陣[W]。拉格朗日函數(shù)簡化成:
[LW=trWTSw-λSbW+λ1W2,1][ +β2X-PWTX-E+Yβ2] (13)
令[M=X-E+Yβ],[W2,1]的導數(shù)為[H=diag(w12,]
[w22,…,wd2)-1]。令[?L(W)?W=0],則[W]的解為:
[W=2Sw-λSb+λ1H+βXXT-1βXMTP] (14)
步驟2:更新正交重構(gòu)矩陣[P]。最小化目標函數(shù)為:
[minPTP=IM-PWTX2?maxPTP=ItrPTMXTW] (15)
式(15)是一個典型的正交普賽克問題[24],可以通過奇異值分解求解。若[SVDMXTW=USVT],則[P=UVT]。
步驟3:更新稀疏矩陣[E]。關于[E]的目標函數(shù)為:
[minEλ2E1+β2X-PWTX-E+Yβ2] (16)
在式(16)中,令[α=λ2β],[E0=X-PWTX-E+Yβ],對式(16)可以采用收縮算子求解[25],即[E=shrink(E0,α)]。
步驟4:更新拉格朗日乘子[Y]和懲罰系數(shù)[β]。[Y]和[β]解分別為:
[Y=Y+βX-PWTX-E] (17)
[β=min ηβ, βmax] (18)
其中,[η]和[βmax]都是常數(shù)。
RSSDAIE算法的具體實現(xiàn)步驟如下所示。
步驟1:選擇超參數(shù) [W=0;E=0;Y=0;η=]
[1.01;][ βmax=105。]
步驟2:模型初始化
[P=arg minPtrPTSw-λSbP s.t. PTP=I]。
步驟3:更新迭代次數(shù) [t←t+1]。
1.通過式(14)更新[W]
2.通過式(15)更新[P]
3.通過式(16)更新[E]
4.通過式(17)更新[Y]
5.通過式(18)更新[β]
直到達到最大迭代次數(shù)或者收斂時停止。
3 實驗分析
為了評估RSSDAIE方法的性能,分別在4個UCI數(shù)據(jù)集和2個圖片數(shù)據(jù)集上應用RSSDAIE進行降維,并與其他相關方法進行比較分析,包括SSDA-1[14]、SSDA-2[14]、SSDA-3[14]、RSLDA[20]、RLDA(ADMM)[22]和RSLDA(ADMM)[22]。在本文提出的RSSDAIE方法中,考慮3種組合,分別為[(Sb,Sw)]、[(Sb,Sw)]和[(Sb,Sw)]。3種組合的方法分別命名為RSSDAIE-1、RSSDAIE-2和RSSDAIE-3。
在實驗設置中,RSSDAIE-1、RSSDAIE-2和RSSDAIE-3的最大子類數(shù)量[Kmax]在[{2, 3, 4, 5}]中選擇,平衡參數(shù)[λ1]和[λ2]在[{10-4,10-3,10-2,10-1,1} ]中選擇。SSDA-1,SSDA-2和SSDA-3中的最大子類數(shù)量[Kmax]在[{2, 3, 4, 5}]中選擇。RSLDA中的平衡參數(shù)[λ1]和[λ2]在[{10-4,10-3,10-2,10-1,1}]中選擇。RLDA(ADMM)的懲罰參數(shù)[ρ]和平衡參數(shù)[λ]在[{0.1, 0.5, 1, 5}]中選擇。RSLDA(ADMM)中的[ρ]和[λ]在[{0.1, 0.5, 1, 5}]中選擇,平衡參數(shù)[δ]在[{0.01, 0.05, 0.1, 0.5, 1}]中選擇。各種參數(shù)選擇的準則是使分類準確率達到最高。
對各個數(shù)據(jù)集,隨機選擇50%的樣本作為訓練集,其余數(shù)據(jù)作為測試集。用訓練集為每種方法找到最佳投影矩陣[W*],將[W*]應用在測試集中對數(shù)據(jù)進行降維,再用最近鄰分類器對降維后的數(shù)據(jù)進行分類,以分類準確率作為評估標準。
3.1 UCI數(shù)據(jù)集分析
將RSSDAIE-1、RSSDAIE-2、RSSDAIE-3、SSDA-1、SSDA-2、SSDA-3、RSLDA、RLDA(ADMM)和RSLDA(ADMM)應用于UCI數(shù)據(jù)庫中的真實數(shù)據(jù)集,并進行對比分析。UCI數(shù)據(jù)庫是一個公開的、廣泛使用的數(shù)據(jù)集合,由加州大學歐文分校的計算機科學系維護,從中選擇4個數(shù)據(jù)集進行實驗,基本信息如表1所示。
將RSSDAIE-1、RSSDAIE-2、RSSDAIE-3、SSDA-1、SSDA-2、SSDA-3、RSLDA、RLDA(ADMM)和RSLDA(ADMM)應用到表1的數(shù)據(jù)集中,各種方法的最佳分類準確率和對應的最佳維度如表2所示。
表1 選用的UCI數(shù)據(jù)集介紹
[數(shù)據(jù)集名稱 樣本個數(shù) 特征個數(shù) 類別個數(shù) Waveform 5000 21 3 Ionosphere 351 34 2 Rice 3810 7 2 WBC 683 9 2 ]
表2 在UCI數(shù)據(jù)集上的最佳分類準確率 %
[
方法 Waveform Ionosphere Rice WBC RSSDAIE-1 83.641(4) 88.636(12) 89.974(2) 96.491(3) RSSDAIE-2 83.842(5) 90.909(11) 90.341(3) 97.661(5) RSSDAIE-3 83.842(5) 89.773(7) 90.341(3) 97.661(5) SSDA-1 82.631(3) — 90.026(4) 96.784(3) SSDA-2 83.162(2) — 89.501(4) 96.199(3) SSDA-3 82.361(3) — 89.659(5) 96.199(4) RSLDA 83.242(8) 87.500(13) 89.974(2) 96.491(3) RLDA(ADMM) 57.000(3) 90.341(12) 89.921(2) 96.199(1) RSLDA(ADMM) 63.881(2) 90.341(2) 90.079(1) 96.199(1) ][ 數(shù)據(jù)集]
注:加粗數(shù)據(jù)為該數(shù)據(jù)集下最高的分類準確率(%),括號中為對應的最佳維度,表3~表7同。
從表2可以觀察到,與其他方法相比較,RSSDAIE-2和RSSDAIE-3的性能更好,兩者的分類準確率幾乎相同。RSSDAIE-1沒有RSSDAIE-2和RSSDAIE-3的分類準確率高,在不同的數(shù)據(jù)集下它的排名都在中游。在Ionosphere數(shù)據(jù)集上,由于SSDA-1、SSDA-2和SSDA-3都存在類內(nèi)散射矩陣不可逆的情形,因此無法運用這3種方法,本文用“—”代替。
為了驗證本文方法是否具有更穩(wěn)健的魯棒性,在每個數(shù)據(jù)集的所有樣本中,分別隨機選擇30%或60%的數(shù)據(jù)加入均值為0、方差為1的高斯噪聲,再將RSSDAIE-1、RSSDAIE-2、RSSDAIE-3、SSDA-1、SSDA-2、SSDA-3、RSLDA、RLDA(ADMM)和RSLDA(ADMM)應用在受不同比例噪聲污染的數(shù)據(jù)集中,最佳分類準確率的結(jié)果如表3和表4所示。
對比表3和表4,不同的噪聲數(shù)據(jù)中幾乎各種方法的分類準確率都降低,但RSSDAIE-2和RSSDAIE-3在多數(shù)情況下仍保持最高的分類準確率,RSSDAIE-1的分類準確率也較高。原因是提出的方法對投影矩陣增加了[21]范數(shù)并引入了稀疏矩陣以減少噪聲的影響。值得注意的是,在表3的Rice數(shù)據(jù)集中RSLDA(ADMM)無最佳維度對應的最佳準確率,原因是RSLDA(ADMM)出現(xiàn)了不收斂的情形。另外,在表4的Rice數(shù)據(jù)中,雖然RSSDAIE-1、RSSDAIE-2和RSSDAIE-3的分類準確率一樣,但RSSDAIE-1在降維數(shù)[d=5]時才能達到84.462%。
表3 具有 30%N (0, 1) 噪聲的最佳分類準確率 %
[ 方法 Waveform Ionosphere Rice WBC RSSDAIE-1 78.761(8) 84.091(11) 86.667(5) 97.076(2) RSSDAIE-2 79.169(14) 86.364(13) 88.136(2) 98.246(1) RSSDAIE-3 79.169(14) 86.364(13) 88.136(2) 98.246(1) SSDA-1 77.563(4) 84.091(14) 86.667(2) 97.076(1) SSDA-2 76.821(7) 80.114(14) 86.614(4) 96.784(3) SSDA-3 77.523(7) 79.545(13) 86.457(5) 97.076(2) RSLDA 78.766(8) 83.523(9) 86.667(5) 97.076(2) RLDA(ADMM) 53.962(1) 83.523(5) 86.877(1) 97.076(1) RSLDA(ADMM) 54.165(2) 83.523(3) — 96.199(1) ][數(shù)據(jù)集]
表4 具有 60%N (0, 1) 噪聲的最佳分類準確率 %
[
方法 Waveform Ionosphere Rice WBC RSSDAIE-1 74.768(19) 80.114(10) 84.462(5) 96.784(1) RSSDAIE-2 74.221(11) 82.955(12) 84.462(3) 98.246(3) RSSDAIE-3 74.221(11) 82.955(12) 84.462(3) 98.246(3) SSDA-1 71.801(3) 80.682(10) 83.570(2) 97.953(3) SSDA-2 71.283(3) 74.432(8) 84.199(2) 96.784(2) SSDA-3 71.486(6) 78.977(14) 83.517(2) 97.368(2) RSLDA 74.527(18) 80.114(10) 84.147(5) 96.784(1) RLDA(ADMM) 52.283(3) 76.705(5) 83.045(1) 95.906(1) RSLDA(ADMM) 52.123(2) 77.841(2) 83.675(2) 97.953(1) ][數(shù)據(jù)集]
進一步分析不同強度的噪聲對各種方法的影響,在4個數(shù)據(jù)集中分別隨機地對所有樣本選出30%的數(shù)據(jù)加入均值為2、方差為5的噪聲。在高斯噪聲中,均值越大說明噪聲的平均水平越高,方差越大說明噪聲的波動程度越大。各種方法在該污染數(shù)據(jù)中的表現(xiàn)如表5所示。
對比分析表3和表5,各數(shù)據(jù)集都有30%的數(shù)據(jù)被噪聲污染,噪聲污染強度越大,各種方法的性能下降越快,而RSSDAIE更具有穩(wěn)定性。如在Ionosphere數(shù)據(jù)集上,RSSDAIE-2和RSSDAIE-3的分類準確率仍然保持在80%以上,但其他方法的分類準確率從80%以上跌到80%以下。可見噪聲強度越大,本文的方法更具有魯棒性,性能更加穩(wěn)定。
表5 具有 30%N (2, 5) 噪聲的最佳分類準確率 %
[ 方法 Waveform Ionosphere Rice WBC RSSDAIE-1 69.169(11) 75.000(12) 78.478(4) 90.643(6) RSSDAIE-2 69.122(6) 80.114(10) 79.003(4) 92.690(7) RSSDAIE-3 69.122(6) 80.114(10) 79.003(4) 92.690(7) SSDA-1 68.881(5) 79.545(9) 78.898(3) 90.936(5) SSDA-2 67.246(3) 72.727(5) 78.740(3) 89.474(6) SSDA-3 68.643(8) 78.977(8) 78.373(5) 90.058(7) RSLDA 68.362(11) 73.864(9) 78.425(4) 90.643(6) RLDA(ADMM) 47.209(1) 72.159(13) 73.333(1) 86.550(2) RSLDA(ADMM) 53.643(4) 78.409(6) 77.165(2) 85.380(1) ][數(shù)據(jù)集]
3.2 圖片數(shù)據(jù)分析
將RSSDAIE的3種組合與SSDA-1、SSDA-2、SSDA-3、RSLDA、RLDA(ADMM)和RSLDA(ADMM)應用于復雜的圖片數(shù)據(jù)中。RSSDAIE-1、RSSDAIE-2和RSSDAIE-3的參數(shù)[λ1]和[λ2]根據(jù)數(shù)據(jù)選擇最佳數(shù)值。RSLDA的參數(shù)固定為[λ1=10-4,λ2=10-4]。RLDA(ADMM)的參數(shù)固定為[ρ=5]和[λ=0.5]。RSLDA(ADMM)的參數(shù)[ρ=5],[λ=0.5],[δ=0.1]。對圖片數(shù)據(jù)集降維后的維度[d]在[{10, 20, 30, 40, 50, 60, 70,][ 80, 90,100}]中選擇,其他參數(shù)與總設置保持一致。
3.2.1 Yale數(shù)據(jù)集
Yale人臉數(shù)據(jù)集由耶魯大學創(chuàng)建,包含15個人,每個人在不同表情、姿態(tài)和光照下進行拍照,共165張圖片,每張圖片大小為[100*100]。圖1(a)展示了Yale數(shù)據(jù)集的部分圖片。在圖1(a)中,圖片全部來自于同一個人(同一個類別),有戴眼鏡的照片和沒戴眼鏡的照片,數(shù)據(jù)可以被視為是多模態(tài)的。
圖3 不同方法在Yale原數(shù)據(jù)上的表現(xiàn)2
3.2.2 Coil-100數(shù)據(jù)集
Coil-100數(shù)據(jù)集中有100個不同物體的360°旋轉(zhuǎn)圖片,每隔5°拍攝一張圖片,每個物體都有72張不同角度的圖片。Coil-100數(shù)據(jù)集共有7200張圖片,每張圖片的大小為[128*128]。根據(jù)Coil-100數(shù)據(jù)集的收集方式,在一定的角度區(qū)間可視為同一子類。和Yale數(shù)據(jù)集的處理方式一樣,把Coil-100數(shù)據(jù)集中的每一張圖片進行灰度化,圖片大小重置為[32*32],把圖片矩陣轉(zhuǎn)化為維度是1024的圖片向量然后進行歸一化,將該數(shù)據(jù)集稱為Coil-100原數(shù)據(jù)集。
RSSDAIE-1、RSSDAIE-2和RSSDAIE-3的平衡參數(shù)[λ1]和[λ2]在[{10-4,10-3,10-2,10-1,1}]中進行選擇,不同的[λ]值在Coil-100數(shù)據(jù)上對應的分類準確率如圖4所示。通過觀察圖4,將RSSDAIE-1中的參數(shù)[λ1]和[λ2]固定為[10-4],RSSDAIE-2和RSSDAIE-3的[λ1]和[λ2]固定為[10-2]。
在Coil-100原數(shù)據(jù)集中加入不同程度的高斯噪聲,各種方法的表現(xiàn)如表7所示。
由表7可知,在Coil-100原數(shù)據(jù)集中,RSSDAIE-3的分類準確率最高,在[d=50]時準確率達到98.028%。RSSDAIE-1和RSSDAIE-2的表現(xiàn)僅次
圖5 不同方法在 Coil-100 數(shù)據(jù)集上的表現(xiàn)
由圖5可知,隨著維數(shù)[d]不斷增加,各種方法的分類準確率也不斷增加,但增加到一定程度時,分類準確率增長趨于平緩,RSSDAIE-2和RSSDAIE-3在各個維度下都保持最高的分類準確率且分類準確率的極差最小,主要原因是在目標函數(shù)中加入了正交重構(gòu)思想,重構(gòu)的特征矩陣的主要信息集中在前面的維度中。另外,在Coil-100原數(shù)據(jù)集上,RSSDAIE-1與RSLDA在[d<80]時,分類準確率差距不大,但在[d≥80]后,RSSDAIE-1比RSLDA表現(xiàn)好。在加入30%N(2,5)噪聲后,RSSDAIE-1與RSLDA的表現(xiàn)幾乎沒有差距。主要是因為RSSDAIE-1考慮的是[(Sb,Sw)]組合,兩種算法僅有類間散射矩陣不同,故這兩種方法性能相當。RSSDAIE-2和RSSDAIE-3對類內(nèi)散射矩陣考慮了類層面和子類層面的緊湊性,更符合數(shù)據(jù)中多模態(tài)的特點,這兩種方法的表現(xiàn)比其他方法好。
4 總結(jié)
本文主要研究了一種基于信息熵的魯棒稀疏子類判別分析(RSSDAIE),該方法將子類多模態(tài)、PCA重構(gòu)思想、[21]范數(shù)和稀疏表示集成到一個模型框架之中。首先,RSSDAIE基于分層聚類方法為每個類別劃分不同的子類,通過最小化信息熵確定最佳子類個數(shù)。其次,RSSDAIE利用[21]范數(shù)的行稀疏性和魯棒性約束投影矩陣,不僅可以讓模型選擇最具有判別性的投影方向、減少噪聲的影響,而且投影方向更加具有可解釋性。再次,RSSDAIE為了保留原特征矩陣中的主要信息,引入PCA的重構(gòu)思想,給模型加入了一個正交約束項,保證了數(shù)據(jù)信息損失最小。RSSDAIE也通過引入稀疏誤差項來提高對噪聲的抵抗性,從而使模型更加具有魯棒性。最后,RSSDAIE通過構(gòu)建增廣拉格朗日函數(shù),采用交替方向乘子法對目標函數(shù)求解,使得模型的收斂速度快。在實驗分析中,為了驗證提出的RSSDAIE方法在不同散射矩陣下的性能,基于原LDA的類內(nèi)散射矩陣和類間散射矩陣,以及本文定義的類內(nèi)散射矩陣和類間散射矩陣,劃分了3個不同的子方法,分別為RSSDAIE-1、RSSDAIE-2和RSSDAIE-3。在基礎數(shù)據(jù)集和圖片數(shù)據(jù)上的實驗結(jié)果表明,本文提出的RSSDAIE-2和RSSDAIE-3的性能相似,比RSSDAIE-1好。RSSDAIE仍有很大的提升空間,在未來的工作中會著重于使RSSDAIE能自適應地為不同的數(shù)據(jù)集選擇最合適的參數(shù)值從而提升模型的效率和準確率。
[參考文獻]
[1] Mahajan S, Pandit AK. Analysis of high dimensional data using feature selection models[J]. International Journal of Nanotechnology, 2023, 20(1):116-128.
[2] Jia WK, Sun ML, Lian J, et al. Feature dimensionality reduction: a review[J]. Complex and Intelligent Systems, 2022, 8(3):2663-2693.
[3] Hao ZY, Jin Y, Yang C. Study of engine noise based on independent component analysis[J]. 浙江大學學報(a卷英文版), 2007, 8(5):772-777.
[4] Kimura M. Generalized t-SNE through the lens of information geometry[J]. IEEE Access, 2021, 9:129619-129625.
[5] Gashler M, Ventura D, Martinez T. Manifold learning by graduated optimization[J]. IEEE Transactions on Systems, Man and Cybernetics Part B, Cybernetics, 2011, 41(6):1458-1470.
[6] Turk M, Pentland A. Eigenfaces for recognition[J]. Cognitive Neuroscience, 1991, 3(1):71-86.
[7] Fisher RA. The use of multiple measurements in taxonomic problems[J]. Annals of Eugenics, 1936, 7(2):179-188.
[8] Lu J, Plataniotis KN, Venetsanopoulos AN. Regularization studies of linear discriminant analysis in small sample size scenarios with application to face recognition[J]. Pattern Recognition Letters, 2005, 26(2):181-191.
[9] Ye J, Janardan R, Li Q, et al. Feature reduction via generalized uncorrelated linear discriminant analysis[J]. IEEE Transactions on Knowledge & Data Engineering, 2006, 18(10):1312-1322.
[10] Zhang TP, Fang B, Tang YY, et al. Generalized discriminant analysis: a matrix exponential approach[J]. IEEE Transactions on Systems, Man and Cybernetics Part B, Cybernetics, 2010, 40(1):186- 197.
[11] Murthy KR, Ghosh A. Noisy-free length discriminant analysis with cosine hyperbolic framework for dimensionality reduction[J]. Expert Systems With Applications, 2011, 81:88-107.
[12]Zhu Manli, Aleix M. Subclass discriminant analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(8):1274-1286.
[13] Gkalelis N, Mezaris V, Kompatsiaris I. Mixture subclass discriminant analysis[J]. IEEE Signal Processing Letters, 2011, 18(5):319-322.
[14] Wan H, Wang H, Guo GD, et al. Separability-oriented subclass discriminant analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(2):409-422.
[15] Nie F, Huang H, Cai X, et al. E icient and robust feature selection via joint[2,1]-norms minimization[A]. Advances in Neural Information Processing Systems 23: 24th Annual Conference on Neural Information Processing Systems 2010[C]. British Columbia, Canada: Curran Associates Inc, 2010, 23:1813-1821.
[16] Oh JH, Kwak N. Generalization of linear discriminant analysis using p-norm[J]. Pattern Recognition Letters, 2013, 34(6):679-685.
[17] Liu JK, Xiong X, Ren PW, et al. Capped norm linear discriminant analysis and its applications[J]. Applied Intelligence, 2023, 53(15):18488-18507.
[18] Clemmensen L, Hastie T, Witten D, et al. Sparse discriminant analysis[J]. Technometrics, 2011, 53(4):406-413.
[19] Anzarmou Y, Mkhadri A, Oualkacha K. Sparse overlapped linear discriminant analysis[J]. Test, 2022, 32(1):388-417.
[20] Wen J, Fang XZ, Cui JR, et al. Robust sparse linear discriminant analysis[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(2):390-403.
[21] Wang JJ, Liu ZH, Zhang KB, et al. Robust sparse manifold discriminant analysis[J]. Multimedia Tools and Applications, 2022, 81(15):20781-20796.
[22] Li CN, Shao YH, Yin WT, et al. Robust and sparse linear discriminant analysis via an alternating direction method of multipliers[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(3):915-926.
[23] Wan H, Wang H, Liu J, et al. Within-class multimodal classification[J]. Multimedia Tools and Applications, 2020, 79(39):29327-29352.
[24] JMFT Berge. Orthogonal procrustes rotation for two or more matrices[J].Psychometrika, 1977, 42(2):267-276.
[25] Candes EJ, Li XD, Ma Y, et al. Robust principal component analysis[J]. Journal of the Acm, 2011, 58(3):11-48.
責任編輯 孫 澗
[收稿日期] 2024-03-20
[基金項目] 深部煤礦采動響應與災害防控國家重點實驗室基金資助項目(SKLMRDPC22KF03)
[作者簡介] 楊源(1997- ),女,安徽理工大學數(shù)學與大數(shù)據(jù)學院碩士研究生,研究方向:數(shù)據(jù)處理和降維算法。
[通訊作者] 周躍進(1977- ),男,博士,安徽理工大學數(shù)學與大數(shù)據(jù)學院教授,研究方向:統(tǒng)計機器學習和高維數(shù)據(jù)分析。