基于潛子空間去噪的子空間學(xué)習(xí)圖像分類方法

2021-12-13 12:54:34楊章靜王文博張凡龍

計(jì)算機(jī)與生活 2021年12期

楊章靜，王文博，黃璞，張凡龍

南京審計(jì)大學(xué) 信息工程學(xué)院，南京 211815

圖像分類是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)研究熱點(diǎn)[1-3]，子空間學(xué)習(xí)（subspace learning，SL）是機(jī)器學(xué)習(xí)領(lǐng)域的一項(xiàng)重要技術(shù)，它在數(shù)據(jù)分析、數(shù)據(jù)降維、圖像分類等方面取得了顯著的成果[4-7]。由于其求解方便、時(shí)間復(fù)雜度低等優(yōu)點(diǎn)，廣泛應(yīng)用于圖像分類領(lǐng)域。

圖像分類領(lǐng)域有許多經(jīng)典的算法，如最近鄰分類器（nearest neighbor classifier，NNC）[8]、稀疏表示分類器（sparse representation classification，SRC）[9]、線性回歸分類器（linear regression classification，LRC）[10]、協(xié)同表示分類器（collaborative representation classification，CRC）[11]等，它們都基于惰性學(xué)習(xí)，當(dāng)數(shù)據(jù)量較大時(shí)，分類速度會(huì)變慢?；赟L 的方法在訓(xùn)練完成后即可得到投影矩陣，當(dāng)面對(duì)新的測試樣本時(shí)，只需執(zhí)行簡單的矩陣乘法即可得到樣本在標(biāo)簽空間中的投影，因此在時(shí)間復(fù)雜度上具有較大優(yōu)勢。例如，最小二乘回歸（least squares regression，LSR）[12]以一個(gè)onehot矩陣為回歸目標(biāo)，學(xué)習(xí)樣本到標(biāo)簽的投影，LSR 存在解析解，因此求解速度很快。為了緩解one-hot 矩陣約束過于嚴(yán)格的問題，判別最小二乘回歸（discriminative least squares regression，DLSR）[13]和重定目標(biāo)最小二乘回歸（retargeted least squares regression，ReLSR）[14]通過在標(biāo)簽空間中擴(kuò)大不同類別間樣本的距離，從而提高了模型的判別能力。

以上方法僅針對(duì)模型判別能力做出研究，然而數(shù)據(jù)中的噪聲才是影響算法分類性能的最關(guān)鍵因素。噪聲是數(shù)據(jù)中對(duì)分類任務(wù)產(chǎn)生負(fù)面影響的部分，它廣泛存在于各種圖像數(shù)據(jù)中，其分布與表現(xiàn)形式各不相同，例如光線的明暗變化會(huì)產(chǎn)生均值噪聲，遮擋會(huì)產(chǎn)生稀疏噪聲。因此，提高圖像分類算法對(duì)噪聲的處理能力是提高圖像分類算法性能的關(guān)鍵。為使圖像分類算法抵抗稀疏噪聲干擾，魯棒潛子空間學(xué)習(xí)（robust latent subspace learning，RLSL）[15]借助魯棒主成分分析（robust principal component analysis，RPCA）[16]思想，將圖像數(shù)據(jù)分解為一個(gè)低秩的數(shù)據(jù)矩陣和一個(gè)稀疏的噪聲矩陣，然后使用不含稀疏噪聲的數(shù)據(jù)矩陣進(jìn)行分類，進(jìn)而提高了分類性能。低秩判別最小二乘回歸（low-rank discriminative least squares regression，LRDLSR）[17]在標(biāo)簽空間中引入低秩約束，抑制了標(biāo)簽空間中的部分噪聲，使參與回歸分類的數(shù)據(jù)更加“干凈”。然而這些算法仍有很多不足，例如，RLSL 事先假設(shè)噪聲屬于稀疏分布，但是實(shí)際數(shù)據(jù)中噪聲的類型和分布是未知的，因此假設(shè)噪聲是稀疏的或稠密的并不合理，這種不合理的假設(shè)可能使模型錯(cuò)誤地去除了有用的細(xì)節(jié)信息，但實(shí)際噪聲卻并未消除，從而影響分類性能；LRDLSR 在標(biāo)簽空間中引入低秩約束雖可在一定程度上抑制噪聲影響，但是標(biāo)簽空間的數(shù)據(jù)已經(jīng)過投影矩陣的處理，維數(shù)通常較低且極為稀疏，因此降噪效果不理想。

為提高算法對(duì)噪聲魯棒性，本文提出了一種基于潛子空間去噪的子空間學(xué)習(xí)（denoising latent subspace based subspace learning，DLSSL）模型，該模型放寬噪聲類型和分布的假設(shè)，先對(duì)數(shù)據(jù)中的噪聲進(jìn)行處理，再將數(shù)據(jù)回歸到標(biāo)簽空間中，最后對(duì)回歸后的數(shù)據(jù)進(jìn)行分類。將降噪與回歸兩個(gè)步驟設(shè)計(jì)到同一框架中，進(jìn)行統(tǒng)一訓(xùn)練，使兩個(gè)部分相互制約以進(jìn)一步提高圖像分類性能。該模型以標(biāo)準(zhǔn)DLSR 框架為基礎(chǔ)，在原始視覺空間與標(biāo)簽空間中引入一個(gè)新的潛在子空間，使用欠完備自編碼將數(shù)據(jù)壓縮至潛在子空間中并盡可能地恢復(fù)，從而在潛在子空間中獲取原始數(shù)據(jù)的高階結(jié)構(gòu)，然后使用潛在空間中的“干凈”數(shù)據(jù)進(jìn)行回歸分類。此外根據(jù)文獻(xiàn)[17]，在潛在子空間中引入組核范數(shù)約束，以抑制DLSR 框架中由于?-拖動(dòng)技術(shù)造成的類內(nèi)樣本距離增大的問題。最后，為兩個(gè)投影矩陣分別引入不同的正則化參數(shù)，防止模型發(fā)生過擬合問題，模型架構(gòu)圖如圖1 所示。

1 相關(guān)工作

Fig.1 Framework of denoising latent subspace based subspace learning圖1 基于潛子空間去噪子空間學(xué)習(xí)模型架構(gòu)圖

X=[X1,X2,…,Xc]=[x1,x2,…,xn]∈Rd×n為來自c個(gè)類別的n個(gè)訓(xùn)練樣本，其中d表示訓(xùn)練樣本的維數(shù)；H=[h1,h2,…,hn]∈Rc×n表示one-hot 標(biāo)簽矩陣，其中向量hi=[0,…,0,1,0,…,0]T∈Rc為樣本xi的標(biāo)簽向量，若xi屬于第j類，則hi的第j個(gè)元素值為1，其余元素值均為0，測試樣本用y表示。

1.1 欠完備自編碼器

自編碼是一種經(jīng)典的無監(jiān)督機(jī)器學(xué)習(xí)方法，它的模型結(jié)構(gòu)具有很大的靈活性，不同的模型結(jié)構(gòu)有著完全不同的用途，例如稀疏自編碼、變分自編碼、棧式自編碼等。本文的目標(biāo)是通過自編碼對(duì)數(shù)據(jù)進(jìn)行降維并去除噪聲，因此設(shè)置隱藏層的維數(shù)小于輸出層的維數(shù)，即構(gòu)建一個(gè)欠完備自編碼。它嘗試將數(shù)據(jù)壓縮，并通過解壓將輸入盡可能地恢復(fù)到輸出，從而學(xué)習(xí)到數(shù)據(jù)中最本質(zhì)的高階結(jié)構(gòu)，實(shí)現(xiàn)類似主成分分析（principal component analysis，PCA）降維的效果。與PCA 不同的是，PCA 僅能處理符合高斯分布的數(shù)據(jù)，對(duì)尖銳噪聲沒有處理能力，欠完備自編碼對(duì)任何分布的噪聲都具有魯棒性，其可以學(xué)習(xí)到一個(gè)比PCA 更為優(yōu)秀的投影，從而更好地刻畫數(shù)據(jù)的高階結(jié)構(gòu)。欠完備自編碼可由如下目標(biāo)函數(shù)來描述：

其中，W為投影矩陣，L∈Rr×n為訓(xùn)練集數(shù)據(jù)X在子空間中的投影，r表示子空間中的維數(shù)，||·||F表示矩陣的Frobenius范數(shù)。

通過對(duì)式（1）求導(dǎo)并令導(dǎo)數(shù)為0，可以得到一個(gè)標(biāo)準(zhǔn)的西爾維斯特方程[18]，通過求解此方程即可得到投影矩陣W。

1.2 判別最小二乘回歸

DLSR 的主要思想是利用?-拖動(dòng)技術(shù)對(duì)LSR 中嚴(yán)格的one-hot 回歸目標(biāo)進(jìn)行松弛化，從而擴(kuò)大不同類別樣本間的距離，使學(xué)習(xí)到的投影矩陣更具有鑒別性。DLSR 的優(yōu)化目標(biāo)可由如下優(yōu)化函數(shù)來描述：

其中，M為?-拖動(dòng)矩陣，⊙為哈達(dá)瑪積，定義為兩矩陣對(duì)應(yīng)元素相乘，λ為正則化參數(shù)，B為約束矩陣定義如下：

其中，矩陣下標(biāo)i、j表示矩陣的第i行第j列的元素。

通過對(duì)式（2）使用交替方向乘子法（alternating direction method of multipliers，ADMM）[19]即可得到投影矩陣W。

2 潛子空間去噪的子空間學(xué)習(xí)

2.1 動(dòng)機(jī)

圖像數(shù)據(jù)通常包含各種冗余信息和噪聲，這對(duì)圖像分類產(chǎn)生了不利影響。對(duì)于數(shù)據(jù)中的冗余信息，可用主成分分析法進(jìn)行消除。對(duì)于數(shù)據(jù)中的噪聲，通?？梢圆捎玫椭确纸夥椒?，如RPCA 基于假設(shè)：噪聲符合稀疏分布，因此利用矩陣分解即可將數(shù)據(jù)分解為一個(gè)噪聲矩陣和一個(gè)低秩矩陣，然后利用不含稀疏噪聲的低秩矩陣進(jìn)行后續(xù)的圖像分類。然而，數(shù)據(jù)中的關(guān)鍵信息通常也是稀疏的，如人臉胎記、汽車標(biāo)志等，這就導(dǎo)致基于稀疏噪聲假設(shè)的算法在降噪同時(shí)會(huì)損失數(shù)據(jù)中重要的關(guān)鍵信息，這對(duì)分類任務(wù)極為不利。

為說明這種情況，在COIL-20 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，利用RPCA 對(duì)COIL-20 數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行處理，結(jié)果如圖2 所示，其中第一行為原始數(shù)據(jù)，第二行為去除稀疏噪聲后的數(shù)據(jù)，第三行是對(duì)應(yīng)的稀疏噪聲。顯然由于不合理的噪聲假設(shè)，致使許多關(guān)鍵細(xì)節(jié)信息丟失，如第8 列樣本上的漢字“都”，這是所有類別所獨(dú)有，但去除稀疏噪聲后細(xì)節(jié)信息丟失。因此，可假設(shè)放寬噪聲類型和分布以消除真正噪聲，從而使回歸分類環(huán)節(jié)使用的數(shù)據(jù)更“干凈”。為此可以通過欠完備自編碼將數(shù)據(jù)壓縮至低維，再將其盡可能恢復(fù)，從而獲取數(shù)據(jù)在低維空間的高階特征。這種無監(jiān)督的特征提取方法無需對(duì)數(shù)據(jù)分布或類型作出任何事先假設(shè)，因此對(duì)數(shù)據(jù)中包含的任意類型或分布的噪聲都有很強(qiáng)的容忍能力。然而欠完備自編碼對(duì)數(shù)據(jù)的壓縮是有損的，如果直接將視覺空間中的數(shù)據(jù)壓縮至標(biāo)簽空間，由于兩個(gè)空間維度間的巨大差異和標(biāo)簽空間數(shù)據(jù)的稀疏性，將導(dǎo)致有效信息大量丟失，此時(shí)再將數(shù)據(jù)恢復(fù)至視覺空間將會(huì)產(chǎn)生嚴(yán)重的失真。因此引入一個(gè)潛在子空間作為視覺空間與標(biāo)簽空間的橋梁，其數(shù)據(jù)分布與視覺空間類似，維數(shù)介于二者之間，可以很好地保留數(shù)據(jù)中的信息，并通過壓縮再恢復(fù)的方式降低數(shù)據(jù)中的噪聲。基于此，本文結(jié)合DLSR 框架將欠完備自編碼器與回歸分類兩個(gè)步驟合二為一，構(gòu)建了一種聯(lián)合優(yōu)化模型，其目標(biāo)函數(shù)如下：

其中，W1為原始數(shù)據(jù)空間到潛在子空間的投影矩陣，W2為潛在子空間到標(biāo)簽空間的投影矩陣。

由于測試樣本與訓(xùn)練樣本并不屬于完全相同的樣本空間，難免發(fā)生過擬合現(xiàn)象，需要為用于降噪的投影矩陣W2添加額外的正則化參數(shù)用于防止過擬合，此時(shí)的模型定義如下最優(yōu)化函數(shù)表示：

由于DLSR 中?-拖動(dòng)技術(shù)的使用難免會(huì)增大樣本空間同類樣本間的距離[17]，采用與LRDLSR 中相同的處理手段，為模型引入組核范數(shù)約束，用于抑制類間樣本距離增大問題，提出一種基于潛子空間去噪的子空間學(xué)習(xí)（denoising latent space based subspace learning，DLSSL）圖像分類算法，將降噪與分類兩個(gè)步驟合二為一，構(gòu)建了一種全新的聯(lián)合優(yōu)化模型，模型的定義如下：

Fig.2 Part of samples processed by RPCA on COIL-20 dataset圖2 COIL-20 數(shù)據(jù)集經(jīng)過RPCA 處理過后的部分樣本

2.2 求解步驟

為便于求解該模型，在模型中添加Q和T兩個(gè)輔助變量，接著使用ADMM 算法進(jìn)行求解，求解的目標(biāo)函數(shù)為：

其中，R1、R2為拉格朗日乘子，μ＞0 是懲罰參數(shù)，接下來將按順序迭代求解每一個(gè)參數(shù)。

固定其余參數(shù)，更新P：

其中，Tij、Bij、Mij表示T、B、M矩陣的第i行第j列，考慮到M矩陣具有一個(gè)非負(fù)約束，因此可以獲得如下等式：

求解式（6）可獲得兩個(gè)投影矩陣W1、W2，對(duì)于任何測試樣本y，其在標(biāo)簽空間中可表示為W1W2y，隨后使用最近鄰分類器[8]對(duì)標(biāo)簽空間中的數(shù)據(jù)進(jìn)行分類。

算法的整個(gè)流程如算法1 所示。

算法1潛子空間去噪的子空間學(xué)習(xí)算法流程

輸入：標(biāo)準(zhǔn)化過后的訓(xùn)練集X，one-hot 矩陣H，最大迭代次數(shù)T，超參數(shù)λ1、λ2、λ3、λ4、λ5、r。

初始化：M=Q=P=L=T=0，W1=W2=1，μmax=107，R1=R2=0，μ=10-5，ρ=1.1，?=10-4。

循環(huán)變量從1 →T開始循環(huán)：

根據(jù)式（12）更新P；

根據(jù)式（13）更新T；

根據(jù)式（17）更新Q；

根據(jù)式（21）更新M；

根據(jù)式（25）更新L；

根據(jù)式（29）更新W1；

根據(jù)式（33）更新W2；

根據(jù)式（34）更新拉格朗日乘子R1、R2；

根據(jù)式（35）更新懲罰參數(shù)μ；

如果||Pk-Qk||∞＜?且||Pk-Tk||∞＜?

跳出循環(huán)；

結(jié)束如果；

結(jié)束循環(huán)；

輸出：投影矩陣W1、W2。

2.3 時(shí)間復(fù)雜度及收斂性驗(yàn)證

DLSSL 模型的主要耗時(shí)步驟是：（1）式（13）中的奇異值分解，其時(shí)間復(fù)雜度為O(n3)；（2）式（33）中求解西爾維斯特方程，其時(shí)間復(fù)雜度為O(d3)。其他步驟是簡單的矩陣加、減、乘，耗時(shí)可以忽略不計(jì)。因此采用文獻(xiàn)[17]類似的處理方法，使用以上兩個(gè)步驟的時(shí)間復(fù)雜度來近似表示DLSSL 模型的時(shí)間復(fù)雜度，為O(t(n3+d3))，其中t表示迭代次數(shù)。

ADMM 算法在求解2-block 問題時(shí)，可保證解一定收斂，然而本文算法包含多個(gè)變量，是一個(gè)n-block問題，ADMM 算法不能保證其一定收斂[21]。雖然尚沒有理論嚴(yán)格證明在何種情況下ADMM 算法求解的n-block 問題收斂，但多數(shù)相關(guān)類似算法在實(shí)際使用時(shí)可以很好地收斂[15,17,22-23]。

為了進(jìn)一步驗(yàn)證本文算法實(shí)際的收斂情況，在AR、CMU PIE、COIL-20 和Finger Knuckle Print（FKP）數(shù)據(jù)集上進(jìn)行收斂性實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如圖3 所示。不同數(shù)據(jù)集下的收斂速度有所不同，但經(jīng)過20 次迭代，所有的數(shù)據(jù)集均能很好地收斂，目標(biāo)函數(shù)值與準(zhǔn)確率都趨于穩(wěn)定，這驗(yàn)證了本文算法具有很好的收斂性。

3 實(shí)驗(yàn)結(jié)果與分析

本文所有算法在以Windows10 系統(tǒng)環(huán)境下的Matlab（2020b）為軟件平臺(tái)，采用AMD Ryzen 7 2700 3.20 GHz CPU、NVIDIA RTX3080 GPU 和32 GB 內(nèi)存，其中算法中求逆矩陣、奇異值分解等耗時(shí)運(yùn)算采用GPU 計(jì)算。本文算法將與NNC、SRC、LRC、CRC、ProCRC、DLSR、ReLSR、RLRLR、RLSL、LRDLSR、VGG16（Visual Geometry Group16）[24]、ResNet50（Residual Network50）[25]、MobileNet[26]、Xception[27]進(jìn)行比較。實(shí)驗(yàn)數(shù)據(jù)均采用PCA 進(jìn)行預(yù)處理以降低維數(shù)（深度方法除外），實(shí)驗(yàn)重復(fù)8 次記錄平均準(zhǔn)確率與標(biāo)準(zhǔn)差。

3.1 人臉識(shí)別實(shí)驗(yàn)

Fig.3 Convergence curves and accuracy of proposed method圖3 本文算法目標(biāo)函數(shù)的收斂曲線與準(zhǔn)確率

人臉樣本容易受到不同光線、角度、面部表情、遮擋等干擾因素的影響，導(dǎo)致類內(nèi)差異性較大，而不同類別通常具有較大的相似性，因此圖像分類中的人臉分類對(duì)算法魯棒性提出較高要求，需要算法盡可能縮小類內(nèi)距離，并使不同類別樣本間的距離盡可能大。算法將在如下人臉數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)：

AR 數(shù)據(jù)集[28]：包含120 位志愿者，每人26 幅，包含不同表情、光照、角度、遮擋等情況，26 幅圖像分兩部分，前后各13 幅，間隔14 天采集，共計(jì)3 120 幅，部分樣本數(shù)據(jù)如圖4 所示。為平衡男女比例，從AR 數(shù)據(jù)集中抽取包含50 名男性與50 名女性的一個(gè)子集，并將樣本下采樣至165×120 像素。隨機(jī)選取每一類樣本中的3、4、5、6 個(gè)樣本作為訓(xùn)練集樣本，其余樣本為測試集樣本，結(jié)果如表1 所示。

Extended Yale B 數(shù)據(jù)集[29]：包含38 人，每人有64幅，包括不同的表情和姿勢，總共有2 432 幅圖片。所有圖片都經(jīng)過灰度化預(yù)處理，并且采樣為96×84 像素，部分樣本數(shù)據(jù)如圖5 所示。實(shí)驗(yàn)隨機(jī)選取每一類樣本中的10、15、20、25 個(gè)樣本作為訓(xùn)練集樣本，其余樣本為測試集樣本，結(jié)果如表2 所示。

Fig.4 Some images from AR dataset圖4 AR 數(shù)據(jù)集中的部分樣本

Table 1 Recognition accuracy(mean±std)of different methods on AR dataset表1 AR 數(shù)據(jù)集上不同方法的識(shí)別率（平均值±標(biāo)準(zhǔn)差）%

CMU PIE 數(shù)據(jù)集[30]：包含68人，共41 368幅圖像，包含不同角度、光線、表情的樣本，其中含有5 個(gè)不同光照、表情的接近正臉角度的子數(shù)據(jù)集（C05、C07、C09、C27 和C29），部分樣本數(shù)據(jù)如圖6 所示。實(shí)驗(yàn)選取明暗變化較明顯的C27 進(jìn)行實(shí)驗(yàn)，C27 包含68 人，每人24 幅，共1 632 幅圖像。實(shí)驗(yàn)時(shí)將樣本下采樣至64×64 像素，并隨機(jī)選取每一類樣本中的5、10、15、20 個(gè)樣本作為訓(xùn)練樣本，其余作為測試樣本，結(jié)果如表3 所示。

Table 2 Recognition accuracy(mean±std)of different methods on Extended Yale B dataset表2 Extended Yale B 數(shù)據(jù)集上不同方法的識(shí)別率（平均值±標(biāo)準(zhǔn)差）%

Fig.5 Some images from Extended Yale B dataset圖5 Extended Yale B 數(shù)據(jù)集中的部分樣本

Fig.6 Some images from CMU PIE dataset圖6 CMU PIE 數(shù)據(jù)集中的部分樣本

Table 3 Recognition accuracy(mean±std)of different methods on CMU PIE dataset表3 CMU PIE 數(shù)據(jù)集上不同方法的識(shí)別率（平均值±標(biāo)準(zhǔn)差）%

人臉識(shí)別實(shí)驗(yàn)中樣本包含大量噪聲，經(jīng)典的NNC算法沒有噪聲抵抗能力，因此精度不理想；SRC、LRC算法基于稀疏表示理論，對(duì)樣本中的明暗噪聲具有一定的魯棒性，因此識(shí)別率高于NNC 算法，尤其在Extended Yale B 數(shù)據(jù)集（多為不同光照條件下的人臉樣本）的結(jié)果取得了大幅領(lǐng)先；CRC 與ProCRC 利用樣本間的協(xié)同性，進(jìn)一步提高算法對(duì)于明暗噪聲的魯棒性；DLSR、ReLSR、RLRLR、RLSL 和LRDLSR 基于線性回歸算法，這些算法在訓(xùn)練階段將學(xué)習(xí)到的投影矩陣用于新樣本識(shí)別，對(duì)樣本噪聲具有較強(qiáng)的抵抗能力，因此結(jié)果明顯優(yōu)于NNC、SRC、LRC、CRC和ProCRC 算法，其中RLSL 和LRDLSR 算法在識(shí)別率上小幅領(lǐng)先DLSR、ReLSR 和RLRLR 算法，這是由于RLSL考慮了樣本的稀疏噪聲，LRDLSR利用核范數(shù)約束抑制了標(biāo)簽空間中的噪聲。VGG16、ResNet50、MobileNet 和Xception 是基于深度卷積網(wǎng)絡(luò)的方法，這些方法具有海量的參數(shù)，能較好地?cái)M合各種非線性數(shù)據(jù)，然而在人臉識(shí)別實(shí)驗(yàn)中，由于樣本數(shù)量較少，致使學(xué)習(xí)到的權(quán)重參數(shù)發(fā)生了嚴(yán)重的過擬合現(xiàn)象，分類精度嚴(yán)重下降。本文算法在各種實(shí)驗(yàn)設(shè)置情況下均大幅領(lǐng)先其他算法，這是由于本文算法更加合理地考慮了噪聲的類型與分布，不再對(duì)噪聲施加不合理的先驗(yàn)假設(shè)，潛在空間中的數(shù)據(jù)更加準(zhǔn)確，且包含的有效信息更多，對(duì)噪聲具有更強(qiáng)的魯棒性。

3.2 生物指紋識(shí)別實(shí)驗(yàn)

不同于圖像分類中的人臉圖像，生物指紋特征圖像的獲取難度相對(duì)較高，大多數(shù)情況下每類樣本數(shù)量較少，這是一個(gè)典型的小樣本學(xué)習(xí)任務(wù)，在處理這種任務(wù)時(shí)，算法可利用的信息體量較小，因此少量噪聲就會(huì)對(duì)算法性能造成嚴(yán)重影響。算法將在以下生物指紋圖像數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)：

PolyU Palmprint數(shù)據(jù)集[31]：包含400 個(gè)不同手掌，每類20 個(gè)樣本，共8 000 個(gè)樣本。所有圖像都經(jīng)過灰度化預(yù)處理，并調(diào)整為64×64 像素，部分?jǐn)?shù)據(jù)樣本如圖7 所示。實(shí)驗(yàn)選取100 類，每類6 個(gè)，共計(jì)600 個(gè)樣本構(gòu)成一個(gè)子數(shù)據(jù)集。隨機(jī)選取每類樣本中的2、3個(gè)樣本作為訓(xùn)練集，其余樣本作為測試集（每種訓(xùn)練集下僅隨機(jī)抽取一次樣本），使用PCA 對(duì)原始數(shù)據(jù)降維，繪制不同維度下平均識(shí)別率的曲線，如圖8 所示，多次實(shí)驗(yàn)中各算法的最高識(shí)別率如表4 所示。

Fig.7 Some images from PolyU Palmprint dataset圖7 PolyU Palmprint數(shù)據(jù)集中的部分樣本

Fig.8 Accuracy curves of different methods with varied dimensions on PolyU Palmprint dataset圖8 PolyU Palmprint數(shù)據(jù)集上不同維度與準(zhǔn)確率曲線

Finger-Knuckle Print 指關(guān)節(jié)紋數(shù)據(jù)集[32]：包含660 個(gè)不同手指，每類12 個(gè)樣本，共7 920 個(gè)樣本。所有圖像都經(jīng)過灰度化預(yù)處理，并調(diào)整為55×110 像素，F(xiàn)inger-Knuckle Print 數(shù)據(jù)集的部分樣本如圖9 所示。選取100 類，每類12 個(gè)，共計(jì)1 200 個(gè)樣本構(gòu)成一個(gè)子數(shù)據(jù)集。隨機(jī)選取每類樣本中的2、3 個(gè)樣本作為訓(xùn)練集，其余樣本作為測試集（每種訓(xùn)練集下僅隨機(jī)抽取一次樣本），使用PCA 對(duì)原始數(shù)據(jù)降維，繪制不同維度下平均識(shí)別率的曲線，如圖10 所示，多次實(shí)驗(yàn)中最高準(zhǔn)確率如表5 所示。

Table 4 Accuracy on PolyU Palmprint dataset表4 PolyU Palmprint數(shù)據(jù)集上的識(shí)別率 %

Fig.9 Some images from FKP dataset圖9 FKP 數(shù)據(jù)集中的部分樣本

生物特征樣本中由于樣本采集環(huán)境相對(duì)統(tǒng)一樣本中的噪聲較小，各算法識(shí)別率差距小于人臉識(shí)別實(shí)驗(yàn)。識(shí)別率方面，基于線性回歸算法與基于協(xié)同表示算法各有優(yōu)劣，基于稀疏表示算法相對(duì)較差，基于深度學(xué)習(xí)的方法仍然受限于數(shù)據(jù)量，性能表現(xiàn)不佳，總體呈現(xiàn)與人臉識(shí)別實(shí)驗(yàn)相似規(guī)律。其中RLRLR 算法在Finger-Knuckle Print 數(shù)據(jù)集上，在訓(xùn)練集為2 時(shí)性能不理想，這是因?yàn)镽LRLR 利用了樣本的近鄰關(guān)系優(yōu)化數(shù)據(jù)分布，然而本部分實(shí)驗(yàn)設(shè)置中的訓(xùn)練樣本規(guī)模較小，因此嚴(yán)重影響了其性能。從圖8 和圖10可以發(fā)現(xiàn)，隨著樣本維數(shù)增加，各算法識(shí)別率逐漸提高，當(dāng)樣本維數(shù)超過40 時(shí)，各算法識(shí)別率基本穩(wěn)定，本文算法在低維度時(shí)性能優(yōu)勢不大，這是因?yàn)榍吠陚渥跃幋a作為一種無監(jiān)督的特征提取方式在數(shù)據(jù)維度較小時(shí)不能很好地刻畫數(shù)據(jù)特征，使得提取的特征失真從而影響識(shí)別率。從表4 和表5 可以發(fā)現(xiàn)，隨著樣本維數(shù)逐漸變大時(shí)這種缺點(diǎn)將不復(fù)存在，因此本文算法取得的最高識(shí)別率領(lǐng)先于其他各算法。

Fig.10 Accuracy curves of different methods with varied dimensions on FKP dataset圖10 FKP 數(shù)據(jù)集上不同維度與準(zhǔn)確率曲線

3.3 物體識(shí)別實(shí)驗(yàn)

物體識(shí)別和人臉識(shí)別、生物特征識(shí)別具有很大的差異，這是由于數(shù)據(jù)集中不同類別的樣本差異性很大，從而導(dǎo)致某些基于樣本重建算法無法利用其他類別數(shù)據(jù)的信息幫助提高樣本的重建質(zhì)量。此外由于物體形狀不同，樣本角度和光照變化很大，使得類內(nèi)差異急劇增大，給分類帶來了更大的困難。算法將在如下數(shù)據(jù)集上進(jìn)行物體識(shí)別實(shí)驗(yàn)：

COIL-20 數(shù)據(jù)集[33]：包含20 個(gè)不同物體，每類72個(gè)樣本，共1 440 個(gè)樣本。所有圖像都經(jīng)過灰度化預(yù)處理，并調(diào)整為32×32 像素，COIL-20 數(shù)據(jù)集上的部分樣本如圖11 所示。實(shí)驗(yàn)前隨機(jī)選取每類樣本中的5 個(gè)樣本構(gòu)建訓(xùn)練集，使用同一個(gè)訓(xùn)練集對(duì)比各算法的性能情況，結(jié)果如表6 所示。圖12 展示了標(biāo)簽其混淆矩陣。圖13 展示了標(biāo)簽空間中數(shù)據(jù)的t 分布隨機(jī)鄰域嵌入（t-distributed stochastic neighbor embedding，t-SNE）可視化結(jié)果。

Table 5 Accuracy on FKP dataset表5 FKP 數(shù)據(jù)集上的識(shí)別率 %

Fig.11 Some images from COIL-20 dataset圖11 COIL-20 數(shù)據(jù)集中的部分樣本

Table 6 Accuracy on COIL-20 dataset表6 COIL-20 數(shù)據(jù)集上的識(shí)別率 %

Fig.13 t-SNE visualization results on COIL-20 dataset圖13 COIL-20 數(shù)據(jù)集上t-SNE 的可視化結(jié)果

從圖13 各種基于線性回歸算法的t-SNE 可視化結(jié)果可以發(fā)現(xiàn)，多數(shù)同類樣本聚合成一點(diǎn)，但仍然存在許多離散點(diǎn)，這些離散點(diǎn)是由于樣本噪聲造成的較難分類的樣本。由于沒有考慮噪聲處理，DLSR、ReLSR 和RLRLR 的可視化結(jié)果中離散點(diǎn)相對(duì)較多，RLSL 和LRDLSR 算法考慮了樣本噪聲，因此離散點(diǎn)相對(duì)較少，本文DLSSL 算法的可視化結(jié)果中類內(nèi)樣本聚集更為緊密，類間距離相對(duì)較大，且雜亂分布的點(diǎn)較少，這表明DLSSL 模型對(duì)噪聲具有較強(qiáng)的魯棒性，能夠較好地保留數(shù)據(jù)的基本結(jié)構(gòu)。圖12 中的混淆矩陣極為稀疏，說明DLSSL 算法也具有很強(qiáng)的判別能力。從表6 可以更加直觀地發(fā)現(xiàn)DLSSL 在多種算法中取得了最高的識(shí)別率。

3.4 深度特征識(shí)別實(shí)驗(yàn)

不同于上述3 類數(shù)據(jù)集，深度特征來源于深度神經(jīng)網(wǎng)絡(luò)的處理，具有高度的抽象性，這種抽象的數(shù)據(jù)形式更加精煉，所含的噪聲更少；同時(shí)由于數(shù)據(jù)的高度抽象，可能會(huì)使數(shù)據(jù)丟失原有的流形結(jié)構(gòu)，使一些基于距離度量的算法性能下降，從而使某些基于幾何、紋理等特征識(shí)別的算法徹底失效。為驗(yàn)證各算法在面對(duì)深度特征時(shí)的有效性，使用了兩種不同的深度神經(jīng)網(wǎng)絡(luò)用于特征提?。╒GG16 和ResNet50），分別提取如下兩個(gè)圖像數(shù)據(jù)集的特征：

FERET 數(shù)據(jù)集[34]：包含10 000 多個(gè)不同姿態(tài)和照明條件下的圖像樣本。本部分實(shí)驗(yàn)選擇一個(gè)200 人的子集，每人7 幅，共計(jì)1 400 幅圖片，所有圖像都經(jīng)過灰度化預(yù)處理，并調(diào)整為80×80 像素。此部分隨機(jī)選取每一類樣本中的5 個(gè)樣本作為訓(xùn)練樣本，其余為測試樣本，F(xiàn)ERET 數(shù)據(jù)集上的部分樣本如圖14 所示。

Fig.14 Some images from FERET dataset圖14 FERET 數(shù)據(jù)集中的部分樣本

COIL-20 數(shù)據(jù)集：隨機(jī)選取每一類樣本中的5 個(gè)樣本作為訓(xùn)練樣本，其余為測試樣本。比較各算法在處理非深度特征、VGG16 和ResNet50 深度特征數(shù)據(jù)時(shí)的性能，實(shí)驗(yàn)結(jié)果如表7 所示。

Table 7 Deep features accuracy(mean±std)表7 深度特征識(shí)別率（平均值±標(biāo)準(zhǔn)差）%

經(jīng)過深度神經(jīng)網(wǎng)絡(luò)提取的特征數(shù)據(jù)中所含的噪聲大幅降低，各算法性能得到顯著提高。面對(duì)如此高度抽象數(shù)據(jù)，DLSSL 模型仍然領(lǐng)先于其他基于線性回歸算法并取得最好效果，這說明DLSSL模型不僅在處理噪聲數(shù)據(jù)方面具有優(yōu)勢，而且在面對(duì)幾乎沒有噪聲數(shù)據(jù)時(shí)，也能更好地利用樣本信息，可以學(xué)習(xí)一個(gè)類內(nèi)差異更小、類間判別能力更強(qiáng)的子空間投影。

3.5 參數(shù)敏感性實(shí)驗(yàn)

DLSSL 模型有6 個(gè)重要的超參數(shù)λ1、λ2、λ3、λ4、λ5、r，其中λ1、λ2是平衡參數(shù)，用于平衡從原始空間到潛在空間到標(biāo)簽空間的變換權(quán)重，λ3、λ4是防止過擬合的正則化參數(shù)，λ5是類的低秩目標(biāo)學(xué)習(xí)項(xiàng)，文獻(xiàn)[17]中已證明此參數(shù)對(duì)實(shí)驗(yàn)結(jié)果影響較小，后續(xù)實(shí)驗(yàn)中將其設(shè)置為10，參數(shù)r是潛在空間的維數(shù)。

首先設(shè)置超參數(shù)λ1=λ2=1E+0，λ3=λ4=5E-5，λ5=1E+1，然后驗(yàn)證在不同潛在子空間維度r下的識(shí)別率，結(jié)果如圖15 所示。隨著潛在子空間維數(shù)的增加，算法的性能逐漸提升，在r＞2c后趨于穩(wěn)定。由于r的大小決定潛在子空間維數(shù)的大小，維數(shù)越大，算法的時(shí)間與空間復(fù)雜度越高，因此選擇r=2c；其次固定超參數(shù)r=2c，λ3=5E-5，λ4=5E-5，然后驗(yàn)證不同參數(shù)λ1，λ2∈{1E+0,5E-1,1E-1,5E-2,1E-2,5E-3,1E-3,5E-4,1E-4,5E-5} 對(duì)模型性能的影響，不同λ1和λ2在AR 與CMU PIE 數(shù)據(jù)集的識(shí)別率如圖16 所示。從圖中可以發(fā)現(xiàn)，當(dāng)λ1=λ2=1E+0 時(shí)模型的性能較好，這是由于這兩個(gè)空間中的轉(zhuǎn)換同等重要；最后固定超參數(shù)r=2c，λ3=5E-5，λ4=5E-5，然后驗(yàn)證不同參數(shù)λ1，λ2∈{1E+0,5E-1,1E-1,5E-2,1E-2,5E-3,1E-3,5E-4,1E-4,5E-5}對(duì)模型性能的影響，不同λ3和λ4在AR 與CMU PIE數(shù)據(jù)集的識(shí)別率如圖17 所示?？梢园l(fā)現(xiàn)λ3的選取對(duì)實(shí)驗(yàn)結(jié)果影響較大，λ4對(duì)識(shí)別率影響較小。綜上所述，本文算法雖包含眾多參數(shù)，但除λ3外其余參數(shù)對(duì)結(jié)果影響較小，不同數(shù)據(jù)集上參數(shù)選取基本相似，因此通常情況下默認(rèn)λ1=λ2=1E+0，λ4=5E-5，λ5=1E+1，r=2c，僅需要選取λ3∈[1E-1,1E-5]。

4 結(jié)束語

Fig.15 Accuracy of DLSSL for different parameters r on each dataset圖15 各數(shù)據(jù)集上不同參數(shù)r 時(shí)DLSSL 的識(shí)別率曲線

Fig.16 Accuracy of different λ1 and λ2 on AR and CMU PIE datasets圖16 不同λ1 和λ2 在AR 與CMU PIE 數(shù)據(jù)集上的識(shí)別率

Fig.17 Accuracy of different λ3 and λ4 on AR and CMU PIE datasets圖17 不同λ3 和λ4 在AR 與CMU PIE 數(shù)據(jù)集上的識(shí)別率

本文分析了現(xiàn)有幾種基于子空間學(xué)習(xí)的圖像識(shí)別算法，找出了其在噪聲類型與分布假設(shè)上的不合理之處，提出了一種基于潛子空間去噪的子空間學(xué)習(xí)（DLSSL）圖像分類算法。該方法以DLSR 框架為基礎(chǔ)，在原有的視覺空間與標(biāo)簽空間中引入了潛在子空間，結(jié)合欠完備自編碼器提取數(shù)據(jù)中的高階特征，再利用數(shù)據(jù)的高階特征進(jìn)行回歸分類，輔助以組核范數(shù)約束，優(yōu)化類內(nèi)樣本間距離。在人臉識(shí)別、生物特征識(shí)別、物體識(shí)別、深度特征識(shí)別四種不同領(lǐng)域的圖像數(shù)據(jù)集上設(shè)計(jì)了實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明所提算法對(duì)數(shù)據(jù)中存在的各種類型與分布的噪聲都具有較強(qiáng)的魯棒性，所構(gòu)造的子空間判別性更好，分類性能優(yōu)于現(xiàn)有相關(guān)算法。本文算法對(duì)傳統(tǒng)線性回歸框架進(jìn)行了較大幅度的修改，使其具有較好的靈活性與擴(kuò)展性，未來的工作將利用這種優(yōu)勢，從多角度發(fā)掘數(shù)據(jù)的潛在價(jià)值，優(yōu)化數(shù)據(jù)的表現(xiàn)形式，開發(fā)出一種更為普適的圖像分類工具。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡