張玉蘭,張家林,余義斌
(五邑大學(xué) 信息工程學(xué)院,廣東 江門 529020)
基于主成分初始化與雙字典學(xué)習(xí)的圖像分類方法
張玉蘭,張家林,余義斌
(五邑大學(xué) 信息工程學(xué)院,廣東 江門 529020)
為解決字典學(xué)習(xí)訓(xùn)練測(cè)試消耗時(shí)間過(guò)長(zhǎng)、迭代次數(shù)多、識(shí)別率及計(jì)算效率不高的問(wèn)題,本文提出一種基于主成分初始化的雙字典學(xué)習(xí)方法,將PCA方法引入雙字典學(xué)習(xí)模型,通過(guò)對(duì)每類樣本矩陣奇異值分解,保留樣本95%的主成分作為雙字典學(xué)習(xí)的初始子字典,以此充分利用已有樣本的全局信息,并減少字典學(xué)習(xí)的迭代次數(shù).在擴(kuò)展的YaleB、AR數(shù)據(jù)庫(kù)和手寫數(shù)字字符集MNIST庫(kù)上的分類實(shí)驗(yàn)表明,相對(duì)其他分類方法,本文方法大大減少了訓(xùn)練和測(cè)試時(shí)間,并提高了識(shí)別率.
主成分初始化;雙字典學(xué)習(xí);解析字典;合成字典;圖像分類
字典學(xué)習(xí)(dictionary learning,DL)目前已經(jīng)廣泛應(yīng)用于圖像處理、機(jī)器視覺(jué)和模式識(shí)別等領(lǐng)域,但它對(duì)有復(fù)雜局部結(jié)構(gòu)的自然圖像處理效果不好,所以通常采用結(jié)構(gòu)化的合成字典[1-2]對(duì)圖像的復(fù)雜局部結(jié)構(gòu)建模.目前,有鑒別能力的字典學(xué)習(xí)方法主要有基于稀疏表示的魯棒人臉識(shí)別的鑒別字典學(xué)習(xí)[1]、標(biāo)簽連續(xù)的KSVD (LC-KSVD)的鑒別字典學(xué)習(xí)[3]、有監(jiān)督的鑒別字典學(xué)習(xí)[4]以及基于結(jié)構(gòu)的非連貫性和共同特征的鑒別字典學(xué)習(xí)[2]等.由于稀疏編碼對(duì)分類更有效,因此眾多的字典學(xué)習(xí)方法采用l0范數(shù)或l1范數(shù)來(lái)對(duì)稀疏問(wèn)題進(jìn)行正則化,并針對(duì)所有類別,學(xué)習(xí)一個(gè)通用字典,自發(fā)地在稀疏編碼系數(shù)中得到分類器,提高分類準(zhǔn)確率.雖然有學(xué)者提出了提高效率的方法[5-6],但l0或l1范數(shù)正則化過(guò)程仍然面臨多次迭代、效率較低的問(wèn)題.文獻(xiàn)[7]提出投影雙字典學(xué)習(xí)(dictionary pair learning,DPL)方法,通過(guò)線性映射得到稀疏表示系數(shù),同時(shí)學(xué)習(xí)一個(gè)解析字典和合成字典:利用解析字典對(duì)樣本稀疏表示,用合成字典對(duì)樣本進(jìn)行重構(gòu),從而達(dá)到分類目的.此方法的稀疏表示系數(shù)由簡(jiǎn)單的線性投影函數(shù)逼近獲得,且應(yīng)用了類標(biāo)簽信息,提高了稀疏編碼的識(shí)別能力,減少了訓(xùn)練和測(cè)試時(shí)間.但該方法把解析字典P和合成字典D都初始化為單位Frobenius范數(shù)隨機(jī)矩陣,沒(méi)有利用樣本的任何信息,字典學(xué)習(xí)的過(guò)程仍需要多次迭代,仍存在改進(jìn)的空間.
主成分分析(principle component analysis,PCA)[8]是模式識(shí)別中一種重要的特征提取方法,其基本思想是從樣本圖像中提取主要成分,保留原始數(shù)據(jù)大部分信息,減少數(shù)據(jù)冗余,降低高維數(shù)據(jù)的維數(shù),進(jìn)而提高計(jì)算效率,解決高維數(shù)據(jù)處理的瓶頸問(wèn)題.目前PCA在模式識(shí)別中的應(yīng)用有二維主成分分析[9]和基于Gabor小波表示的核主成分分析[10]等.本文將PCA方法引入到雙字典學(xué)習(xí)模型中,提出基于主成分初始化的雙字典學(xué)習(xí)方法.通過(guò)對(duì)每類樣本矩陣奇異值分解(singular value decomposition,SVD),保留樣本95%的主成分作為雙字典學(xué)習(xí)的初始子字典,以提高字典學(xué)習(xí)的效率和識(shí)別率.
1.1 DPL模型
因此,A=PX是塊對(duì)角矩陣.另外,用結(jié)構(gòu)化的合成字典D的子字典Dk從稀疏編碼A中重構(gòu)出X時(shí),使用的代價(jià)函數(shù)為
綜合以上分析可得DPL模型:
1.2 字典對(duì)的初始化
PCA一般由Karhunen-Loeve變換實(shí)現(xiàn)[12],實(shí)質(zhì)是建立一個(gè)新的坐標(biāo)系,將樣本數(shù)據(jù)的主軸沿著特征矢量對(duì)齊,去除原來(lái)數(shù)據(jù)向量各分量之間的相關(guān)性而保留主要信息分量,以達(dá)到降維目的.實(shí)際中可通過(guò)奇異值分解(SVD)來(lái)獲得樣本的主成分.
本文采用PCA對(duì)字典對(duì)D和P初始化,初始化合成字典D為樣本矩陣奇異值分解(SVD)的前m個(gè)特征值對(duì)應(yīng)的歸一化特征向量(m為字典的原子個(gè)數(shù)),初始化解析字典P為D的轉(zhuǎn)置.對(duì)同一類(第k類)樣本圖像矩陣做SVD分解,有:
由于圖像發(fā)生旋轉(zhuǎn)、位移變換、鏡像變換時(shí),其奇異值不會(huì)發(fā)生變化,因此用SVD能更精確提取圖像主成分.較大奇異值對(duì)應(yīng)的特征向量代表了某一類圖像的主成分,不同的類對(duì)應(yīng)的主成分是不同的.一般,保留所有特征值之和95%對(duì)應(yīng)的特征向量就能保持樣本數(shù)據(jù)的主要特征,剩余的較小的特征值對(duì)樣本數(shù)據(jù)特征的貢獻(xiàn)很小,m是保留樣本數(shù)據(jù)95%主要特征需要的特征值的個(gè)數(shù).這樣大大提高了字典訓(xùn)練的效率,又能更精確描述樣本空間的主要特征,且能使算法收斂更快.
1.3 優(yōu)化求解
目標(biāo)函數(shù)式(5)是一個(gè)非凸函數(shù),引進(jìn)矩陣A=PX,式(5)可轉(zhuǎn)化為
最小化求解可以在以下兩步中交替進(jìn)行:
1)固定D和P,更新A
這是一個(gè)標(biāo)準(zhǔn)最小二乘問(wèn)題,對(duì)A求導(dǎo),并令其等于0,可得解析解:
2)固定A,更新D和P
P的解析解為
利用ADMM算法求解式(14),可得
字典對(duì)D和P是分類算法的輸出.從式(12)可以發(fā)現(xiàn),第一個(gè)子目標(biāo)函數(shù)用于學(xué)習(xí)鑒別解析字典,提升字典P的鑒別能力;第二個(gè)子目標(biāo)函數(shù)用于學(xué)習(xí)合成字典,使解析字典產(chǎn)生的稀疏系數(shù)對(duì)原輸入信號(hào)的重構(gòu)誤差最小.當(dāng)最優(yōu)化收斂時(shí),鑒別和表示能力達(dá)到平衡.基于主成分初始化的雙字典學(xué)習(xí)算法歸納如下:
5)輸出字典對(duì)D和P.
圖1 擴(kuò)展的YaleB數(shù)據(jù)庫(kù)上,文獻(xiàn)[7]和本文的重構(gòu)編碼和重構(gòu)誤差對(duì)比圖
在2.0 GHz Intel CPU和8 G內(nèi)存的筆記本電腦上,分別將基于線性最近鄰子空間分類器(NSC)、稀疏表示分類(SRC)[2]、線性支持向量機(jī)(SVM)分類、標(biāo)簽連續(xù)的KSVD(LC-KSVD)[4]、投影雙字典學(xué)習(xí)(DPL)[1]以及本文方法在擴(kuò)展的YaleB[13]、AR[14]兩個(gè)人臉數(shù)據(jù)庫(kù)和手寫字符集MNIST庫(kù)上進(jìn)行實(shí)驗(yàn),比較其識(shí)別率及訓(xùn)練測(cè)試時(shí)間.
圖2 擴(kuò)展YaleB數(shù)據(jù)庫(kù)樣本圖像
圖3 AR數(shù)據(jù)庫(kù)樣本圖像
圖4 MNIST數(shù)據(jù)庫(kù)樣本圖像
擴(kuò)展的YaleB人臉數(shù)據(jù)庫(kù)取自38個(gè)人的2 414張圖片,主要受光照和人臉表情的影響.AR數(shù)據(jù)庫(kù)包含了取自70個(gè)男性和50個(gè)女性共120人的1 680張圖片,主要受光照、表情的影響.圖2和圖3分別是擴(kuò)展的YaleB和AR數(shù)據(jù)庫(kù)的部分樣本圖像,圖4是手寫數(shù)字字符集MNIST庫(kù)的部分樣本圖像.對(duì)于擴(kuò)展的YaleB數(shù)據(jù)庫(kù),隨機(jī)選每個(gè)人的一半圖片用于訓(xùn)練,另一半用于測(cè)試,樣本特征維數(shù)為504.對(duì)于AR數(shù)據(jù)庫(kù),隨機(jī)選每個(gè)人的10張圖片用于訓(xùn)練,剩下的4張用于測(cè)試,樣本特征維數(shù)為540.在實(shí)驗(yàn)中,取0.05,對(duì)于擴(kuò)展的YaleB數(shù)據(jù)庫(kù),m取14,取0.003;AR數(shù)據(jù)庫(kù),m取8,取0.005,實(shí)驗(yàn)結(jié)果如表1所示.對(duì)于MNIST數(shù)據(jù)庫(kù),選取60 000張樣本訓(xùn)練,10 000張樣本用于測(cè)試,取0.1,m取150,取0.003,實(shí)驗(yàn)結(jié)果如表2所示.
表1 不同方法在擴(kuò)展YaleB數(shù)據(jù)庫(kù)和AR數(shù)據(jù)庫(kù)上的識(shí)別結(jié)果
表2 在手寫數(shù)字字符集MNIST庫(kù)上的識(shí)別結(jié)果
由表1知:與其他五種方法相比,本文提出的基于主成分初始化的雙字典學(xué)習(xí)方法在兩個(gè)人臉數(shù)據(jù)庫(kù)上的識(shí)別率均為最高,且訓(xùn)練時(shí)間也遠(yuǎn)遠(yuǎn)低于LC-KSVD和DPL,在識(shí)別率和計(jì)算效率上都有一定的改善.由表2可知,在手寫數(shù)字字符集MNIST庫(kù)上,本文方法優(yōu)于傳統(tǒng)的雙字典學(xué)習(xí)方法.
基于主成分初始化的雙字典學(xué)習(xí)選用樣本信號(hào)95%的主成分作為初始字典,能有效捕捉樣本空間的本質(zhì)特征.在利用樣本全局信息的基礎(chǔ)上,同時(shí)學(xué)習(xí)一個(gè)字典對(duì)(解析字典用于樣本編碼,合成字典用于重構(gòu)樣本),引入類標(biāo)簽信息,提高圖像分類的準(zhǔn)確性.實(shí)驗(yàn)證明,在擴(kuò)展的YaleB、AR數(shù)據(jù)庫(kù)和MNIST數(shù)據(jù)庫(kù)上,相對(duì)其他圖像分類方法,本文提出的方法大大減少了訓(xùn)練和測(cè)試時(shí)間,并提高了識(shí)別率.本文提出的算法也可應(yīng)用于其他模式識(shí)別、機(jī)器學(xué)習(xí)、圖像分類等問(wèn)題的求解.
[1] WRIGHT J, YANG A Y, GANESH A, et al.Robust face recognition via sparse representation [J].IEEE transactions on pattern analysis and machine intelligence, 2009, 31(2): 210-227.
[2] RAMIREZ I, SPRECHMANN P, SAPIRO G.Classification and clustering via dictionary learning with structured incoherence and shared features [C]//2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).San Francisco: IEEE, 2010: 3501-3508.
[3] JIANG Zhuomin, LIN Zhe, DAVIS L S.Label consistent K-SVD: learning a discriminative dictionary for recognition [J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(11): 2651-2664.
[4] MAIRAL J, PONCE J, SAPIRO G, et al.Supervised dictionary learning [C]//Advances in neural information processing systems.Whistler: NIPS, 2009: 1033-1040.
[5] LEE H, BATTLE A, RAINA R, et al.Efficient sparse coding algorithms [C]//Advances in neural information processing systems.Whistler: NIPS, 2006: 801-808.
[6] HALE E T, YIN Wotao, ZHANG Yin.Fixed-point continuation for l1-minimization: methodology and convergence [J].SIAM Journal on Optimization, 2008, 19(3): 1107-1130.
[7] GU Shuhang, ZHANG Lei, ZUO Wangmeng, et al.Projective dictionary pair learning for pattern classification [C]//Advances in Neural Information Processing Systems.Montréal: NIPS, 2014: 793-801.
[8] ABDI H, WILLIAMS L J.Principal component analysis [J].Wiley Interdisciplinary Reviews: Computational Statistics, 2010, 2(4): 433-459.
[9] YANG Jian, ZHANG D, FRANGI A F, et al.Two-dimensional PCA: a new approach to appearance-based face representation and recognition [J].IEEE transactions on pattern analysis and machine intelligence, 2004, 26(1): 131-137.
[10] LIU Chengjun.Gabor-based kernel PCA with fractional power polynomial models for face recognition [J].IEEE transactions on pattern analysis and machine intelligence, 2004, 26(5): 572-581.
[11] SOLTANOLKOTABI M, ELHAMIFAR E, CANDES E J.Robust subspace clustering [J].The Annals of Statistics, 2014, 42(2): 669-699.
[12] 蘇宏濤.基于統(tǒng)計(jì)特征的人臉識(shí)別技術(shù)研究[D].西安:西北工業(yè)大學(xué),2004.
[13] GEORGHIADES A S, BELHUMEUR P N, KRIEGMAN D J.From few to many: illumination cone models for face recognition under variable lighting and pose [J].IEEE transactions on pattern analysis and machine intelligence, 2001, 23(6): 643-660.
[14] MARTINEZ A M, BENAVENTE R.The AR face database [R].Barcelona: CVC, 1998: 1-8.
[責(zé)任編輯:熊玉濤]
A Method of Image Classification Based on Principal Component Initialization and Dictionary Pair Learning
ZHANG Yu-lan, ZHANG Jia-lin, YU Yi-bin
(School of Information Engineering, Wuyi University, Jiangmen 529020, China)
To solve the problem of consuming too much time, too many iterations, and low accuracy of recognition and low efficiency of computing in the training and testing process, a method of principal component initialization is introduced into the dictionary pair learning (DPL) model in this paper.Through the singular value decomposition of each class of samples, the principal components analysis (PCA) is introduced into the DPL model, which retains 95 percent of the principal components as the initial sub-dictionary.This can take full advantage of the global information of the samples and reduce the iteration numbers in computing.Classification experiments on the Extended YaleB Database, AR Database and hand-written digital character set MNIST Database show that our method can greatly reduce the training and testing time and achieve higher accuracy compared with other classification methods.
principal component initialization; dictionary pair learning; analysis dictionary; synthesis dictionary; image classification
TP391.4
A
1006-7302(2017)02-0027-06
2016-12-12
廣東高校省級(jí)重點(diǎn)平臺(tái)和重大科研項(xiàng)目特色創(chuàng)新項(xiàng)目(自然科學(xué)類)(2015KTSCX148);浙江省信號(hào)處理重點(diǎn)實(shí)驗(yàn)室開放課題(ZJKL_4_SP-OP2014-05);廣東省大學(xué)生創(chuàng)新和創(chuàng)業(yè)培訓(xùn)項(xiàng)目(201511349090).
張玉蘭(1990—),女,河南商城人,在讀碩士生,主要研究方向?yàn)閳D像處理、字典學(xué)習(xí)、稀疏表示和模式識(shí)別;余義斌,副教授,博士,碩士生導(dǎo)師,通信作者,主要研究方向?yàn)闄C(jī)器視覺(jué)與圖像處理.