尹 靜,閆 河
(重慶理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 重慶 400054)
訓(xùn)練樣本數(shù)量選擇對(duì)圖像特征提取的影響分析
尹 靜,閆 河
(重慶理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 重慶 400054)
圖像特征提取是圖像處理的重要內(nèi)容之一,特征提取的質(zhì)量直接影響圖像分類、圖像識(shí)別、圖像檢索等工作的效果??紤]到影響圖像特征提取的因素有多種,以受限玻爾茲曼機(jī)為例,探討訓(xùn)練樣本數(shù)量選擇對(duì)圖像特征提取的影響。實(shí)驗(yàn)結(jié)果表明:隨著樣本數(shù)量的增加,具有相同參數(shù)的受限玻爾茲曼機(jī)提取的圖像特征的概括性會(huì)增強(qiáng)。因此,當(dāng)樣本數(shù)量大時(shí),增加RBM的隱層神經(jīng)元個(gè)數(shù)并不總是有價(jià)值的。
圖像特征提取;受限玻爾茲曼機(jī);CD算法
圖像特征提取是圖像處理過程中非常重要的環(huán)節(jié),特征提取的質(zhì)量直接影響后續(xù)工作的開展。圖像特征提取方法包括Fourier變換法[1]、小波變換法[2]、最小二乘法[3]、直方圖法[4]、信號(hào)處理法[5]和模型法[6]等。模型法是用模型參數(shù)作為圖像特征,典型方法有卷積神經(jīng)網(wǎng)絡(luò)[6]、馬爾科夫隨機(jī)場(chǎng)[7]、受限玻爾茲曼機(jī)[8]等。其中,受限玻爾茲曼機(jī)作為特征提取器被廣泛研究應(yīng)用。
受限玻爾茲曼機(jī)(restricted Boltzmann machine,RBM)[9-10]是基于能量函數(shù)的無(wú)向圖模型,它是一個(gè)2層隨機(jī)神經(jīng)網(wǎng)絡(luò)模型,第1層由多個(gè)神經(jīng)元組成,接收訓(xùn)練數(shù)據(jù),通常稱為可見層;第2層同樣由多個(gè)神經(jīng)元組成,作為訓(xùn)練數(shù)據(jù)的表達(dá),通常稱為隱層??梢妼痈魃窠?jīng)元與隱層各神經(jīng)元之間無(wú)向連接,而層內(nèi)神經(jīng)元之間無(wú)連接。RBM已經(jīng)成功應(yīng)用于機(jī)器學(xué)習(xí)的許多任務(wù)中,包括特征提取[11]、協(xié)同過濾[12]、降維[13]、物體識(shí)別[14]等。文獻(xiàn)[8]使用卷積受限玻爾茲曼機(jī)直接從乳腺的X光片中自主學(xué)習(xí)圖像特征,并利用這些特征完成X光片的分類; 文獻(xiàn)[11]在RBM的隱層中使用線性判別分析、邊界判別分析和熱核邊界判別分析方法提取數(shù)據(jù)的判別特征;文獻(xiàn)[15]使用判別式受限玻爾茲曼機(jī)自動(dòng)地從乳腺X光圖像中學(xué)習(xí)特征,并使用學(xué)到的特征完成圖像分類;文獻(xiàn)[16]在受限玻爾茲曼機(jī)的可見層引入二值轉(zhuǎn)換單元,對(duì)隱藏層神經(jīng)元進(jìn)行分組,構(gòu)造了一個(gè)二元混合式去噪玻爾茲曼機(jī)模型,實(shí)現(xiàn)在復(fù)雜背景的圖像中提取有用特征;文獻(xiàn)[17]利用BP神經(jīng)網(wǎng)絡(luò)識(shí)別圖像中的人臉,并實(shí)現(xiàn)對(duì)圖像中人臉朝向的判別。目前,這些文章更多的是應(yīng)用受限玻爾茲曼機(jī)提取的圖像特征去解決實(shí)際問題。本文主要討論受限玻爾茲曼機(jī)在圖像特征提取時(shí),訓(xùn)練樣本數(shù)量的選擇對(duì)特征提取的影響。實(shí)驗(yàn)在數(shù)字手寫體和人臉兩個(gè)數(shù)據(jù)集上開展,主要從固定隱層神經(jīng)元個(gè)數(shù)選擇不同數(shù)量的訓(xùn)練樣本的特征提取和固定數(shù)量的訓(xùn)練樣本設(shè)置不同隱層神經(jīng)元個(gè)數(shù)的特征提取兩個(gè)方向進(jìn)行。實(shí)驗(yàn)結(jié)果表明:樣本數(shù)量越小,模型學(xué)到的特征越具體;樣本數(shù)量越大,模型學(xué)到的特征越抽象。
2.1 模型簡(jiǎn)介
受限玻爾茲曼機(jī)可以看作是一個(gè)2層的隨機(jī)神經(jīng)網(wǎng)絡(luò)模型,第1層是由m個(gè)神經(jīng)元組成用以表示輸入數(shù)據(jù)v,通常稱為可見層;第2層是由n個(gè)神經(jīng)元組成用以表示數(shù)據(jù)的表達(dá)h,通常稱為隱層。其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示??梢妼优c隱層之間的全連接權(quán)重用W表示,每層各神經(jīng)元之間沒有連接。
圖1 RBM模型
為了表述簡(jiǎn)潔,這里僅考慮當(dāng)模型采用二值單元的情況,也可以采用高斯單元、多項(xiàng)式單元、可矯正線性單元等[18]。二值RBM能量函數(shù)為
(1)
其中:θ是實(shí)數(shù)型參數(shù)bi、cj和wij的集合;vi、hj∈{0,1},i∈{1,2,…,m},j∈{1,2,…,n}。wij是神經(jīng)元vi和hj之間的連接權(quán)重,bi是第i個(gè)可見單元的偏置,cj是第j個(gè)隱單元的偏置。根據(jù)該能量函數(shù),RBM的聯(lián)合概率分布有如下形式:
(2)
(3)
(4)
(5)
式(5)中的第1項(xiàng)較易計(jì)算,但第2項(xiàng)計(jì)算由于配分函數(shù)Z(θ)的存在,該項(xiàng)梯度計(jì)算復(fù)雜度較高。為了降低計(jì)算復(fù)雜度,目前有很多算法對(duì)梯度進(jìn)行近似計(jì)算,例如:CD算法[19]、PCD算法[20]、PT算法[21]等。這里采用CD算法完成RBM的訓(xùn)練。
2.2 模型訓(xùn)練
RBM采用CD-k算法對(duì)模型進(jìn)行訓(xùn)練,CD-k的執(zhí)行過程:算法采用訓(xùn)練數(shù)據(jù)作為馬爾科夫鏈的初始狀態(tài),計(jì)算式(3),在該概率分布下采樣得到h;根據(jù)h的值,計(jì)算式(4),在這個(gè)概率分布下采樣得到v′;再次計(jì)算式(3),采樣得到h′,以此類推,不斷計(jì)算概率,并在此概率分布下采樣,這樣交替執(zhí)行k步。當(dāng)步數(shù)k足夠大時(shí),就可以采樣得到滿足訓(xùn)練數(shù)據(jù)分布的樣本。通常情況下,k=1就可以得到足夠好的近似[19]。
因此,采用CD-1算法進(jìn)行訓(xùn)練,這樣關(guān)于模型參數(shù)的梯度有:
(6)
(7)
(8)
利用梯度對(duì)模型參數(shù)進(jìn)行更新,直到梯度不再變化或者達(dá)到指定訓(xùn)練次數(shù),結(jié)束RBM的訓(xùn)練,獲得數(shù)據(jù)特征。RBM模型的訓(xùn)練步驟見圖2。
圖2 RBM訓(xùn)練流程
為了分析訓(xùn)練樣本數(shù)量選擇對(duì)圖像特征提取的影響,在數(shù)字手寫體和人臉2個(gè)數(shù)據(jù)集上進(jìn)行驗(yàn)證實(shí)驗(yàn)。實(shí)驗(yàn)從兩方面進(jìn)行:1) 模型隱層神經(jīng)元個(gè)數(shù)固定,分析不同訓(xùn)練樣本數(shù)量對(duì)特征提取的影響;2) 訓(xùn)練樣本數(shù)量固定,分析不同隱層神經(jīng)元個(gè)數(shù)對(duì)特征提取的影響。
3.1 數(shù)字手寫體特征提取
手寫體數(shù)據(jù)集MNIST是手寫0~9的數(shù)字圖片組成黑底白字的標(biāo)準(zhǔn)數(shù)據(jù)集,共 60 000 條數(shù)據(jù)。首先固定模型隱層神經(jīng)元個(gè)數(shù),選擇MNIST中不同數(shù)量的訓(xùn)練數(shù)據(jù)對(duì)RBM進(jìn)行訓(xùn)練,數(shù)量分別設(shè)置為100、1 000、5 000、10 000和 60 000條,數(shù)量大的訓(xùn)練數(shù)據(jù)集包含了數(shù)量小的數(shù)據(jù)集。在模型訓(xùn)練時(shí),固定訓(xùn)練次數(shù)為100,學(xué)習(xí)率設(shè)置為0.1,模型權(quán)重初始化為[-0.1,0.1]的隨機(jī)數(shù),可見層和隱層偏置初始化為0。圖3顯示了隱層神經(jīng)元個(gè)數(shù)為100的RBM所提取的數(shù)字手寫體特征。圖4顯示了隱層神經(jīng)元個(gè)數(shù)為1 024的RBM所提取的數(shù)字手寫體特征。由于參數(shù)過多,這里僅截取了部分特征用于顯示。圖3、4中的(a)是100條訓(xùn)練數(shù)據(jù)學(xué)習(xí)后的特征;(b)是1 000條訓(xùn)練數(shù)據(jù)學(xué)習(xí)后的特征;(c)是5 000條訓(xùn)練數(shù)據(jù)學(xué)習(xí)后的特征;(d)是10 000條訓(xùn)練數(shù)據(jù)學(xué)習(xí)后的特征;(e)是60 000條訓(xùn)練數(shù)據(jù)學(xué)習(xí)后的特征。然后,固定訓(xùn)練數(shù)據(jù)的數(shù)量,設(shè)置不同隱層神經(jīng)元個(gè)數(shù)對(duì)RBM進(jìn)行訓(xùn)練,隱層神經(jīng)元個(gè)數(shù)分別為100,256,512,1 024和1 600。參數(shù)設(shè)置與前面實(shí)驗(yàn)設(shè)置相同。圖5顯示了10 000條訓(xùn)練數(shù)據(jù)時(shí),不同隱層神經(jīng)元個(gè)數(shù)的設(shè)置下RBM所提取的數(shù)字手寫體部分特征。其中:(a)是隱層神經(jīng)元個(gè)數(shù)為100的RBM學(xué)到的特征;(b)是隱層神經(jīng)元個(gè)數(shù)為256的RBM學(xué)到的部分特征;(c)是隱層神經(jīng)元個(gè)數(shù)為512的RBM學(xué)到的部分特征;(d)是隱層神經(jīng)元個(gè)數(shù)為1 024的RBM學(xué)到的部分特征;(e)是隱層神經(jīng)元個(gè)數(shù)為1 600的RBM學(xué)到的部分特征。從圖3、4來(lái)看,在相同隱層神經(jīng)元個(gè)數(shù)的前提下,RBM從100條訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的數(shù)據(jù)特征比60 000條訓(xùn)練數(shù)據(jù)時(shí)學(xué)習(xí)到的數(shù)據(jù)特征更具體。隨著訓(xùn)練數(shù)據(jù)數(shù)量的不斷增加,RBM學(xué)習(xí)到了訓(xùn)練數(shù)據(jù)的全局特征,從而提取到更抽象的特征。當(dāng)隱層神經(jīng)元個(gè)數(shù)較多時(shí),這些特征會(huì)集中在部分權(quán)重中,圖4、5顯示的數(shù)據(jù)特征就說(shuō)明了這一點(diǎn)。雖然隱層的神經(jīng)元數(shù)量增加可以表達(dá)更多的數(shù)據(jù),但模型會(huì)對(duì)學(xué)習(xí)的數(shù)據(jù)不斷抽象,從而融合訓(xùn)練數(shù)據(jù)之間的共同特征,得到抽象特征。因此,圖4(c)~(e)和圖5(b)~(e)中有的權(quán)重是沒有作用的。
圖3 隱層神經(jīng)元個(gè)數(shù)為100的RBM在不同數(shù)量的訓(xùn)練集中提取的特征
圖4 隱層神經(jīng)元個(gè)數(shù)為1 024的RBM在不同數(shù)量的訓(xùn)練集中提取的部分特征
圖5 不同隱層神經(jīng)元個(gè)數(shù)的RBM在10 000條訓(xùn)練集中提取的部分特征
3.2人臉特征提取
圖6 隱層神經(jīng)元個(gè)數(shù)為256的RBM在不同數(shù)量的訓(xùn)練集中提取的人臉特征
受限玻爾茲曼機(jī)在圖像特征提取方面應(yīng)用效果較好。作為特征提取器,RBM提取圖像特征的質(zhì)量與隱層神經(jīng)元個(gè)數(shù)、模型參數(shù)的初始化、學(xué)習(xí)率、訓(xùn)練模型的樣本數(shù)量等有關(guān)。其中,訓(xùn)練樣本數(shù)量的選擇不僅影響RBM隱層神經(jīng)元個(gè)數(shù)的設(shè)置,同時(shí)影響RBM提取的特征。實(shí)驗(yàn)結(jié)果表明:相同個(gè)數(shù)的隱層神經(jīng)元,隨著樣本數(shù)量的增加,模型提取的圖像特征將越概括;相同數(shù)量的訓(xùn)練樣本,隨著神經(jīng)元個(gè)數(shù)的增加,提取的圖像特征不會(huì)因?yàn)閰?shù)數(shù)量的增加而有更好的質(zhì)量,因此增加隱層神經(jīng)元個(gè)數(shù)對(duì)于特征提取不總是有價(jià)值的。下一步研究將繼續(xù)分析其他因素對(duì)RBM提取圖像特征的影響,以便更好地設(shè)置RBM的參數(shù),提高圖像特征的質(zhì)量。
[1] 徐貴力,毛罕平.利用傅里葉變換提取圖像紋理特征新方法[J].光電工程,2004,31(11):55-58.
[2] 李亞標(biāo),王寶光,李溫溫.基于小波變換的圖像紋理特征提取方法及其應(yīng)用[J].傳感技術(shù)學(xué)報(bào),2009,22(9):1308-1311.
[3] 趙鑫,宋廣軍,張宏烈.遙感圖像特征提取算法仿真[J].計(jì)算機(jī)仿真,2013,30(6):222-225.
[4] 傅明,萬(wàn)勵(lì),劉國(guó)英.一種新的圖像特征提取算法——DCDSH[J].儀器儀表學(xué)報(bào),2004,25(z1):538-539.
[5] 張建勛,李濤,孫權(quán),等.豬眼肌B超圖像紋理特征提取與分類[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2013,27(2):74-78.
[6] 李欽,游雄,李科,等.圖像深度層次特征提取算法[J].模式識(shí)別與人工智能,2017,30(2):127-136.
[7] 岑杰,趙杰煜.基于馬爾可夫隨機(jī)場(chǎng)的嘴唇特征提取方法[J].計(jì)算機(jī)應(yīng)用研究,2007,24(7):300-302.
[8] 張娟,蔣蕓,胡學(xué)偉,等.基于卷積受限玻爾茲曼機(jī)的醫(yī)學(xué)圖像分類新方法[J].計(jì)算機(jī)工程與科學(xué),2017,39(2):323-329.
[9] SMOLENSKY P.Information processing in dynamical systems:foundations of harmony theory[M].Cambridge:MIT Press,1986:194-281.
[10] HINTON G E,OSINDERO S,TEH Y W.A fast learning algorithm for deep belief nets[J].Neural Computation,2006,18(7):1527-1554.
[11] XIE G S,ZHANG X Y,ZHANG Y M,et al.Integrating supervised subspace criteria with restricted Boltzmann Machine for feature extraction[C]//International Joint Conference on Neural Networks.Beijing,China,2014:1622-1629.
[12] SALAKHUTDINOV R,MNIH A,HINTON G.Restricted Boltzmann machines for collaborative filtering[C] //Proceedings of the Twenty-Fourth International Conference on Machine Learning.USA:[s.n.],2007:791-798.
[13] ZHANG K,LIU J,CHAI Y,et al.An optimized dimensionality reduction model for high-dimensional data based on Restricted Boltzmann Machines[C]//Chinese Control & Decision Conference.China:[s.n.],2015:2939-2944.
[14] WU Y,JI Q.Learning the Face Shape Models for Facial Landmark Detection in the Wild[M]//Germany: Springer International Publishing,2015:33-45.
[15] 陳娜,蔣蕓,鄒麗,等.基于判別式受限玻爾茲曼機(jī)的醫(yī)學(xué)圖像分類法[J].計(jì)算機(jī)科學(xué),2015,42(5):315-319.
[16] 楊杰,孫亞東,張良俊,等.基于弱監(jiān)督學(xué)習(xí)的去噪受限玻爾茲曼機(jī)特征提取算法[J].電子學(xué)報(bào),2014,42(12):2365-2370.
[17] 張彤,盧雯雯,肖南峰.基于BP網(wǎng)絡(luò)的人臉朝向識(shí)別方法[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2010(6):61-65.
[18] HINTON G E.A Practical Guide to Training Restricted Boltzmann Machines[J].Momentum,2010,9(1):599-619.
[19] HINTON G E.Training products of experts by minimizing contrastive divergence[J].Neural Computation,2002,14(8):1771-1800.
[20] TIELEMAN T.Training restricted Boltzmann machines using approximations to the likelihood gradient[C]//International Conference on Machine Learning.USA:ACM,2008:1064-1071.
[21] CHO K H,RAIKO T,ILIN A.Parallel tempering is efficient for learning restricted Boltzmann machines[C]//International Joint Conference on Neural Networks.USA:IEEE,2010:1-8.
(責(zé)任編輯楊黎麗)
InfluenceoftheNumberofTrainingSampleonImageFeatureExtraction
YIN Jing, YAN He
(College of Computer Science and Technology, Chongqing University of Technology, Chongqing 400054, China)
Image feature extraction is one of the important contents of image processing. The quality of feature extraction directly affects the effect of image classification, image recognition and image retrieval. There are many factors that affect image feature extraction. The restricted Boltzmann machine is took as an example to discuss the influence of the number of training samples on image feature extraction. The experimental results show that the generality of the image features extracted by the restricted Boltzmann machine with the same parameters will be enhanced as the number of samples increases. Therefore, when the number of samples is large, increasing the number of hidden layer neurons in RBM is not always valuable.
image feature extraction; restricted Boltzmann machine; CD algorithm
2017-03-26
國(guó)家自然科學(xué)基金資助項(xiàng)目(61173184)
尹靜(1980—),女,重慶人,講師, 主要從事機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等方面研究,E-mail:yinjing@cqut.edu.cn;閆河(1972—),男,陜西勉縣人,教授,主要從事多尺度幾何分析、目標(biāo)跟蹤、模式識(shí)別、人工智能等方面研究,E-mail:cqyanhe@163.com。
尹靜,閆河.訓(xùn)練樣本數(shù)量選擇對(duì)圖像特征提取的影響分析[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2017(10):192-197.
formatYIN Jing, YAN He.Influence of the Number of Training Sample on Image Feature Extraction[J].Journal of Chongqing University of Technology(Natural Science),2017(10):192-197.
10.3969/j.issn.1674-8425(z).2017.10.031
TP181
A
1674-8425(2017)10-0192-06
重慶理工大學(xué)學(xué)報(bào)(自然科學(xué))2017年10期