梁雪琦
(太原理工大學(xué) 信息工程學(xué)院,山西 晉中 030600)
?
基于Gist特征與CNN的場景分類方法
梁雪琦
(太原理工大學(xué) 信息工程學(xué)院,山西 晉中 030600)
針對(duì)大多數(shù)場景分類方法只能學(xué)習(xí)淺層特征,忽略圖像之間的相關(guān)結(jié)構(gòu)信息,提出一種基于Gist特征與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的場景圖像分類方法。其中Gist特征用于提取場景圖像的全局特征,并將其作為深度學(xué)習(xí)模型的輸入,通過逐層訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),提取更高層次的特征,并用訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。實(shí)驗(yàn)在O&T室外場景圖像數(shù)據(jù)集和MNIST手寫體數(shù)據(jù)集上考察了batchsize、卷積核對(duì)分類結(jié)果的影響,并與DBN,NN,SVM和CART作為分類器的分類結(jié)果進(jìn)行比較,充分說明了本文方法的有效性。
Gist特征;特征提??;卷積神經(jīng)網(wǎng)絡(luò);場景分類
場景分類在計(jì)算機(jī)視覺領(lǐng)域有廣泛的應(yīng)用,2006年召開的首次場景理解研討會(huì)上明確提出“場景分類是圖像理解的一個(gè)新的有前途的研究方向”[1]。Ulrich和Nourbakhsh[2]利用顏色直方圖進(jìn)行場景分類。Shen[3]等人采用多種特征融合的方法表征圖像特征進(jìn)行場景分類。Lazebnik[4]等人提出金字塔匹配模型(Spatial Pyramid Matching, SPM),利用視覺詞匯的空間布局信息實(shí)現(xiàn)場景的有效分類。楊昭[5]在Gist特征中引入空間信息和RGB顏色信息,并基于詞匯包(BOW)模型設(shè)計(jì)了一種高效匹配核來度量局部特征間的相似性,核化特征匹配過程。以上算法均為利用各種特征提取方法解決場景分類問題,但特征提取過程有過多主動(dòng)因素介入,有很大的盲目性。
深度學(xué)習(xí)是近年發(fā)展起來的多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,可通過學(xué)習(xí)一種深層非線性網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)復(fù)雜函數(shù)逼近[6-7]。其中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[8-11]是一個(gè)典型的深度學(xué)習(xí)模型。它是一個(gè)深層的神經(jīng)網(wǎng)絡(luò),采用上一層的輸出是這一層的輸入的逐層學(xué)習(xí)的貪婪模型,使其能夠?qū)W習(xí)更高級(jí)、更有效的特征。CNN已成功應(yīng)用于語音識(shí)別、手寫字符識(shí)別等領(lǐng)域。但是,CNN對(duì)輸入數(shù)據(jù)是局部敏感的,以像素級(jí)的特征作為CNN的輸入,提取不到圖像的全局信息。Gist特征提取算法[12]是Oliva和Torralba等提出的一種有效的全局特征描述子,提取圖像的自然度、開放度、粗糙度、膨脹度和險(xiǎn)峻度描述描述圖像的全局特征。以Gist特征作為CNN的輸入,可有效避免深度學(xué)習(xí)中遇到的難題。二者相結(jié)合,能為場景分類提供一種新的思路。
本文通過Gist特征提取場景圖像的全局特征,用CNN進(jìn)一步學(xué)習(xí)更深層次的特征,并在CNN最高層進(jìn)行場景分類。全局特征反映了圖像的空間布局,過濾了很多不必要的信息,比原始圖像像素具有更強(qiáng)表達(dá)能力。同時(shí),通過CNN的逐層貪婪學(xué)習(xí),并在最高層實(shí)現(xiàn)特征識(shí)別,提高了場景圖像的學(xué)習(xí)性能。在O&T室外場景圖像數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文提出的算法與DBN、NN、SVM、CART相比,具有更強(qiáng)的判別性,能夠更有效地表征室外場景圖像的特征,并得到較高的分辨率。
1.1 Gist特征[12-13]
Oliva等提出的Gist特征是一種生物啟發(fā)式特征,該特征模擬人的視覺,形成對(duì)外部世界的一種空間表示,捕獲圖像中的上下文信息。Gist特征通過多尺度多方向Gabor濾波器組對(duì)場景圖像進(jìn)行濾波,將濾波后的圖像劃分為4×4的網(wǎng)格,然后各個(gè)網(wǎng)格采用離散傅里葉變換和窗口傅里葉變換提取圖像的全局特征信息。Gabor濾波器組的表達(dá)式為
exp[2πj(u0xrθi+v0yrθi)]
(1)
其中
(2)
式中:l為濾波器的尺度;K為正常數(shù);σ為高斯函數(shù)的標(biāo)準(zhǔn)差;θi=π(i-1)/θl,i=1,2,…,θl,θl為l尺度下的方向總數(shù)。濾波后的圖像為
(3)
1.2 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)是當(dāng)前語音分析和圖像識(shí)別領(lǐng)域的研究熱點(diǎn),它融合了3種結(jié)構(gòu)性的方法來實(shí)現(xiàn)平移、縮放和扭曲不變形,即局部感受眼、權(quán)值共享和空間域或時(shí)間域上的采樣。CNN是一種多層神經(jīng)網(wǎng)絡(luò),由多個(gè)卷積層和子采樣層交替組成,每一層由多個(gè)特征圖組成,每個(gè)特征圖由多個(gè)神經(jīng)單元組成,同一個(gè)特征圖的所有神經(jīng)單元共用一個(gè)卷積核(即權(quán)重),卷積核代表一個(gè)特征。
1.2.1 卷積層
卷積層[14]有如下幾個(gè)參數(shù):特征圖的個(gè)數(shù)N,特征圖的大小(Nx,Ny),卷積核(kx,ky)和步長(Sx,Sy)。一個(gè)大小為(kx,ky)的卷積核必須在輸入圖像的有效區(qū)域內(nèi)移動(dòng),即卷積核必須在輸入圖像內(nèi)。步長Sx和Sy定義了卷積時(shí)卷積核在x軸和y軸跳多少的像素。輸出特征圖大小的定義為
(4)
式中:參數(shù)n表示層數(shù)。在Ln層的每個(gè)特征圖最多可連接在Ln-1層的Nn-1個(gè)特征圖。
1.2.2 采樣層
采樣層是對(duì)上一層的卷積層進(jìn)行采樣工作,實(shí)現(xiàn)局部平均和子抽樣,使特征映射的輸出對(duì)平移等變換的敏感度下降[15]。采樣層并不改變特征圖的個(gè)數(shù),但輸出的特征圖會(huì)變小。對(duì)卷積層進(jìn)行采樣有很多方式,包括均值采樣、隨機(jī)采樣、最大值采樣、重疊采樣、均方采樣、歸一化采樣等。均值采樣是對(duì)上一層特征圖的相鄰小區(qū)域進(jìn)行聚合統(tǒng)計(jì),區(qū)域大小為scale×scale,并取均值。隨機(jī)采樣是對(duì)特征圖中的元素按照其概率的大小進(jìn)行選擇,即元素值大的被選中的概率也大。
本文提出一種基于Gist特征與卷積神經(jīng)網(wǎng)絡(luò)的場景圖像分類方法。該方法不是將原始圖像的像素作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,而是采用圖像的Gist特征作為它的輸入。
本文所用圖像大小為256×256,若圖像的像素直接作為CNN的輸入,其維數(shù)就是圖像的大小,即256×256。而CNN的輸入采用Gist特征時(shí),用Oliva模型提取Gist特征,每幅圖像的Gist特征維數(shù)為512×1,重新調(diào)整它的行數(shù)、列數(shù),即將512×1維轉(zhuǎn)化為16×32維。比起前一種方法,第二種使得CNN的輸入維數(shù)大大縮小,減少了可訓(xùn)練參數(shù),從而減小了網(wǎng)絡(luò)復(fù)雜度,節(jié)省了計(jì)算時(shí)間。
本文構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)如圖1所示。它由一層輸入層、兩層卷積層、兩層采樣層和一層輸出層組成。網(wǎng)絡(luò)中C層為卷積層,卷積層的特征圖都由不同的卷積核與前一層的特征圖卷積得到。S層為采樣層,它對(duì)卷積層的特征圖進(jìn)行子采樣,本實(shí)驗(yàn)選擇的采樣方式是均值采樣,輸出是指最終的分類結(jié)果,輸出層與輸出層前一層之間全連接。
圖1 基于Gist特征與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的模型
本文提出的方法步驟(偽代碼)如下:
方法:基于Gist特征與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的場景圖像分類方法
輸入:圖像數(shù)據(jù)集
輸出:分類誤差
Step1:用Oliva模型提取Gist特征;
Step2:每類抽取150幅圖像的Gist特征作為訓(xùn)練數(shù)據(jù),其余用于測試;
Step3:處理Gist特征,將數(shù)據(jù)歸一化,并調(diào)整Gist特征的行數(shù)、列數(shù);
Step4:參數(shù)初始化,包括CNN結(jié)構(gòu)、學(xué)習(xí)率、batchsize和迭代次數(shù);
Step5:CNN網(wǎng)絡(luò)初始化,即對(duì)卷積核和權(quán)重進(jìn)行隨機(jī)初始化,而對(duì)偏置進(jìn)行全0初始化;
Step6:CNN網(wǎng)絡(luò)訓(xùn)練
fori=1:迭代次數(shù)
forj=1:numbatches
隨機(jī)抽取batchsize個(gè)訓(xùn)練數(shù)據(jù),前向傳輸計(jì)算在當(dāng)前網(wǎng)絡(luò)權(quán)值和輸入下網(wǎng)絡(luò)的輸出;
反向傳輸調(diào)整權(quán)值;
更新權(quán)值;
endfor
endfor
Step7:CNN網(wǎng)絡(luò)測試,用測試樣本和訓(xùn)練好的CNN網(wǎng)絡(luò)進(jìn)行測試;
Step8:輸出誤差。
為了驗(yàn)證本文方法的有效性,選用O&T室外場景數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。關(guān)于CNN的結(jié)構(gòu)選取目前尚未有完善的理論依據(jù),本實(shí)驗(yàn)用上述模型在Oliva&Torralba(O&T)室外場景圖像數(shù)據(jù)集和MNIST手寫體數(shù)據(jù)集上的結(jié)果討論了CNN的結(jié)構(gòu)(batchsize、卷積核)對(duì)分類結(jié)果的影響,找到各個(gè)參數(shù)影響分類結(jié)果的內(nèi)在原因。并通過本文結(jié)果與DBN,NN,SVM,CART作為分類器在O&T場景圖像集上的分類結(jié)果進(jìn)行比較,來驗(yàn)證本文方法的有效性。
3.1 數(shù)據(jù)集
本實(shí)驗(yàn)選用兩個(gè)數(shù)據(jù)集,即MIT的Oliva&Torralba(O&T)室外場景圖像數(shù)據(jù)集和MNIST手寫體數(shù)據(jù)集。
Oliva&Torralba(O&T)室外場景圖像數(shù)據(jù)集用于驗(yàn)證基于Gist特征與卷積神經(jīng)網(wǎng)絡(luò)的場景圖像分類方法的有效性。該數(shù)據(jù)集包含海濱、森林、高速公路、城市、高山、鄉(xiāng)村、街道和高樓8個(gè)類別,每幅大小為256×256,共2 688幅。數(shù)據(jù)集如圖2所示。MNIST手寫體數(shù)據(jù)集用于在進(jìn)行參數(shù)討論時(shí)的對(duì)比實(shí)驗(yàn)。本實(shí)驗(yàn)直接用CNN對(duì)MNIST手寫體數(shù)據(jù)集進(jìn)行分類。數(shù)據(jù)集包含0~9的10個(gè)類別,每個(gè)樣本被規(guī)范化,將數(shù)字置于圖像中心,并下采樣成28×28的灰度圖像,共70 000個(gè)樣本。
圖2 Oliva&Torralba(O&T)室外場景圖像數(shù)據(jù)集
3.2 場景分類及相關(guān)參數(shù)討論
在進(jìn)行實(shí)驗(yàn)時(shí),卷積神經(jīng)網(wǎng)絡(luò)選取的卷積核(kx,ky)和步長Sx,Sy在x軸與y軸的數(shù)值一樣,故用kn表示第n層的卷積核,Sn表示第n層的步長。本實(shí)驗(yàn)中,設(shè)步長為固定值1。
3.2.1 batchsize的影響
對(duì)于O&T室外場景圖像數(shù)據(jù)集,每類隨機(jī)抽取150張圖像用于訓(xùn)練,其余用于測試。MNIST手寫體數(shù)據(jù)集包含60 000個(gè)訓(xùn)練樣本和10 000個(gè)測試樣本。保持其他參數(shù)不變,改變batchsize,結(jié)果如表1、表2所示。
從表中可以看出,對(duì)于同一個(gè)數(shù)據(jù)集,隨著batchsize的減小,誤差也在減小。程序中,每次挑出batchsize個(gè)樣本進(jìn)行訓(xùn)練,即每次用batchsize個(gè)訓(xùn)練樣本一起計(jì)算梯度,更新模型參數(shù)。本實(shí)驗(yàn)數(shù)據(jù)集數(shù)量沒有那么大,如果選取較大的batchsize,很容易收斂到不好的局部最優(yōu)點(diǎn),而減小batchsize的數(shù)值,引入更多的隨機(jī)性,會(huì)跳出局部最優(yōu)。
3.2.2 卷積核參數(shù)的影響
卷積核是連接兩層神經(jīng)元互聯(lián)的重要工具,其大小決定提取局部特征的大小,設(shè)置適當(dāng)?shù)木矸e核,對(duì)于提高CNN的性能至關(guān)重要。
在此實(shí)驗(yàn)中,對(duì)于O&T室外場景圖像數(shù)據(jù)集,其實(shí)驗(yàn)結(jié)果如表3所示。其中,誤差1和誤差2是指C1、C2層特征圖個(gè)數(shù)分別為7、14,8、16時(shí)實(shí)驗(yàn)的分類誤差。
表1 batchsize對(duì)O&T室外場景圖像數(shù)據(jù)集的影響
表2 batchsize對(duì)MNIST手寫字?jǐn)?shù)據(jù)集的影響
表3 O&T室外場景圖像數(shù)據(jù)集上卷積核參數(shù)的影響
對(duì)于MNIST手寫體數(shù)據(jù)集,調(diào)整卷積核參數(shù),其實(shí)驗(yàn)結(jié)果如表4所示。其中,誤差3、誤差4和誤差5是指C1、C2層特征圖個(gè)數(shù)分別為6、12,7、14和8、16時(shí)實(shí)驗(yàn)的分類誤差。
從表3和表4可以看出,對(duì)于同一個(gè)數(shù)據(jù)集,C1層的特征圖個(gè)數(shù)和C2層的特征圖個(gè)數(shù)變化時(shí),誤差最小時(shí)對(duì)應(yīng)的C1層的卷積核大小不變。對(duì)于不同的數(shù)據(jù)集,誤差最小時(shí)對(duì)應(yīng)的C1層和C2層的卷積核大小雖然不一樣,但C1層的卷積核大小應(yīng)選擇最大值,C2層應(yīng)選擇與C1一樣大或大小相鄰的卷積核。
表4 MNIST手寫體數(shù)據(jù)集上卷積核參數(shù)的影響
根據(jù)卷積神經(jīng)網(wǎng)絡(luò)通過局部感受眼提取網(wǎng)絡(luò)內(nèi)部各層特征的特點(diǎn),卷積核越大,網(wǎng)絡(luò)可表示的特征空間越大,學(xué)習(xí)能力越強(qiáng)。卷積核在一定程度上越大越好,但如果太大,提取的特征的復(fù)雜度遠(yuǎn)遠(yuǎn)超過卷積核的表示能力,而訓(xùn)練數(shù)據(jù)沒有增加,容易出現(xiàn)過擬合現(xiàn)象,故應(yīng)適當(dāng)選擇。
3.3 與其他方法比較
為探討本文算法的有效性,本實(shí)驗(yàn)還與其他分類器進(jìn)行了比較。CNN,DBN,NN,SVM,CART的輸入均為O&T室外場景圖像數(shù)據(jù)集的灰度圖像。其中,CNN與本文方法參數(shù)一致、DBN隱含層節(jié)點(diǎn)為100-100-100,NN的節(jié)點(diǎn)為512-100-8。SVM采用常用的LIBSVM,其核函數(shù)采用徑向基函數(shù)(RadialBasisFunction,RBF),CART算法選擇10折交叉實(shí)驗(yàn)。
對(duì)比實(shí)驗(yàn)結(jié)果如表5所示。實(shí)驗(yàn)結(jié)果表明,本文算法識(shí)別率最高,說明本文算法具有較好的識(shí)別能力?;贕ist特征的CNN分類精度高于輸入為像素級(jí)的分類精度。將Gist特征作為網(wǎng)絡(luò)的輸入,有助于過濾不必要的信息,學(xué)習(xí)到圖像的局部特征更有利于圖像的識(shí)別。
表5 分類性能比較
本文在對(duì)CNN深入研究的基礎(chǔ)上,提出了一種基于Gist特征與卷積神經(jīng)網(wǎng)絡(luò)的場景圖像分類方法,在O&T室外場景圖像數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文方法能夠很好地對(duì)場景圖像進(jìn)行分類。引入深度學(xué)習(xí)結(jié)構(gòu),一定程度上克服了傳統(tǒng)淺層結(jié)構(gòu)算法的局部最優(yōu)。將Gist特征與CNN相結(jié)合,使得在逐層提取特征之前,提前過濾了一部分不必要的特征,減小了網(wǎng)絡(luò)復(fù)雜度,節(jié)省了計(jì)算時(shí)間。實(shí)驗(yàn)深入研究了batchsize與卷積核對(duì)分類結(jié)果的影響,并在不同的數(shù)據(jù)集上得到了一致的結(jié)果。實(shí)驗(yàn)還與其他分類方法進(jìn)行了比較,結(jié)果證明本文方法正確率較高。本實(shí)驗(yàn)在最經(jīng)典的Oliva模型上進(jìn)行實(shí)驗(yàn),在其他的模型上是否也有同樣的效果,是繼續(xù)研究的方向。
[1]金泰松, 李玲玲, 李翠華. 基于全局優(yōu)化策略的場景分類算法[J]. 模式識(shí)別與人工智能, 2013, 26(5): 440-446.
[2]ULRICHI,NOURBAKHSHI.Appearance-basedplacerecognitionfortopologicallocalization[C]//Proc.IEEEInternationalConferenceonRoboticsandAutomation, 2000. [S.l.]:IEEE, 2000: 1023-1029.
[3]SHENJ,SHEPHERDJ,NGUAHH.Semantic-sensitiveclassificationforlargeimagelibraries[C]//Proc.Proceedingsofthe11thInternationalMultimediaModellingConference, 2005. [S.l.]:IEEE, 2005: 340-345.
[4]GRAUMANK,DARRELLT.Thepyramidmatchkernel:Discriminativeclassificationwithsetsofimagefeatures[C]//Proc.TenthIEEEInternationalConferenceonComputerVision, 2005. [S.l.]:IEEE, 2005: 1458-1465.
[5]楊昭,高雋,謝昭,等. 局部Gist特征匹配核的場景分類[J]. 中國圖象圖形學(xué)報(bào), 2013, 18(3): 264-270.
[6]孫志軍,薛磊,許陽明,等. 深度學(xué)習(xí)研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2012, 29(8): 2806-2810.
[7]BENGIOY,DELALLEAUO.Ontheexpressivepowerofdeeparchitectures[C] //Proc.AlgorithmicLearningTheory.BerlinHeidelberg:Springer, 2011: 18-36.
[8]ZHENGZ,LIZ,NAGARA,etal.Compactdeepneuralnetworksfordevicebasedimageclassification[C]//Proc. 2015IEEEInternationalConferenceonMultimedia&ExpoWorkshops.Turin,Italy:IEEE, 2015: 1-6.
[9]HEK,ZHANGX,RENS,etal.Spatialpyramidpoolingindeepconvolutionalnetworksforvisualrecognition[J].IEEEtransactionsonpatternanalysis&machineintelligence, 2015,37(9): 1904-1916.
[10]DONGZ,WUY,PEIM,etal.Vehicletypeclassificationusingasemisupervisedconvolutionalneuralnetwork[J].IEEEtransactionsonintelligenttransportationsystems, 2015(29): 2247-2256.
[11]SANTANAE,DOCKENDORFK,PRINCIPEJC.LearningjointfeaturesforcoloranddepthimageswithConvolutionalNeuralNetworksforobjectclassification[C]//Proc. 2015IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing, 2015. [S.l.]:IEEE, 2015: 1320-1323.
[12]OLIVAA,TORRALBAA.Modelingtheshapeofthescene:aholisticrepresentationofthespatialenvelope[J].Internationaljournalofcomputervision, 2001, 42(3): 145-175.
[13]陳三風(fēng), 梁永生, 柳偉, 等. 基于全局特征信息的快速場景識(shí)別與分類研究[J]. 微計(jì)算機(jī)信息, 2010, 26(25): 41-42.
[14]CIRESAND,MEIERU,MASCIJ,etal.Acommitteeofneuralnetworksfortrafficsignclassification[C]//The2011InternationalJointConferenceonNeuralNetworks, 2011. [S.l.]:IEEE, 2011: 1918-1921.
[15]劉建偉,劉媛,羅雄麟. 深度學(xué)習(xí)研究進(jìn)展[J]. 計(jì)算機(jī)應(yīng)用研究, 2014, 31(7): 1921-1930.
Method of scene image classification based on Gist descriptor and CNN
LIANG Xueqi
(CollegeofInformationEngineering,TaiyuanUniversityofTechnology,ShanxiJinzhong030600,China)
Most of the scene classification methods have a problem which ignoring the structural information related between images leads to they only can learn shallow representations for scene recognition. A method of scene image classification based on Gist descriptor and Convolutional Neural Network(CNN) is proposed. Firstly, Gist descriptor, for global scene image feature extraction, is used as the input of deep learning net. Secondly, convolutional neural network is trained by layer-by-layer to extract a higher level of features. Then, the trained convolutional neural network is used as a classification. Finally, experiments on Oliva&Torralba(O&T) outdoor scene image data set and MNIST handwritten data set investigates the influence to classification accuracy with batchsize and kernelsize, and the comparison with the classification results of the classifiers, Deep Belief Network(DBN), Neural Network (NN), Support Vector Machine(SVM) and Classification And Regression Tree(CART) on the O&T scene image sets indicates the effectiveness of the method are put forward.
Gist descriptor; feature extraction; convolutional neural network; scene classification
梁雪琦.基于Gist特征與CNN的場景分類方法[J]. 電視技術(shù),2016,40(11):7-11. LIANG X Q. Method of scene image classification based on Gist descriptor and CNN[J]. Video engineering,2016,40(11):7-11.
TP18
A
10.16280/j.videoe.2016.11.002
國家自然科學(xué)基金項(xiàng)目(61450011);山西省自然科學(xué)基金項(xiàng)目(2014011018-2);山西省回國留學(xué)人員科研資助項(xiàng)目(2013-033;2015-45)
2016-04-06
梁雪琦(1990— ),女,碩士生,主研深度學(xué)習(xí)、人工智能、大數(shù)據(jù)等。
責(zé)任編輯:薛 京