国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于卷積神經(jīng)網(wǎng)絡(luò)和語義信息的場景分類

2018-02-05 09:16張曉明尹鴻峰
軟件 2018年1期
關(guān)鍵詞:分類器語義卷積

張曉明,尹鴻峰

(1. 北京交通大學 計算機與信息技術(shù)學院,北京 100044;2. 北京交通大學海濱學院 計算機科學系,河北 黃驊 061199)

0 引言

作為機器視覺最常見的圖像識別任務(wù)之一,場景圖像的分類旨在通過提取并分析圖像中的特征,將內(nèi)容相似的圖像歸為同一類別。場景識別的意義,一方面是幫助計算機對畫面的場景有一個總體的認識,增加先驗知識,從而指導目標檢測和識別[1];另一方面,目前更多應用的是基于內(nèi)容的圖像索引和檢索[2],而互聯(lián)網(wǎng)上的媒體內(nèi)容每天都在快速不斷地大量增多,亟需高效的自動方法來對這些內(nèi)容進行存儲、分類以及搜索。因此,場景分類成為了對海量的視覺內(nèi)容進行組織、選擇及索引的關(guān)鍵技術(shù)。

室內(nèi)場景通常具有復雜的結(jié)構(gòu)以及種類繁多的人工制品,容易使得場景類內(nèi)差異比較大而類間相似性更高;此外,容易受到光照變化、視角變化和尺度變化以及遮擋問題的影響。因此,有關(guān)室內(nèi)場景問題的處理相對進展較慢,且更具挑戰(zhàn)性。而語義信息在克服上述問題方面具有很好的效果。實際上,場景與其中出現(xiàn)的目標,目標與目標共存等都不是互相獨立、毫無關(guān)聯(lián)的。因此語義理解是解決場景理解問題的重要組成部分,能利用場景及目標間的語義信息可以有效提高分類效果。

近年來,卷積神經(jīng)網(wǎng)絡(luò)深度學習模型在計算機視覺領(lǐng)域得到了廣泛的應用。其中 Lecun網(wǎng)絡(luò)[3]、Alex網(wǎng)絡(luò)[4]、Google網(wǎng)絡(luò)[5]、視覺幾何組網(wǎng)絡(luò)[6]、殘差網(wǎng)絡(luò)[7]是目前最知名的圖像分類深度學習網(wǎng)絡(luò)模型。然而這些深度模型有些對場景分類的效果并不好,尤其是復雜的室內(nèi)場景。構(gòu)建深度卷積網(wǎng)絡(luò)模型,為提高分類效果通常做法是增加模型的深度或者寬度(層核或神經(jīng)元數(shù)),如AlexNet有5個卷積層,VGGNet增加到了16層,GoogLeNet繼續(xù)加深到21層,而ResNet則達到了151層且還在增加。除了增加計算成本之外,還需要海量訓練數(shù)據(jù)。因此,如何在有限的數(shù)據(jù)集上,有效利用一定層數(shù)的卷積神經(jīng)網(wǎng)絡(luò)取得良好的場景分類效果是本文的研究重點。

本文面向復雜的室內(nèi)場景,提出一種同時利用神經(jīng)網(wǎng)絡(luò)與語義信息來進行場景分類的方法,并在室內(nèi)場景數(shù)據(jù)集上進行了實驗對比,結(jié)果表明本文方法在訓練數(shù)據(jù)集有限的情況下仍能取得很好的效果。

1 相關(guān)工作

傳統(tǒng)場景分類方法,如 SPM[8]考慮空間信息,將圖像分成若干塊(sub-regions),分別統(tǒng)計每一子塊的特征,最后將所有塊的特征拼接起來,形成完整的特征來進行場景分類。該方法沒有考慮圖像中目標的完整性,對旋轉(zhuǎn)等的魯棒性也不高,而且利用的是人工SIFT特征。

而隨著硬件水平的提高以及研究的深入,尤其從2012年AlexNet(Krizhevsky et al., 2012)贏得ILSVRC(ImageNet Large Scale Visual Recognition Challenge)比賽后,深度學習在計算機視覺領(lǐng)域展現(xiàn)出了巨大優(yōu)勢,應用也越來越廣泛,已經(jīng)成為計算機視覺的不二選擇。在之后的幾年中,VGGNet,GoogleNet,ResNet等一系列CNN網(wǎng)絡(luò)在圖像處理方面都取得了巨大成功。目前場景分類中最成功的CNN網(wǎng)絡(luò)就是 Place-CNN[9],他是利用 Alexnet的結(jié)構(gòu),在由476個場景組成的共2500萬張圖像上進行訓練得到的,取得了不錯的分類效果。而他們都需要大量的圖像作為基礎(chǔ),因為場景分布樣式的千變?nèi)f化。

Place-CNN中也指出CNN在進行場景分類時導致效果差的一個重要原因就是相比于目標圖像來說,以場景為中心的圖像更多樣化,這也就意味著需要更多的訓練樣本,才能有更好的普適性。而一個場景中往往出現(xiàn)的目標物體是固定的,多個目標之間也會有固定的位置及依存關(guān)系。研究表明語義信息是解決計算機視覺問題的重要線索之一[10,11]。在進行場景分類識別時,利用場景和目標間的關(guān)系可以有效克服上述問題,避免場景多樣化,用更少的訓練數(shù)據(jù)得到良好的實驗效果[12-15]。Object Bank[16]是預先訓練好大量的目標檢測器,然后將圖像中檢測到的目標作為特征來預測場景類別。但是沒有明確的指出場景和他的目標組成間的關(guān)系以及目標間的幾何關(guān)系。SDPM[17]與之類似,是利用DPM[18]獲取目標信息進行場景分類。SS-CNN[19]結(jié)合深度信息,利用場景-目標間的共存關(guān)系訓練了卷積神經(jīng)網(wǎng)絡(luò),在SUN RGB-D數(shù)據(jù)集上取得了很好的效果。DeepContext[20]是利用3D語義信息,通過選定特定神經(jīng)元,然后定義這些神經(jīng)元之間的關(guān)系作為語義信息,訓練 3D神經(jīng)網(wǎng)絡(luò),來進行場景分類。3D ConvNets也需要預先訓練場景模版,方法取得了很好的效果,但是卻沒有利用圖像的顏色等2D信息。

因此,本文在利用卷積神經(jīng)網(wǎng)絡(luò)CNN利用顏色信息進行場景分類的基礎(chǔ)上,利用目標與場景間的語義信息對分類結(jié)果進行修正。

2 相關(guān)模型和算法

2.1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

以RGB三通道圖像作為輸入,本文分別用softmax和SVM作為分類器來進行了訓練,以softmax為例,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

為了減少計算量,避免訓練集少造成過擬合,本文并沒有用過深的網(wǎng)絡(luò),使用的是一個7層的卷積神經(jīng)網(wǎng)絡(luò),前4層是卷積層,后3層為全連接層,其中最后一層采用softmax進行分類。

激活函數(shù)采用激活函數(shù)ReLU(Rectified linear units),實現(xiàn)起來非常簡單,加速了計算的過程;且可以加速收斂,解決了飽和問題,大大地緩解了梯度消散的現(xiàn)象。

數(shù)據(jù)量比較小會導致模型過擬合,為防止模型過擬合,使得訓練誤差很小而測試誤差特別大,我們通過對圖像進行裁剪、翻轉(zhuǎn)變換組合數(shù)據(jù)增強來增加輸入數(shù)據(jù)的量;采用 Deopout[21]進行正則化,即在訓練期間,對全連接的神經(jīng)網(wǎng)絡(luò)進行子采樣。

網(wǎng)絡(luò)會輸出一個場景分類結(jié)果,但本文利用其各場景置信度,作為語義模型的輸入,對分類結(jié)果重新進行評估,整體過程如圖2所示。

圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Examples of the network architecture

圖2 整體分類流程Fig.2 Overview of the whole process

2.2 聯(lián)合模型

本文利用顏色特征與語義信息相結(jié)合進行場景分類,共分兩個階段。整個系統(tǒng)分類過程如圖2所示。首先利用卷積神經(jīng)網(wǎng)絡(luò)提取顏色特征對圖像進行初始分類;然后,利用圖像語義信息,對分類結(jié)果進行修正。

第一階段:初始分類階段。利用卷積神經(jīng)網(wǎng)絡(luò)進行圖像分類,要先將圖像轉(zhuǎn)化為可用的lmdb數(shù)據(jù)格式,因為數(shù)據(jù)有過大的均值可能導致參數(shù)的梯度過大,影響后續(xù)的處理,因此還要數(shù)據(jù)零均值化。零均值化并沒有消除像素之間的相對差異,人們對圖像信息的攝取通常來自于像素之間的相對色差,而不是像素值的高低。計算過程如公式(1)所示。

其中,i,jX 表示第i行j列的像素值,一列共有n個值,即每個像素值為該數(shù)據(jù)值減去該列均值。

這里,我們不直接用網(wǎng)絡(luò)分類結(jié)果,而是取網(wǎng)絡(luò)中間結(jié)果各場景置信度作為第二階段輸入。同時,圖像作為輸入使用經(jīng)典 DPM 算法進行目標檢測得到目標檢測結(jié)果,同樣作為第二階段輸入。

第二階段:修正階段。我們定義場景與目標間的關(guān)系如公式(2)所示。

其中,O代表目標物體,OD代表檢測到的目標集合,S表示場景類別,()Ψ·表示場景類型與目標間的語義上下文特征,根據(jù)二者共存的可能性來定義。

1. for i = 1 to SNum //SNum是場景分類的數(shù)目。2. for i = 1 to ONum //SNum是中目標數(shù)目。3. CalculateCo-occurence();//計算每個目標與場景間同時出現(xiàn)的幾率。4. SumOccurence(); //計算所有目標出現(xiàn)在場景中的幾率作為場景置信度。5. CompareOccurence();//比較每個場景的置信度//返回一個場景分類結(jié)果

上述算法描述了第二階段偽代碼。在完成 2.1所述卷積神經(jīng)網(wǎng)絡(luò)分類獲得初始分類結(jié)果,及目標檢測過程后,利用場景-目標間的語義關(guān)系對場景分類結(jié)果進行修正,得到最終場景分類結(jié)果。

3 實驗

3.1 實驗環(huán)境及數(shù)據(jù)集

實驗使用 caffe深度學習框架,cuda 8.0,在NVIDIA GTX1080 GPU及64G CPU上運行。

為了測試本文方法的效果,我們在RGB數(shù)據(jù)集上做了大量實驗,評估其場景分類效果。實驗中我們采用文獻[22]中數(shù)據(jù)集,含963張圖片,包括臥室、餐廳、客廳三個場景各300多張。其中540張圖片作為訓練樣本,用來訓練網(wǎng)絡(luò)模型,423圖片用作測試,做了大量對比實驗。

3.2 場景分類結(jié)果比較及分析

在實驗過程中,由于數(shù)據(jù)集比較小,在訓練卷積神經(jīng)網(wǎng)絡(luò)時我們采用全數(shù)據(jù)集(Full Batch Learning)的形式,即batch_size在GPU內(nèi)存及計算能力允許的情況下盡可能設(shè)得大,因為 batch的選擇,首先決定的是下降的方向。而選擇全數(shù)據(jù)集,有以下幾點優(yōu)點:首先,由全數(shù)據(jù)集確定的方向能夠更好地代表樣本總體,從而更準確地朝向極值所在的方向,在一定范圍內(nèi),一般來說Batch_Size越大,其確定的下降方向越準,引起訓練震蕩越??;其次,由于不同權(quán)重的梯度值差別巨大,因此選取一個全局的學習率很困難。并且,內(nèi)存利用率提高了,大矩陣乘法的并行化效率提高。跑完一次全數(shù)據(jù)集所需的迭代次數(shù)減少,對于相同數(shù)據(jù)量的處理速度進一步加快。

Full Batch Learning 可以使用Rprop只基于梯度符號并且針對性單獨更新各權(quán)值。但是受到內(nèi)存限制,不能無限制增大,而且對于大的數(shù)據(jù)集也不可行,因為隨著數(shù)據(jù)集的海量增長和內(nèi)存的限制,一次性載入所有數(shù)據(jù)是不可能的。本文設(shè)置不同的batch_size進行實驗,如圖 3所示,(a)(b)(c)分別為batch_size等于16,128,622時,訓練過程中損失值loss與準確率accuracy隨迭代次數(shù)的變化。

由圖3可以看出,隨著batch_size的增大,收斂更快,loss下降更快,準確率提高更快,且準確率更高。其中,(a)在迭代2000次左右達到平穩(wěn),準確率只有74%,而(c)在迭代不到1000次即達到平穩(wěn),準確率可達80%,達到時間以及收斂精度上的最優(yōu)。

我們分別訓練了 softmax,linear SVM和 RBF Kernel SVM作為分類器。作為對比,我們用比較經(jīng)典的算法SPM,SDPM和Object bank進行了實驗。分別利用Alexnet和Place-CNN的網(wǎng)絡(luò)結(jié)構(gòu)進行訓練和測試(兩個網(wǎng)絡(luò)均為迭代 4萬次所得模型),Alexnet和 3DGPs[23]作為評價基準,與我們的實驗對比結(jié)果如表1所示。實驗結(jié)果表明本文方法在場景分類效果上優(yōu)于現(xiàn)有的場景分類算法。比較方法的簡介如下:

Object Bank. 將目標物體作為特征,它計算圖像對不同目標特征的響應值,然后訓練SVM分類器根據(jù)響應值對場景類型進行分類。我們總共考慮 6中典型目標。

SPM. SPM 提取經(jīng)典的圖像場景描述符 SIFT(Scale Invariant Feature Transform)特征,訓練線性SVM作為分類器。

SDPM. 與Object Bank相類似,SDPM使用基于部件的可變形模型(DPM)學習場景的結(jié)構(gòu)特征,并為每類場景訓練LSVM模型。

Alexnet. 作為Place-CNN和我們的網(wǎng)絡(luò)的結(jié)構(gòu)基礎(chǔ),Alexnet作為評價的標準。利用隨機初始化的權(quán)重,直接訓練網(wǎng)絡(luò)的softmax作為分類器。

Place-CNN. 與Alexnet一樣,我們使用隨機初始化權(quán)重的Place-CNN網(wǎng)絡(luò)結(jié)構(gòu)來進行場景分類。

3DGPs. 該方法研究3D幾何模型,用于獲取場景中一些常見的 3D空間配置,如經(jīng)常一起出現(xiàn)的對象以及它們間的位置關(guān)系。通過迭代訓練得到10個3DGP模型訓練線性SVM作為分類器。

由表1可知,在訓練數(shù)據(jù)少的情況下,深度神經(jīng)網(wǎng)絡(luò)的場景分類效果并不是很好,甚至比不上傳統(tǒng)分類方法。Alexnet和Place-CNN都是隨機初始化參數(shù),直接訓練 softmax作為分類器,而后者的分類效果明顯不如前者。因為Place-CNN的網(wǎng)絡(luò)結(jié)構(gòu)更適合進行特征提取,而不是直接用作分類,因此可以利用Place-CNN網(wǎng)絡(luò)結(jié)構(gòu)提取特征,訓練SVM作為分類器,分類效果會更好。而本文方法實驗效果明顯優(yōu)于其他方法,由于利用神經(jīng)網(wǎng)絡(luò)提取顏色特征結(jié)合語義特征,并且SVM適用于少樣本訓練,本文中 SVM 作為分類器比 softmax直接分類效果好,其中以RBF Kernel SVM作為分類器效果最好。

4 結(jié)論

本文利用神經(jīng)網(wǎng)絡(luò)提取顏色特征,結(jié)合目標與場景間的語義信息,在利用較少的樣本訓練模型的基礎(chǔ)上,在場景分類實驗中取得了很好的效果。本文方法既可以減少搜集及標記大量圖像樣本所需的人力、物力、財力,一定程度避免人工標記的錯誤,也可以避免過深的網(wǎng)絡(luò)所需的大量內(nèi)存及計算問題。但仍存在一些問題,需要繼續(xù)研究。首先,需要訓練更多場景模型,才能推廣到更多場景的分類中。并且,可以通過利用場景幾何信息或者提高目標檢測結(jié)果準確度來提高結(jié)果準確性。

圖3 batchsize分別為16,128,622時的loss-iter曲線以及accuracy-iter曲線Fig.3 Loss-iteration curves, accuracy-iteration curves and loss-second curves when batch size is 16, 128, 622

表1 場景分類精確度Tab.1 Scene classification comparison

[1] TORRALBA A, MURPHY K P, FREEMAN W T, et al.Context-based vision system for place and object recognition[C].Computer Vision, Proceedings. Ninth IEEE International Conference on. IEEE, 2003: 273-280.

[2] VAILAYA A, FIGUEIREDO M A T, JAIN A K, et al. Image classification for content-based indexing[J]. Image Processing,IEEE Transactions on, 2001, 10(1): 117-130.

[3] LECUN Y, BOTTOU L, BENGIO Y, and HAFFNER P.Gradient-based learning applied to document recognition.Proceedings of the IEEE, 86(11): 2278–2324, 1998.

[4] KRIZHEVSKY A, SUTSKEVER I, and HINTON G E. Ima-genet classification with deep convolutional neural networks.In In Advances in Neural Information Processing Systems,2012.

[5] SZEGEDY C, Liu W, Jia Y, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V, Rabinovich A. Going deeper with convolutions. In IEEE, pages 1-9, 2015.

[6] SIMONYAN K and ZISSERMAN A. Very deep convolutional networks for large-scale image recognition. Preprint arXiv:1409. 1556, 2014.

[7] HE K, ZHANG X, REN S, SUN J. Deep Residual Learning for Image Recognition, 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), vol. 00, no., pp.770-778, 2016, doi:10.1109/CVPR.2016.90.

[8] LAZEBNIK S, SCHMID C, and PONCE J. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. In CVPR, 2006. 1, 2, 3, 6

[9] ZHOU B, LAPEDRIZA A, XIAO J, TORRALBA A, and OLIVA A. Learning deep features for scene recognition using places database, Advances in Neural Information Processing Systems, pp. 487–495, 2014.

[10] CHANG A X, FUNKHOUSER T, GUIBAS L, HANRAHAN P, HUANG Q, LI Z, SAVARESE S, SAVVA M, SONG S,SU H, XIAO J, YI L, and YU F. Shapenet: An information-rich 3d model repository. In arXiv, 2015. 5

[11] CHOI M J, LIM J J, TORRALBA A, and WILLSKY A S.Exploiting hierarchical context on a large database of object categories. In CVPR, 2010. 2

[12] YAO J, FIDLER S, and URTASUN R. Describing the scene as a whole: Joint object detection, scene classification and semantic segmentation, Computer Vision and Pattern Recognition(CVPR), 2012 IEEE Conference on, pp. 702–709, IEEE,2012.

[13] LIN D, FIDLER S, and URTASUN R. Holistic scene understanding for 3d object detection with rgbd cameras, Computer Vision (ICCV), 2013 IEEE International Conference on, pp.1417–1424, IEEE, 2013.

[14] LUO R, PIAO S, and MIN H. Simultaneous place and object recognition with mobile robot using pose encoded contextual information. Robotics and Automation (ICRA), 2011 IEEE International Conference on, pp. 2792–2797, IEEE, 2011.

[15] ROGERS J G, CHRISTENSEN H, et al. A conditional random field model for place and object classification.Robotics and Automation (ICRA), 2012 IEEE International Conference on, pp. 1766–1772, IEEE, 2012.

[16] LI L J, SU H, XING E P, and LI F F. Object bank: A high-level image representation for scene classification &semantic feature sparsification. In NIPS, December 2010. 2,6, 7

[17] PANDEY M, LAZEBNIK S. Scene recognition and weakly supervised object localization with deformable part-based models. Computer Vision, IEEE International Conference on,vol. 00, no., pp. 1307-1314, 2011, doi:10.1109/ICCV.2011.6126383.

[18] FELZENSZWALB P, GIRSHICK R, ALLESTER D M, and RAMANAN D. Object detection with discriminatively trained part based models. PAMI, 32(9), Sept. 2010. 1, 2, 3, 5,6, 7.

[19] LIAO Y, KODAGODA S, WANG Y, SHI L and LIU Y.Understand Scene Categories by Objects: {A} Semantic Regularized Scene Classifier Using Convolutional Neural Networks .arXiv preprint arXiv: 1509. 06470.

[20] ZHANG Y, BAI M, KOHLI P, IZADI S, XIAO J. DeepContext:Context-Encoding Neural Pathways for 3D Holistic Scene Understanding.In arXiv: 1603. 04922 [cs.CV].

[21] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, SUTSKEVER I and SALAKHUTDINOV R. Dropout: A Simple Way to Prevent Neural Networks from Overfitting. Journal of Machine Learning Research., pp. 1929-1958, 2014.

[22] CHOI W, CHAO Y, PANTOFARU C, SAVARESE S. Understanding indoor scenes using 3D geometric phrases. In CVPR(2013).

[23] CHOI W, et al. Indoor Scene Understanding with Geometric and Semantic Contexts. International Journal of Computer Vision112.2(2015):204-220.

猜你喜歡
分類器語義卷積
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
語言與語義
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
BP-GA光照分類器在車道線識別中的應用
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
“上”與“下”語義的不對稱性及其認知闡釋
認知范疇模糊與語義模糊
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別