郭昊琛 閆帥帥 劉天鶴
摘? 要:基于深度學(xué)習(xí)的場(chǎng)景識(shí)別作為計(jì)算機(jī)視覺(jué)領(lǐng)域的重要方向,目前仍存在部分問(wèn)題,如僅提取圖像的高層語(yǔ)義特征而缺失了圖像的底層特征,針對(duì)這個(gè)問(wèn)題,提出基于改進(jìn)SIFT特征與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合的室內(nèi)RGB-D圖像識(shí)別方法。首先提取圖像的SIFT特征,然后利用隨機(jī)森林算法根據(jù)重要度對(duì)SIFT特征進(jìn)行篩選,然后結(jié)合基于ResNet的深度神經(jīng)網(wǎng)絡(luò),并提出基于深度直方圖與深度均值直方圖的深度損失函數(shù),加速模型的收斂。實(shí)驗(yàn)結(jié)果表明,算法可以在NYUD v2數(shù)據(jù)集上達(dá)到71.52%的識(shí)別率,有效提升了室內(nèi)場(chǎng)景識(shí)別的準(zhǔn)確率。
關(guān)鍵詞:改進(jìn)SIFT特征;深度神經(jīng)網(wǎng)絡(luò);損失函數(shù);深度直方圖
中圖分類(lèi)號(hào):TP183? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
Abstract:As an important direction of computer vision,scene recognition based on deep learning still has some problems,such as only extracting the high-level semantic features and missing the bottom features of an image.To solve this problem,the paper proposes an indoor RGB-D image recognition method based on improved SIFT features and deep learning neural network.Firstly,the SIFT features of images are extracted,the SIFT features are filtered according to the importance degree by means of the Random Forest Algorithm,and then the depth loss function based on the depth histogram and the depth mean histogram is proposed to accelerate the convergence of the model by combining the ResNet-based deep neural network.The experimental results show that the algorithm can achieve 71.52% recognition rate on NYUD V2 data set,and effectively improve the accuracy of indoor scene recognition.
Keywords:improved SIFT features;deep learning neural network;loss function;depth histogram
1? ?引言(Introduction)
隨著“人工智能”熱潮的到來(lái),場(chǎng)景識(shí)別作為其中的關(guān)鍵技術(shù)之一,已經(jīng)成為圖像處理領(lǐng)域的重要研究問(wèn)題,場(chǎng)景識(shí)別技術(shù)的進(jìn)步可以極大地推動(dòng)智能機(jī)器人、圖像檢索、視頻檢索等領(lǐng)域的發(fā)展。Lowe[1]于1999年提出,并于2004年加以完善了尺度不變特征變換(Scale-Invariant Feature Transform,SIFT),該特征是用來(lái)偵測(cè)與描述影像中的局部性特征,它在空間尺度中尋找極值點(diǎn),并提取出其位置、尺度、旋轉(zhuǎn)不變量,對(duì)于旋轉(zhuǎn)、位移、縮放甚至遮擋都具有一定的穩(wěn)定性。Wang等人[2]提出了MR-CNNs(Multi-Resolution CNNs)網(wǎng)絡(luò),使用了多分辨率的設(shè)計(jì),分別提取低分辨率的全局信息和高分辨率的細(xì)節(jié)信息,更加全面的利用圖像信息。
2? 基于傳統(tǒng)特征和深度學(xué)習(xí)的場(chǎng)景識(shí)別(Scene recognition based on traditional features and deep learning)
2.1? ?改進(jìn)SIFT特征算法
由于SIFT特征是從尺度空間檢測(cè)極值點(diǎn),導(dǎo)致SIFT特征具有邊緣效應(yīng),即圖像的邊緣處容易檢測(cè)到極值點(diǎn),但其中一部分極值點(diǎn)是對(duì)分類(lèi)無(wú)效的,去除掉這些無(wú)效的邊緣點(diǎn),分類(lèi)效果就會(huì)提升,但無(wú)差別去除邊緣上的特征點(diǎn)會(huì)丟失部分在邊緣上的有效特征點(diǎn),導(dǎo)致?lián)p失一部分底層信息[3]。
本文使用隨機(jī)森林算法對(duì)SIFT特征進(jìn)行篩選,根據(jù)SIFT特征點(diǎn)與Canny邊緣點(diǎn)的歐式距離,賦予特征權(quán)重,以此來(lái)篩選SIFT特征,在保持底層信息不丟失的情況下,篩去大部分重要度低的SIFT特征,保留重要度高的SIFT特征。具體步驟為:
2.2? ?基于ResNet的深度神經(jīng)網(wǎng)絡(luò)
隨著深度學(xué)習(xí)的不斷發(fā)展,網(wǎng)絡(luò)模型也不斷增多,主要改進(jìn)方向之一就是加深模型層數(shù),基于卷積神經(jīng)網(wǎng)絡(luò)的深度網(wǎng)絡(luò)模型,往往通過(guò)不斷交叉疊加非線性函數(shù)和卷積網(wǎng)絡(luò)層增強(qiáng)整個(gè)網(wǎng)絡(luò)模型的表達(dá)能力,故更深的網(wǎng)絡(luò)通常代表著更佳的性能。但是隨著網(wǎng)絡(luò)深度的快速增加,過(guò)深的網(wǎng)絡(luò)模型不但沒(méi)有提高模型精準(zhǔn)度,反而飽受梯度消失,梯度爆炸等問(wèn)題困擾,導(dǎo)致了更高的訓(xùn)練誤差。針對(duì)上述問(wèn)題,何凱明等人[4]提出了基于殘差網(wǎng)絡(luò)結(jié)構(gòu)的ResNet網(wǎng)絡(luò)模型,該模型與之前提出的分類(lèi)網(wǎng)格相比,在收斂性能、分類(lèi)準(zhǔn)確率和訓(xùn)練速度等方面都有了較大提升,本文主干網(wǎng)絡(luò)采用ResNet 50網(wǎng)絡(luò)。
目前多尺度的圖像金字塔網(wǎng)絡(luò)大多只采用網(wǎng)絡(luò)最后一層的特征,一般高層特征的語(yǔ)義信息比較豐富,但是目標(biāo)位置比較粗略,Lin等人[5]提出了特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN)做預(yù)測(cè)。算法采用一個(gè)自底向上的路線、一個(gè)自頂向下的路線和橫向連接(Lateral Connection)。其中,橫向連接為自底向上的特征圖像經(jīng)過(guò)一個(gè)1×1的卷積與自頂向下的特征圖像經(jīng)過(guò)一個(gè)兩倍上采樣產(chǎn)生的特征圖像進(jìn)行融合,再采用3×3的卷積核對(duì)每個(gè)融合結(jié)果進(jìn)行卷積,目的是消除上采樣的混疊效應(yīng)。
對(duì)于感興趣區(qū)域的獲取,Ren等人[6]提出了Faster-RCNN網(wǎng)絡(luò),采用區(qū)域生成網(wǎng)絡(luò)(Region Proposal Networks,RPN)算法。其本質(zhì)是基于滑窗的無(wú)類(lèi)別檢測(cè)器,對(duì)于每一個(gè)可能的物體都生成九個(gè)滑窗,然后利用非極大值抑制對(duì)這些滑窗進(jìn)行篩選,得到最終的感興趣區(qū)域。
2.3? ?基于深度直方圖的損失函數(shù)
本文在處理深度信息時(shí),采用了深度直方圖特征,將深度信息投影到0—255的坐標(biāo)軸上,根據(jù)每像素的深度值得到深度直方圖,然后再將每類(lèi)場(chǎng)景的深度直方圖求出均值,得到深度均值直方圖。
參考了SVM的合頁(yè)損失后,本文為深度值加上權(quán)重與偏置,希望其可以無(wú)限的接近樣本真實(shí)類(lèi)別的深度均值,然后引進(jìn)一個(gè)松弛變量,使得當(dāng)樣本加權(quán)深度信息值與該樣本真實(shí)類(lèi)別均值深度值之差的二范數(shù)大于時(shí),取損失,否則不計(jì)入損失,用來(lái)懲罰與真實(shí)類(lèi)別的均值深度值相差過(guò)大的樣本,如式(8)所示:
2.4? ?算法模型
本文提出的算法模型如圖1所示,分為對(duì)彩色圖像的處理與對(duì)深度圖像的處理,對(duì)彩色圖像的處理又可以分為改進(jìn)SIFT特征的處理與基于深度神經(jīng)網(wǎng)絡(luò)的處理。
對(duì)彩色圖像進(jìn)行處理時(shí),先提取出圖像的改進(jìn)SIFT特征,然后用隨機(jī)森林算法對(duì)SIFT特征進(jìn)行篩選,篩選出重要度比較高的特征;然后將圖像輸入ResNet+FPN的主干網(wǎng)絡(luò),然后連一個(gè)均值池化層(average pooling)和一個(gè)全連接層,得到特征;再由主干網(wǎng)絡(luò)接一個(gè)區(qū)域生成網(wǎng)絡(luò)和Proposal Layer得到ROI,再接一個(gè)全連接層,得到特征。
對(duì)深度圖像進(jìn)行處理時(shí),首先提取出圖像的深度信息直方圖,然后在計(jì)算出每一類(lèi)的深度均值直方圖,根據(jù)提出的損失函數(shù)進(jìn)行訓(xùn)練,得到最優(yōu)的權(quán)重和偏置。
3? 實(shí)驗(yàn)結(jié)果與分析(Experimental results and analysis)
3.1? ?數(shù)據(jù)集與參數(shù)設(shè)置
實(shí)驗(yàn)采用的是NYUD v2數(shù)據(jù)集,共有27類(lèi)場(chǎng)景、1449張場(chǎng)景圖片,我們對(duì)樣本較多的十一類(lèi)場(chǎng)景進(jìn)行了翻轉(zhuǎn)、放大旋轉(zhuǎn)的數(shù)據(jù)增廣。
實(shí)驗(yàn)平臺(tái)為Windows 10,處理器為Intel(R) Xeon(R) CPU E5-2620 v3 @ 2.40GHz的雙處理器,GPU為NVIDIA GeForce GTX 1080Ti,深度學(xué)習(xí)框架為PyTorch。
3.2? ?評(píng)價(jià)指標(biāo)
場(chǎng)景識(shí)別領(lǐng)域常用的評(píng)價(jià)指標(biāo)有兩種。第一種是準(zhǔn)確率(Accuracy),其定義是對(duì)于給定的測(cè)試數(shù)據(jù)集,正確分類(lèi)的樣本數(shù)與總樣本數(shù)之比,準(zhǔn)確率越高,識(shí)別效果越好。第二種是混淆矩陣(Confusion Matrix),混淆矩陣的每一列代表了預(yù)測(cè)類(lèi)別,每一列的總數(shù)表示預(yù)測(cè)為該類(lèi)別的樣本數(shù)目;每一行代表了數(shù)據(jù)的真實(shí)類(lèi)別,每一行的總數(shù)表示該類(lèi)別的真實(shí)樣本的數(shù)目,它可以具體分析每一類(lèi)的分類(lèi)效果,主對(duì)角線上的數(shù)值越高,識(shí)別效果越好。
3.3? ?實(shí)驗(yàn)結(jié)果分析
數(shù)據(jù)集中個(gè)別場(chǎng)景類(lèi)別樣本較少,我們依照Gupta等人[7]將樣本分為12類(lèi)(數(shù)據(jù)最多的11類(lèi)和others)。實(shí)驗(yàn)設(shè)定學(xué)習(xí)率為0.01,Batch_Size為16,Epochs為50,訓(xùn)練10次取平均值,識(shí)別準(zhǔn)確率如表1所示,可以看出,本文提出的基于改進(jìn)SIFT特征與神經(jīng)網(wǎng)絡(luò)相結(jié)合的算法模型在NYUD v2數(shù)據(jù)集可以達(dá)到71.52%的識(shí)別率。由于others類(lèi)別中包含較多場(chǎng)景,對(duì)分類(lèi)結(jié)果干擾較大,將others類(lèi)別剔除,僅對(duì)樣本最多的11類(lèi)進(jìn)行識(shí)別,結(jié)果表明可將識(shí)別率提升至93.47%
4? ? 結(jié)論(Conclusion)
本文提出了基于改進(jìn)SIFT特征與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合的RGB-D圖像識(shí)別算法,在NYUD v2數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文算法識(shí)別率可以達(dá)到71.5%,在剔除干擾類(lèi)別后,可以提升至93.47%,識(shí)別率得到有效的提升,損失函數(shù)也可以穩(wěn)定快速的收斂。
本文使用了改進(jìn)的SIFT特征,改善了SIFT特征的邊緣特性,又將改進(jìn)的SIFT特征于深度卷積網(wǎng)絡(luò)相結(jié)合,解決了深度神經(jīng)網(wǎng)絡(luò)高層語(yǔ)義特征豐富但底層信息缺失的問(wèn)題,實(shí)驗(yàn)結(jié)果表明算法具有良好的魯棒性。
參考文獻(xiàn)(References)
[1] Lowe D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[2] Wang L,Guo S,Huang W,et al.Knowledge guided disambiguation for large-scale scene classification with multi-resolution CNNs[J].IEEE Transactions on Image Processing,2017,26(4):2055-2068.
[3] 張春林,陳勁杰.基于改進(jìn)SIFT和RANSAC的物體特征提取和匹配的研究[J].軟件工程,2018,21(11):6-9.
[4] He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[C].Proceedings of the IEEE conference on computer vision and pattern recognition,2016:770-778.
[5] Lin T-Y,Dollár P,Girshick R,et al.Feature pyramid networks for object detection[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:2117-2125.
[6] Ren S,He K,Girshick R,et al.Faster r-cnn:Towards real-time object detection with region proposal networks[C].Advances in neural information processing systems,2015:91-99.
[7] Gupta S,Arbelaez P,Malik J.Perceptual organization and recognition of indoor scenes from RGB-D images[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2013:564-571.
[8] Song X,Herranz L,Jiang S.Depth CNNs for RGB-D scene recognition:learning from scratch better than transferring from RGB-CNNs[C].Thirty-First AAAI Conference on Artificial Intelligence,2017.
[9] Herranz-Perdiguero C,Redondo-Cabrera C,López-Sastre R J.In pixels we trust:From Pixel Labeling to Object Localization and Scene Categorization[C].IEEE/RSJ International Conference on Intelligent Robots and Systems,2018:355-361.