孫遜之 王月海
摘要:針對現(xiàn)有的RGB-D物體識別方法存在特征學(xué)習(xí)不全面導(dǎo)致物體識別準(zhǔn)確率不高的問題,結(jié)合分層匹配追蹤算法(Hierarchical matching pursuit,HMP)和特征級融合提出一種改進的物體識別算法。該算法首先利用稀疏編碼和池化技術(shù)分別從RGB-D圖像(RGB圖像和深度圖像兩種模態(tài))中提取RGB特征和深度特征,然后根據(jù)不同模態(tài)的特征對物體識別率的貢獻進行特征級融合得到多模態(tài)融合特征,最后送入SVM分類器進行分類識別,并調(diào)整融合參數(shù)尋求最優(yōu)識別率。在RGB-D數(shù)據(jù)集上進行分類識別實驗,結(jié)果表明該方法的物體分類識別率能夠達到83.6%,比其他方法提高了1%-2%。
關(guān)鍵詞:分層匹配追蹤;特征級融合;多模態(tài)融合;SVM分類器;識別率
中圖分類號:TP391 文獻標(biāo)識碼:A 文章編號:1009-3044(2018)18-0180-03
RGB-D Object recognition based on Multimodal Fusion
SUN Xun-zhi,WANG Yue-hai
(The Academy of Electronic Information Engineering, North China University of Technology, Beijing 100144, China)
Abstract: For the problem that insufficient feature learning lead to lower accuracy of object recognition for the existing RGB-D object recognition methods, an improved object recognition method base on a combination of hierarchical pursuit pursuit algorithm (HMP) and feature level fusion was proposed. The algorithm firstly combines sparse coding with pooling techniques to extract distinctive RGB feature and depth feature from RGB-D images (two modes of RGB image and depth image ), and then adopt feature level fusion method to obtain multimodal fusion feature according to the contribution of different modal feature to object recognition rate. Finally, send the multimodal fusion feature to SVM classifier for classification recognition, and adjust the fusion parameters for the best recognition rate. The classification recognition experiment on RGB-D dataset shows that the object recognition rate of this method can reach 83.6%, which is 1%-2% higher than other methods.
Key words: HMP;feature level fusion;multimodal fusion;SVM classifier;recognition accuracy
1 引言
物體識別是計算機視覺領(lǐng)域的重要研究課題之一,在家庭服務(wù)機器人、智能監(jiān)控、工業(yè)生產(chǎn)和軍事偵察等領(lǐng)域具有廣泛的應(yīng)用,研究物體識別的準(zhǔn)確率提升問題具有很大的學(xué)術(shù)意義和應(yīng)用價值。
物體識別按照數(shù)據(jù)的來源進行分類,可以分為兩大類:基于二維圖像的物體識別和基于三維信息的物體識別,RGB-D物體識別就屬于基于三維信息的物體識別。微軟研發(fā)的Kinect攝像機,可以同時獲取物體的RGB圖像和深度圖像(RGB-D圖像),彌補了基于二維圖像的識別方法缺少空間位置等信息的不足,對于物體識別的研究具有里程碑的意義。
近年來,研究者們提出了很多基于RGB-D的物體識別算法,如深度核描述子方法[1]、卷積K均值描述子方法[2]、原始HMP算法[3]、HMP算法[4]、卷積遞歸神經(jīng)網(wǎng)絡(luò) (CNN-RNNs)深度學(xué)習(xí)算法[5]和多層卷積神經(jīng)網(wǎng)絡(luò)(CNN)深度學(xué)習(xí)模型[6]等。上述方法中,文獻[1][2][3]方法僅僅使用彩色信息和深度信息,未能充分利用物體的全部特征,存在一定局限。文獻[3]方法能夠充分利用RGB-D信息(RGB、灰度、深度和曲面法線),而且不僅提取底層特征,還提取高層特征,在特征提取方面具有較大優(yōu)勢,但在提取到RGB特征和深度特征后,沒有對這些不同模態(tài)的特征區(qū)別對待,而直接進行級聯(lián)得到最后特征,忽略了不同模態(tài)特征對物體識別的貢獻差異性,存在一定局限。文獻[5][6]方法結(jié)構(gòu)相對復(fù)雜,計算復(fù)雜度高,耗時長。以上方法雖然可以有效提升物體識別準(zhǔn)確率,但仍然存在局限性。
本文針對物體的特征信息利用不全面、得到不同模態(tài)特征后不加區(qū)分而直接級聯(lián)的缺陷,提出了一種基于HMP和特征級融合的RGB-D物體識別改進算法,實驗驗證表明了該算法的有效性。
2算法描述
本文算法的框架圖如圖1所示,主要包括特征提取、特征融合和特征識別三個重要過程。特征提取過程運用HMP算法從RGB圖像和深度圖像中分別提取出RGB特征和深度特征。特征融合過程采用特征級融合方法將RGB特征和深度特征進行融合得到高效的融合特征。分類識別過程運用SVM分類器對融合特征進行訓(xùn)練和識別,得到最終識別率。
2.1 特征提取
特征提取的關(guān)鍵算法是文獻[4]中的兩層HMP算法,該算法能夠充分利用物體的RGB-D信息:先從RGB圖像和深度圖像生成灰度圖像和曲面法線,然后分別提取對應(yīng)的底層特征向量和高層特征向量。HMP算法提取過程簡述如下:
(1)首先輸入圖像,然后采用滑窗對圖像進行采樣得到采樣數(shù)據(jù),再通過KSVD算法[7]得到第一層的特征字典,接著利用OMP算法[8]得到字典特征圖,隨后通過最大值池化得到圖像的池化表示。
(2)對第一層的字典特征圖進行采樣得到采樣數(shù)據(jù),再通過KSVD算法得到第二層的特征字典,接著利用OMP算法得到字典特征圖,隨后通過空間金字塔最大池化得到圖像的最終特征表示。
2.2 特征融合與分類識別
特征融合階段采用了一種特征級加權(quán)融合算法,將經(jīng)過特征提取過程得到的不同模態(tài)的RGB特征和深度特征區(qū)別對待,根據(jù)它們對物體識別的貢獻差異性將RGB特征和深度特征進行加權(quán)融合。該算法首先采用SVM分類器分別對RGB特征和深度特征進行分類實驗,得到每個類別中不同實例物體的RGB特征識別準(zhǔn)確率ARi及其對應(yīng)的深度特征識別準(zhǔn)確率ADi,然后通過比較同一實例物體的ARi和ADi調(diào)整該實例物體在融合特征中的權(quán)重參數(shù)WRi和WDi,控制每個實例物體中各種特征之間的相對重要性。
(1)融合形式
假設(shè)RGB特征向量和深度特征向量分別表示為Rgbfea和 Depthfea,賦予它們的權(quán)重參數(shù)分別為WR和WD。將RGB特征和深度特征融合后得到綜合特征RgbDfea:
[RgbDfea=WR*Rgbfea+WD*Depthfea]
其中,[WR=(wR1,...,wRi,...,wRn)]
[WD=(wD1,...,wDi,...,wDn)]
[Rgbfea=(Rgbfea1,...,Rgbfeai,...,Rgbfean)] (1)
[Depthfea=(Depthfea1,...,Depthfeai,...,Depthfean)]
[1≤i≤n]
n表示實例物體的個數(shù);
Rgbdfeai和Depthfeai分別表示第i個實例物體的彩色特征和深度特征。
wRi和wDi分別表示第i個實例物體的彩色特征和深度特征的權(quán)重參數(shù),代表其對最終識別結(jié)果的貢獻程度。
(2)權(quán)重參數(shù)求解
根據(jù)RGB特征和深度特征對最終識別結(jié)果的貢獻差異性為其權(quán)重參數(shù)wRi和wDi賦予不同的值,貢獻差異性由每個實例物體的識別準(zhǔn)確率來體現(xiàn)。假設(shè)每個實例物體的RGB特征的識別準(zhǔn)確率和深度特征的識別準(zhǔn)確率分別為aRi和aDi([1≤i≤n])。
對于某一個例的物體而言,若基于RGB圖像的識別準(zhǔn)確率aRi高于基于深度圖像的識別準(zhǔn)確率aDi,則說明對于此種物體,RGB特征比深度特征更有區(qū)別力,在特征融合時給予RGB特征對應(yīng)的權(quán)值參數(shù)wRi一個較大的值,給予深度特征對應(yīng)的權(quán)值參數(shù)wDi一個較小的值。同樣,如果某一個例的物體基于深度圖像的識別準(zhǔn)確率aDi高于基于RGB圖像的識別準(zhǔn)確率aRi,說明對于此類物體,深度特征比RGB特征有區(qū)別力,給wDi一個較大的值,給wRi一個較小的值。
由此,引入?yún)?shù)s([s≥0.5]),使識別率較高的特征對應(yīng)的權(quán)重較大。根據(jù)公式(2)調(diào)整權(quán)重參數(shù)WR和WD,尋求最優(yōu)的分類識別結(jié)果。
[wRi=s] [wDi=1-s], [aRi≥aDi] (2)
[wRi=1-s] [wDi=s], [aRi (3)參數(shù)s確定與分類識別 自動調(diào)整參數(shù)s的值,讓s分別為[0.5,0.6,0.7,0.8,0.9,1](以0.1遞增),將融合特征后的綜合特征RgbDfea分別送入SVM分類器進行分類識別,取識別結(jié)果的最大值為次優(yōu)分類識別結(jié)果。在RGB-D數(shù)據(jù)集上進行的20次實驗發(fā)現(xiàn),識別率accuracy隨著參數(shù)s的增加而先增大后減小。 參數(shù)s確定方法如下:假設(shè)[s=s1]時,accuracy的值最大。則accuracy的實際最大值應(yīng)該在區(qū)間[[s1-0.1,s1+0.1]]內(nèi)。自動調(diào)整參數(shù)s,讓s在區(qū)間[[s1-0.1,s1+0.1]]以0.01遞增,將融合特征后的綜合特征RgbDfea再次分別送入SVM分類器進行分類識別,取accuracy的最大值為最終分類識別結(jié)果。實際上,后續(xù)還可以在更小精度(0.001,0.0001,......)的區(qū)間范圍里進行實驗,但是綜合衡量實驗時間代價和識別率,0.01的精度最為合適。 2.3 算法詳細步驟及形式化描述 本文算法的實現(xiàn)過程如圖1所示,其詳細步驟介紹如下: (1)從數(shù)據(jù)庫中獲取RGB圖像和深度圖像,分別生成灰度圖像和曲面法線,分別記為原始數(shù)據(jù)向量[Irgb]、[Igray]、[Idepth]、[Inor]。 (2)將[Irgb]和[Igray]通過HMP算法提取出RGB特征向量Rgbfea。 (3)將Rgbfea作為特征輸入,送入到SVM分類器進行預(yù)分類,得到每個實例物體RGB特征的識別準(zhǔn)確率aRi。 (4)將[Idepth]和[Inor]通過HMP算法提取出深度特征向量Depthfea。 (5)將Depthfea作為特征輸入,送入到SVM分類器進行預(yù)分類,得到每個實例物體深度特征的識別準(zhǔn)確率aDi。 (6)通過特征級融合算法,將RGB特征和深度特征進行有效融合,得到綜合特征RgbDfea。 (7)將融合特征RgbDfea作為輸入向量,送入SVM分類器進行分類識別,并實時調(diào)整融合參數(shù),尋求最優(yōu)的最終識別率。
算法的形式化描述如表1所示:
3 實驗及結(jié)果分析
為了驗證本文所提出的RGB-D物體識別算法的有效性,本文采用數(shù)據(jù)庫RGB-D Object Dataset來進行實驗驗證。
3.1 實驗設(shè)置
本文重點研究物體的分類識別問題,選取RGB-D Object Dataset中水果和蔬菜的14個類別進行實驗。這14個類別的物體一共有72個實例,9952張RGB圖像和相應(yīng)的深度圖像。如圖2所示,為RGB-D Object Dataset中用于實驗的部分物體的RGB圖像和深度圖像。
為了與其他方法的實驗結(jié)果進行對比,本文的實驗設(shè)置與文獻[4 ]相同。每次實驗,將實驗數(shù)據(jù)集隨機地分為訓(xùn)練樣本和測試樣本。劃分規(guī)則為隨機地從每個類別中選擇1個實例物體作為測試樣本,剩下的作為訓(xùn)練樣本。如此重復(fù)實驗10次,取10次實驗結(jié)果的平均值作為最終結(jié)果。
3.2 實驗結(jié)果與分析
實驗中依照2.2節(jié)所述,自動調(diào)整參數(shù)s的值,先讓s分別為0.5,0.6,0.7,0.8,0.9,1(以0.1遞增),后讓s在區(qū)間[[s1-0.1,s1+0.1]]以0.01遞增,可以得到s為不同值時對應(yīng)的識別準(zhǔn)確率accuracy。
當(dāng)[s=0.78]時,[accuracy=83.5%]有最大值,即最優(yōu)識別率。
表2列出了本文方法與先前常規(guī)方法在RGB-D數(shù)據(jù)集上的識別結(jié)果比較。可以看出,本文方法比常規(guī)方法的識別準(zhǔn)確率約高1%~2%,在一定程度上提高了物體分類識別的準(zhǔn)確性,確認了該方法的有效性。
4 結(jié)語
本文針對RGB-D物體識別中特征學(xué)習(xí)不全面導(dǎo)致識別準(zhǔn)確率不高的問題,提出了一種基于HMP和特征級融合的RGB-D物體識別改進方法。該方法能夠充分利用RGB-D物體的多模態(tài)信息,獲取更有表達能力的融合特征。在RGB-D數(shù)據(jù)集上進行實驗,結(jié)果表明該方法的物體分類識別率能夠達到83.6%,較其他方法高1%-2%,能夠在一定程度上提高RGB-D物體的識別準(zhǔn)確率。在以后的研究中,將對文中的特征級融合算法進行優(yōu)化,進一步提高RGB-D物體的識別準(zhǔn)確率。
參考文獻:
[1] Blum M, Springenberg J T, Wulfing J, et al. A learned feature descriptor for object recognition in RGB-D data[C]// IEEE International Conference on Robotics and Automation. IEEE, 2012:1298-1303.
[2] Bo L, Ren X, Fox D. Depth kernel descriptors for object recognition[C]// Ieee/rsj International Conference on Intelligent Robots and Systems. IEEE, 2011:821-826.
[3] Bo L, Ren X, Fox D. Hierarchical matching pursuit for image classification: architecture and fast algorithms[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc. 2011:2115-2123.
[4] Bo L, Ren X, Fox D. Unsupervised Feature Learning for RGB-D Based Object Recognition[M]// Experimental Robotics. Springer International Publishing, 2013:387-402.
[5] Richard Socher, Brody Huval, Bharath Bath, Christopher D Manning, and Andrew Y Ng. Convolutional-recursive deep learning for 3d object classification. In Advances in Neural Information Processing Systems, 2012: 665-673, .
[6] Schwarz M, Schulz H, Behnke S. RGB-D object recognition and pose estimation based on pre-trained convolutional neural network features[C]// IEEE International Conference on Robotics and Automation. IEEE, 2015:1329-1335.
[7] Aharon M, Elad M, Bruckstein A. K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation[J]. IEEE Transactions on Signal Processing, 2006, 54(11):4311-4322.
[8] Rubinstein R, Zibulevsky M, Elad M. Efficient Implementation of the K-SVD Algorithm Using Batch Orthogonal Matching Pursuit[J]. Cs Technion, 2008, 40.
[9] Deng J, Zhang Z, Marchi E, et al. Sparse Autoencoder-Based Feature Transfer Learning for Speech Emotion Recognition[C]// Affective Computing and Intelligent Interaction. IEEE, 2013:511-516.