柳 暢 ,徐小杰
(1.中國科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所,上海200050;2.上海科技大學(xué)信息學(xué)院,上海201210;3.中國科學(xué)院大學(xué)北京100049)
近年來,深度感知設(shè)備發(fā)展迅速,傳統(tǒng)照相機(jī)和深度感知設(shè)備的結(jié)合廣泛應(yīng)用于各個領(lǐng)域。為獲得同一場景的彩色(RGB)圖片和深度(D)圖片,常用的方法是使用一種同時具備相機(jī)鏡頭和深度傳感器的設(shè)備,比如已經(jīng)廣泛商用的Kinect。RGB-D圖片比傳統(tǒng)的RGB圖片多出的深度信息帶來了更多三維空間的立體感。因此,學(xué)術(shù)界特別是機(jī)器人和計算機(jī)視覺領(lǐng)域,對RGB-D圖片的應(yīng)用研究日益廣泛。網(wǎng)上大量公開的RGB-D數(shù)據(jù)集[1-3]也方便了不具備人力物力條件自己制作數(shù)據(jù)集的學(xué)術(shù)研究者們使用。
深度學(xué)習(xí)[4]作為一種近幾年提出的方法,在高級信息感知方面的成就遠(yuǎn)遠(yuǎn)超越了傳統(tǒng)的機(jī)器學(xué)習(xí)方法。在圖像處理的相關(guān)應(yīng)用中,一個非常重要的網(wǎng)絡(luò)結(jié)構(gòu)是卷積神經(jīng)網(wǎng)絡(luò)(CNNs)。這種網(wǎng)絡(luò)結(jié)構(gòu)可以有效地提取二維圖像中某一點(diǎn)鄰域內(nèi)的信息。因此,對于圖片這種相鄰像素點(diǎn)間具有很強(qiáng)相關(guān)性的數(shù)據(jù),CNNs是非常合適的網(wǎng)絡(luò)結(jié)果。就目前來說,CNNs已經(jīng)在圖像分類[5-8]、分割[9-11],目標(biāo)識別與檢測[12-14]等方向得到了成功的應(yīng)用。
在圖像分類問題上,基于CNNs的方法[5]已經(jīng)超越了傳統(tǒng)的機(jī)器學(xué)習(xí)方法,但是它們往往是以彩色(RGB)圖像作為輸入數(shù)據(jù)。如果增加一維深度(D)信息,是否能再次提高分類準(zhǔn)確率?針對該問題,本文提出了一種將深度信息和彩色信息結(jié)合的方法,探索并發(fā)現(xiàn)了它們的最佳組合方式,最后設(shè)計實(shí)驗(yàn)證明了深度信息能夠?qū)D片分類準(zhǔn)確率提升至少5%。
由華盛頓大學(xué)(University of Washington,UW)維護(hù)的RGB-D物體數(shù)據(jù)集(RGB-D Object Dataset)[1]是目前學(xué)術(shù)研究領(lǐng)域應(yīng)用最為廣泛的數(shù)據(jù)集之一。它包括了51類常見物品,包括水果、蔬菜和各種日用品,每一類包括5到10種顏色形狀不同的個體。整體算來,共有約300種獨(dú)立的個體(instance)。對于每個個體,該數(shù)據(jù)集提供了分別從 30°、45°、60°俯視角下,用Kinect環(huán)拍的視頻。為方便圖像處理領(lǐng)域的研究工作,該數(shù)據(jù)集也提供了由環(huán)拍視頻轉(zhuǎn)換來的圖像數(shù)據(jù):每個個體約600對RGB-D圖片和對圖片中物體的掩碼圖(mask)。
由于該數(shù)據(jù)集包含的圖片總量達(dá)到了207,920對,為減少實(shí)驗(yàn)時間同時得到合理可靠的實(shí)驗(yàn)結(jié)果,我們在每個大類中隨機(jī)抽取687對圖片,組成數(shù)據(jù)子集用來訓(xùn)練。由于每個大類中包括不同外形的個體和拍攝角度,我們從30°和60°俯視角的圖片集中抽取訓(xùn)練集和驗(yàn)證集,從45°俯視角中抽取測試集。以“蘋果”為例,該大類中共包括5種不同外形的個體,那么就需要均勻地從每個個體的兩個俯視角度的圖像集中分別隨機(jī)選擇687/5/2≈69對RGB-D圖。最后,保留35 000對并打亂順序。它們將作為本文實(shí)驗(yàn)的訓(xùn)練集和驗(yàn)證集。在45°俯視角的圖片集中,用同樣的方式選出5 000對圖片作為測試集。本文中所有實(shí)驗(yàn)結(jié)果均為測試集上的實(shí)驗(yàn)結(jié)果。
本文使用的RGB-D數(shù)據(jù)如圖1,2所示,分別是彩色圖像和深度圖像。圖2中的黑色部分表示此處的深度信息缺失。為降低其對于網(wǎng)絡(luò)訓(xùn)練的影響,我們采用NYU Depth V2數(shù)據(jù)集提供的補(bǔ)洞腳本來填補(bǔ)這些缺失的深度數(shù)據(jù)(然后將灰度值縮放到[0,1]),結(jié)果如圖3所示。
圖1 RGB圖
圖2 D圖
圖3 填充D圖
為避免復(fù)雜背景對算法效果的影響,該數(shù)據(jù)集的制作者已經(jīng)嚴(yán)格控制了環(huán)境顏色。在此基礎(chǔ)上,我們使用提供的掩碼圖對目標(biāo)物體摳像,最后我們的訓(xùn)練數(shù)據(jù)如圖4,5所示。
圖4 RGB圖去背景
由于數(shù)字圖像在不同的色彩空間內(nèi)有不同的表達(dá)形式,我們將本屬于RGB色彩空間的數(shù)據(jù)分別轉(zhuǎn)化到HSI、Lab、YUV等空間,或轉(zhuǎn)為灰度圖像(Grayscale)共訓(xùn)練使用。
圖5 D圖去背景
本文的CNNs結(jié)構(gòu)如表1所示。輸入數(shù)據(jù)是36×36×n的圖像,n取1、3、4,分別表示深度圖像、彩色圖像和RGB-D圖像。卷積層#1_1包括48個5×5卷積核,移動步長(stride)為1,池化層#1_2對每個2×2的格子做max-pooling,格子移動步長為2(即格子間互不重疊)。在每個卷積和全連接層后使用線性整流函數(shù)(Rectified Linear Unit,ReLu)作為激活函數(shù)。最后使用Softmax分類器做51分類。
表1 CNNs結(jié)構(gòu)
多個CNNs的連接方法通常是從每個網(wǎng)絡(luò)取出某個激活函數(shù)的輸出,串聯(lián)成一個更長的列向量,送入后面的網(wǎng)絡(luò)層,以此合并成一個樹形網(wǎng)絡(luò)。這種網(wǎng)絡(luò)往往需要較復(fù)雜的調(diào)參技巧才能收斂到較好的結(jié)果。本文將n個Softmax分類器的輸出結(jié)果進(jìn)行疊加,并再次歸一化,得到最終用來分類的概率向量(如圖6)。這種設(shè)計參考了Boosting算法的思想,希望色彩信息和深度信息能夠互相取長補(bǔ)短,以達(dá)到更好的分類效果。
圖6中算子f進(jìn)行逐元素計算,公式如下:
其中,oi表示第i個網(wǎng)絡(luò)輸出的概率向量。權(quán)重λi體現(xiàn)了不同網(wǎng)絡(luò)對最終結(jié)果的影響程度。本文中固定λi=1。
圖6 概率累加示意圖
本文使用MatConvNet作為CNNs網(wǎng)絡(luò)搭建和訓(xùn)練的框架。硬件設(shè)備是配有Intel Core i7 3.60 GHz的CPU和8GB內(nèi)存的計算機(jī)。
CNNs訓(xùn)練時,我們用正態(tài)分布于[0,0.01]的隨機(jī)數(shù)初始化卷積層和全連接層的權(quán)值矩陣W,偏置b統(tǒng)一設(shè)為0。為加快收斂速度,使用批梯度下降法(Batch Gradient Descent)來優(yōu)化網(wǎng)絡(luò)參數(shù),batch大小為200。經(jīng)初步測驗(yàn),對整個訓(xùn)練集反復(fù)使用16次,即16個epoch后,目標(biāo)函數(shù)收斂到較低值,因此我們在前8個epoch中,設(shè)學(xué)習(xí)率為0.01,后8個epoch降至0.001,使得訓(xùn)練損失(loss)能夠平緩地下降。
表2 預(yù)訓(xùn)練準(zhǔn)確率
表2展示了將同一個物體的不同表達(dá)形式作為網(wǎng)絡(luò)輸入,得到的預(yù)測準(zhǔn)確率。其中RGB-D的準(zhǔn)確率遠(yuǎn)高于其他的如入形式,但數(shù)值上也不盡如人意。用HSI、YUV、Lab和Grayscale訓(xùn)練分類網(wǎng)絡(luò)是失敗的。原因在于訓(xùn)練出的網(wǎng)絡(luò)泛化性能較差。在訓(xùn)練集上,它們的loss普遍下降很快最終收斂,但是在驗(yàn)證集和測試集,loss達(dá)到某個值(0.05)左右便不再下降。
概率累加的思想需要選擇分類效果相對較好的弱分類器來實(shí)現(xiàn)由弱到強(qiáng)。下一節(jié)中我們將RGBD、RGB、D 3個網(wǎng)絡(luò)自由組合,找出分類效果最好的一組。
表3 組合準(zhǔn)確率
實(shí)驗(yàn)證明,由RGB-D、RGB和D三者的組合表現(xiàn)最佳,達(dá)到了95.0%的準(zhǔn)確率。RGB和D的組合也達(dá)到了94.6%,非常接近最高值。從本質(zhì)上來看,RGB-D在三者組合中其實(shí)是冗余的,對RGB和D的組合,通過增加epoch和適當(dāng)調(diào)參能夠達(dá)到95%以上的效果。比較RGB+RGB-D和D+RGB-D的組合可以看出,色彩信息在分類任務(wù)中的作用大于深度信息。
表4 與其他算法結(jié)果對比
表4將本文實(shí)驗(yàn)的最佳結(jié)果與目前發(fā)表的兩個成熟算法進(jìn)行比較。本文使用了相對簡單的網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合Boosting的思想,在本文的數(shù)據(jù)集上達(dá)到了比文獻(xiàn)[15-16]更高的準(zhǔn)確率。對于每個大類的分類結(jié)果如圖7,X軸表示正確的標(biāo)簽(label),Y軸表示網(wǎng)絡(luò)預(yù)測的標(biāo)簽,灰色方格表示將標(biāo)簽X預(yù)測為標(biāo)簽Y的概率。整體看來,預(yù)測結(jié)果準(zhǔn)確。
圖7 每一類的分類準(zhǔn)確率
本文針對基于圖像的物體分類問題,借鑒了Boosting算法的思想,提出了將若干CNNs網(wǎng)絡(luò)結(jié)合以實(shí)現(xiàn)更好的分類結(jié)果。本文將圖像[17]的色彩信息和深度信息利用CNNs進(jìn)行結(jié)合,發(fā)現(xiàn)RGB-D、RGB和D三者的組合能夠使分類效果達(dá)到最高值95.0%,比單獨(dú)使用其中任何一種信息提高了至少5%。另外,實(shí)驗(yàn)發(fā)現(xiàn)HSI、YUV、Lab等顏色空間下訓(xùn)練的網(wǎng)絡(luò)泛化性能較差,側(cè)面印證了機(jī)器人[18]及計算機(jī)視覺領(lǐng)域廣泛基于RGB圖像進(jìn)行算法設(shè)計的合理性。