融合RGB-D信息的三維物體識別算法

2020-12-23 04:33凌濱劉曉鋒李云龍

現(xiàn)代電子技術(shù) 2020年23期

凌濱劉曉鋒李云龍

摘 ?要：圖像處理是物體識別的關(guān)鍵環(huán)節(jié)，不同的模態(tài)特征之間具有互補性，同時使用能夠提高目標(biāo)的識別準(zhǔn)確率，但現(xiàn)有研究僅僅是將多模態(tài)特征直接融合或者人工構(gòu)造特征描述子進(jìn)行識別工作，沒有區(qū)別對待不同模態(tài)的不同特征且忽略了特征的內(nèi)部聯(lián)系。為了更客觀地反映物體三維特性，結(jié)合稀疏自編碼網(wǎng)絡(luò)和改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)，提出一種新的深度學(xué)習(xí)模型SAE?RCNN與一種分段訓(xùn)練網(wǎng)絡(luò)的方法，可以提取有辨別力的特征而且避免了網(wǎng)絡(luò)退化的問題，并將特征在全連接層高效融合，通過分類器Softmax得到實驗結(jié)果。實驗數(shù)據(jù)采用Washington RGB?D標(biāo)準(zhǔn)數(shù)據(jù)集。結(jié)果表明，SAE?RCNN算法模型的物體識別率達(dá)到89.7%，較其他算法取得了更好的識別效果。

關(guān)鍵詞：物體識別; 深度學(xué)習(xí)模型; 網(wǎng)絡(luò)訓(xùn)練; 特征提取; 特征融合; 準(zhǔn)確率提升

中圖分類號： TN911.73?34; TP391 ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼： A ? ? ? ? ? ? ? ? ? 文章編號： 1004?373X（2020）23?0024?06

Abstract： Object recognition is a key link of image processing. The complementarily of different modal features can improve the recognition accuracy of objects. However， the existing research only involves the fusion of multimodal features or the construction of feature descriptors， but does not treat the different features discriminatively and ignores the internal relation of the features. In order to reflect the three?dimensional features of objects more objectively， a new deep learning model SAE?RCNN （sparse autoencoder?region with CNN features） and a multi?stage network training method are proposed in combination with the sparse self?coding network and the improved convolutional neural network. The algorithm can extract features with discriminative power while avoiding network degradation and fuse them efficiently in the fully connected layer. The experimental result was obtained with classifier Softmax. The Washington RGB?D standard database is adopted for the experiment data. The results show that the object recognition rate of SAE?RCNN algorithm model reaches 89.7%， which is better than other algorithms.

Keywords： object recognition; deep learning model; network training; feature extraction; feature fusion; precision rate improvement

0 ?引 ?言

圖像識別一直是人工智能的重要領(lǐng)域之一，以往僅僅基于RGB圖像的物體識別容易受到光照強弱、視角變動等外界因素的干擾。隨著Kinect、RealSens、Xtion PRO等三維傳感器的普遍流行，同時獲得高分辨率的RGB圖與深度圖已經(jīng)非常容易。深度圖作為RGB圖的有力補充，豐富了識別過程中可利用的信息。這使得基于RGB?D圖像的目標(biāo)識別技術(shù)受到廣泛關(guān)注。

神經(jīng)網(wǎng)絡(luò)擁有強大的學(xué)習(xí)本領(lǐng)，圖像領(lǐng)域在引入深度學(xué)習(xí)算法后，取得了巨大成功，許多基于RGB?D的物體識別的深度學(xué)習(xí)算法被提出。文獻(xiàn)[1]利用核函數(shù)的基礎(chǔ)特性，提出了Depth Kernel描述子方法。文獻(xiàn)[2]提出了卷積[K]均值描述符自動學(xué)習(xí)有意義的局部特征，將興趣點附近的響應(yīng)繪制成直方圖進(jìn)行判別。文獻(xiàn)[3]提出了分層匹配追蹤算法HMP。首先對特征區(qū)域進(jìn)行稀疏編碼，并將特征向量輸入空間金字塔最大池化SPMP進(jìn)行學(xué)習(xí)。文獻(xiàn)[4]將卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)結(jié)合提出了CNN?RNN算法，RNN利用來自CNN低維數(shù)據(jù)的平移不變性來學(xué)習(xí)高維數(shù)據(jù)特征。文獻(xiàn)[5]提出MS?CRNN算法，從4種不同的模態(tài)提取低層尺度特征，并將其輸入多層遞歸神經(jīng)網(wǎng)絡(luò)RNNs得到高層特征。文獻(xiàn)[6]提出了多層卷積神經(jīng)網(wǎng)絡(luò)CNNs模型。這些算法在三維物體的識別方面均取得了不錯的效果，但忽略了不同模態(tài)之間的聯(lián)系，導(dǎo)致數(shù)據(jù)大量冗余，仍然具有一定的局限性。

RGB特征與深度圖特征的重要性是相對的。當(dāng)目標(biāo)之間輪廓外形相近時，RGB圖特性往往比深度圖特性重要，當(dāng)目標(biāo)之間外形有較大差異時兩種特性的重要性則相反。由于特征描述子提取特征的方式僅僅是將模態(tài)之間的聯(lián)系線性疊加，容易忽略一些細(xì)微但是具有判別力的特征。因此，本文提出了一個基于SAE網(wǎng)絡(luò)改進(jìn)的多模態(tài)網(wǎng)絡(luò)模型SAE?RCNN。整個網(wǎng)絡(luò)采用分層機(jī)制，不僅可以將第一層提取的有代表性的特征在第二層抽象化，并且網(wǎng)絡(luò)可以自發(fā)學(xué)習(xí)特征之間的聯(lián)系，在全連接層進(jìn)行有效融合，降低了數(shù)據(jù)冗余，增強了特征的非線性表達(dá)。由實驗可知，新的網(wǎng)絡(luò)模型取得了更高的識別率，有效地完成了識別工作。

1 ?相關(guān)理論

1.1 ?稀疏自編碼算法

稀疏自編碼（SAE）[7]是非監(jiān)督算法的代表之一，其使用沒有類別標(biāo)記的樣本集進(jìn)行訓(xùn)練，稀疏自編碼網(wǎng)絡(luò)利用反向傳播算法不斷優(yōu)化隱藏層參數(shù)，把輸入樣本映射到隱藏層，期望通過數(shù)據(jù)的重建得到輸出與原輸入近似相等。這樣就可以用隱藏層參數(shù)向量表征輸入數(shù)據(jù)的特征。

SAE網(wǎng)絡(luò)如圖1所示。

圖像的數(shù)據(jù)結(jié)構(gòu)之間彼此關(guān)聯(lián)，同時也存在大量冗余。SAE算法的思想正是利用數(shù)據(jù)間的這一特性，通過在損失函數(shù)中加入稀疏限制參數(shù)[ρ]剔除一部分冗余數(shù)據(jù)。網(wǎng)絡(luò)內(nèi)部表現(xiàn)為隱藏層上部分神經(jīng)元被抑制，從而挑選出有力的數(shù)據(jù)表示點。所以SAE算法可以完成特征的自動選擇，這樣就可以用隱藏層參數(shù)向量表示輸入的特征。假設(shè)網(wǎng)絡(luò)參數(shù)為[w，b]，輸入數(shù)據(jù)向量通過映射函數(shù)式（1）得到隱藏層數(shù)據(jù)。輸出數(shù)據(jù)向量[z]可以由式（2）得到：

1.2 ?SAE算法微調(diào)

本文網(wǎng)絡(luò)模型第一層選擇SAE網(wǎng)絡(luò)。首先對多模態(tài)圖像進(jìn)行簡單預(yù)處理后，利用稀疏自編碼算法從RGB圖和深度圖中提取具有代表性的淺層特征。其次，SAE算法往往采用梯度下降法優(yōu)化損失函數(shù)，本文用Adam算法[9]優(yōu)化損失函數(shù)[Jw，b]。Adam算法收斂速度更快，不容易陷入局部極小值，并且具有更好的學(xué)習(xí)效果，避免了優(yōu)化技術(shù)中存在的學(xué)習(xí)率消失、梯度彌散等問題。

1.3 ?殘差網(wǎng)絡(luò)

殘差網(wǎng)絡(luò)[10]的主體是各個殘差塊，如圖2所示。

殘差塊增加了一個恒等映射[X]，也稱為跳躍結(jié)構(gòu)。通過卷積層運算后得到殘差[F（x）]，殘差網(wǎng)絡(luò)中激活函數(shù)采用ReLu。將[H（x）]假設(shè)為網(wǎng)絡(luò)上堆疊塊的輸出，用[x]表示第一層的輸入。將原始所需要學(xué)的函數(shù)[H（x）]變換成[F（x）+x]。單層網(wǎng)絡(luò)的堆疊輸出為：

殘差塊越多，網(wǎng)絡(luò)學(xué)習(xí)恒等映射的能力越強，性能就越優(yōu)秀。殘差塊中設(shè)計全部為1×1或者3×3的卷積核。小的卷積核可以保證網(wǎng)絡(luò)的精細(xì)度并且減少計算的參數(shù)，為下層網(wǎng)絡(luò)提供更細(xì)微的特征，增強網(wǎng)絡(luò)的非線性表達(dá)能力。殘差學(xué)習(xí)在淺層時以線性疊加的方式進(jìn)行學(xué)習(xí)，到深層后，[F（x）]漸漸趨于零，從而使得殘差塊漸漸變?yōu)楹愕扔成?。同時，由殘差網(wǎng)絡(luò)反向梯度傳播：

可知，殘差梯度要經(jīng)過帶有權(quán)重的層，防止梯度彌散與梯度爆炸，避免網(wǎng)絡(luò)深度的增加影響學(xué)習(xí)結(jié)果的不良后果，糾正了深層卷積網(wǎng)絡(luò)中隨著網(wǎng)絡(luò)深度的加深而呈現(xiàn)的退化問題。

2 ?圖像編碼理論

2.1 ?3D表面法向量

目前對RGB?D圖像的編碼方式有如下幾種：3D表面法向量[11]、HHA[12]、對深度圖著色等方式。但對RGB?D圖像HHA編碼的方式忽略了圖像多通道之間的聯(lián)系;對深度圖進(jìn)行著色處理會導(dǎo)致龐大的計算量，因此同樣具有局限性。所以本文對深度圖用表面法向量編碼進(jìn)行處理。

假設(shè)圖像中每一個像素點坐標(biāo)表示為[P（x，y，z）]，[z=d（x，y）]代表該點的深度數(shù)據(jù)。假設(shè)[T1]和[T2]分別為該像素點對應(yīng)切平面的兩個切向量。那么像素點對應(yīng)的法向量就可以用該點切平面上兩切向量的叉乘表示：[N=T1×T2]。其中，[T1]與[T2]的表達(dá)式如下：

2.2 ?深度圖的預(yù)處理

Kinect采用結(jié)構(gòu)光編碼測量深度，深度圖數(shù)據(jù)有效范圍為0.7～6 m，官方建議準(zhǔn)確度在1.2～3.5 m之內(nèi)的數(shù)據(jù)點較為可靠。所以直接使用原始數(shù)據(jù)會導(dǎo)致計算量和測量誤差變大。因為深度圖中的中心數(shù)據(jù)更值得信賴，所以首先要修補深度圖中的像素缺失點。本文設(shè)計了一個特殊的5×5的加權(quán)核處理得到填充缺失點后的深度圖，加權(quán)核如圖3所示。

填充深度缺失點后，對圖像進(jìn)行3D表面法向量編碼。選用RGB?D數(shù)據(jù)集中常見的三組圖片帽子、茶杯、鍵盤進(jìn)行處理展示。效果圖如圖4所示。

2.3 ?SAE網(wǎng)絡(luò)的訓(xùn)練

本文設(shè)置SAE的隱藏層神經(jīng)元個數(shù)為240，設(shè)置圖像塊大小為148×148，并做簡單歸一化和白化處理。對RGB圖像與深度圖進(jìn)行預(yù)處理后，分別隨機(jī)提取兩組不同圖像集中40 000個9×9的圖像小塊，送入SAE算法中，優(yōu)化損失函數(shù)（見式（3）），完成對應(yīng)各自SAE網(wǎng)絡(luò)的訓(xùn)練。

當(dāng)損失函數(shù)收斂時表示訓(xùn)練完成。然后利用隱藏層參數(shù)矩陣對不同模態(tài)的圖像分別進(jìn)行卷積。由于一幅彩色圖像就是一個三維矩陣，所以對于每一幅圖像卷積完成后可以得到三維矩陣大小為240×140×140。對提取到的特征進(jìn)行最大池化處理，設(shè)置池化窗口大小為2×2，步長為2，池化后可以得到的三維矩陣大小為240×70×70。之后將其送入多層卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)更細(xì)致的特征。

3 ?SAE?RCNN網(wǎng)絡(luò)

3.1 ?算法流程

新的深度學(xué)習(xí)框架SAE?RCNN分為兩層，算法框圖如圖5所示。將RGB圖像與深度圖像轉(zhuǎn)換為數(shù)據(jù)向量后輸入第一層SAE稀疏自編碼網(wǎng)絡(luò)，提取RGB圖像與深度圖的有區(qū)別性的特征。第二層網(wǎng)絡(luò)由三個卷積層、三個殘差塊、網(wǎng)絡(luò)的全連接層與Softmax組成。在對分支網(wǎng)絡(luò)進(jìn)行調(diào)優(yōu)后將RGB特征與深度圖特征進(jìn)行特征融合，之后利用小的卷積核學(xué)習(xí)前層網(wǎng)絡(luò)融合后的特征，再通過分類器進(jìn)行目標(biāo)識別。

算法步驟如下所示：

1）分別對RGB圖像與深度圖像進(jìn)行預(yù)處理，并設(shè)置尺寸大小為[r×r]，記為[IRGB]與[IDepth]，并將深度圖用表面法向量編碼。

2）分別從預(yù)處理后的RGB圖與深度圖中隨機(jī)選取長寬都為[d]的[N]個圖像塊，并且對其進(jìn)行標(biāo)準(zhǔn)化處理。

3）將步驟2）得到的數(shù)萬個圖像塊作為SAE算法的輸入，訓(xùn)練兩個SAE網(wǎng)絡(luò)，得到對應(yīng)的特征參數(shù)矩陣。

4）利用上述得到的SAE模型的參數(shù)矩陣，分別對步驟1）中的圖像進(jìn)行卷積操作，以提取各自圖像對應(yīng)的特征。設(shè)置SAE隱藏層節(jié)點個數(shù)為[K]，則卷積后得到三維矩陣大小均為[s×s×K]，其中，[s=r-d+1]。

5）對卷積后的特征采取最大池化處理，設(shè)置池化目標(biāo)大小為[a×a]，池化步長為[b]，則池化后得到的特征大小為[c×c×K]，其中，[c=s-ab+1]。

6）利用單通道神經(jīng)網(wǎng)絡(luò)分別對RGB圖片和Depth圖片進(jìn)行測試，獲得準(zhǔn)確率分別為[fR]和[fD]，比重為[α]，[β]。

7）設(shè)單通道網(wǎng)絡(luò)輸出RGB與Depth圖最后一層神經(jīng)元分別為[al-1ri]和[al-1di]，[klij]代表卷積核，[Wl]，[bl]表示所在層的權(quán)重與偏置。那么融合層的第[j]層神經(jīng)元可以由式（14）計算：

8）將融合后的特征輸入殘差網(wǎng)絡(luò)，之后對全連接層網(wǎng)絡(luò)進(jìn)行調(diào)優(yōu)，從而完成對整個網(wǎng)絡(luò)模型的訓(xùn)練。

9）從樣本測試集中獲得最終的對象識別精度。

3.2 ?RCNN網(wǎng)絡(luò)的調(diào)優(yōu)訓(xùn)練

神經(jīng)網(wǎng)絡(luò)在較大的數(shù)據(jù)集上會表現(xiàn)出較好的性能，所以本文使用在ImageNet數(shù)據(jù)庫上預(yù)訓(xùn)練[13]得到一個初始的網(wǎng)絡(luò)模型。然后分別在這兩個分支網(wǎng)絡(luò)的基礎(chǔ)上根據(jù)RGB和深度圖數(shù)據(jù)進(jìn)一步調(diào)優(yōu)。調(diào)優(yōu)訓(xùn)練實際上就是在自己的數(shù)據(jù)集上繼續(xù)訓(xùn)練，調(diào)優(yōu)訓(xùn)練是用預(yù)訓(xùn)練的模型文件訓(xùn)練好的參數(shù)初始化，再利用實驗數(shù)據(jù)集很快達(dá)到理想的準(zhǔn)確率，本文在預(yù)訓(xùn)練的基礎(chǔ)上提出一個兩步調(diào)優(yōu)法，即分別對卷積網(wǎng)絡(luò)和特征融合的網(wǎng)絡(luò)進(jìn)行調(diào)優(yōu)。

3.3 ?網(wǎng)絡(luò)模型可行性分析

提高物體識別準(zhǔn)確率的首要任務(wù)是尋找有替代性和區(qū)別性的特征區(qū)域。近些年來的研究大體分為兩方面：一方面從圖像的編碼入手，例如對RGB圖分通道處理、對深度圖編碼、著色[14]、設(shè)計新的特征描述子[15]、處理深度圖點云模態(tài)[16];另一方面，由于深度學(xué)習(xí)在物體識別方面表現(xiàn)出了巨大作用，所以不斷設(shè)計新的網(wǎng)絡(luò)架構(gòu)去挖掘更高層的數(shù)據(jù)信息漸漸成為主流。

本文結(jié)合這兩方面進(jìn)行了創(chuàng)新優(yōu)化。首先對深度圖進(jìn)行表面法向量編碼，通過SAE網(wǎng)絡(luò)實現(xiàn)對原始數(shù)據(jù)降維處理，降低計算復(fù)雜度。本文設(shè)計了一個12層的網(wǎng)絡(luò)架構(gòu)（每個殘差塊為3層），分流卷積網(wǎng)絡(luò)保證了各種模態(tài)處理的獨立性，但網(wǎng)絡(luò)模型中的優(yōu)化權(quán)重賦值融合使得特征緊密結(jié)合。其次，引入殘差網(wǎng)絡(luò)提高了網(wǎng)絡(luò)的預(yù)測性能[17]，使網(wǎng)絡(luò)表現(xiàn)出非常強的魯棒性。相比幾十層甚至上百層的網(wǎng)絡(luò)，本文在保證結(jié)果可靠的基礎(chǔ)上同時兼顧網(wǎng)絡(luò)體系與計算時間適中。在對網(wǎng)絡(luò)的訓(xùn)練方面，采用預(yù)訓(xùn)練的方式可以有效減少訓(xùn)練時間;不同于以前研究者的工作，本文除設(shè)計分支網(wǎng)絡(luò)并優(yōu)化后，又新增對整個網(wǎng)絡(luò)全連接層調(diào)優(yōu)，進(jìn)一步保證了網(wǎng)絡(luò)的性能。

4 ?實驗與結(jié)果分析

4.1 ?實驗數(shù)據(jù)與平臺

常用公開數(shù)據(jù)集有SUN RGB?D、2D/3D數(shù)據(jù)集、Washington RGB?D數(shù)據(jù)集等。Washington RGB?D數(shù)據(jù)集通過Kinect上的一個三維傳感器采集日常生活中的51類物體得到。每一幅圖片的分辨率為640×480，在不同視角下記錄了300多種目標(biāo)41 877幅RGB?D圖像，部分RGB?D數(shù)據(jù)庫常用圖片如圖6所示。

本文算法的實驗平臺為：Python 2.7，OpenCV 3.4.0，CPU i5?3210M，RAM 8 GB，NVIDIA780顯卡。

4.2 ?實驗結(jié)果對比

本文在WashingtonRGB?D數(shù)據(jù)集上采用[K]交叉驗證方法。關(guān)于SAE網(wǎng)絡(luò)與RCNN網(wǎng)絡(luò)的訓(xùn)練方法前文已經(jīng)說明。設(shè)置相同實驗條件，每次用300幅圖像做訓(xùn)練，用30幅圖像做測試，重復(fù)10次統(tǒng)計平均識別準(zhǔn)確率。表2列出了本文算法與之前出現(xiàn)的部分RGB?D物體識別算法的識別準(zhǔn)確率。表2中出現(xiàn)的算法前文已經(jīng)有介紹。

從表2可以看出：SAE?RCNN在基于RGB的二維圖像上與基于RGB?D的三維圖像上均獲得了最高的識別率。在對RGB?D物體的識別上，相比MS?CRNN算法準(zhǔn)確率提升了1.5%;在深度圖的識別率上與MS?CRNN算法水平相當(dāng)。說明新網(wǎng)絡(luò)模型可以提取物體更多豐富的特征。根據(jù)不同特征識別貢獻(xiàn)率進(jìn)行差異化賦值這一策略保證了兩種模態(tài)之間的緊密聯(lián)系。數(shù)據(jù)表明，SAE?RCNN算法取得了更好的識別率，有效地完成了對RGB?D物體的識別。

4.3 ?誤差分析

除了不同算法對實體平均識別率對比外，還利用本文算法測試了10類物體的RGB圖、深度圖、RGB?D圖的識別率，實驗設(shè)置方法與前文相同，結(jié)果如表3所示。從結(jié)果可知，本文算法對實體識別已經(jīng)達(dá)到了很好的效果，但是實驗中發(fā)現(xiàn)仍然存在一些問題。

實驗中本文方法出現(xiàn)誤判的類別如圖7所示。蘋果、橙子;梨、檸檬;燈籠椒、西紅柿。對此類物體識別準(zhǔn)確率不高是因為它們顏色相近，外形輪廓相似，從而導(dǎo)致分類出現(xiàn)偏差。此種情況的本質(zhì)原因在于沒有足夠的數(shù)據(jù)做訓(xùn)練，以至于對它們的區(qū)別力不足。本文方法的局限性也在于并未探究出有效的數(shù)據(jù)增強方法，以至于在數(shù)據(jù)有限的情況下對類間相似的物體區(qū)分力度不足。

5 ?結(jié) ?語

本文提出的SAE?RCNN是在SAE算法上進(jìn)一步擴(kuò)展新的算法模型得到的深度學(xué)習(xí)框架。網(wǎng)絡(luò)采用分層學(xué)習(xí)的形式。由于不同尺度下反映的特征不同，且RGB特性與深度特征有某種潛在的聯(lián)系，網(wǎng)絡(luò)自動學(xué)習(xí)它們之間的聯(lián)系比賦予兩種不同尺度特征不同的權(quán)值進(jìn)行學(xué)習(xí)可以更真實地反映三維物體的特性。優(yōu)化算法的調(diào)整也提高了整個網(wǎng)絡(luò)框架的運行效率與魯棒性，但本文算法同樣暴露了問題，即對類間相似與類內(nèi)相似物體的判準(zhǔn)率不夠高。所以有兩個方向?qū)蔀橄乱徊窖芯康闹攸c：

1）豐富深度圖信息，尋找有效的數(shù)據(jù)增強策略從而提高網(wǎng)絡(luò)的識別能力;

2）構(gòu)建更好的網(wǎng)絡(luò)模型嘗試學(xué)習(xí)視頻流等無監(jiān)督數(shù)據(jù)，提高整個網(wǎng)絡(luò)的學(xué)習(xí)能力。

注：本文通訊作者為劉曉鋒。

參考文獻(xiàn)

[1] BO Liefeng， REN Xiaofeng， FOX D. Depth kernel descriptors for object recognition [C]// 2011 IEEE/RSJ International Conference on Intelligent Robots and Systems. San Francisco， CA， USA： IEEE， 2011： 821?826.

[2] BLUM M， SPRINGENBERG J T， WULFING J， et al. A learned feature descriptor for object recognition in RGB?D data [C]// IEEE International Conference on Robotics and Automation. Washington， DC， USA： IEEE Press， 2012： 1298?1303.

[3] BO Liefeng， REN Xiaofeng， FOX D. Unsupervised feature lear?ning for RGB?D based object recognition [M]// DESAI J P， DUDEK G， KHATIB O， et al. Experimental robotics. Switzerland： Springer International Publishing， 2013： 387?402.

[4] SOCHER R， HUVAL B， BHAT B， et al. Convolutional?recursive deep learning for 3D object classification [EB/OL]. [2013?12?09]. https：//wenku.baidu.com/view/c1334febd15abe23482f4de3.html#.

[5] 駱健，蔣旻，劉星，等.多尺度卷積遞歸神經(jīng)網(wǎng)絡(luò)的RGB?D物體識別[J].計算機(jī)應(yīng)用研究，2017，34（9）：2834?2837.

[6] SONG Lingyun， LIU Jun， QIAN Buyue， et al. A deep multi?modal CNN for multi?instance multi?label image classification [J]. IEEE transactions on image processing， 2018， 27（12）： 6025?6038.

[7] BAI Jing， WU Yan， ZHANG Junming， et al. Subset based deep learning for RGB?D object recognition [J]. Neurocompu?ting， 2015， 165： 280?292.

[8] ZHANG Yan， ZHANG Erhu， CHEN Wanjun. Deep neural network for halftone image classification based on sparse auto?encoder [J]. Engineering applications of artificial intelligence， 2016， 50： 245?255.

[9] KINGMA D P， BA J L. Adam： a method for stochastic optimization [EB/OL]. [2018?12?30]. http：//www.docin.com/p?2163732296.html.

[10] HE Kaiming， ZHANG Xiangyu， REN Shaoqing， et al. Deep residual learning for image recognition [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas， NV， USA： IEEE， 2016： 770?778.

[11] ZHOU Feng，HU Yong， SHEN Xukun. MSANet： multimodal self?augmentation and adversarial network for RGB?D object recognition [J]. The visual computer， 2019， 35（11）： 1583?1594.

[12] SONG Hangke， LIU Zhi， DU Huan， et al. Depth?aware salient object detection and segmentation via multiscale discriminative saliency fusion and bootstrap learning [J]. IEEE transactions on image processing， 2017， 26（9）： 4204?4216.

[13] WANG Anran， LU Jiwen， CAI Jianfei， et al. Large?margin multimodal deep learning for RGB?D object recognition [J]. IEEE transactions on multimedia， 2015， 17（11）： 1887?1898.

[14] EITEL A， SPRINGENBERG J T， SPINELLO L， et al. Multimodal deep learning for robust RGB?D object recognition [C]// IEEE/RSJ International Conference on Intelligent Robots and Systems. Hamburg， Germany： IEEE Press， 2015： 681?687.

[15] ROSTAMI R， BASHIRI F S， ROSTAMI B， et al. A survey on data?driven 3D shape descriptors [J]. Computer graphics forum， 2018， 38（1）： 356?393.

[16] GUPTA S， GIRSHICK R B， ARBELAEZ P， et al. Learning rich features from RGB?D images for object detection and segmentation [EB/OL]. [2015?11?01]. https：//wenku.baidu.com/view/d8e02f65fab069dc51220128.html.

[17] REN Shaoqing， HE Kaiming， GIRSHICK R， et al. Object detection networks on convolutional feature maps [J]. IEEE tran?sactions on pattern analysis & machine intelligence， 2017， 39（7）： 1476?1481.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

融合RGB-D信息的三維物體識別算法