国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)與雙目立體視覺(jué)的物體管理應(yīng)用

2019-09-30 01:16鄧虛睿賈蒙磊
網(wǎng)絡(luò)空間安全 2019年4期
關(guān)鍵詞:深度學(xué)習(xí)

鄧虛睿 賈蒙磊

摘要:利用搭載雙目攝像機(jī)與GPS設(shè)備,提出了一種基于深度學(xué)習(xí)與雙目立體視覺(jué)的物體管理方案。首先用智能眼睛拍攝照片,并利用GPS獲取智能眼睛所在的位置,然后利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)中的FAST-RCNN對(duì)拍攝照片進(jìn)行物體識(shí)別,獲取照片中的物體,再利用雙目立體視覺(jué)技術(shù)中的SGBM算法,獲取照片中的物體相對(duì)與攝像機(jī)的坐標(biāo)。利用拍攝者的GPS與物體相對(duì)拍攝者的坐標(biāo),就可以獲取物體的坐標(biāo),從而獲取物品的位置,實(shí)現(xiàn)管理物體的功能。

關(guān)鍵詞:深度學(xué)習(xí) FAST-RCNN;雙目立體視覺(jué)技術(shù);SGBM

中圖分類(lèi)號(hào):P315.69????????? 文獻(xiàn)標(biāo)識(shí)碼:B

1 引言

在工業(yè)市場(chǎng),常用RFID技術(shù)解決物體識(shí)別的難題[1]。

RFID是利用非接觸的雙向通信來(lái)達(dá)到識(shí)別效果并交換數(shù)據(jù)的通信技術(shù)[2]。RFID由標(biāo)簽、讀取器、天線組成。標(biāo)簽標(biāo)識(shí)物體,讀取器讀取標(biāo)簽信息,天線負(fù)責(zé)標(biāo)簽與讀取器之間的數(shù)據(jù)轉(zhuǎn)移[3]。然而,在物體管理方面卻需要進(jìn)行給物體嵌入RFID芯片,標(biāo)識(shí)物體的位置信息,利用讀寫(xiě)器對(duì)RFID內(nèi)的信息進(jìn)行查詢與修改。嵌入芯片與修改芯片內(nèi)的信息是一個(gè)十分繁雜的過(guò)程[4],中間產(chǎn)生了大量的人力成本。

信息爆炸時(shí)代如何對(duì)信息進(jìn)行處理已經(jīng)成為了時(shí)代難題。數(shù)據(jù)處理的需求與計(jì)算機(jī)硬件設(shè)備的改善,促進(jìn)了人工智能的發(fā)展。隨著人工智能的發(fā)展,大量的勞動(dòng)力將會(huì)被人工智能取代?,F(xiàn)在,計(jì)算機(jī)圖形學(xué)與深度學(xué)習(xí)正在快速發(fā)展,然而這些技術(shù)在現(xiàn)實(shí)中的應(yīng)用卻十分有限,構(gòu)建使用這些技術(shù)的系統(tǒng)能有效地解決一些難以解決的問(wèn)題。基于RFID技術(shù)的物體管理系統(tǒng),會(huì)產(chǎn)生巨大的人力開(kāi)銷(xiāo)。利用當(dāng)下流行的深度學(xué)習(xí)技術(shù)與雙目立體視覺(jué)技術(shù)能有效地模擬人類(lèi)的視覺(jué),同時(shí)結(jié)合GPS定位技術(shù),會(huì)給物體識(shí)別帶來(lái)全新的解決方案。

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究的新領(lǐng)域。它的動(dòng)機(jī)是建立模擬人腦學(xué)習(xí)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),比如圖像、聲音和文本[5]。本文將使用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)算法(CNN)來(lái)解決物體管理中的物體識(shí)別問(wèn)題。

雙目立體視覺(jué)是計(jì)算機(jī)圖形學(xué)的一個(gè)重要分支。它使用視差的原理利用兩個(gè)相同的成像裝置在不同位置拍攝相同的畫(huà)面,并且通過(guò)計(jì)算點(diǎn)的位置偏差,來(lái)得到物體的三維坐標(biāo)數(shù)據(jù)[6]。本文將采用雙目立體視覺(jué)技術(shù)解決物體管理中的坐標(biāo)問(wèn)題。

利用物體識(shí)別來(lái)獲取照片中的物體信息,再用雙目立體視覺(jué)技術(shù)獲取照片中物體相對(duì)與拍攝位置的坐標(biāo)信息。根據(jù)拍攝位置的GPS信息與相對(duì)拍攝位置的坐標(biāo)信息,即可獲取照片中的物體的坐標(biāo)。

本文將深度學(xué)習(xí)與雙目立體視覺(jué)結(jié)合在一起,建立一個(gè)管理物品的模型,用于管理物體的坐標(biāo)信息。

2 基于卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別

2.1 卷積神經(jīng)網(wǎng)絡(luò)

在物體管理系統(tǒng)中,圖像識(shí)別是個(gè)極其重要的部分,利用圖像識(shí)別,能識(shí)別出攝像頭、拍攝的物體的種類(lèi)。同時(shí),結(jié)合尺度不變特征變換算法,可以區(qū)分出拍攝圖片中的不同的物體。利用這些技術(shù),能實(shí)現(xiàn)對(duì)每個(gè)物體個(gè)體的標(biāo)記。

卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中一個(gè)極具代表性的網(wǎng)絡(luò)結(jié)構(gòu),它的應(yīng)用十分廣泛,尤其是在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了很大的成功。CNN在圖像識(shí)別中相較于其他算法的優(yōu)點(diǎn)在于,避免了對(duì)前期圖像復(fù)雜的預(yù)處理過(guò)程,CNN可以直接利用原始像素,用很少的預(yù)處理識(shí)別出物體的特性。

Krizhevsky等人在2012年提出了經(jīng)典的CNN結(jié)構(gòu)—AlexNet,該網(wǎng)絡(luò)在圖像識(shí)別任務(wù)上有著良好的表現(xiàn)[7]。AlexNet取得成功后,研究人員進(jìn)一步提出了其他的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)ZFNet、VGGNet、GoogleNet和ResNet[8]。至此,卷積神經(jīng)網(wǎng)絡(luò)能很好地處理了物體識(shí)別的問(wèn)題。

由于物體管理對(duì)物體識(shí)別的精確度要求較高,本文選用了卷積神經(jīng)網(wǎng)絡(luò)中物體識(shí)別效果較好的FAST-RCNN來(lái)進(jìn)行圖像識(shí)別。

2.2 FAST-RCNN的設(shè)計(jì)與實(shí)現(xiàn)

(1) FAST-RCNN結(jié)構(gòu)

FAST-RCNN網(wǎng)絡(luò)由卷積層、降采樣層、ROIPooling層、全連接層與損失層組成[9],如圖1所示。

(2) 訓(xùn)練樣本

訓(xùn)練過(guò)程中每個(gè)mini-batch包含2張圖和128個(gè)region proposal(即ROI),其中大約25%的ROI和ground truth的IOU大于0.5,只通過(guò)隨機(jī)水平翻轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng)。

在數(shù)據(jù)集上,選擇了圖片盡可能大的數(shù)據(jù)集,以確保物體識(shí)別的種類(lèi)更廣泛,同時(shí)選擇了ImageNet作為數(shù)據(jù)集。

ImageNet是一個(gè)有超過(guò)1400萬(wàn)個(gè)圖像覆蓋了超過(guò)20,000種類(lèi)的數(shù)據(jù)集,被廣泛地應(yīng)用于深度學(xué)習(xí)圖像領(lǐng)域的研究[10]。

(3) 損失函數(shù)

本文采用多融合損失(融合回歸損失和分類(lèi)損失),分類(lèi)的Loss采用Log Loss(即對(duì)真實(shí)分類(lèi)的概率取負(fù)Log,輸出K+1維),回歸的Loss使用與RCNN一致的SmoothL1Loss。

總的損失函數(shù)如下:

分類(lèi)損失函數(shù)如下:

回歸損失函數(shù)如下:

其中有:

(4) ROIPooling

由于region proposal的尺度不同,同時(shí)需要使提取出來(lái)的特征向量維度相同,于是需要一種特殊的方法來(lái)解決。ROIPooling就是用來(lái)解決這個(gè)問(wèn)題的。思路如下:

將region proposal劃分為H X W大小的網(wǎng)絡(luò);

對(duì)每個(gè)網(wǎng)絡(luò)做MAXPooling可能;

將所有的輸出結(jié)合起來(lái)形成大小為HXW的特征映射。

(5) 全連接層

卷積層計(jì)算一整張的圖片,而全連接層需要對(duì)每個(gè)region proposal作用一次,所以全連接層的計(jì)算量會(huì)非常大,使用奇異值分解(SVD)進(jìn)行數(shù)據(jù)降維,來(lái)簡(jiǎn)化全連接層計(jì)算。

3 基于雙目立體視覺(jué)的坐標(biāo)定位

3.1 雙目立體視覺(jué)

雙目立體視覺(jué)是基于人眼視差原理的計(jì)算機(jī)圖形學(xué)的一個(gè)分支。它把在雙攝像頭上獲取的圖像經(jīng)過(guò)各種處理,以獲得照片中的點(diǎn)相對(duì)于雙目攝像機(jī)的三維幾何信息[11]。

對(duì)于空間物體表面的一點(diǎn),如果從雙目攝像頭同時(shí)觀察P,并能確定在左攝像頭圖像中的點(diǎn)pl與右攝像機(jī)圖像上的點(diǎn)pr是空間同一點(diǎn)p的圖像點(diǎn),在得知左右攝像頭的三維坐標(biāo)后,P的三維坐標(biāo)可以被計(jì)算出來(lái)。雙目立體視覺(jué)系統(tǒng)包括相機(jī)標(biāo)定、立體校正、立體匹配和三維重建四個(gè)過(guò)程。

相機(jī)標(biāo)定利用空間中的點(diǎn)的三維位置和它在圖像中的對(duì)應(yīng)點(diǎn)的相互關(guān)系,建立了相機(jī)成像的幾何模型,從而獲取該雙目攝相機(jī)的幾何模型參數(shù)。

立體矯正能將左右圖像去除畸變,將兩幅圖像極線對(duì)齊,以方便后續(xù)操作。

立體匹配可以找到在不同視點(diǎn)圖像中匹配到的對(duì)應(yīng)點(diǎn),由此獲得視差圖。

在獲取了視差圖后,就可以用三維重建技術(shù)可以確定物體在圖像中的位置信息,同時(shí)能確定物體的種類(lèi),從而得到相片中的物體相對(duì)于相機(jī)的三維坐標(biāo)。

本文使用Semi-Global Block Matching算法進(jìn)行立體匹配過(guò)程。

3.2 Semi-Global Block Matching 算法的實(shí)現(xiàn)

(1) Semi-Global Block Matching介紹

Semi-Global Block Matching是一種被廣泛應(yīng)用于計(jì)算視差的算法。

SGMB通過(guò)選取每個(gè)點(diǎn)的視差,組成一個(gè)視差圖,同時(shí)根據(jù)視差圖,設(shè)置一個(gè)和該圖相關(guān)的能量函數(shù),使能量函數(shù)最小化到收斂,從而求解出每個(gè)像素最優(yōu)的視差[12]。

(2) 能量函數(shù)的設(shè)置

E[D]表示視差圖D的能量函數(shù);p,q代表圖像中的像素;Nq表示q的相鄰像素。

C(p,Dp)指當(dāng)p像素點(diǎn)視差值為Dp時(shí),該像素點(diǎn)的Cost。P1、P2是懲罰系數(shù),相差為1的像素用P1,視差值相差大于1的像素用P2。

I[.]函數(shù)中的參數(shù),如果是真則I[.]值為1;如果為假,則I[.]值為0。

(3) 算法優(yōu)化

使用上述函數(shù)來(lái)查找二維圖像的最優(yōu)解是NP-hard問(wèn)題時(shí),耗時(shí)巨大,所以將問(wèn)題分解成多個(gè)一維問(wèn)題,以減少?gòu)?fù)雜度。與此同時(shí),使用動(dòng)態(tài)規(guī)劃來(lái)解決每個(gè)一維問(wèn)題。一個(gè)像素具有8個(gè)相鄰的元件,因此它可以被分解成8個(gè)一維問(wèn)題。

(4) 算法實(shí)現(xiàn)

每個(gè)像素p的視差只與像素p左邊的像素相關(guān),因此得出了下面的公式:

其中,r為p左邊的相鄰像素,r的方向?yàn)閜的方向;Lr(p,d)表示沿著r的方向,像素p的視差為d時(shí),最小的Cost值。

這個(gè)Cost為下列四種Cost值中的最小值:

1) 左邊像素的視差為d時(shí),Cost的最小值;

2) 左邊像素的視差為d-1時(shí),Cost的最小值與懲罰系數(shù)P1之和;

3) 左邊像素的視差為d+1時(shí),Cost的最小值與懲罰系數(shù)P1之和;

4) 左邊像素的視差為其他時(shí),Cost的最小值與懲罰系數(shù)P2之和。

另外,由于Lr(p, d)是隨像素的右移不停地增長(zhǎng),故像素p的Cost值需要減去前一個(gè)像素不同視差值時(shí)最小的Cost。這能防止Lr(p, d)數(shù)值溢出,讓它維持在一個(gè)較小的數(shù)值。

C(p, d)的計(jì)算很簡(jiǎn)單,由兩個(gè)公式計(jì)算:

定義p移動(dòng)d個(gè)像素之后的像素為q。p和q之間,經(jīng)過(guò)半個(gè)像素插值后,C(p, d)的值為兩個(gè)像素點(diǎn)灰度差值的最小值或兩個(gè)像素RGB差值的最小值。

上面的計(jì)算僅僅表示從左到右的最小Cost值,然而這樣的Cost值不夠全面。因?yàn)橐粋€(gè)像素有8個(gè)鄰域,要從8個(gè)方向分別計(jì)算Cost值。

然后把8個(gè)方向上的Cost值累加,累加值最小的視差值則作為最終視差值。視差圖即為每個(gè)像素都進(jìn)行該操作后的結(jié)果,具體公式表達(dá)如下:

4 實(shí)驗(yàn)結(jié)果分析與討論

4.1 Fast-RCNN的物體識(shí)別結(jié)果和分析

(1)訓(xùn)練結(jié)果

將ImageNet數(shù)據(jù)集訓(xùn)練完成后,將被測(cè)樣品輸入到訓(xùn)練好的FAST-RCNN神經(jīng)網(wǎng)絡(luò)模型中,得到預(yù)測(cè)結(jié)果,具體的結(jié)果如表1所示。

由表1可知,F(xiàn)ast-RCNN模型在識(shí)別物體的效果上,表現(xiàn)得良好。在生活中常見(jiàn)的物品中,識(shí)別率能達(dá)到80%左右的效果。

(2)迭代次數(shù)對(duì)實(shí)驗(yàn)誤差的影響

選用之前介紹的方法計(jì)算Loss,在訓(xùn)練的過(guò)程中調(diào)整迭代次數(shù),防止迭代次數(shù)過(guò)多導(dǎo)致過(guò)擬合與迭代次數(shù)過(guò)少而產(chǎn)生的欠擬合,其中的Loss變化如圖2所示。

可以看出隨著迭代次數(shù)的增加,F(xiàn)AST-RCNN的Loss一直在減小,直到趨于穩(wěn)定。隨著Loss的減少,模型的準(zhǔn)確度也在不斷的提高,當(dāng)?shù)螖?shù)到30000之后,Loss幾乎沒(méi)有明顯變化,說(shuō)明此時(shí)的神經(jīng)網(wǎng)絡(luò)權(quán)值與閾值已經(jīng)穩(wěn)定。接下來(lái)的實(shí)驗(yàn)可以將迭代次數(shù)設(shè)置為30000次,以進(jìn)行后續(xù)的實(shí)驗(yàn)。

(3)mAP性能評(píng)估指標(biāo)

物體識(shí)別模型要想應(yīng)用在實(shí)際環(huán)境中,必須要擁有良好的性能。現(xiàn)在常用均值平均精度(mAP),來(lái)衡量模型的性能,mAP值越高,模型的性能越好[13]。

Mean Average Precision,即平均AP值,是對(duì)多個(gè)驗(yàn)證集個(gè)體求平均AP值。AP值為Average Precision,即對(duì)Precision取平均。

[5]?胡越,羅東陽(yáng),花奎,等.關(guān)于深度學(xué)習(xí)的綜述與討論[J].智能系統(tǒng)學(xué)報(bào),2019,14(1):1-19.

[6]?黃鵬程,江劍宇,楊波.雙目立體視覺(jué)的研究現(xiàn)狀及進(jìn)展[J].光學(xué)儀器,2018,40(4):81-86.

[7]?Gu S, Lu D, Yue Y, et al. A new deep learning method based on AlexNet model and SSD model for tennis ball recognition[C].IEEE International Workshop on Computational Intelligence & Applications. 2017.

[8]?楊真真,匡楠,范露,等.基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類(lèi)算法綜述[J].信號(hào)處理,2018,34(12):1474-1489.

[9]?Girshick R. Fast R-CNN[C].IEEE International Conference on Computer Vision. 2015.

[10]?Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C].International Conference on Neural Information Processing Systems. 2012.

[11]?陳小華,袁衛(wèi).基于雙目立體視覺(jué)的目標(biāo)定位[J].自動(dòng)化技術(shù)與應(yīng)用,2017,36(12):102-105.

[12]?Humenberger M, Engelke T, Kubinger W. A census-based stereo vision algorithm using modified Semi-Global Matching and plane fitting to improve matching quality[C].IEEE Computer Society Conference on Computer Vision & Pattern Recognition-workshops. 2010.

[13]?Yue Y, Finley T, Radlinski F, etal. A support vector method for optimizing average precision[C].International Acm Sigir Conference on Research & Development in Information Retrieval. 2007.

[14]?朱小美,張官進(jìn),朱楠.基于MATLAB的布爾莎模型七參數(shù)解算實(shí)現(xiàn)[J].北京測(cè)繪,2015,(5):61-65.

[15]?Yan T W, Garcia-Molina H. SIFT: a tool for wide-area information dissemination[C].Usenix Technical Conference. 1995.

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠(yuǎn)程開(kāi)放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
基于自動(dòng)智能分類(lèi)器的圖書(shū)館亂架圖書(shū)檢測(cè)
搭建深度學(xué)習(xí)的三級(jí)階梯
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
利津县| 辉南县| 工布江达县| 茶陵县| 吴桥县| 佛教| 泸州市| 新民市| 宜君县| 松原市| 泌阳县| 延边| 深圳市| 昌吉市| 瓦房店市| 阳新县| 黄石市| 元谋县| 尼木县| 华蓥市| 芦山县| 松潘县| 电白县| 金山区| 陵川县| 都安| 芦山县| 招远市| 红桥区| 新龙县| 静乐县| 孟州市| 临西县| 江永县| 桑日县| 平泉县| 沾化县| 鹤峰县| 遂溪县| 贵溪市| 淮安市|