国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于注意力機(jī)制的實(shí)時(shí)性抓取檢測(cè)算法*

2022-01-21 00:32:04李洪芹
傳感器與微系統(tǒng) 2022年1期
關(guān)鍵詞:池化注意力卷積

郝 宸, 田 瑾, 韓 華, 吳 飛, 李洪芹

(上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620)

0 引 言

近年來,深度神經(jīng)網(wǎng)絡(luò)在機(jī)器人抓取檢測(cè)的應(yīng)用研究取得了重大進(jìn)展。美國康奈爾大學(xué)Lenz I等人[1]借鑒深度學(xué)習(xí)在圖像處理中的成功經(jīng)驗(yàn),提出了基于深度學(xué)習(xí)的抓取檢測(cè)方法。與傳統(tǒng)的人工經(jīng)驗(yàn)抽取樣本點(diǎn)特征相比,基于深度學(xué)習(xí)的機(jī)器人抓取檢測(cè)方法可以自動(dòng)學(xué)習(xí)識(shí)別和提取抓取點(diǎn)位姿和抓取角度[2]。目前的研究方向是如何將深度學(xué)習(xí)方法用來學(xué)習(xí)不同物體的姿態(tài)和角度,預(yù)測(cè)出多個(gè)抓取位姿來找到最佳抓取點(diǎn)的位置和抓取角度[3]。

基于深度學(xué)習(xí)的方法,Lenz I等人[1]首先采用滑動(dòng)窗口的方法搜索抓取框用于抓取檢測(cè)中,在Cornell數(shù)據(jù)集上達(dá)到73.9 %的檢測(cè)準(zhǔn)確率,但由于類似隨機(jī)列舉法的搜索方式,使得重復(fù)計(jì)算,因此,模型運(yùn)行緩慢,無法實(shí)時(shí)抓取檢測(cè)。

Redmon J等人[4]摒棄了滑動(dòng)窗口的方法進(jìn)行抓取預(yù)測(cè),使用單階段網(wǎng)絡(luò)應(yīng)用于圖像塊的計(jì)算中,直接預(yù)測(cè)抓取點(diǎn)位姿坐標(biāo),并同一時(shí)間預(yù)測(cè)多個(gè)抓取角度,但這種方法由于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)結(jié)構(gòu)的復(fù)雜性存在模型較大的缺陷。Kumra S等人[5]將整個(gè)圖像輸入到CNN中進(jìn)行抓取預(yù)測(cè),并使用預(yù)訓(xùn)練模型ResNet50提取抓取特征,可以達(dá)到較好的檢測(cè)準(zhǔn)確性,但是由于需要大量模型學(xué)習(xí)的參數(shù),導(dǎo)致網(wǎng)絡(luò)模型與計(jì)算量都很大。

Chu F J等人[6]提出了一種多物體抓取場(chǎng)景模型,首次使用ResNet50對(duì)輸入圖像提取抓取特征,使得物體檢測(cè)中Faster_RCNN、YOLO等可以用于機(jī)器人抓取場(chǎng)景中,模型準(zhǔn)確率達(dá)到96 %,運(yùn)行速度比之前的方法快,由于模型較深導(dǎo)致模型較大。

Morrison D等人[7]提出一種輕量級(jí)抓取模型,抓取姿態(tài)是以像素為單位的圖像,與之前模型相比,速度快,但準(zhǔn)確性不高;Woo S等人[8]提出一個(gè)通用的注意力模塊,在空間和通道上進(jìn)行特征提取,防止細(xì)節(jié)信息的丟失。

綜上所述,目前基于CNN的抓取位姿預(yù)測(cè)方法主要集中在結(jié)合CNN模型,如AlexNet[9],ResNet[10]等提高抓取檢測(cè)準(zhǔn)確性,訓(xùn)練網(wǎng)絡(luò)需要許多參數(shù),難以滿足實(shí)時(shí)性要求[11,12]。受Morrison等人啟發(fā),使用易于訓(xùn)練和快速反應(yīng)的輕量級(jí)網(wǎng)絡(luò)模型處理抓取問題。

為了提高模型的靈敏性和預(yù)測(cè)的準(zhǔn)確性,本文設(shè)計(jì)了一個(gè)輕量級(jí)的網(wǎng)絡(luò)模型,并將一種新注意力機(jī)制即雙注意力模型(double attention model,DAM)與輕量級(jí)網(wǎng)絡(luò)相結(jié)合,提升抓取性能。

1 注意力機(jī)制的實(shí)時(shí)抓取算法

1.1 抓取問題

如圖1所示,圖像g={p,θ,w,q},其中,p為抓取中心的直角坐標(biāo)的位置(x,y,z),θ為抓取繞Z軸的旋轉(zhuǎn)角度,w為抓手,q為抓取的質(zhì)量,代表抓取成功的機(jī)會(huì)。假設(shè)輸入的是RGB圖像,需要計(jì)算抓取g圖像,根據(jù)相機(jī)的固有參數(shù)和手眼校準(zhǔn)后,抓取g計(jì)算,由等式(1)表示

圖1 抓取圖

(1)

式中Mco為對(duì)象像素的變換坐標(biāo)轉(zhuǎn)換為相機(jī)坐標(biāo),MRC為從相機(jī)坐標(biāo)轉(zhuǎn)換為機(jī)器人坐標(biāo)。

1.2 抓取網(wǎng)絡(luò)模型結(jié)構(gòu)

本文的網(wǎng)絡(luò)模型采用編碼與解碼的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行卷積提取特征,如圖2所示。

圖2 抓取網(wǎng)絡(luò)模型結(jié)構(gòu)

編碼層進(jìn)行卷積操作提取特征,解碼層由卷積層和反卷積層構(gòu)成進(jìn)行特征恢復(fù),網(wǎng)絡(luò)模型中使用兩次注意力機(jī)制,改善網(wǎng)絡(luò)性能。主要過程是通過正向卷積層提取圖像網(wǎng)絡(luò),捕獲足夠大的感知領(lǐng)域,并整合注意力機(jī)制去抑制反卷積層中相應(yīng)的無關(guān)背景區(qū)域?qū)?,擴(kuò)大了顯著性和改善網(wǎng)絡(luò)的性能。

1.3 DAM

為了提升模型性能,本文設(shè)計(jì)了一種輕量級(jí)的網(wǎng)絡(luò)模型并將DAM融合到網(wǎng)絡(luò)模型中,在防止細(xì)節(jié)信息的丟失的同時(shí)提升特征表示能力。在特征提取時(shí),分別沿著空間與通道維度對(duì)輸入的特征圖G進(jìn)行注意力權(quán)重分配得到新特征Gc,Gs進(jìn)行特征融合之后輸出新特征G′。

如圖3所示,在上部分是通道注意力(channel attention)模塊,將輸入特征圖,首先基于寬度和高度全局最大池化和平均池化得到兩個(gè)通道結(jié)果,并將這兩個(gè)通道結(jié)果拼接在一起,在經(jīng)過卷積層之后,使用Sigmoid激活函數(shù)得到權(quán)重系數(shù)Fc與特征圖G做乘法,得到縮放后的新特征Gc。公式如下

圖3 DAM結(jié)構(gòu)

Fc(G)=σ(φ(Avgpool(G)+Maxpool(G)))

(2)

Gc=Fc(G)G

(3)

式中σ為Sigmoid激活函數(shù),φ為卷積層,Avgpool為平均池化,Maxpool為最大池化。

在下部分是空間注意力模塊,將輸入特征圖G(feature G),首先經(jīng)過一個(gè)通道維度的全局最大池化和平均池化得到兩個(gè)通道結(jié)果,在經(jīng)過一個(gè)卷積層后,使用Sigmoid激活函數(shù)得到權(quán)重系數(shù)Fs與特征圖G做乘法,得到縮放后的新特征Gs。上部分與下部分進(jìn)行加和操作。公式如下

Fs(G)=σ(φ(Avgpool(Maxpool(G))))

(4)

Gs=Fs(G)G

(5)

式中σ為Sigmoid激活函數(shù),φ為卷積層,Avgpool為平均池化,Maxpool為最大池化。

最后,將兩個(gè)維度縮放后的新特征進(jìn)行特征融合得到新特征G′,公式如下

G′=Gs+Gc

(6)

2 實(shí)驗(yàn)與評(píng)估

本文選用的是Cornell數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),該數(shù)據(jù)集有885張圖片,其中244種不同種類物體,每種物體都有不同的位置和姿態(tài)的圖片。數(shù)據(jù)集對(duì)每張圖片標(biāo)記目標(biāo)物體的抓取位置,共標(biāo)記5 110個(gè)抓取矩形框和2 909個(gè)不可用與抓取的矩形框,每張圖像都標(biāo)有多個(gè)抓取狂,適合本文逐像素的抓取表示。

2.1 數(shù)據(jù)處理

Cornell數(shù)據(jù)集有多個(gè)種類物體,但數(shù)據(jù)量較小,為了評(píng)估完整的抓取圖,將一個(gè)圖像代表一種抓取,并使用隨機(jī)裁剪、縮放和旋轉(zhuǎn)的方法來處理數(shù)據(jù)集去生成關(guān)聯(lián)的抓取圖,使得每個(gè)RGB圖像對(duì)應(yīng)三個(gè)抓取特征圖:質(zhì)量圖、寬度圖、角度圖。

1)質(zhì)量圖:抓取質(zhì)量q設(shè)置為0~1,對(duì)的抓取表示為1和其他像素值為0,在每個(gè)像素中,計(jì)算每個(gè)像素的抓取質(zhì)量。質(zhì)量越高,抓取成功率越高。

3)角度圖:每個(gè)抓取矩形的角度范圍[-π/2,π/2],繞Z軸真實(shí)抓取角度是[-π/2,π/2],模型預(yù)測(cè)出圖像旋轉(zhuǎn)坐標(biāo)的抓取角度,則可以計(jì)算出旋轉(zhuǎn)角度θ。

2.2 評(píng)估指標(biāo)

先前工作有兩種常用的評(píng)價(jià)方法評(píng)估網(wǎng)絡(luò)模型對(duì)Cornell數(shù)據(jù)集的抓取檢測(cè)效果:點(diǎn)度量[13]和矩形度量[14]。點(diǎn)度量是計(jì)算到中心的距離預(yù)測(cè)到每個(gè)基本事實(shí)的中心抓取,若距離小于某個(gè)閾值,則被認(rèn)為成功抓取。而點(diǎn)度量沒有考慮到角度,因此本文使用矩形度量指標(biāo),當(dāng)預(yù)測(cè)的矩形框滿足以下兩個(gè)條件時(shí),則該抓取框可用于抓取物體:

1)抓取角度與標(biāo)注框的抓取角度在30°以內(nèi);

2)預(yù)測(cè)的抓取和Jaccard系數(shù)大于25 %,公式如下

(7)

2.3 模型訓(xùn)練

本文模型方法不使用預(yù)訓(xùn)練模型,在該模型上學(xué)習(xí)的參數(shù)很少,增加了模型的靈敏性。本文實(shí)驗(yàn)是在11 GB內(nèi)存的NVIDIA GTX2080Ti上運(yùn)行,數(shù)據(jù)集分為兩部分,訓(xùn)練集是90 %,交叉驗(yàn)證集是10 %。Batch size設(shè)置為8,epoch設(shè)置為30,使用Adam_GC方法[15],學(xué)習(xí)率設(shè)置為0.001來優(yōu)化模型。

為了取得良好效果,模型融合了注意力機(jī)制,最終生成質(zhì)量圖、寬度圖、角度圖,根據(jù)這三個(gè)圖計(jì)算出抓取框圖(如圖4所示)。經(jīng)過融合注意力機(jī)制的模型輸出的特征圖細(xì)節(jié)信息更為清晰,生成的抓取框圖準(zhǔn)確性高。

圖4 模型訓(xùn)練結(jié)果抓取

如圖5所示,為了說明模型融合注意力機(jī)制的效果,本次實(shí)驗(yàn)在數(shù)據(jù)集上進(jìn)行有無注意力機(jī)制模型的比較,在訓(xùn)練損失方面,本文使用注意力機(jī)制的模型方法下降更快,沒有注意力機(jī)制模型容易過擬合。在IoU上,注意力機(jī)制模型的IoU都高于0.6,融合注意力機(jī)制大大提高了模型的精確度。

圖5 不同方法訓(xùn)練結(jié)果對(duì)比

圖5訓(xùn)練結(jié)果中,灰色線表示模型沒有融合注意力機(jī)制,黑色線表示模型融合注意力機(jī)制。

2.4 實(shí)驗(yàn)結(jié)果與分析

2.4.1 注意力模塊性能分析實(shí)驗(yàn)

本文的Baseline是基于FCN[16]的網(wǎng)絡(luò)模型,其中:L1表示空洞卷積,L2表示DAM。對(duì)比結(jié)果如表1所示,在Conrnell數(shù)據(jù)集上,可以看出同時(shí)使用空洞卷積與DAM的效果最佳。

表1 不同方法在Conrnell數(shù)據(jù)集上的準(zhǔn)確率

2.4.2 與其他算法的不同閾值的性能對(duì)比實(shí)驗(yàn)

由于Jaccard閾值對(duì)準(zhǔn)確率有影響,本文模型方法與其他閾值進(jìn)行比較,結(jié)果如表2所示,可以看出隨著閾值的提高,準(zhǔn)確率是下降趨勢(shì)。相比于Morrison的模型,即使在閾值為0.45時(shí),也能達(dá)到82.3 %。

表2 不同方法和閾值不同在Cornell數(shù)據(jù)集上的準(zhǔn)確率

2.4.3 與其他算法的性能對(duì)比

針對(duì)工業(yè)環(huán)境的實(shí)時(shí)要求,不僅需要較高的準(zhǔn)確性而且需要較快的響應(yīng)時(shí)間,結(jié)果如表3所示。在Cornell Gras-ping數(shù)據(jù)集上,閾值為0.25時(shí),與其他模型相比,本文模型的準(zhǔn)確率達(dá)到97.7 %,響應(yīng)速度的每秒處理幀數(shù)(fps)達(dá)到46.43。

表3 不同方法與本文方法在Cornell數(shù)據(jù)集中的結(jié)果

3 結(jié)束語

針對(duì)在工業(yè)環(huán)境中,機(jī)器人實(shí)時(shí)性抓取目標(biāo)物體[17],本文提出了一種基于輕量級(jí)神經(jīng)網(wǎng)絡(luò),進(jìn)行逐像素預(yù)測(cè)物體的抓取點(diǎn)位置及抓取角度。在抓取檢測(cè)中,將DAM與輕量級(jí)網(wǎng)絡(luò)相結(jié)合,防止細(xì)節(jié)信息的丟失和提升特征表示能力;在訓(xùn)練損失上是下降更快以及不容易過擬合。在Cornell數(shù)據(jù)集上實(shí)驗(yàn)證明:相比于使用AlexNet和ResNet的網(wǎng)絡(luò)模型,本文網(wǎng)絡(luò)結(jié)構(gòu)更加簡單,檢測(cè)算法的實(shí)時(shí)性更好的同時(shí),保持較高的檢測(cè)準(zhǔn)確率。在接下來的研究方向是如何使用小樣本學(xué)習(xí)與強(qiáng)化學(xué)習(xí)做抓取檢測(cè)。

猜你喜歡
池化注意力卷積
基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識(shí)別方法研究
無線電工程(2024年8期)2024-09-16 00:00:00
基于Sobel算子的池化算法設(shè)計(jì)
讓注意力“飛”回來
卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識(shí)別研究
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
A Beautiful Way Of Looking At Things
浑源县| 静乐县| 正镶白旗| 屏山县| 怀仁县| 乌拉特前旗| 兰考县| 华容县| 平塘县| 清丰县| 财经| 仪陇县| 虞城县| 东兰县| 闻喜县| 乾安县| 武定县| 徐汇区| 台州市| 定安县| 长寿区| 水富县| 微山县| 南开区| 麟游县| 纳雍县| 马关县| 乾安县| 平昌县| 南丰县| 阿克陶县| 阜南县| 江都市| 合水县| 晴隆县| 武山县| 双桥区| 堆龙德庆县| 房山区| 平定县| 永宁县|