国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于關(guān)鍵點(diǎn)估計(jì)的抓取檢測算法

2022-03-02 08:32:14關(guān)立文孫鑫磊
關(guān)鍵詞:中心點(diǎn)關(guān)鍵點(diǎn)損失

關(guān)立文,孫鑫磊,楊 佩

1.清華大學(xué) 機(jī)械工程系,北京100084

2.電子科技大學(xué) 機(jī)械與電氣工程學(xué)院,成都611731

雖然抓取物體對(duì)于人類而言非常簡單,但是對(duì)于機(jī)器人而言,可靠地抓取任意物體仍然是非常具有難度的。解決這個(gè)問題可以促進(jìn)機(jī)器人在工業(yè)領(lǐng)域的應(yīng)用,如零件組裝、分揀、裝箱等,同時(shí)也能夠推進(jìn)服務(wù)機(jī)器人的發(fā)展,通過增強(qiáng)機(jī)器人與周圍環(huán)境的交互,滿足人類的需求。機(jī)器人抓取涉及到物體感知、路徑規(guī)劃以及控制。得到要抓取的對(duì)象的位置以及對(duì)應(yīng)的抓取姿態(tài)對(duì)于一個(gè)成功的抓取是非常重要的。物體的幾何外形是決定抓取位置的主要因素,可以通過引入機(jī)器視覺來增加抓取檢測網(wǎng)絡(luò)的泛化能力。描述一個(gè)抓取的參數(shù)主要有三個(gè),分別是抓取點(diǎn)的坐標(biāo)、抓取手爪張開的寬度以及抓取的旋轉(zhuǎn)角度。

抓取檢測算法的研究在20 世紀(jì)80 年代就開始了,但早期的研究主要是針對(duì)抓取點(diǎn)的檢測,無法提供一個(gè)準(zhǔn)確的抓取描述。直到2011 年Jiang 等[1]提出了一種抓取矩形框的表示方法,如圖1(a)所示,抓取矩形框由一個(gè)五維向量g=(x,y,w,h,θ)來表示,其中(x,y)表示抓取點(diǎn)在圖像中的坐標(biāo),h表示平行爪夾持器張開的寬度,w表示手爪的寬度,θ表示抓取角度。用這樣的方法表示抓取,那么抓取檢測就可以將一個(gè)在空間中尋找抓取姿態(tài)與抓取點(diǎn)的問題,轉(zhuǎn)換成在一個(gè)包含待抓取目標(biāo)的圖像中檢測抓取矩形框的問題。針對(duì)這一問題,使用深度學(xué)習(xí)在圖像上學(xué)習(xí)特征的方法在抓取檢測中獲得了很好的效果。

Lenz等[2]率先采用深度學(xué)習(xí)方法提取特征,使用基于滑動(dòng)窗口檢測的框架同時(shí)使用支持向量機(jī)(support vector machine,SVM)作為分類器,預(yù)測輸入圖像中是否存在合適的抓取位置,這種方法在康奈爾抓取數(shù)據(jù)集[3]上達(dá)到了73.9%的準(zhǔn)確率。但是由于采用滑動(dòng)窗口的方法導(dǎo)致在遍歷可能存在抓取時(shí)消耗大量時(shí)間。

Redmon等[4]拋棄了滑動(dòng)窗口機(jī)制,將整幅圖像劃分成N×N個(gè)單元網(wǎng)絡(luò),使用AlexNet 網(wǎng)絡(luò)[5]直接在每個(gè)單元格中回歸抓取框的參數(shù)以及可行抓取的概率,取其中概率最高的作為預(yù)測結(jié)果。這種方法在相同的數(shù)據(jù)集中達(dá)到了88.0%的準(zhǔn)確率。

Guo 等[6]將參考矩形框引入到抓取檢測當(dāng)中,這是一種無向錨框,如圖1(b)所示,這些參考矩形是圖像在每個(gè)特定大小的區(qū)域中生成的具有相同面積、不同長寬比的矩形框。在他的研究中,并沒有直接通過深度學(xué)習(xí)的方法檢測抓取方向,而是通過一種融合視覺感知與觸覺感知的模型預(yù)測可抓取性、抓取手爪的張開寬度以及抓取的方向。

Chu等[7]利用深度學(xué)習(xí)的方法來檢測抓取框的位置以及抓取方向,他們使用了與Guo文章中相同的參考矩形框,用來回歸抓取矩形框,同時(shí)將抓取角度看作抓取的語義信息,將角度按照不同的區(qū)間分成不同的類。網(wǎng)絡(luò)檢測時(shí)對(duì)回歸的抓取矩形框旋轉(zhuǎn)預(yù)測得到的角度類別所對(duì)應(yīng)的角度,如圖1(c),得到一個(gè)有向抓取矩形框的檢測結(jié)果。

圖1 基于錨框的抓取表示Fig.1 Anchor-based grasping representation

以上幾個(gè)研究都是基于錨框的抓取檢測算法?;阱^框的檢測算法檢測速度較慢,同時(shí)錨框的設(shè)計(jì)也影響著網(wǎng)絡(luò)的性能。另外在Guo 與Chu 的研究中對(duì)水平抓取框與抓取角度分別進(jìn)行檢測,忽略了抓取角度是抓取框的幾何屬性而非語義屬性的事實(shí),這樣做會(huì)導(dǎo)致抓取檢測的準(zhǔn)確度下降。因此本文提出了一種更加簡單高效的方法,如圖2 所示,用抓取框的中心點(diǎn)來表示一個(gè)抓取,同時(shí)在中心點(diǎn)處直接預(yù)測抓取檢測框的尺寸和角度。這里抓取檢測問題被簡化成了一個(gè)關(guān)鍵點(diǎn)檢測問題,本文將圖片輸入到一個(gè)全卷積網(wǎng)絡(luò)中得到一張抓取熱力圖,在抓取熱力圖中的局部峰值就對(duì)應(yīng)抓取檢測框中心點(diǎn)的位置。同時(shí)在特征圖上中心點(diǎn)對(duì)應(yīng)的位置會(huì)預(yù)測抓取框的尺寸和角度。該模型在康奈爾抓取數(shù)據(jù)集上使用GTX1080TI顯卡運(yùn)行,達(dá)到了97.6%的準(zhǔn)確率,并且達(dá)到了42 frame/s的檢測速度,滿足檢測實(shí)時(shí)性的要求。本文主要做了以下工作:

圖2 基于關(guān)鍵點(diǎn)的抓取框表示Fig.2 Key-point-based grasping representation

(1)設(shè)計(jì)了一種特征融合方法B-FPN,可以通過權(quán)重融合不同階段的特征圖,減少特征的丟失。

(2)設(shè)計(jì)了一個(gè)基于關(guān)鍵點(diǎn)估計(jì)的抓取檢測網(wǎng)絡(luò),直接在特征圖上預(yù)測抓取中心點(diǎn)位置以及抓取尺寸與抓取角度。

(3)使用了一種新的損失函數(shù),能夠在不增加模型復(fù)雜度的情況下避免由于正負(fù)樣本不均衡帶來的預(yù)測準(zhǔn)確度下降。

1 方法介紹

1.1 目標(biāo)檢測的類別與特點(diǎn)

目標(biāo)檢測算法主要可以分為單階段與兩階段兩種類型,目前主流的兩階段目標(biāo)檢測算法以R-CNN(region-based convolutional neural networks)系列為主,比較成功的有Faster R-CNN[8]、Mask R-CNN[9]等。兩階段的目標(biāo)檢測算法首先通過一次粗回歸得到ROI(region of interest)作為候選框樣本輸入到卷積神經(jīng)網(wǎng)絡(luò)中,通過精回歸得到對(duì)應(yīng)的目標(biāo)檢測框。R-CNN 系列算法雖然在性能上有比較大的提升,但是由于其在訓(xùn)練網(wǎng)絡(luò)時(shí)的正負(fù)樣本由傳統(tǒng)算法生成,這限制了算法的檢測速度。

以R-CNN算法為代表的兩階段檢測算法由于RPN結(jié)構(gòu)的存在,雖然檢測的精度越來越高,但是檢測速度卻很難達(dá)到實(shí)時(shí)檢測的需求。因此,研究人員提出了基于回歸的單階段目標(biāo)檢測算法。以YOLO(you only look once)系列為例,YOLO算法經(jīng)歷了從早期的YOLO[10]到Y(jié)OLOv2[11]再到后來的YOLOv3[12],算法的準(zhǔn)確率不斷提高。在YOLOv3中也引入了anchor機(jī)制,并采用特征金字塔結(jié)構(gòu)增強(qiáng)網(wǎng)絡(luò)對(duì)多尺度目標(biāo)的檢測能力。

1.2 CenterNet目標(biāo)檢測

CenterNet[13]目標(biāo)檢測算法不同于R-CNN、YOLOv3[12]、SSD[14]等基于錨框的檢測算法,它利用關(guān)鍵點(diǎn)估計(jì)的思想,通過檢測目標(biāo)框的中心點(diǎn),然后回歸檢測框的其他屬性,比如尺寸、姿態(tài)等,如圖3所示邊界框的尺寸與其他對(duì)象屬性是從中心的關(guān)鍵點(diǎn)特征判斷出來的,中心點(diǎn)以彩色顯示。相比基于錨框的檢測算法,CenterNet 的模型是端到端的,因此它更加簡單、更加準(zhǔn)確,檢測速度也更快,其與不同算法的比較如圖4所示。

圖3 利用邊界框的中心點(diǎn)建模Fig.3 Modelling object as center point of bounding box

圖4 不同檢測方法在COCO數(shù)據(jù)集上的速度-精度曲線圖Fig.4 Speed-accuracy trade-off on COCO validation for different detectors

CenterNet 以目標(biāo)的中心點(diǎn)來表示目標(biāo)的位置,然后在特征圖上中心點(diǎn)的位置回歸出目標(biāo)的其他屬性,這樣一來就將目標(biāo)檢測問題轉(zhuǎn)換成一個(gè)關(guān)鍵點(diǎn)估計(jì)的問題。將圖像傳入到一個(gè)全卷積網(wǎng)絡(luò)中,網(wǎng)絡(luò)會(huì)輸出一個(gè)熱力圖,熱力圖中峰值點(diǎn)的位置就是圖像中目標(biāo)的中心點(diǎn)位置,同時(shí)特征圖上每一個(gè)峰值點(diǎn)的位置都會(huì)預(yù)測目標(biāo)的尺寸信息。整個(gè)網(wǎng)絡(luò)采用監(jiān)督學(xué)習(xí)的方式來訓(xùn)練,并且不需要對(duì)檢測結(jié)果進(jìn)行附加的后處理操作。

2 算法原理

本文算法的整體框架如圖5所示,本章主要從網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)以及訓(xùn)練策略三方面對(duì)基于關(guān)鍵點(diǎn)估計(jì)的抓取檢測算法進(jìn)行介紹。

圖5 基于關(guān)鍵點(diǎn)估計(jì)的抓取檢測算法框架Fig.5 Grasping detection algorithm based on key point estimation

2.1 網(wǎng)絡(luò)結(jié)構(gòu)

在CenterNet論文中采用Resnet101[15]作為特征提取網(wǎng)絡(luò),在上采樣階段,先用3×3 的深度可分離卷積改變圖像的通道數(shù),然后使用轉(zhuǎn)置卷積進(jìn)行上采樣。最后得到相當(dāng)于輸入圖像4倍下采樣大小的特征圖,相比于傳統(tǒng)目標(biāo)檢測算法使用16 倍下采樣作為特征圖,較大的特征圖更適合關(guān)鍵點(diǎn)估計(jì)。但是這里用到的特征圖原論文中只使用了最后4 倍下采樣的特征圖進(jìn)行目標(biāo)檢測,這會(huì)導(dǎo)致圖像的一些特征丟失。為了充分利用卷積階段的各個(gè)特征圖,本文將Resnet101網(wǎng)絡(luò)產(chǎn)生的4個(gè)特征圖使用特征金字塔(feature pyramid networks,F(xiàn)PN)[16]的特征圖融合方法進(jìn)行融合。

但是常規(guī)的特征金字塔融合方法是直接將各個(gè)特征圖進(jìn)行融合的,沒有考慮到不同的特征圖對(duì)最后的目標(biāo)檢測性能的區(qū)別。研究表明,各個(gè)階段的特征圖對(duì)于最后融合的特征圖的貢獻(xiàn)是不同的,Tan 等[17]在EfficientDet 中提出了一種對(duì)各個(gè)特征圖的加權(quán)特征融合方法BiFPN。在對(duì)特征圖進(jìn)行融合時(shí),對(duì)每個(gè)輸入的特征圖增加一個(gè)權(quán)重,這個(gè)權(quán)重是可學(xué)習(xí)的,這樣網(wǎng)絡(luò)能夠在訓(xùn)練過程中學(xué)習(xí)到特征圖融合的權(quán)重,改變各個(gè)特征圖對(duì)最后目標(biāo)檢測性能的貢獻(xiàn)。

本文采用了快速標(biāo)準(zhǔn)化特征融合的方法來進(jìn)行特征圖的權(quán)重融合,其表達(dá)式如下:

在每一個(gè)wi后接一個(gè)Relu 函數(shù)來保證wi≥0 。其中ε=0.000 1,可以避免分母為0 而導(dǎo)致的數(shù)值不穩(wěn)定。經(jīng)過標(biāo)準(zhǔn)化之后每一個(gè)權(quán)重都落在了0 到1 之間,然后對(duì)不同的特征圖Ii進(jìn)行加權(quán)求和,得到的O就是融合特征圖。

本文中的特征融合網(wǎng)絡(luò)B-FPN的結(jié)構(gòu)如圖6所示,圖中的圓形表示卷積操作,虛線箭頭表示上采樣,高層的特征圖通過上采樣與低層的特征圖進(jìn)行融合,得到最后的特征圖輸出O。

圖6 B-FPN結(jié)構(gòu)Fig.6 B-FPN structure

其計(jì)算公式如下:

與CenterNet中的Resnet101特征提取網(wǎng)絡(luò)相比,本文使用的Resnet101+B-FPN 特征提取網(wǎng)絡(luò)能夠通過添加權(quán)重的方式進(jìn)行特征圖融合,減少特征的損失。

網(wǎng)絡(luò)改進(jìn)前后的特征提取網(wǎng)絡(luò)如圖7所示。圖7(a)為CenterNet 中原本的特征提取網(wǎng)絡(luò),圖7(b)為改進(jìn)后的特征提取網(wǎng)絡(luò)。在網(wǎng)絡(luò)的上采樣階段在每一個(gè)轉(zhuǎn)置卷積前加上了一個(gè)3×3 的深度可分離卷積來改變通道數(shù),然后使用轉(zhuǎn)置卷積進(jìn)行上采樣(如圖中32 →16 的上采樣過程中,黑色虛線箭頭表示深度可分離卷積,紅色實(shí)線箭頭表示轉(zhuǎn)置卷積上采樣,在16 →8、8 →4 的上采樣過程中,使用一個(gè)紅色虛線箭頭代替兩個(gè)過程)。最后得到相當(dāng)于輸入圖像4倍下采樣大小的特征圖,相比于傳統(tǒng)目標(biāo)檢測算法使用16 倍下采樣作為特征圖,較大的特征圖更適合關(guān)鍵點(diǎn)估計(jì)。

圖7 特征提取網(wǎng)絡(luò)Fig.7 Feature extraction network

特征圖后接4 個(gè)通道,分別為關(guān)鍵點(diǎn)檢測通道、關(guān)鍵點(diǎn)偏移量預(yù)測通道、抓取框尺寸預(yù)測通道以及抓取角度的預(yù)測通道。在本文的抓取檢測算法中,因?yàn)椴簧婕皩?duì)目標(biāo)類別的分類,只需要檢測是否可抓取,所以在抓取可行性熱力圖的通道數(shù)為1。在關(guān)鍵點(diǎn)偏移量預(yù)測通道中網(wǎng)絡(luò)會(huì)預(yù)測每個(gè)點(diǎn)在x與y方向上的偏移量,因此其通道數(shù)為2。在抓取框尺寸預(yù)測通道中網(wǎng)絡(luò)會(huì)預(yù)測抓取框的尺寸信息,分別w、h,通道數(shù)為2。最后在抓取角度預(yù)測通道,網(wǎng)絡(luò)會(huì)預(yù)測抓取框的抓取角度θ,其通道數(shù)為1。

2.2 關(guān)鍵點(diǎn)估計(jì)及損失

設(shè)I∈RH×W×3為寬為W、高為H的輸入圖像,網(wǎng)絡(luò)的輸出是利用關(guān)鍵點(diǎn)估計(jì)生成的熱力圖其中R是輸出特征圖的下采樣倍率(即尺寸縮放比例),本文中取4。C表示輸出特征圖的個(gè)數(shù),在本文的抓取檢測算法中,C=1,即可抓取類別。對(duì)于Ground Truth 的關(guān)鍵點(diǎn)K,其坐標(biāo)為p∈R2,經(jīng)過下采樣之后在特征圖上的位置為。本文通過使用二維高斯核將熱力標(biāo)簽分散到熱力圖中。其中σp為尺度自適應(yīng)標(biāo)準(zhǔn)差,其值為卷積核大小的,本文使用大小為的高斯核,w表示標(biāo)注抓取框的寬度。如圖8所示為高斯熱力分布圖。

圖8 康奈爾抓取數(shù)據(jù)集中的物體及其抓取熱力圖Fig.8 Objects in Cornell grasp dataset and grasping heat map

熱力圖在訓(xùn)練時(shí)的損失函數(shù)使用改進(jìn)的Focal Loss[18],其表達(dá)式如下:

其中α、β為超參數(shù),在本實(shí)驗(yàn)中選擇2 和4,N表示一張圖片中關(guān)鍵點(diǎn)的個(gè)數(shù)。不考慮權(quán)重(1-Yxyc)β,可以將上述損失函數(shù)轉(zhuǎn)換成以下形式:

當(dāng)Pt的值比較接近于1 時(shí),(1-Pt)α?xí)容^小,這樣損失函數(shù)的值也會(huì)變?。划?dāng)Pt的值比較小時(shí),表示當(dāng)前樣本為難分樣本,對(duì)應(yīng)的(1-Pt)α?xí)容^大,這樣一來網(wǎng)絡(luò)在訓(xùn)練過程中會(huì)更加關(guān)注難分樣本的分類。(1-Yxyc)β表示負(fù)樣本的權(quán)重項(xiàng),在傳統(tǒng)的Focal Loss 中,對(duì)于預(yù)測值過高的負(fù)樣本,網(wǎng)絡(luò)會(huì)用來懲罰損失函數(shù),但是在關(guān)鍵點(diǎn)檢測中,期望越接近于中心點(diǎn)的位置其預(yù)測值越大,因此這里使用了(1-Yxyc)β權(quán)重項(xiàng),當(dāng)預(yù)測位置越接近中心點(diǎn),其值就越小,損失函數(shù)也會(huì)越小。而對(duì)于遠(yuǎn)離中心的預(yù)測位置,該項(xiàng)不起作用。

2.3 關(guān)鍵點(diǎn)偏移及損失

因?yàn)樵趯?duì)圖像進(jìn)行下采樣操作時(shí)存在量化操作,這使得Ground Truth的關(guān)鍵點(diǎn)會(huì)產(chǎn)生偏移,所以需要對(duì)關(guān)鍵點(diǎn)的位置進(jìn)行回歸。本文對(duì)每一個(gè)關(guān)鍵點(diǎn)的位置進(jìn)行了局部偏移的預(yù)測,對(duì)于這個(gè)偏移量,使用L1 Loss 來訓(xùn)練,這里只計(jì)算關(guān)鍵點(diǎn)處的偏移損失,損失函數(shù)表達(dá)式如下:

其中,p表示中心點(diǎn)在原圖中的坐標(biāo),R為圖像的縮放尺度,本文取4,為量化操作后的坐標(biāo),N為正樣本的數(shù)量。

2.4 目標(biāo)尺寸預(yù)測及損失

因?yàn)樵谧トz測算法中,目標(biāo)框的bounding box不是水平矩形,所以無法用左上右下點(diǎn)的坐標(biāo)來表示,這里需要用4 個(gè)點(diǎn)的坐標(biāo)來表示bounding box。設(shè)表示目標(biāo)k的bounding box 的4個(gè)角點(diǎn)的坐標(biāo),那么其中心點(diǎn)的位置為:

同時(shí)也可以計(jì)算出目標(biāo)的尺寸信息。根據(jù)康奈爾數(shù)據(jù)標(biāo)注的特點(diǎn),參考抓取框的寬為參考抓取框的高為??梢怨烙?jì)出目標(biāo)尺寸信息:

這里的損失函數(shù)也用到了L1 Loss函數(shù),其表達(dá)式如下:

其中,為目標(biāo)k的參考抓取框尺寸,可以表示為(w,h),w表示平行爪夾持器張開的寬度,h表示手爪的寬度,N為正樣本的數(shù)量。

2.5 抓取角度預(yù)測及損失

在抓取檢測算法中除了對(duì)抓取檢測框尺寸進(jìn)行預(yù)測,還需要預(yù)測抓取框的角度,本文中的抓取角度θ表示平行爪夾持器在圖像平面中的投影與圖像水平方向所成的夾角,范圍為(0,π)。根據(jù)康奈爾抓取數(shù)據(jù)集上數(shù)據(jù)標(biāo)注的規(guī)則,前兩個(gè)點(diǎn)所連線段的方向代表平行爪夾持器手爪張開的方向,即抓取角度,因此可以用θ=來表示。計(jì)算角度損失使用的損失函數(shù)為L1損失函數(shù),其表達(dá)式如下:

其中,為目標(biāo)k的抓取角度,N表示正樣本的數(shù)量。

2.6 總損失函數(shù)

因?yàn)楸疚臎]有對(duì)目標(biāo)尺寸做歸一化處理,直接選用原始像素的坐標(biāo),所以會(huì)導(dǎo)致Lsize的值較大。為了平衡損失函數(shù)的分布,需要在各個(gè)損失函數(shù)前添加權(quán)重,其表達(dá)式如下:

參考了文獻(xiàn)[12]中的權(quán)重設(shè)置,在實(shí)驗(yàn)中,使用λsize=0.1,λoff=1,λtheta=1。

2.7 網(wǎng)絡(luò)的預(yù)測

本文使用的輸入圖像大小為512×512,經(jīng)過4 倍下采樣操作之后特征圖的大小為128×128,網(wǎng)絡(luò)會(huì)在特征圖的每一個(gè)位置預(yù)測6個(gè)值,分別為特征圖每個(gè)點(diǎn)處的關(guān)鍵點(diǎn)熱力圖,偏移量δx、δy,尺寸預(yù)測值w、h,抓取角度預(yù)測量θ。

在抓取熱力圖中將所有點(diǎn)與其8 鄰域內(nèi)的所有點(diǎn)的預(yù)測值做比較,如果該點(diǎn)的值大于或等于其他8個(gè)鄰近點(diǎn)則保留,最后保留滿足之前所有要求的前100個(gè)峰值點(diǎn)。設(shè)為抓取熱力圖中檢測到的n個(gè)預(yù)測關(guān)鍵點(diǎn)的集合,。其中每一個(gè)關(guān)鍵點(diǎn)的坐標(biāo)都是以整數(shù)形式(i,)給出的,因此最后生成的抓取檢測框的表示形式為:

其中,(δi,)表示關(guān)鍵點(diǎn)位置偏移量預(yù)測,表示抓取框的尺寸預(yù)測,表示抓取角度的預(yù)測值。所有的預(yù)測輸出都是通過點(diǎn)估計(jì)直接產(chǎn)生的,不需要進(jìn)行非極大值抑制或其他后處理操作。

3 實(shí)驗(yàn)結(jié)果及分析

3.1 實(shí)驗(yàn)條件

本文實(shí)驗(yàn)使用的操作系統(tǒng)是ubuntu16.04,處理器的型號(hào)為Intel?CoreTMi7-8700K,顯卡型號(hào)為NVIDIA GeForce?GTX 1080Ti,采用NVIDIA CUDA9.0 加速工具箱。

3.2 模型測試

為了對(duì)新設(shè)計(jì)的Resnet101+B-FPN 模型的性能進(jìn)行測試,在Pascal VOC數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。Pascal VOC是一個(gè)常用的目標(biāo)檢測數(shù)據(jù)集,其中包含20 個(gè)類別的16 551 張訓(xùn)練圖片以及4 962 張測試圖片。本文使用IoU閾值為0.5時(shí)的mAP作為評(píng)價(jià)指標(biāo)。比較CenterNet在分別使用Resnet101和Resnet101+B-FPN時(shí)網(wǎng)絡(luò)的表現(xiàn)。在實(shí)驗(yàn)中分別采用了兩種分辨率的輸入384×384,512×512。兩個(gè)網(wǎng)絡(luò)采用相同的訓(xùn)練策略,批大小為32,初始學(xué)習(xí)率設(shè)置為1.25E-4,總共迭代70次,其中在迭代次數(shù)達(dá)到45 和60 時(shí)將學(xué)習(xí)率減小為原來的1/10。實(shí)驗(yàn)結(jié)果如表1所示。

表1 Pascal VOC數(shù)據(jù)集上目標(biāo)檢測的結(jié)果Table 1 Object detection results on Pascal VOC dataset

從表1中可以看到,加入B-FPN之后網(wǎng)絡(luò)的mAP提高了,并且在大分辨率的圖片上mAP提高得更加明顯,由此可見使用了特征融合方法融合特征圖之后可以增強(qiáng)網(wǎng)絡(luò)的性能。在后續(xù)的抓取檢測網(wǎng)絡(luò)中,用到的特征提取網(wǎng)絡(luò)部分為Resnet101+B-FPN。

3.3 訓(xùn)練

本實(shí)驗(yàn)在康奈爾抓取數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試,該數(shù)據(jù)集包含240 個(gè)可抓取物品的885 張圖片,在每張圖片中,可行的抓取被表示成抓取矩形框。在訓(xùn)練時(shí)將數(shù)據(jù)集按照4∶1的比例劃分成訓(xùn)練集與測試集。

在訓(xùn)練集上進(jìn)行算法模型的訓(xùn)練,512×512的圖像輸入到網(wǎng)絡(luò)當(dāng)中,模型輸出大小為128×128。在訓(xùn)練過程中,對(duì)訓(xùn)練集中的圖像進(jìn)行隨機(jī)翻轉(zhuǎn)、隨機(jī)旋轉(zhuǎn)、隨機(jī)縮放、隨機(jī)裁剪和色彩抖動(dòng)等方法來進(jìn)行數(shù)據(jù)增強(qiáng),算法模型的優(yōu)化器選擇Adam。輸入數(shù)據(jù)的批量大小為16,迭代步數(shù)為140,初始學(xué)習(xí)率設(shè)定為0.001,在訓(xùn)練步數(shù)達(dá)到60和80時(shí),學(xué)習(xí)率減小為原來的1/10。

訓(xùn)練過程中損失函數(shù)的收斂趨勢如圖9所示。圖9(a)表示抓取檢測總損失函數(shù)(Ldet)的收斂趨勢,圖9(b)表示關(guān)鍵點(diǎn)估計(jì)損失函數(shù)(Lhm)的收斂趨勢,圖9(c)表示目標(biāo)尺寸大小損失函數(shù)(Lsize)的收斂趨勢,圖9(d)表示目標(biāo)中心點(diǎn)偏移損失函數(shù)(Loff)的收斂趨勢,圖9(e)表示角度預(yù)測損失函數(shù)(Ltheta)的收斂趨勢。

圖9 訓(xùn)練階段損失Fig.9 Loss in training stage

3.4 評(píng)價(jià)指標(biāo)及測試

測試時(shí)本文采用的仍然是康奈爾抓取數(shù)據(jù)集來評(píng)估抓取檢測的性能。本實(shí)驗(yàn)采用Zhang等人[22]提出的評(píng)價(jià)指標(biāo),當(dāng)抓取檢測框滿足以下兩個(gè)條件時(shí)認(rèn)為是一個(gè)正確的預(yù)測:

(1)預(yù)測抓取框與參考抓取框之間抓取角度的差值小于30°。

(2)Jaccard相似系數(shù)大于25%,其中Jaccard相似系數(shù)計(jì)算公式如下:

其中,g表示預(yù)測抓取框所圍成的區(qū)域,表示參考抓取框所圍成的區(qū)域,表示兩個(gè)區(qū)域相交部分的面積,表示兩個(gè)區(qū)域覆蓋部分的面積。

模型在康奈爾抓取數(shù)據(jù)集中的驗(yàn)證集上的檢測結(jié)果如圖10所示。第一行為康奈爾抓取數(shù)據(jù)集中的物體,第二行為預(yù)測抓取熱力圖,第三行為抓取框的檢測結(jié)果。

圖10 抓取檢測結(jié)果Fig.10 Results of grasp detection

表2 是本文網(wǎng)絡(luò)模型與其他抓取網(wǎng)絡(luò)檢測模型的準(zhǔn)確率與檢測速度的對(duì)比表。

由表2可以發(fā)現(xiàn),本文的模型在準(zhǔn)確率與檢測速度上都有提升,使用了無錨框的網(wǎng)絡(luò)結(jié)構(gòu)使檢測速度更加快,同時(shí)使網(wǎng)絡(luò)具有更強(qiáng)的魯棒性。

表2 抓取位置檢測算法準(zhǔn)確率對(duì)比Table 2 Accuracy for grasping detection

4 結(jié)束語

為了加快抓取檢測網(wǎng)絡(luò)的檢測速度以及增強(qiáng)對(duì)抓取角度的檢測能力,本文提出了一種新的檢測方法,通過關(guān)鍵點(diǎn)估計(jì)的方法檢測抓取框的中心點(diǎn)位置,并且預(yù)測抓取的角度、尺寸等信息。一方面CenterNet 端到端的網(wǎng)絡(luò)結(jié)構(gòu)以及無需后處理的網(wǎng)絡(luò)特點(diǎn),能夠加快網(wǎng)絡(luò)的檢測速度;另一方面高分辨率的特征圖的輸入能夠檢測到更多的可行抓取框。同時(shí),基于關(guān)鍵點(diǎn)的檢測思路與抓取檢測任務(wù)更加匹配,在抓取檢測時(shí)從抓取點(diǎn)去回歸抓取框,相較于基于錨框的抓取檢測算法能夠更好地得到抓取輪廓,獲得更多的可行抓取。在康奈爾抓取數(shù)據(jù)集中,相比于基于錨框的抓取檢測算法,基于關(guān)鍵點(diǎn)估計(jì)的檢測模型能夠在保證較高準(zhǔn)確率的同時(shí)達(dá)到較快的檢測速度。實(shí)驗(yàn)結(jié)果顯示本文的模型在驗(yàn)證集上有97.6%的準(zhǔn)確率,并且能夠達(dá)到42 frame/s的檢測速度。

猜你喜歡
中心點(diǎn)關(guān)鍵點(diǎn)損失
少問一句,損失千金
聚焦金屬關(guān)鍵點(diǎn)
肉兔育肥抓好七個(gè)關(guān)鍵點(diǎn)
胖胖損失了多少元
Scratch 3.9更新了什么?
如何設(shè)置造型中心點(diǎn)?
電腦報(bào)(2019年4期)2019-09-10 07:22:44
玉米抽穗前倒伏怎么辦?怎么減少損失?
漢字藝術(shù)結(jié)構(gòu)解析(二)中心點(diǎn)處筆畫應(yīng)緊奏
一般自由碰撞的最大動(dòng)能損失
尋找視覺中心點(diǎn)
大眾攝影(2015年9期)2015-09-06 17:05:41
固安县| 平遥县| 永吉县| 崇阳县| 正蓝旗| 佛坪县| 长宁区| 得荣县| 尉氏县| 朝阳市| 宁明县| 奎屯市| 新竹县| 胶州市| 永顺县| 九龙坡区| 房产| 桃园县| 福贡县| 平顺县| 大宁县| 香河县| 深泽县| 昆明市| 娄底市| 芮城县| 丹寨县| 新兴县| 乐清市| 奈曼旗| 龙海市| 葵青区| 浦县| 从江县| 济宁市| 夹江县| 皮山县| 交口县| 和田市| 昌都县| 石屏县|