趙泊林,張曉龍
(1.武漢科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430065;2.武漢科技大學(xué)大數(shù)據(jù)科學(xué)與研究院,湖北 武漢 430065)
目標(biāo)檢測(cè)是計(jì)算機(jī)數(shù)字圖像處理和計(jì)算機(jī)視覺領(lǐng)域最熱門的研究方向之一.其目的是在輸入的圖片或者視頻中定位出所有出現(xiàn)的目標(biāo),并確定每個(gè)目標(biāo)所屬的類別.在智能化交通系統(tǒng)、智能監(jiān)控系統(tǒng)、軍事目標(biāo)檢測(cè)等方面具有廣泛的應(yīng)用價(jià)值.
傳統(tǒng)的目標(biāo)檢測(cè)方法基于滑動(dòng)窗口的區(qū)域選擇策略[1],使用大小不同的窗口,在圖像中以一定步長(zhǎng)進(jìn)行滑動(dòng),選擇窗口中的區(qū)域作為感興趣區(qū)域,然后對(duì)感興趣區(qū)域使用針對(duì)目標(biāo)特別設(shè)計(jì)的提取器提取圖像中相關(guān)區(qū)域的特征,最后使用專門為目標(biāo)類別預(yù)訓(xùn)練過(guò)的分類器對(duì)感興趣區(qū)域進(jìn)行分類和檢測(cè).但該方法沒有針對(duì)性,時(shí)間復(fù)雜度高,窗口冗余,且人工設(shè)計(jì)的特征對(duì)于多樣性的變化沒有較強(qiáng)的魯棒性.
基于此類方法,A.Krizhevsky等[2]提出了感興趣區(qū)域region proposal策略,常用的region proposal策略有選擇性搜索[3]和邊界框回歸[4].其原理是利用圖像中的邊緣、紋理以及顏色等特征信息預(yù)先找出目標(biāo)在圖中可能會(huì)出現(xiàn)的位置,再對(duì)所提取到的區(qū)域進(jìn)行分類.使用該策略能降低算法的時(shí)間復(fù)雜度,同時(shí)在選取較少窗口的情況下仍能獲得較高的召回率.但是由于這些策略依賴于大量的感興趣區(qū)域,所以在計(jì)算上需要花費(fèi)巨大的代價(jià).為解決這個(gè)問(wèn)題,R.Girshick等[5]將region proposal策略與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,提出了R-CNN檢測(cè)算法.該算法優(yōu)化了檢測(cè)窗口冗余的現(xiàn)象,提高了目標(biāo)檢測(cè)性能,但是這種基于深度學(xué)習(xí)的目標(biāo)檢測(cè)策略是通過(guò)遍歷整張圖像以尋找與目標(biāo)特征相似的區(qū)域,在區(qū)域選擇上缺少推理策略.A.Vezhnevets等[6]提出了主動(dòng)目標(biāo)檢測(cè)策略,該策略在視覺任務(wù)中以順序決策的形式,利用時(shí)間序列收集先前時(shí)刻信息,并通過(guò)此信息決策滑動(dòng)窗口的位置,有效地減少冗余的窗口和檢測(cè)的時(shí)間.J.C.Caicedo等[7]在此基礎(chǔ)上提出基于主動(dòng)目標(biāo)的檢測(cè)策略,該策略使用深度強(qiáng)化學(xué)習(xí)[8]中Deep Q-Network[9]算法訓(xùn)練智能體(agent),利用學(xué)習(xí)到的經(jīng)驗(yàn),改變檢測(cè)區(qū)域位置和大小來(lái)選擇目標(biāo).M.Bellver等[10]提出了一種基于深度強(qiáng)化學(xué)習(xí)的分層目標(biāo)檢測(cè)策略,該策略的主要原理是根據(jù)智能體收集到的信息,不斷地將注意力集中在包含更多信息的感興趣區(qū)域里,然后從這些感興趣區(qū)域里選擇最有可能包含目標(biāo)的區(qū)域.相比與文獻(xiàn)[7]的方法,該方法檢測(cè)速度有了較大的提升,但是卻降低了檢測(cè)精度.其主要原因是在文獻(xiàn)[10]方法中,使用了R.Girshick等[11]提出的RoIPooling層,該層的作用是根據(jù)感興趣區(qū)域的位置坐標(biāo),在特征圖中將相應(yīng)區(qū)域池化為固定尺寸,以便進(jìn)行后續(xù)的目標(biāo)檢測(cè).RoIPooling層的優(yōu)點(diǎn)是在訓(xùn)練時(shí)實(shí)現(xiàn)端到端的操作,提高目標(biāo)檢測(cè)的速度.但是RoIPooling層將感興趣區(qū)域池化為固定尺寸的時(shí)候采用了最近鄰插值法,造成了圖像的像素偏差,從而降低了最后的檢測(cè)精度.
針對(duì)上述問(wèn)題,本文參考了MASK-RCNN[12]中的方法提出了感興趣區(qū)域聚集層的改進(jìn)策略.該方法使用雙三次插值法代替了最近鄰插值法,大大減少了圖像像素的偏差.相比較RoIPooling層,感興趣區(qū)域聚集層在不降低檢測(cè)速度的同時(shí)提高了目標(biāo)檢測(cè)的精度.
使用牛津大學(xué)的VGG-16[13]網(wǎng)絡(luò)模型對(duì)圖像進(jìn)行特征提取,獲得特征圖與感興趣區(qū)域,然后進(jìn)入RoIPooling層.
RoIPooling層的作用是從每個(gè)感興趣區(qū)域中提取小的特征圖.首先將一個(gè)為浮點(diǎn)數(shù)坐標(biāo)的感興趣區(qū)域采用最近鄰插值法強(qiáng)制取整為特征圖的離散粒度;然后將該取整后的感興趣區(qū)域平均分割成7×7個(gè)矩陣單元,在分割時(shí)對(duì)每一個(gè)矩陣單元進(jìn)行強(qiáng)制取整;最后將每個(gè)矩陣單元覆蓋通過(guò)最大池化進(jìn)行特征值聚合.強(qiáng)制取整是通過(guò)計(jì)算[X/32]在連續(xù)坐標(biāo)X上進(jìn)行的,其中32是特征圖的縮放步長(zhǎng),通常的操作是把坐標(biāo)值四舍五入.同樣,強(qiáng)制取整也在劃分為矩陣單元(7×7)時(shí)進(jìn)行的.RoIPooling層的優(yōu)點(diǎn)是在訓(xùn)練時(shí)可以實(shí)現(xiàn)端到端的操作,提高目標(biāo)檢測(cè)的速度.由于使用模型回歸方法得到的感興趣區(qū)域的坐標(biāo)通常是浮點(diǎn)數(shù),這些取整會(huì)導(dǎo)致感興趣區(qū)域和提取的特征之間產(chǎn)生偏差.
圖1 RoIPooling層
RoIPooling層具體操作如圖1所示.圖1中輸入一張圖片大小為960像素×960像素,圖片上有一個(gè)700像素×700像素的感興趣區(qū)域(如圖中的黑色方框).經(jīng)過(guò)VGG-16網(wǎng)絡(luò)提取圖片特征后,特征圖縮放步長(zhǎng)為32.因此,圖片和感興趣區(qū)域的大小都縮小為原來(lái)的1/32.圖片邊長(zhǎng)為960像素縮小1/32后邊長(zhǎng)正好為整數(shù)30像素.但是感興趣區(qū)域邊長(zhǎng)為700像素縮小為1/32后的邊長(zhǎng)為 21.87像素.于是RoIPooling層采用最近鄰插值法直接將它強(qiáng)制取整為21像素.接下來(lái)需要把感興趣區(qū)域內(nèi)的特征進(jìn)行池化并且平均分割成7×7個(gè)矩形區(qū)域.因?yàn)楦信d趣區(qū)域的邊長(zhǎng)為21.87像素,平均分成7×7個(gè)矩形區(qū)域后每個(gè)邊長(zhǎng)為3.12像素.于是RoIPooling層再次使用最近鄰插法把它強(qiáng)制取整到3像素.經(jīng)過(guò)兩次取整的操作,感興趣區(qū)域的大小較縮放前已經(jīng)出現(xiàn)了較明顯的偏差.這個(gè)偏差會(huì)影響目標(biāo)檢測(cè)的精度.
為了解決RoIPooling層感興趣區(qū)域精度偏差的問(wèn)題,本文提出使用感興趣區(qū)域聚集層改進(jìn).該方法去掉了RoIPooling層中強(qiáng)制取整的操作,使抽取的特征與輸入完全對(duì)齊.具體步驟如下:
圖2 雙三次插值法
首先避免對(duì)感興趣區(qū)域的邊界或矩陣單元進(jìn)行任何取整操作;然后使用雙三次插值法計(jì)算每個(gè)感興趣區(qū)域中矩陣單元中四個(gè)規(guī)則采樣位置的輸入特征的精確值;最后使用最大池化聚合結(jié)果.雙三次插值法見圖2.
本文采用點(diǎn)數(shù)為4時(shí)的固定位置.首先將每個(gè)矩陣單元平均分成4個(gè)小方塊,使用線性插值法求出每個(gè)小方塊中4個(gè)點(diǎn)的坐標(biāo),如圖2中的黑點(diǎn),然后在根據(jù)每個(gè)矩陣單元中共計(jì)4×4個(gè)點(diǎn)的坐標(biāo),再使用雙三次插值法求出中點(diǎn)即縮放后的像素點(diǎn),最后進(jìn)行最大池化操作,得出固定尺寸的感興趣區(qū)域.本文的雙三次插值方法的基函數(shù)選取的是BiCubic函數(shù),公式為
(1)
其中a取值為-0.5.矩陣單元中的中點(diǎn)即像素點(diǎn)(x,y),使用線性插值法取周圍4個(gè)小方塊中的4個(gè)坐標(biāo)一共16個(gè)坐標(biāo)作為鄰域點(diǎn)(xi,yj),i,j的取值為0,1,2,3.然后代入公式(1)中,求出權(quán)重W(x),將權(quán)重求出后代入雙三次插值法公式,最后求出縮放后的像素點(diǎn)(x,y).雙三次插值法公式為
(2)
其中:(x,y)是縮放后的像素點(diǎn)坐標(biāo);xi,yj是像素點(diǎn)周圍用線性插值法得到的16個(gè)鄰域點(diǎn);W(x-xi)和W(y-yj)是由公式(1)得到的權(quán)重,將16個(gè)鄰域點(diǎn)代入公式(2),可以得到最后縮放的像素點(diǎn)(x,y).
1.2.1 馬爾可夫決策
在每個(gè)時(shí)間步驟中,智能體每一個(gè)動(dòng)作都會(huì)產(chǎn)生一個(gè)獎(jiǎng)勵(lì).根據(jù)獎(jiǎng)勵(lì)決定圖像需要在哪個(gè)區(qū)域進(jìn)行移動(dòng),以便后續(xù)找到需要檢測(cè)的目標(biāo).將問(wèn)題轉(zhuǎn)化為馬爾可夫決策,該過(guò)程提供了一個(gè)框架,在結(jié)果部分不確定時(shí)對(duì)決策進(jìn)行建模.
在建立目標(biāo)檢測(cè)模型前,首先定義參數(shù)化馬爾可夫決策過(guò)程,包括狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)3個(gè)過(guò)程.
狀態(tài):狀態(tài)由候選區(qū)域和記憶向量組成.一個(gè)記憶向量記錄了為搜尋某個(gè)物體最近完成的4個(gè)動(dòng)作,并將其用one-hot編碼,因?yàn)橛?種動(dòng)作,因此記憶向量一共有24維.
動(dòng)作:有兩類可能的動(dòng)作.第一類表示當(dāng)前觀察區(qū)域發(fā)生變化的移動(dòng)動(dòng)作,如圖3所示.第一類動(dòng)作又包含5種智能體可能會(huì)發(fā)出的動(dòng)作;第二類動(dòng)作表示找到對(duì)象并結(jié)束搜索的終端動(dòng)作.
圖3 智能體的6種動(dòng)作
獎(jiǎng)勵(lì):本文使用由Caicedo和Lazebnik提出的獎(jiǎng)勵(lì)函數(shù)[7].動(dòng)作的獎(jiǎng)勵(lì)函數(shù)公式為
Rm(s,s′)=sign(IoU(b′,g)-IoU(b,g)).
(3)
IoU全稱Intersection over Union即重疊率,公式為
(4)
最后結(jié)束動(dòng)作的獎(jiǎng)勵(lì)函數(shù)公式為
(5)
給定一個(gè)狀態(tài)s,對(duì)那些向b′區(qū)域移動(dòng)的行動(dòng)給予獎(jiǎng)勵(lì),該區(qū)域與目標(biāo)值g的重疊部分大于上一步考慮的b′區(qū)域.否則,這些行為將受到懲罰.對(duì)于觸發(fā)動(dòng)作,如果實(shí)際區(qū)域b與目標(biāo)區(qū)域的重疊部分大于某個(gè)閾值τ,則獎(jiǎng)勵(lì)為正,否則為負(fù).因此本文設(shè)置τ=0.5,閾值大于0.5即為檢測(cè)成功,獎(jiǎng)勵(lì)系數(shù)η為3.
1.2.2 Deep Q-Network(DQN)算法
DQN是在Q-learning[8]的基礎(chǔ)上改進(jìn)而來(lái).比傳統(tǒng)的Q-learning有3點(diǎn)改進(jìn):設(shè)置經(jīng)驗(yàn)回放,打破數(shù)據(jù)間的關(guān)聯(lián);利用卷積神經(jīng)網(wǎng)絡(luò)逼近值函數(shù)[14];設(shè)置目標(biāo)網(wǎng)絡(luò)來(lái)單獨(dú)處理時(shí)間差分算法的TD偏差,進(jìn)一步打破關(guān)聯(lián)性.
本文中的智能體獎(jiǎng)勵(lì)取決于所選的動(dòng)作a狀態(tài)s,由函數(shù)Q(s,a)控制,該函數(shù)通過(guò)Q學(xué)習(xí)進(jìn)行估計(jì).基于Q(s,a),智能體將選擇與最高獎(jiǎng)勵(lì)相關(guān)聯(lián)的操作.Q-Learning使用Bellman方程為
Q(s,a)=r+γmaxaQ(s′,a′)
(6)
迭代更新動(dòng)作選擇策略,其中:s和a為當(dāng)前狀態(tài)相應(yīng)地行動(dòng);r為即時(shí)獎(jiǎng)勵(lì);maxaQ(s′,a′)為未來(lái)獎(jiǎng)勵(lì);γ為折扣因子.
用一個(gè)經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的深度Q網(wǎng)絡(luò)來(lái)代替Q函數(shù),并使用貪婪策略[15]訓(xùn)練,該策略從ε=1開始,然后按0.1的步驟減少,直到ε=0.1.起初采用隨機(jī)的動(dòng)作,之后在每個(gè)epoch中,智能體更依賴于學(xué)到的策略來(lái)行動(dòng),為了幫助智能體學(xué)習(xí),每次強(qiáng)制當(dāng)前檢測(cè)區(qū)域與圖片目標(biāo)區(qū)域的比值大于0.5,通過(guò)這種方法,可以加速訓(xùn)練.智能體總是在做探索,所以不會(huì)陷入局部的最低限度.
在DQN中為了解決數(shù)據(jù)間的相關(guān)性,設(shè)置了經(jīng)驗(yàn)回放池,在學(xué)習(xí)過(guò)程中,智能體將數(shù)據(jù)存儲(chǔ)到一個(gè)數(shù)據(jù)庫(kù)中,再利用均勻隨機(jī)采樣的方法從數(shù)據(jù)庫(kù)中抽取數(shù)據(jù),設(shè)置的數(shù)據(jù)庫(kù)大小為1 000,每次抽取的數(shù)據(jù)量為100.此外根據(jù)馬爾可夫策略,平衡當(dāng)前與未來(lái)的獎(jiǎng)勵(lì),折扣因子γ設(shè)置為0.9,模型見圖4.
圖4 模型結(jié)構(gòu)
本文在感興趣區(qū)域聚集層后面加入了一個(gè)判斷策略,如果該圖像中有需要檢測(cè)的物體時(shí),會(huì)先判斷需要檢測(cè)目標(biāo)區(qū)域是否和圖像重合,若重合直接輸出該圖片,則表示檢測(cè)完成,不再需要通過(guò)檢測(cè)模型進(jìn)行檢測(cè).使用學(xué)習(xí)率為1×10-6的Adam優(yōu)化器訓(xùn)練DQN網(wǎng)絡(luò),該網(wǎng)絡(luò)的輸入是區(qū)域向量和記憶向量,輸出6個(gè)可能的動(dòng)作值,該動(dòng)作值的具體操作為左上、右上、左下、右下、中心、結(jié)束.DQN網(wǎng)絡(luò)由3個(gè)完全連接層組成,每層由1 024個(gè)神經(jīng)元組成.前兩個(gè)全連接層的后面使用relu激活函數(shù),最后一層的全連接層使用linear激活函數(shù),三層全連接層都使用dropout方法進(jìn)行訓(xùn)練.
本文使用正態(tài)分布對(duì)DQN的權(quán)重初始化,并對(duì)每個(gè)模型進(jìn)行了30個(gè)epoch的訓(xùn)練,基于keras2.1.6框架,CUDNN V7.0,CUDA V9.0,單塊Tesla V100-SXM2GPU的環(huán)境用于訓(xùn)練模型.本文使用了Pascal VOC2012[16]數(shù)據(jù)集,數(shù)據(jù)集中包含了2007—2012年的數(shù)據(jù),本文對(duì)飛機(jī)、鳥、牛、公交車、貓、自行車等6個(gè)類進(jìn)行訓(xùn)練和測(cè)試.每個(gè)類訓(xùn)練圖片為11 540 張,測(cè)試圖片為4 952張.
實(shí)驗(yàn)結(jié)果見圖5,紅色框表示目標(biāo)區(qū)域,藍(lán)色框?yàn)橹悄荏w最后的動(dòng)作區(qū)域.智能體不斷與環(huán)境進(jìn)行交互獲取經(jīng)驗(yàn)從而逐漸確定目標(biāo)所在的位置.圖5(a)的飛機(jī)和圖5(b)的鳥,因?yàn)樾枰獧z測(cè)的目標(biāo)比較小,智能體需要更多的步數(shù)經(jīng)驗(yàn)才能檢測(cè)到目標(biāo).圖5(c)中的牛,由于需要檢測(cè)的目標(biāo)較大,智能體僅需要3步的經(jīng)驗(yàn)就可以檢測(cè)出牛目標(biāo)所在的位置.
(a)飛機(jī)
(b)鳥
2.3.1 重疊率
重疊率(Intersection over Union)英文縮寫IoU值,指的是檢測(cè)模型最后預(yù)測(cè)出來(lái)的框與原來(lái)圖片中標(biāo)記的框的重合程度.計(jì)算方法即檢測(cè)結(jié)果Detection Result與目標(biāo)真實(shí)值Ground Truth 的交集比上它們的并集.在目標(biāo)檢測(cè)中,若IoU>0.5為對(duì)一個(gè)物體檢測(cè)成功.
2.3.2 精準(zhǔn)率和召回率
本文對(duì)比的是傳統(tǒng)的強(qiáng)化學(xué)習(xí)模型[7].精準(zhǔn)率指的是在識(shí)別出來(lái)的圖片中TP所占的比率.TP:正確識(shí)別的正樣本,同時(shí)IoU>0.5,TP+FP:檢測(cè)模型輸出的圖片總數(shù).召回率指的是測(cè)試集中所有正樣本樣例中,被正確識(shí)別為正樣本的比例.TP+FN:測(cè)試集中需要檢測(cè)圖片的總數(shù).本文的閾值設(shè)置為0.1~1.5之間,步長(zhǎng)為0.1,置信度選取為最后智能體動(dòng)作IoU大于0.5的6個(gè)動(dòng)作值.基于Pascal VOC2012數(shù)據(jù)集精準(zhǔn)率-召回率曲線如圖6所示.精準(zhǔn)率(P)和召回率(R)公式為:
(6)
(7)
圖6中虛線為本文的模型,實(shí)線為傳統(tǒng)的強(qiáng)化學(xué)習(xí)模型.由圖6可以看出,虛線模型和實(shí)線模型在統(tǒng)一召回率下,虛線模型的精準(zhǔn)率更高,隨著召回率的增加,虛線模型比實(shí)線模型的精準(zhǔn)率整體都高,且達(dá)到峰值后下降速率減緩,下降的越緩說(shuō)明模型越穩(wěn)定,虛線模型和實(shí)線模型相比與坐標(biāo)軸圍成的面積更大,圍成的面積越大模型的檢測(cè)效果越好,所以虛線模型效果更好.其中圖6(a)—(c)和(f)中虛線模型圍成的面積最大,其主要原因是感興趣區(qū)域聚集層將感興趣區(qū)域池化為固定尺寸時(shí)采用了雙三次插值法,保留了感興趣區(qū)域中坐標(biāo)為浮點(diǎn)數(shù)時(shí)像素點(diǎn)上的數(shù)值,對(duì)小目標(biāo)的處理比起RoIPooling層精度更高,因此提升較為明顯.
(a)飛機(jī)
(b)鳥
(c)牛
(d)公交車
(e)貓
(f)自行車
2.3.3 步數(shù)與目標(biāo)數(shù)
圖7 步數(shù)與目標(biāo)數(shù)的關(guān)系
一個(gè)優(yōu)秀的智能體會(huì)在盡可能少的步數(shù)中檢測(cè)出目標(biāo)區(qū)域,本文只統(tǒng)計(jì)IoU大于0.5的目標(biāo)區(qū)域,智能體的步數(shù)為10,當(dāng)0步就是直接輸出原始圖與目標(biāo)區(qū)域重合的圖片,此時(shí)屬于分類問(wèn)題.步數(shù)與目標(biāo)數(shù)的關(guān)系如圖7.
左側(cè)柱形是本文模型,右側(cè)陰影柱形是傳統(tǒng)強(qiáng)化學(xué)習(xí)模型[7].由圖7可以看出左側(cè)柱形模型在前4步就可以檢測(cè)出絕大部分目標(biāo)區(qū)域,在同樣的步數(shù)下比傳統(tǒng)模型檢測(cè)的目標(biāo)數(shù)更多,檢測(cè)效率更高.而右側(cè)陰影柱形模型需要更多的步數(shù)才能檢測(cè)出目標(biāo)區(qū)域,檢測(cè)目標(biāo)數(shù)少,檢測(cè)效率較低.
2.3.4 平均精度與Mean Average Precision(MAP)
表1 基于Pascal VOC2007測(cè)試集中AP的測(cè)試結(jié)果
本文方法與傳統(tǒng)常見的目標(biāo)檢測(cè)方法Regionlets[17]、DQN[7]、RCNN[5],進(jìn)行了比較.由表1可以看出:本文使用感興趣區(qū)域聚集層的強(qiáng)化學(xué)習(xí)方法要整體上要優(yōu)于DQN,其中飛機(jī)、鳥、牛,這些類中含有小目標(biāo)較多的圖片提升明顯,分別提升了15.7%,20.2%,19.7%.但是相對(duì)于測(cè)試集中小目標(biāo)數(shù)量較少的圖片提升率就不是很高,例如:公交車、貓、自行車的提升率只有10.8%和9.9%,11.5%.與RCNN方法相比,飛機(jī)、鳥、公交車、貓、牛、自行車等類分別提升了7%,8.6%,4.7%,5.1%,1.6%,3.7%.整體上有一定優(yōu)勢(shì).
基于Pascal VOC2007測(cè)試集中MAP的測(cè)試結(jié)果見表2.它是衡量一個(gè)檢測(cè)器好壞的重要指標(biāo).本文方法最后的MAP達(dá)到了66.1%,相比較與傳統(tǒng)的DQN方法,提升效果十分明顯,提升了16.8%,比RCNN的方法提升了6.9%,也有一定優(yōu)勢(shì).
表2 基于Pascal VOC2007測(cè)試集中MAP的測(cè)試結(jié)果
本文針對(duì)深度強(qiáng)化學(xué)習(xí)在目標(biāo)檢測(cè)領(lǐng)域進(jìn)行了研究,提出了一種基于感興趣區(qū)域聚集層的改進(jìn)策略,改進(jìn)傳統(tǒng)深度強(qiáng)化學(xué)習(xí)中使用RoIPooling層將感興趣區(qū)域池化為固定尺寸時(shí)造成的像素偏差導(dǎo)致檢測(cè)精度下降的問(wèn)題.感興趣區(qū)域聚集層策略的核心思想是使用雙三次插值法代替最近鄰插法,保持了感興趣區(qū)域中坐標(biāo)為浮點(diǎn)數(shù)時(shí)像素點(diǎn)上的數(shù)值.實(shí)驗(yàn)結(jié)果表明,在Pascal VOC2012訓(xùn)練集和Pascal VOC2007測(cè)試集上,本文的方法可以在不同種類的目標(biāo)對(duì)象、不同大小的目標(biāo)、不同閾值的IoU的實(shí)驗(yàn)條件下提高目標(biāo)檢測(cè)的精度,尤其是對(duì)圖像中含有較多小目標(biāo)時(shí)提升更為明顯.智能體可以在執(zhí)行較少的動(dòng)作下,取得更多符合條件的感興趣區(qū)域,提高了智能體的檢測(cè)效率.并且在精準(zhǔn)率召回率曲線上優(yōu)于傳統(tǒng)的深度強(qiáng)化學(xué)習(xí)方法,在平均精度上本文的方法比已有的方法具更好的檢測(cè)性能.