文靖杰,王 勇,李金龍,張 渝
(西南交通大學(xué)物理科學(xué)與技術(shù)學(xué)院,四川成都 610031)
Faster R-CNN 是一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法[1-4],其核心思想是通過(guò)提取圖像特征、提出候選框和進(jìn)行二次分類等步驟,從而實(shí)現(xiàn)高效的目標(biāo)檢測(cè)。Faster R-CNN 主要用于對(duì)圖像和視頻中的物體進(jìn)行快速而準(zhǔn)確的識(shí)別,并能夠?qū)z測(cè)結(jié)果進(jìn)行框定和分類。但是隨著圖像樣本的數(shù)量和種類越來(lái)越多,對(duì)模型的精度要求也越來(lái)越高,所以如何提升檢測(cè)的精度成為了關(guān)鍵研究問(wèn)題[5-7]。
Faster R-CNN 目標(biāo)檢測(cè)網(wǎng)絡(luò)是通過(guò)預(yù)訓(xùn)練的卷積網(wǎng)絡(luò)來(lái)提取輸入圖像的特征圖,盡管卷積層可以有效地提取圖像中的局部信息,但卷積核的局部性會(huì)使得全局特性無(wú)法被充分捕捉,這會(huì)導(dǎo)致一些信息的丟失,進(jìn)而造成精度下降。其次,F(xiàn)aster R-CNN 采用的ROI Pooling(Region of Interest Pooling)算法使用最近鄰插值來(lái)對(duì)感興趣區(qū)域內(nèi)的特征進(jìn)行量化,這同樣會(huì)導(dǎo)致部分信息的丟失以及空間對(duì)齊的不準(zhǔn)確。最后,在算法后處理方面,F(xiàn)aster R-CNN 使用傳統(tǒng)非極大抑制來(lái)強(qiáng)制刪除重復(fù)的檢測(cè)框進(jìn)而導(dǎo)致漏檢。
針對(duì)以上不足,本文做出三處改進(jìn)來(lái)提高Faster RCNN 目標(biāo)檢測(cè)網(wǎng)絡(luò)的檢測(cè)精度:
1)在Faster R-CNN 中嵌入基于現(xiàn)有的改進(jìn)注意力模型來(lái)獲取更多的圖像信息而提高網(wǎng)絡(luò)的檢測(cè)精度。該改進(jìn)的注意力模型基于CBAM 注意力機(jī)制[8],采用CBAM改進(jìn)是因?yàn)樗闪薙E-Net[9]對(duì)通道信息關(guān)注的優(yōu)點(diǎn)和ECA-Net[10]對(duì)空間信息關(guān)注的優(yōu)點(diǎn),但CBAM 中的共享全連接層的降維操作會(huì)導(dǎo)致一些區(qū)域的細(xì)節(jié)信息被忽略而造成局部信息的丟失,所以本文采用一維卷積替代共享全連接層并且為了使其提供更豐富的特征表達(dá)能力,引入多頭機(jī)制。
2)采用ROI Align(Region of Interest Align)算法[11]更精確地定位ROI 區(qū)域內(nèi)的樣本點(diǎn),減少原圖的信息丟失,提高特征圖的質(zhì)量。
3)引入Soft-NMS(Soft Non-Maximum Suppression)算法[12],減少漏檢、誤檢情況,提高檢測(cè)精度。
Faster R-CNN 目標(biāo)檢測(cè)模型的詳細(xì)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,主要包含4 個(gè)步驟:
圖1 Faster R-CNN 結(jié)構(gòu)圖
1)將輸入圖片等比例調(diào)整尺寸,然后輸入到主干特征提取網(wǎng)絡(luò)中來(lái)獲取圖像的特征圖,用于后續(xù)的區(qū)域生成網(wǎng)絡(luò)(RPN)層的分類與回歸。
2)將步驟1)生成的特征圖作為RPN 的輸入,使用固定大小的滑窗窗口在特征圖上進(jìn)行滑窗操作,以每個(gè)位置作為中心點(diǎn)生成多個(gè)不同尺寸和比例的錨框(Anchor)。上面的分支使用Softmax 分類對(duì)錨框進(jìn)行正負(fù)樣本分類,將每個(gè)錨框判斷為可能包含目標(biāo)的積極(Positive)分類或不包含目標(biāo)的消極(Negative)分類;下面的分支用于進(jìn)行邊界框回歸(Bounding Box Regression),該回歸操作計(jì)算出預(yù)測(cè)的邊界框與真實(shí)目標(biāo)邊界框之間的偏移量,以獲取更準(zhǔn)確的候選框(Proposal)位置。在模型測(cè)試過(guò)程中,對(duì)于部分存在重疊可能性的候選框,使用非極大值抑制(NMS)算法篩選這些框,選擇最有代表性的框輸出并作為感興趣區(qū)域(ROI);在模型的訓(xùn)練過(guò)程中,使用Smooth_L1_Loss 函數(shù)平衡較小差異和較大差異之間的影響,計(jì)算建議框與真實(shí)框之間的差異從而調(diào)整建議框的位置。接著,通過(guò)尺度映射函數(shù)(im_info)確定每個(gè)錨框在原始圖像中的位置,并進(jìn)一步判斷其是否超出了原始圖像的邊界。當(dāng)錨框嚴(yán)重超出邊界時(shí),這些錨框就基本不包含目標(biāo)信息,是無(wú)效的且需要被剔除。再利用邊界框回歸來(lái)修正被剔除的錨框并得到最終的建議框。
3)將步驟2)輸入的建議框劃分為相等大小的網(wǎng)格,然后在每個(gè)網(wǎng)格內(nèi)進(jìn)行池化操作,將網(wǎng)格內(nèi)的特征信息聚合為固定大小的輸出,用于后續(xù)的分類和邊界框回歸。
4)將步驟3)得到的特征圖輸入到全連接層和Softmax 分類器,以計(jì)算建議框包含目標(biāo)的概率。全連接層將特征圖轉(zhuǎn)換為一維向量,并通過(guò)Softmax 分類器輸出每個(gè)類別的概率分布,確定建議框中是否包含目標(biāo)。同時(shí),利用邊界框回歸根據(jù)建議框與其對(duì)應(yīng)的真實(shí)框之間的差異,對(duì)建議框的位置進(jìn)行微調(diào),使得最終的目標(biāo)檢測(cè)框更加精確。
NMS 是一種常用的目標(biāo)檢測(cè)算法,用于在多個(gè)重疊的檢測(cè)框中選擇最佳的結(jié)果。它通過(guò)交并比(IoU)篩選和消除冗余的邊界框,從而得到最終的目標(biāo)檢測(cè)結(jié)果,具體可以分為以下7 步:
1)輸入:首先,給定一系列可能包含目標(biāo)的邊界框,每個(gè)邊界框都有一個(gè)置信度分?jǐn)?shù)和位置信息,這些邊界框可以是通過(guò)目標(biāo)檢測(cè)模型生成的候選框。
2)根據(jù)置信度排序:將輸入的邊界框按照置信度分?jǐn)?shù)進(jìn)行降序排序,得到排好序的邊界框列表。
3)選擇最高置信度邊界框:從排好序的邊界框列表中選擇置信度最高的邊界框M,并將其添加到最終的輸出結(jié)果列表中。
4)計(jì)算重疊區(qū)域:對(duì)于剩余的邊界框bi,計(jì)算它們與已選擇的邊界框M 之間的交并比。
5)消除重疊邊界框:對(duì)于與已選擇的邊界框M 重疊超過(guò)一定閾值的邊界框bi,將它們從候選列表中刪除。
6)重復(fù)步驟3)~步驟5),直到所有的邊界框都被處理完畢。
7)輸出結(jié)果:輸出最終的非極大值抑制結(jié)果列表,其中只包含具有最高置信度且沒(méi)有明顯重疊的邊界框。
ROI Pooling 算法首先通過(guò)坐標(biāo)變換將ROI 映射到特征圖上的對(duì)應(yīng)位置,然后將映射后的區(qū)域劃分為固定大小的子區(qū)域,并對(duì)每個(gè)子區(qū)域進(jìn)行最大池化操作,最后將子區(qū)域內(nèi)的特征進(jìn)行壓縮,以生成固定大小的特征圖。整個(gè)步驟可用圖2~圖5 表示。
圖2 輸入的特征圖
假設(shè)特征圖的大小為8×8,有一個(gè)ROI,輸出大小為2×2。
1)輸入固定大小的特征圖,如圖2 所示。
2)候選區(qū)域投影,大小為5×7,如圖3 所示。
圖3 候選區(qū)域投影
3)因輸出大小為2×2,故將其劃分為2×2 個(gè)部分,如圖4 所示。
4)對(duì)每個(gè)部分做最大池化,結(jié)果如圖5 所示。
圖5 最大池化結(jié)果
本文使用的多頭注意力模塊[13]基于CBAM 注意力機(jī)制。
1)在通道注意力模塊中,首先對(duì)輸入的特征圖進(jìn)行全局最大值池化和全局平均池化操作,這兩種池化操作分別用于捕捉特征圖中的最顯著特征和平均特征;接著通過(guò)共享的全連接層將池化后的結(jié)果作為輸入,進(jìn)行融合特征映射的空間信息;然后通過(guò)一個(gè)全連接層進(jìn)行特征的映射和降維,降維后的特征向量被送入第二個(gè)全連接層學(xué)習(xí)不同通道之間的相互關(guān)聯(lián)性;最終通過(guò)使用Sigmoid 非線性激活函數(shù)將全連接層的輸出限制在0~1 之間,以生成每個(gè)通道的權(quán)重。根據(jù)論文ECANet 中提出的觀點(diǎn),在深度卷積神經(jīng)網(wǎng)絡(luò)中,針對(duì)特征圖的某一通道,其與鄰域通道特征的關(guān)聯(lián)性更強(qiáng),因此計(jì)算通道注意力時(shí),若對(duì)所有通道進(jìn)行擬合會(huì)有信息冗余。通過(guò)共享全連接層進(jìn)行降維操作還可能會(huì)導(dǎo)致一些區(qū)域的細(xì)節(jié)信息被抹平或忽略,造成局部信息的丟失。其次,共享全連接層在建模通道之間的相關(guān)性時(shí)沒(méi)有考慮它們?cè)谔卣鲌D上的位置關(guān)系,因此無(wú)法直接捕捉到遠(yuǎn)距離區(qū)域之間的空間相關(guān)性,從而導(dǎo)致精度下降。
綜上所述,本文采用一維卷積代替共享全連接層來(lái)實(shí)現(xiàn)權(quán)重計(jì)算的任務(wù)。一維卷積在保持更多局部信息的同時(shí),具備一定的感受野,可以捕捉到更廣泛的空間相關(guān)性。
2)為了使其提供更豐富的特征表達(dá)能力,對(duì)其引入多頭機(jī)制,從而可以分別對(duì)特征的不同部分進(jìn)行重要性的加權(quán)。該多頭注意力模塊首先將特征圖分成兩部分然后分別進(jìn)入具有相同結(jié)構(gòu)的通道注意力模塊和空間注意力模塊中,最后將他們的輸出特征進(jìn)行加權(quán)求和。MHEAM 的結(jié)構(gòu)如圖6 所示。
圖6 MHEAM 的結(jié)構(gòu)圖
圖6 中:Mc∈RC×1×1代表經(jīng)過(guò)空間壓縮后的通道注意力模塊,Ms∈R1×H×W代表經(jīng)過(guò)通道壓縮后的空間注意力模塊,C、H和W分別代表特征圖的通道數(shù)、高和寬;“⊕”代表相加操作;“?”代表Sigmoid 非線性激活函數(shù);“?”代表逐元素乘法。
改進(jìn)的卷積注意力機(jī)制中的每個(gè)分支結(jié)構(gòu)相同,具體可表示為:
式中:F∈RC×H×W表示每個(gè)分支輸入特征圖;F″ ∈RC×H×W表示每個(gè)分支的輸出。最后再將每個(gè)分支的輸出特征圖加權(quán)求和得到最終輸出。
對(duì)于通道注意力模塊Mc∈RC×1×1,輸入進(jìn)來(lái)的特征層通過(guò)基于寬和高的全局最大池化和全局平均池化操作分別生成兩個(gè)不同空間的上下文描述,記為facvg和;然后分別通過(guò)卷積核大小為k的一維卷積來(lái)計(jì)算權(quán)重,其大小等于聚合的通道信息數(shù)目;最后將得到的權(quán)重相加合并,使用Sigmoid 非線性激活函數(shù)將特征圖中不同通道的重要性進(jìn)行動(dòng)態(tài)調(diào)整后輸出最終的通道注意力特征圖,具體的通道部分計(jì)算公式如下:
式中:表示使用長(zhǎng)度為k的一維卷積,k的大小由輸入特征圖通道數(shù)大小自適應(yīng)決定。k的計(jì)算公式如下:
式中:|·|odd表示取最近的奇數(shù);C表示通道數(shù)。
對(duì)于空間注意力模塊Ms∈R1×H×W,首先把從通道注意力模塊生成的特征圖作為本模塊的輸入,并沿特征圖的通道方向使用通道全局最大值和均值池化操作對(duì)通道信息進(jìn)行壓縮,得到的結(jié)果分別記為∈R1×H×W和∈R1×H×W;然后將和拼接在一起得到一個(gè)雙通道的特征圖;為了保持前后維度一致,方便進(jìn)行特征融合,再使用7×7 大小的標(biāo)準(zhǔn)卷積核f7×7將雙通道的信息進(jìn)行融合和壓縮,轉(zhuǎn)化為單個(gè)通道的特征表示;最后經(jīng)過(guò)Sigmoid 非線性激活函數(shù)輸出最終的空間注意力Ms∈R1×H×W。具體空間部分計(jì)算公式如下:
在傳統(tǒng)NMS 算法中,當(dāng)剩余框bi與置信度最高的M相交且IoU 在預(yù)設(shè)值時(shí),就會(huì)將bi強(qiáng)制刪除導(dǎo)致目標(biāo)漏檢,并且NMS 閾值不易確定,設(shè)置小了會(huì)漏檢,設(shè)置過(guò)高又容易增大誤檢。因此,本文引入Soft-NMS 算法來(lái)替代NMS 算法。
NMS 算法可以寫(xiě)成如下評(píng)分函數(shù):
式中:Si為每個(gè)框被分類器計(jì)算得到的分?jǐn)?shù),i為除得分最大的M 框以外的剩余框按照得分從高到低排列的序號(hào);Nt為預(yù)設(shè)的重疊閾值。相較于傳統(tǒng)NMS 算法,Soft-NMS 算法則通過(guò)使用衰減函數(shù)來(lái)降低重疊邊界框的置信度而不是直接刪除它們,一定程度上解決了漏檢問(wèn)題,評(píng)分函數(shù)如下:
根據(jù)式(7)可知,如果IoU 越大,則對(duì)Si的影響就越大,Si的值就會(huì)變小,對(duì)應(yīng)框的得分也會(huì)相應(yīng)降低,這樣就可以防止直接刪除這些框引起的漏檢情況,從而提高檢測(cè)精度。
傳統(tǒng)的ROI Pooling 使用最近鄰插值對(duì)ROI 區(qū)域內(nèi)的特征進(jìn)行量化,這會(huì)導(dǎo)致部分信息的丟失和空間對(duì)齊不準(zhǔn)確。與之相比,本文采用的ROI Align 算法使用雙線性插值的方式,在特征圖上更精確地定位ROI 區(qū)域內(nèi)的樣本點(diǎn),一定程度上減少了原圖的信息丟失,提高了特征圖的質(zhì)量。ROI Align 的步驟表示如圖7~圖10所示。
圖7 特征圖劃分
1)對(duì)1.3 節(jié)步驟2)中獲取的特征圖轉(zhuǎn)換成2×2 相同規(guī)模的范圍,此過(guò)程不做任何量化處理。特征圖劃分如圖7 所示。
2)將這4 個(gè)模塊內(nèi)部進(jìn)行同樣的處理,再細(xì)分成4 個(gè)規(guī)模相同的區(qū)域,如圖8 所示。
圖8 特征圖再劃分(一)
3)對(duì)于每一個(gè)最小的區(qū)域確定其中心點(diǎn)(圖中用“×”表示),然后使用雙線性插值法得到這個(gè)“×”號(hào)所在位置的值作為最小格子區(qū)域的值,如圖9 所示。
圖9 特征圖再劃分(二)
4)分別取各個(gè)小區(qū)域的最大值,可得4 個(gè)小區(qū)域的4 個(gè)值,作為最終的特征圖輸出結(jié)果,如圖10 所示。
圖10 特征圖最終結(jié)果
圖11 為本文提出的改進(jìn)后的Faster R-CNN 目標(biāo)檢測(cè)模型。該模型首先將主干特征提取網(wǎng)絡(luò)VGG-16[14]替換成參數(shù)量更少且性能更好的ResNet-50[15];接著通過(guò)前向傳播直接將多頭注意力模塊接在最后一個(gè)Identity Block 之后,并進(jìn)行模型訓(xùn)練;然后將ROI Pooling 算法替換為ROI Align 算法;最后在測(cè)試部分使用Soft-NMS替代傳統(tǒng)的非極大抑制NMS。
由圖2可知,實(shí)體煤和支架控頂作用明顯,頂板下沉量小,受充實(shí)率的影響小。充填體控頂作用受充實(shí)率影響明顯,頂板下沉量隨著充實(shí)率的增大而降低,當(dāng)充實(shí)率為 60%,70%,80%,90%,95%,100%時(shí),待充區(qū)工作 面 頂 板 下 沉 量 分 別 為 1m,0.78m,0.55m,0.33m,0.20m,0.11m。充實(shí)率受材料特性、工藝等因素影響,一般充實(shí)率達(dá)到90%以上可以滿足工作面所能承受頂板下沉量的要求。
圖11 改進(jìn)后的Faster R-CNN 結(jié)構(gòu)圖
實(shí)驗(yàn)環(huán)境配置如表1 所示。
表1 實(shí)驗(yàn)環(huán)境配置
實(shí)驗(yàn)所用的數(shù)據(jù)集為PACAL VOC2007 和PACAL VOC2012 的混合數(shù)據(jù),包含20 個(gè)小類別。使用VOC2007 和VOC2012 的Train+Val(16 551)上訓(xùn)練,然后使用VOC2007 的Test(4 952)測(cè)試。PACAL VOC 數(shù)據(jù)集如表2 所示。
表2 PACAL VOC 數(shù)據(jù)集詳細(xì)介紹
本文通過(guò)對(duì)改進(jìn)的Faster R-CNN 目標(biāo)檢測(cè)模型進(jìn)行客觀評(píng)價(jià)和主觀評(píng)價(jià)兩個(gè)方面的評(píng)估來(lái)檢驗(yàn)改進(jìn)效果。在客觀評(píng)價(jià)結(jié)果方面,使用平均正確率(AP)對(duì)每個(gè)類別的檢測(cè)結(jié)果進(jìn)行驗(yàn)證,并通過(guò)計(jì)算平均類別AP(mAP)來(lái)確定模型整體性能,即將所有類別的AP 相加并除以總類別數(shù),AP 由精確度(Precision)和召回率(Recall)構(gòu)成的曲線面積確定;對(duì)于主觀評(píng)價(jià)結(jié)果,通過(guò)對(duì)比改進(jìn)前后的Faster R-CNN 處理后的圖片來(lái)評(píng)估模型的性能,具體就是比較目標(biāo)框的定位精確度和是否存在漏檢和誤檢。
式中:TP 指檢測(cè)器輸出的結(jié)果中正確的個(gè)數(shù);FP 指檢測(cè)器輸出的結(jié)果中錯(cuò)誤的個(gè)數(shù);FN 指Ground Truth 中未被找出的個(gè)數(shù),F(xiàn)N 大小等于Ground Truth 總數(shù)減去TP。
為了檢驗(yàn)改進(jìn)后的Faster R-CNN 目標(biāo)檢測(cè)網(wǎng)絡(luò)的性能提升,分別將其嵌入主干神經(jīng)網(wǎng)絡(luò)為VGG-16 和ResNet-50 的Faster R-CNN 網(wǎng)絡(luò)之中,各類別的AP 和代表整個(gè)Faster R-CNN 網(wǎng)絡(luò)性能的mAP 如表3 所示。FR、FR*、FR**、FR***分別表示原始的,加入ROI Align 算法,加入ROI Align 和Soft-NMS 算法,同時(shí)加入ROI Align、Soft-NMS 和多頭注意力模型的基于VGG-16 主干神經(jīng)網(wǎng)絡(luò)的Faster R-CNN 目標(biāo)檢測(cè)算法;FR′、FR″分別表示原始的,同時(shí)加入ROI Align、Soft-NMS 和多頭注意力模型的基于ResNet-50 主干神經(jīng)網(wǎng)絡(luò)的Faster R-CNN 的目標(biāo)檢測(cè)算法。表中“+”表示改進(jìn)算法與原算法相比的增長(zhǎng)數(shù),“-”表示改進(jìn)算法與原算法相比的減少數(shù)。VGG-16 的Faster R-CNN 改進(jìn)前后的精度對(duì)比如表3 所示。
首先由代表整體Faster R-CNN 的性能指標(biāo)mAP 可知,基于VGG-16 的Faster R-CNN 加入ROI Align 算法后,mAP 值提高了0.66%。驗(yàn)證了ROI Align 算法相比于ROI Pooling 算法能夠減少部分原圖信息的丟失,具有更精確的特征對(duì)齊和提高檢測(cè)精度的能力,是更有效的特征提取方法;模型加入ROI Align 和Soft-NMS 算法后,mAP 值提高了1.31%。說(shuō)明Soft-NMS 相比于傳統(tǒng)的NMS,通過(guò)降低重疊框的置信度來(lái)更好地保留重疊框而不是直接強(qiáng)制刪除,這減少了漏檢情況,提高了檢測(cè)精度;模型同時(shí)加入ROI Align、Soft-NMS 和多頭注意力機(jī)制后,mAP 值提高了3.26%。這驗(yàn)證了本文提出的多頭注意力模型的有效性,它能夠?qū)Ω信d趣區(qū)域特征進(jìn)行增強(qiáng),降低背景的干擾。其次再由單個(gè)檢測(cè)目標(biāo)的精度可知,本文的改進(jìn)方法能提升絕大多數(shù)目標(biāo)類別的檢測(cè)精度,特別在大目標(biāo)和紋理比較清晰的圖片上提升較多,如植物、沙發(fā)、瓶子、奶牛等,最高精度可達(dá)10.19%。同時(shí),由基于ResNet-50 的改進(jìn)前后的Faster R-CNN 性能指標(biāo)可知,主干神經(jīng)網(wǎng)絡(luò)用ResNet-50 替換VGG-16 后整體精度和多數(shù)單個(gè)檢測(cè)目標(biāo)的精度都會(huì)得到提升,整體精度提升了4.73%,單個(gè)目標(biāo)檢測(cè)精度最高提高了10.19%。這是因?yàn)镽esNet-50 相比于VGG-16 引入了殘差連接,可以有效地緩解梯度消失等問(wèn)題;此外,因?yàn)镽esNet-50 的卷積層更多,可以擴(kuò)大模型的感受野,更好地理解圖像中的全局信息和上下文關(guān)系。最后,為了更科學(xué)地體現(xiàn)本文提出的多頭注意力模型對(duì)Faster RCNN 網(wǎng)絡(luò)的提升,對(duì)Faster R-CNN 引入SE-Net、ECANet、CBAM 注意力機(jī)制進(jìn)行消融實(shí)驗(yàn),如表4 所示。
表4 注意力機(jī)制消融實(shí)驗(yàn)
為了更加直觀地體現(xiàn)改進(jìn)的Faster R-CNN 目標(biāo)檢測(cè)算法的有效性,隨機(jī)選取一些圖片放在改進(jìn)前后的模型中進(jìn)行檢測(cè),結(jié)果如圖12 所示。
圖12 檢測(cè)結(jié)果對(duì)比
由檢測(cè)結(jié)果對(duì)比圖可知:改進(jìn)后的Faster R-CNN目標(biāo)檢測(cè)算法提高了對(duì)感興趣目標(biāo)的定位準(zhǔn)確性和檢測(cè)精度,并且減少了漏檢和誤檢情況。從第1 行的對(duì)比圖中可以看出,改進(jìn)后的算法對(duì)感興趣目標(biāo)的定位變得更加準(zhǔn)確,并且對(duì)應(yīng)的置信度得分也得到了提高;從第2 行的對(duì)比圖中可以看到,原本沒(méi)有被檢測(cè)到的植物和汽車被正常檢測(cè),并且人和摩托車的置信度得分也得到了提高,說(shuō)明改進(jìn)的算法不僅降低了漏檢的概率也提高了檢測(cè)精度;從第3 行的對(duì)比圖中可以看到,改進(jìn)算法降低了誤檢的概率,使得被識(shí)別為汽車的摩托車可以被正確識(shí)別,此外被遮擋物體的定位檢測(cè)精度也得到了提升;從第4 行和第5 行的對(duì)比圖中也同樣可以看出,改進(jìn)的Faster R-CNN 目標(biāo)檢測(cè)算法同樣也提高了目標(biāo)物體的定位和檢測(cè)精度,并且有效地降低了漏檢和誤檢概率。
本文提出了一種改進(jìn)的Faster R-CNN 目標(biāo)檢測(cè)網(wǎng)絡(luò)。首先,改進(jìn)的網(wǎng)絡(luò)嵌入了一種不用降維且在保持更多局部信息的同時(shí)可以捕捉到更廣泛的空間相關(guān)性的多頭注意力機(jī)制;其次,使用能夠減少原圖信息丟失的ROI Align 算法替代ROI Pooling 算法;最后,使用能減少漏檢、誤檢的Soft-NMS 算法替代傳統(tǒng)NMS 算法。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的Faster R-CNN 目標(biāo)檢測(cè)算法使得其中單個(gè)目標(biāo)類的檢測(cè)平均精度最高提升了10.19%,而mAP 得到了4.73%的提升,有效地減少了漏檢和誤檢的發(fā)生,并提高了感興趣目標(biāo)框的定位精度。
注:本文通訊作者為王勇。