国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度學(xué)習(xí)應(yīng)用于遮擋目標(biāo)檢測(cè)算法綜述

2022-06-17 07:10孫方偉李承陽(yáng)謝永強(qiáng)李忠博楊才東
計(jì)算機(jī)與生活 2022年6期
關(guān)鍵詞:檢測(cè)器神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)

孫方偉,李承陽(yáng),2,謝永強(qiáng)+,李忠博,楊才東,齊 錦

1.軍事科學(xué)院 系統(tǒng)工程研究院,北京 100141

2.北京大學(xué) 信息科學(xué)技術(shù)學(xué)院,北京 100871

目標(biāo)檢測(cè)是一個(gè)包含目標(biāo)定位和目標(biāo)分類的多任務(wù)學(xué)習(xí)問(wèn)題。2014年,R-CNN(regions with convolutional neural network features)將PASCAL VOC 2012數(shù)據(jù)集上的驗(yàn)證指標(biāo)mAP(mean average precision)大幅度提升了30 個(gè)百分點(diǎn),成功地將深度學(xué)習(xí)應(yīng)用到目標(biāo)檢測(cè)領(lǐng)域。此后,研究者們又相繼提出了一系列優(yōu)秀的模型來(lái)提高目標(biāo)檢測(cè)的性能,并使得深度卷積神經(jīng)網(wǎng)絡(luò)在該領(lǐng)域成為占據(jù)主導(dǎo)地位的網(wǎng)絡(luò)架構(gòu),這些網(wǎng)絡(luò)架構(gòu)按照生成建議框的方式不同可以分為兩類:?jiǎn)坞A段檢測(cè)器和兩階段檢測(cè)器。單階段檢測(cè)器不會(huì)單獨(dú)生成一支用于產(chǎn)生候選區(qū)域的區(qū)域建議網(wǎng)絡(luò)(region proposal network,RPN),所有的任務(wù)都視為一個(gè)回歸問(wèn)題融合在一個(gè)網(wǎng)絡(luò)中解決,代表性的單階段檢測(cè)器有SSD(single shot multi-box detector)、YOLO(you only look once)、RetinaNet等。而兩階段檢測(cè)器先利用RPN 生成候選區(qū)域(或者稱為“感興趣區(qū)域”,region of interest,RoI),然后使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)每個(gè)候選區(qū)域進(jìn)行分類,代表性的兩階段檢測(cè)器除了R-CNN,還有SPP-Net(spatial pyramid pooling net)、Fast R-CNN、Faster R-CNN、R-FCN(region-based fully convolutional network)、Mask R-CNN等。一般情況下,單目標(biāo)檢測(cè)器在檢測(cè)速度上具有優(yōu)勢(shì),而兩階段檢測(cè)器在檢測(cè)準(zhǔn)確度上具有優(yōu)勢(shì)。

雖然深度學(xué)習(xí)促進(jìn)了目標(biāo)檢測(cè)的發(fā)展,但是在現(xiàn)實(shí)場(chǎng)景中,由于遮擋的存在,使得目標(biāo)檢測(cè)仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。人類視覺(jué)系統(tǒng)可以使人類能夠在物體部分信息被遮擋或者丟失的情況下,也能通過(guò)場(chǎng)景中存在的輪廓來(lái)延續(xù)和推斷,以此來(lái)判斷物體的屬性。然而,基于深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)系統(tǒng)完成遮擋物體的有效檢測(cè)還很困難。為了應(yīng)對(duì)遮擋問(wèn)題,目前已經(jīng)有多篇論文提出了遮擋檢測(cè)優(yōu)化算法。在最近的文獻(xiàn)中,Chen 等人針對(duì)行人檢測(cè)中的遮擋問(wèn)題進(jìn)行了分析,Saleh 等人針對(duì)戶外和室內(nèi)場(chǎng)景中一般目標(biāo)檢測(cè)中的遮擋處理方法進(jìn)行了簡(jiǎn)要概述,但是都沒(méi)有涉及對(duì)基于深度學(xué)習(xí)的遮擋目標(biāo)檢測(cè)算法進(jìn)行系統(tǒng)性的總結(jié)歸納??紤]到遮擋問(wèn)題在實(shí)際生活場(chǎng)景中的普遍性以及處理該問(wèn)題的重要性,本文將基于深度學(xué)習(xí)的遮擋檢測(cè)優(yōu)化算法分為目標(biāo)結(jié)構(gòu)、損失函數(shù)、非極大值抑制算法和部分語(yǔ)義四個(gè)改進(jìn)方向,并以此展開(kāi)對(duì)各遮擋檢測(cè)算法進(jìn)行歸納分析。另外,本文的工作只針對(duì)靜止圖像的目標(biāo)檢測(cè),運(yùn)動(dòng)視頻以及3D 圖像等領(lǐng)域不在討論范圍。

1 問(wèn)題與挑戰(zhàn)

遮擋是目標(biāo)檢測(cè)中常見(jiàn)的問(wèn)題,對(duì)其有效解決在行人檢測(cè)、目標(biāo)跟蹤、人臉識(shí)別、立體成像、自動(dòng)駕駛、汽車檢測(cè)等方面有重要價(jià)值。

根據(jù)目標(biāo)的遮擋程度,遮擋可以分為無(wú)遮擋(0%)、輕度遮擋(1%~10%)和部分遮擋(10%~35%)、嚴(yán)重遮擋(35%~80%)和完全遮擋(≥80%)。由于輕度遮擋和部分遮擋在數(shù)據(jù)集中占據(jù)的比例最高,相比于整體數(shù)據(jù)集能夠更具代表性,通常將二者合并稱為一般遮擋(1%~35%)進(jìn)行研究。目前的研究將不同遮擋程度作為條件來(lái)綜合評(píng)估檢測(cè)器的性能;根據(jù)遮擋物體與被遮擋物體之間的關(guān)系,遮擋可以分為待檢測(cè)的目標(biāo)之間相互遮擋和待檢測(cè)的目標(biāo)被非目標(biāo)物體遮擋,前一種遮擋情況由于檢測(cè)器能夠在訓(xùn)練樣本中學(xué)習(xí)到所有目標(biāo)物體的特征,在樣本充足的情況下,優(yōu)化檢測(cè)的方式比較多,而后一種遮擋情況由于缺乏遮擋物體的標(biāo)注信息,對(duì)非目標(biāo)的處理比較困難。

處理遮擋問(wèn)題的困難在于:(1)由于數(shù)據(jù)集和遮擋復(fù)雜性的影響,分類器無(wú)法學(xué)習(xí)所有的遮擋情況,F(xiàn)awzi和Frossard驗(yàn)證了在部分遮擋下,深度卷積神經(jīng)網(wǎng)絡(luò)不具有魯棒性;(2)遮擋干擾了特征提取,相互遮擋的兩個(gè)目標(biāo)可能具有非常相似的特性,導(dǎo)致檢測(cè)器無(wú)法準(zhǔn)確區(qū)分進(jìn)行預(yù)測(cè);(3)遮擋時(shí)由于預(yù)測(cè)框之間可能會(huì)嚴(yán)重重疊,因此不同目標(biāo)的預(yù)測(cè)框可能被非極大值抑制(non-maximum suppression,NMS)算法看作一個(gè)目標(biāo)的預(yù)測(cè)而錯(cuò)誤地抑制,造成漏檢的發(fā)生。

2 遮擋數(shù)據(jù)集

隨著深度神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測(cè)領(lǐng)域的應(yīng)用,數(shù)據(jù)集的好壞很大程度上影響著檢測(cè)器的性能和泛化能力。通用的目標(biāo)檢測(cè)常用數(shù)據(jù)集包括PASCAL VOC、MS-COCO、ImageNet和Open Images等。這些常用的數(shù)據(jù)集已經(jīng)廣泛應(yīng)用到評(píng)估各種檢測(cè)算法的有效性中。但是這些通用數(shù)據(jù)集幾乎不具備遮擋條件,對(duì)遮擋檢測(cè)算法的適用性較低,無(wú)法準(zhǔn)確評(píng)估算法的性能。因此,針對(duì)遮擋場(chǎng)景還構(gòu)造了特定的遮擋數(shù)據(jù)集,較為常用的有KITTI 數(shù)據(jù)集、Caltech數(shù)據(jù)集、CityPersons 數(shù)據(jù)集、VehicleOcclusion 數(shù)據(jù)集以及CrowdHuman 數(shù)據(jù)集等。

KITTI數(shù)據(jù)集是目前國(guó)際上最大的自動(dòng)駕駛場(chǎng)景的測(cè)評(píng)數(shù)據(jù)集,由德國(guó)卡爾斯魯厄理工學(xué)院和豐田美國(guó)技術(shù)研究院聯(lián)合創(chuàng)建。KITTI 數(shù)據(jù)集由7 481張訓(xùn)練圖片和7 518 張測(cè)試圖片組成,包含市區(qū)、鄉(xiāng)村和高速公路等場(chǎng)景采集的真實(shí)圖片,有80 256 個(gè)標(biāo)記對(duì)象,包括行人、汽車、自行車和特定遮擋的注釋。每張圖片中最多包含15 輛車和30 個(gè)行人,還有各種程度的遮擋。

Caltech 行人數(shù)據(jù)集是Dollar等人提出的一個(gè)大型行人檢測(cè)數(shù)據(jù)集,其包含了25 萬(wàn)幀分辨率為600×480 像素的圖像序列,這些圖像主要拍攝于城市環(huán)境中。在Caltech 數(shù)據(jù)集中,一共對(duì)350 000 個(gè)邊界框和2 300 個(gè)獨(dú)立行人進(jìn)行了注釋,包括邊界框和詳細(xì)的遮擋標(biāo)簽之間的對(duì)應(yīng)關(guān)系。

CityPersons 數(shù)據(jù)集建立在語(yǔ)義分割數(shù)據(jù)集Cityscapes 的基礎(chǔ)上,是目前較為常用的行人檢測(cè)數(shù)據(jù)集。該數(shù)據(jù)集中的圖像場(chǎng)景涵蓋了德國(guó)18 個(gè)不同城市的3 個(gè)不同季節(jié)和各種天氣,其中包含2 975 張圖片用于訓(xùn)練,500 張圖片用于驗(yàn)證,以及1 525 張圖片用于測(cè)試。數(shù)據(jù)集對(duì)大約35 000 個(gè)行人目標(biāo)進(jìn)行了邊界框標(biāo)注和可見(jiàn)部分標(biāo)注。

VehicleOcclusion數(shù)據(jù)集是在VehicleSemanticPart數(shù)據(jù)集的基礎(chǔ)上合成的遮擋數(shù)據(jù)集,是一個(gè)關(guān)于飛機(jī)、自行車、公交車、汽車、摩托車和火車六種類型車輛的數(shù)據(jù)集,包含4 549 張訓(xùn)練圖像和4 507 張測(cè)試圖像。在VehicleOcclusion 數(shù)據(jù)集中,作為目標(biāo)的車輛隨機(jī)被2~4 個(gè)非目標(biāo)物體遮擋,并且遮擋比例受到約束。同時(shí),VehicleOcclusion 數(shù)據(jù)集對(duì)遮擋信息進(jìn)行了準(zhǔn)確注釋,如遮擋物的類別和遮擋物的數(shù)量。

CrowdHuman 數(shù)據(jù)集是曠視科技發(fā)布的用于行人檢測(cè)的數(shù)據(jù)集,圖片數(shù)據(jù)大多來(lái)自于網(wǎng)絡(luò)。該數(shù)據(jù)集中包含15 000 張圖片用于訓(xùn)練,4 370 張圖片用于驗(yàn)證,以及5 000 張圖片用于測(cè)試,每張圖片中大約包含23 個(gè)人并存在各種各樣的遮擋。另外,CrowdHuman 數(shù)據(jù)集對(duì)每個(gè)人類目標(biāo)都分別對(duì)其頭部、人體可見(jiàn)區(qū)域和人體全身進(jìn)行邊界框注釋。

除了前面介紹的幾種遮擋數(shù)據(jù)集,研究者們還提出了其他的遮擋數(shù)據(jù)集,例如PETS、DYCE 數(shù)據(jù)集、TUT 數(shù)據(jù)集、BigBird數(shù)據(jù)集等,但是并未被廣泛使用。為了生成遮擋圖像,除了在真實(shí)環(huán)境中采樣,還有的工作聚焦在使用計(jì)算機(jī)合成,例如Wang 等人使用生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)。表1 展示了部分遮擋檢測(cè)數(shù)據(jù)集的有關(guān)信息和使用場(chǎng)景。

3 遮擋目標(biāo)檢測(cè)算法

從目標(biāo)檢測(cè)任務(wù)來(lái)看,處理遮擋問(wèn)題的一個(gè)直接方法是直接訓(xùn)練一個(gè)應(yīng)對(duì)遮擋情況的網(wǎng)絡(luò)模型,但這種做法是極其困難的,因?yàn)槟繕?biāo)的遮擋情況是極其復(fù)雜的,這也就導(dǎo)致難以收集一個(gè)涵蓋眾多遮擋情況的數(shù)據(jù)集。為此,有研究者通過(guò)數(shù)據(jù)增強(qiáng)的方式來(lái)提高現(xiàn)有遮擋數(shù)據(jù)集的質(zhì)量。除了進(jìn)行數(shù)據(jù)增強(qiáng),當(dāng)前遮擋目標(biāo)檢測(cè)算法主要包括兩種類別:一個(gè)是改進(jìn)基于整體特征的檢測(cè)算法,另一個(gè)是改進(jìn)基于部分語(yǔ)義的檢測(cè)算法。二者的區(qū)別在于利用的輸入圖像特征不同,前者對(duì)輸入圖像特征提取后的特征圖進(jìn)行整體分析,這種方式不會(huì)丟棄特征信息,可以對(duì)特征進(jìn)行充分利用;而后者對(duì)神經(jīng)網(wǎng)絡(luò)的中間層特征信息進(jìn)行局部聚類分析,丟棄掉不具有語(yǔ)義部分的信息,這種方式可以提高算法的魯棒性,降低遮擋產(chǎn)生的噪聲影響。圖1 展示了本章所介紹算法的總體分類。

表1 遮擋目標(biāo)檢測(cè)數(shù)據(jù)集Table 1 Datasets of occlusion object detection

圖1 算法分類Fig.1 Algorithm classification

3.1 基于數(shù)據(jù)增強(qiáng)的檢測(cè)算法

Devries和Taylor為了防止卷積神經(jīng)網(wǎng)絡(luò)容易過(guò)擬合,導(dǎo)致對(duì)遮擋的適應(yīng)性很差,他們提出了一種正則化技術(shù)來(lái)進(jìn)行數(shù)據(jù)增強(qiáng),稱之為“Cutout”。Cutout類似于Dropout,都是丟棄一部分的特征來(lái)增強(qiáng)神經(jīng)網(wǎng)絡(luò)的魯棒性。區(qū)別在于,Cutout是在網(wǎng)絡(luò)的輸入階段丟棄而不是在中間層丟棄,這種方法使輸入圖像刪除的特征可以在后續(xù)特征圖中刪除,而Dropout可能使得隨機(jī)刪除的特征仍然存在于其他維的特征圖中。

Cutout和Dropout刪除特征的方式是通過(guò)覆蓋黑色像素或者隨機(jī)噪聲來(lái)去除訓(xùn)練圖像上的像素信息。Yun 等人認(rèn)為這種刪除方式會(huì)導(dǎo)致信息丟失和訓(xùn)練中的效率低下。為此,他們提出了一種新的正則化方式,稱為“CutMix”。CutMix 的策略是從訓(xùn)練圖像之間剪切和粘貼遮擋塊來(lái)進(jìn)行圖像增強(qiáng)并且將目標(biāo)區(qū)域也按比例混合到合并圖像中,這樣在訓(xùn)練過(guò)程中可以避免無(wú)信息像素的消極影響,使訓(xùn)練更加有效。通過(guò)實(shí)驗(yàn)驗(yàn)證,這種正則化方式要優(yōu)于Cutout。

類似的,在進(jìn)行行人重識(shí)別任務(wù)中,為了應(yīng)對(duì)行人遮擋情況,厙向陽(yáng)等人提出了隨機(jī)擦除算法,通過(guò)一個(gè)概率矩陣來(lái)覆蓋原圖像并對(duì)覆蓋區(qū)域進(jìn)行隨機(jī)像素賦值。

數(shù)據(jù)增強(qiáng)通過(guò)在原始圖像中添加噪聲來(lái)模擬遮擋情形,使得神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)到主要的特征信息,降低遮擋情況下不相關(guān)特征信息的影響,從而提高網(wǎng)絡(luò)模型對(duì)遮擋圖像的魯棒性,防止過(guò)擬合。這種方法雖然可以在一定程度上解決遮擋問(wèn)題,但是并不符合真實(shí)環(huán)境中的遮擋情況,因此,大多數(shù)的遮擋檢測(cè)算法關(guān)注于遮擋檢測(cè)算法本身的結(jié)構(gòu)優(yōu)化。

3.2 基于整體特征的檢測(cè)算法

對(duì)通用目標(biāo)檢測(cè)算法的改進(jìn)是當(dāng)前研究的主流方向,雖然改進(jìn)的角度有所不同,但是其都是利用特征提取后的特征圖進(jìn)行整體分析,使得最終的預(yù)測(cè)框盡可能地靠近目標(biāo)真實(shí)的邊界框。目前基于整體特征的檢測(cè)算法可以分為三個(gè)方向:基于目標(biāo)結(jié)構(gòu)的改進(jìn),基于損失函數(shù)的改進(jìn),基于非極大值抑制算法的改進(jìn)。

神經(jīng)網(wǎng)絡(luò)的核心在于獲取的特征信息,當(dāng)圖像特征信息被干擾時(shí),神經(jīng)網(wǎng)絡(luò)無(wú)法正確處理干擾下的特征,導(dǎo)致卷積神經(jīng)網(wǎng)絡(luò)的魯棒性較差。遮擋條件下,目標(biāo)特征信息缺失,使得最先進(jìn)的深度網(wǎng)絡(luò)模型應(yīng)用在遮擋數(shù)據(jù)集上時(shí),效果會(huì)比無(wú)遮擋情況顯著下降。為了應(yīng)對(duì)遮擋情況,根據(jù)遮擋目標(biāo)的結(jié)構(gòu)特征,利用先驗(yàn)知識(shí)和目標(biāo)可見(jiàn)部分結(jié)構(gòu)信息設(shè)計(jì)檢測(cè)器來(lái)提高遮擋檢測(cè)性能是一種可行的解決方案。

(1)部件檢測(cè)器

Tian 等人針對(duì)遮擋行人提出了由部分檢測(cè)器組成的DeepParts 模型。該模型將人體劃分成六部分,并對(duì)應(yīng)定義了45 個(gè)部分原型來(lái)分別訓(xùn)練卷積網(wǎng)絡(luò)部件檢測(cè)器,然后通過(guò)互補(bǔ)的部件檢測(cè)器中的最高得分來(lái)推斷整個(gè)行人。部件檢測(cè)器作為整體的組成部分,在處理遮擋問(wèn)題時(shí)可以有效利用可見(jiàn)部分的結(jié)構(gòu)信息,但是DeepParts 是單獨(dú)訓(xùn)練各個(gè)部件檢測(cè)器,忽略了部分之間的相關(guān)性,并且部件檢測(cè)器所消耗的計(jì)算資源隨著定義的部件檢測(cè)器數(shù)量線性增加。

為了解決單獨(dú)訓(xùn)練部件檢測(cè)器的不相關(guān)性,Zhou等人提出了多標(biāo)簽學(xué)習(xí)方法來(lái)聯(lián)合學(xué)習(xí)部件檢測(cè)器。對(duì)于每個(gè)部件檢測(cè)器將該部分存在的整體圖像作為訓(xùn)練數(shù)據(jù);為了避免某些部件檢測(cè)器因?yàn)檎趽醍a(chǎn)生的噪聲分?jǐn)?shù),聯(lián)合學(xué)習(xí)將20 個(gè)部件檢測(cè)器中15個(gè)最高得分進(jìn)行平均化處理作為最終的整體分?jǐn)?shù)。這種聯(lián)合學(xué)習(xí)的方式有效提高了部件檢測(cè)器的檢測(cè)精度,但是不能擺脫單獨(dú)訓(xùn)練部件檢測(cè)器所需要的大量計(jì)算資源。

為此,不同于單獨(dú)訓(xùn)練部件檢測(cè)器,Zhang 等人將目標(biāo)的結(jié)構(gòu)信息集成到一個(gè)網(wǎng)絡(luò)中,提出了ORCNN(occlusion-aware R-CNN)網(wǎng)絡(luò)。其在Faster RCNN 的基礎(chǔ)上進(jìn)行改進(jìn),設(shè)計(jì)了部分遮擋感知區(qū)域(part occlusion-aware region of interest,PORoI)池 化單元來(lái)代替RoI 池化層,將人體的先驗(yàn)結(jié)構(gòu)信息和可見(jiàn)性預(yù)測(cè)融合到檢測(cè)器的Fast R-CNN 模塊中來(lái)估計(jì)每個(gè)部分的遮擋狀態(tài)。PORoI 池化單元通過(guò)先驗(yàn)知識(shí)將行人劃分成五部分,將各部分的特征信息進(jìn)行融合,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。由于OR-CNN 的所有網(wǎng)絡(luò)單元都是集成在一個(gè)網(wǎng)絡(luò)當(dāng)中,能夠進(jìn)行端到端的預(yù)測(cè),因此在檢測(cè)速度上會(huì)優(yōu)于單獨(dú)訓(xùn)練各個(gè)部分檢測(cè)器。

區(qū)域全卷積網(wǎng)絡(luò)(R-FCN)的局部響應(yīng)特性通過(guò)將目標(biāo)劃分成多個(gè)部件進(jìn)行檢測(cè),對(duì)遮擋情況有良好的適應(yīng)性,但是失去了對(duì)全局特征的判斷。Zhu 等人在R-FCN 的位置敏感區(qū)域(position-sensitive RoI,PSRoI)池化的基礎(chǔ)上增加了RoI 池化,提出了CoupleNet。該網(wǎng)絡(luò)將PSRoI 對(duì)目標(biāo)的局部響應(yīng)特性和RoI 對(duì)目標(biāo)的全局響應(yīng)特性相結(jié)合,提升了特征信息的表達(dá)能力,如圖3。而Liu 等人則在R-FCN 基礎(chǔ)上增加了多層特征提取網(wǎng)絡(luò),將每一層的特征信息進(jìn)行融合,在保證網(wǎng)絡(luò)能夠處理遮擋問(wèn)題的同時(shí),使尺度變化較大目標(biāo)尤其是小目標(biāo)的檢測(cè)得到提升。

(2)頭-身聯(lián)合檢測(cè)

除了將目標(biāo)按照結(jié)構(gòu)進(jìn)行全部部件檢測(cè),考慮到正常情況下,行人檢測(cè)的特殊性在于被遮擋的部分通常位于人體的下半部分,而人頭是最為常見(jiàn)的可見(jiàn)區(qū)域,因此頭部信息提供了一個(gè)很好的線索來(lái)檢索全身。但是問(wèn)題的關(guān)鍵在于,如何將頭部和身體進(jìn)行可靠的聯(lián)系。Chi 等人提出了JointDet 網(wǎng)絡(luò)來(lái)進(jìn)行頭部和人體的聯(lián)合檢測(cè),如圖4。其動(dòng)機(jī)在于:①單獨(dú)的頭部檢測(cè)往往會(huì)產(chǎn)生大量的假陽(yáng)性;②單純的人體檢測(cè)使得檢測(cè)其性能大幅下降。因此,將二者聯(lián)合檢測(cè)既能抑制頭部檢測(cè)的假陽(yáng)性,又能提高人體檢測(cè)的性能。JointDet 先從RPN 直接得到頭部建議框,然后通過(guò)統(tǒng)計(jì)規(guī)律得到頭部和身體的比例來(lái)產(chǎn)生人體建議框,兩種建議框通過(guò)關(guān)系組合模塊(relation discriminating module,RDM)來(lái)完成最終的預(yù)測(cè)。

圖2 PORoI和遮擋處理單元結(jié)構(gòu)圖Fig.2 Architecture of PORoI and occlusion process unit

圖3 CoupleNet模型結(jié)構(gòu)Fig.3 Architecture of CoupleNet

圖4 JointDet網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of JointDet

JointDet采用的頭部和身體聯(lián)合檢測(cè)策略雖然能夠有效提高遮擋人群的檢測(cè)性能,但是其缺點(diǎn)也是顯而易見(jiàn)的:受頭部和身體通過(guò)統(tǒng)計(jì)比例進(jìn)行組合策略的影響,雖然這種策略簡(jiǎn)單易實(shí)現(xiàn),但是JointDet所能適用的范圍過(guò)于狹窄,只能檢測(cè)正常的站立行人,如果行人發(fā)生姿態(tài)變化,就會(huì)大幅度影響JointDet的性能。

Zhang 等人采用了另一種頭部和身體的組合策略,提出了雙錨框網(wǎng)絡(luò)(double anchor R-CNN,DARCNN)。為了充分利用頭部檢測(cè)的高召回率,DARCNN 不通過(guò)統(tǒng)計(jì)比例來(lái)確定頭部和身體的組合關(guān)系,而是從RPN 中生成頭部或者身體建議框后,再?gòu)拿總€(gè)建議框強(qiáng)制回歸出另一個(gè)建議框,這樣就形成了頭-身組合,在對(duì)融合特征進(jìn)行分類定位后通過(guò)設(shè)置的非極大值抑制算法完成最終的預(yù)測(cè),如圖5。相對(duì)于JointDet,DA-RCNN 由于頭部和身體的組合過(guò)程使用回歸的方式涉及到了更多的場(chǎng)景,因此具有更強(qiáng)的適應(yīng)性,但是會(huì)占用更多的計(jì)算資源。另外,頭-身聯(lián)合檢測(cè)需要數(shù)據(jù)集對(duì)目標(biāo)的頭部和身體分別進(jìn)行標(biāo)注,而現(xiàn)有的公共遮擋數(shù)據(jù)集大多數(shù)未對(duì)頭部進(jìn)行單獨(dú)標(biāo)注,因此需要后續(xù)的相關(guān)工作來(lái)提供更加可靠的數(shù)據(jù)集。

圖5 DA-RCNN 結(jié)構(gòu)圖Fig.5 Network structure of DA-RCNN

(3)多目標(biāo)檢測(cè)

除了通過(guò)目標(biāo)結(jié)構(gòu)對(duì)目標(biāo)進(jìn)行分解檢測(cè),Chu 等人考慮到在遮擋條件下目標(biāo)相互重疊,如果一個(gè)建議框?qū)?yīng)于任何一個(gè)對(duì)象,那它很可能會(huì)與所有其他目標(biāo)重疊。針對(duì)一個(gè)建議框預(yù)測(cè)一個(gè)目標(biāo)的局限性,他們?cè)贔PN和RoI-Align為網(wǎng)絡(luò)框架的基礎(chǔ)上,增加了EMD(earth mover's distance)Loss、Set NMS和Refinement Module 模塊,提出了一個(gè)建議框預(yù)測(cè)多個(gè)目標(biāo)的網(wǎng)絡(luò)模型CrowdDet,如圖6。圖中EMD Loss 是一個(gè)包含分類損失和定位損失的多任務(wù)損失,使建議框的多個(gè)預(yù)測(cè)對(duì)應(yīng)最優(yōu)的目標(biāo);Set NMS是針對(duì)多實(shí)例預(yù)測(cè)方法提出的一種避免不同建議框之間重復(fù)預(yù)測(cè)的非極大值抑制優(yōu)化方法;Refinement Module 是為了降低多目標(biāo)預(yù)測(cè)的每個(gè)建議框都預(yù)測(cè)一組實(shí)例而產(chǎn)生誤報(bào)的風(fēng)險(xiǎn),將預(yù)測(cè)框與特征信息相結(jié)合,進(jìn)行第二輪預(yù)測(cè)來(lái)優(yōu)化最終的預(yù)測(cè)結(jié)果。通過(guò)實(shí)驗(yàn)驗(yàn)證,只有將多實(shí)例預(yù)測(cè)和Set-NMS 結(jié)合使用,才能顯著提高擁擠場(chǎng)景中的人群檢測(cè)精度。CrowdDet 打破了一對(duì)一的傳統(tǒng)檢測(cè)模式,提供了一種新的檢測(cè)思路,但是如何為每個(gè)建議框設(shè)置一個(gè)合理的檢測(cè)數(shù)量并沒(méi)有合理解決,后續(xù)的工作應(yīng)該使得該算法能夠自適應(yīng)地確定檢測(cè)數(shù)量:在密集遮擋場(chǎng)景中應(yīng)該實(shí)行一對(duì)多的檢測(cè)策略,而在正常場(chǎng)景中應(yīng)該遵循一對(duì)一的傳統(tǒng)檢測(cè)策略。

圖6 多目標(biāo)預(yù)測(cè)總體結(jié)構(gòu)Fig.6 Architecture of multi-target prediction

在CrowdDet 的基礎(chǔ)上,Shao 等人為了進(jìn)一步提高檢測(cè)精度,提出了一種基于ResNet 的多尺度特征金字塔網(wǎng)絡(luò)(multi-scale feature pyramid network,MFPN)。受FPN 通過(guò)不同特征層進(jìn)行特征融合來(lái)提高目標(biāo)檢測(cè)精度的啟發(fā),MFPN 對(duì)各尺度特征層進(jìn)行池化固定大小后,采用兩層自底向上和自頂向下的雙特征金字塔網(wǎng)絡(luò)(double feature pyramid network,DFRN)作為最終的特征層輸出,以增強(qiáng)遮擋目標(biāo)的特征信息。同時(shí),MFPN 還對(duì)EMD Loss 進(jìn)行適當(dāng)?shù)膬?yōu)化,提出了最小斥力損失(repulsion loss of minimum,RLM)來(lái)考慮不同建議框之間的關(guān)系。通過(guò)實(shí)驗(yàn)驗(yàn)證,MFPN 能夠提高遮擋目標(biāo)的檢測(cè)精度。這也表明,在目標(biāo)特征信息缺失的情況下,通過(guò)特征信息融合來(lái)增強(qiáng)目標(biāo)的特征信息能夠有效提高目標(biāo)的檢測(cè)概率,但是其仍然沒(méi)有克服自適應(yīng)性不足的缺陷。

利用目標(biāo)的結(jié)構(gòu)信息將目標(biāo)劃分,并利用可見(jiàn)部分進(jìn)行檢測(cè)可以有效降低遮擋物的影響,但是部件檢測(cè)器的計(jì)算復(fù)雜度較高,頭-身聯(lián)合檢測(cè)的適用性較低且對(duì)數(shù)據(jù)集要求較高,多目標(biāo)預(yù)測(cè)的預(yù)測(cè)數(shù)量自適應(yīng)性不足都限制了基于目標(biāo)結(jié)構(gòu)進(jìn)行遮擋檢測(cè)的發(fā)展,如何更加有效利用可見(jiàn)部分來(lái)解決上述問(wèn)題進(jìn)行目標(biāo)整體的推斷仍然需要進(jìn)一步研究。

深度神經(jīng)網(wǎng)絡(luò)模型從訓(xùn)練數(shù)據(jù)中獲取最優(yōu)參數(shù)是一個(gè)不斷學(xué)習(xí)的過(guò)程,這一過(guò)程以損失函數(shù)為指標(biāo)。損失函數(shù)可以直觀地表示神經(jīng)網(wǎng)絡(luò)性能的優(yōu)劣,即訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)模型與訓(xùn)練數(shù)據(jù)在多大程度上不擬合,或者說(shuō)神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果與實(shí)際結(jié)果在多大程度上不一致。通過(guò)合理地調(diào)整損失函數(shù)的算法結(jié)構(gòu),能夠提高深度神經(jīng)網(wǎng)絡(luò)的性能。除了常見(jiàn)的均方誤差損失函數(shù)、交叉熵誤差損失函數(shù)、L1 損失函數(shù)、L2 損失函數(shù)等,為了提高檢測(cè)器的檢測(cè)性能,又相繼提出了IoU Loss、Focal Loss、GIoU Loss、DIoU Loss、EIoU Loss等一系列損失函數(shù)。

Wang 等人通過(guò)實(shí)驗(yàn)驗(yàn)證了當(dāng)前損失函數(shù)構(gòu)造的目標(biāo)檢測(cè)器在檢測(cè)遮擋人群存在局限性,因此提出了一種針對(duì)遮擋人群的邊界框回歸損失函數(shù),稱為Repulsion Loss。該損失由兩個(gè)動(dòng)機(jī)驅(qū)動(dòng):目標(biāo)對(duì)建議框的吸引力和周圍目標(biāo)對(duì)建議的排斥力。斥力因素阻止了建議框向周圍目標(biāo)物體的轉(zhuǎn)移,從而導(dǎo)致了更好的遮擋人群定位。Repulsion Loss 也是首次提出從損失函數(shù)的角度來(lái)解決遮擋問(wèn)題,使網(wǎng)絡(luò)在自動(dòng)學(xué)習(xí)的過(guò)程中不斷提升定位性能,為后續(xù)的遮擋檢測(cè)算法提供了新的解決方案。

Zhang 等人在提出的OR-CNN 網(wǎng)絡(luò)中,在Faster R-CNN 的區(qū)域建議網(wǎng)絡(luò)和Fast R-CNN 模塊使用了新的損失函數(shù)Aggregation Loss,它是一個(gè)包含分類損失和定位損失的多任務(wù)損失來(lái)推動(dòng)建議框接近相應(yīng)的目標(biāo)真實(shí)邊界框,同時(shí)最小化與同一對(duì)象相關(guān)的建議框之間的區(qū)域距離,以此來(lái)強(qiáng)制建議框靠近并且定位到相應(yīng)的目標(biāo)對(duì)象。通過(guò)實(shí)驗(yàn)驗(yàn)證,Aggregation Loss在相同檢測(cè)框架下要比Repulsion Loss有效。

大多數(shù)損失函數(shù)通過(guò)位置回歸來(lái)計(jì)算損失值,但是在后處理中卻使用交并比(intersection over union,IoU)來(lái)抑制預(yù)測(cè)框的選擇,忽略了二者之間的聯(lián)系,低IoU 的預(yù)測(cè)框應(yīng)該具有更高的損失值才能保證最終的預(yù)測(cè)結(jié)果更加接近目標(biāo)邊界框,為此Rezatofighi等人提出了GIoU(generalized intersection over union)來(lái)解決這個(gè)問(wèn)題。為了使GIoU 提高對(duì)遮擋物體的檢測(cè)性能,陽(yáng)珊等人將Repulsion Loss 和GIoU Loss相結(jié)合,提出了Rep-GIoU Loss。新?lián)p失函數(shù)結(jié)合了二者的優(yōu)勢(shì),在增加回歸參數(shù)與IoU 間相關(guān)性的同時(shí)阻止建議框向周圍目標(biāo)的偏移,提高了對(duì)遮擋目標(biāo)的檢測(cè)性能,但是隨著建議框生成網(wǎng)絡(luò)的完善,高置信度的預(yù)測(cè)框極少會(huì)發(fā)生IoU 偏移,因此該算法的作用并不太明顯。

除了直接從IoU的角度修改損失函數(shù),Luo等人將NMS 算法也參與到網(wǎng)絡(luò)模型的訓(xùn)練中,提出了NMS Loss。NMS Loss 考慮了假陽(yáng)性和假陰性(IoU過(guò)高易產(chǎn)生假陰性,IoU 過(guò)低易產(chǎn)生假陽(yáng)性)對(duì)目標(biāo)檢測(cè)結(jié)果的影響,對(duì)假陽(yáng)性沒(méi)有被抑制而假陰性被NMS 錯(cuò)誤地刪除進(jìn)行懲罰,使得相同目標(biāo)的預(yù)測(cè)離得很近,以及不同目標(biāo)的預(yù)測(cè)離得很遠(yuǎn)。但是NMS Loss 只適用于單類目標(biāo)的檢測(cè),其在一般檢測(cè)中的使用仍需要進(jìn)一步的研究。

損失函數(shù)作為檢測(cè)結(jié)果的評(píng)價(jià)指標(biāo),是檢測(cè)器必不可少的組成成分,損失值能夠直觀地體現(xiàn)出檢測(cè)器性能,通過(guò)改進(jìn)損失函數(shù)來(lái)改善檢測(cè)器在遮擋環(huán)境下的性能是代價(jià)最小且最具解釋性的方式之一,但是大多數(shù)損失函數(shù)的設(shè)計(jì)并沒(méi)有考慮遮擋條件的復(fù)雜性,從損失函數(shù)角度來(lái)單獨(dú)應(yīng)對(duì)遮擋環(huán)境的研究還比較少。表2 對(duì)幾種損失函數(shù)的結(jié)構(gòu)進(jìn)行了說(shuō)明。

為了刪除網(wǎng)絡(luò)生成的冗余預(yù)測(cè)框,大多數(shù)檢測(cè)器都會(huì)使用NMS 算法進(jìn)行處理,其工作原理是:(1)將所有預(yù)測(cè)框按照置信度得分降序排列,選中置信度最高的預(yù)測(cè)框;(2)遍歷其余的預(yù)測(cè)框,如果和當(dāng)前最高得分預(yù)測(cè)框之間的IoU 大于設(shè)定的閾值,就將該預(yù)測(cè)框刪除;(3)從未處理的預(yù)測(cè)框選出置信度得分最高的預(yù)測(cè)框,重復(fù)以上操作,直到所有的預(yù)測(cè)框都被處理過(guò)。

在非遮擋或者目標(biāo)分布稀疏的情況下,NMS 確實(shí)可以有效地刪除冗余的預(yù)測(cè)框,保證每個(gè)目標(biāo)都有唯一的最佳建議框與其對(duì)應(yīng),但是在遮擋條件下,由于目標(biāo)相互重疊,可能會(huì)導(dǎo)致不同目標(biāo)的最佳建議框之間大面積重疊,導(dǎo)致NMS 錯(cuò)誤抑制,進(jìn)而導(dǎo)致漏檢的發(fā)生。漏檢是因?yàn)閭鹘y(tǒng)的NMS 抑制方式過(guò)于暴力——與置信度得分高的預(yù)測(cè)框重疊面積大于閾值直接刪除,因而傳統(tǒng)的NMS 也被稱為Greedy-NMS。

針對(duì)Greedy-NMS 的缺陷,2017 年,Bodla 等人提出了Soft-NMS,其采用一種衰減的算法檢測(cè)所有的預(yù)測(cè)框,對(duì)重疊度高的其他預(yù)測(cè)框的得分進(jìn)行衰減,重疊度越高,預(yù)測(cè)框的得分衰減得越多,因?yàn)樗鼈冇懈叩募訇?yáng)性可能;同樣的,因?yàn)楸A袅祟A(yù)測(cè)框而不是直接刪除,在后續(xù)處理過(guò)程中,重疊度高的預(yù)測(cè)框還是有重新被“撈起”的機(jī)會(huì),具體的算法結(jié)構(gòu)如圖7。Soft-NMS 采用一種柔和的方式來(lái)進(jìn)行目標(biāo)預(yù)測(cè)框的抑制,雖然能夠降低漏檢的發(fā)生,但是也會(huì)造成計(jì)算成本的增加。

Hosang 等人提出了通過(guò)神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)來(lái)適應(yīng)數(shù)據(jù)分布的NMS 算法。經(jīng)過(guò)分析,一個(gè)檢測(cè)器如果對(duì)每個(gè)目標(biāo)只輸出一個(gè)高分檢測(cè),那么必須滿足對(duì)同一目標(biāo)的多個(gè)檢測(cè)應(yīng)該聯(lián)合處理,這樣檢測(cè)器就能夠知道有重復(fù)檢測(cè),并且只有一個(gè)檢測(cè)應(yīng)該得到高分。為了達(dá)到這個(gè)目標(biāo),有兩個(gè)關(guān)鍵點(diǎn)是必需的:(1)設(shè)計(jì)損失函數(shù)來(lái)懲罰多次檢測(cè),從而告訴檢測(cè)器對(duì)每個(gè)目標(biāo)只進(jìn)行一次預(yù)測(cè);(2)鄰近預(yù)測(cè)框進(jìn)行聯(lián)合檢測(cè),使得檢測(cè)器獲取信息來(lái)判斷一個(gè)目標(biāo)是否被多次檢測(cè)。在這一思路下,Hosang 等人設(shè)計(jì)出了“pure NMS network”,也被稱為L(zhǎng)earning-NMS,將重新設(shè)計(jì)的網(wǎng)絡(luò)模型稱為GossipNet。在遮擋條件下,Learning-NMS 優(yōu)于傳統(tǒng)的NMS 方法。但是由于Learning-NMS 作為一個(gè)神經(jīng)子網(wǎng)絡(luò),必須要有足夠大的數(shù)據(jù)集來(lái)支撐其進(jìn)行訓(xùn)練,通過(guò)數(shù)據(jù)增強(qiáng)技術(shù)以及遷移學(xué)習(xí)或許會(huì)有益于GossipNet的使用。

表2 損失函數(shù)結(jié)構(gòu)Table 2 Architecture of loss function

圖7 NMS 算法的結(jié)構(gòu)Fig.7 Architecture of NMS

雖然Soft-NMS 并沒(méi)有像NMS 一樣直接丟棄與最高置信度建議框重疊度過(guò)高的建議框,而是通過(guò)衰減函數(shù)來(lái)降低其置信度,在一定程度上緩解了遮擋導(dǎo)致的邊界框重疊問(wèn)題,但是由于Soft-NMS 仍然將所有高度重疊的建議框視為假陽(yáng)性,存在一定的局限性。

Liu 等人針對(duì)擁擠行人檢測(cè)這一特殊場(chǎng)景,提出了Adaptive-NMS 對(duì)Soft-NMS 進(jìn)行了優(yōu)化,使得人群密集的地方,NMS 閾值較大;在人群稀疏的地方,NMS 較小。為了判斷人群的密集程度,作者設(shè)計(jì)了一個(gè)子網(wǎng)絡(luò),可以根據(jù)每個(gè)實(shí)例的密度預(yù)測(cè)閾值,如圖7。通過(guò)在CityPersons 和CrowdHuman 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),取得了較好的效果,證明了該方法的有效性;而與GossipNet類似,該網(wǎng)絡(luò)同樣依賴于一個(gè)樣本充足的數(shù)據(jù)集進(jìn)行訓(xùn)練,而且更多的參數(shù)增加了模型復(fù)雜度。

前面所提到的NMS 算法只按照建議框的分類置信度由高到低來(lái)執(zhí)行抑制操作,然而有的時(shí)候,精確的建議框可能與類別置信度的分?jǐn)?shù)并沒(méi)有必然的相關(guān)性,這也就導(dǎo)致,得分高但是定位精確度差的建議框會(huì)抑制得分低但是定位精確的建議框。He 等人針對(duì)建議框定位置信度與類別置信度并無(wú)強(qiáng)相關(guān)提出了Softer-NMS。首先通過(guò)損失函數(shù)KL Loss 來(lái)學(xué)習(xí)對(duì)每個(gè)目標(biāo)的建議框預(yù)測(cè)定位方差,然后在Soft-NMS 過(guò)程中,通過(guò)KL Loss網(wǎng)絡(luò)學(xué)習(xí)到的方差對(duì)建議框進(jìn)行加權(quán)平均來(lái)優(yōu)化建議框的選擇。

Huang 等人通過(guò)對(duì)比現(xiàn)有非極大值抑制算法發(fā)現(xiàn),盡管各種算法通過(guò)不同手段降低了遮擋條件下閾值的影響,但是所有算法都是根據(jù)目標(biāo)整體來(lái)進(jìn)行處理,這種方式在遮擋條件下是不合理的,因?yàn)檎趽鯒l件下遮擋部分會(huì)嚴(yán)重影響非極大抑制算法的使用。為此,他們提出了RNMS(representative region NMS),利用目標(biāo)可見(jiàn)部分作為判斷條件來(lái)進(jìn)行預(yù)測(cè)框的非極大值抑制。通過(guò)CrowdHuman和CityPersons數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證,RNMS 要優(yōu)于已有非極大值抑制算法,而該算法也對(duì)如何能夠更精準(zhǔn)地預(yù)測(cè)目標(biāo)可見(jiàn)部分提出了要求。

非極大值抑制算法作為深度神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測(cè)重要的后處理手段,其可靠性是影響檢測(cè)精度的重要因素,通過(guò)改進(jìn)非極大值抑制算法使得每個(gè)目標(biāo)都有與之對(duì)應(yīng)的預(yù)測(cè)框進(jìn)行匹配,將有效改善遮擋情況下由于目標(biāo)建議框之間相互交疊導(dǎo)致的漏檢。根據(jù)閾值的設(shè)定方式不同,NMS 算法可以分為可學(xué)習(xí)型和超參數(shù)型,根據(jù)目標(biāo)遮擋程度進(jìn)行學(xué)習(xí)來(lái)自適應(yīng)調(diào)整閾值的NMS 算法是未來(lái)研究的熱點(diǎn)方向。

卷積神經(jīng)網(wǎng)絡(luò)在卷積運(yùn)算的基礎(chǔ)上,通過(guò)將空間和通道方向的信息進(jìn)行局部融合來(lái)進(jìn)行特征提取,除了通過(guò)目標(biāo)結(jié)構(gòu)利用可見(jiàn)部分來(lái)檢測(cè)、改進(jìn)損失函數(shù)和改進(jìn)非極大值抑制算法提高遮擋檢測(cè)的性能,還有的研究針對(duì)網(wǎng)絡(luò)通道進(jìn)行了研究。Hu等人認(rèn)為不同的通道代表了目標(biāo)不同部位的特征響應(yīng),其在目標(biāo)識(shí)別過(guò)程中發(fā)揮的作用是不同的,因此提出了擠壓激勵(lì)網(wǎng)絡(luò)(squeeze and excitation networks,SENet)專注于通道關(guān)系。SENet 使用全局池化層和全連接層設(shè)計(jì)注意力網(wǎng)絡(luò)來(lái)為不同通道分配不同的權(quán)重,如圖8。

圖8 SENet總體結(jié)構(gòu)Fig.8 Overall architecture of SENet

Zhang 等人進(jìn)一步研究了通道與目標(biāo)部位間的響應(yīng)關(guān)系,將通道注意力運(yùn)用到遮擋目標(biāo)的檢測(cè)中,對(duì)SENet 中的注意力引導(dǎo)網(wǎng)絡(luò)進(jìn)行了重新設(shè)計(jì),使其更加符合遮擋檢測(cè)場(chǎng)景,并將其運(yùn)用到了行人重識(shí)別任務(wù)中。除此之外,相關(guān)的研究還有Pang等人和Xie 等人也對(duì)注意力網(wǎng)絡(luò)進(jìn)行了單獨(dú)的設(shè)計(jì)。根據(jù)實(shí)驗(yàn)證明,針對(duì)通道的注意力網(wǎng)絡(luò)可以在一定程度上提升遮擋目標(biāo)的檢測(cè)效果。

3.3 基于部分語(yǔ)義的檢測(cè)算法

部分語(yǔ)義是指具有語(yǔ)義意義并能被描述的物體的一部分,即目標(biāo)的部件。不同于先驗(yàn)知識(shí)直接將輸入圖像進(jìn)行劃分,部分語(yǔ)義檢測(cè)聚焦于從深度網(wǎng)絡(luò)特征層中獲取目標(biāo)的部分信息特征,進(jìn)而有效處理遮擋問(wèn)題。通過(guò)部分語(yǔ)義的檢測(cè),一個(gè)目標(biāo)可以用它的部件和部件之間的空間結(jié)構(gòu)來(lái)表示,當(dāng)檢測(cè)到目標(biāo)的個(gè)別部分的位置,就可以通過(guò)這些已知的部分去推斷遮擋的未知部分。

Wang 等人首先發(fā)現(xiàn),在訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)的中間層,對(duì)以通道數(shù)為維度方向的特征向量進(jìn)行聚類,能夠反映出目標(biāo)的部分語(yǔ)義信息,作者稱之為“視覺(jué)概念”,并利用視覺(jué)概念完成了對(duì)目標(biāo)部件的檢測(cè)。基于此,Wang 等人提出了一種投票機(jī)制將部分語(yǔ)義信息用于處理遮擋檢測(cè),其利用部分語(yǔ)義之間的空間約束信息來(lái)進(jìn)行檢測(cè)。為了有利于訓(xùn)練魯棒性的模型,在模型訓(xùn)練上使用非遮擋圖像,但在遮擋圖像上進(jìn)行測(cè)試。在遮擋導(dǎo)致某些視覺(jué)特征丟失的情況下,這種投票機(jī)制能夠通過(guò)檢測(cè)到的部分語(yǔ)義信息來(lái)進(jìn)行目標(biāo)的有效檢測(cè),而且由于部分語(yǔ)義并不依賴于神經(jīng)網(wǎng)絡(luò)的所有輸出特征,具有一定的魯棒性。但是,這種投票機(jī)制是人工設(shè)計(jì)的,沒(méi)有做到以端到端的方式進(jìn)行優(yōu)化。

隨后,Zhang 等人提出了一種深度投票機(jī)制,稱為DeepVoting 網(wǎng)絡(luò)。DeepVoting 將文獻(xiàn)[34]所 示的魯棒性結(jié)合到深度網(wǎng)絡(luò)中,是一種魯棒的、可解釋的深度網(wǎng)絡(luò),其在VGG16網(wǎng)絡(luò)的基礎(chǔ)上在中間層之后增加了兩層:第一層為“視覺(jué)概念層”,該層利用上一層輸出的特征信息來(lái)提取局部視覺(jué)特征,進(jìn)而檢測(cè)部分語(yǔ)義信息;第二層為“投票層”,該層利用上一層提取的部分語(yǔ)義信息和語(yǔ)義信息之間的空間約束關(guān)系來(lái)消除遮擋對(duì)檢測(cè)的影響,如圖9。通過(guò)在VehicleOcclusion 數(shù)據(jù)集上測(cè)試發(fā)現(xiàn),在非遮擋情況下DeepVoting 網(wǎng)絡(luò)的性能與Faster R-CNN 相當(dāng),但在遮擋情況下,DeepVoting 網(wǎng)絡(luò)顯示出了更好的檢測(cè)性能,且測(cè)試速度提高了2.5 倍。

圖9 DeepVoting 整體框架Fig.9 Overall framework of DeepVoting

Kortylewski等人發(fā)現(xiàn),雖然部分語(yǔ)義檢測(cè)對(duì)部分遮擋具有魯棒性,但是分類能力較差。為了更好地發(fā)揮深度學(xué)習(xí)的分類優(yōu)勢(shì),其將深度卷積神經(jīng)網(wǎng)絡(luò)的分類能力和部分語(yǔ)義的組合能力相結(jié)合,提出了組合卷積神經(jīng)網(wǎng)絡(luò)(composition convolutional neural networks,CompositionalNets)進(jìn)行部分遮擋目標(biāo)的檢測(cè)。通過(guò)在非遮擋圖像上的訓(xùn)練,將目標(biāo)的部分語(yǔ)義特征提取到字典中進(jìn)行保存,并學(xué)習(xí)每個(gè)類部件的空間關(guān)系。在測(cè)試時(shí),深度卷積神經(jīng)網(wǎng)絡(luò)如果預(yù)測(cè)目標(biāo)的置信度沒(méi)有達(dá)到設(shè)定的閾值,就進(jìn)行部分語(yǔ)義檢測(cè),將提取的特征用于檢測(cè)目標(biāo)的部件,通過(guò)部件信息來(lái)進(jìn)行目標(biāo)的分類和定位。

Xiao 等人為了進(jìn)一步提高遮擋下目標(biāo)檢測(cè)器的魯棒性和分類性能,將原型學(xué)習(xí)、部分匹配和注意力機(jī)制結(jié)合到深度神經(jīng)網(wǎng)絡(luò)中,提出了TDAPNet,如圖10。首先將深度神經(jīng)網(wǎng)絡(luò)提取的特征進(jìn)行原型學(xué)習(xí);隨后使用部分匹配來(lái)比較原型與目標(biāo)部分語(yǔ)義,從而去除不相關(guān)的特征向量,以此來(lái)擴(kuò)展原型學(xué)習(xí);最后,使用自上而下的局部注意力來(lái)調(diào)節(jié)遮擋引起的不規(guī)則激活,以減少遮擋的干擾。相比于CompositionalNets,TDAPNet具有更少的參數(shù),計(jì)算更簡(jiǎn)單,在遮擋水平較低的情況下具有更優(yōu)的性能。

圖10 TDAPNet結(jié)構(gòu)圖Fig.10 Overall architecture of TDAPNet

但是Kortylewski 等人通過(guò)實(shí)驗(yàn)表明,在真實(shí)遮擋的圖像上,TDAPNet 的性能不佳。為此,在組合卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行優(yōu)化,將深度卷積神經(jīng)網(wǎng)絡(luò)和組合模型集成到一個(gè)統(tǒng)一的模型中,并使用一個(gè)端到端訓(xùn)練的可微組合層代替深度卷積神經(jīng)網(wǎng)絡(luò)的全連接分類層。該網(wǎng)絡(luò)利用組合層的生成特性,能夠?qū)Σ糠终趽跄繕?biāo)進(jìn)行魯棒性的分類和定位。隨后,Kortylewski等人又對(duì)組合模型進(jìn)一步優(yōu)化,使其能夠?qū)D像分解為目標(biāo)和上下文,然后利用目標(biāo)部件和上下文信息定位遮擋物,并基于非遮擋部分識(shí)別物體。通過(guò)實(shí)驗(yàn)驗(yàn)證,改進(jìn)的組合卷積網(wǎng)絡(luò)對(duì)遮擋目標(biāo)分類具有很強(qiáng)的魯棒性。

根據(jù)Wang 等人的研究,由于組合網(wǎng)絡(luò)并沒(méi)有明確地將目標(biāo)和上下文進(jìn)行分離,在強(qiáng)遮擋的情況下,會(huì)放大上下文的影響并對(duì)最終的檢測(cè)結(jié)果產(chǎn)生負(fù)面影響。為了克服這個(gè)問(wèn)題,作者在訓(xùn)練過(guò)程中通過(guò)邊界框標(biāo)注對(duì)上下文進(jìn)行分割,并且引入了基于部分語(yǔ)義的投票方案對(duì)目標(biāo)邊界框的角落進(jìn)行投票,使得模型能夠可靠地估計(jì)嚴(yán)重遮擋情況下遮擋目標(biāo)的邊界框。

部分語(yǔ)義檢測(cè)從網(wǎng)絡(luò)特征層中以通道作為維度獲取目標(biāo)信息,提供了目標(biāo)檢測(cè)的新思路,但是如何快速有效地獲取部分語(yǔ)義信息來(lái)訓(xùn)練檢測(cè)器仍然是一個(gè)挑戰(zhàn),而且如何來(lái)提高部分語(yǔ)義檢測(cè)器相對(duì)于整體特征檢測(cè)器的分類性能也需進(jìn)一步的研究。

4 算法對(duì)比

根據(jù)利用的特征信息分析角度不同,以卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)衍生出了部分語(yǔ)義檢測(cè),部分語(yǔ)義檢測(cè)為目標(biāo)檢測(cè)尤其是遮擋目標(biāo)檢測(cè)帶來(lái)了新的研究思路,但是鑒于卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的分類能力,基于整體特征的目標(biāo)檢測(cè)算法仍然是目前的主流研究方向。此外,越來(lái)越多的研究不再局限于某一方面的改進(jìn),而在于多方面的復(fù)合,例如多目標(biāo)檢測(cè)提出了全新的網(wǎng)絡(luò)架構(gòu)兼顧了損失函數(shù)和非極大值抑制的改進(jìn);文獻(xiàn)[77]中的組合網(wǎng)絡(luò)將整體特征和部分語(yǔ)義相結(jié)合。

表3 對(duì)不同類型的改進(jìn)算法的優(yōu)勢(shì)以及局限性進(jìn)行了分析。表4 對(duì)算法的性能進(jìn)行了列舉,其中采用的性能對(duì)比標(biāo)準(zhǔn)為AP(average precision)和MR(miss rate)。從表中可以看出,不同類別下的檢測(cè)算法由于對(duì)訓(xùn)練數(shù)據(jù)集、測(cè)試數(shù)據(jù)集以及網(wǎng)絡(luò)結(jié)構(gòu)的要求不盡相同,無(wú)法進(jìn)行十分嚴(yán)謹(jǐn)?shù)膶?duì)比實(shí)驗(yàn);而在同一類別下的檢測(cè)算法也同樣受制于數(shù)據(jù)集的限制,無(wú)法進(jìn)行更加深入的比較。在后續(xù)的研究過(guò)程中需要整合一個(gè)滿足各種算法要求的數(shù)據(jù)集來(lái)進(jìn)行評(píng)測(cè)。

表3 不同類型改進(jìn)方案的比較Table 3 Comparison of different types of programmes

表4 遮擋檢測(cè)算法的性能Table 4 Performance of occlusion detection algorithms

表4(續(xù))

5 總結(jié)和展望

自深度學(xué)習(xí),尤其是區(qū)域卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到目標(biāo)檢測(cè)領(lǐng)域以來(lái),目標(biāo)檢測(cè)的精度以及速度都取得了長(zhǎng)足的進(jìn)步。雖然在一般目標(biāo)和特定目標(biāo)的分類檢測(cè)方面已經(jīng)有了大量的研究并取得了豐碩的成果,但是對(duì)于遮擋目標(biāo)的檢測(cè)仍然是一個(gè)挑戰(zhàn)性的問(wèn)題。本文對(duì)深度學(xué)習(xí)在遮擋條件下的目標(biāo)檢測(cè)進(jìn)行了總結(jié),并按照每個(gè)改進(jìn)方法的優(yōu)化理念,將其劃分成了不同的類別進(jìn)行歸納,并對(duì)比了算法的性能。

雖然目前的方法基于不同技術(shù)在遮擋目標(biāo)檢測(cè)方面取得了進(jìn)步,但是考慮到遮擋問(wèn)題的復(fù)雜性,遮擋檢測(cè)仍然存在一些關(guān)鍵問(wèn)題需要解決,未來(lái)的工作可聚焦于以下幾個(gè)方面:

(1)通用遮擋檢測(cè)模型的訓(xùn)練。當(dāng)前的檢測(cè)模型大多是針對(duì)特定場(chǎng)景或者特定目標(biāo)進(jìn)行訓(xùn)練,通用的目標(biāo)遮擋檢測(cè)研究還較少,但是通用目標(biāo)的檢測(cè)是真實(shí)環(huán)境中不可避免的,因此需要投入大量的研究。

(2)學(xué)習(xí)方式的改善。由于遮擋情況的復(fù)雜性,在訓(xùn)練數(shù)據(jù)有限的情況下,檢測(cè)器難以學(xué)習(xí)到無(wú)法窮盡的各種遮擋情況。因此,如何利用現(xiàn)有的數(shù)據(jù),通過(guò)無(wú)監(jiān)督或者半監(jiān)督方式來(lái)改善這個(gè)問(wèn)題,應(yīng)該是一個(gè)非常值得探索的方向。

(3)遮擋數(shù)據(jù)集的擴(kuò)展與選擇。當(dāng)前的遮擋數(shù)據(jù)集大多來(lái)自于合成圖片,而且來(lái)自于現(xiàn)實(shí)場(chǎng)景中的遮擋圖片較少且場(chǎng)景較為單一。在后續(xù)工作中,應(yīng)該收集更大規(guī)模的注釋遮擋數(shù)據(jù)集,GAN 網(wǎng)絡(luò)和圖片增強(qiáng)技術(shù)將有利于數(shù)據(jù)集的擴(kuò)充。除此之外,遮擋檢測(cè)的數(shù)據(jù)集眾多且評(píng)估遮擋檢測(cè)算法的標(biāo)準(zhǔn)各不相同,從而使得對(duì)各種算法的性能比較變得困難。在后期工作中,應(yīng)該規(guī)范數(shù)據(jù)集以及評(píng)價(jià)標(biāo)準(zhǔn)的使用。

(4)目標(biāo)特征的有效利用。目標(biāo)檢測(cè)器的工作原理是根據(jù)深度神經(jīng)網(wǎng)絡(luò)獲取的目標(biāo)特征信息來(lái)進(jìn)行目標(biāo)的識(shí)別定位,遮擋目標(biāo)由于遮擋影響了目標(biāo)的特征提取導(dǎo)致檢測(cè)器無(wú)法正確判斷。通過(guò)更加有效地利用目標(biāo)可見(jiàn)部分來(lái)獲取特征信息將會(huì)有利于目標(biāo)檢測(cè)任務(wù),例如部分檢測(cè)器、特征融合、部分語(yǔ)義檢測(cè)等。

除了前面提到的幾個(gè)方向,隨著Dosovitskiy 等人將自然語(yǔ)言處理中的Transformer 算法用于圖片分類任務(wù)并取得了優(yōu)異的結(jié)果,其在計(jì)算機(jī)視覺(jué)領(lǐng)域引起了大量的關(guān)注。Transformer 通過(guò)對(duì)輸入圖像切片化的處理來(lái)聚焦于局部信息特征并通過(guò)局部信息之間的注意力機(jī)制來(lái)獲取圖像各部分之間的聯(lián)系。若將其應(yīng)用于遮擋目標(biāo)的檢測(cè),或許會(huì)更好地關(guān)注于目標(biāo)可見(jiàn)部分的特征信息而忽略掉遮擋部分對(duì)檢測(cè)的影響,以此對(duì)遮擋檢測(cè)問(wèn)題進(jìn)行有效的解決。

猜你喜歡
檢測(cè)器神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)
無(wú)可預(yù)測(cè)
選修2-2期中考試預(yù)測(cè)卷(A卷)
選修2-2期中考試預(yù)測(cè)卷(B卷)
基于遞歸模糊神經(jīng)網(wǎng)絡(luò)的風(fēng)電平滑控制策略
選修2—2期中考試預(yù)測(cè)卷(A卷)
參數(shù)可調(diào)的聯(lián)合子空間目標(biāo)檢測(cè)方法 *
基于交通誘導(dǎo)的高速公路交通檢測(cè)器布設(shè)方案研究
神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
基于神經(jīng)網(wǎng)絡(luò)的中小學(xué)生情感分析
基于均勻性判定規(guī)則的統(tǒng)計(jì)MIMO雷達(dá)多通道融合檢測(cè)技術(shù)
汕头市| 于田县| 饶河县| 新闻| 合山市| 察隅县| 金湖县| 岫岩| 汉寿县| 商水县| 无锡市| 刚察县| 洛宁县| 汉阴县| 衢州市| 宜兴市| 桐城市| 常州市| 洪泽县| 阿拉善右旗| 来安县| 庆元县| 西乌| 沙雅县| 东莞市| 南城县| 高密市| 阿拉善盟| 苍南县| 辽阳市| 桑植县| 乐都县| 乡宁县| 九台市| 东海县| 沅陵县| 阿荣旗| 固安县| 密云县| 永德县| 兴安县|