基于深度學(xué)習(xí)的視覺(jué)目標(biāo)檢測(cè)技術(shù)綜述

2022-07-02 12:06曹家樂(lè)李亞利孫漢卿謝今黃凱奇龐彥偉

中國(guó)圖象圖形學(xué)報(bào) 2022年6期

曹家樂(lè)，李亞利，孫漢卿，謝今，黃凱奇，龐彥偉*

1. 天津大學(xué),天津 300072； 2. 清華大學(xué),北京 100084；3. 重慶大學(xué),重慶 400044； 4. 中國(guó)科學(xué)院自動(dòng)化研究所,北京 100190

0 引言

視覺(jué)目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)的經(jīng)典任務(wù)，旨在定位圖像中存在物體的位置并識(shí)別物體的具體類別。目標(biāo)檢測(cè)是許多計(jì)算機(jī)視覺(jué)任務(wù)及相關(guān)應(yīng)用的基礎(chǔ)與前提，直接決定相關(guān)視覺(jué)任務(wù)及應(yīng)用的性能好壞。因此，視覺(jué)目標(biāo)檢測(cè)技術(shù)受到了學(xué)術(shù)界、工業(yè)界等各領(lǐng)域、乃至世界各國(guó)政府的廣泛關(guān)注。在學(xué)術(shù)界，目標(biāo)檢測(cè)一直是各大計(jì)算機(jī)視覺(jué)會(huì)議及期刊的研究熱點(diǎn)之一，每年有大量的目標(biāo)檢測(cè)相關(guān)論文發(fā)表。根據(jù)谷歌學(xué)術(shù)顯示，研究人員近10年來(lái)在目標(biāo)檢測(cè)方面發(fā)表論文15 000余篇。在工業(yè)界，國(guó)內(nèi)外科技巨頭(如谷歌、臉書(shū)、華為和百度等)、初創(chuàng)公司(如商湯、曠視等)紛紛在目標(biāo)檢測(cè)相關(guān)領(lǐng)域投入大量人力財(cái)力。與此同時(shí)，目標(biāo)檢測(cè)技術(shù)是新一代人工智能的重要共性關(guān)鍵技術(shù)，世界各國(guó)競(jìng)相競(jìng)爭(zhēng)。

在過(guò)去的幾十年中，目標(biāo)檢測(cè)經(jīng)歷了基于手工設(shè)計(jì)特征的方法到基于深度特征的方法等不同發(fā)展階段。早期，目標(biāo)檢測(cè)方法通常采用手工設(shè)計(jì)特征加淺層分類器的技術(shù)路線，例如支持向量機(jī)(support vector machines，SVM)和AdaBoost等，涌現(xiàn)了包括Haar特征(Viola和Jones，2004)、方向梯度直方圖(histograms of oriented gradients，HOG)特征(Dalal和Triggs，2005)等一系列經(jīng)典的目標(biāo)檢測(cè)特征描述子。2012年以來(lái)，深度學(xué)習(xí)技術(shù)取得了飛速的發(fā)展，并行計(jì)算資源不斷迭代更新，大規(guī)模數(shù)據(jù)庫(kù)及評(píng)測(cè)標(biāo)準(zhǔn)相繼構(gòu)建與公開(kāi)?；谏鲜黾夹g(shù)、算力和數(shù)據(jù)的鋪墊，視覺(jué)目標(biāo)檢測(cè)開(kāi)始在精度與效率等方面取得了顯著的進(jìn)展，先后涌現(xiàn)出區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region-based convolutional neural network，R-CNN)(Girshick等，2014)、SSD(single shot detector)(Liu等，2016)、YOLO(you only look once)(Redmon等，2016)、DETR(detection transformer)(Carion等，2020)等一系列經(jīng)典的研究工作。相比于傳統(tǒng)手工設(shè)計(jì)特征的方法，基于深度學(xué)習(xí)的方法避免了煩瑣的手工設(shè)計(jì)過(guò)程，能夠自動(dòng)學(xué)習(xí)更具有區(qū)分力的深度特征。與此同時(shí)，基于深度學(xué)習(xí)的方法將特征提取和分類器學(xué)習(xí)統(tǒng)一在一個(gè)框架中，能夠進(jìn)行端到端的學(xué)習(xí)。

隨著技術(shù)的不斷發(fā)展與成熟，深度目標(biāo)檢測(cè)技術(shù)開(kāi)始在實(shí)際應(yīng)用中發(fā)揮重要作用。近些年，國(guó)內(nèi)外涌現(xiàn)了一批以目標(biāo)檢測(cè)等視覺(jué)技術(shù)為核心技術(shù)的科技創(chuàng)業(yè)公司，如曠視科技、商湯科技等。同時(shí)，視覺(jué)目標(biāo)檢測(cè)是自動(dòng)駕駛汽車環(huán)境感知重要的內(nèi)容之一，以特斯拉為代表的一批科技公司甚至采用純視覺(jué)目標(biāo)感知的技術(shù)路線開(kāi)展自動(dòng)駕駛研究。盡管目標(biāo)檢測(cè)技術(shù)已經(jīng)開(kāi)始走向?qū)嶋H應(yīng)用，但是當(dāng)前目標(biāo)檢測(cè)的性能仍然無(wú)法到達(dá)人類視覺(jué)的性能，存在巨大改進(jìn)與提升的空間。

鑒于基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)在學(xué)術(shù)界和產(chǎn)業(yè)界取得了巨大成功，本文對(duì)基于深度學(xué)習(xí)的視覺(jué)目標(biāo)檢測(cè)技術(shù)進(jìn)行了系統(tǒng)的總結(jié)和分析，包括國(guó)內(nèi)外研究現(xiàn)狀以及未來(lái)的發(fā)展趨勢(shì)等。根據(jù)視覺(jué)目標(biāo)檢測(cè)采用視覺(jué)傳感器的數(shù)量不同，將視覺(jué)目標(biāo)檢測(cè)分為兩類：基于單目相機(jī)的視覺(jué)目標(biāo)檢測(cè)和基于雙目相機(jī)的視覺(jué)目標(biāo)檢測(cè)。相比于單目相機(jī)，雙目相機(jī)能夠提供3維信息。因此，基于雙目相機(jī)的視覺(jué)目標(biāo)檢測(cè)能夠提供精準(zhǔn)的目標(biāo)3維信息，在自動(dòng)駕駛等領(lǐng)域能夠更好地滿足應(yīng)用需求。

首先介紹目標(biāo)檢測(cè)的基本流程，包括訓(xùn)練和測(cè)試過(guò)程。接著，系統(tǒng)地總結(jié)和分析單目視覺(jué)目標(biāo)檢測(cè)。然后，介紹雙目視覺(jué)目標(biāo)檢測(cè)。最終，對(duì)比國(guó)內(nèi)外發(fā)展現(xiàn)狀，并對(duì)發(fā)展趨勢(shì)進(jìn)行展望。

1 基于深度學(xué)習(xí)的目標(biāo)檢測(cè)基本流程

如圖1所示，基于深度學(xué)習(xí)的目標(biāo)檢測(cè)主要包括訓(xùn)練和測(cè)試兩個(gè)部分。訓(xùn)練的主要目的是利用訓(xùn)練數(shù)據(jù)集進(jìn)行檢測(cè)網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)。訓(xùn)練數(shù)據(jù)集包含大量的視覺(jué)圖像及標(biāo)注信息(物體位置及類別)。如圖1(a)所示，訓(xùn)練階段的主要過(guò)程包括數(shù)據(jù)預(yù)處理、檢測(cè)網(wǎng)絡(luò)以及標(biāo)簽匹配與損失計(jì)算等部分。

圖1 基于深度學(xué)習(xí)的視覺(jué)目標(biāo)檢測(cè)訓(xùn)練與測(cè)試Fig.1 Training and inference of deep learning based visual object detection ((a) training stage; (b) test stage)

1)數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理旨在增強(qiáng)訓(xùn)練數(shù)據(jù)多樣性，進(jìn)而提升檢測(cè)網(wǎng)絡(luò)的檢測(cè)能力。常用的數(shù)據(jù)增強(qiáng)手段有翻轉(zhuǎn)、縮放、均值歸一化和色調(diào)變化等。除此之外，研究人員在數(shù)據(jù)預(yù)處理方面做了大量的研究工作。一些研究人員提出從圖像中擦除部分子區(qū)域，如CutOut(DeVries和Taylor，2017)、Random erasing(Zhong等，2020b)、HaS(hide-and-seek)(Singh和Lee，2017)、GridMask(Chen等，2020a)等。Zhang等人(2018a)通過(guò)將不同圖像和標(biāo)簽進(jìn)行差值表示提升分類性能，簡(jiǎn)稱為MixUp。Yun等人(2019)認(rèn)為直接擦除圖像子區(qū)域會(huì)造成信息損失，提出將其他訓(xùn)練圖像粘貼到擦除的子區(qū)域，簡(jiǎn)稱為CutMix。類似地，F(xiàn)ang等人(2019)將其他圖像的實(shí)例掩膜粘貼到當(dāng)前圖像用于實(shí)例分割。此外，研究人員提出將多個(gè)圖像拼接在一起進(jìn)行訓(xùn)練，提升檢測(cè)器應(yīng)對(duì)尺度變化的魯棒性，如Mosaic(Bochkovskiy等，2020)、Montage(Zhou等，2020)、DST(dynamic scale training)(Chen等，2020d)。此后，Chen等人(2021e)提出自動(dòng)搜索的尺度增強(qiáng)策略。

2)檢測(cè)網(wǎng)絡(luò)。檢測(cè)網(wǎng)絡(luò)一般包括基礎(chǔ)骨干、特征融合及預(yù)測(cè)網(wǎng)絡(luò)3部分。目標(biāo)檢測(cè)器的基礎(chǔ)骨干通常采用用于圖像分類的深度卷積網(wǎng)絡(luò)，如AlexNet(Krizhevsky等，2012)、VGGNet(Visual Geometry Group)(Simonyan和Zisserman，2014)、ResNet(He等，2016)和DenseNet(Huang等，2017)等。近期，研究人員開(kāi)始采用基于Transformer(Vaswani等，2017)的基礎(chǔ)骨干網(wǎng)絡(luò)，如ViT(vision transformer)(Dosovitskiy等，2021；Beal等，2020)、Swin(Liu等，2021c)和PVT(pyramid vision transformer)(Wang等，2021c)等。通常將大規(guī)模圖像分類數(shù)據(jù)庫(kù)ImageNet (Russakovsky等，2015)(https://www.image-net.org/)上的預(yù)訓(xùn)練權(quán)重作為檢測(cè)器骨干網(wǎng)絡(luò)的初始權(quán)重。特征融合主要是對(duì)基礎(chǔ)骨干提取的特征進(jìn)行融合，用于后續(xù)分類和回歸。常見(jiàn)的特征融合方式是特征金字塔結(jié)構(gòu)(Lin等，2017a)。研究人員開(kāi)始用基于Transformer編解碼的特征融合方式進(jìn)行目標(biāo)檢測(cè)。最后，預(yù)測(cè)網(wǎng)絡(luò)進(jìn)行分類和回歸等任務(wù)。在兩階段目標(biāo)檢測(cè)方法中，分類和回歸通常采用全連接的方式，而在單階段的方法中，分類和回歸等通常采用全卷積的方式。Guo等人(2020b)利用神經(jīng)網(wǎng)絡(luò)搜索技術(shù)同時(shí)搜索基礎(chǔ)骨干、特征融合和預(yù)測(cè)網(wǎng)絡(luò)等3部分。與此同時(shí)，檢測(cè)器通常還需要一些初始化，如錨點(diǎn)框初始化、角點(diǎn)初始化和查詢特征初始化等。

3)標(biāo)簽分配與損失計(jì)算。標(biāo)簽分配主要是為檢測(cè)器預(yù)測(cè)提供真實(shí)值。在目標(biāo)檢測(cè)中，標(biāo)簽分配的準(zhǔn)則包括交并比(intersection over union，IoU)準(zhǔn)則、距離準(zhǔn)則、似然估計(jì)準(zhǔn)則和二分匹配等。交并比準(zhǔn)則通常用于基于錨點(diǎn)框的目標(biāo)檢測(cè)方法，根據(jù)錨點(diǎn)框與物體真實(shí)框之間的交并比將錨點(diǎn)框分配到對(duì)應(yīng)的物體。距離準(zhǔn)則通常用于無(wú)錨點(diǎn)框的目標(biāo)檢測(cè)方法，根據(jù)點(diǎn)到物體中心的距離將其分配到對(duì)應(yīng)的物體。似然估計(jì)準(zhǔn)則和二分匹配通?；诜诸惡突貧w的聯(lián)合損失進(jìn)行最優(yōu)標(biāo)簽分配?；跇?biāo)簽分類的結(jié)果，采用損失函數(shù)計(jì)算分類和回歸等任務(wù)的損失，并利用反向傳播算法更新檢測(cè)網(wǎng)絡(luò)的權(quán)重。常用的分類損失函數(shù)有交叉熵?fù)p失函數(shù)、聚焦損失函數(shù)(Lin等，2017b)等，而回歸損失函數(shù)有L1損失函數(shù)、平滑L1損失函數(shù)、交并比IoU損失函數(shù)、GIoU(generalized IoU)損失函數(shù)(Rezatofighi等，2019)和CIoU(complete-IoU)損失函數(shù)(Zheng等，2020b)等。

基于訓(xùn)練階段學(xué)習(xí)的檢測(cè)網(wǎng)絡(luò)，在測(cè)試階段輸出給定圖像中存在物體的類別以及位置信息。如圖1(b)所示，主要包括輸入圖像、檢測(cè)網(wǎng)絡(luò)和后處理等過(guò)程。對(duì)于一幅給定的圖像，先利用訓(xùn)練好的檢測(cè)網(wǎng)絡(luò)生成分類和回歸結(jié)果。一般而言，大部分目標(biāo)檢測(cè)方法在同一物體周圍會(huì)生成多個(gè)檢測(cè)結(jié)果。因此，大部分目標(biāo)檢測(cè)方法需要一個(gè)后處理步驟，旨在為每個(gè)物體保留一個(gè)檢測(cè)結(jié)果并去除其他冗余的檢測(cè)結(jié)果。最常用的后處理方法為非極大值抑制方法(non-maximum suppression，NMS)。NMS試圖為每個(gè)物體保留一個(gè)分類得分最高的檢測(cè)結(jié)果。Bodla等人(2017)認(rèn)為NMS方法容易將距離較近的多個(gè)物體檢測(cè)結(jié)果合并，造成部分物體漏檢的問(wèn)題。為解決這一問(wèn)題，Bodla等人(2017)對(duì)NMS進(jìn)行改進(jìn)并提出Soft-NMS。該方法通過(guò)降低交并比高的檢測(cè)結(jié)果的分類得分來(lái)抑制冗余檢測(cè)。Jiang等人(2018)提出IoUNet，預(yù)測(cè)檢測(cè)框與物體真實(shí)框之間的交并比，并根據(jù)預(yù)測(cè)的交并比值進(jìn)行非極大值抑制。He等人(2018)提出學(xué)習(xí)檢測(cè)框的定位方差，并利用定位方差線性加權(quán)鄰近檢測(cè)框來(lái)提升當(dāng)前檢測(cè)框的定位精度。Pato等人(2020)通過(guò)對(duì)檢測(cè)結(jié)果上下文推理實(shí)現(xiàn)對(duì)檢測(cè)結(jié)果的重打分。

視覺(jué)目標(biāo)檢測(cè)在訓(xùn)練和測(cè)試過(guò)程相對(duì)煩瑣。為了更好地促進(jìn)目標(biāo)檢測(cè)技術(shù)的發(fā)展，方便不同方法進(jìn)行公平比較，國(guó)內(nèi)外研究人員先后發(fā)布了不同的目標(biāo)檢測(cè)開(kāi)源平臺(tái)，使用基于模塊化設(shè)計(jì)的思想，方便支持不同目標(biāo)檢測(cè)方法的集成。國(guó)外比較有代表性的研究機(jī)構(gòu)是美國(guó)FaceBook人工智能研究院，先后發(fā)布了Detectron(https://github.com/facebookresearch/Detectron)、maskrcnn-benchmark(https://github.com/facebookresearch/Detectron)和Detectron2(https://github.com/facebookresearch/detectron2)等目標(biāo)檢測(cè)與分割開(kāi)源平臺(tái)。國(guó)內(nèi)比較有代表性的機(jī)構(gòu)是商湯科技和圖森科技，發(fā)布了mmdetection(https://github.com/open-mmlab/mmdetection)和SimpleDet(https://github.com/TuSimple/simpledet)等目標(biāo)檢測(cè)開(kāi)源平臺(tái)。上述目標(biāo)檢測(cè)平臺(tái)大多基于國(guó)外深度學(xué)習(xí)核心架構(gòu)Caffe2(https://github.com/facebookarchive/caffe2)、PyTorch(https://pytorch.org/)和MXNet(https://mxnet.apache.org/versions/1.8.0/)。與此同時(shí)，百度、華為和清華大學(xué)等國(guó)內(nèi)科技公司與大學(xué)相繼發(fā)布了深度學(xué)習(xí)核心架構(gòu)PaddlePaddle(https://www.paddlepaddle.org.cn/)、MindSpore(https://www.mindspore.cn/)和Jittor(https://cg.cs.tsinghua.edu.cn/jittor)等，并提供了一些典型的目標(biāo)檢測(cè)方法接口，促進(jìn)目標(biāo)檢測(cè)技術(shù)走向?qū)嶋H應(yīng)用。

2 單目視覺(jué)目標(biāo)檢測(cè)

單目視覺(jué)目標(biāo)檢測(cè)是視覺(jué)目標(biāo)檢測(cè)的基礎(chǔ)，旨在預(yù)測(cè)單幅圖像中存在物體的位置以及類別信息。自2012年深度卷積神經(jīng)網(wǎng)絡(luò)在圖像分類任務(wù)取得成功后(Krizhevsky等，2012)，研究人員開(kāi)始嘗試用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測(cè)，如DetectorNet(Szegedy等，2013)和OearFeat(Sermanet等，2014)。此后，基于深度學(xué)習(xí)的目標(biāo)檢測(cè)開(kāi)始主導(dǎo)目標(biāo)檢測(cè)的發(fā)展。圖2給出了近年基于深度學(xué)習(xí)的目標(biāo)檢測(cè)發(fā)展歷程，并列出了一些具有代表性的深度網(wǎng)絡(luò)模型及目標(biāo)檢測(cè)方法?；疑煮w表示一些代表性的深度網(wǎng)絡(luò)模型，黑色字體表示一些代表性的深度學(xué)習(xí)目標(biāo)檢測(cè)方法。將目標(biāo)檢測(cè)方法分為3類：基于錨點(diǎn)框的目標(biāo)檢測(cè)方法、無(wú)錨點(diǎn)框的目標(biāo)檢測(cè)方法以及端到端預(yù)測(cè)的目標(biāo)檢測(cè)方法。需要指出的是，端到端預(yù)測(cè)的目標(biāo)檢測(cè)方法屬于無(wú)錨點(diǎn)框的目標(biāo)檢測(cè)方法。由于端到端預(yù)測(cè)的目標(biāo)檢測(cè)方法不需要后處理操作，大多采用轉(zhuǎn)換器模型直接為每個(gè)目標(biāo)預(yù)測(cè)一個(gè)檢測(cè)結(jié)果，是一個(gè)更簡(jiǎn)潔的檢測(cè)架構(gòu)，將其單獨(dú)歸為一類進(jìn)行詳細(xì)介紹。

圖2 基于深度學(xué)習(xí)的視覺(jué)目標(biāo)檢測(cè)發(fā)展過(guò)程(圖中括號(hào)內(nèi)為作者信息)Fig.2 Development process of visual object detection based on deep learning

2.1 基于錨點(diǎn)框的目標(biāo)檢測(cè)方法

基于錨點(diǎn)框的目標(biāo)檢測(cè)方法為空間每一個(gè)位置設(shè)定多個(gè)矩形框，以便盡可能地覆蓋圖像中所有存在的物體?；阱^點(diǎn)框的目標(biāo)檢測(cè)可以分為兩類(趙永強(qiáng) 等，2020)：兩階段目標(biāo)檢測(cè)方法和單階段目標(biāo)檢測(cè)方法。圖3給出兩類方法的基本架構(gòu)圖。兩階段方法(圖3(a))首先提取k個(gè)類別不具體的候選檢測(cè)窗口，然后進(jìn)一步對(duì)這些候選檢測(cè)窗口進(jìn)行分類和回歸，生成最終的檢測(cè)結(jié)果。與兩階段方法不同，單階段方法(圖3(b))直接對(duì)錨點(diǎn)框進(jìn)行分類和回歸。一般而言，兩階段方法具有較高的檢測(cè)精度，而單階段方法具有較快的推理速度。

圖3 基于錨點(diǎn)框的目標(biāo)檢測(cè)方法基本架構(gòu)Fig.3 Architectures of anchor-based object detection methods ((a) two-stage architecture; (b) one-stage architecture)

2.1.1 兩階段目標(biāo)檢測(cè)方法

區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region-based convolutional neural network，R-CNN)系列工作是兩階段目標(biāo)檢測(cè)方法的最主要代表性工作。R-CNN(Girshick等，2014)首先利用選擇性搜索方法(Uijlings等，2013)生成2 000個(gè)最可能是物體的候選檢測(cè)框，然后利用深度卷積神經(jīng)網(wǎng)絡(luò)提取這些候選檢測(cè)框的深度特征，最后利用支持向量機(jī)進(jìn)行分類和回歸。該方法在當(dāng)時(shí)取得了巨大的成功，大幅度提升了目標(biāo)檢測(cè)的精度。由于R-CNN分別提取每個(gè)候選框的深度特征，因此存在推理速度慢的問(wèn)題。針對(duì)這一問(wèn)題，He等人(2015)先通過(guò)特征共享的方式提取整幅圖像的特征，然后利用空間金字塔池化(spatial pyramid pooling，SPP)操作,將每個(gè)候選框?qū)?yīng)的特征轉(zhuǎn)換成固定長(zhǎng)度的特征，進(jìn)行后續(xù)SVM的分類和回歸，該方法簡(jiǎn)稱為SPPNet。Girshick(2015)認(rèn)為R-CNN和SPPNet特征提取和預(yù)測(cè)(分類和回歸)是一個(gè)多階段的過(guò)程，限制了深度神經(jīng)網(wǎng)絡(luò)的性能，并提出了R-CNN的改進(jìn)工作Fast R-CNN。Fast R-CNN首先提取整幅圖像的深度特征，然后利用感興趣區(qū)域(region of interest，RoI)池化操作將候選檢測(cè)框的特征縮放至固定大小，最終利用全連接層進(jìn)行分類和回歸。由于感興趣池化操作能夠?qū)崿F(xiàn)反向傳播，F(xiàn)ast R-CNN能夠聯(lián)合訓(xùn)練整個(gè)網(wǎng)絡(luò)。隨后，Ren等人(2015)提出Faster R-CNN，進(jìn)一步將候選窗口的生成同候選窗口的分類與回歸統(tǒng)一到在一個(gè)網(wǎng)絡(luò)中聯(lián)合學(xué)習(xí)。

在Faster R-CNN的基礎(chǔ)上，研究人員進(jìn)行了大量的改進(jìn)。一些研究人員關(guān)注RoI池化操作。Dai等人(2016)提出位置敏感感興趣區(qū)域(position-sensitive RoI，PSRoI)池化操作，從特征圖的不同通道累積空間對(duì)應(yīng)位置的特征。Zhu等人(2017)認(rèn)為RoI池化操作可以提取上下文信息，PSRoI能夠捕獲物體的局部信息?；诖思僭O(shè)，Zhu等人(2017)提出了CoupleNet，將RoI池化操作提取的特征和PSRoI池化操作提取的特征進(jìn)行融合，用于后續(xù)的分類和回歸。Dai等人(2017)提出了可變形RoI池化操作，能夠更好地刻畫(huà)物體的形變。He等人(2017)提出RoIAlign池化操作，解決RoI池化操作因量化誤差帶來(lái)的特征不匹配問(wèn)題。此外，一些研究人員關(guān)注級(jí)聯(lián)結(jié)構(gòu)在兩階段方法中的應(yīng)用。Cai和Vasconcelos(2018)提出級(jí)聯(lián)目標(biāo)檢測(cè)架構(gòu)Cascade R-CNN，將多個(gè)Fast R-CNN頭網(wǎng)絡(luò)級(jí)聯(lián)起來(lái)，當(dāng)前級(jí)對(duì)前一級(jí)的分類和回歸結(jié)果進(jìn)一步進(jìn)行分類和回歸。類似地，Zhong等人(2020a)和Vu等人(2019)將級(jí)聯(lián)思想用于候選窗口生成。

為了應(yīng)對(duì)物體尺度的變化，研究人員提出了基于圖像金字塔的方法(Singh和Davis，2018；Singh等，2018)和基于特征金字塔的方法(Lin等，2017a)。基于圖像金字塔的方法采用不同尺度的圖像檢測(cè)不同尺度的物體，如小尺度圖像檢測(cè)大尺度物體、大尺度圖像檢測(cè)小尺度物體?；趫D像金字塔的方法需要利用檢測(cè)網(wǎng)絡(luò)分別檢測(cè)多個(gè)不同尺度的圖像，計(jì)算量相對(duì)較大?；谔卣鹘鹱炙姆椒ú捎脝蝹€(gè)檢測(cè)網(wǎng)絡(luò)內(nèi)部不同層檢測(cè)不同尺度的物體，計(jì)算量相對(duì)較少(李暉暉等，2020；姜文濤等，2019)。因此，研究人員更多關(guān)注基于特征金字塔的方法(姚群力等，2019)。

2.1.2 單階段目標(biāo)檢測(cè)方法

YOLO(you only look once)系列工作是單階段目標(biāo)檢測(cè)方法的代表性工作之一。YOLO(Redmon等，2016)直接將圖像分成N×N大小的子區(qū)域，并預(yù)測(cè)每個(gè)子區(qū)域存在物體的概率、類別以及位置偏移量。YOLO結(jié)構(gòu)十分簡(jiǎn)單，具有很快的運(yùn)算速度。此后，YOLOv2(Redmon和Farhadi，2017)、YOLOv3(Redmon和Farhadi，2018)、YOLOv4(Bochkovskiy等，2020)和YOLOv5(https://github.com/ultralytics/yolov5)等相繼提出，獲得了廣泛的關(guān)注(張偉等，2021)。YOLOv2引入包括批歸一化操作、高分辨率輸入和全卷積操作等改進(jìn)，使其能夠在保持較快檢測(cè)速度的情況下提升目標(biāo)檢測(cè)精度。YOLOv3提出Darknet-53基礎(chǔ)骨干網(wǎng)絡(luò)和多尺度預(yù)測(cè)等改進(jìn)。YOLOv4對(duì)數(shù)據(jù)預(yù)處理、檢測(cè)網(wǎng)絡(luò)設(shè)計(jì)和預(yù)測(cè)網(wǎng)絡(luò)等過(guò)程進(jìn)行系統(tǒng)的分析，并基于這些分析設(shè)計(jì)了適合單顯卡的高效目標(biāo)檢測(cè)器。YOLOv5提供4種不同大小的目標(biāo)檢測(cè)器，以便滿足不同應(yīng)用的需求。

SSD(single shot detector)(Liu等，2016)是另一個(gè)代表性的單階段目標(biāo)檢測(cè)方法。為了檢測(cè)不同尺度的物體，SSD采用不同層的特征圖檢測(cè)不同尺度的物體。靠前分辨率高的特征圖檢測(cè)小尺度物體，靠后分辨率低的特征圖檢測(cè)大尺度物體。此后，研究人員在SSD的基礎(chǔ)上開(kāi)展了大量的工作。Fu等人(2017)和Kong等人(2018)通過(guò)去卷積操作為SSD引入上下文信息。Zhou等人(2018)提出尺度轉(zhuǎn)換層，將高語(yǔ)義特征圖轉(zhuǎn)換成不同尺度的特征圖檢測(cè)不同尺度的物體，保持了特征圖的語(yǔ)義一致性。受人類視覺(jué)系統(tǒng)啟發(fā)，Liu等人(2018a)提出利用不同膨脹率的卷積層提取不同感受野的上下文信息。Zhao等人(2019)、Kim等人(2018)和Wang等人(2019b)分別提出多級(jí)結(jié)構(gòu)、并行結(jié)構(gòu)和圖像金字塔結(jié)構(gòu)增加特征金字塔結(jié)構(gòu)的上下文信息。Zhang等人(2018b)、Cao等人(2019b)和Nie等人(2019)提出了基于級(jí)聯(lián)結(jié)構(gòu)的單階段目標(biāo)檢測(cè)方法，提高目標(biāo)檢測(cè)定位精度。Zhang等人(2018c)、Dvornik等人(2017)和Cao等人(2019a)聯(lián)合檢測(cè)和分割兩個(gè)任務(wù)，試圖提升多任務(wù)學(xué)習(xí)的性能。Li等人(2020d)提出了尺度解混模塊，使得不同層能夠更好地關(guān)注不同尺度的物體。為了解決類別不平衡問(wèn)題，Lin等人(2017b)提出了聚焦損失(focal loss)函數(shù)，在訓(xùn)練過(guò)程中增大難樣本的損失權(quán)重。

2.2 無(wú)錨點(diǎn)框目標(biāo)檢測(cè)方法

基于錨點(diǎn)框的目標(biāo)檢測(cè)方法需要人為地根據(jù)數(shù)據(jù)庫(kù)特性設(shè)定錨點(diǎn)框的尺度和長(zhǎng)寬比等參數(shù)。因而，基于錨點(diǎn)框的目標(biāo)檢測(cè)方法存在檢測(cè)器對(duì)參數(shù)敏感、檢測(cè)器泛化能力差等問(wèn)題。針對(duì)這一問(wèn)題，研究人員提出了無(wú)錨點(diǎn)框的目標(biāo)檢測(cè)方法。無(wú)錨點(diǎn)框目標(biāo)檢測(cè)方法主要分為兩類：基于關(guān)鍵點(diǎn)的目標(biāo)檢測(cè)方法和基于內(nèi)部點(diǎn)的目標(biāo)檢測(cè)方法。圖4(a)給出了基于關(guān)鍵點(diǎn)方法的基本結(jié)構(gòu)圖?；陉P(guān)鍵點(diǎn)的目標(biāo)檢測(cè)方法通常通過(guò)預(yù)測(cè)物體的多個(gè)關(guān)鍵點(diǎn)，并將關(guān)鍵點(diǎn)集成實(shí)現(xiàn)對(duì)物體的檢測(cè)。圖4(b)給出了基于內(nèi)部點(diǎn)方法的基本結(jié)構(gòu)圖?；趦?nèi)部點(diǎn)的目標(biāo)檢測(cè)方法預(yù)測(cè)物體內(nèi)部點(diǎn)到物體邊界的上下左右偏移量及內(nèi)部點(diǎn)所屬的類別信息等。

圖4 無(wú)錨點(diǎn)框目標(biāo)檢測(cè)方法基本架構(gòu)Fig.4 Architectures of anchor-free object detection methods ((a) keypoint-based method; (b) center-based method)

2.2.1 基于關(guān)鍵點(diǎn)的目標(biāo)檢測(cè)方法

2018年，Law和Deng(2018)創(chuàng)新性地提出了基于角點(diǎn)的目標(biāo)檢測(cè)方法CornerNet。基于全卷積神經(jīng)網(wǎng)絡(luò)Hourglass(Newell等，2016)輸出的高分辨率特征圖，CornerNet分別預(yù)測(cè)物體左上角點(diǎn)熱圖、右下角點(diǎn)熱圖以及兩個(gè)角點(diǎn)的集成特征向量?；诩商卣鞯南嗨菩远?，CornerNet將屬于同一物體的兩個(gè)角點(diǎn)關(guān)聯(lián)起來(lái)構(gòu)成一個(gè)物體。此外，CornerNet預(yù)測(cè)類別敏感的角點(diǎn)熱圖來(lái)區(qū)分不同類別的物體，并提出角點(diǎn)池化層提升網(wǎng)絡(luò)對(duì)角點(diǎn)的檢測(cè)能力。該方法消除了單階段檢測(cè)方法需要設(shè)置錨點(diǎn)框的需求。為提升CornerNet推理有效性，Law等人(2020)從減少處理像素?cái)?shù)及每個(gè)像素的運(yùn)算量等兩方面出發(fā)，提出了CornerNet的快速版本CornerNet-Lite。CornerNet-Lite主要包括兩個(gè)模塊：CornerNet-Saccade模塊和CornerNet-Squeeze模塊。CornerNet-Saccade從低分辨率輸入圖像中快速預(yù)測(cè)可能存在物體的候選區(qū)域，而CornerNet-Squeue采用輕量卷積神經(jīng)網(wǎng)絡(luò)從高分辨率候選區(qū)域中精準(zhǔn)檢測(cè)物體。

基于CornerNet的思想，研究人員進(jìn)行了一些改進(jìn)工作。Zhou等人(2019b)認(rèn)為物體的角點(diǎn)通常位于物體外，缺少物體外觀特征信息，為了解決這一問(wèn)題，提出了基于極值點(diǎn)的目標(biāo)檢測(cè)器ExtremeNet，預(yù)測(cè)4個(gè)類別敏感的極值點(diǎn)熱圖和1個(gè)類別敏感的中心點(diǎn)熱圖，并通過(guò)判斷4個(gè)極值點(diǎn)對(duì)應(yīng)的中心點(diǎn)響應(yīng)值是否大于預(yù)定閾值來(lái)集成極值點(diǎn)。4個(gè)極值點(diǎn)分別是左極值點(diǎn)、右極值點(diǎn)、上極值點(diǎn)和下極值點(diǎn)。為了能夠獲取更多物體外觀信息，減少CornerNet生成的大量虛檢點(diǎn)，Duan等人(2019)在CornerNet的基礎(chǔ)上增加對(duì)中心點(diǎn)的預(yù)測(cè)。類似地，為了減少對(duì)角點(diǎn)錯(cuò)誤匹配的數(shù)量，Dong等人(2020)在預(yù)測(cè)成對(duì)角點(diǎn)的同時(shí)預(yù)測(cè)成對(duì)角點(diǎn)的向心偏移量，并根據(jù)它們是否都靠近中心來(lái)判斷是否屬于同一物體。Duan等人(2020)利用角點(diǎn)目標(biāo)檢測(cè)提取網(wǎng)絡(luò)提出候選檢測(cè)框，進(jìn)而利用Fast R-CNN頭網(wǎng)絡(luò)對(duì)這些候選框進(jìn)行分類和回歸。

上述方法都需要將不同關(guān)鍵點(diǎn)集成構(gòu)成一個(gè)物體。Yang等人(2019)直接預(yù)測(cè)一組關(guān)鍵點(diǎn)表示物體，并利用這組關(guān)鍵點(diǎn)所對(duì)應(yīng)的特征對(duì)物體進(jìn)行分類，簡(jiǎn)稱RepPoints。與CornerNet和ExtremeNet等自下而上的方法比，RepPoints不需要將不同關(guān)鍵點(diǎn)集成并采用了更準(zhǔn)確的特征進(jìn)行分類。在此基礎(chǔ)上，Yang等人(2020)提出基于稠密關(guān)鍵點(diǎn)的RePoints，用于更精準(zhǔn)的實(shí)例分割任務(wù)。Chen等人(2020e)通過(guò)引入兩個(gè)輔助任務(wù)(即角點(diǎn)預(yù)測(cè)和前景預(yù)測(cè))增強(qiáng)RepPoints提取的特征和微調(diào)RepPoints的檢測(cè)框定位，進(jìn)而提升RepPoints的物體檢測(cè)準(zhǔn)確率。Wei等人(2020)利用若干個(gè)初始關(guān)鍵點(diǎn)表示物體，基于這些初始關(guān)鍵點(diǎn)對(duì)物體進(jìn)行回歸和分類。

2.2.2 基于內(nèi)部點(diǎn)的目標(biāo)檢測(cè)方法

2015年起，研究人員已經(jīng)提出了基于內(nèi)部點(diǎn)的目標(biāo)檢測(cè)方法(如DenseBox(Huang等，2015)和UnitBox(Yu等，2016))。但是，這些方法僅用于人臉檢測(cè)等單一類別視覺(jué)目標(biāo)檢測(cè)任務(wù)上。自2019年開(kāi)始，研究人員將基于內(nèi)部點(diǎn)的方法用于一般目標(biāo)檢測(cè)任務(wù)中。Zhu等人(2019)率先提出特征選擇性的無(wú)錨點(diǎn)目標(biāo)檢測(cè)方法FSAF(feature selective anchor-free)，預(yù)測(cè)物體中心區(qū)域到物體邊界的偏移量，并根據(jù)分類和回歸損失動(dòng)態(tài)地將物體分配到最優(yōu)的金字塔尺度上預(yù)測(cè)。Tian等人(2019)提出目標(biāo)檢測(cè)方法FCOS(fully convolutional one-stage detector)，預(yù)測(cè)物體所有內(nèi)部點(diǎn)到其上下左右邊界的距離及物體的類別。為了檢測(cè)不同尺度的物體，F(xiàn)COS根據(jù)物體的尺度將其分配到金字塔結(jié)構(gòu)的不同層進(jìn)行預(yù)測(cè)。同一時(shí)期，Kong等人(2019)提出無(wú)錨點(diǎn)框檢測(cè)方法FoveaBox，僅利用部分中心區(qū)域點(diǎn)預(yù)測(cè)物體。Wang等人(2020b)提出基于網(wǎng)絡(luò)架構(gòu)搜索(neural architecture search，NAS)的檢測(cè)方法NAS-FCOS，采用網(wǎng)絡(luò)架構(gòu)搜索的思想構(gòu)建特征金字塔結(jié)構(gòu)和預(yù)測(cè)頭網(wǎng)絡(luò)。Qiu等人(2020b)提出基于邊界強(qiáng)化模塊的目標(biāo)檢測(cè)方法BorderDet，提取FCOS輸出提取邊界框上局部最大特征值進(jìn)行第2次分類和回歸，鞏固第1次分類和回歸結(jié)果。Wang等人(2019a)提出預(yù)測(cè)物體的位置以及尺度等信息生成更聚焦在物體周圍的錨點(diǎn)框，進(jìn)而提取更好的候選窗口用于后續(xù)分類和回歸。

與此同時(shí)，研究人員提出了快速高效的檢測(cè)方法。Zhou等人(2019a)提出高效的無(wú)錨點(diǎn)框檢測(cè)方法CenterNet，預(yù)測(cè)物體的中心點(diǎn)、中心點(diǎn)偏移量以及物體的寬高信息等。同時(shí)，CenterNet采用最大池化操作提取峰值點(diǎn)，避免了非極大值抑制后處理操作。Liu等人(2020b)改進(jìn)高斯核對(duì)訓(xùn)練樣本進(jìn)行編碼的方式，加快了CenterNet的訓(xùn)練速度。Lan等人(2020)在CenterNet的基礎(chǔ)上增加角點(diǎn)學(xué)習(xí)監(jiān)督，增強(qiáng)了對(duì)物體邊界特征的學(xué)習(xí)。

此外，Qiu等人(2021)提出了基于十字線表示的目標(biāo)檢測(cè)方法CrossDet，采用一對(duì)交叉的水平線和豎直線表示物體。為了能夠更好地捕獲交叉線上的特征用于分類、水平回歸以及豎直回歸，CrossDet提出了基于水平池化和豎直池化的交叉線特征提取模塊。

2.3 端對(duì)端預(yù)測(cè)的目標(biāo)檢測(cè)方法

上述基于錨點(diǎn)框的目標(biāo)檢測(cè)方法和無(wú)錨點(diǎn)框的目標(biāo)檢測(cè)方法通常存在一個(gè)物體對(duì)多個(gè)檢測(cè)框的情況。實(shí)際中，同一物體只需要保留一個(gè)檢測(cè)框即可。因此，上述方法一般都需要進(jìn)行非極大值抑制處理的操作，以便去除同一物體的冗余檢測(cè)。近期，研究人員開(kāi)始研究端對(duì)端預(yù)測(cè)的目標(biāo)檢測(cè)方法。該類方法直接端對(duì)端地為每個(gè)物體預(yù)測(cè)一個(gè)檢測(cè)框。其中，最具有代表性的方法是Carion等人(2020)提出的基于轉(zhuǎn)換器Transformer的目標(biāo)檢測(cè)方法DETR(detection transformer)，如圖5所示。DETR利用卷積神經(jīng)網(wǎng)絡(luò)提取特征，并基于Transformer編解碼網(wǎng)絡(luò)直接預(yù)測(cè)物體的位置以及分類得分。具體地，DETR預(yù)先設(shè)定N個(gè)查詢物體特征，然后將其與編碼網(wǎng)絡(luò)輸出的特征共同送入解碼網(wǎng)絡(luò)生成N個(gè)預(yù)測(cè)的物體特征，最后利用預(yù)測(cè)頭網(wǎng)絡(luò)進(jìn)行分類和回歸。在訓(xùn)練過(guò)程中，為了能夠?qū)⑽矬w與預(yù)測(cè)結(jié)果一對(duì)一匹配，DETR采用基于匈牙利算法的二分匹配損失。

圖5 端到端預(yù)測(cè)的目標(biāo)檢測(cè)方法基本架構(gòu)Fig.5 Architecture of end-to-end object detection

盡管DETR在目標(biāo)檢測(cè)上取得了巨大的成功，但是它存在收斂速度較慢、小尺度目標(biāo)檢測(cè)性能相對(duì)較差等問(wèn)題。為了克服DETR存在的問(wèn)題，Zhu等人(2021)受形變卷積(Dai等，2017)啟發(fā)提出了Deformable DETR。與DETR采用基于全局的注意力機(jī)制不同，Deformable DETR提出了基于局部稀疏的可形變注意力模塊?？尚巫冏⒁饬δK僅關(guān)注少量采樣位置以及它們之間的關(guān)系。同時(shí)，可形變注意力模塊可以擴(kuò)展成多尺度可形變注意力模塊，用在特征金字塔結(jié)構(gòu)中?；诖?，Deformable DETR具有更快的收斂速度、更好的小尺度目標(biāo)檢測(cè)性能。類似地，為了解決DETR訓(xùn)練慢、小尺度物體檢測(cè)性能差等問(wèn)題，Dai等人(2021b)提出基于可形變金字塔卷積的編碼網(wǎng)絡(luò)和基于RoI池化操作的動(dòng)態(tài)解碼網(wǎng)絡(luò)。受預(yù)訓(xùn)練Transformer在自然語(yǔ)言中的成功啟發(fā)，Dai等人(2021d)提出基于無(wú)監(jiān)督預(yù)訓(xùn)練的檢測(cè)器UP-DETR(unsupervised DETR)。在預(yù)訓(xùn)練過(guò)程中，UP-DETR隨機(jī)從圖像中選取一塊區(qū)域，并將其特征添加到DETR解碼網(wǎng)路的查詢特征中預(yù)測(cè)該區(qū)域的位置及重建該特征。實(shí)驗(yàn)發(fā)現(xiàn)該無(wú)監(jiān)督預(yù)訓(xùn)練能夠加快DETR的收斂速度并提升其檢測(cè)精度。為了減少DETR巨大的計(jì)算資源開(kāi)銷，Zheng等人(2020a)提出了基于自適應(yīng)聚類Transformer的目標(biāo)檢測(cè)方法。該方法利用局部敏感哈希對(duì)查詢特征進(jìn)行聚類，并根據(jù)聚類結(jié)果近似計(jì)算注意力特征圖，從而減少計(jì)算消耗量。為了加快訓(xùn)練速度，Sun等人(2021d)將DETR的思想應(yīng)用到FCOS和R-CNN檢測(cè)器中，通過(guò)兩者的結(jié)合加快了DETR的收斂速度。

除此之外，研究人員通過(guò)對(duì)現(xiàn)有無(wú)錨點(diǎn)框目標(biāo)檢測(cè)器進(jìn)行改進(jìn)，同樣實(shí)現(xiàn)了基于端到端預(yù)測(cè)的目標(biāo)檢測(cè)。Wang等人(2021a)基于全卷積網(wǎng)絡(luò)實(shí)現(xiàn)了端到端目標(biāo)檢測(cè)器POTO(prediction-aware one-to-one)。在訓(xùn)練過(guò)程中，POTO采用預(yù)測(cè)敏感的一對(duì)一標(biāo)簽分配原則。與此同時(shí)，POTO提出了3D最大值濾波提升空間特征的可區(qū)分性，進(jìn)而更好地壓縮同一物體的冗余預(yù)測(cè)。Sun等人(2021b)提出了類似的端到端檢測(cè)器，即根據(jù)分類和回歸損失一對(duì)一分配訓(xùn)練標(biāo)簽。Sun等人(2021c)對(duì)提出可學(xué)習(xí)候選窗口的端到端檢測(cè)器Sparse R-CNN。每個(gè)可學(xué)習(xí)候選框?qū)?yīng)有分類得分、檢測(cè)框位置以及候選框特征。該方法提取可學(xué)習(xí)候選框?qū)?yīng)的RoI特征，并利用候選框特征動(dòng)態(tài)生成用于分類和回歸的特征。通過(guò)多次迭代，Sparse R-CNN能夠?qū)崿F(xiàn)端到端地檢測(cè)物體。

2.4 檢測(cè)子模塊設(shè)計(jì)

深度目標(biāo)檢測(cè)方法存在一些常用的檢測(cè)子模塊，其設(shè)計(jì)方式對(duì)檢測(cè)性能比較重要。本文簡(jiǎn)單地介紹一些研究人員主要關(guān)注的子模塊。

2.4.1 特征金字塔結(jié)構(gòu)設(shè)計(jì)

特征金字塔結(jié)構(gòu)(feature pyramid network，F(xiàn)PN)是目標(biāo)檢測(cè)應(yīng)對(duì)物體尺度變化的重要手段，近年來(lái)吸引了研究人員的廣泛關(guān)注。早期，Lin等人(2017a)通過(guò)引入自上而下的連接，增強(qiáng)特征金字塔結(jié)構(gòu)多個(gè)預(yù)測(cè)層的語(yǔ)義級(jí)別。此后，研究人員提出了一系列方法試圖進(jìn)一步增強(qiáng)特征融合質(zhì)量。Liu等人(2018b)提出雙向融合的特征金字塔結(jié)構(gòu)PAFPN(path aggregation feature pyramid network)，同時(shí)進(jìn)行自上而下和自下而上的雙向融合加快不同層的信息交互。Pang等人(2019)提出將特征金字塔多層融合的共同特征用于增強(qiáng)特征金字塔的每一層。Cao等人(2020b)和Li等人(2019c)提出基于孿生網(wǎng)絡(luò)的多分支金字塔結(jié)構(gòu)，特征金字塔的每一層都經(jīng)過(guò)數(shù)量相同參數(shù)共享的卷積層增強(qiáng)每個(gè)分支的語(yǔ)義級(jí)別。Qiao等人(2021)提出遞歸特征金字塔結(jié)構(gòu)，將特征金字塔的輸入融合到骨干網(wǎng)絡(luò)二次特征提取。

上述方法在特征融合時(shí)大多采用固定融合的方式，如特征相加。基于此，研究人員提出了自適應(yīng)融合的方法。Tan等人(2020b)、Liu等人(2019)和Guo等人(2020a)分別提出自適應(yīng)加權(quán)的特征融合方法BiFPN(bi-directional FPN)、ASFF(adaptively spatial feature fusion)和AugFPN。Wang等人(2020c)通過(guò)可形變3維卷積將特征金字塔輸入進(jìn)行融合，生成不同尺度的特征圖。Zhang等人(2020a)將Transformer用于特征金字塔不同尺度特征融合。Hu等人(2021)提出基于注意力機(jī)制的特征融合機(jī)制，增強(qiáng)上下文信息。Zhao等人(2021)通過(guò)建模層內(nèi)和層間超像素之間的關(guān)系實(shí)現(xiàn)自適應(yīng)特征融合。此外，一些研究人員利用網(wǎng)絡(luò)搜索的方式試圖得到最優(yōu)的特征金字塔結(jié)構(gòu)，如Auto-FPN(Xu等，2019)、NAS-FPN(Ghiasi等，2019)和OPA-FPN(one-shot path aggregation FPN)(Liang等，2021)。Chen等人(2021b)通過(guò)膨脹卷積模塊和均勻標(biāo)簽分配策略，能夠在不使用金字塔結(jié)構(gòu)的情況下保持相當(dāng)?shù)木炔⑻嵘龣z測(cè)速度。

2.4.2 預(yù)測(cè)頭網(wǎng)絡(luò)設(shè)計(jì)

預(yù)測(cè)頭網(wǎng)絡(luò)主要進(jìn)行分類和回歸兩類。在兩階段方法中，F(xiàn)aster R-CNN(Ren等，2015)主要采用共享全連接的方式進(jìn)行分類和回歸。研究人員認(rèn)為共享全連接進(jìn)行分類和回歸不是最優(yōu)方案，并提出一些改進(jìn)方法。Lu等人(2019)將候選框區(qū)域進(jìn)行擴(kuò)增，并采用全卷積網(wǎng)絡(luò)直接預(yù)測(cè)物體邊界點(diǎn)的位置。Wu等人(2020b)采用全連接層進(jìn)行分類、采用全卷積層進(jìn)行回歸。Cao等人(2020a)采用可區(qū)分RoI池化層進(jìn)行分類、采用局部稠密預(yù)測(cè)進(jìn)行回歸。Song等人(2020)提出生成兩個(gè)不同候選框分別進(jìn)行分類和回歸，進(jìn)而從空間維度上將分類和回歸任務(wù)解耦。Wang等人(2020a)提出邊緣敏感的邊界定位方式取代基于回歸的方式。

大部分單階段方法大多采用兩個(gè)獨(dú)立的卷積組(如4個(gè)卷積層)分別用于分類和回歸。一些研究人員認(rèn)為這種方法缺乏對(duì)兩個(gè)任務(wù)的關(guān)聯(lián)。Dai等人(2021a)提出一種動(dòng)態(tài)注意力頭網(wǎng)絡(luò)統(tǒng)一分類和回歸任務(wù)的特征生成過(guò)程，包含了尺度動(dòng)態(tài)注意力機(jī)制、空間動(dòng)態(tài)注意力機(jī)制以及任務(wù)動(dòng)態(tài)注意力機(jī)制。任務(wù)動(dòng)態(tài)注意力機(jī)制能夠自適應(yīng)地選擇不同特征用于不同任務(wù)。為了更好地關(guān)聯(lián)分類和回歸(定位)兩個(gè)任務(wù)，Li等人(2021b)提出基于邊界框預(yù)測(cè)分布來(lái)估計(jì)邊界框的不確定性，進(jìn)而引導(dǎo)分類與檢測(cè)質(zhì)量估計(jì)。Feng等人(2021b)提出任務(wù)敏感的預(yù)測(cè)頭網(wǎng)絡(luò)。分類和回歸任務(wù)首先共享多層特征，然后利用注意力機(jī)制和空間校準(zhǔn)機(jī)制分別提取適合分類和回歸的特征。Chi等人(2020)提出利用Transformer解碼結(jié)構(gòu)將不同類型的特征融合，提升現(xiàn)有檢測(cè)器的檢測(cè)能力。

2.4.3 標(biāo)簽匹配與損失函數(shù)設(shè)計(jì)

大多數(shù)目標(biāo)檢測(cè)方法根據(jù)交并比準(zhǔn)則或者距離準(zhǔn)則判定樣本(如錨點(diǎn)框)的標(biāo)簽(屬于哪個(gè)物體)。這些匹配準(zhǔn)則雖然簡(jiǎn)單，但不是最優(yōu)的。Zhang等人(2020b)系統(tǒng)地分析了基于錨點(diǎn)框的方法和無(wú)錨點(diǎn)框的方法，發(fā)現(xiàn)基于錨點(diǎn)框的方法和無(wú)錨點(diǎn)框的方法定義正負(fù)樣本方式是造成它們性能差異的重要原因?；诖?，Zhang等人(2020b)提出了基于自適應(yīng)訓(xùn)練樣本選擇策略的檢測(cè)器ATSS(adaptive training sample selection)。此后，研究人員進(jìn)一步提出了許多改進(jìn)方案。Zhang等人(2019)提出基于學(xué)習(xí)匹配的FreeAnchor方法，實(shí)現(xiàn)錨點(diǎn)框與物體動(dòng)態(tài)匹配?；诜诸惡突貧w的預(yù)測(cè)結(jié)果，F(xiàn)reeAnchor構(gòu)建基于最大似然估計(jì)的損失函數(shù)實(shí)現(xiàn)動(dòng)態(tài)匹配。Ke等人(2020)提出多錨點(diǎn)框?qū)W習(xí)方法MAL(multiple anchor learning)，根據(jù)分類和回歸的聯(lián)合分?jǐn)?shù)進(jìn)行錨點(diǎn)框分配，并提出選擇—抑制優(yōu)化策略防止陷入局部最優(yōu)。Kim和Lee(2020)提出利用混合高斯模型建模物體的概率分布，并根據(jù)這個(gè)概率進(jìn)行錨點(diǎn)框的分配。Ma等人(2021)提出預(yù)測(cè)樣本的檢測(cè)質(zhì)量分布，根據(jù)檢測(cè)質(zhì)量分布進(jìn)行標(biāo)簽匹配。Ge等人(2021)將匹配問(wèn)題轉(zhuǎn)化為最優(yōu)傳輸問(wèn)題，為模糊樣本尋找全局最優(yōu)匹配。端到端預(yù)測(cè)的目標(biāo)檢測(cè)方法(Carion等，2020)采用匈牙利算法實(shí)現(xiàn)一對(duì)一最優(yōu)匹配。Yoo等人(2021)提出不進(jìn)行標(biāo)簽匹配，將目標(biāo)檢測(cè)轉(zhuǎn)為密度估計(jì)問(wèn)題。

在標(biāo)簽匹配后，檢測(cè)器基于損失函數(shù)進(jìn)行網(wǎng)絡(luò)的學(xué)習(xí)。常用的分類損失函數(shù)為交叉熵?fù)p失函數(shù)和聚焦損失函數(shù)(Lin等，2017b)等。一些研究人員(Chen等，2019；Qian等，2020a；Liu等，2021a；Oksuz等，2021)將分類問(wèn)題轉(zhuǎn)換成排序問(wèn)題，以便更好地解決類別不均衡問(wèn)題。一些研究人員(Li等，2021b；Zhang等，2021a)在設(shè)計(jì)分類損失函數(shù)時(shí)考慮其定位精度，以便更好地將分類和回歸關(guān)聯(lián)起來(lái)。針對(duì)回歸問(wèn)題，一些研究人員(Li等，2020c；Qiu等，2020a)將回歸的偏移量預(yù)測(cè)轉(zhuǎn)換成邊界概率分布預(yù)測(cè)問(wèn)題。除了單獨(dú)關(guān)注分類和回歸任務(wù)外，一些研究人員(Cao等，2020c；Wang和Zhang，2021b；Gao等，2021b)研究檢測(cè)和分類任務(wù)的一致性和關(guān)聯(lián)性，其核心思想是希望分類得分高的檢測(cè)框具有較高的定位精度，以便更好地滿足目標(biāo)檢測(cè)評(píng)測(cè)標(biāo)準(zhǔn)。不準(zhǔn)確或者錯(cuò)誤的標(biāo)簽匹配容易對(duì)檢測(cè)器學(xué)習(xí)產(chǎn)生不好的影響。針對(duì)這一問(wèn)題，研究人員(Li等，2019a，2020b；Cai等，2020)提出一些動(dòng)態(tài)權(quán)重調(diào)整分類和回歸損失的策略減少這些匹配帶來(lái)的不利影響。

2.4.4 知識(shí)蒸餾

知識(shí)蒸餾旨在讓大網(wǎng)絡(luò)去引導(dǎo)小網(wǎng)絡(luò)的學(xué)習(xí)，幫助小網(wǎng)絡(luò)在具備較快速度的情況下具有大網(wǎng)絡(luò)的檢測(cè)精度。早期，Chen等人(2017)提出在特征層和預(yù)測(cè)層進(jìn)行多層級(jí)全特征圖逼近。一些研究人員(Li等，2017；Wang等，2019c；Sun等，2020b)認(rèn)為全特征圖逼近容易忽略物體區(qū)域，并提出基于物體附近區(qū)域的特征逼近方法。研究人員認(rèn)為背景區(qū)域、上下文信息同樣有助于輔助提升知識(shí)蒸餾的效果。Zhang和Ma(2021b)提出注意力引導(dǎo)蒸餾機(jī)制和非局部蒸餾機(jī)制，緩解前背景信息不平衡和關(guān)系利用不充分的問(wèn)題。Guo等人(2021a)提出對(duì)前景區(qū)域和背景區(qū)域去耦，分別進(jìn)行蒸餾。Dai等人(2021c)提出提取圖像中具有可區(qū)分力的前景或背景區(qū)域進(jìn)行蒸餾。Chen等人(2021d)構(gòu)建候選區(qū)域圖網(wǎng)絡(luò)，并對(duì)圖網(wǎng)絡(luò)進(jìn)行蒸餾。Yao等人(2021)認(rèn)為兩個(gè)網(wǎng)絡(luò)逼近的特征不一定位于金字塔結(jié)構(gòu)的同一層，提出語(yǔ)義引導(dǎo)的自適應(yīng)特征逼近策略。

3 雙目視覺(jué)目標(biāo)檢測(cè)

單目圖像是3維世界中一個(gè)視錐的2維投影，丟失了深度信息。雙目視覺(jué)可以根據(jù)物體投影在左右圖像上的位置差異計(jì)算出視差，并在已知相機(jī)參數(shù)的情況下根據(jù)極線約束計(jì)算出像素的深度。在得到每個(gè)像素的深度值后，可以逆投影得到視錐中每個(gè)像素的3維坐標(biāo)。因此，雙目視覺(jué)系統(tǒng)不僅能夠預(yù)測(cè)物體的2維位置和類別信息，還能夠預(yù)測(cè)物體在3維空間中的位置，實(shí)現(xiàn)3維目標(biāo)檢測(cè)，從而為自動(dòng)駕駛、工業(yè)機(jī)器人等任務(wù)提供更高層次的場(chǎng)景信息。類似地，利用激光雷達(dá)點(diǎn)云檢測(cè)同樣能夠?qū)崿F(xiàn)3維目標(biāo)檢測(cè)。與雙目視覺(jué)目標(biāo)檢測(cè)相比，激光雷達(dá)點(diǎn)云檢測(cè)具有更高的檢測(cè)精度，但是其成本相對(duì)昂貴，對(duì)雨雪中等天氣變化敏感。本文主要關(guān)注雙目視覺(jué)目標(biāo)檢測(cè)方法。受益于深度學(xué)習(xí)技術(shù)的發(fā)展，雙目目標(biāo)檢測(cè)取得了巨大進(jìn)展。

類似于單目目標(biāo)檢測(cè)網(wǎng)絡(luò)，雙目檢測(cè)網(wǎng)絡(luò)也可以分為基礎(chǔ)骨干、特征融合和預(yù)測(cè)網(wǎng)絡(luò)3部分。首先，雙目檢測(cè)通常采用兩個(gè)權(quán)重共享的基礎(chǔ)骨干分別得到左右目的單目特征。然后，雙目檢測(cè)進(jìn)行特征融合，除上文提到的構(gòu)建特征金字塔外，一般還需要構(gòu)建雙目特征。雙目特征構(gòu)建的方式主要包括直接串接(concatenation)和平面掃描法(plane-sweeping)，構(gòu)建的特征坐標(biāo)空間屬于視錐投影空間。最后，預(yù)測(cè)網(wǎng)絡(luò)可以直接使用融合后的視錐空間特征，也可將視錐空間特征顯式逆投影到3維空間進(jìn)行分類和回歸。

根據(jù)預(yù)測(cè)網(wǎng)絡(luò)所使用的特征空間，本文將雙目視覺(jué)目標(biāo)檢測(cè)方法分為兩類：基于直接視錐空間的目標(biāo)檢測(cè)方法和基于顯式逆投影空間的目標(biāo)檢測(cè)方法。基于直接視錐空間的檢測(cè)過(guò)程一般不包含逆投影變換，直接使用基于視錐空間的雙目特征進(jìn)行檢測(cè)；而基于顯式逆投影空間的檢測(cè)方法一般需要將雙目特征進(jìn)行逆投影變換，生成3維空間上均勻的特征，適合構(gòu)造體素或轉(zhuǎn)換為俯視圖進(jìn)行檢測(cè)。圖6給出了上述兩類方法的發(fā)展歷程，并給出了一些代表性方法。時(shí)間軸上側(cè)為基于直接視錐空間的方法，時(shí)間軸下側(cè)為基于顯式逆投影空間的方法。圖中箭頭越長(zhǎng)表示該方法在KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago)數(shù)據(jù)集(Geiger等，2012)上中等難度(moderate)車輛類別上的平均精度(average precision，AP)越高。

圖6 基于深度學(xué)習(xí)的雙目視覺(jué)目標(biāo)檢測(cè)方法的發(fā)展歷程(箭頭的長(zhǎng)度表示方案在KITTI數(shù)據(jù)集中的車輛3維檢測(cè)性能,圖中括號(hào)內(nèi)為作者信息)Fig.6 Development process of stereo object detection based on deep learning(longer arrow indicates higher Car detection AP on KITTI)

3.1 基于直接視錐空間的雙目目標(biāo)檢測(cè)方法

基于直接視錐空間的雙目目標(biāo)檢測(cè)不需要進(jìn)行額外的坐標(biāo)空間轉(zhuǎn)換，只需要使用基礎(chǔ)骨干提取的兩個(gè)單目特征構(gòu)造雙目特征。現(xiàn)有方法主要通過(guò)串接和平面掃描兩種方式構(gòu)造視錐空間的雙目特征。

3.1.1 基于串接構(gòu)造視錐空間特征的方法

基于串接構(gòu)造視錐空間特征的方法將基礎(chǔ)骨干提取的兩個(gè)單目視錐空間特征串接起來(lái)，利用卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的擬合能力提取候選框或直接檢測(cè)3維目標(biāo)。串接操作不改變?cè)瓎文刻卣鞯淖鴺?biāo)空間，是一種簡(jiǎn)單快速的視錐空間雙目特征構(gòu)造方式。

Li等人(2019b)提出兩階段方法Stereo R-CNN。如圖7(a)，在第1階段，Stereo R-CNN利用串接特征得到左右兩個(gè)成對(duì)的候選框。在第2階段，Stereo R-CNN分別提取左右目的RoI特征，再次串接特征進(jìn)行回歸。為了得到3維框頂點(diǎn)在左目RoI特征內(nèi)的投影，Stereo R-CNN引入了一種簡(jiǎn)化的關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)，利用得到的關(guān)鍵點(diǎn)信息對(duì)最小化投影誤差進(jìn)行數(shù)值求解，從而得到質(zhì)量較高的3維目標(biāo)檢測(cè)結(jié)果。Shi等人(2022)借鑒Stereo R-CNN雙目候選框定義雙目包圍框，并提出類似于CenterNet(Zhou等，2019a)的單階段無(wú)錨點(diǎn)框雙目檢測(cè)方法StereoCenterNet。StereoCenterNet在串接的雙目特征上預(yù)測(cè)雙目2維框和3維框的朝向、尺寸、底面頂點(diǎn)等信息。預(yù)測(cè)這些信息后，StereoCenterNet根據(jù)物體遮擋程度不同采用對(duì)應(yīng)的策略來(lái)進(jìn)行最小化投影誤差求解，提高了嚴(yán)重遮擋物體的檢測(cè)精度。

圖7 基于直接視錐空間的雙目目標(biāo)檢測(cè)方法Fig.7 Frustum-based stereo 3D detectors ((a) concatenation based method; (b) plane-sweeping based method)

Qin等人(2019)提出了一種基于3維錨點(diǎn)框的兩階段方法。首先，Qin等人(2019)將3維錨點(diǎn)框投影到左右目特征上，得到成對(duì)的2維候選框。然后，Qin等人(2019)認(rèn)為同一目標(biāo)的左右目RoI特征應(yīng)該相似，提出用余弦相似性對(duì)兩組特征的每個(gè)特征圖重新加權(quán)，從而增強(qiáng)左右相似的特征圖、抑制左右差異較大的特征圖。最后，Qin等人(2019)使用權(quán)重調(diào)整后的特征進(jìn)行分類和回歸，并在視錐空間對(duì)預(yù)測(cè)結(jié)果進(jìn)行監(jiān)督，完成3維目標(biāo)檢測(cè)。

3.1.2 基于平面掃描構(gòu)造視錐空間特征的方法

為了更好地基于左右目特征提取立體信息，雙目深度估計(jì)(Chang和Chen，2018；Xu和Zhang，2020)廣泛采用平面掃描法構(gòu)造匹配代價(jià)體(cost volume)。通過(guò)逐視差平面或者逐深度平面地掃描一對(duì)2維特征，所得3維特征即匹配代價(jià)體。每一次掃描不改變2維特征的坐標(biāo)空間，所以得到的匹配代價(jià)體仍然屬于視錐空間。基于平面掃描的檢測(cè)方法受益于雙目深度估計(jì)方法的發(fā)展，能夠直接利用點(diǎn)云監(jiān)督取得更好的匹配結(jié)果，進(jìn)而學(xué)習(xí)到每個(gè)視錐空間像素是否被物體占據(jù)的信息，輔助提高3維檢測(cè)性能。

Peng等人(2020)提出兩階段的方法IDA-3D(instance-depth-aware 3D detection)，在雙目候選框提取階段使用了與Stereo R-CNN相同的提取方式，然后在串接后的左右目RoI特征上預(yù)測(cè)了物體2維和3維信息，沒(méi)有再使用額外的關(guān)鍵點(diǎn)檢測(cè)和投影誤差最小化方法。此外，IDA-3D在左右目融合RoI特征上，基于平面掃描法構(gòu)建了目標(biāo)級(jí)的視差匹配代價(jià)體，使用3維卷積回歸出目標(biāo)的整體視差，并以此求得目標(biāo)整體深度作為3維目標(biāo)的深度坐標(biāo)。

Liu等人(2021b)提出一種高效的單階段方法YOLOStereo3D。YOLOStereo3D基于平面掃描法高效地構(gòu)建了匹配代價(jià)體金字塔，使用Ghost模塊(Han等，2020)來(lái)快速地增加各級(jí)匹配代價(jià)體特征的通道數(shù)，并在最小分辨率的特征上進(jìn)行全圖視差估計(jì)，最后融合同分辨率的左目特征進(jìn)行2維和3維目標(biāo)檢測(cè)。

Choe等人(2021)提出3維目標(biāo)檢測(cè)輔助雙目視差估計(jì)的方法SOMNet(stereo object matching network)。其使用的檢測(cè)方案可視為基于3維候選框的兩階段目標(biāo)檢測(cè)。在候選框提取階段，SOMNet使用平面掃描法構(gòu)造視錐空間匹配代價(jià)體特征，并在其上預(yù)測(cè)3維候選框。在第2階段，SOMNet提出基于空間占用的候選框特征融合機(jī)制，通過(guò)估計(jì)的視差獲得3維RoI中每個(gè)像素是否被物體占用的信息，并構(gòu)建目標(biāo)級(jí)注意力特征增強(qiáng)視錐空間RoI，使之更加聚焦于目標(biāo)表面和形狀。

3.2 基于顯式逆投影空間的雙目目標(biāo)檢測(cè)方法

在自動(dòng)駕駛等場(chǎng)景中，感興趣的目標(biāo)(如車輛、行人和騎行者等)在3維空間中沒(méi)有重疊。因此，將存在尺度變化和遮擋問(wèn)題的視錐空間圖像逆投影到尺度均勻、不存在重疊遮擋的3維空間，能夠緩解視錐投影帶來(lái)的問(wèn)題。此外，考慮俯視方向上不存在遮擋問(wèn)題，還可以把3維空間壓縮至俯視2維空間，在保證性能的同時(shí)進(jìn)一步簡(jiǎn)化預(yù)測(cè)網(wǎng)絡(luò)。逆投影變換主要可以應(yīng)用在輸入圖像、特征和候選區(qū)域3個(gè)不同環(huán)節(jié)。圖8給出了3種方案的示意圖。

圖8 基于顯式逆投影空間的雙目檢測(cè)Fig.8 Inverse-projection-based stereo 3D detectors ((a) based on inverse-projecting raw disparity maps; (b) based on inverse-projecting feature volumes; (c) based on inverse-projecting instance-level disparity maps)

3.2.1 基于原始圖像視差的逆投影方法

基于原始圖像視差的逆投影先利用雙目視差估計(jì)算法預(yù)測(cè)出逐像素的視差，將這些像素逆投影到3維空間生成點(diǎn)云形式，從而使用相對(duì)成熟的點(diǎn)云3維檢測(cè)方法進(jìn)行雙目目標(biāo)檢測(cè)。將這種點(diǎn)云稱為偽點(diǎn)云，這種雙目目標(biāo)檢測(cè)方法稱為偽雷達(dá)(pseudo-LiDAR，PL)方法。如圖8(a)所示，偽雷達(dá)方法級(jí)聯(lián)了雙目深度估計(jì)和點(diǎn)云3維目標(biāo)檢測(cè)兩個(gè)模塊，可以使用這兩個(gè)領(lǐng)域的先進(jìn)成果協(xié)同完成檢測(cè)。

早期，研究人員先用傳統(tǒng)方法完成3維候選框提取，然后用小規(guī)模卷積神經(jīng)網(wǎng)絡(luò)得到最終的3維檢測(cè)結(jié)果。Chen等人(2015)提出3DOP(3D object proposal)，使用已有方法(Yamaguchi等，2014)從雙目圖像估計(jì)出點(diǎn)云，然后求解馬爾可夫隨機(jī)場(chǎng)能量函數(shù)最小化問(wèn)題得到3維候選框，最后利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)候選框進(jìn)行優(yōu)化和評(píng)分。在此基礎(chǔ)上，Pham和Jeon(2017)提出DeepStereoOP網(wǎng)絡(luò),結(jié)合圖像和深度特征對(duì)候選框進(jìn)行更準(zhǔn)確排序。

作者提出MLF(multi-level fusion)，是首個(gè)使用深度學(xué)習(xí)技術(shù)完成全部預(yù)測(cè)過(guò)程的雙目視覺(jué)目標(biāo)檢測(cè)方法。MLF使用DispNet(Mayer等，2016)從雙目圖像估計(jì)視差圖，并逆投影成為深度圖和點(diǎn)云，然后使用2維候選框和點(diǎn)云共同預(yù)測(cè)物體3維信息。對(duì)比了雙目和單目輸入對(duì)3維目標(biāo)檢測(cè)的影響，指出雙目信息能夠明顯提高3維檢測(cè)性能。

Wang等人(2019d)將深度估計(jì)和點(diǎn)云3維目標(biāo)檢測(cè)方法結(jié)合起來(lái)，先根據(jù)深度生成偽點(diǎn)云，再利用基于點(diǎn)云的檢測(cè)方法檢測(cè)3維目標(biāo)。該方法利用深度估計(jì)和點(diǎn)云3維目標(biāo)檢測(cè)領(lǐng)域的先進(jìn)成果，通過(guò)級(jí)聯(lián)的方式完成雙目3維目標(biāo)檢測(cè)任務(wù)，性能提升明顯。但是，這種級(jí)聯(lián)的方式容易造成誤差累積。針對(duì)這一問(wèn)題，You等人(2020)利用真實(shí)點(diǎn)云校正偽點(diǎn)云。Li等人(2020a)利用深度估計(jì)的置信度來(lái)引導(dǎo)深度估計(jì)網(wǎng)絡(luò)，并加上額外的語(yǔ)義分割監(jiān)督，顯著提高了圖像中前景深度估計(jì)的精度。Peng等人(2022)提出基于兩分支網(wǎng)絡(luò)的方法SIDE(structure-aware instance depth estimation)。一個(gè)分支進(jìn)行基于偽雷達(dá)的雙目目標(biāo)檢測(cè)。另一個(gè)分支進(jìn)行基于視錐空間特征的目標(biāo)級(jí)深度估計(jì)，取代點(diǎn)云監(jiān)督。基于上述兩分支結(jié)構(gòu)，SIDE在不需要額外的點(diǎn)云監(jiān)督的條件下提高了雙目3維目標(biāo)檢測(cè)性能。上述偽雷達(dá)方法需要單獨(dú)訓(xùn)練深度估計(jì)模塊和3維目標(biāo)檢測(cè)模塊，無(wú)法進(jìn)行端到端訓(xùn)練。Qian等人(2020b)通過(guò)可微的采樣和量化模塊設(shè)計(jì)出端到端訓(xùn)練的偽雷達(dá)方法，稱為PL-E2E(end-to-end PL)。

3.2.2 基于特征體的逆投影方法

上述基于原始圖像視差的方法生成偽點(diǎn)云時(shí)丟棄了圖像提供的顏色和紋理信息，而且沒(méi)有利用視差估計(jì)網(wǎng)絡(luò)的中間特征?；谔卣黧w的逆投影方法則復(fù)用了這些圖像特征。具體地，如圖8(b)所示，基于特征體逆投影的雙目目標(biāo)檢測(cè)方法通過(guò)插值和采樣的方式將平面掃描得到的匹配代價(jià)體變換到3維空間，利用圖像特征提供的顏色和紋理信息，實(shí)現(xiàn)了端到端訓(xùn)練的雙目目標(biāo)檢測(cè)。

Chen等人(2020c)提出一種單階段的雙目3維目標(biāo)檢測(cè)方法DSGN(deep stereo geometry network)，使用PSMNet(pyramid stereo matching network)(Chang和Chen，2018)提取匹配代價(jià)體并預(yù)測(cè)深度圖，將匹配代價(jià)體逆投影得到基于3維空間的幾何特征體，并通過(guò)3維卷積將其壓縮成為俯視圖，最后在俯視圖上直接進(jìn)行分類與回歸。Guo等人(2021b)認(rèn)為，雙目視覺(jué)中經(jīng)過(guò)特征體逆變換得到的3維空間特征應(yīng)當(dāng)與點(diǎn)云檢測(cè)中的3維空間體素特征相似，同時(shí)二者的俯視圖特征也應(yīng)當(dāng)相似。基于此，Guo等人(2021b)提出LIGA-Stereo(LiDAR geometry aware representations for stereo-based 3D detector)，設(shè)計(jì)了一種類似于知識(shí)蒸餾的技術(shù)，引導(dǎo)雙目視覺(jué)目標(biāo)檢測(cè)的特征逼近性能更好的點(diǎn)云3維目標(biāo)檢測(cè)特征。Wang等人(2021d)提出PLUME(pseudo LiDAR feature volume)，將深度估計(jì)和3維目標(biāo)檢測(cè)兩個(gè)任務(wù)所使用的特征統(tǒng)一到偽雷達(dá)特征空間，從而將原本需要兩路神經(jīng)網(wǎng)絡(luò)完成的兩個(gè)任務(wù)合并為單路網(wǎng)絡(luò)，提高了檢測(cè)速度。

Li等人(2021a)提出RTS3D(real-time stereo 3D detection)，以雙目圖像和單目3維檢測(cè)的粗糙3維框作為輸入，構(gòu)造了一個(gè)面向感興趣區(qū)域的特征一致性嵌入空間(feature-consistency embedding space，F(xiàn)CE空間)進(jìn)行3維目標(biāo)檢測(cè)，并使用迭代的方式優(yōu)化檢測(cè)結(jié)果。Gao等人(2021a)改進(jìn)了RTS3D的采樣方式，提出基于目標(biāo)形狀先驗(yàn)的非均勻采樣獲取更多的物體表面和周圍信息，并設(shè)計(jì)了一種利用抽象語(yǔ)義信息增強(qiáng)FCE空間特征。

3.2.3 基于候選像素視差的逆投影方法

基于原始圖像視差的逆投影方法生成了全空間的點(diǎn)云，基于特征體的逆投影方法生成了全空間的3維特征。因此，二者逆投影得到的3維空間包含了前景目標(biāo)部分和背景部分。基于候選像素視差的逆投影方法僅聚焦感興趣目標(biāo)區(qū)域的3維空間(如圖8(c)所示)，先利用實(shí)例分割等方案得到目標(biāo)的前景像素，然后生成僅含前景區(qū)域的3維空間。這種逆投影方法生成的3維空間有效體素較少，可以在有限的檢測(cè)時(shí)間內(nèi)更靈活地控制特征的空間分辨率；聚焦于前景目標(biāo)，能夠避免不準(zhǔn)確的深度估計(jì)帶來(lái)的性能下降。

第1種逆投影策略是去除背景點(diǎn)云、僅保留前景點(diǎn)云。本文稱為前景共享的3維空間策略。K?nigshof等人(2019)提出一種基于俯視網(wǎng)格圖的方法。該方法先使用雙目圖像預(yù)測(cè)深度圖、2維語(yǔ)義分割和2維包圍框得到物體前景部分的深度信息，然后使用深度優(yōu)先搜索(depth first search，DFS)求解3維空間的連通域，最后在前景共享的3維空間俯視圖上回歸目標(biāo)的3維信息。Pon等人(2020)認(rèn)為已有的深度估計(jì)方法得到的結(jié)果在目標(biāo)邊界和形狀上并不準(zhǔn)確，對(duì)3維目標(biāo)檢測(cè)有害無(wú)益?；诖耍琍on等人(2020)提出面向目標(biāo)(object-centric，OC)的偽雷達(dá)方法，通過(guò)增加實(shí)例分割模塊提取前景共享的3維空間偽點(diǎn)云。

另外一種逆投影策略是為每個(gè)實(shí)例生成互相獨(dú)立的3維子空間，即每個(gè)3維子空間僅檢測(cè)單個(gè)目標(biāo)。本文稱為實(shí)例獨(dú)立的3維子空間。Xu等人(2020)提出ZoomNet，利用2維實(shí)例分割和雙目深度估計(jì)生成基于偽點(diǎn)云的實(shí)例獨(dú)立子空間。圖像中，小尺度目標(biāo)覆蓋的像素點(diǎn)比較少，生成點(diǎn)云圖比較稀疏，不利于3維檢測(cè)。為解決該問(wèn)題，ZoomNet使用汽車通用3D模型自適應(yīng)地生成密度一致的子空間點(diǎn)云，提升小尺度目標(biāo)的檢測(cè)效果。Sun等人(2020a)提出Disp R-CNN，基于候選區(qū)域逆投影生成實(shí)例獨(dú)立子空間，并使用自動(dòng)生成實(shí)例3D模型，避免手工標(biāo)注汽車模型。

4 國(guó)內(nèi)外研究進(jìn)展比較

視覺(jué)目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)的經(jīng)典任務(wù)，得到了國(guó)內(nèi)外研究人員的廣泛關(guān)注。本節(jié)簡(jiǎn)要分析和對(duì)比國(guó)內(nèi)外在視覺(jué)目標(biāo)檢測(cè)方面的研究進(jìn)展。

4.1 單目視覺(jué)目標(biāo)檢測(cè)技術(shù)

國(guó)內(nèi)外研究機(jī)構(gòu)在單目視覺(jué)目標(biāo)檢測(cè)方面開(kāi)展了大量的研究工作。早期國(guó)外在基于深度學(xué)習(xí)的視覺(jué)目標(biāo)檢測(cè)技術(shù)方面開(kāi)展了更多更具有代表性的研究工作，如兩階段目標(biāo)檢測(cè)器R-CNN系列、單階段目標(biāo)檢測(cè)器YOLO、端到端目標(biāo)檢測(cè)器DETR。近年國(guó)內(nèi)開(kāi)始在深度目標(biāo)檢測(cè)技術(shù)方面，特別是單階段目標(biāo)檢測(cè)技術(shù)和端到端目標(biāo)檢測(cè)技術(shù)方面，持續(xù)發(fā)力，當(dāng)前已經(jīng)取得了與國(guó)外相當(dāng)?shù)母?jìng)爭(zhēng)力。當(dāng)前國(guó)內(nèi)高水平研究工作(如發(fā)表在會(huì)議CVPR(IEEE Conference on Computer Vision and Pattern Recognition)上)的論文數(shù)量方面存在一定的優(yōu)勢(shì)，但是在代表性工作方面相對(duì)欠缺，存在較大的發(fā)展與提升空間。在目標(biāo)檢測(cè)開(kāi)源方面，國(guó)內(nèi)香港中文大學(xué)開(kāi)源的mmdetection和國(guó)外Facebook開(kāi)源的detectron2是目前學(xué)術(shù)界比較流行的目標(biāo)檢測(cè)庫(kù)。

國(guó)內(nèi)在單目目標(biāo)檢測(cè)方面具有代表性的研究機(jī)構(gòu)包括清華大學(xué)、中國(guó)科學(xué)院、香港中文大學(xué)、商湯、曠視和華為等。國(guó)外在單目目標(biāo)檢測(cè)方面具有代表性的研究機(jī)構(gòu)包括斯坦福大學(xué)、牛津大學(xué)、加州大學(xué)伯克利分校、Google和Facebook等。

4.2 雙目視覺(jué)目標(biāo)檢測(cè)技術(shù)

清華大學(xué)與加拿大多倫多大學(xué)合作，在2015年率先利用深度學(xué)習(xí)技術(shù)完成3維物體檢測(cè)。2018年以來(lái)，以香港中文大學(xué)、中國(guó)科學(xué)院大學(xué)、中國(guó)科技大學(xué)、浙江大學(xué)和武漢大學(xué)為代表的國(guó)內(nèi)研究機(jī)構(gòu)，以美國(guó)康奈爾大學(xué)、德國(guó)信息技術(shù)研究中心和加拿大多倫多大學(xué)為代表的國(guó)外研究機(jī)構(gòu)，基于顯式逆投影空間設(shè)計(jì)了偽雷達(dá)、DSGN和Disp R-CNN等雙目目標(biāo)檢測(cè)方法；2019年以來(lái)，香港科技大學(xué)、大連理工大學(xué)、北京科技大學(xué)、美國(guó)微軟研究院和韓國(guó)科學(xué)技術(shù)院等研究機(jī)構(gòu)提出了多種基于直接視錐空間的雙目目標(biāo)檢測(cè)方法。

目前，雙目視覺(jué)目標(biāo)檢測(cè)主要應(yīng)用于無(wú)人機(jī)和自動(dòng)駕駛等領(lǐng)域，國(guó)內(nèi)的百度、大疆和美國(guó)Uber、Waabi等相關(guān)企業(yè)正在積極與上述科研機(jī)構(gòu)合作，并取得了一定成果?？傮w上看，國(guó)內(nèi)科研機(jī)構(gòu)在基于深度學(xué)習(xí)的雙目視覺(jué)目標(biāo)檢測(cè)領(lǐng)域不但取得了先機(jī)，且論文數(shù)量和檢測(cè)性能也保持在先進(jìn)水平，尤其是香港中文大學(xué)和香港科技大學(xué)分別在兩類方法上達(dá)到了當(dāng)前最佳的檢測(cè)性能。

5 發(fā)展趨勢(shì)與展望

當(dāng)前基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)取得了巨大成功。盡管如此，目標(biāo)檢測(cè)技術(shù)仍然存在極大發(fā)展空間。展望總結(jié)目標(biāo)檢測(cè)技術(shù)的發(fā)展趨勢(shì)如下：

1)高效率的端到端目標(biāo)檢測(cè)。當(dāng)前基于轉(zhuǎn)換器Transformer的端到端目標(biāo)檢測(cè)技術(shù)取得了一定成功，為目標(biāo)檢測(cè)領(lǐng)域的發(fā)展注入了新的活力。相比于之前基于錨點(diǎn)框和無(wú)錨點(diǎn)框的目標(biāo)檢測(cè)方法，該類方法存在收斂減慢、計(jì)算資源消耗大等問(wèn)題。同時(shí)，相比于卷積神經(jīng)網(wǎng)絡(luò)，Transformer在計(jì)算效率等方面存在一定的劣勢(shì)。近期，相關(guān)研究工作Deformable DETR(Zhu等，2021)和TSP-FCOS(transformer-based set prediction with FCOS)(Sun等，2021d)在一定程度上緩解了這些問(wèn)題，但是如果設(shè)計(jì)高效率的Transformer編解碼網(wǎng)絡(luò)乃至Transformer基礎(chǔ)網(wǎng)絡(luò)進(jìn)行端到端目標(biāo)檢測(cè)仍是未來(lái)需要研究的內(nèi)容之一。

2)基于自監(jiān)督學(xué)習(xí)的目標(biāo)檢測(cè)。自監(jiān)督學(xué)習(xí)在大規(guī)模圖像分類任務(wù)上取得了與全監(jiān)督學(xué)習(xí)相當(dāng)?shù)姆诸愋阅?Chen等，2020b；He等，2020；Chen和He，2021c)。自監(jiān)督學(xué)習(xí)用于圖像分類任務(wù)的前提假設(shè)是圖像內(nèi)容被單一物體主導(dǎo)。與圖像分類任務(wù)不同，目標(biāo)檢測(cè)任務(wù)中存在數(shù)量、尺度不確定的若干物體。因此，如何更好地將自監(jiān)督學(xué)習(xí)間接或直接用于目標(biāo)檢測(cè)是一個(gè)挑戰(zhàn)性問(wèn)題。Xie等人(2021)提出局部和全局的多級(jí)監(jiān)督訓(xùn)練策略提升無(wú)監(jiān)督學(xué)習(xí)在檢測(cè)任務(wù)上的性能。Liu等人(2020a)利用推土機(jī)距離度量不同變換局部位置的相似性，進(jìn)而進(jìn)行自監(jiān)督目標(biāo)檢測(cè)。Dai等人(2021d)預(yù)測(cè)隨機(jī)子區(qū)域在圖像的位置并重建隨機(jī)子區(qū)域，實(shí)現(xiàn)目標(biāo)檢測(cè)的自監(jiān)督預(yù)訓(xùn)練。

3)長(zhǎng)尾分布目標(biāo)檢測(cè)。當(dāng)前目標(biāo)檢測(cè)方法大多面向物體檢測(cè)數(shù)據(jù)庫(kù)MS COCO(Microsoft common objects in context)(https://cocodataset.org/)(Lin等，2014)和PASCAL VOC(pattern analysis, statistical modeling and computational learning visual object classes)(http://www.host.robots.ox.ac.uk/pascal/VOC)(Eve-ringham等，2010)。這兩個(gè)數(shù)據(jù)庫(kù)對(duì)于物體的類別有限且不同類別的目標(biāo)相對(duì)均衡充足。然而，現(xiàn)實(shí)世界中，物體的類別數(shù)量十分龐大且不同類別的物體數(shù)量存在極度不平衡,呈現(xiàn)長(zhǎng)尾分布現(xiàn)象。針對(duì)這一現(xiàn)象，Gupta等人(2019)構(gòu)建了包含1 000類物體的大規(guī)模長(zhǎng)尾分布數(shù)據(jù)集(https://www.lvisdataset.org/)。研究人員開(kāi)始研究相關(guān)問(wèn)題，并在樣本采樣(Wu等，2020a)、分組訓(xùn)練(Wu等，2020a；Li等，2020e)、損失函數(shù)(Tan等，2020a，2021；Feng等，2021a)等方面開(kāi)展了相關(guān)工作。

4)小樣本、零樣本目標(biāo)檢測(cè)。小樣本、零樣本目標(biāo)檢測(cè)主要關(guān)注如何提升訓(xùn)練樣本較少甚至沒(méi)有的物體類別在測(cè)試過(guò)程中的檢測(cè)性能。目標(biāo)檢測(cè)方法在小樣本或零樣本情況下的檢測(cè)能力是通用性的重要標(biāo)志，是開(kāi)放世界目標(biāo)檢測(cè)(Joseph等，2021)必備的能力。因此，小樣本、零樣本目標(biāo)檢測(cè)具有重要的研究?jī)r(jià)值。研究人員(Kang等，2019；Zhang等，2021c；Sun等，2021a；Chen等，2021a)在相關(guān)方面開(kāi)展了大量研究，為小樣本、零樣本目標(biāo)檢測(cè)打下堅(jiān)實(shí)的基礎(chǔ)。

5)大規(guī)模雙目目標(biāo)檢測(cè)數(shù)據(jù)集。缺少大規(guī)模、高質(zhì)量雙目標(biāo)注的公開(kāi)數(shù)據(jù)集，是當(dāng)前雙目目標(biāo)檢測(cè)面臨的主要挑戰(zhàn)之一。雙目目標(biāo)檢測(cè)數(shù)據(jù)集不僅需要標(biāo)注物體的2維、3維信息，而且需要標(biāo)注視差、相機(jī)參數(shù)等。此外，當(dāng)前很多方法使用了雷達(dá)點(diǎn)云、語(yǔ)義分割和實(shí)例分割等額外標(biāo)注信息。因此，建立大規(guī)模的雙目視覺(jué)數(shù)據(jù)集，并提供高質(zhì)量的雙目標(biāo)注、完善的評(píng)價(jià)體系以及開(kāi)放的測(cè)試平臺(tái)能夠?yàn)槲磥?lái)雙目目標(biāo)檢測(cè)發(fā)展提供基礎(chǔ)性支撐。

6)弱監(jiān)督雙目目標(biāo)檢測(cè)。如上所述，建立大規(guī)模高質(zhì)量的雙目目標(biāo)檢測(cè)數(shù)據(jù)集是一個(gè)復(fù)雜且昂貴的系統(tǒng)工程。研究如何在沒(méi)有高質(zhì)量雙目標(biāo)注的情況下利用雙目數(shù)據(jù)實(shí)現(xiàn)精準(zhǔn)3維目標(biāo)檢測(cè)十分必要。因此，弱監(jiān)督的雙目目標(biāo)檢測(cè)是一個(gè)十分重要且具有挑戰(zhàn)性的研究方向。

致謝本文由中國(guó)圖象圖形學(xué)學(xué)會(huì)視頻圖像與安全專業(yè)委員會(huì)組織撰寫(xiě)，該專委會(huì)更多詳情請(qǐng)見(jiàn)鏈接：http://www.csig.org.cn/detail/2448。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡