曹家樂(lè),李亞利,孫漢卿,謝今,黃凱奇,龐彥偉*
1. 天津大學(xué),天津 300072; 2. 清華大學(xué),北京 100084;3. 重慶大學(xué),重慶 400044; 4. 中國(guó)科學(xué)院自動(dòng)化研究所,北京 100190
視覺(jué)目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)的經(jīng)典任務(wù),旨在定位圖像中存在物體的位置并識(shí)別物體的具體類別。目標(biāo)檢測(cè)是許多計(jì)算機(jī)視覺(jué)任務(wù)及相關(guān)應(yīng)用的基礎(chǔ)與前提,直接決定相關(guān)視覺(jué)任務(wù)及應(yīng)用的性能好壞。因此,視覺(jué)目標(biāo)檢測(cè)技術(shù)受到了學(xué)術(shù)界、工業(yè)界等各領(lǐng)域、乃至世界各國(guó)政府的廣泛關(guān)注。在學(xué)術(shù)界,目標(biāo)檢測(cè)一直是各大計(jì)算機(jī)視覺(jué)會(huì)議及期刊的研究熱點(diǎn)之一,每年有大量的目標(biāo)檢測(cè)相關(guān)論文發(fā)表。根據(jù)谷歌學(xué)術(shù)顯示,研究人員近10年來(lái)在目標(biāo)檢測(cè)方面發(fā)表論文15 000余篇。在工業(yè)界,國(guó)內(nèi)外科技巨頭(如谷歌、臉書(shū)、華為和百度等)、初創(chuàng)公司(如商湯、曠視等)紛紛在目標(biāo)檢測(cè)相關(guān)領(lǐng)域投入大量人力財(cái)力。與此同時(shí),目標(biāo)檢測(cè)技術(shù)是新一代人工智能的重要共性關(guān)鍵技術(shù),世界各國(guó)競(jìng)相競(jìng)爭(zhēng)。
在過(guò)去的幾十年中,目標(biāo)檢測(cè)經(jīng)歷了基于手工設(shè)計(jì)特征的方法到基于深度特征的方法等不同發(fā)展階段。早期,目標(biāo)檢測(cè)方法通常采用手工設(shè)計(jì)特征加淺層分類器的技術(shù)路線,例如支持向量機(jī)(support vector machines,SVM)和AdaBoost等,涌現(xiàn)了包括Haar特征(Viola和Jones,2004)、方向梯度直方圖(histograms of oriented gradients,HOG)特征(Dalal和Triggs,2005)等一系列經(jīng)典的目標(biāo)檢測(cè)特征描述子。2012年以來(lái),深度學(xué)習(xí)技術(shù)取得了飛速的發(fā)展,并行計(jì)算資源不斷迭代更新,大規(guī)模數(shù)據(jù)庫(kù)及評(píng)測(cè)標(biāo)準(zhǔn)相繼構(gòu)建與公開(kāi)?;谏鲜黾夹g(shù)、算力和數(shù)據(jù)的鋪墊,視覺(jué)目標(biāo)檢測(cè)開(kāi)始在精度與效率等方面取得了顯著的進(jìn)展,先后涌現(xiàn)出區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region-based convolutional neural network,R-CNN)(Girshick等,2014)、SSD(single shot detector)(Liu等,2016)、YOLO(you only look once)(Redmon等,2016)、DETR(detection transformer)(Carion等,2020)等一系列經(jīng)典的研究工作。相比于傳統(tǒng)手工設(shè)計(jì)特征的方法,基于深度學(xué)習(xí)的方法避免了煩瑣的手工設(shè)計(jì)過(guò)程,能夠自動(dòng)學(xué)習(xí)更具有區(qū)分力的深度特征。與此同時(shí),基于深度學(xué)習(xí)的方法將特征提取和分類器學(xué)習(xí)統(tǒng)一在一個(gè)框架中,能夠進(jìn)行端到端的學(xué)習(xí)。
隨著技術(shù)的不斷發(fā)展與成熟,深度目標(biāo)檢測(cè)技術(shù)開(kāi)始在實(shí)際應(yīng)用中發(fā)揮重要作用。近些年,國(guó)內(nèi)外涌現(xiàn)了一批以目標(biāo)檢測(cè)等視覺(jué)技術(shù)為核心技術(shù)的科技創(chuàng)業(yè)公司,如曠視科技、商湯科技等。同時(shí),視覺(jué)目標(biāo)檢測(cè)是自動(dòng)駕駛汽車環(huán)境感知重要的內(nèi)容之一,以特斯拉為代表的一批科技公司甚至采用純視覺(jué)目標(biāo)感知的技術(shù)路線開(kāi)展自動(dòng)駕駛研究。盡管目標(biāo)檢測(cè)技術(shù)已經(jīng)開(kāi)始走向?qū)嶋H應(yīng)用,但是當(dāng)前目標(biāo)檢測(cè)的性能仍然無(wú)法到達(dá)人類視覺(jué)的性能,存在巨大改進(jìn)與提升的空間。
鑒于基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)在學(xué)術(shù)界和產(chǎn)業(yè)界取得了巨大成功,本文對(duì)基于深度學(xué)習(xí)的視覺(jué)目標(biāo)檢測(cè)技術(shù)進(jìn)行了系統(tǒng)的總結(jié)和分析,包括國(guó)內(nèi)外研究現(xiàn)狀以及未來(lái)的發(fā)展趨勢(shì)等。根據(jù)視覺(jué)目標(biāo)檢測(cè)采用視覺(jué)傳感器的數(shù)量不同,將視覺(jué)目標(biāo)檢測(cè)分為兩類:基于單目相機(jī)的視覺(jué)目標(biāo)檢測(cè)和基于雙目相機(jī)的視覺(jué)目標(biāo)檢測(cè)。相比于單目相機(jī),雙目相機(jī)能夠提供3維信息。因此,基于雙目相機(jī)的視覺(jué)目標(biāo)檢測(cè)能夠提供精準(zhǔn)的目標(biāo)3維信息,在自動(dòng)駕駛等領(lǐng)域能夠更好地滿足應(yīng)用需求。
首先介紹目標(biāo)檢測(cè)的基本流程,包括訓(xùn)練和測(cè)試過(guò)程。接著,系統(tǒng)地總結(jié)和分析單目視覺(jué)目標(biāo)檢測(cè)。然后,介紹雙目視覺(jué)目標(biāo)檢測(cè)。最終,對(duì)比國(guó)內(nèi)外發(fā)展現(xiàn)狀,并對(duì)發(fā)展趨勢(shì)進(jìn)行展望。
如圖1所示,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)主要包括訓(xùn)練和測(cè)試兩個(gè)部分。訓(xùn)練的主要目的是利用訓(xùn)練數(shù)據(jù)集進(jìn)行檢測(cè)網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)。訓(xùn)練數(shù)據(jù)集包含大量的視覺(jué)圖像及標(biāo)注信息(物體位置及類別)。如圖1(a)所示,訓(xùn)練階段的主要過(guò)程包括數(shù)據(jù)預(yù)處理、檢測(cè)網(wǎng)絡(luò)以及標(biāo)簽匹配與損失計(jì)算等部分。
圖1 基于深度學(xué)習(xí)的視覺(jué)目標(biāo)檢測(cè)訓(xùn)練與測(cè)試Fig.1 Training and inference of deep learning based visual object detection ((a) training stage; (b) test stage)
1)數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理旨在增強(qiáng)訓(xùn)練數(shù)據(jù)多樣性,進(jìn)而提升檢測(cè)網(wǎng)絡(luò)的檢測(cè)能力。常用的數(shù)據(jù)增強(qiáng)手段有翻轉(zhuǎn)、縮放、均值歸一化和色調(diào)變化等。除此之外,研究人員在數(shù)據(jù)預(yù)處理方面做了大量的研究工作。一些研究人員提出從圖像中擦除部分子區(qū)域,如CutOut(DeVries和Taylor,2017)、Random erasing(Zhong等,2020b)、HaS(hide-and-seek)(Singh和Lee,2017)、GridMask(Chen等,2020a)等。Zhang等人(2018a)通過(guò)將不同圖像和標(biāo)簽進(jìn)行差值表示提升分類性能,簡(jiǎn)稱為MixUp。Yun等人(2019)認(rèn)為直接擦除圖像子區(qū)域會(huì)造成信息損失,提出將其他訓(xùn)練圖像粘貼到擦除的子區(qū)域,簡(jiǎn)稱為CutMix。類似地,F(xiàn)ang等人(2019)將其他圖像的實(shí)例掩膜粘貼到當(dāng)前圖像用于實(shí)例分割。此外,研究人員提出將多個(gè)圖像拼接在一起進(jìn)行訓(xùn)練,提升檢測(cè)器應(yīng)對(duì)尺度變化的魯棒性,如Mosaic(Bochkovskiy等,2020)、Montage(Zhou等,2020)、DST(dynamic scale training)(Chen等,2020d)。此后,Chen等人(2021e)提出自動(dòng)搜索的尺度增強(qiáng)策略。
2)檢測(cè)網(wǎng)絡(luò)。檢測(cè)網(wǎng)絡(luò)一般包括基礎(chǔ)骨干、特征融合及預(yù)測(cè)網(wǎng)絡(luò)3部分。目標(biāo)檢測(cè)器的基礎(chǔ)骨干通常采用用于圖像分類的深度卷積網(wǎng)絡(luò),如AlexNet(Krizhevsky等,2012)、VGGNet(Visual Geometry Group)(Simonyan和Zisserman,2014)、ResNet(He等,2016)和DenseNet(Huang等,2017)等。近期,研究人員開(kāi)始采用基于Transformer(Vaswani等,2017)的基礎(chǔ)骨干網(wǎng)絡(luò),如ViT(vision transformer)(Dosovitskiy等,2021;Beal等,2020)、Swin(Liu等,2021c)和PVT(pyramid vision transformer)(Wang等,2021c)等。通常將大規(guī)模圖像分類數(shù)據(jù)庫(kù)ImageNet (Russakovsky等,2015)(https://www.image-net.org/)上的預(yù)訓(xùn)練權(quán)重作為檢測(cè)器骨干網(wǎng)絡(luò)的初始權(quán)重。特征融合主要是對(duì)基礎(chǔ)骨干提取的特征進(jìn)行融合,用于后續(xù)分類和回歸。常見(jiàn)的特征融合方式是特征金字塔結(jié)構(gòu)(Lin等,2017a)。研究人員開(kāi)始用基于Transformer編解碼的特征融合方式進(jìn)行目標(biāo)檢測(cè)。最后,預(yù)測(cè)網(wǎng)絡(luò)進(jìn)行分類和回歸等任務(wù)。在兩階段目標(biāo)檢測(cè)方法中,分類和回歸通常采用全連接的方式,而在單階段的方法中,分類和回歸等通常采用全卷積的方式。Guo等人(2020b)利用神經(jīng)網(wǎng)絡(luò)搜索技術(shù)同時(shí)搜索基礎(chǔ)骨干、特征融合和預(yù)測(cè)網(wǎng)絡(luò)等3部分。與此同時(shí),檢測(cè)器通常還需要一些初始化,如錨點(diǎn)框初始化、角點(diǎn)初始化和查詢特征初始化等。
3)標(biāo)簽分配與損失計(jì)算。標(biāo)簽分配主要是為檢測(cè)器預(yù)測(cè)提供真實(shí)值。在目標(biāo)檢測(cè)中,標(biāo)簽分配的準(zhǔn)則包括交并比(intersection over union,IoU)準(zhǔn)則、距離準(zhǔn)則、似然估計(jì)準(zhǔn)則和二分匹配等。交并比準(zhǔn)則通常用于基于錨點(diǎn)框的目標(biāo)檢測(cè)方法,根據(jù)錨點(diǎn)框與物體真實(shí)框之間的交并比將錨點(diǎn)框分配到對(duì)應(yīng)的物體。距離準(zhǔn)則通常用于無(wú)錨點(diǎn)框的目標(biāo)檢測(cè)方法,根據(jù)點(diǎn)到物體中心的距離將其分配到對(duì)應(yīng)的物體。似然估計(jì)準(zhǔn)則和二分匹配通?;诜诸惡突貧w的聯(lián)合損失進(jìn)行最優(yōu)標(biāo)簽分配?;跇?biāo)簽分類的結(jié)果,采用損失函數(shù)計(jì)算分類和回歸等任務(wù)的損失,并利用反向傳播算法更新檢測(cè)網(wǎng)絡(luò)的權(quán)重。常用的分類損失函數(shù)有交叉熵?fù)p失函數(shù)、聚焦損失函數(shù)(Lin等,2017b)等,而回歸損失函數(shù)有L1損失函數(shù)、平滑L1損失函數(shù)、交并比IoU損失函數(shù)、GIoU(generalized IoU)損失函數(shù)(Rezatofighi等,2019)和CIoU(complete-IoU)損失函數(shù)(Zheng等,2020b)等。
基于訓(xùn)練階段學(xué)習(xí)的檢測(cè)網(wǎng)絡(luò),在測(cè)試階段輸出給定圖像中存在物體的類別以及位置信息。如圖1(b)所示,主要包括輸入圖像、檢測(cè)網(wǎng)絡(luò)和后處理等過(guò)程。對(duì)于一幅給定的圖像,先利用訓(xùn)練好的檢測(cè)網(wǎng)絡(luò)生成分類和回歸結(jié)果。一般而言,大部分目標(biāo)檢測(cè)方法在同一物體周圍會(huì)生成多個(gè)檢測(cè)結(jié)果。因此,大部分目標(biāo)檢測(cè)方法需要一個(gè)后處理步驟,旨在為每個(gè)物體保留一個(gè)檢測(cè)結(jié)果并去除其他冗余的檢測(cè)結(jié)果。最常用的后處理方法為非極大值抑制方法(non-maximum suppression,NMS)。NMS試圖為每個(gè)物體保留一個(gè)分類得分最高的檢測(cè)結(jié)果。Bodla等人(2017)認(rèn)為NMS方法容易將距離較近的多個(gè)物體檢測(cè)結(jié)果合并,造成部分物體漏檢的問(wèn)題。為解決這一問(wèn)題,Bodla等人(2017)對(duì)NMS進(jìn)行改進(jìn)并提出Soft-NMS。該方法通過(guò)降低交并比高的檢測(cè)結(jié)果的分類得分來(lái)抑制冗余檢測(cè)。Jiang等人(2018)提出IoUNet,預(yù)測(cè)檢測(cè)框與物體真實(shí)框之間的交并比,并根據(jù)預(yù)測(cè)的交并比值進(jìn)行非極大值抑制。He等人(2018)提出學(xué)習(xí)檢測(cè)框的定位方差,并利用定位方差線性加權(quán)鄰近檢測(cè)框來(lái)提升當(dāng)前檢測(cè)框的定位精度。Pato等人(2020)通過(guò)對(duì)檢測(cè)結(jié)果上下文推理實(shí)現(xiàn)對(duì)檢測(cè)結(jié)果的重打分。
視覺(jué)目標(biāo)檢測(cè)在訓(xùn)練和測(cè)試過(guò)程相對(duì)煩瑣。為了更好地促進(jìn)目標(biāo)檢測(cè)技術(shù)的發(fā)展,方便不同方法進(jìn)行公平比較,國(guó)內(nèi)外研究人員先后發(fā)布了不同的目標(biāo)檢測(cè)開(kāi)源平臺(tái),使用基于模塊化設(shè)計(jì)的思想,方便支持不同目標(biāo)檢測(cè)方法的集成。國(guó)外比較有代表性的研究機(jī)構(gòu)是美國(guó)FaceBook人工智能研究院,先后發(fā)布了Detectron(https://github.com/facebookresearch/Detectron)、maskrcnn-benchmark(https://github.com/facebookresearch/Detectron)和Detectron2(https://github.com/facebookresearch/detectron2)等目標(biāo)檢測(cè)與分割開(kāi)源平臺(tái)。國(guó)內(nèi)比較有代表性的機(jī)構(gòu)是商湯科技和圖森科技,發(fā)布了mmdetection(https://github.com/open-mmlab/mmdetection)和SimpleDet(https://github.com/TuSimple/simpledet)等目標(biāo)檢測(cè)開(kāi)源平臺(tái)。上述目標(biāo)檢測(cè)平臺(tái)大多基于國(guó)外深度學(xué)習(xí)核心架構(gòu)Caffe2(https://github.com/facebookarchive/caffe2)、PyTorch(https://pytorch.org/)和MXNet(https://mxnet.apache.org/versions/1.8.0/)。與此同時(shí),百度、華為和清華大學(xué)等國(guó)內(nèi)科技公司與大學(xué)相繼發(fā)布了深度學(xué)習(xí)核心架構(gòu)PaddlePaddle(https://www.paddlepaddle.org.cn/)、MindSpore(https://www.mindspore.cn/)和Jittor(https://cg.cs.tsinghua.edu.cn/jittor)等,并提供了一些典型的目標(biāo)檢測(cè)方法接口,促進(jìn)目標(biāo)檢測(cè)技術(shù)走向?qū)嶋H應(yīng)用。
單目視覺(jué)目標(biāo)檢測(cè)是視覺(jué)目標(biāo)檢測(cè)的基礎(chǔ),旨在預(yù)測(cè)單幅圖像中存在物體的位置以及類別信息。自2012年深度卷積神經(jīng)網(wǎng)絡(luò)在圖像分類任務(wù)取得成功后(Krizhevsky等,2012),研究人員開(kāi)始嘗試用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測(cè),如DetectorNet(Szegedy等,2013)和OearFeat(Sermanet等,2014)。此后,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)開(kāi)始主導(dǎo)目標(biāo)檢測(cè)的發(fā)展。圖2給出了近年基于深度學(xué)習(xí)的目標(biāo)檢測(cè)發(fā)展歷程,并列出了一些具有代表性的深度網(wǎng)絡(luò)模型及目標(biāo)檢測(cè)方法?;疑煮w表示一些代表性的深度網(wǎng)絡(luò)模型,黑色字體表示一些代表性的深度學(xué)習(xí)目標(biāo)檢測(cè)方法。將目標(biāo)檢測(cè)方法分為3類:基于錨點(diǎn)框的目標(biāo)檢測(cè)方法、無(wú)錨點(diǎn)框的目標(biāo)檢測(cè)方法以及端到端預(yù)測(cè)的目標(biāo)檢測(cè)方法。需要指出的是,端到端預(yù)測(cè)的目標(biāo)檢測(cè)方法屬于無(wú)錨點(diǎn)框的目標(biāo)檢測(cè)方法。由于端到端預(yù)測(cè)的目標(biāo)檢測(cè)方法不需要后處理操作,大多采用轉(zhuǎn)換器模型直接為每個(gè)目標(biāo)預(yù)測(cè)一個(gè)檢測(cè)結(jié)果,是一個(gè)更簡(jiǎn)潔的檢測(cè)架構(gòu),將其單獨(dú)歸為一類進(jìn)行詳細(xì)介紹。
圖2 基于深度學(xué)習(xí)的視覺(jué)目標(biāo)檢測(cè)發(fā)展過(guò)程(圖中括號(hào)內(nèi)為作者信息)Fig.2 Development process of visual object detection based on deep learning
基于錨點(diǎn)框的目標(biāo)檢測(cè)方法為空間每一個(gè)位置設(shè)定多個(gè)矩形框,以便盡可能地覆蓋圖像中所有存在的物體?;阱^點(diǎn)框的目標(biāo)檢測(cè)可以分為兩類(趙永強(qiáng) 等,2020):兩階段目標(biāo)檢測(cè)方法和單階段目標(biāo)檢測(cè)方法。圖3給出兩類方法的基本架構(gòu)圖。兩階段方法(圖3(a))首先提取k個(gè)類別不具體的候選檢測(cè)窗口,然后進(jìn)一步對(duì)這些候選檢測(cè)窗口進(jìn)行分類和回歸,生成最終的檢測(cè)結(jié)果。與兩階段方法不同,單階段方法(圖3(b))直接對(duì)錨點(diǎn)框進(jìn)行分類和回歸。一般而言,兩階段方法具有較高的檢測(cè)精度,而單階段方法具有較快的推理速度。
圖3 基于錨點(diǎn)框的目標(biāo)檢測(cè)方法基本架構(gòu)Fig.3 Architectures of anchor-based object detection methods ((a) two-stage architecture; (b) one-stage architecture)
2.1.1 兩階段目標(biāo)檢測(cè)方法
區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region-based convolutional neural network,R-CNN)系列工作是兩階段目標(biāo)檢測(cè)方法的最主要代表性工作。R-CNN(Girshick等,2014)首先利用選擇性搜索方法(Uijlings等,2013)生成2 000個(gè)最可能是物體的候選檢測(cè)框,然后利用深度卷積神經(jīng)網(wǎng)絡(luò)提取這些候選檢測(cè)框的深度特征,最后利用支持向量機(jī)進(jìn)行分類和回歸。該方法在當(dāng)時(shí)取得了巨大的成功,大幅度提升了目標(biāo)檢測(cè)的精度。由于R-CNN分別提取每個(gè)候選框的深度特征,因此存在推理速度慢的問(wèn)題。針對(duì)這一問(wèn)題,He等人(2015)先通過(guò)特征共享的方式提取整幅圖像的特征,然后利用空間金字塔池化(spatial pyramid pooling,SPP)操作,將每個(gè)候選框?qū)?yīng)的特征轉(zhuǎn)換成固定長(zhǎng)度的特征,進(jìn)行后續(xù)SVM的分類和回歸,該方法簡(jiǎn)稱為SPPNet。Girshick(2015)認(rèn)為R-CNN和SPPNet特征提取和預(yù)測(cè)(分類和回歸)是一個(gè)多階段的過(guò)程,限制了深度神經(jīng)網(wǎng)絡(luò)的性能,并提出了R-CNN的改進(jìn)工作Fast R-CNN。Fast R-CNN首先提取整幅圖像的深度特征,然后利用感興趣區(qū)域(region of interest,RoI)池化操作將候選檢測(cè)框的特征縮放至固定大小,最終利用全連接層進(jìn)行分類和回歸。由于感興趣池化操作能夠?qū)崿F(xiàn)反向傳播,F(xiàn)ast R-CNN能夠聯(lián)合訓(xùn)練整個(gè)網(wǎng)絡(luò)。隨后,Ren等人(2015)提出Faster R-CNN,進(jìn)一步將候選窗口的生成同候選窗口的分類與回歸統(tǒng)一到在一個(gè)網(wǎng)絡(luò)中聯(lián)合學(xué)習(xí)。
在Faster R-CNN的基礎(chǔ)上,研究人員進(jìn)行了大量的改進(jìn)。一些研究人員關(guān)注RoI池化操作。Dai等人(2016)提出位置敏感感興趣區(qū)域(position-sensitive RoI,PSRoI)池化操作,從特征圖的不同通道累積空間對(duì)應(yīng)位置的特征。Zhu等人(2017)認(rèn)為RoI池化操作可以提取上下文信息,PSRoI能夠捕獲物體的局部信息?;诖思僭O(shè),Zhu等人(2017)提出了CoupleNet,將RoI池化操作提取的特征和PSRoI池化操作提取的特征進(jìn)行融合,用于后續(xù)的分類和回歸。Dai等人(2017)提出了可變形RoI池化操作,能夠更好地刻畫(huà)物體的形變。He等人(2017)提出RoIAlign池化操作,解決RoI池化操作因量化誤差帶來(lái)的特征不匹配問(wèn)題。此外,一些研究人員關(guān)注級(jí)聯(lián)結(jié)構(gòu)在兩階段方法中的應(yīng)用。Cai和Vasconcelos(2018)提出級(jí)聯(lián)目標(biāo)檢測(cè)架構(gòu)Cascade R-CNN,將多個(gè)Fast R-CNN頭網(wǎng)絡(luò)級(jí)聯(lián)起來(lái),當(dāng)前級(jí)對(duì)前一級(jí)的分類和回歸結(jié)果進(jìn)一步進(jìn)行分類和回歸。類似地,Zhong等人(2020a)和Vu等人(2019)將級(jí)聯(lián)思想用于候選窗口生成。
為了應(yīng)對(duì)物體尺度的變化,研究人員提出了基于圖像金字塔的方法(Singh和Davis,2018;Singh等,2018)和基于特征金字塔的方法(Lin等,2017a)。基于圖像金字塔的方法采用不同尺度的圖像檢測(cè)不同尺度的物體,如小尺度圖像檢測(cè)大尺度物體、大尺度圖像檢測(cè)小尺度物體?;趫D像金字塔的方法需要利用檢測(cè)網(wǎng)絡(luò)分別檢測(cè)多個(gè)不同尺度的圖像,計(jì)算量相對(duì)較大?;谔卣鹘鹱炙姆椒ú捎脝蝹€(gè)檢測(cè)網(wǎng)絡(luò)內(nèi)部不同層檢測(cè)不同尺度的物體,計(jì)算量相對(duì)較少(李暉暉 等,2020;姜文濤 等,2019)。因此,研究人員更多關(guān)注基于特征金字塔的方法(姚群力 等,2019)。
2.1.2 單階段目標(biāo)檢測(cè)方法
YOLO(you only look once)系列工作是單階段目標(biāo)檢測(cè)方法的代表性工作之一。YOLO(Redmon等,2016)直接將圖像分成N×N大小的子區(qū)域,并預(yù)測(cè)每個(gè)子區(qū)域存在物體的概率、類別以及位置偏移量。YOLO結(jié)構(gòu)十分簡(jiǎn)單,具有很快的運(yùn)算速度。此后,YOLOv2(Redmon和Farhadi,2017)、YOLOv3(Redmon和Farhadi,2018)、YOLOv4(Bochkovskiy等,2020)和YOLOv5(https://github.com/ultralytics/yolov5)等相繼提出,獲得了廣泛的關(guān)注(張偉 等,2021)。YOLOv2引入包括批歸一化操作、高分辨率輸入和全卷積操作等改進(jìn),使其能夠在保持較快檢測(cè)速度的情況下提升目標(biāo)檢測(cè)精度。YOLOv3提出Darknet-53基礎(chǔ)骨干網(wǎng)絡(luò)和多尺度預(yù)測(cè)等改進(jìn)。YOLOv4對(duì)數(shù)據(jù)預(yù)處理、檢測(cè)網(wǎng)絡(luò)設(shè)計(jì)和預(yù)測(cè)網(wǎng)絡(luò)等過(guò)程進(jìn)行系統(tǒng)的分析,并基于這些分析設(shè)計(jì)了適合單顯卡的高效目標(biāo)檢測(cè)器。YOLOv5提供4種不同大小的目標(biāo)檢測(cè)器,以便滿足不同應(yīng)用的需求。
SSD(single shot detector)(Liu等,2016)是另一個(gè)代表性的單階段目標(biāo)檢測(cè)方法。為了檢測(cè)不同尺度的物體,SSD采用不同層的特征圖檢測(cè)不同尺度的物體。靠前分辨率高的特征圖檢測(cè)小尺度物體,靠后分辨率低的特征圖檢測(cè)大尺度物體。此后,研究人員在SSD的基礎(chǔ)上開(kāi)展了大量的工作。Fu等人(2017)和Kong等人(2018)通過(guò)去卷積操作為SSD引入上下文信息。Zhou等人(2018)提出尺度轉(zhuǎn)換層,將高語(yǔ)義特征圖轉(zhuǎn)換成不同尺度的特征圖檢測(cè)不同尺度的物體,保持了特征圖的語(yǔ)義一致性。受人類視覺(jué)系統(tǒng)啟發(fā),Liu等人(2018a)提出利用不同膨脹率的卷積層提取不同感受野的上下文信息。Zhao等人(2019)、Kim等人(2018)和Wang等人(2019b)分別提出多級(jí)結(jié)構(gòu)、并行結(jié)構(gòu)和圖像金字塔結(jié)構(gòu)增加特征金字塔結(jié)構(gòu)的上下文信息。Zhang等人(2018b)、Cao等人(2019b)和Nie等人(2019)提出了基于級(jí)聯(lián)結(jié)構(gòu)的單階段目標(biāo)檢測(cè)方法,提高目標(biāo)檢測(cè)定位精度。Zhang等人(2018c)、Dvornik等人(2017)和Cao等人(2019a)聯(lián)合檢測(cè)和分割兩個(gè)任務(wù),試圖提升多任務(wù)學(xué)習(xí)的性能。Li等人(2020d)提出了尺度解混模塊,使得不同層能夠更好地關(guān)注不同尺度的物體。為了解決類別不平衡問(wèn)題,Lin等人(2017b)提出了聚焦損失(focal loss)函數(shù),在訓(xùn)練過(guò)程中增大難樣本的損失權(quán)重。
基于錨點(diǎn)框的目標(biāo)檢測(cè)方法需要人為地根據(jù)數(shù)據(jù)庫(kù)特性設(shè)定錨點(diǎn)框的尺度和長(zhǎng)寬比等參數(shù)。因而,基于錨點(diǎn)框的目標(biāo)檢測(cè)方法存在檢測(cè)器對(duì)參數(shù)敏感、檢測(cè)器泛化能力差等問(wèn)題。針對(duì)這一問(wèn)題,研究人員提出了無(wú)錨點(diǎn)框的目標(biāo)檢測(cè)方法。無(wú)錨點(diǎn)框目標(biāo)檢測(cè)方法主要分為兩類:基于關(guān)鍵點(diǎn)的目標(biāo)檢測(cè)方法和基于內(nèi)部點(diǎn)的目標(biāo)檢測(cè)方法。圖4(a)給出了基于關(guān)鍵點(diǎn)方法的基本結(jié)構(gòu)圖?;陉P(guān)鍵點(diǎn)的目標(biāo)檢測(cè)方法通常通過(guò)預(yù)測(cè)物體的多個(gè)關(guān)鍵點(diǎn),并將關(guān)鍵點(diǎn)集成實(shí)現(xiàn)對(duì)物體的檢測(cè)。圖4(b)給出了基于內(nèi)部點(diǎn)方法的基本結(jié)構(gòu)圖?;趦?nèi)部點(diǎn)的目標(biāo)檢測(cè)方法預(yù)測(cè)物體內(nèi)部點(diǎn)到物體邊界的上下左右偏移量及內(nèi)部點(diǎn)所屬的類別信息等。
圖4 無(wú)錨點(diǎn)框目標(biāo)檢測(cè)方法基本架構(gòu)Fig.4 Architectures of anchor-free object detection methods ((a) keypoint-based method; (b) center-based method)
2.2.1 基于關(guān)鍵點(diǎn)的目標(biāo)檢測(cè)方法
2018年,Law和Deng(2018)創(chuàng)新性地提出了基于角點(diǎn)的目標(biāo)檢測(cè)方法CornerNet。基于全卷積神經(jīng)網(wǎng)絡(luò)Hourglass(Newell等,2016)輸出的高分辨率特征圖,CornerNet分別預(yù)測(cè)物體左上角點(diǎn)熱圖、右下角點(diǎn)熱圖以及兩個(gè)角點(diǎn)的集成特征向量?;诩商卣鞯南嗨菩远?,CornerNet將屬于同一物體的兩個(gè)角點(diǎn)關(guān)聯(lián)起來(lái)構(gòu)成一個(gè)物體。此外,CornerNet預(yù)測(cè)類別敏感的角點(diǎn)熱圖來(lái)區(qū)分不同類別的物體,并提出角點(diǎn)池化層提升網(wǎng)絡(luò)對(duì)角點(diǎn)的檢測(cè)能力。該方法消除了單階段檢測(cè)方法需要設(shè)置錨點(diǎn)框的需求。為提升CornerNet推理有效性,Law等人(2020)從減少處理像素?cái)?shù)及每個(gè)像素的運(yùn)算量等兩方面出發(fā),提出了CornerNet的快速版本CornerNet-Lite。CornerNet-Lite主要包括兩個(gè)模塊:CornerNet-Saccade模塊和CornerNet-Squeeze模塊。CornerNet-Saccade從低分辨率輸入圖像中快速預(yù)測(cè)可能存在物體的候選區(qū)域,而CornerNet-Squeue采用輕量卷積神經(jīng)網(wǎng)絡(luò)從高分辨率候選區(qū)域中精準(zhǔn)檢測(cè)物體。
基于CornerNet的思想,研究人員進(jìn)行了一些改進(jìn)工作。Zhou等人(2019b)認(rèn)為物體的角點(diǎn)通常位于物體外,缺少物體外觀特征信息,為了解決這一問(wèn)題,提出了基于極值點(diǎn)的目標(biāo)檢測(cè)器ExtremeNet,預(yù)測(cè)4個(gè)類別敏感的極值點(diǎn)熱圖和1個(gè)類別敏感的中心點(diǎn)熱圖,并通過(guò)判斷4個(gè)極值點(diǎn)對(duì)應(yīng)的中心點(diǎn)響應(yīng)值是否大于預(yù)定閾值來(lái)集成極值點(diǎn)。4個(gè)極值點(diǎn)分別是左極值點(diǎn)、右極值點(diǎn)、上極值點(diǎn)和下極值點(diǎn)。為了能夠獲取更多物體外觀信息,減少CornerNet生成的大量虛檢點(diǎn),Duan等人(2019)在CornerNet的基礎(chǔ)上增加對(duì)中心點(diǎn)的預(yù)測(cè)。類似地,為了減少對(duì)角點(diǎn)錯(cuò)誤匹配的數(shù)量,Dong等人(2020)在預(yù)測(cè)成對(duì)角點(diǎn)的同時(shí)預(yù)測(cè)成對(duì)角點(diǎn)的向心偏移量,并根據(jù)它們是否都靠近中心來(lái)判斷是否屬于同一物體。Duan等人(2020)利用角點(diǎn)目標(biāo)檢測(cè)提取網(wǎng)絡(luò)提出候選檢測(cè)框,進(jìn)而利用Fast R-CNN頭網(wǎng)絡(luò)對(duì)這些候選框進(jìn)行分類和回歸。
上述方法都需要將不同關(guān)鍵點(diǎn)集成構(gòu)成一個(gè)物體。Yang等人(2019)直接預(yù)測(cè)一組關(guān)鍵點(diǎn)表示物體,并利用這組關(guān)鍵點(diǎn)所對(duì)應(yīng)的特征對(duì)物體進(jìn)行分類,簡(jiǎn)稱RepPoints。與CornerNet和ExtremeNet等自下而上的方法比,RepPoints不需要將不同關(guān)鍵點(diǎn)集成并采用了更準(zhǔn)確的特征進(jìn)行分類。在此基礎(chǔ)上,Yang等人(2020)提出基于稠密關(guān)鍵點(diǎn)的RePoints,用于更精準(zhǔn)的實(shí)例分割任務(wù)。Chen等人(2020e)通過(guò)引入兩個(gè)輔助任務(wù)(即角點(diǎn)預(yù)測(cè)和前景預(yù)測(cè))增強(qiáng)RepPoints提取的特征和微調(diào)RepPoints的檢測(cè)框定位,進(jìn)而提升RepPoints的物體檢測(cè)準(zhǔn)確率。Wei等人(2020)利用若干個(gè)初始關(guān)鍵點(diǎn)表示物體,基于這些初始關(guān)鍵點(diǎn)對(duì)物體進(jìn)行回歸和分類。
2.2.2 基于內(nèi)部點(diǎn)的目標(biāo)檢測(cè)方法
2015年起,研究人員已經(jīng)提出了基于內(nèi)部點(diǎn)的目標(biāo)檢測(cè)方法(如DenseBox(Huang等,2015)和UnitBox(Yu等,2016))。但是,這些方法僅用于人臉檢測(cè)等單一類別視覺(jué)目標(biāo)檢測(cè)任務(wù)上。自2019年開(kāi)始,研究人員將基于內(nèi)部點(diǎn)的方法用于一般目標(biāo)檢測(cè)任務(wù)中。Zhu等人(2019)率先提出特征選擇性的無(wú)錨點(diǎn)目標(biāo)檢測(cè)方法FSAF(feature selective anchor-free),預(yù)測(cè)物體中心區(qū)域到物體邊界的偏移量,并根據(jù)分類和回歸損失動(dòng)態(tài)地將物體分配到最優(yōu)的金字塔尺度上預(yù)測(cè)。Tian等人(2019)提出目標(biāo)檢測(cè)方法FCOS(fully convolutional one-stage detector),預(yù)測(cè)物體所有內(nèi)部點(diǎn)到其上下左右邊界的距離及物體的類別。為了檢測(cè)不同尺度的物體,F(xiàn)COS根據(jù)物體的尺度將其分配到金字塔結(jié)構(gòu)的不同層進(jìn)行預(yù)測(cè)。同一時(shí)期,Kong等人(2019)提出無(wú)錨點(diǎn)框檢測(cè)方法FoveaBox,僅利用部分中心區(qū)域點(diǎn)預(yù)測(cè)物體。Wang等人(2020b)提出基于網(wǎng)絡(luò)架構(gòu)搜索(neural architecture search,NAS)的檢測(cè)方法NAS-FCOS,采用網(wǎng)絡(luò)架構(gòu)搜索的思想構(gòu)建特征金字塔結(jié)構(gòu)和預(yù)測(cè)頭網(wǎng)絡(luò)。Qiu等人(2020b)提出基于邊界強(qiáng)化模塊的目標(biāo)檢測(cè)方法BorderDet,提取FCOS輸出提取邊界框上局部最大特征值進(jìn)行第2次分類和回歸,鞏固第1次分類和回歸結(jié)果。Wang等人(2019a)提出預(yù)測(cè)物體的位置以及尺度等信息生成更聚焦在物體周圍的錨點(diǎn)框,進(jìn)而提取更好的候選窗口用于后續(xù)分類和回歸。
與此同時(shí),研究人員提出了快速高效的檢測(cè)方法。Zhou等人(2019a)提出高效的無(wú)錨點(diǎn)框檢測(cè)方法CenterNet,預(yù)測(cè)物體的中心點(diǎn)、中心點(diǎn)偏移量以及物體的寬高信息等。同時(shí),CenterNet采用最大池化操作提取峰值點(diǎn),避免了非極大值抑制后處理操作。Liu等人(2020b)改進(jìn)高斯核對(duì)訓(xùn)練樣本進(jìn)行編碼的方式,加快了CenterNet的訓(xùn)練速度。Lan等人(2020)在CenterNet的基礎(chǔ)上增加角點(diǎn)學(xué)習(xí)監(jiān)督,增強(qiáng)了對(duì)物體邊界特征的學(xué)習(xí)。
此外,Qiu等人(2021)提出了基于十字線表示的目標(biāo)檢測(cè)方法CrossDet,采用一對(duì)交叉的水平線和豎直線表示物體。為了能夠更好地捕獲交叉線上的特征用于分類、水平回歸以及豎直回歸,CrossDet提出了基于水平池化和豎直池化的交叉線特征提取模塊。
上述基于錨點(diǎn)框的目標(biāo)檢測(cè)方法和無(wú)錨點(diǎn)框的目標(biāo)檢測(cè)方法通常存在一個(gè)物體對(duì)多個(gè)檢測(cè)框的情況。實(shí)際中,同一物體只需要保留一個(gè)檢測(cè)框即可。因此,上述方法一般都需要進(jìn)行非極大值抑制處理的操作,以便去除同一物體的冗余檢測(cè)。近期,研究人員開(kāi)始研究端對(duì)端預(yù)測(cè)的目標(biāo)檢測(cè)方法。該類方法直接端對(duì)端地為每個(gè)物體預(yù)測(cè)一個(gè)檢測(cè)框。其中,最具有代表性的方法是Carion等人(2020)提出的基于轉(zhuǎn)換器Transformer的目標(biāo)檢測(cè)方法DETR(detection transformer),如圖5所示。DETR利用卷積神經(jīng)網(wǎng)絡(luò)提取特征,并基于Transformer編解碼網(wǎng)絡(luò)直接預(yù)測(cè)物體的位置以及分類得分。具體地,DETR預(yù)先設(shè)定N個(gè)查詢物體特征,然后將其與編碼網(wǎng)絡(luò)輸出的特征共同送入解碼網(wǎng)絡(luò)生成N個(gè)預(yù)測(cè)的物體特征,最后利用預(yù)測(cè)頭網(wǎng)絡(luò)進(jìn)行分類和回歸。在訓(xùn)練過(guò)程中,為了能夠?qū)⑽矬w與預(yù)測(cè)結(jié)果一對(duì)一匹配,DETR采用基于匈牙利算法的二分匹配損失。
圖5 端到端預(yù)測(cè)的目標(biāo)檢測(cè)方法基本架構(gòu)Fig.5 Architecture of end-to-end object detection
盡管DETR在目標(biāo)檢測(cè)上取得了巨大的成功,但是它存在收斂速度較慢、小尺度目標(biāo)檢測(cè)性能相對(duì)較差等問(wèn)題。為了克服DETR存在的問(wèn)題,Zhu等人(2021)受形變卷積(Dai等,2017)啟發(fā)提出了Deformable DETR。與DETR采用基于全局的注意力機(jī)制不同,Deformable DETR提出了基于局部稀疏的可形變注意力模塊??尚巫冏⒁饬δK僅關(guān)注少量采樣位置以及它們之間的關(guān)系。同時(shí),可形變注意力模塊可以擴(kuò)展成多尺度可形變注意力模塊,用在特征金字塔結(jié)構(gòu)中?;诖?,Deformable DETR具有更快的收斂速度、更好的小尺度目標(biāo)檢測(cè)性能。類似地,為了解決DETR訓(xùn)練慢、小尺度物體檢測(cè)性能差等問(wèn)題,Dai等人(2021b)提出基于可形變金字塔卷積的編碼網(wǎng)絡(luò)和基于RoI池化操作的動(dòng)態(tài)解碼網(wǎng)絡(luò)。受預(yù)訓(xùn)練Transformer在自然語(yǔ)言中的成功啟發(fā),Dai等人(2021d)提出基于無(wú)監(jiān)督預(yù)訓(xùn)練的檢測(cè)器UP-DETR(unsupervised DETR)。在預(yù)訓(xùn)練過(guò)程中,UP-DETR隨機(jī)從圖像中選取一塊區(qū)域,并將其特征添加到DETR解碼網(wǎng)路的查詢特征中預(yù)測(cè)該區(qū)域的位置及重建該特征。實(shí)驗(yàn)發(fā)現(xiàn)該無(wú)監(jiān)督預(yù)訓(xùn)練能夠加快DETR的收斂速度并提升其檢測(cè)精度。為了減少DETR巨大的計(jì)算資源開(kāi)銷,Zheng等人(2020a)提出了基于自適應(yīng)聚類Transformer的目標(biāo)檢測(cè)方法。該方法利用局部敏感哈希對(duì)查詢特征進(jìn)行聚類,并根據(jù)聚類結(jié)果近似計(jì)算注意力特征圖,從而減少計(jì)算消耗量。為了加快訓(xùn)練速度,Sun等人(2021d)將DETR的思想應(yīng)用到FCOS和R-CNN檢測(cè)器中,通過(guò)兩者的結(jié)合加快了DETR的收斂速度。
除此之外,研究人員通過(guò)對(duì)現(xiàn)有無(wú)錨點(diǎn)框目標(biāo)檢測(cè)器進(jìn)行改進(jìn),同樣實(shí)現(xiàn)了基于端到端預(yù)測(cè)的目標(biāo)檢測(cè)。Wang等人(2021a)基于全卷積網(wǎng)絡(luò)實(shí)現(xiàn)了端到端目標(biāo)檢測(cè)器POTO(prediction-aware one-to-one)。在訓(xùn)練過(guò)程中,POTO采用預(yù)測(cè)敏感的一對(duì)一標(biāo)簽分配原則。與此同時(shí),POTO提出了3D最大值濾波提升空間特征的可區(qū)分性,進(jìn)而更好地壓縮同一物體的冗余預(yù)測(cè)。Sun等人(2021b)提出了類似的端到端檢測(cè)器,即根據(jù)分類和回歸損失一對(duì)一分配訓(xùn)練標(biāo)簽。Sun等人(2021c)對(duì)提出可學(xué)習(xí)候選窗口的端到端檢測(cè)器Sparse R-CNN。每個(gè)可學(xué)習(xí)候選框?qū)?yīng)有分類得分、檢測(cè)框位置以及候選框特征。該方法提取可學(xué)習(xí)候選框?qū)?yīng)的RoI特征,并利用候選框特征動(dòng)態(tài)生成用于分類和回歸的特征。通過(guò)多次迭代,Sparse R-CNN能夠?qū)崿F(xiàn)端到端地檢測(cè)物體。
深度目標(biāo)檢測(cè)方法存在一些常用的檢測(cè)子模塊,其設(shè)計(jì)方式對(duì)檢測(cè)性能比較重要。本文簡(jiǎn)單地介紹一些研究人員主要關(guān)注的子模塊。
2.4.1 特征金字塔結(jié)構(gòu)設(shè)計(jì)
特征金字塔結(jié)構(gòu)(feature pyramid network,F(xiàn)PN)是目標(biāo)檢測(cè)應(yīng)對(duì)物體尺度變化的重要手段,近年來(lái)吸引了研究人員的廣泛關(guān)注。早期,Lin等人(2017a)通過(guò)引入自上而下的連接,增強(qiáng)特征金字塔結(jié)構(gòu)多個(gè)預(yù)測(cè)層的語(yǔ)義級(jí)別。此后,研究人員提出了一系列方法試圖進(jìn)一步增強(qiáng)特征融合質(zhì)量。Liu等人(2018b)提出雙向融合的特征金字塔結(jié)構(gòu)PAFPN(path aggregation feature pyramid network),同時(shí)進(jìn)行自上而下和自下而上的雙向融合加快不同層的信息交互。Pang等人(2019)提出將特征金字塔多層融合的共同特征用于增強(qiáng)特征金字塔的每一層。Cao等人(2020b)和Li等人(2019c)提出基于孿生網(wǎng)絡(luò)的多分支金字塔結(jié)構(gòu),特征金字塔的每一層都經(jīng)過(guò)數(shù)量相同參數(shù)共享的卷積層增強(qiáng)每個(gè)分支的語(yǔ)義級(jí)別。Qiao等人(2021)提出遞歸特征金字塔結(jié)構(gòu),將特征金字塔的輸入融合到骨干網(wǎng)絡(luò)二次特征提取。
上述方法在特征融合時(shí)大多采用固定融合的方式,如特征相加。基于此,研究人員提出了自適應(yīng)融合的方法。Tan等人(2020b)、Liu等人(2019)和Guo等人(2020a)分別提出自適應(yīng)加權(quán)的特征融合方法BiFPN(bi-directional FPN)、ASFF(adaptively spatial feature fusion)和AugFPN。Wang等人(2020c)通過(guò)可形變3維卷積將特征金字塔輸入進(jìn)行融合,生成不同尺度的特征圖。Zhang等人(2020a)將Transformer用于特征金字塔不同尺度特征融合。Hu等人(2021)提出基于注意力機(jī)制的特征融合機(jī)制,增強(qiáng)上下文信息。Zhao等人(2021)通過(guò)建模層內(nèi)和層間超像素之間的關(guān)系實(shí)現(xiàn)自適應(yīng)特征融合。此外,一些研究人員利用網(wǎng)絡(luò)搜索的方式試圖得到最優(yōu)的特征金字塔結(jié)構(gòu),如Auto-FPN(Xu等,2019)、NAS-FPN(Ghiasi等,2019)和OPA-FPN(one-shot path aggregation FPN)(Liang等,2021)。Chen等人(2021b)通過(guò)膨脹卷積模塊和均勻標(biāo)簽分配策略,能夠在不使用金字塔結(jié)構(gòu)的情況下保持相當(dāng)?shù)木炔⑻嵘龣z測(cè)速度。
2.4.2 預(yù)測(cè)頭網(wǎng)絡(luò)設(shè)計(jì)
預(yù)測(cè)頭網(wǎng)絡(luò)主要進(jìn)行分類和回歸兩類。在兩階段方法中,F(xiàn)aster R-CNN(Ren等,2015)主要采用共享全連接的方式進(jìn)行分類和回歸。研究人員認(rèn)為共享全連接進(jìn)行分類和回歸不是最優(yōu)方案,并提出一些改進(jìn)方法。Lu等人(2019)將候選框區(qū)域進(jìn)行擴(kuò)增,并采用全卷積網(wǎng)絡(luò)直接預(yù)測(cè)物體邊界點(diǎn)的位置。Wu等人(2020b)采用全連接層進(jìn)行分類、采用全卷積層進(jìn)行回歸。Cao等人(2020a)采用可區(qū)分RoI池化層進(jìn)行分類、采用局部稠密預(yù)測(cè)進(jìn)行回歸。Song等人(2020)提出生成兩個(gè)不同候選框分別進(jìn)行分類和回歸,進(jìn)而從空間維度上將分類和回歸任務(wù)解耦。Wang等人(2020a)提出邊緣敏感的邊界定位方式取代基于回歸的方式。
大部分單階段方法大多采用兩個(gè)獨(dú)立的卷積組(如4個(gè)卷積層)分別用于分類和回歸。一些研究人員認(rèn)為這種方法缺乏對(duì)兩個(gè)任務(wù)的關(guān)聯(lián)。Dai等人(2021a)提出一種動(dòng)態(tài)注意力頭網(wǎng)絡(luò)統(tǒng)一分類和回歸任務(wù)的特征生成過(guò)程,包含了尺度動(dòng)態(tài)注意力機(jī)制、空間動(dòng)態(tài)注意力機(jī)制以及任務(wù)動(dòng)態(tài)注意力機(jī)制。任務(wù)動(dòng)態(tài)注意力機(jī)制能夠自適應(yīng)地選擇不同特征用于不同任務(wù)。為了更好地關(guān)聯(lián)分類和回歸(定位)兩個(gè)任務(wù),Li等人(2021b)提出基于邊界框預(yù)測(cè)分布來(lái)估計(jì)邊界框的不確定性,進(jìn)而引導(dǎo)分類與檢測(cè)質(zhì)量估計(jì)。Feng等人(2021b)提出任務(wù)敏感的預(yù)測(cè)頭網(wǎng)絡(luò)。分類和回歸任務(wù)首先共享多層特征,然后利用注意力機(jī)制和空間校準(zhǔn)機(jī)制分別提取適合分類和回歸的特征。Chi等人(2020)提出利用Transformer解碼結(jié)構(gòu)將不同類型的特征融合,提升現(xiàn)有檢測(cè)器的檢測(cè)能力。
2.4.3 標(biāo)簽匹配與損失函數(shù)設(shè)計(jì)
大多數(shù)目標(biāo)檢測(cè)方法根據(jù)交并比準(zhǔn)則或者距離準(zhǔn)則判定樣本(如錨點(diǎn)框)的標(biāo)簽(屬于哪個(gè)物體)。這些匹配準(zhǔn)則雖然簡(jiǎn)單,但不是最優(yōu)的。Zhang等人(2020b)系統(tǒng)地分析了基于錨點(diǎn)框的方法和無(wú)錨點(diǎn)框的方法,發(fā)現(xiàn)基于錨點(diǎn)框的方法和無(wú)錨點(diǎn)框的方法定義正負(fù)樣本方式是造成它們性能差異的重要原因?;诖?,Zhang等人(2020b)提出了基于自適應(yīng)訓(xùn)練樣本選擇策略的檢測(cè)器ATSS(adaptive training sample selection)。此后,研究人員進(jìn)一步提出了許多改進(jìn)方案。Zhang等人(2019)提出基于學(xué)習(xí)匹配的FreeAnchor方法,實(shí)現(xiàn)錨點(diǎn)框與物體動(dòng)態(tài)匹配?;诜诸惡突貧w的預(yù)測(cè)結(jié)果,F(xiàn)reeAnchor構(gòu)建基于最大似然估計(jì)的損失函數(shù)實(shí)現(xiàn)動(dòng)態(tài)匹配。Ke等人(2020)提出多錨點(diǎn)框?qū)W習(xí)方法MAL(multiple anchor learning),根據(jù)分類和回歸的聯(lián)合分?jǐn)?shù)進(jìn)行錨點(diǎn)框分配,并提出選擇—抑制優(yōu)化策略防止陷入局部最優(yōu)。Kim和Lee(2020)提出利用混合高斯模型建模物體的概率分布,并根據(jù)這個(gè)概率進(jìn)行錨點(diǎn)框的分配。Ma等人(2021)提出預(yù)測(cè)樣本的檢測(cè)質(zhì)量分布,根據(jù)檢測(cè)質(zhì)量分布進(jìn)行標(biāo)簽匹配。Ge等人(2021)將匹配問(wèn)題轉(zhuǎn)化為最優(yōu)傳輸問(wèn)題,為模糊樣本尋找全局最優(yōu)匹配。端到端預(yù)測(cè)的目標(biāo)檢測(cè)方法(Carion等,2020)采用匈牙利算法實(shí)現(xiàn)一對(duì)一最優(yōu)匹配。Yoo等人(2021)提出不進(jìn)行標(biāo)簽匹配,將目標(biāo)檢測(cè)轉(zhuǎn)為密度估計(jì)問(wèn)題。
在標(biāo)簽匹配后,檢測(cè)器基于損失函數(shù)進(jìn)行網(wǎng)絡(luò)的學(xué)習(xí)。常用的分類損失函數(shù)為交叉熵?fù)p失函數(shù)和聚焦損失函數(shù)(Lin等,2017b)等。一些研究人員(Chen等,2019;Qian等,2020a;Liu等,2021a;Oksuz等,2021)將分類問(wèn)題轉(zhuǎn)換成排序問(wèn)題,以便更好地解決類別不均衡問(wèn)題。一些研究人員(Li等,2021b;Zhang等,2021a)在設(shè)計(jì)分類損失函數(shù)時(shí)考慮其定位精度,以便更好地將分類和回歸關(guān)聯(lián)起來(lái)。針對(duì)回歸問(wèn)題,一些研究人員(Li等,2020c;Qiu等,2020a)將回歸的偏移量預(yù)測(cè)轉(zhuǎn)換成邊界概率分布預(yù)測(cè)問(wèn)題。除了單獨(dú)關(guān)注分類和回歸任務(wù)外,一些研究人員(Cao等,2020c;Wang和Zhang,2021b;Gao等,2021b)研究檢測(cè)和分類任務(wù)的一致性和關(guān)聯(lián)性,其核心思想是希望分類得分高的檢測(cè)框具有較高的定位精度,以便更好地滿足目標(biāo)檢測(cè)評(píng)測(cè)標(biāo)準(zhǔn)。不準(zhǔn)確或者錯(cuò)誤的標(biāo)簽匹配容易對(duì)檢測(cè)器學(xué)習(xí)產(chǎn)生不好的影響。針對(duì)這一問(wèn)題,研究人員(Li等,2019a,2020b;Cai等,2020)提出一些動(dòng)態(tài)權(quán)重調(diào)整分類和回歸損失的策略減少這些匹配帶來(lái)的不利影響。
2.4.4 知識(shí)蒸餾
知識(shí)蒸餾旨在讓大網(wǎng)絡(luò)去引導(dǎo)小網(wǎng)絡(luò)的學(xué)習(xí),幫助小網(wǎng)絡(luò)在具備較快速度的情況下具有大網(wǎng)絡(luò)的檢測(cè)精度。早期,Chen等人(2017)提出在特征層和預(yù)測(cè)層進(jìn)行多層級(jí)全特征圖逼近。一些研究人員(Li等,2017;Wang等,2019c;Sun等,2020b)認(rèn)為全特征圖逼近容易忽略物體區(qū)域,并提出基于物體附近區(qū)域的特征逼近方法。研究人員認(rèn)為背景區(qū)域、上下文信息同樣有助于輔助提升知識(shí)蒸餾的效果。Zhang和Ma(2021b)提出注意力引導(dǎo)蒸餾機(jī)制和非局部蒸餾機(jī)制,緩解前背景信息不平衡和關(guān)系利用不充分的問(wèn)題。Guo等人(2021a)提出對(duì)前景區(qū)域和背景區(qū)域去耦,分別進(jìn)行蒸餾。Dai等人(2021c)提出提取圖像中具有可區(qū)分力的前景或背景區(qū)域進(jìn)行蒸餾。Chen等人(2021d)構(gòu)建候選區(qū)域圖網(wǎng)絡(luò),并對(duì)圖網(wǎng)絡(luò)進(jìn)行蒸餾。Yao等人(2021)認(rèn)為兩個(gè)網(wǎng)絡(luò)逼近的特征不一定位于金字塔結(jié)構(gòu)的同一層,提出語(yǔ)義引導(dǎo)的自適應(yīng)特征逼近策略。
單目圖像是3維世界中一個(gè)視錐的2維投影,丟失了深度信息。雙目視覺(jué)可以根據(jù)物體投影在左右圖像上的位置差異計(jì)算出視差,并在已知相機(jī)參數(shù)的情況下根據(jù)極線約束計(jì)算出像素的深度。在得到每個(gè)像素的深度值后,可以逆投影得到視錐中每個(gè)像素的3維坐標(biāo)。因此,雙目視覺(jué)系統(tǒng)不僅能夠預(yù)測(cè)物體的2維位置和類別信息,還能夠預(yù)測(cè)物體在3維空間中的位置,實(shí)現(xiàn)3維目標(biāo)檢測(cè),從而為自動(dòng)駕駛、工業(yè)機(jī)器人等任務(wù)提供更高層次的場(chǎng)景信息。類似地,利用激光雷達(dá)點(diǎn)云檢測(cè)同樣能夠?qū)崿F(xiàn)3維目標(biāo)檢測(cè)。與雙目視覺(jué)目標(biāo)檢測(cè)相比,激光雷達(dá)點(diǎn)云檢測(cè)具有更高的檢測(cè)精度,但是其成本相對(duì)昂貴,對(duì)雨雪中等天氣變化敏感。本文主要關(guān)注雙目視覺(jué)目標(biāo)檢測(cè)方法。受益于深度學(xué)習(xí)技術(shù)的發(fā)展,雙目目標(biāo)檢測(cè)取得了巨大進(jìn)展。
類似于單目目標(biāo)檢測(cè)網(wǎng)絡(luò),雙目檢測(cè)網(wǎng)絡(luò)也可以分為基礎(chǔ)骨干、特征融合和預(yù)測(cè)網(wǎng)絡(luò)3部分。首先,雙目檢測(cè)通常采用兩個(gè)權(quán)重共享的基礎(chǔ)骨干分別得到左右目的單目特征。然后,雙目檢測(cè)進(jìn)行特征融合,除上文提到的構(gòu)建特征金字塔外,一般還需要構(gòu)建雙目特征。雙目特征構(gòu)建的方式主要包括直接串接(concatenation)和平面掃描法(plane-sweeping),構(gòu)建的特征坐標(biāo)空間屬于視錐投影空間。最后,預(yù)測(cè)網(wǎng)絡(luò)可以直接使用融合后的視錐空間特征,也可將視錐空間特征顯式逆投影到3維空間進(jìn)行分類和回歸。
根據(jù)預(yù)測(cè)網(wǎng)絡(luò)所使用的特征空間,本文將雙目視覺(jué)目標(biāo)檢測(cè)方法分為兩類:基于直接視錐空間的目標(biāo)檢測(cè)方法和基于顯式逆投影空間的目標(biāo)檢測(cè)方法。基于直接視錐空間的檢測(cè)過(guò)程一般不包含逆投影變換,直接使用基于視錐空間的雙目特征進(jìn)行檢測(cè);而基于顯式逆投影空間的檢測(cè)方法一般需要將雙目特征進(jìn)行逆投影變換,生成3維空間上均勻的特征,適合構(gòu)造體素或轉(zhuǎn)換為俯視圖進(jìn)行檢測(cè)。圖6給出了上述兩類方法的發(fā)展歷程,并給出了一些代表性方法。時(shí)間軸上側(cè)為基于直接視錐空間的方法,時(shí)間軸下側(cè)為基于顯式逆投影空間的方法。圖中箭頭越長(zhǎng)表示該方法在KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago)數(shù)據(jù)集(Geiger等,2012)上中等難度(moderate)車輛類別上的平均精度(average precision,AP)越高。
圖6 基于深度學(xué)習(xí)的雙目視覺(jué)目標(biāo)檢測(cè)方法的發(fā)展歷程(箭頭的長(zhǎng)度表示方案在KITTI數(shù)據(jù)集中的車輛3維檢測(cè)性能,圖中括號(hào)內(nèi)為作者信息)Fig.6 Development process of stereo object detection based on deep learning(longer arrow indicates higher Car detection AP on KITTI)
基于直接視錐空間的雙目目標(biāo)檢測(cè)不需要進(jìn)行額外的坐標(biāo)空間轉(zhuǎn)換,只需要使用基礎(chǔ)骨干提取的兩個(gè)單目特征構(gòu)造雙目特征。現(xiàn)有方法主要通過(guò)串接和平面掃描兩種方式構(gòu)造視錐空間的雙目特征。
3.1.1 基于串接構(gòu)造視錐空間特征的方法
基于串接構(gòu)造視錐空間特征的方法將基礎(chǔ)骨干提取的兩個(gè)單目視錐空間特征串接起來(lái),利用卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的擬合能力提取候選框或直接檢測(cè)3維目標(biāo)。串接操作不改變?cè)瓎文刻卣鞯淖鴺?biāo)空間,是一種簡(jiǎn)單快速的視錐空間雙目特征構(gòu)造方式。
Li等人(2019b)提出兩階段方法Stereo R-CNN。如圖7(a),在第1階段,Stereo R-CNN利用串接特征得到左右兩個(gè)成對(duì)的候選框。在第2階段,Stereo R-CNN分別提取左右目的RoI特征,再次串接特征進(jìn)行回歸。為了得到3維框頂點(diǎn)在左目RoI特征內(nèi)的投影,Stereo R-CNN引入了一種簡(jiǎn)化的關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò),利用得到的關(guān)鍵點(diǎn)信息對(duì)最小化投影誤差進(jìn)行數(shù)值求解,從而得到質(zhì)量較高的3維目標(biāo)檢測(cè)結(jié)果。Shi等人(2022)借鑒Stereo R-CNN雙目候選框定義雙目包圍框,并提出類似于CenterNet(Zhou等,2019a)的單階段無(wú)錨點(diǎn)框雙目檢測(cè)方法StereoCenterNet。StereoCenterNet在串接的雙目特征上預(yù)測(cè)雙目2維框和3維框的朝向、尺寸、底面頂點(diǎn)等信息。預(yù)測(cè)這些信息后,StereoCenterNet根據(jù)物體遮擋程度不同采用對(duì)應(yīng)的策略來(lái)進(jìn)行最小化投影誤差求解,提高了嚴(yán)重遮擋物體的檢測(cè)精度。
圖7 基于直接視錐空間的雙目目標(biāo)檢測(cè)方法Fig.7 Frustum-based stereo 3D detectors ((a) concatenation based method; (b) plane-sweeping based method)
Qin等人(2019)提出了一種基于3維錨點(diǎn)框的兩階段方法。首先,Qin等人(2019)將3維錨點(diǎn)框投影到左右目特征上,得到成對(duì)的2維候選框。然后,Qin等人(2019)認(rèn)為同一目標(biāo)的左右目RoI特征應(yīng)該相似,提出用余弦相似性對(duì)兩組特征的每個(gè)特征圖重新加權(quán),從而增強(qiáng)左右相似的特征圖、抑制左右差異較大的特征圖。最后,Qin等人(2019)使用權(quán)重調(diào)整后的特征進(jìn)行分類和回歸,并在視錐空間對(duì)預(yù)測(cè)結(jié)果進(jìn)行監(jiān)督,完成3維目標(biāo)檢測(cè)。
3.1.2 基于平面掃描構(gòu)造視錐空間特征的方法
為了更好地基于左右目特征提取立體信息,雙目深度估計(jì)(Chang和Chen,2018;Xu和Zhang,2020)廣泛采用平面掃描法構(gòu)造匹配代價(jià)體(cost volume)。通過(guò)逐視差平面或者逐深度平面地掃描一對(duì)2維特征,所得3維特征即匹配代價(jià)體。每一次掃描不改變2維特征的坐標(biāo)空間,所以得到的匹配代價(jià)體仍然屬于視錐空間。基于平面掃描的檢測(cè)方法受益于雙目深度估計(jì)方法的發(fā)展,能夠直接利用點(diǎn)云監(jiān)督取得更好的匹配結(jié)果,進(jìn)而學(xué)習(xí)到每個(gè)視錐空間像素是否被物體占據(jù)的信息,輔助提高3維檢測(cè)性能。
Peng等人(2020)提出兩階段的方法IDA-3D(instance-depth-aware 3D detection),在雙目候選框提取階段使用了與Stereo R-CNN相同的提取方式,然后在串接后的左右目RoI特征上預(yù)測(cè)了物體2維和3維信息,沒(méi)有再使用額外的關(guān)鍵點(diǎn)檢測(cè)和投影誤差最小化方法。此外,IDA-3D在左右目融合RoI特征上,基于平面掃描法構(gòu)建了目標(biāo)級(jí)的視差匹配代價(jià)體,使用3維卷積回歸出目標(biāo)的整體視差,并以此求得目標(biāo)整體深度作為3維目標(biāo)的深度坐標(biāo)。
Liu等人(2021b)提出一種高效的單階段方法YOLOStereo3D。YOLOStereo3D基于平面掃描法高效地構(gòu)建了匹配代價(jià)體金字塔,使用Ghost模塊(Han等,2020)來(lái)快速地增加各級(jí)匹配代價(jià)體特征的通道數(shù),并在最小分辨率的特征上進(jìn)行全圖視差估計(jì),最后融合同分辨率的左目特征進(jìn)行2維和3維目標(biāo)檢測(cè)。
Choe等人(2021)提出3維目標(biāo)檢測(cè)輔助雙目視差估計(jì)的方法SOMNet(stereo object matching network)。其使用的檢測(cè)方案可視為基于3維候選框的兩階段目標(biāo)檢測(cè)。在候選框提取階段,SOMNet使用平面掃描法構(gòu)造視錐空間匹配代價(jià)體特征,并在其上預(yù)測(cè)3維候選框。在第2階段,SOMNet提出基于空間占用的候選框特征融合機(jī)制,通過(guò)估計(jì)的視差獲得3維RoI中每個(gè)像素是否被物體占用的信息,并構(gòu)建目標(biāo)級(jí)注意力特征增強(qiáng)視錐空間RoI,使之更加聚焦于目標(biāo)表面和形狀。
在自動(dòng)駕駛等場(chǎng)景中,感興趣的目標(biāo)(如車輛、行人和騎行者等)在3維空間中沒(méi)有重疊。因此,將存在尺度變化和遮擋問(wèn)題的視錐空間圖像逆投影到尺度均勻、不存在重疊遮擋的3維空間,能夠緩解視錐投影帶來(lái)的問(wèn)題。此外,考慮俯視方向上不存在遮擋問(wèn)題,還可以把3維空間壓縮至俯視2維空間,在保證性能的同時(shí)進(jìn)一步簡(jiǎn)化預(yù)測(cè)網(wǎng)絡(luò)。逆投影變換主要可以應(yīng)用在輸入圖像、特征和候選區(qū)域3個(gè)不同環(huán)節(jié)。圖8給出了3種方案的示意圖。
圖8 基于顯式逆投影空間的雙目檢測(cè)Fig.8 Inverse-projection-based stereo 3D detectors ((a) based on inverse-projecting raw disparity maps; (b) based on inverse-projecting feature volumes; (c) based on inverse-projecting instance-level disparity maps)
3.2.1 基于原始圖像視差的逆投影方法
基于原始圖像視差的逆投影先利用雙目視差估計(jì)算法預(yù)測(cè)出逐像素的視差,將這些像素逆投影到3維空間生成點(diǎn)云形式,從而使用相對(duì)成熟的點(diǎn)云3維檢測(cè)方法進(jìn)行雙目目標(biāo)檢測(cè)。將這種點(diǎn)云稱為偽點(diǎn)云,這種雙目目標(biāo)檢測(cè)方法稱為偽雷達(dá)(pseudo-LiDAR,PL)方法。如圖8(a)所示,偽雷達(dá)方法級(jí)聯(lián)了雙目深度估計(jì)和點(diǎn)云3維目標(biāo)檢測(cè)兩個(gè)模塊,可以使用這兩個(gè)領(lǐng)域的先進(jìn)成果協(xié)同完成檢測(cè)。
早期,研究人員先用傳統(tǒng)方法完成3維候選框提取,然后用小規(guī)模卷積神經(jīng)網(wǎng)絡(luò)得到最終的3維檢測(cè)結(jié)果。Chen等人(2015)提出3DOP(3D object proposal),使用已有方法(Yamaguchi等,2014)從雙目圖像估計(jì)出點(diǎn)云,然后求解馬爾可夫隨機(jī)場(chǎng)能量函數(shù)最小化問(wèn)題得到3維候選框,最后利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)候選框進(jìn)行優(yōu)化和評(píng)分。在此基礎(chǔ)上,Pham和Jeon(2017)提出DeepStereoOP網(wǎng)絡(luò),結(jié)合圖像和深度特征對(duì)候選框進(jìn)行更準(zhǔn)確排序。
作者提出MLF(multi-level fusion),是首個(gè)使用深度學(xué)習(xí)技術(shù)完成全部預(yù)測(cè)過(guò)程的雙目視覺(jué)目標(biāo)檢測(cè)方法。MLF使用DispNet(Mayer等,2016)從雙目圖像估計(jì)視差圖,并逆投影成為深度圖和點(diǎn)云,然后使用2維候選框和點(diǎn)云共同預(yù)測(cè)物體3維信息。對(duì)比了雙目和單目輸入對(duì)3維目標(biāo)檢測(cè)的影響,指出雙目信息能夠明顯提高3維檢測(cè)性能。
Wang等人(2019d)將深度估計(jì)和點(diǎn)云3維目標(biāo)檢測(cè)方法結(jié)合起來(lái),先根據(jù)深度生成偽點(diǎn)云,再利用基于點(diǎn)云的檢測(cè)方法檢測(cè)3維目標(biāo)。該方法利用深度估計(jì)和點(diǎn)云3維目標(biāo)檢測(cè)領(lǐng)域的先進(jìn)成果,通過(guò)級(jí)聯(lián)的方式完成雙目3維目標(biāo)檢測(cè)任務(wù),性能提升明顯。但是,這種級(jí)聯(lián)的方式容易造成誤差累積。針對(duì)這一問(wèn)題,You等人(2020)利用真實(shí)點(diǎn)云校正偽點(diǎn)云。Li等人(2020a)利用深度估計(jì)的置信度來(lái)引導(dǎo)深度估計(jì)網(wǎng)絡(luò),并加上額外的語(yǔ)義分割監(jiān)督,顯著提高了圖像中前景深度估計(jì)的精度。Peng等人(2022)提出基于兩分支網(wǎng)絡(luò)的方法SIDE(structure-aware instance depth estimation)。一個(gè)分支進(jìn)行基于偽雷達(dá)的雙目目標(biāo)檢測(cè)。另一個(gè)分支進(jìn)行基于視錐空間特征的目標(biāo)級(jí)深度估計(jì),取代點(diǎn)云監(jiān)督。基于上述兩分支結(jié)構(gòu),SIDE在不需要額外的點(diǎn)云監(jiān)督的條件下提高了雙目3維目標(biāo)檢測(cè)性能。上述偽雷達(dá)方法需要單獨(dú)訓(xùn)練深度估計(jì)模塊和3維目標(biāo)檢測(cè)模塊,無(wú)法進(jìn)行端到端訓(xùn)練。Qian等人(2020b)通過(guò)可微的采樣和量化模塊設(shè)計(jì)出端到端訓(xùn)練的偽雷達(dá)方法,稱為PL-E2E(end-to-end PL)。
3.2.2 基于特征體的逆投影方法
上述基于原始圖像視差的方法生成偽點(diǎn)云時(shí)丟棄了圖像提供的顏色和紋理信息,而且沒(méi)有利用視差估計(jì)網(wǎng)絡(luò)的中間特征?;谔卣黧w的逆投影方法則復(fù)用了這些圖像特征。具體地,如圖8(b)所示,基于特征體逆投影的雙目目標(biāo)檢測(cè)方法通過(guò)插值和采樣的方式將平面掃描得到的匹配代價(jià)體變換到3維空間,利用圖像特征提供的顏色和紋理信息,實(shí)現(xiàn)了端到端訓(xùn)練的雙目目標(biāo)檢測(cè)。
Chen等人(2020c)提出一種單階段的雙目3維目標(biāo)檢測(cè)方法DSGN(deep stereo geometry network),使用PSMNet(pyramid stereo matching network)(Chang和Chen,2018)提取匹配代價(jià)體并預(yù)測(cè)深度圖,將匹配代價(jià)體逆投影得到基于3維空間的幾何特征體,并通過(guò)3維卷積將其壓縮成為俯視圖,最后在俯視圖上直接進(jìn)行分類與回歸。Guo等人(2021b)認(rèn)為,雙目視覺(jué)中經(jīng)過(guò)特征體逆變換得到的3維空間特征應(yīng)當(dāng)與點(diǎn)云檢測(cè)中的3維空間體素特征相似,同時(shí)二者的俯視圖特征也應(yīng)當(dāng)相似。基于此,Guo等人(2021b)提出LIGA-Stereo(LiDAR geometry aware representations for stereo-based 3D detector),設(shè)計(jì)了一種類似于知識(shí)蒸餾的技術(shù),引導(dǎo)雙目視覺(jué)目標(biāo)檢測(cè)的特征逼近性能更好的點(diǎn)云3維目標(biāo)檢測(cè)特征。Wang等人(2021d)提出PLUME(pseudo LiDAR feature volume),將深度估計(jì)和3維目標(biāo)檢測(cè)兩個(gè)任務(wù)所使用的特征統(tǒng)一到偽雷達(dá)特征空間,從而將原本需要兩路神經(jīng)網(wǎng)絡(luò)完成的兩個(gè)任務(wù)合并為單路網(wǎng)絡(luò),提高了檢測(cè)速度。
Li等人(2021a)提出RTS3D(real-time stereo 3D detection),以雙目圖像和單目3維檢測(cè)的粗糙3維框作為輸入,構(gòu)造了一個(gè)面向感興趣區(qū)域的特征一致性嵌入空間(feature-consistency embedding space,F(xiàn)CE空間)進(jìn)行3維目標(biāo)檢測(cè),并使用迭代的方式優(yōu)化檢測(cè)結(jié)果。Gao等人(2021a)改進(jìn)了RTS3D的采樣方式,提出基于目標(biāo)形狀先驗(yàn)的非均勻采樣獲取更多的物體表面和周圍信息,并設(shè)計(jì)了一種利用抽象語(yǔ)義信息增強(qiáng)FCE空間特征。
3.2.3 基于候選像素視差的逆投影方法
基于原始圖像視差的逆投影方法生成了全空間的點(diǎn)云,基于特征體的逆投影方法生成了全空間的3維特征。因此,二者逆投影得到的3維空間包含了前景目標(biāo)部分和背景部分。基于候選像素視差的逆投影方法僅聚焦感興趣目標(biāo)區(qū)域的3維空間(如圖8(c)所示),先利用實(shí)例分割等方案得到目標(biāo)的前景像素,然后生成僅含前景區(qū)域的3維空間。這種逆投影方法生成的3維空間有效體素較少,可以在有限的檢測(cè)時(shí)間內(nèi)更靈活地控制特征的空間分辨率;聚焦于前景目標(biāo),能夠避免不準(zhǔn)確的深度估計(jì)帶來(lái)的性能下降。
第1種逆投影策略是去除背景點(diǎn)云、僅保留前景點(diǎn)云。本文稱為前景共享的3維空間策略。K?nigshof等人(2019)提出一種基于俯視網(wǎng)格圖的方法。該方法先使用雙目圖像預(yù)測(cè)深度圖、2維語(yǔ)義分割和2維包圍框得到物體前景部分的深度信息,然后使用深度優(yōu)先搜索(depth first search,DFS)求解3維空間的連通域,最后在前景共享的3維空間俯視圖上回歸目標(biāo)的3維信息。Pon等人(2020)認(rèn)為已有的深度估計(jì)方法得到的結(jié)果在目標(biāo)邊界和形狀上并不準(zhǔn)確,對(duì)3維目標(biāo)檢測(cè)有害無(wú)益?;诖耍琍on等人(2020)提出面向目標(biāo)(object-centric,OC)的偽雷達(dá)方法,通過(guò)增加實(shí)例分割模塊提取前景共享的3維空間偽點(diǎn)云。
另外一種逆投影策略是為每個(gè)實(shí)例生成互相獨(dú)立的3維子空間,即每個(gè)3維子空間僅檢測(cè)單個(gè)目標(biāo)。本文稱為實(shí)例獨(dú)立的3維子空間。Xu等人(2020)提出ZoomNet,利用2維實(shí)例分割和雙目深度估計(jì)生成基于偽點(diǎn)云的實(shí)例獨(dú)立子空間。圖像中,小尺度目標(biāo)覆蓋的像素點(diǎn)比較少,生成點(diǎn)云圖比較稀疏,不利于3維檢測(cè)。為解決該問(wèn)題,ZoomNet使用汽車通用3D模型自適應(yīng)地生成密度一致的子空間點(diǎn)云,提升小尺度目標(biāo)的檢測(cè)效果。Sun等人(2020a)提出Disp R-CNN,基于候選區(qū)域逆投影生成實(shí)例獨(dú)立子空間,并使用自動(dòng)生成實(shí)例3D模型,避免手工標(biāo)注汽車模型。
視覺(jué)目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)的經(jīng)典任務(wù),得到了國(guó)內(nèi)外研究人員的廣泛關(guān)注。本節(jié)簡(jiǎn)要分析和對(duì)比國(guó)內(nèi)外在視覺(jué)目標(biāo)檢測(cè)方面的研究進(jìn)展。
國(guó)內(nèi)外研究機(jī)構(gòu)在單目視覺(jué)目標(biāo)檢測(cè)方面開(kāi)展了大量的研究工作。早期國(guó)外在基于深度學(xué)習(xí)的視覺(jué)目標(biāo)檢測(cè)技術(shù)方面開(kāi)展了更多更具有代表性的研究工作,如兩階段目標(biāo)檢測(cè)器R-CNN系列、單階段目標(biāo)檢測(cè)器YOLO、端到端目標(biāo)檢測(cè)器DETR。近年國(guó)內(nèi)開(kāi)始在深度目標(biāo)檢測(cè)技術(shù)方面,特別是單階段目標(biāo)檢測(cè)技術(shù)和端到端目標(biāo)檢測(cè)技術(shù)方面,持續(xù)發(fā)力,當(dāng)前已經(jīng)取得了與國(guó)外相當(dāng)?shù)母?jìng)爭(zhēng)力。當(dāng)前國(guó)內(nèi)高水平研究工作(如發(fā)表在會(huì)議CVPR(IEEE Conference on Computer Vision and Pattern Recognition)上)的論文數(shù)量方面存在一定的優(yōu)勢(shì),但是在代表性工作方面相對(duì)欠缺,存在較大的發(fā)展與提升空間。在目標(biāo)檢測(cè)開(kāi)源方面,國(guó)內(nèi)香港中文大學(xué)開(kāi)源的mmdetection和國(guó)外Facebook開(kāi)源的detectron2是目前學(xué)術(shù)界比較流行的目標(biāo)檢測(cè)庫(kù)。
國(guó)內(nèi)在單目目標(biāo)檢測(cè)方面具有代表性的研究機(jī)構(gòu)包括清華大學(xué)、中國(guó)科學(xué)院、香港中文大學(xué)、商湯、曠視和華為等。國(guó)外在單目目標(biāo)檢測(cè)方面具有代表性的研究機(jī)構(gòu)包括斯坦福大學(xué)、牛津大學(xué)、加州大學(xué)伯克利分校、Google和Facebook等。
清華大學(xué)與加拿大多倫多大學(xué)合作,在2015年率先利用深度學(xué)習(xí)技術(shù)完成3維物體檢測(cè)。2018年以來(lái),以香港中文大學(xué)、中國(guó)科學(xué)院大學(xué)、中國(guó)科技大學(xué)、浙江大學(xué)和武漢大學(xué)為代表的國(guó)內(nèi)研究機(jī)構(gòu),以美國(guó)康奈爾大學(xué)、德國(guó)信息技術(shù)研究中心和加拿大多倫多大學(xué)為代表的國(guó)外研究機(jī)構(gòu),基于顯式逆投影空間設(shè)計(jì)了偽雷達(dá)、DSGN和Disp R-CNN等雙目目標(biāo)檢測(cè)方法;2019年以來(lái),香港科技大學(xué)、大連理工大學(xué)、北京科技大學(xué)、美國(guó)微軟研究院和韓國(guó)科學(xué)技術(shù)院等研究機(jī)構(gòu)提出了多種基于直接視錐空間的雙目目標(biāo)檢測(cè)方法。
目前,雙目視覺(jué)目標(biāo)檢測(cè)主要應(yīng)用于無(wú)人機(jī)和自動(dòng)駕駛等領(lǐng)域,國(guó)內(nèi)的百度、大疆和美國(guó)Uber、Waabi等相關(guān)企業(yè)正在積極與上述科研機(jī)構(gòu)合作,并取得了一定成果??傮w上看,國(guó)內(nèi)科研機(jī)構(gòu)在基于深度學(xué)習(xí)的雙目視覺(jué)目標(biāo)檢測(cè)領(lǐng)域不但取得了先機(jī),且論文數(shù)量和檢測(cè)性能也保持在先進(jìn)水平,尤其是香港中文大學(xué)和香港科技大學(xué)分別在兩類方法上達(dá)到了當(dāng)前最佳的檢測(cè)性能。
當(dāng)前基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)取得了巨大成功。盡管如此,目標(biāo)檢測(cè)技術(shù)仍然存在極大發(fā)展空間。展望總結(jié)目標(biāo)檢測(cè)技術(shù)的發(fā)展趨勢(shì)如下:
1)高效率的端到端目標(biāo)檢測(cè)。當(dāng)前基于轉(zhuǎn)換器Transformer的端到端目標(biāo)檢測(cè)技術(shù)取得了一定成功,為目標(biāo)檢測(cè)領(lǐng)域的發(fā)展注入了新的活力。相比于之前基于錨點(diǎn)框和無(wú)錨點(diǎn)框的目標(biāo)檢測(cè)方法,該類方法存在收斂減慢、計(jì)算資源消耗大等問(wèn)題。同時(shí),相比于卷積神經(jīng)網(wǎng)絡(luò),Transformer在計(jì)算效率等方面存在一定的劣勢(shì)。近期,相關(guān)研究工作Deformable DETR(Zhu等,2021)和TSP-FCOS(transformer-based set prediction with FCOS)(Sun等,2021d)在一定程度上緩解了這些問(wèn)題,但是如果設(shè)計(jì)高效率的Transformer編解碼網(wǎng)絡(luò)乃至Transformer基礎(chǔ)網(wǎng)絡(luò)進(jìn)行端到端目標(biāo)檢測(cè)仍是未來(lái)需要研究的內(nèi)容之一。
2)基于自監(jiān)督學(xué)習(xí)的目標(biāo)檢測(cè)。自監(jiān)督學(xué)習(xí)在大規(guī)模圖像分類任務(wù)上取得了與全監(jiān)督學(xué)習(xí)相當(dāng)?shù)姆诸愋阅?Chen等,2020b;He等,2020;Chen和He,2021c)。自監(jiān)督學(xué)習(xí)用于圖像分類任務(wù)的前提假設(shè)是圖像內(nèi)容被單一物體主導(dǎo)。與圖像分類任務(wù)不同,目標(biāo)檢測(cè)任務(wù)中存在數(shù)量、尺度不確定的若干物體。因此,如何更好地將自監(jiān)督學(xué)習(xí)間接或直接用于目標(biāo)檢測(cè)是一個(gè)挑戰(zhàn)性問(wèn)題。Xie等人(2021)提出局部和全局的多級(jí)監(jiān)督訓(xùn)練策略提升無(wú)監(jiān)督學(xué)習(xí)在檢測(cè)任務(wù)上的性能。Liu等人(2020a)利用推土機(jī)距離度量不同變換局部位置的相似性,進(jìn)而進(jìn)行自監(jiān)督目標(biāo)檢測(cè)。Dai等人(2021d)預(yù)測(cè)隨機(jī)子區(qū)域在圖像的位置并重建隨機(jī)子區(qū)域,實(shí)現(xiàn)目標(biāo)檢測(cè)的自監(jiān)督預(yù)訓(xùn)練。
3)長(zhǎng)尾分布目標(biāo)檢測(cè)。當(dāng)前目標(biāo)檢測(cè)方法大多面向物體檢測(cè)數(shù)據(jù)庫(kù)MS COCO(Microsoft common objects in context)(https://cocodataset.org/)(Lin等,2014)和PASCAL VOC(pattern analysis, statistical modeling and computational learning visual object classes)(http://www.host.robots.ox.ac.uk/pascal/VOC)(Eve-ringham等,2010)。這兩個(gè)數(shù)據(jù)庫(kù)對(duì)于物體的類別有限且不同類別的目標(biāo)相對(duì)均衡充足。然而,現(xiàn)實(shí)世界中,物體的類別數(shù)量十分龐大且不同類別的物體數(shù)量存在極度不平衡,呈現(xiàn)長(zhǎng)尾分布現(xiàn)象。針對(duì)這一現(xiàn)象,Gupta等人(2019)構(gòu)建了包含1 000類物體的大規(guī)模長(zhǎng)尾分布數(shù)據(jù)集(https://www.lvisdataset.org/)。研究人員開(kāi)始研究相關(guān)問(wèn)題,并在樣本采樣(Wu等,2020a)、分組訓(xùn)練(Wu等,2020a;Li等,2020e)、損失函數(shù)(Tan等,2020a,2021;Feng等,2021a)等方面開(kāi)展了相關(guān)工作。
4)小樣本、零樣本目標(biāo)檢測(cè)。小樣本、零樣本目標(biāo)檢測(cè)主要關(guān)注如何提升訓(xùn)練樣本較少甚至沒(méi)有的物體類別在測(cè)試過(guò)程中的檢測(cè)性能。目標(biāo)檢測(cè)方法在小樣本或零樣本情況下的檢測(cè)能力是通用性的重要標(biāo)志,是開(kāi)放世界目標(biāo)檢測(cè)(Joseph等,2021)必備的能力。因此,小樣本、零樣本目標(biāo)檢測(cè)具有重要的研究?jī)r(jià)值。研究人員(Kang等,2019;Zhang等,2021c;Sun等,2021a;Chen等,2021a)在相關(guān)方面開(kāi)展了大量研究,為小樣本、零樣本目標(biāo)檢測(cè)打下堅(jiān)實(shí)的基礎(chǔ)。
5)大規(guī)模雙目目標(biāo)檢測(cè)數(shù)據(jù)集。缺少大規(guī)模、高質(zhì)量雙目標(biāo)注的公開(kāi)數(shù)據(jù)集,是當(dāng)前雙目目標(biāo)檢測(cè)面臨的主要挑戰(zhàn)之一。雙目目標(biāo)檢測(cè)數(shù)據(jù)集不僅需要標(biāo)注物體的2維、3維信息,而且需要標(biāo)注視差、相機(jī)參數(shù)等。此外,當(dāng)前很多方法使用了雷達(dá)點(diǎn)云、語(yǔ)義分割和實(shí)例分割等額外標(biāo)注信息。因此,建立大規(guī)模的雙目視覺(jué)數(shù)據(jù)集,并提供高質(zhì)量的雙目標(biāo)注、完善的評(píng)價(jià)體系以及開(kāi)放的測(cè)試平臺(tái)能夠?yàn)槲磥?lái)雙目目標(biāo)檢測(cè)發(fā)展提供基礎(chǔ)性支撐。
6)弱監(jiān)督雙目目標(biāo)檢測(cè)。如上所述,建立大規(guī)模高質(zhì)量的雙目目標(biāo)檢測(cè)數(shù)據(jù)集是一個(gè)復(fù)雜且昂貴的系統(tǒng)工程。研究如何在沒(méi)有高質(zhì)量雙目標(biāo)注的情況下利用雙目數(shù)據(jù)實(shí)現(xiàn)精準(zhǔn)3維目標(biāo)檢測(cè)十分必要。因此,弱監(jiān)督的雙目目標(biāo)檢測(cè)是一個(gè)十分重要且具有挑戰(zhàn)性的研究方向。
致 謝本文由中國(guó)圖象圖形學(xué)學(xué)會(huì)視頻圖像與安全專業(yè)委員會(huì)組織撰寫(xiě),該專委會(huì)更多詳情請(qǐng)見(jiàn)鏈接:http://www.csig.org.cn/detail/2448。