曾文炳 李軍
(重慶交通大學,重慶 400074)
目標檢測是計算機視覺的重要分支,主要用于識別和分析圖像中的目標,即其應用方向分為一般目標檢測和檢測應用兩類:一般目標檢測以類人的角度參與認知,即模擬人類進行檢測與分類,重在探索不同類型對象的檢測方法;檢測應用具有更為清晰的場景設定,如針對人員密集場所的人臉識別,或針對文件處理的文本檢測等。近年來,隨著卷積神經(jīng)網(wǎng)絡(Convolution Neural Network,CNN)等深度學習技術的廣泛應用,目標檢測技術突破傳統(tǒng)檢測器的技術瓶頸,由復雜向簡單化、快速準確的方向發(fā)展[1]。
在兩階段(Two-Stage)目標檢測算法方面,更快速區(qū)域卷積神經(jīng)網(wǎng)絡(Faster Region-based Convolutional Neural Network,F(xiàn)aster R-CNN)和掩膜區(qū)域卷積神經(jīng)網(wǎng)絡(Mask Region-based Convolutional Neural Network,Mask R-CNN)等算法是最先進的方法之一。這些算法在準確率方面表現(xiàn)出色,但相對于單階段算法,檢測速度較慢。在單階段(One-Stage)目標檢測算法方面,YOLO(You Only Look Once)系列算法和單步多框目標檢測(Single Shot multibox Detector,SSD)算法已成為最先進的算法之一。這些算法在速度和準確率方面均有很好的表現(xiàn),且已經(jīng)得到了廣泛應用。
在深度學習算法大規(guī)模應用的背景下,目標檢測算法已廣泛應用于安檢防控、自動駕駛以及衛(wèi)星遙感等領域。各領域不同的檢測需求催生了各種檢測算法,依據(jù)檢測過程有無區(qū)域建議,可分為兩階段檢測器和單階段檢測器。兩階段檢測器有區(qū)域建議過程,對檢測對象的位置信息和邊界信息有更為清晰的認知,導致檢測精度普遍高于單階段檢測器;單階段檢測器檢測過程更為簡潔,故檢測速度是其優(yōu)勢所在。
目標檢測算法中,從傳統(tǒng)檢測器到目前的多數(shù)檢測算法均以有監(jiān)督算法為主,數(shù)據(jù)集也隨之發(fā)展,并完善了整套評價指標。
數(shù)據(jù)集作為有監(jiān)督算法的“學習課本”,對目標檢測算法的訓練至關重要。數(shù)據(jù)集的質量體現(xiàn)在標注的準確性,以及針對算法應用時類的豐富性或同類不同形態(tài)的整理完整性。數(shù)據(jù)集不僅限定了不同算法比較時有相同的初始訓練標準,高質量數(shù)據(jù)集更在深度學習的背景下,對算法模型具有良好指引效果。同一算法采用不同數(shù)據(jù)集訓練后會擁有不同的性能表現(xiàn),這促使數(shù)據(jù)集隨目標檢測算法的進步而迅速發(fā)展。目前常用數(shù)據(jù)集主要有PASCAL VOC[2]和COCO數(shù)據(jù)集[3]。
PASCAL VOC 數(shù)據(jù)集發(fā)源于PASCAL VOC 挑戰(zhàn)賽,主要包括圖像分類(Object Classification)、目標檢測(Object Detection)、目標分割(Object Segmentation)和行為識別(Action Classification)幾類數(shù)據(jù),發(fā)展到VOC 2007 版本時,已經(jīng)擁有20 個類別的數(shù)據(jù)[4]。各類圖片由官方提供明確的標注,同時,為了更好地發(fā)揮目標檢測算法的性能,研究人員通常會綜合多個版本的檢測數(shù)據(jù)集,利用組合數(shù)據(jù)集完成目標檢測算法的訓練和測試。常見的訓練與測試數(shù)據(jù)集組合如圖1所示。
圖1 常見的訓練與測試數(shù)據(jù)集組合
COCO 數(shù)據(jù)集由微軟于2014 年建立,其中的圖像取自復雜的日常場景,其內容更豐富,圖片類別達91 類,圖片數(shù)量多達32.8 萬張,其中帶有250 萬個內容標注。與PASCAL VOC 數(shù)據(jù)集相比,能訓練出可識別更復雜場景的目標檢測器,同時,針對更小的目標識別具有更深的理解。
傳統(tǒng)檢測器在行人檢測的應用研究中[5],以每個窗口的漏檢率與誤報率(False Positive Per Window,F(xiàn)PPW)作為檢測器性能的度量標準。卷積神經(jīng)網(wǎng)絡的應用和檢測器檢測方法改變后[6],以平均檢測精度(Average Precision,AP)作為同類檢測準確性的評價指標,以類平均檢測精度(mean Average Precision,mAP)作為不同類別間的平均AP,以表現(xiàn)目標檢測算法檢測精度的綜合性能,并引入交并比(Intersection over Union,IoU)來描述目標檢測算法的定位準確性。通過IoU 閾值的設定判斷對象是否成功定位,例如,IoU 大于0.5 時判定為定位準確,IoU 為1 時判定為預測對象位置完全正確。同時,以單位時間檢測圖像的數(shù)量表征目標檢測的速度。
針對不同應用場景,評價指標可能各有側重,表1所示為目標檢測任務中常用的評價指標。
表1 目標檢測常用的評價指標
目標檢測算法因卷積神經(jīng)網(wǎng)絡的加入而注入活力,兩階段和單階段的檢測算法分別代表了研究人員在檢測精度和檢測速度方面做出的努力。圖2所示為目標檢測算法的發(fā)展及分類。
圖2 目標檢測算法的發(fā)展及分類
傳統(tǒng)檢測器通過人為設置檢測對象的特征,在對象檢測的初始階段即存在一定的復雜性,并由于圖像特征缺乏有效表達,特征的設計隨描述對象的增多而愈加復雜,采用各種加速技巧仍未能遏制查找復雜特征對計算資源的消耗。同時,滑動窗口的檢測機制雖然保證了一定的檢測精度,但是巨量的檢測滑框進一步提高了對計算能力的要求。
從Viola Jones 檢測器[7]的“整體圖像”“特征選擇”“檢測級聯(lián)”三大技術的有機融合,到定向梯度直方圖(Histogram of Oriented Gradient,HOG)[8]利用重疊的局部對比度歸一化,以及可變形組件模型(Deformable Part Model,DPM)檢測器[9]“分而治之”的檢測原則,分別表征了傳統(tǒng)檢測器在檢測速度、檢測輸入圖像尺寸多元化和檢測精度,以及特征提取難度上做出的努力,并為之后的目標檢測算法打下了堅實的基礎。
兩階段算法首先根據(jù)輸入的圖像生成候選框(Region Proposals),候選框的生成方法可分為選擇性搜索和基于錨框的方法。選擇性搜索首先對圖像進行分割,得到一些小的區(qū)域,然后通過合并相鄰的區(qū)域,得到一些更大的候選框,最后對這些候選框進行篩選,保留與目標物體較為相似的候選框?;阱^框的方法先在圖像上生成一些固定大小和寬高比的錨框,然后通過卷積神經(jīng)網(wǎng)絡對每個錨框進行分類和回歸,得到每個錨框的置信度和位置偏移量,最后根據(jù)置信度對錨框進行篩選,保留置信度較高的候選框。兩種方法使用不同的邏輯生成區(qū)域建議,而后根據(jù)建議區(qū)域進行檢測分類,如圖3 所示。因此,有兩個步驟對輸入圖像進行處理,其余步驟能夠提高目標定位的準確性,進而提高檢測精度,但是其檢測過程的復雜性導致該類算法檢測速度受到影響。
圖3 兩階段算法結構表征
3.2.1 區(qū)域卷積神經(jīng)網(wǎng)絡
區(qū) 域 卷 積 神 經(jīng) 網(wǎng) 絡(Region-based Convolutional Neural Network,R-CNN)[10]是第一個引入感興趣區(qū)域(Region Of Interest,ROI)的目標檢測算法,是機器學習時代里程碑式的檢測算法之一。R-CNN 采用選擇性搜索(Selective Search,SS)算法生成候選框,如圖4 所示。通過對候選框進行圖像裁剪和尺寸縮放獲得固定大小的圖像塊,并對圖像塊進行卷積神經(jīng)網(wǎng)絡的特征提取和分類,得到每個圖像塊的置信度和位置偏移量,對置信度較高的圖像塊進行非極大值抑制,得到最終的檢測結果。
圖4 R-CNN算法流程
OverFeat 模型[11]同樣采用卷積神經(jīng)網(wǎng)絡進行特征提取和分類,卻與傳統(tǒng)檢測器一樣通過滑動窗口的方式獲得系列候選框,再進行分類和回歸。
相較于滑動窗口所采取的窮舉式檢測方式,候選區(qū)域的引入大幅降低了計算消耗,并解決了固定窗口造成的檢測不準確的情況,使檢測速度得以突破,且在卷積神經(jīng)網(wǎng)絡的加持下,檢測精度得以大幅提高。但是作為R-CNN的特色建議框,其大量重復成為制約檢測算法進步的主要因素,特征的冗余計算嚴重影響了檢測速度。這一問題在之后的金字塔池化網(wǎng)絡(Spatial Pyramid Pooling Networks,SPPNet)中得以解決。
3.2.2 金字塔池化網(wǎng)絡
SPPNet[12]用于改進R-CNN 因對圖像進行2 000 個大小不一的候選區(qū)域分割而造成的區(qū)域特征提取進程緩慢問題。首先,SPPNet 直接對圖像進行不考慮候選區(qū)域的卷積操作,得到一次卷積的特征圖,而后將2 000 個候選區(qū)域在特征圖上實現(xiàn)映射。相較于R-CNN 對候選區(qū)域的逐一卷積提取特征,SPPNet 從卷積次數(shù)上實現(xiàn)了檢測速度的優(yōu)化。圖5 所示為R-CNN 和SPPNet 的網(wǎng)絡結構對比。
圖5 R-CNN與SPPNet網(wǎng)絡結構比較
其次,算法增加了金字塔池化(Spatail Pyramid Pooling,SPP)層,SPP層能將特征圖轉化為固定尺寸的特征向量,其將每個候選區(qū)域分成4×4、2×2、1×1大小的3 個子圖,針對子圖各區(qū)域進行最大池化處理,而后進行支持向量機(Support Vector Machine,SVM)分類操作,進一步優(yōu)化檢測速度,使其檢測速度高于R-CNN算法檢測速度20倍以上。
3.2.3 快速區(qū)域卷積神經(jīng)網(wǎng)絡
快速區(qū)域卷積神經(jīng)網(wǎng)絡(Fast Region-based Convolutional Neural Network,F(xiàn)ast R-CNN)[13]作為R-CNN 的升級版本,是R.Girshick在2015年提出的綜合R-CNN和SPPNet而改進的檢測算法。首先,該算法沿用SPPNet的一次卷積操作,避免特征提取的冗余操作;其次,摒棄之前的SVM分類器改用歸一化指數(shù)(Softmax)函數(shù)進行分類處理,并在網(wǎng)絡末端并行不同連接層,實現(xiàn)在不提供額外特征存儲空間的同時進行端到端(End-to-End)的多任務訓練,以及分類結果和定位框的回歸反饋;最后,作者設計感興趣區(qū)域池化(Region Of Interest Pooling,ROI Pooling)板塊,使得在特征圖上不同尺寸的候選框在進入全連接層分類、回歸之前池化為固定尺寸。圖6所示為Fast R-CNN算法網(wǎng)絡模型。該檢測算法實現(xiàn)了檢測精度不變的前提下,以超過200 倍的檢測速度優(yōu)于R-CNN算法。
圖6 Fast R-CNN算法網(wǎng)絡模型
值得注意的是,R-CNN 和Fast R-CNN 都具有任意尺寸圖像輸入的功能。但是從尺寸修改的時機和對象來看,R-CNN 在網(wǎng)絡初始就對“圖像”進行尺寸的重定義,而Fast R-CNN 在感興趣區(qū)域池化時對“特征圖”進行尺寸修改。
3.2.4 Faster R-CNN
Faster R-CNN[14]解決了該系列算法一系列檢測步驟上的問題,提出的區(qū)域建議網(wǎng)絡(Regional Proposal Network,RPN)[15]取代了選擇性搜索算法,解決了兩階段檢測器不能實現(xiàn)端到端完成任務的問題,同時,區(qū)域建議算法相較于傳統(tǒng)檢測器性能有所提升。區(qū)域建議一直是深度學習算法性能受限的原因之一,直到Faster R-CNN 解決了這一問題,實現(xiàn)了檢測速度的大幅提升。
Faster R-CNN 通過RPN 將區(qū)域建議簡化為二分類的過程,如圖7 所示:首先,生成不同尺寸的錨框[16]隨滑動窗口移動;然后,依據(jù)設定的閾值對錨框是否含物體進行正負的標定;最后,由RPN 整理后的二分類標簽即為錨框所在坐標以及物體類概率的數(shù)據(jù)。端到端的訓練顯著提高了區(qū)域建議的質量,取代了之前廣泛應用的區(qū)域建議而后進行逐一的完整檢測,大幅提高了檢測速度,實現(xiàn)了近乎零代價的區(qū)域建議。Faster R-CNN 是一個將RPN 和Fast R-CNN有機融合的整體。
圖7 Faster R-CNN 算法網(wǎng)絡結構
Faster R-CNN 重點解決了前代算法檢測過程復雜的問題,突破了檢測速度的瓶頸,使實時檢測在兩階段檢測器上成為可能。但是由于RPN和ROI池化層缺少適應性的調整,基于錨框的區(qū)域建議在ROI 池化層喪失了平移不變性,致使定位精度受到影響,以及錨框的尺度及大小固定,導致不在錨框范圍內的物體檢測失真,因而該檢測算法不適用于所有目標的檢測,尤其對小目標的檢測性能缺失明顯。
3.2.5 兩階段檢測器總結
兩階段檢測算法的流程中,第一階段是確定檢測候選區(qū)域,第二階段對建議區(qū)域目標進行分類和回歸定位。事實上,諸多檢測算法也是圍繞這兩個階段進行改進優(yōu)化實現(xiàn)檢測算法的性能升級。如RPN 帶來的高效區(qū)域建議獲取效果,也有針對特征的高效利用算法,如采用級聯(lián)架構的Cascade RCNN[17-18]和使用特征金字塔[19]的Libra R-CNN[20],都為特征的高效利用提供了可能。但是這些改進沒有從本質上解決問題,反而通過增加模塊的方法優(yōu)化檢測過程中的某一步驟,進一步增加了整個算法的復雜程度,使得網(wǎng)絡在一定程度上捉襟見肘。各種優(yōu)化均無法兼顧檢測精度和檢測速度,即便同時實現(xiàn)了檢測精度和檢測速度的提升,也將面臨訓練難度的提高。所以研究人員將目光轉移到單階段檢測算法的研究中。
單階段檢測算法通過簡單的一次網(wǎng)絡處理即可成功輸出檢測分類和預測框的邊界,如圖8所示。因此該類檢測算法具備良好的檢測速度,適合移動端使用,同時為算法模塊的添加保留了足夠的結構空間,用以實現(xiàn)檢測應用的各種需求。
圖8 單階段結構表征
3.3.1 YOLOv1
一改兩階段算法“先選后測”的思路,2015 年,R.Joseph等[21]帶著“回歸問題”的思路,提出了YOLO系列的初代算法。YOLO 采用圖像均勻分割的思路,對輸入圖像進行7×7的切割,針對每一個切割網(wǎng)格確定其中心落點,并對區(qū)域內目標進行檢測。區(qū)別于RPN 在高效解決區(qū)域建議效率低下問題的同時提高了網(wǎng)絡訓練成本,YOLO 算法在圖像切割中相當于生成了49個檢測區(qū)域,數(shù)量少、檢測效率高,固定的切割方式也不會導致網(wǎng)絡訓練成本的提高。
圖9 所示為YOLOv1 網(wǎng)絡框架:從輸入的圖像(尺寸為448×448×3)開始,分割出的網(wǎng)格由中間不同深度的卷積層和最大池化層處理,提取圖像抽象特征;而后,由2個全連接層完成目標位置預測和分類概率計算;最后,輸出尺寸為7×7×30的預測結果。YOLOv1 憑借簡單的結構以及端到端的圖像處理方式,使檢測速度滿足實時檢測需求,達到了同期最快的45 幀/s,且YOLO 快速版本擁有150 幀/s 的圖像處理速度。
但是YOLO 算法檢測目標的普適性有待提高,每個網(wǎng)格只能識別一個類別,粗放的定位落點對損失函數(shù)的影響較大,都決定了該算法針對小目標檢測效果較差,同時對非常規(guī)目標泛化能力弱。
3.3.2 單步多框目標檢測
由Liu等提出的SSD[22]是一種基于多基準和多分辨率的探測方法。與YOLO檢測器不同,SSD在卷積階段即進行檢測,其結構如圖10所示,SSD的卷積引入了多尺度的卷積操作,對不同尺度的目標可進行不同尺度的預測,很好地解決了目標尺寸造成的檢測結果不理想問題。針對小目標,使用淺層的特征圖解析以保留更多細節(jié),針對大目標,使用深層特征圖解析以深挖語義。但該操作也存在局限性:不同尺度特征檢測重復,提高了檢測計算難度;針對小尺寸目標,雖然淺層特征圖卷積能保留更多細節(jié),但淺層檢測喪失了目標的語義信息,對小目標的檢測優(yōu)化效果不佳。
圖10 SSD網(wǎng)絡結構
3.3.3 YOLO系列算法總結
YOLO 作為單階段檢測算法的代表,檢測速度大幅提高,同時算法的網(wǎng)絡結構簡單,使其迭代升級成為可能,截至2022年底,YOLO系列算法已經(jīng)從YOLOv1升級到YOLOv7。表2所示為YOLO 系列算法的迭代升級過程,對檢測算法的研究逐漸向網(wǎng)絡架構、特征集成方法、檢測方法、優(yōu)化損失函數(shù)、標簽分配方法以及高效的訓練方法調整。
表2 YOLO系列算法整理
基于前文的分析可知,目標檢測網(wǎng)絡結構決定了檢測算法的初始優(yōu)勢,如兩階段檢測算法具有定位準確、檢測精度高的特點,單階段檢測算法檢測速度更快。然而,根據(jù)統(tǒng)一的評價指標,兩種類型的檢測算法都在彌補結構上的不足,向著更高精度和更快檢測速度的目標改進。表3總結了基于深度學習的經(jīng)典檢測算法在統(tǒng)一的評價指標下的性能表現(xiàn)。
表3 基于深度學習經(jīng)典檢測算法性能對比
本文簡要介紹了傳統(tǒng)檢測器發(fā)展中遇到的問題,分析了基于卷積神經(jīng)網(wǎng)絡的目標檢測算法的發(fā)展歷程,根據(jù)檢測算法分類綜述了具有代表意義的檢測器,包括R-CNN 系列算法、YOLO 系列算法和SSD 算法等。在目標檢測算法發(fā)展過程中,通過模型結構改進(如增加卷積層、改變激活函數(shù)等)提高了模型的準確率和速度,通過數(shù)據(jù)增強(如旋轉、翻轉、裁剪等)[30]增加了數(shù)據(jù)樣本的多樣性并提高了模型的泛化能力,利用損失函數(shù)改進(如使用聚焦損失(Focal Loss)[31]等)提高了模型對難樣本的處理能力,通過將多個目標檢測器進行融合提高了目標檢測的準確率和魯棒性,通過對GPU、現(xiàn)場可編程門陣列(Field Programmable Gate Array,F(xiàn)PGA)等硬件進行優(yōu)化提高了目標檢測算法的速度和效率。在目標檢測算法研究中,如何針對應用需求改進和創(chuàng)新檢測算法仍值得思考,未來可能的研究方向包括以下幾個方面:
a. 更快的檢測速度。隨著物聯(lián)網(wǎng)和邊緣計算的發(fā)展,越來越多的應用場景需要實時目標檢測。因此,目標檢測算法需要更快的速度,以滿足實時性要求。未來的研究方向包括更輕量級的網(wǎng)絡結構、更高效的計算方法、更優(yōu)化的硬件設備等。
b. 更高的定位精度。目標檢測算法的定位精度對于一些應用場景非常重要,如醫(yī)學影像分析、工業(yè)質檢等。未來可以通過研究更深、更寬的神經(jīng)網(wǎng)絡結構、更有效的特征提取方法、更精細的目標分類方法等實現(xiàn)定位精度和檢測效率的提升。
c. 輕量級目標檢測算法。從YOLOv3 開始,首次體現(xiàn)了移動設備對輕量級算法的需求。檢測速度和精度得以保證之始,應用級的需求就開始向更輕、更便捷的方向轉變,如移動機器人的目標識別抓取[32]、農(nóng)業(yè)應用等。盡管目前的檢測算法在檢測精度方面已經(jīng)超越人類,但在細節(jié)和功能性上仍不及人眼,尤其是足夠輕足夠小的檢測算法。
d.弱監(jiān)督檢測[33]。從傳統(tǒng)檢測器開始,研究人員們就苦于對目標的特征標定,深度學習檢測算法的訓練仍舊大量依賴良好的圖像內容標定。而圖像標定過程費時費力,從成本和發(fā)展的角度考慮,都應該以弱監(jiān)督甚至無檢測為目標。減少或者部分使用邊界框進行注釋都將對檢測器的運用靈活性帶來極大幫助。
e.小目標檢測[34]。YOLO 等結構簡單的算法對小目標的檢測失真,導致泛化能力低下,解決了小目標檢測問題的算法檢測速度較低而應用受限。
f.視頻檢測[35]。針對連貫視頻中的實時目標檢測需求,如視頻監(jiān)控、自動駕駛[36]或用戶上傳視頻審核,目標檢測雖然可針對視頻逐幀檢測,但忽略了視頻幀之間的連貫性,浪費了過多的計算資源卻不能滿足探測要求。針對連貫性對檢測算法進行時間和空間連續(xù)的適應性調整,是算法應用性的改進方向之一。
g.目標檢測的多模態(tài)融合[37]。自動駕駛汽車憑借多種傳感器實現(xiàn)對駕駛環(huán)境的機器識別,目標檢測不僅可以通過圖像進行,還可以通過聲音、紅外線、雷達等多種傳感器進行。將來自不同傳感器的數(shù)據(jù)進行融合,從而實現(xiàn)對目標更加準確和全面地進行檢測,可以使信息互補,實現(xiàn)誤差校正、多樣性增強以及實時性提高。
h.目標檢測的場景自適應[38]。目標檢測算法在不同場景下的表現(xiàn)可能存在差異,通過自適應學習等方法,提高目標檢測算法在不同場景下的準確率和魯棒性,將極大提升目標檢測在各行業(yè)中的應用泛化性能。
i.算法運行可解釋性。目標檢測的可解釋性包括解釋其檢測結果和決策過程,通過分析算法數(shù)據(jù)傳遞過程,能更好地理解和優(yōu)化算法。算法可解釋性的發(fā)展方向包括:可視化[39],即將算法的特征提取前向傳遞過程以圖像或者其他形式呈現(xiàn);可解釋性[40],即通過算法中具有解釋性的特征與目標檢測建立聯(lián)系,以方便用戶理解算法特征與目標檢測之間的關系;人機交互,即將算法結合人類知識和經(jīng)驗,利用人類對檢測特征的深刻理解,更好地優(yōu)化算法的特征處理過程。
j. 注意力機制[41]。檢測算法區(qū)域劃分、錨框選定等操作經(jīng)常出現(xiàn)檢測算法復雜性徒增的問題,注意力機制的引入能夠大幅降低檢測成本,高效關注圖像有用信息,使現(xiàn)有檢測算法檢測性能快速提升成為可能。