趙 書,陳 寧
(西安工程大學(xué) 電子信息學(xué)院,西安 710048)
行人檢測是一個(gè)預(yù)測、定位和標(biāo)記的過程,在給定的視頻或圖像中檢測是否有行人存在,并返回目標(biāo)對象的位置信息. 此技術(shù)作為計(jì)算機(jī)視覺的一個(gè)重要課題有著深刻的研究意義,并且在自動(dòng)駕駛、視頻監(jiān)控、人機(jī)交互等領(lǐng)域都有著廣泛的應(yīng)用. 此外,行人檢測是目標(biāo)檢測中的一個(gè)特例,其研究成果可以對其他目標(biāo)檢測方法起很好的推動(dòng)作用.
隨著現(xiàn)代控制技術(shù)和汽車技術(shù)的發(fā)展,智能汽車已經(jīng)實(shí)現(xiàn)了輔助駕駛乃至自主駕駛功能. 行人是交通場景中不可或缺的一部分. 同時(shí),道路行人檢測也是智能汽車能夠應(yīng)用在各種交通場景中的基本前提. 智能汽車通過車載攝像頭獲取道路信息,然后利用行人檢測技術(shù),自動(dòng)準(zhǔn)確的檢測出道路前方的行人,及時(shí)反饋及預(yù)警,這有利于保障行車安全和行人通行安全. 近年來,隨著智能交通的提出以及無人駕駛等領(lǐng)域的需要,使得行人檢測技術(shù)有了一個(gè)更高精度的要求. 當(dāng)汽車處于復(fù)雜的交通環(huán)境中時(shí),對于那些尺度較小且分辨率低的行人檢測尤為重要,因?yàn)檫h(yuǎn)處的小尺度行人更容易被忽視從而引發(fā)事故. 因此自動(dòng)駕駛汽車必須具有在一定距離內(nèi)檢測到小尺度行人的能力,以便能夠讓控制系統(tǒng)可靠且平穩(wěn)地避免與之碰撞[1–3].
目前行人檢測技術(shù)已經(jīng)實(shí)現(xiàn)了較高的準(zhǔn)確率,但是由于行人尺度變化、低分辨率、遮擋等問題的存在,行人檢測仍然受限于應(yīng)用場景. 如何實(shí)現(xiàn)小尺度行人的精準(zhǔn)檢測一直是行人檢測任務(wù)中的需要解決的關(guān)鍵問題之一. 文獻(xiàn)[4] 中將行人根據(jù)像素高度分為近、中、遠(yuǎn)3 個(gè)等級對應(yīng)不同的尺度對象. 如圖1 所示. 然而,在許多行人檢測應(yīng)用場景中,小尺度行人的占比更高. 據(jù)統(tǒng)計(jì),在加州理工學(xué)院的行人數(shù)據(jù)集中,實(shí)例高度小于80 像素的占83%. 人眼在檢測小尺度行人時(shí)沒有太大難度,但現(xiàn)有的行人檢測方法在檢測大尺度行人時(shí)擁有很好的性能,在小尺度行人檢測上性能有所下降.
圖1 小尺度行人樣本示例
近年來,越來越多的學(xué)者開始研究如何解決小尺度行人的檢測問題,也取得了一定的進(jìn)展,但是仍不滿足實(shí)際應(yīng)用的要求. 當(dāng)前,小尺度行人檢測技術(shù)現(xiàn)處于快速發(fā)展期. 目前的研究工作與實(shí)際應(yīng)用要求之間的不匹配,使得對小尺度行人檢測問題的解決方法進(jìn)行探索和討論尤為重要. 然而現(xiàn)在有很多討論小尺度目標(biāo)檢測問題和行人檢測問題的綜述性文章[5–8],但討論小尺度行人檢測問題的綜述卻幾乎沒有. 因此本文對小尺度行人檢測方法進(jìn)行了全面的分析和總結(jié),從而更好地促進(jìn)行人檢測技術(shù)的進(jìn)一步發(fā)展和提升.
如今現(xiàn)有的行人檢測的方法可以分為兩類: 傳統(tǒng)方法和基于深度學(xué)習(xí)的方法. 傳統(tǒng)的行人檢測方法大多基于手工提取特征+分類器的結(jié)構(gòu). 對傳統(tǒng)方法來說,手工提取特征的設(shè)計(jì)對于檢測器性能的好壞至關(guān)重要.然而手工特征不能捕捉大規(guī)模數(shù)據(jù)集的多層次表示,因此這類方法受到了特征提取的限制,對類內(nèi)可變性的魯棒性較差.
為克服傳統(tǒng)手工特征的缺點(diǎn),文獻(xiàn)[9]提出了深度卷積神經(jīng)網(wǎng)絡(luò). 相對于傳統(tǒng)方法來說,深度學(xué)習(xí)的提出大大簡化了檢測的工作. 由于深度學(xué)習(xí)對視覺特征的強(qiáng)大表征能力,使得其現(xiàn)如今在目標(biāo)檢測領(lǐng)域占主導(dǎo)地位. 因此,本文分析和探討了深度學(xué)習(xí)方法中小尺度行人檢測存在的問題和解決方法. 首先,以小尺度行人檢測方法的不同思路為依據(jù)將現(xiàn)有方法分為5 類并介紹其典型模型. 除此之外,我們還研究了行人檢測的數(shù)據(jù)集和評估指標(biāo). 同時(shí),對每一類方法進(jìn)行對比分析和綜合評價(jià),并提出了未來需要解決的問題和努力的方向.
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一類相當(dāng)具有代表性的深度神經(jīng)網(wǎng)絡(luò),也是行人檢測中最常用的網(wǎng)絡(luò). CNN 網(wǎng)絡(luò)模型主要可分為兩類: (1)以RCNN 系列為代表的方法,預(yù)先回歸一次邊界框,然后利用骨干網(wǎng)絡(luò)再進(jìn)行訓(xùn)練,被稱為兩階段檢測器,該類方法精度較高但檢測時(shí)間長; (2)以YOLO、SSD 等為代表的只進(jìn)行一次回歸和評分的方法,稱為一階段檢測器,該類方法檢測速度快但精度稍差. 由于CNN 會(huì)隨著網(wǎng)絡(luò)的加深弱化小尺度對象的特征表示,所以這些模型只適用于粗粒度的分類任務(wù),在細(xì)粒度的分類任務(wù)如小目標(biāo)檢測和語義分割中有一些限制. 因此無論是一階段檢測器還是兩階段檢測器,對于小尺度行人的檢測都存在幾大挑戰(zhàn),如表1 所示.
表1 小尺度行人檢測存在的挑戰(zhàn)
此外,關(guān)于小尺度行人檢測的經(jīng)驗(yàn)和知識(shí)非常有限,因?yàn)榇蠖鄶?shù)先前的工作都是圍繞大尺度行人檢測問題展開研究的. 因此,有必要對現(xiàn)階段的小尺度行人檢測工作進(jìn)行梳理,探索有效的解決方法,提高其檢測精度.
隨著基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)的發(fā)展,許多適用和解決小尺度行人檢測難問題的新型網(wǎng)絡(luò)模型被提出. 本文從多尺度表示、上下文信息、訓(xùn)練和分類策略、尺度感知以及超分辨率5 個(gè)方面總結(jié)了現(xiàn)有的小尺度行人檢測算法.
對檢測和識(shí)別任務(wù)來說,特征圖是精準(zhǔn)定位和分類的關(guān)鍵. 由于行人較小的尺度和低分辨率表示,行人的位置等細(xì)節(jié)信息在高層特征地圖中逐漸丟失. 最初解決該問題主要有兩種策略: (1)構(gòu)建圖像金字塔[10],將圖像縮放到不同比例輸入到檢測器中,但由于潛在的圖像比例很大,計(jì)算每個(gè)比例下的特征非常耗時(shí),因此這種方法已經(jīng)很少使用; (2)基于單個(gè)特征圖生成區(qū)域建議,使用不同比例和大小的錨框?qū)?yīng)不同的感受野,如Faster R-CNN[11]中的多尺度區(qū)域建議網(wǎng)絡(luò)RPN,而此類方法檢測小尺度對象的劣勢在于,只利用最后一層特征生成建議,使得具有大的感受野的高層特征因?yàn)榉直媛侍投荒軠?zhǔn)確的識(shí)別到小目標(biāo).
針對上述問題,Liu 等人提出的SSD 分類器首次引入了特征多尺度表示的思想[12],在不同網(wǎng)絡(luò)分層中提取特征并依次進(jìn)行邊界框回歸和分類,SSD 利用淺層特征來檢測小尺寸對象有一定的提升效果. 隨后,Cai 等人構(gòu)建了多尺度深度卷積神經(jīng)網(wǎng)絡(luò)MS-CNN[13],通過引入反卷積特征上采樣替代輸入上采樣來提高了特征圖的分辨率,并使用多層來匹配不同比例的對象,增強(qiáng)了小尺度目標(biāo)的檢測能力.
然而MS-CNN 和SSD 并沒有充分利用網(wǎng)絡(luò)中的底層信息,直接從網(wǎng)絡(luò)的高層構(gòu)建金字塔. 為進(jìn)一步充分利用特征信息,Lin 等人進(jìn)一步結(jié)合了單一特征地圖、集成特征和特征金字塔層次的優(yōu)點(diǎn),在Fast RCNN中構(gòu)建了特征金字塔網(wǎng)絡(luò)(FPN)[14]. FPN 采用自頂向下的結(jié)構(gòu),將低分辨率的高層語義圖和高分辨率的低層語義圖進(jìn)行融合,每一層特征都進(jìn)行獨(dú)立預(yù)測,無需成本但在小尺度行人上有很好的表現(xiàn). 隨后又出現(xiàn)了一系列基于FPN 改進(jìn)的方法. 由于SSD 速度很快但精度不夠理想,Li 等人提出的FSSD 分類器(feature fusion single shot multibox detector)[15]將FPN 結(jié)合到SSD中,將具有不同尺度的多層特征連接在一起,隨后下采樣構(gòu)建新的特征金字塔,大大提升了檢測精度. 基于FPN,文獻(xiàn)[16]中引入了一個(gè)跨尺度特征聚合模塊,通過融合魯棒的語義和不同尺度行人的準(zhǔn)確定位來增強(qiáng)特征金字塔表示.
Cao 等人認(rèn)為FPN 等網(wǎng)絡(luò)中小尺度行人的語義水平還不夠高,于是提出了一種多分支高級網(wǎng)絡(luò)MHN-D將底層特征轉(zhuǎn)化為高級語義特征[17]. MHN-D 的分支具有不同的空間分辨率和感受野,適合檢測多個(gè)尺度的行人. MHN-D 網(wǎng)絡(luò)的分支之間采用跨層連接來提高檢測性能,并利用空洞卷積增加特征圖的分辨率,為小尺寸行人的定位保留更多的空間信息.
圖2 展示了多種方法結(jié)構(gòu)的對比. 具體來說,多尺度表示就是一種將包含豐富語義信息的深層特征和具有詳細(xì)位置信息的淺層特征相結(jié)合的策略. 這類策略有效地避免了特征圖的重復(fù)計(jì)算,并提升了檢測精度.并且多尺度表示的方法也從基于多個(gè)單層特征預(yù)測趨向于多層特征融合,目前此類方法已經(jīng)成為克服小尺度行人檢測中信息丟失和感受野不匹配問題的主流方法.
圖2 多尺度特征學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)對比
上下文信息充分利用視覺對象及其共存環(huán)境之間關(guān)系,在目標(biāo)檢測中起著重要作用. 文獻(xiàn)[18]已經(jīng)證明背景等信息對于小規(guī)模目標(biāo)檢測是有幫助的. 大尺度的行人可以給檢測器提供足夠的感興趣區(qū)域特征,相比之下,從小尺度行人對象中提取的感興趣區(qū)域特征非常少. 因此提取上下文信息作為原始感興趣區(qū)域特征的補(bǔ)充可以有效地解決小尺度行人特征不足和定位不準(zhǔn)確的問題.
然而像FPN 等網(wǎng)絡(luò)簡單地將不同層的語義圖連接起來隱式的學(xué)習(xí)上下文信息,所得到的組合特征還不足夠豐富. 因此明確的挖掘上下文信息具有一定的意義. 為了進(jìn)一步改善檢測性能,文獻(xiàn)[19]提出了一種擴(kuò)展特征金字塔的FPN++框架,在FPN 檢測器的頭部引入上下文感知檢測模塊,利用上下文信息進(jìn)行分類和回歸. 文獻(xiàn)[20]提出了一種上下文感知的DIF R-CNN行人檢測方法,通過集成反卷積模塊引入額外的上下文信息. 具體地說,網(wǎng)絡(luò)將反卷積層和初始特征圖相結(jié)合生成用于收集附加信息的合成特征圖,為檢測提供更多的視覺細(xì)節(jié)和語義上下文表示. ALFNet[21]中的卷積預(yù)測塊CPB 將殘差學(xué)習(xí)和多尺度上下文語義信息結(jié)合到一起,構(gòu)建了一個(gè)上下文編碼塊. 而文獻(xiàn)[22]認(rèn)為簡單地將不同強(qiáng)度的語義特征圖結(jié)合起來,會(huì)導(dǎo)致語義不一致從而不能充分的提取到對象周圍的上下文信息. 對此,提出了一個(gè)利用可分離大核卷積作為橫向連接的語義轉(zhuǎn)換模塊,將弱語義特征先經(jīng)過3 個(gè)不同分支的特征映射后進(jìn)行連接用于跳躍層融合,緩解語義不一致性并提取更多的上下文信息.
表2 展示了幾種上下文信息的不同引入方式. 與多尺度表示的方法的初衷相似,基于上下文信息的方法也旨在給檢測網(wǎng)絡(luò)提供更多的信息. 獲取上下文信息主要通過不同特征層之間的跳躍連接實(shí)現(xiàn),此外引入空洞卷積可以獲取到更多的信息. 所獲取的上下文信息主要為興趣域附近的信息,通過學(xué)習(xí)對象和周圍環(huán)境之間的關(guān)系來提升檢測效果.
表2 上下文信息方法對比
網(wǎng)絡(luò)訓(xùn)練和分類器的性能對檢測器有很大的影響,分類器對行人檢測的精準(zhǔn)度起著決定性的作用,不同的訓(xùn)練策略則影響著分類器的能力. 使用不同分類策略對不同尺度的特征圖進(jìn)行分類,有助于增強(qiáng)分類器對低像素特征的敏感性,提升檢測器對小尺度行人的檢測和分類能力.
隨著CNN 的在目標(biāo)檢測上的成功,行人檢測經(jīng)歷了基于CNN 特征方法和基于端到端的方法兩個(gè)階段.復(fù)雜性感知網(wǎng)絡(luò)(CompACT)通過利用手工特征和CNN 的特性,在每個(gè)階段對準(zhǔn)確性和復(fù)雜性進(jìn)行權(quán)衡[23],先用簡單的特征篩選出行人可能存在的位置,將高復(fù)雜性的特征用于級聯(lián)的后期. 訓(xùn)練用于檢測不同尺度行人的分類子網(wǎng)絡(luò),對于增強(qiáng)檢測器處理低像素行人的能力非常有效. 而在文獻(xiàn)[24]中研究發(fā)現(xiàn)Faster RCNN 中的區(qū)域提議網(wǎng)絡(luò)(RPN)作為一個(gè)獨(dú)立的行人檢測器表現(xiàn)良好,但在下游分類器中由于小尺度行人的影響導(dǎo)致性能降低. 因此他們提出的RPN+BF 方法,在共享的高分辨率卷積特征地圖上訓(xùn)練級聯(lián)增強(qiáng)森林分類器,充分挖掘小尺度行人的特征,不受預(yù)訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)的限制. 在F-DNN 中,不再使用單個(gè)的下游分類器而是利用多個(gè)并行的深度分類器結(jié)合軟過濾器來進(jìn)一步驗(yàn)證每個(gè)建議[25].
Zhang 等人考慮到行人身體形狀的不對稱性,提出了一種用于小尺度行人的非對稱多級網(wǎng)AMS-Net[26].檢測過程中網(wǎng)絡(luò)根據(jù)行人體型設(shè)計(jì)了非對稱卷積來捕捉行人身體的緊湊特征,并采用非對稱錨框來生成矩形建議. 而Song 等人[27]研究發(fā)現(xiàn)大部分方法都過于依賴訓(xùn)練集的標(biāo)注,而標(biāo)注不精準(zhǔn)則會(huì)影響檢測性能.于是他們提出了一種基于拓?fù)渚€定位的方法如圖3 所示,通過建立不同尺度行人拓?fù)湫畔⒆鳛闃?biāo)注用于訓(xùn)練階段,同時(shí)利用聚集相鄰幀的特征獲取時(shí)間信息,可以自動(dòng)適應(yīng)小尺度行人.
圖3 TLL 拓?fù)錁?biāo)注方法
此外,行人檢測有兩種主要方法即目標(biāo)檢測和語義分割,這兩種方法本質(zhì)上具有一定的相關(guān)性. 目標(biāo)檢測在定位對象時(shí)表現(xiàn)良好,但缺乏對象邊界的信息. 而語義分割在區(qū)分類之間的像素邊界方面表現(xiàn)得很好,因此,另一種思路是利用語義分割來提升檢測和分類的準(zhǔn)確性,并且已經(jīng)取得了很好的性能.
文獻(xiàn)[28] 提出了一種分割注入的兩階段網(wǎng)絡(luò)(SDS RCNN),在頂層網(wǎng)絡(luò)中增加一個(gè)語義分割分支,并在訓(xùn)練期間注入語義信息,將語義分割作為行人檢測輔助信息與區(qū)域檢測結(jié)合,優(yōu)化下游行人檢測器.SDS-RCNN 只是增加了語義分割分支,并沒有將語義分割結(jié)果直接用于行人檢測. 而SSA-CNN 從具有不同分辨率的多個(gè)網(wǎng)絡(luò)層執(zhí)行語義分割[29],將各種尺度粒度的語義信息集成到共享的特征映射中,給檢測提供像素級的分類信息,提高對小尺度行人的分類能力.
基于訓(xùn)練和分類策略的方法采用不同的訓(xùn)練方法和分類器,以最終獲得更適用于小尺度行人的檢測器.所設(shè)計(jì)的訓(xùn)練分類策略需滿足檢測器對各種場景的適應(yīng)性,并且研究發(fā)現(xiàn)將多種計(jì)算機(jī)任務(wù)如目標(biāo)檢測、語義分割等結(jié)合起來用于行人檢測,會(huì)得到更加豐富的信息從而會(huì)大幅度的提高單獨(dú)任務(wù)的精準(zhǔn)度.
由于特征不足及感受野不匹配導(dǎo)致網(wǎng)絡(luò)發(fā)生了漏檢是小尺度行人檢測效果差的主要原因之一. 在其他方法中,不同尺度的行人被網(wǎng)絡(luò)進(jìn)行統(tǒng)一檢測. 然而,不同尺度的行人之間有著巨大的類內(nèi)差異,比如,大尺度行人有著豐富的細(xì)節(jié)信息,而小尺度行人往往模糊不清. 為了解決行人間的類內(nèi)差異問題,有些方法采用“分治”的思想,充分利用不同尺度實(shí)例下的顯著特征. 具體來說,網(wǎng)絡(luò)將不同尺度的行人分開處理,分別捕獲特定尺度下的特征從而實(shí)現(xiàn)檢測特定范圍尺度下的實(shí)例.
為解決行人的類內(nèi)間差距,SAF RCNN[30]的規(guī)模感知模型將大、小尺度行人作兩個(gè)檢測任務(wù)在兩個(gè)子網(wǎng)絡(luò)中完成,根據(jù)建議的高度設(shè)置不同尺度子網(wǎng)絡(luò)的權(quán)重,并采用一個(gè)感知加權(quán)層來融合檢測結(jié)果作為最終的輸出結(jié)果. 但由于SAF RCNN 僅利用最后一層卷積檢測行人,使得小尺度行人檢測沒有達(dá)到最好的性能. 對此,Han 等人提出了一種小規(guī)模感知網(wǎng)絡(luò)SSN,充分利用卷積層來提高檢測性能[31]. 為了生成更有效的檢測小規(guī)模行人的建議區(qū)域,提出了一種尺度建議網(wǎng)絡(luò). 該方法將不同的卷積層與反卷積合并,獲得每個(gè)特征點(diǎn)描述更詳細(xì)的特征圖,尺度建議網(wǎng)絡(luò)用于生成一些更有利于捕捉小尺度對象的建議區(qū)域. 而在文獻(xiàn)[32]的GDFL 方法中,如圖4 所示,使用尺度感知的行人注意模塊和放大-縮小模塊(ZIZOM)來實(shí)現(xiàn)了更穩(wěn)定的行人檢測. 他們將細(xì)粒度的注意力掩膜編碼加入到卷積中構(gòu)成注意模塊來引導(dǎo)檢測器聚焦行人區(qū)域,而放大-縮小模塊則去探索豐富的上下文語義信息和本地細(xì)節(jié),以進(jìn)一步減輕對小尺度目標(biāo)的檢測.
圖4 GDFL 框架
基于尺度感知的方法將不同尺度上的行人視為不同的子類別,讓網(wǎng)絡(luò)擁有相對獨(dú)立的執(zhí)行小尺度行人的檢測,使得在整體檢測過程中避免漏檢情況的發(fā)生.
超分辨率方法旨在提高原有圖像的分辨率,精細(xì)的細(xì)節(jié)信息對于對象實(shí)例的檢測和定位至關(guān)重要. 對于小尺度行人具有覆蓋像素少、分辨率低的特點(diǎn),最初的方法通過簡單的對圖像和特征圖進(jìn)行上采樣處理,這樣也許有效但也可能會(huì)造成偽影等其他問題,小目標(biāo)對象可能仍然會(huì)模糊不清、難以檢測.
因此,一些方法試圖通過生成超分辨率圖像進(jìn)行檢測,與用二次插值等方法重新調(diào)整大小生成的圖像相比,超分辨率圖像更清晰,包含更詳細(xì)的信息,這些圖像的特征圖包含足夠的信息來區(qū)分它們和背景. 由Pang 等人提出的用于檢測小規(guī)模行人的JCS-Net,將分類任務(wù)和超分辨率任務(wù)集成在一個(gè)統(tǒng)一的框架中[33],旨在利用大規(guī)模行人和相應(yīng)的小規(guī)模行人之間的關(guān)系來幫助恢復(fù)小規(guī)模行人的詳細(xì)信息,從而提高檢測小規(guī)模行人的性能. Wu 等人開發(fā)了一種模擬方法來增強(qiáng)小尺度行人的表示[34]. 他們構(gòu)造了一個(gè)SML (selfmimic learning)組件來改善小尺度行人的檢測性能,通過強(qiáng)制小尺度行人模擬學(xué)習(xí)大規(guī)模行人的特征來豐富和增強(qiáng)自身的表示.
近年來,生成對抗網(wǎng)絡(luò)GAN 在合成圖像方面也顯示出了巨大的優(yōu)勢,可以很好地應(yīng)用于小物體檢測. 生成對抗網(wǎng)絡(luò)有兩個(gè)子網(wǎng)絡(luò)組成,生成器網(wǎng)絡(luò)和鑒別器網(wǎng)絡(luò),兩者通過博弈來實(shí)現(xiàn)一個(gè)更好的圖像生成效果. 最初人們常用GAN 網(wǎng)絡(luò)生成更多的圖像以達(dá)到數(shù)據(jù)增強(qiáng)的目的,近幾年,有些研究嘗試?yán)肎AN進(jìn)行小目標(biāo)對象的超分辨率重建,并取得了很好的成效.
Li 等人首次將生成對抗網(wǎng)絡(luò)應(yīng)用在解決小目標(biāo)檢測問題上,并在行人檢測上表現(xiàn)出了很好的性能. 他們構(gòu)建了一個(gè)感知生成對抗網(wǎng)絡(luò)(perceptual GAN)為小目標(biāo)生成超分辨表示[35],由生成器和感知鑒別器兩個(gè)子網(wǎng)絡(luò)組成. 生成器基于殘差網(wǎng)絡(luò),從淺層特征引入細(xì)粒度細(xì)節(jié),將小目標(biāo)的表示增強(qiáng)為能夠提供高檢測精度的超分辨表示. 感知鑒別器的一個(gè)分支區(qū)分“真假”,另一個(gè)分支對生成的細(xì)粒度細(xì)節(jié)的質(zhì)量和優(yōu)勢提供指導(dǎo). 在文獻(xiàn)[36]中發(fā)現(xiàn)利用GAN 一步生成小尺度行人的高分辨圖像質(zhì)量并不是很好,因此他們將原來的超分辨率網(wǎng)絡(luò)改進(jìn)為兩個(gè)生成器級聯(lián),第1 個(gè)生成器生成粗略的超分辨率圖像,第2 個(gè)生成器進(jìn)一步生成精細(xì)的超分辨率圖像. 生成對抗網(wǎng)絡(luò)的優(yōu)勢在于能夠與任意檢測器相結(jié)合,不需要進(jìn)行額外的處理操作.
細(xì)節(jié)對于對象實(shí)例定位至關(guān)重要,此類方法嘗試?yán)貌煌叨戎g的內(nèi)在關(guān)系,將原始圖像的低分辨率重建為更高的分辨率,旨在將低分辨小尺度對象的表示增強(qiáng),生成更高分辨更具有細(xì)節(jié)信息的類似于大尺度對象的特征信息,從而有效提高檢測性能.
在過去的工作中,人們對行人檢測技術(shù)的探索不僅限于方法上的研究,許多組織機(jī)構(gòu)還提供了一些用
于評價(jià)性能的數(shù)據(jù)集和基準(zhǔn).
眾所周知,全面且豐富的數(shù)據(jù)集能夠推動(dòng)計(jì)算機(jī)視覺的發(fā)展. 行人數(shù)據(jù)集如表3 所示,主要分為早期行人數(shù)據(jù)集和現(xiàn)代行人數(shù)據(jù)集. 早期的行人數(shù)據(jù)集相對較小,主要基于傳統(tǒng)方法使用,如MIT[37]、INRIA[38]、Daimler[39]等. CrowdHuman[40]和EuroCity[41]是最新發(fā)布的數(shù)據(jù)集. 目前,主流的行人檢測數(shù)據(jù)集主要有3 個(gè):Caltech、KITTI[42]和CityPerson[43]. 這3 個(gè)數(shù)據(jù)集在數(shù)量上呈現(xiàn)了更大的規(guī)模,具有更完整的標(biāo)注信息和更好的標(biāo)注效果,并且包含了遮擋和多尺度場景,因此應(yīng)用更加廣泛. 表3 總結(jié)了這3 個(gè)行人數(shù)據(jù)集.
表3 行人數(shù)據(jù)集概要
Caltech 數(shù)據(jù)集是在一輛駕駛在洛杉磯不同街道的汽車所拍攝的約10 個(gè)小時(shí)的11 段行駛視頻中提取的,是最完整的行人檢測基準(zhǔn)之一. 其中前6 個(gè)視頻用于訓(xùn)練,后5 個(gè)視頻用于測試. 數(shù)據(jù)集相較于以往的數(shù)據(jù)集提升了兩個(gè)數(shù)量級的樣本,并且數(shù)據(jù)集還詳細(xì)標(biāo)注了包圍盒和遮擋標(biāo)簽,圖像間具有時(shí)間對應(yīng)關(guān)系. KITTI是自動(dòng)駕駛場景下的數(shù)據(jù)集,包含市區(qū)、鄉(xiāng)村和高速公路等地區(qū)采集的180 GB 真實(shí)圖像數(shù)據(jù),每張圖像中最多達(dá)30 個(gè)行人,并且數(shù)據(jù)集的行人比例變化很大(從25 像素到300 像素的高度). 二維目標(biāo)檢測任務(wù)包含汽車、行人和自行車3 大類,評估分為easy、moderate和hard 3 個(gè)層次. CityPerson 是在城市街道場景中建立的行人數(shù)據(jù)集. 相較于前兩個(gè)數(shù)據(jù)集都是在一個(gè)城市記錄的,該數(shù)據(jù)集匯集了27 個(gè)城市的街道場景,注釋也更具有多樣性. 它包含2975 幅訓(xùn)練圖像和500 幅驗(yàn)證圖像,以及1575 幅測試圖像.
評價(jià)一個(gè)檢測器的檢測能力需要由相應(yīng)的評價(jià)指標(biāo)來體現(xiàn)的,一個(gè)好的評價(jià)標(biāo)準(zhǔn)對于性能檢測來說至關(guān)重要. 目前,行人檢測器性能的評估是基于其在數(shù)據(jù)集上的表現(xiàn). 現(xiàn)在流行的行人檢測的評價(jià)指標(biāo)有兩個(gè):MR-FFPI和MR?2.
MR-FPPI(miss rate versus false positives per image)曲線以單幀評估的方式更加適合行人檢測的評價(jià)指標(biāo). 通過改變檢測置信閾值,可以在對數(shù)空間中繪制每幅圖像的誤檢率(FPPI). 給定一個(gè)檢測置信度閾值,誤檢率(MR)可以通過真陽性數(shù)(Ntp)和 基礎(chǔ)真值數(shù)(Ng)來計(jì)算:
而FPPI可以通過將誤檢數(shù)量除以圖像數(shù)量來計(jì)算.
Log-average miss rate (MR?2),對數(shù)平均誤檢率常用來總結(jié)檢測器的性能,并作為結(jié)果對比的參考. 計(jì)算方法是在對數(shù)坐標(biāo)下,從[0.01,1] 區(qū)間內(nèi)均勻的取9 個(gè)FPPI值并計(jì)算FPPI對應(yīng)的9 個(gè)miss rate 值的平均值MR?2,較低的MR?2反映了更好的結(jié)果.
表4 和表5 中展示了一些經(jīng)典的模型在KITTI和CityPerson 數(shù)據(jù)集上的檢測結(jié)果. KITTI 數(shù)據(jù)集包含了大量不同尺度的行人,更具有挑戰(zhàn)性. 如表4、表5所示,主流算法在KITTI 數(shù)據(jù)集上的檢測性能均低于CityPerson 數(shù)據(jù)集. 表4 對算法的平均檢測精度進(jìn)行統(tǒng)計(jì),在easy 子數(shù)據(jù)集中,MHN-D 算法精度最高達(dá)到85.81%,實(shí)時(shí)性也差強(qiáng)人意; AMS-Net 算法檢測速度最快,其檢測精度也十分理想; 在mid 子數(shù)據(jù)集中,MHN-D稍遜于MS-J 都達(dá)到了74% 以上的精度,相較于在easy 子集上的表現(xiàn),算法精度都降低了10%左右; 而在hard 子數(shù)據(jù)集中,不同算法的檢測精度之間差距縮小,MS-J 取得了最佳性能. 表5 對算法的誤檢率進(jìn)行統(tǒng)計(jì),算法整體都實(shí)現(xiàn)了較高的精準(zhǔn)度,SML 方法在兩個(gè)子集上均達(dá)到了最低的錯(cuò)誤率.
表4 不同方法在KITTI 數(shù)據(jù)集上的平均檢測精度(%)
表5 深度學(xué)習(xí)方法在CityPerson 數(shù)據(jù)集上的檢測情況(MR–2)
圖5 分別展示了算法在加州理工學(xué)院數(shù)據(jù)集中reasonable 子集和small 子集上不同方法的檢測結(jié)果.對于reasonable 子集,不同算法準(zhǔn)確率之間差異較小,但在small 子集上所有算法的精度都有一個(gè)大幅度的下降,且算法間差距也逐漸變大,證實(shí)了小規(guī)模行人的存在是當(dāng)前行人檢測算法的主要瓶頸之一. 而相對于TA-CNN[44]、DeepParts[45]、UDN+[46]算法,SAF RCNN 等在兩個(gè)子集上都有著更好的表現(xiàn),其中TLL實(shí)現(xiàn)了最優(yōu)性能. 同時(shí)比發(fā)現(xiàn),同種方法在不同數(shù)據(jù)集上訓(xùn)練所展現(xiàn)出的性能存在一定的差異,數(shù)據(jù)集的選擇對檢測器的性能也產(chǎn)生一定的影響.
圖5 不同深度學(xué)習(xí)算法在Caltech 上兩個(gè)子集的表現(xiàn)
目前小尺度行人檢測需要研究的核心的問題是如何讓行人的特征表達(dá)包含更多的語義信息,這實(shí)質(zhì)上對提高檢測性能起著至關(guān)重要的作用. 前面所介紹和討論的解決小尺度行人檢測問題的解決思路也主要是圍繞小尺度行人的特征表示展開的. 并且5 類方法的側(cè)重點(diǎn)也有所不同,多尺度表示和上下文信息著手于主干網(wǎng)絡(luò)產(chǎn)生的特征圖,而訓(xùn)練和分類策略以及尺度感知方法則側(cè)重對訓(xùn)練和檢測過程的改進(jìn). 基于超分辨率的方法旨在對圖像的恢復(fù)及重建,相對于其他方法來說更直接和可觀. 表6 對深度學(xué)習(xí)中的5 種方法進(jìn)行對比和分析.
表6 5 種方法對比
(1)基于多尺度表示的方法是處理小尺度和多尺度問題最典型和有效的方法. 但該類方法在提高性能的同時(shí)會(huì)不可避免的增加計(jì)算負(fù)擔(dān),因此如何實(shí)現(xiàn)準(zhǔn)確性和復(fù)雜性之間的良好平衡需要更進(jìn)一步地去探索.目前,處理小尺度行人的大多數(shù)方法都基于FPN 進(jìn)行適當(dāng)調(diào)整和改進(jìn)作為檢測網(wǎng)絡(luò)的基本架構(gòu).
(2)上下文信息是近幾年的一個(gè)研究熱點(diǎn),很多方法會(huì)利用上下文信息作為輔助信息,但需要注意的問題是并不是所有的上下文信息都有效,因此需要對如何有效控制環(huán)境信息的傳遞進(jìn)一步研究.
(3)在基于訓(xùn)練和分類策略的方法中,進(jìn)行多任務(wù)聯(lián)合學(xué)習(xí)是一個(gè)很好的方向. 同時(shí)采用多個(gè)計(jì)算機(jī)視覺任務(wù)可以獲得更豐富的信息. 因此如何有效地利用多任務(wù)聯(lián)合學(xué)習(xí)和優(yōu)化來提高小尺度行人檢測的性能是未來的一個(gè)研究重點(diǎn).
(4)基于尺度感知的方法對于小尺度行人檢測是有效的,其關(guān)鍵在于如何準(zhǔn)確劃分不同尺度的行人,以獲得更多的小尺度行人建議.
(5)基于超分辨率的方法是近幾年解決小尺度行人檢測問題的一個(gè)新的發(fā)展方向. 該類方法目前主要大多基于GAN 網(wǎng)絡(luò),無需設(shè)計(jì)特定的架構(gòu),最大的挑戰(zhàn)在于GAN 很難訓(xùn)練,因此如何在生成器和鑒別器之間實(shí)現(xiàn)良好的平衡是未來需要探索的方向.
行人檢測是計(jì)算機(jī)視覺中一個(gè)重要且具有挑戰(zhàn)性的任務(wù),在取得巨大進(jìn)步的同時(shí)也伴隨著很多問題的產(chǎn)生. 本文針對小尺度行人的檢測所面臨的挑戰(zhàn)進(jìn)行了剖析,并對小尺度行人檢測方法分類討論. 當(dāng)前多尺度表示、上下文信息、不同的訓(xùn)練和分類策略、尺度感知、超分辨率5 種策略在解決小尺度行人檢測問題上均取得了不錯(cuò)的成績,并且具有很好的發(fā)展前景.
盡管行人檢測技術(shù)已經(jīng)取得了較大的進(jìn)展,但目前仍存在很多的問題亟待解決,主要包括:
(1)缺乏檢測數(shù)據(jù)集和基準(zhǔn): 在一定程度上,深度學(xué)習(xí)的性能是通過大量的數(shù)據(jù)提升的. 像在廣泛使用Caltech 數(shù)據(jù)集中,“小”對象類中的許多對象實(shí)例占據(jù)了圖像的很大一部分. 為了更好地評估小目標(biāo)檢測算法的性能,需要專門用于小目標(biāo)檢測的大規(guī)模數(shù)據(jù)集,因此,建立大規(guī)模的小尺度行人目標(biāo)數(shù)據(jù)集和相應(yīng)的基準(zhǔn)是行人檢測領(lǐng)域的一個(gè)研究方向.
(2)多變化融合問題: 在實(shí)際應(yīng)用場景中,小尺度問題和遮擋問題大多同時(shí)存在,并且天氣、光線等也會(huì)給檢測帶來影響. 目前大多數(shù)的方法只針對于單個(gè)問題的進(jìn)行改善,因此,有必要進(jìn)一步研究更加具有魯棒性的檢測算法處理融合的多變化問題.
(3)行人多姿態(tài)問題: 目前行人檢測對象多為直立行人,當(dāng)前技術(shù)對于識(shí)別一些特殊的行人狀態(tài),如坐、蹲、騎等比較困難. 因此,有必要深入挖掘多模態(tài)行人的共同特征,以增強(qiáng)行人檢測器的泛化能力.
(4)檢測實(shí)時(shí)性問題: 現(xiàn)有的行人檢測方法大多側(cè)重于提高檢測精度,而忽略了效率. 而應(yīng)用在駕駛/監(jiān)視場景中時(shí),設(shè)備的計(jì)算資源有限,同時(shí)還需要達(dá)到實(shí)時(shí)檢測的速度要求,從而來滿足實(shí)際應(yīng)用的需求. 因此,有必要對嵌入式設(shè)備的輕量化和實(shí)時(shí)行人檢測方法進(jìn)行研究.