劉曉疆,丁繼存,劉 一
(1.青島民航凱亞系統(tǒng)集成有限公司,山東 青島 266000;2.中國(guó)民航管理干部學(xué)院大數(shù)據(jù)與人工智能系,北京 100102)
目標(biāo)檢測(cè)是近年來(lái)機(jī)器視覺(jué)領(lǐng)域發(fā)展快、應(yīng)用廣泛的一個(gè)研究方向。從傳統(tǒng)的特征點(diǎn)檢測(cè)算法到神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)的檢測(cè)算法,目標(biāo)檢測(cè)的效果逐步提升,但在復(fù)雜場(chǎng)景的實(shí)際應(yīng)用中仍面臨很多挑戰(zhàn)。
本文檢測(cè)區(qū)域主要是機(jī)場(chǎng)機(jī)坪的停機(jī)位區(qū)域。在該區(qū)域中的檢測(cè)屬于目標(biāo)尺度跨度較大的復(fù)雜場(chǎng)景下的物體檢測(cè)問(wèn)題。在停機(jī)位區(qū)域場(chǎng)景中,最大的目標(biāo)飛機(jī)與最小目標(biāo)錐桶的總面積相差高達(dá)萬(wàn)倍。利用不同規(guī)模的網(wǎng)絡(luò)能夠得到不同的目標(biāo)信號(hào),也可以利用神經(jīng)網(wǎng)絡(luò)模型對(duì)各種規(guī)模的目標(biāo)物體進(jìn)行檢測(cè)[1?3]。He 等[4]通過(guò)在深度卷積網(wǎng)絡(luò)中設(shè)計(jì)一種空間金字塔池化層的方法用于處理任何尺寸的空間選區(qū),克服了僅僅進(jìn)行固定尺寸輸入的局限性,從而提高了多尺寸獲取空間特征的能力。雖然這種技術(shù)可以解決物體尺度不同的特定情況,但小目標(biāo)的測(cè)量精確度卻無(wú)法達(dá)到和大目標(biāo)相同的水準(zhǔn)。為進(jìn)一步提高機(jī)坪小型車(chē)輛的探測(cè)準(zhǔn)確度,Razakarivony 等[5]針對(duì)航拍汽車(chē)的小目標(biāo)系統(tǒng),建立了VEDAI,以此作為對(duì)小目標(biāo)探測(cè)的重要依據(jù)。TAkeki 等[6]針對(duì)大背景區(qū)域的小目標(biāo)探測(cè)問(wèn)題,給出了一個(gè)可以通過(guò)深度全卷積神經(jīng)網(wǎng)絡(luò)在大空間中探測(cè)鳥(niǎo)類(lèi)的模式,并將深度學(xué)習(xí)的檢測(cè)方法和語(yǔ)義分割技術(shù)融合,開(kāi)發(fā)了一個(gè)深度全卷積的神經(jīng)網(wǎng)絡(luò)及其變體,通過(guò)支持聚類(lèi)實(shí)現(xiàn)更高的檢測(cè)性能。Redmon 等[7]推出了一種可測(cè)量多達(dá)9000種類(lèi)型的實(shí)時(shí)目標(biāo)測(cè)量技術(shù)YOLO 9000,提高了小數(shù)據(jù)測(cè)量效率。交通標(biāo)志監(jiān)測(cè)(TSD)任務(wù)的KB-RANN 大腦啟發(fā)網(wǎng)絡(luò)[8?9]是對(duì)小目標(biāo)檢測(cè)算法有很好的參考價(jià)值。Singh 等[10]和Singh 等[11]提出了SNIP 尺度不變性目標(biāo)檢測(cè)方法,對(duì)多種不同尺寸目標(biāo)進(jìn)行訓(xùn)練,使小目標(biāo)檢測(cè)性能大幅提升,同時(shí)還在目標(biāo)定位與分類(lèi)2 個(gè)層面上實(shí)現(xiàn)了偽監(jiān)督的目標(biāo)定位系統(tǒng),以解決機(jī)坪中隨機(jī)存在的大目標(biāo)(如飛機(jī)、廊橋)和小目標(biāo)(如人員、特定設(shè)備設(shè)施)的問(wèn)題。UAV YOLO V3[12]是在YOLO V3 的基礎(chǔ)上發(fā)展起來(lái)的,通過(guò)提高前期卷積層數(shù),配合ResNet 實(shí)現(xiàn)了更高的檢測(cè)效率。該方法對(duì)于機(jī)場(chǎng)廊橋機(jī)位視角小目標(biāo)的檢測(cè),其交并比(intersection over union,IoU)和全類(lèi)平均正確度(mean average precision,mAP)都大大提高。YOLO 系列算法雖然計(jì)算工作量大,但在機(jī)坪保障視角的小目標(biāo)檢測(cè)任務(wù)中優(yōu)點(diǎn)突出。新YOLO V4 相比V3 的識(shí)別幀率可增加12%,全類(lèi)平均正確度(mAP)可提高約10%[13]。
盡管上述方法在小目標(biāo)檢測(cè)方面的精度不斷提高,但不可否認(rèn),相對(duì)于大尺度的目標(biāo),小目標(biāo)的檢測(cè)往往要在較小的尺度下進(jìn)行檢索,時(shí)間消耗和算力資源的消耗都顯著增加。為了在小目標(biāo)檢測(cè)中保留足夠豐富的特征信息,提高原始圖像采集設(shè)備的分辨率是必要的,然而在停機(jī)位場(chǎng)景下,小目標(biāo)分布較為稀疏,如果可以通過(guò)上下空間信息減少小目標(biāo)的搜索空間,那么在不降低精度的前提下,可以提升檢測(cè)速度,同時(shí)大幅度減少對(duì)算力資源的消耗。
為了解決在超廣視場(chǎng)中快速檢出小目標(biāo)的問(wèn)題,王海濤等[9]設(shè)計(jì)了一種通過(guò)2 層迭代卷積網(wǎng)絡(luò)檢測(cè)寬場(chǎng)圖像的小目標(biāo)方法:首先針對(duì)低分辨率的寬場(chǎng)圖像,通過(guò)一個(gè)FasteR-CNN 檢出小目標(biāo)附近的區(qū)域,然后將該檢出區(qū)域用FasterR-CNN 對(duì)高分辨率原始圖像進(jìn)行小目標(biāo)檢測(cè),其效果明顯好于單級(jí)檢測(cè)。
本文采用與文獻(xiàn)[9]相似的思路。考慮到在停機(jī)位這一特殊場(chǎng)景下,小目標(biāo)作業(yè)都圍繞航空器進(jìn)行,在空間分布上有高度的相關(guān)性,因此本文同樣采用2 級(jí)檢測(cè)方法:首先在降分辨率的圖像上,使用訓(xùn)練的大尺度目標(biāo) YOLO V4 檢測(cè)模型完成飛機(jī)、車(chē)輛等大目標(biāo)的檢測(cè),然后將檢測(cè)到的特定區(qū)域映射為高分辨率圖像,再進(jìn)行二次識(shí)別。該方法命名為基于變分辨率機(jī)制的YOLO 檢測(cè) (multiple resolution mechanism based YOLO,MRMY) 算法??紤]到機(jī)位作業(yè)是相對(duì)靜態(tài)的場(chǎng)景,不同目標(biāo)尺度變化較小,且目標(biāo)的尺度呈兩極分布,本文使用歸一化層的縮放因子來(lái)移除網(wǎng)絡(luò)中低優(yōu)先級(jí)通道,從而提升在復(fù)雜場(chǎng)景下目標(biāo)檢測(cè)速度。
由于停機(jī)位目標(biāo)檢測(cè)區(qū)域有限,同時(shí)監(jiān)控?cái)z像機(jī)離機(jī)位較遠(yuǎn),因此機(jī)位目標(biāo)在視場(chǎng)中的運(yùn)動(dòng)帶來(lái)的尺度變化較小。同時(shí)本文主要針對(duì)的是尺寸較小且特征不明顯的目標(biāo),例如反光錐桶、飛機(jī)艙門(mén)等。為此,本文提出一種變分辨率機(jī)制,以提高機(jī)坪目標(biāo)檢測(cè)的效率和小目標(biāo)檢測(cè)精度。
本文的檢測(cè)圖像是1080P 以上的高分辨率圖像。首先對(duì)圖像進(jìn)行降分辨率處理,并對(duì)降分辨率圖像使用訓(xùn)練的大尺度目標(biāo)檢測(cè)模型YOLO V4 完成飛機(jī)、車(chē)輛等大目標(biāo)和飛機(jī)客艙門(mén)、人員等特征明顯的小目標(biāo)的檢測(cè),然后結(jié)合場(chǎng)景中大小目標(biāo)間的空間位置關(guān)系,將檢測(cè)到的特定區(qū)域(例如飛機(jī)貨艙門(mén)一般位于右側(cè)前部客艙門(mén)的左側(cè))映射到高分辨率圖像,再進(jìn)行小目標(biāo)二次識(shí)別。
由于在相對(duì)靜態(tài)的場(chǎng)景中,不同目標(biāo)的尺度變化較小,且目標(biāo)的尺度呈兩極分布,因此本文基于歸一化層的縮放因子剪裁掉網(wǎng)絡(luò)中不重要的通道,以提升在復(fù)雜場(chǎng)景下目標(biāo)的檢測(cè)速度對(duì)沖由于分類(lèi)操作而帶來(lái)的額外算力需求。
首先在任意時(shí)刻t,提取視頻流中的一幀圖片,命名為It。將It輸入到Y(jié)OLO V4 模型,進(jìn)行第1 次檢測(cè)。第1 次檢測(cè)會(huì)對(duì)It進(jìn)行降采樣,以適應(yīng)YOLO V4對(duì)圖像尺寸的要求,將降采樣后的圖像命名為
如果檢測(cè)發(fā)現(xiàn)圖像It中存在目標(biāo),則需要根據(jù)圖像中基于每個(gè)目標(biāo)推導(dǎo)得到的區(qū)域Ω,映射到圖像中的對(duì)應(yīng)原始分辨率區(qū)域 ?′,其中Ω=[x,y,w,h],x和y表示目標(biāo)在圖像中的左上角坐標(biāo),w和h分別表示目標(biāo)檢測(cè)限位框的寬度和高度,則
其中α和β分別表示在水平和垂直方向的降采樣系數(shù)。從 ?′中提取的高分辨率圖像片段,運(yùn)用更適用于細(xì)粒度特征檢測(cè)的模型對(duì)其進(jìn)行二次特征提取,得到針對(duì)該目標(biāo)的詳細(xì)特征表達(dá),例如車(chē)輛類(lèi)別、人員崗位(通過(guò)衣著判斷)、飛機(jī)發(fā)動(dòng)機(jī)位置等。其檢測(cè)流程如圖1 所示。
圖1 檢測(cè)流程Fig.1 Detection process
對(duì)于一次檢測(cè)識(shí)別的小目標(biāo),可根據(jù)特定場(chǎng)景下大目標(biāo)與小目標(biāo)直接的相對(duì)位置關(guān)系映射得到一個(gè)子區(qū)域集合,在每個(gè)子區(qū)域調(diào)用R-CNN 模型進(jìn)一步進(jìn)行小目標(biāo)檢測(cè)。例如,某些場(chǎng)景需要檢測(cè)反光錐桶是否擺放在飛機(jī)發(fā)動(dòng)機(jī)下方。
本文通過(guò)深度可分離卷積優(yōu)化MRMY 算法的網(wǎng)絡(luò)結(jié)構(gòu)模型:采用深度可分離卷積方法在MRMY 網(wǎng)絡(luò)提取特征卷積層,以有效地減少卷積核參數(shù),獲得更低的計(jì)算成本。傳統(tǒng)卷積是對(duì)三維卷積核與輸入的特征圖進(jìn)行卷積。每個(gè)卷積核同時(shí)操作輸入特征圖的每個(gè)通道,輸入特征圖的通道數(shù)與卷積核的通道數(shù)一致。如果卷積層l的輸入張量為xl∈,該層的卷積核編號(hào)為fl∈。三維輸入卷積運(yùn)算只是將二維卷積擴(kuò)展到相應(yīng)位置(即Dl)的所有通道,最后將一次卷積運(yùn)算處理的所有HWDl元素相加作為該位置卷積運(yùn)算的結(jié)果。具體過(guò)程如圖2 所示。
圖2 傳統(tǒng)的卷積操作Fig.2 Traditional convolution operations
深度可分離卷積法是將一個(gè)完整的卷積操作分解成縱深卷積(depthwise convolution,DW)和點(diǎn)卷積(pointwise convolution,PW)2 個(gè)卷積。與傳統(tǒng)的卷積操作不同,縱深卷積是一個(gè)特殊的三維卷積核。一個(gè)卷積核只負(fù)責(zé)一個(gè)通道,通道的數(shù)量與輸入特征圖通道的數(shù)量不一致。深度卷積完全是在一個(gè)二維平面內(nèi)完成的。在縱深卷積操作中,每個(gè)卷積核只與輸入的每個(gè)通道進(jìn)行卷積。順時(shí)針卷積操作負(fù)責(zé)特征融合,將之前的卷積結(jié)果整合。傳統(tǒng)三維卷積核是在輸入的多通道卷積核之間進(jìn)行卷積運(yùn)算,得到唯一的輸出。本文通過(guò)深度可分離卷積改進(jìn)后只需要一個(gè)通道用1×1 卷積進(jìn)行通道特征融合就可以得到一個(gè)輸出通道,如圖3 所示。這顯著地減少了參數(shù)及其計(jì)算量。深度可分離卷積的參數(shù)數(shù)量約為傳統(tǒng)卷積的1/3,可減少約80%的計(jì)算量[13]。MRMY 通過(guò)將YOLO V4 的主干網(wǎng)絡(luò)由CSPDarknet53 替換為深度可分離卷積網(wǎng)絡(luò),在不影響精度的條件下,提升了在嵌入式設(shè)備上的運(yùn)算速度。
圖3 深度可分離卷積法Fig.3 Depth-separable convolution method
在航班保障的目標(biāo)檢測(cè)中,通過(guò)深度可分離卷積法改進(jìn)的MRMY 的輕量級(jí)網(wǎng)絡(luò)模型被設(shè)計(jì)為嵌入式,具有更強(qiáng)的適用性。原來(lái)的標(biāo)準(zhǔn)卷積操作將被分成2 部分:縱深卷積和點(diǎn)狀卷積。網(wǎng)絡(luò)結(jié)構(gòu)的修改方法如圖4 所示。
圖4 標(biāo)準(zhǔn)卷積與深度可分離卷積的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比Fig.4 Network structure comparison of standard convolutions versus deeply separable convolutions
本文實(shí)驗(yàn)中使用的操作系統(tǒng)、CPU 和內(nèi)存的詳細(xì)信息如表1 所示。
表1 實(shí)驗(yàn)硬件環(huán)境參數(shù)Tab.1 Experimental hardware environment parameters
評(píng)價(jià)目標(biāo)一般包括檢測(cè)算法準(zhǔn)確程度的正確度(precision,P)、召回率(recall,R)、平均正確度(average precision,AP)、全類(lèi)平均正確度(mean average precision,mAP),以及檢測(cè)速度FPS 等。本文對(duì)算法評(píng)價(jià)也繼續(xù)沿用這些指標(biāo)。
本文數(shù)據(jù)集來(lái)源于國(guó)內(nèi)3 個(gè)千萬(wàn)級(jí)吞吐量機(jī)場(chǎng)現(xiàn)場(chǎng)實(shí)際航班保障運(yùn)行數(shù)據(jù),是能夠覆蓋特定機(jī)位保障作業(yè)的攝像頭歷史數(shù)據(jù),并對(duì)視頻數(shù)據(jù)進(jìn)行了分析,篩選出較具有代表性的視頻幀,既包括了需要識(shí)別的目標(biāo)物樣本,又包含了足夠的雨、雪、霧以及黑夜等環(huán)境下的樣本。
本文的數(shù)據(jù)集由機(jī)場(chǎng)監(jiān)控視頻拍攝的12 759張圖片組成。這些圖像中訓(xùn)練集和測(cè)試集的比例大約為4∶1。它們既包含不同天氣的情況,例如晴天、雨天、雪天等,又有不同光線的情況,例如白天、晚上,如圖5 所示。光線條件是一個(gè)不可忽視的因素,它經(jīng)常導(dǎo)致保障車(chē)輛物體檢測(cè)的錯(cuò)誤。實(shí)驗(yàn)準(zhǔn)備了足夠的數(shù)據(jù)集來(lái)考慮航班保障的多種情況,以確保數(shù)據(jù)的可靠性。
圖5 機(jī)場(chǎng)機(jī)坪數(shù)據(jù)集樣本示例Fig.5 Sample of airport apron data set
實(shí)驗(yàn)對(duì)圖像進(jìn)行手動(dòng)標(biāo)注:使用限位框——所有可見(jiàn)像素的最小軸線平行矩形來(lái)代表一種保障目標(biāo)(飛機(jī)、車(chē)輛、廊橋、機(jī)門(mén)等)。
神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確判斷需要大量數(shù)據(jù)進(jìn)行訓(xùn)練,而實(shí)際情況中訓(xùn)練數(shù)據(jù)往往因?yàn)闄C(jī)坪監(jiān)控架設(shè)與存儲(chǔ)成本和多種天氣、機(jī)型、保障車(chē)輛等客觀條件不足難以取得足夠的數(shù)量,尤其是在對(duì)機(jī)坪目標(biāo)的檢測(cè)任務(wù)中。
機(jī)坪保障目標(biāo)識(shí)別任務(wù)面臨機(jī)坪內(nèi)部監(jiān)控較少,多種機(jī)場(chǎng)監(jiān)控位置各不相同且異常天氣和特殊機(jī)型和保障車(chē)輛少見(jiàn)的情況,出現(xiàn)了樣本較少且特殊樣本比例非常低的問(wèn)題。因此,通過(guò)機(jī)器對(duì)抗來(lái)自動(dòng)化生成訓(xùn)練數(shù)據(jù)成為保證算法可靠性的關(guān)鍵。其核心是通過(guò)構(gòu)建一個(gè)圖片擴(kuò)增處理程序,生成更多的測(cè)試圖像,實(shí)現(xiàn)機(jī)坪視角圖像的數(shù)據(jù)自動(dòng)化增多,從而進(jìn)行更多神經(jīng)網(wǎng)絡(luò)訓(xùn)練。本文主要通過(guò)以下方法實(shí)現(xiàn)。
1)構(gòu)建數(shù)據(jù)資源池。將已有圖像數(shù)據(jù)根據(jù)標(biāo)簽文件數(shù)據(jù)裁剪出訓(xùn)練目標(biāo),并隨機(jī)施加旋轉(zhuǎn)、鏡像、變形等變換操作,生成目標(biāo)池。同時(shí)將摳去目標(biāo)塊的背景圖像存放在背景池中備用。
2)重新生成新目標(biāo)塊。機(jī)坪的監(jiān)控有些安裝在廊橋上視角較高,類(lèi)似俯視,部分安裝在廊橋下方或者側(cè)面對(duì)應(yīng)視角較低,類(lèi)似平視,2 種視角圖像中目標(biāo)的差別明顯。為了得到更好的訓(xùn)練效果,需要將目標(biāo)池中選取的目標(biāo)塊進(jìn)行變形、縮放等操作調(diào)整為與實(shí)際場(chǎng)景類(lèi)似的尺寸。
3)生成訓(xùn)練圖像。首先從背景池中抽取隨機(jī)背景,然后加入調(diào)整后的新目標(biāo)塊,生成新圖像。系統(tǒng)結(jié)合變換參數(shù)和之前的原始數(shù)據(jù)生成目標(biāo)圖像標(biāo)注。
本文設(shè)立了7 個(gè)實(shí)驗(yàn)組進(jìn)行比較分析,以全面摸清通過(guò)深度可分離卷積法減少參數(shù)對(duì)計(jì)算效率的影響。MRMY 網(wǎng)絡(luò)模型共有9 個(gè)卷積層。實(shí)驗(yàn)對(duì)MRMY 網(wǎng)絡(luò)模型中除第一層和最后一層外的7 個(gè)卷積層進(jìn)行改進(jìn),逐一用深度卷積和點(diǎn)卷積取代每一層的標(biāo)準(zhǔn)卷積。這7 個(gè)改進(jìn)的網(wǎng)絡(luò)模型分別是M1、M2、M3、M4、M5、M6和M7。它們唯一的區(qū)別在于卷積層。這種循序漸進(jìn)的改進(jìn)方式更有利于直觀、清晰地觀察每個(gè)卷的基礎(chǔ)層和每個(gè)卷積層中還原參數(shù)的速度。改進(jìn)的網(wǎng)絡(luò)模型結(jié)構(gòu)如圖6 所示。
圖6 改進(jìn)的 MRMY 網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Improved MRMY network structure
在7 組對(duì)比實(shí)驗(yàn)中,對(duì)MRMY 網(wǎng)絡(luò)模型和改進(jìn)后的MRMY 網(wǎng)絡(luò)模型(M1、M2、M3、M4、M5、M6和M7)在平均精度(AP)、耗時(shí)、每秒幀數(shù)(FPS)和模型權(quán)重大小等方面進(jìn)行了對(duì)比。在乘客物體檢測(cè)任務(wù)中:在AP 方面,每個(gè)網(wǎng)絡(luò)模型的數(shù)值都略有不同,差別較大的數(shù)值只是下降了約1%;在檢測(cè)耗時(shí)方面,與MRMY 網(wǎng)絡(luò)模型相比,改進(jìn)后的網(wǎng)絡(luò)模型檢測(cè)一幅圖像的時(shí)間從0.915 s 減少到0.225 s;在FPS 方面,檢測(cè)速度從1.093 幀提高到4.449 幀,速度提高明顯;在權(quán)重文件大小方面,改進(jìn)后的網(wǎng)絡(luò)模型從原來(lái)的61 MB 減少到7 MB。對(duì)比結(jié)果如表2 所示。
表2 改進(jìn)的網(wǎng)絡(luò)性能情況表Tab.2 Improved network performance situation table
圖7 示出網(wǎng)絡(luò)模型的精度—召回率曲線,橫軸是召回率,縱軸是檢測(cè)精度。從圖7 中可以發(fā)現(xiàn):在3 個(gè)不同的畫(huà)面中,MRMY 和改進(jìn)的M7 網(wǎng)絡(luò)模型都可以實(shí)現(xiàn)保障目標(biāo)的識(shí)別,并且檢測(cè)上沒(méi)有差異;當(dāng)召回率超過(guò)0.93 時(shí),每個(gè)網(wǎng)絡(luò)模型的檢測(cè)精度都有明顯下降。在這種低召回率的情況下,改進(jìn)后的網(wǎng)絡(luò)模型比原始網(wǎng)絡(luò)模型具有更高的檢測(cè)精度。
圖7 TinyYOLO 與MRMY 網(wǎng)絡(luò)模型的精度—召回率曲線Fig.7 Precision-recall curve of TinyYOLO and MRMY network model
圖8 顯示了部分檢測(cè)結(jié)果,其中:(a)是使用YOLO V4 模型的檢測(cè)結(jié)果,打開(kāi)的貨艙門(mén)被識(shí)別為關(guān)閉,油泵車(chē)也被誤識(shí)別為了垃圾車(chē);(b)是MRMY 的識(shí)別結(jié)果,貨艙門(mén)和油泵車(chē)都被正確地識(shí)別了。可見(jiàn),MRMY 模型的檢測(cè)結(jié)果優(yōu)于YOLO V4 模型的檢測(cè)結(jié)果。
圖8 部分檢測(cè)結(jié)果對(duì)比Fig.8 Comparison of some test results
本文提出了一種針對(duì)機(jī)坪復(fù)雜目標(biāo)的檢測(cè)算法,即MRMY 算法,實(shí)現(xiàn)機(jī)坪遠(yuǎn)距離成像的實(shí)時(shí)小目標(biāo)檢測(cè)。該算法通過(guò)采用變分辨率機(jī)制,先對(duì)壓縮后圖像進(jìn)行一次檢測(cè),再對(duì)復(fù)雜目標(biāo)進(jìn)行二次識(shí)別,最后基于歸一化層的縮放因子剪裁掉網(wǎng)絡(luò)中不重要的通道,進(jìn)一步提升在復(fù)雜場(chǎng)景下復(fù)雜目標(biāo)的檢測(cè)速度。采用深度可分離卷積方法改進(jìn)的MRMY 網(wǎng)絡(luò)模型可以減少檢測(cè)時(shí)間以及權(quán)重文件大小,從而顯著提升檢測(cè)速度,而且在檢測(cè)精度上幾乎沒(méi)有任何犧牲。