韓萍,楊慧,方澄
中國民航大學智能信號與圖像處理天津市重點實驗室,天津 300300
X光安檢機廣泛應用于機場、火車站、地鐵站等交通運輸和各種大型公共活動場所,是維護公共安全和運輸安全的重要設施。旅客行李通過X光機掃描并實時產生安檢圖像,安檢員通過檢查安檢圖像判斷行李中是否存在違禁品,從而保障公共安全(Mery等,2017)。然而,人工檢查機制存在漏檢和錯檢的風險(侯彥伊,2018)。對X光安檢圖像中的違禁品進行智能識別具有重要的現(xiàn)實意義。
X光安檢圖像違禁品的識別旨在判斷X光圖像中是否存在違禁品及違禁品的類別。隨著深度學習的發(fā)展,違禁品智能識別多依賴于基于深度學習的智能識別算法,Ak?a等人(2016)將卷積神經網絡(convolutional neural networks,CNN)應用于安檢圖像研究,采用遷移學習和視覺詞袋模型(bag of visual word,BoVW)(Batan 等,2011)檢測含有槍支的安檢圖像取得了較好結果。該研究表明,卷積神經網絡方法明顯優(yōu)于傳統(tǒng)方法。隨后出現(xiàn)了更多的采用深度學習方法進行檢測的研究(Jaccard等,2017;Zhao等,2018;Morris等,2018)。Caldwell等人(2017)研究了卷積神經網絡在不同X光數(shù)據集訓練模型的泛化能力。首先用X光貨物數(shù)據集訓練網絡,然后用X光包裹數(shù)據集測試,但效果并不理想,當采用兩個數(shù)據集的樣本訓練時,模型性能得到很大改善。該研究表明,CNN很難識別與訓練數(shù)據來源不同的目標數(shù)據。近期,一項較有影響力的研究公開了大規(guī)模安檢圖像數(shù)據集SIXray(Miao等,2019),并針對數(shù)據集類別極不平衡和背景復雜的特點提出了類不平衡分層細化(class-balanced hierarchical refinement,CHR)的方法,該方法提高了模型的精度與速度,有效緩解了數(shù)據類別不平衡導致的識別性能下降問題。
智能識別模型需要在大量有標注的X光圖像訓練集上學習得到,然后根據模型在測試集上的表現(xiàn)驗證識別性能,當前的識別模型僅適用于測試集與訓練集保持同一分布的數(shù)據(何彥輝 等,2021)。本文在實驗中發(fā)現(xiàn),當測試集中出現(xiàn)與訓練集圖像顏色分布不一致的含有違禁品的X光圖像時,即便是人工很容易識別的違禁品,模型都難以正確識別。實際上,數(shù)據集不同分布的情況在實際應用場景下表現(xiàn)得更為突出,安檢設備采用雙能量X射線成像技術,使掃描可以根據物體的有效原子序數(shù)呈現(xiàn)不同顏色。例如,金屬顯示為藍色,有機物顯示為橙色等,隨著技術的發(fā)展,安檢設備不斷更迭,各站點使用的安檢設備都不完全相同,由于不同安檢設備應用不同的圖像處理方法,采集到的圖像顏色分布存在較大差異。如圖1所示,①和⑤均含有手槍類違禁品,在X光掃描后呈現(xiàn)藍色,但二者的藍色存在一定差異。同時,旅客行李中物品種類繁多,所成X光圖像顏色豐富,由圖像顏色分布差異引起的識別性能下降問題對安檢系統(tǒng)的智能化造成挑戰(zhàn)。因此智能識別模型應既能適用于各種設備采集的X光安檢圖像,又能利用安檢圖像的多彩顏色特征,解決混亂復雜導致圖像中的違禁品易與相同材質的其他物品混淆的問題。
圖1 不同顏色分布安檢圖像樣例
針對以上問題,本文提出一種區(qū)域增強和多特征融合模型(region enhanced multi-feature fusion model,REMF),融合了顏色和邊緣等更多元化的信息,實現(xiàn)了對物品雜亂的X光行李圖像中的違禁品進行識別。本文主要貢獻如下:1)定義了一種區(qū)域增強特征。特征提取器應用注意力機制的思想通過學習訓練集樣本的整體分布,將注意力集中在圖像中的違禁品部分。區(qū)域增強特征可消除顏色分布不同的影響,保留圖像幾何結構并對違禁品區(qū)域進行增強,突出違禁品的形狀信息,提高模型對不同顏色分布的X光圖像的泛化能力。2)采用多特征融合策略。安檢人員檢查X光行李圖像通常是在顏色信息的基礎上通過觀察物品呈現(xiàn)的形狀輪廓進行判斷,因此圖像的顏色、形狀和輪廓信息都具有重要意義。本文將彩色特征、邊緣特征和區(qū)域增強特征進行集中式融合,并且在3種特征上增加可調權重參數(shù),使不同特征發(fā)揮各自優(yōu)勢,得到更加豐富的特征信息,提高模型在圖像中物品混亂復雜情況下的魯棒性。3)根據本文方法多特征的特點引入一種三元損失函數(shù),引導特征自適應融合。三元損失函數(shù)由融合損失、邊緣損失和區(qū)域增強損失組合而成,通過設置3種損失的權重,引導模型通過調整特征權重參數(shù)更好地進行特征融合。
注意力機制(attention mechanism)是深度學習領域中廣泛應用的一種思想(Xiao等,2015;Vaswani 等,2017;Wang等,2017),借鑒了人類在感知事物過程中的思維方式。人眼在掃過視野范圍時可以迅速獲取需要關注的目標區(qū)域,極大提高視覺信息的處理效率及準確性。注意力機制通常以加權的方式實現(xiàn),其計算式為
A=F(X)
(1)
XA=A?X
(2)
式中,X∈RW×H×C表示輸入特征圖,F(xiàn)(·)為由神經網絡構成的注意力模塊,A為注意力權重,?表示將權重賦予輸入特征圖的操作,包括矩陣數(shù)乘或點乘,XA表示輸出特征圖。
注意力機制按照特征的不同維度可以分為通道注意力和空間注意力(劉可文 等,2020),CBAM(convolutional block attention module)方法(Woo等,2018)將通道注意力與空間注意力串聯(lián)起來,相比于僅關注通道域,CBAM可以達到更好的效果,其框架如圖2所示。
圖2 CBAM結構圖
通道注意力模塊和空間注意力模塊的處理過程為
FC(X)=σ(MLP(fAvgPool(X))+MLP(fMaxPool(X)))
(3)
FS(X)=σ(Conv([fAvgPool(X);fMaxPool(X)]))
(4)
兩個注意力模塊在訓練中學習尋找輸入特征中需要關注的部分,輸入特征X在經過注意力模塊加權后得到輸出特征XA,XA相較于X在通道和空間維度的關鍵部分增強,噪聲與其他無意義信息減弱,注意力機制的引入提高了模型的學習效率。
生活中的圖像較為復雜,僅依賴某種特征進行判斷往往無法達到很好的效果,需要將蘊含各種信息的特征融合,發(fā)揮其優(yōu)勢,提升模型性能。特征融合分為分布式融合和集中式融合。分布式融合先根據不同的特征集指定個體決策,然后將其組合到一個決策中。集中式融合先將不同的特征進行同化處理后集成到一個決策中,再根據任務需求進行特征選擇。對于不同表現(xiàn)方式的特征,集中式融合方法既不會在融合過程中損失或破壞原有的特征信息,又能將不同特征的優(yōu)勢結合起來。Liu 等人(2019)提出的回歸模型采用了集中式融合方法,其結構如圖3所示。首先,對輸入圖像進行不同特征的提取,得到N種不同表現(xiàn)方式的特征,記為特征i,然后將其送入卷積神經網絡提取相應的深度特征,記為深度特征i,將深度特征i進行拼接后送入全連接網絡進行特征分析與選擇,最后根據任務需求得到輸出結果。
圖3 集中式融合結構圖
不同安檢機生成的圖像顏色分布存在偏差,如圖4(b)所示。當出現(xiàn)與訓練集顏色分布不同樣本時,智能檢測效果會受到影響,意味著當前的智能方法在識別違禁品時過多依賴了顏色信息。因此在設計違禁品智能識別算法時,需加強能夠區(qū)別違禁品與其他物品除顏色以外的特征。安檢人員檢查X光圖像時,通常根據顏色信息判斷物體材質,并在此基礎上通過觀察物品的形狀輪廓來判斷物品類別。因此,顏色、形狀和輪廓都是違禁品識別的重要信息。基于上述分析,本文提出了區(qū)域增強和多特征融合模型REMF,應用注意力機制設計一種像素級的區(qū)域增強特征,消除圖像顏色分布差異的影響,增強違禁品區(qū)域信息,在保留圖像幾何結構的同時凸顯違禁品的形狀,將彩色特征、邊緣特征和區(qū)域增強特征進行集中式融合,通過三元損失函數(shù)對特征融合進行優(yōu)化。
圖4 相同顏色分布和不同顏色分布安檢圖像樣例
本文方法分為兩個階段,一階段模型的訓練可以得到區(qū)域增強特征提取器(region-enhanced feature extractor,RFE),二階段模型融合了多種特征并完成違禁品識別任務。本文方法的實現(xiàn)分為訓練過程和測試過程。訓練時需訓練一階段模型和二階段模型;測試時僅需將圖像輸入二階段模型中進行違禁品識別。REMF方法結構如圖5所示。
圖5 REMF方法框圖
2.1.1 RFE模塊
RFE模塊采用CBAM的注意力結構,如圖6所示。通過歸一化和標準化預處理后的輸入圖像I′∈RW×H×3(W和H分別為I′的寬和高),通過兩層卷積操作,得到尺寸為W/2×H/2、通道數(shù)為32的特征圖I′1,將其輸入通道注意力模塊,得到尺寸為1×1、通道數(shù)仍為32的通道注意力掩碼AC,表示各個通道特征的權重系數(shù);將AC與I′1按照對應通道相乘得到新的特征I′2。將I′2輸入空間注意力模塊,得到尺寸為W/2×H/2、通道數(shù)為1的空間注意力掩碼AS,采用雙線性插值的方法對其進行上采樣,使之與輸入圖像尺寸相同,得到區(qū)域增強特征FI′。
圖6 RFE模塊結構圖
區(qū)域增強特征的本質為輸入圖像的注意力分布掩碼,每個數(shù)值表示圖像中對應像素的重要程度,圖7為圖1的可視化區(qū)域增強特征圖。與圖1對比可以看出,區(qū)域增強特征圖消除了顏色分布不同的影響,可以很好地保留圖像的幾何結構,違禁物品區(qū)域相較于背景和其他物品得到明顯增強。
圖7 不同顏色分布的安檢圖像區(qū)域增強特征樣例
2.1.2 一階段模型結構
在一階段模型中,輸入圖像I通過預處理后得到I′,將I′送入RFE模塊進行特征提取,得到像素級區(qū)域增強特征FI′∈RW×H×1,將FI′與I′的每個通道按照對應位置相乘得到I″。將I″送入ResNet模型(He等,2016)進行深度特征提取,后接全連接分類器得到預測向量P,即每類違禁品存在的可能性。標簽向量Y表示該圖像中每類違禁品是否存在,采用交叉熵損失函數(shù)(Rubinstein,1999)計算預測向量P與標簽向量Y的損失,通過反向傳播更新模型參數(shù)進行訓練,當損失不再下降時終止訓練。一階段模型的訓練調整了RFE模塊的參數(shù),使之能夠找到圖像中與識別結果重要相關的區(qū)域。由于第2階段模型結構中RFE模塊不再對輸入圖像進行加權,為防止第2階段模型的訓練對RFE模塊的性能產生影響,訓練結束后將RFE模塊中的參數(shù)進行凍結,在第2階段直接使用該模塊提取區(qū)域增強特征。
2.2.1 二階段模型結構
二階段模型是多特征融合的模型,將圖像的彩色特征、邊緣特征以及區(qū)域增強特征用神經網絡模塊進行深度特征提取并融合用于識別圖像中的違禁品。如圖5所示,輸入圖像經過圖像預處理后進入3個并行的網絡分支,從上到下依次是區(qū)域增強特征提取網絡、彩色特征提取網絡和邊緣特征提取網絡。
在彩色特征分支中,將預處理后的RGB三通道彩色圖像送入卷積神經網絡模型進行深度特征提取,選擇基礎的殘差網絡ResNet作為圖像彩色特征的提取器,圖像進入網絡模型后,經過4個殘差層提取到7 × 7大小的特征圖,通過全局平均池化(global average pooling,GAP)操作,得到1 024元1維特征向量。
對信息量更少的單通道區(qū)域增強特征和邊緣特征,使用層數(shù)較淺的CBRP(convolution batchnormal relu pooling)卷積模塊,CBRP卷積模塊的結構如圖8所示,由layer1—layer4堆疊而成,每層包括卷積、歸一化、激活和池化操作。
圖8 CBRP卷積模塊結構圖
在區(qū)域增強特征分支中,先將預處理后的圖像送入RFE模塊提取區(qū)域增強特征,將其輸入CBRP模塊進行深度特征提取,最后將深度特征通過全連接(fully connected,F(xiàn)C)層映射為1 024元1維特征向量。在邊緣特征分支中,先用sobel算子對預處理后的圖像進行邊緣提取,后接CBRP卷積模塊進行深度特征提取,F(xiàn)C層后得到從邊緣特征中提取到的1維特征向量。
由于3種特征在不同違禁品識別場景下對最終決策的重要程度不同,在3種特征向量上分別增加了可調權重參數(shù)w1、w2和w3。權重參數(shù)可在訓練過程中自適應調整,使3種特征發(fā)揮不同程度的作用,更好地進行融合。圖5中的MLP_F模塊采用集中式融合方法完成特征融合任務,將3種1維特征向量拼接后輸入兩層全連接網絡,最終輸出每類違禁品的得分。全連接網絡融合方法的本質是對3種特征提取出的1維特征向量進行特征選擇,通過激活函數(shù)選擇對識別違禁品任務有意義的特征表現(xiàn),最后綜合特征表現(xiàn)判斷圖像中是否含有違禁物品。
2.2.2 三元損失函數(shù)
實驗中發(fā)現(xiàn),若僅采用MLP_F模塊輸出預測分數(shù)計算損失進行訓練,模型在相同分布圖像上的性能雖有提升,但對于不同顏色分布的圖像,模型的識別情況沒有明顯提高。尋找問題時發(fā)現(xiàn)此訓練方式會使區(qū)域增強特征與邊緣特征分支的權重w1和w3過小,意味著在特征融合時,彩色特征在網絡的學習過程中被更多地依賴,而其他特征只發(fā)揮了微小的作用。
為了加強標簽信息對于被弱化特征的監(jiān)督作用,本文分別在邊緣特征和區(qū)域增強特征后連接了由兩層全連接層構成的MLP_S模塊,輸出僅由單一特征得到的預測向量,因此在訓練過程中模型的輸出為PA,PB,PC,分別代表邊緣特征、融合特征和區(qū)域增強特征的預測向量,每個輸出向量對應一個交叉熵損失函數(shù),即LA、LB和LC。本文構建了一種三元損失函數(shù),計算為
Loss=α×LA+β×LB+γ×LC
(5)
式中,α、β和γ為3個輸出向量對應損失函數(shù)的系數(shù),且α+β+γ=1。實驗時,根據網絡表現(xiàn)設置3個系數(shù)的值,引導網絡在訓練過程中更好地進行特征融合。
交叉熵損失函數(shù)計算為
L(P,Y)=-[Y×log(PT)+(E-Y)×log(E-P)T]
(6)
Y=[y1,y2,…,yn]1×n
(7)
P=[p1,p2,…,pn]1×n
(8)
E=[1,1,…,1]1×n
(9)
式中,P表示模型輸出的預測向量,Y表示樣本的標簽向量,n為違禁品類別數(shù)量,若樣本圖像中含有第i個類別的違禁品,則yi=1,反之yi=0。
通過損失函數(shù)引導特征權重參數(shù)w1、w2和w3動態(tài)調整的解決方案既不會固定權重參數(shù),失去特征自適應融合的意義,也不會使參數(shù)在自適應調整過程中失去控制,而是在給定學習方向的情況下尋找參數(shù)的最優(yōu)值。
為了對上述方案進行驗證,先通過對比實驗與其他方法進行比較,測試該方案的整體性能及泛化能力,即對不同顏色分布安檢圖像的識別性能,然后通過消融實驗檢測各部分對分類性能的影響。
實驗采用SIXray公開數(shù)據集。該數(shù)據集是目前公開的規(guī)模最大的X光安檢圖像數(shù)據集,已廣泛用于違禁品檢測研究(Hassan等,2021;Zhang等,2021;Akcay和Breckon,2022),共1 059 231幅X光安檢圖像,采自不同地鐵站的安檢設備。實驗時,將含有違禁品的圖像定義為正樣本,反之為負樣本。正樣本共8 929幅,包含槍支、刀具、扳手、鉗子和剪刀等5種違禁品,且單幅圖像中可包含1種或多種違禁品,負樣本共1 050 302幅。SIXray數(shù)據集包含3個不平衡程度不同的子數(shù)據集SIXray10、SIXray100和SIXray1000。從SIXray10子數(shù)據集中進行采樣得到子數(shù)據集SIXray_sub。SIXray10子數(shù)據集由訓練集和測試集構成,SIXray_sub中的訓練樣本與測試樣本分別來自SIXray10中的訓練集與測試集,且正負樣本比約為1 ∶3。SIXray_sub子數(shù)據集的信息如表1所示。在觀察數(shù)據集的過程中,發(fā)現(xiàn)正樣本中編號從P08828到P08929的101幅圖像明顯與其他圖像顏色分布不同,將其設為子數(shù)據集SIXray_last101,用于驗證模型的泛化性能測試。SIXray_sub中的測試集包含SIXray_last101子數(shù)據集。
表1 SIXray_sub子數(shù)據集設置
實驗采用的軟硬件環(huán)境為深度學習框架 Pytorch,ubuntu16.04 系統(tǒng),GPU(graphics processing unit)顯卡型號為 Tesla M60。參數(shù)設置如表2所示。
表2 參數(shù)設置
預處理操作中歸一化采用的均值和方差參數(shù)由該數(shù)據集計算得到,表2中均值和方差的3個參數(shù)值分別對應RGB的3個通道。訓練過程中采用隨機梯度下降(stochastic gradient descent,SGD)優(yōu)化方法,學習率隨訓練情況衰減,當損失不下降時停止訓練。針對第2.2.2節(jié)提到的過多依賴彩色特征、需減弱彩色分支的權重,以及需加強區(qū)域增強特征以提高模型泛化能力,將三元損失系數(shù)設置為α=0.3,β=0.2,γ=0.5。
對比實驗分為整體性能對比和泛化能力對比兩部分。整體性能對比實驗主要驗證本文方法在顏色分布相同的數(shù)據集上對各類違禁品識別性能的表現(xiàn),該實驗在SIXray10數(shù)據集上進行,將ResNet18和ResNet34網絡作為實驗的基礎模型,對比方法為采用多尺度卷積與組卷積的金字塔卷積(pyramid convolution, PyConv)(Duta等,2020)融合高中低3層特征并采用高層監(jiān)督低層的分層細化方法(hierarchical refinement,HR)(Miao 等,2019)、將通道注意力與空間注意力串聯(lián)的卷積注意力方法(CBAM)(Woo等,2018)以及本文提出的區(qū)域增強和多特征融合模型(REMF)。由于SIXray10數(shù)據集為類不平衡數(shù)據集,為了緩解數(shù)據的不平衡程度,該實驗在所有方法上均增加類平衡處理(class-balanced,C)(Miao等,2019)。采用平均精度(mean average precision,mAP)作為評估分類性能的指標(尉婉青 等,2021),將每秒幀率(frame per second,F(xiàn)PS)即每秒可處理圖像數(shù)量作為評估識別效率的指標。各方法在ResNet18和ResNet34模型上的表現(xiàn)如表3和表4所示??梢钥吹?,在整體的識別效果上,本文方法相較于基礎模型分別提升了4.09%和2.26%,相較于其他3種方法也有所提升。在單類的識別效果上,本文方法在5類違禁品的識別效果上均高于基礎模型,尤其在槍支類的識別效果上有明顯優(yōu)勢,相對于其他方法最少提升了2.24%和3.09%,并且在鉗子類的識別效果上優(yōu)于其他方法。在識別效率方面,本文方法可達到實時處理的效果。
表3 不同方法在ResNet18模型上的整體性能對比
表4 不同方法在ResNet34模型上的整體性能對比
泛化能力對比實驗主要驗證本文方法在不同顏色分布圖像上的泛化能力。將已經訓練好的表3和表4中模型在SIXray_last101數(shù)據集上進行對比,由于SIXray_last101數(shù)據中都含有槍支類違禁品,因此實驗可以通過比較正確識別的槍支樣本數(shù)量(correct number/total number,CN/TN)進行泛化能力對比,實驗結果如圖9所示。
圖9 泛化能力對比實驗結果
從圖9可以看出,由于在訓練模型過程中,訓練樣本的顏色符合同一分布,當模型面對與訓練樣本顏色分布不一致的SIXray_last101測試集時,很難表現(xiàn)出好的效果。ResNet18模型能正確識別10幅含有槍支的安檢圖像,而ResNet34的性能低于ResNet18,僅能正確識別6幅,在PyConv、HR和CBAM方法上也看同樣的規(guī)律。本文提出的REMF方法在泛化能力方面相較于其他方法有所提升,并且在ResNet34上效果更加明顯,以ResNet34為基礎的REMF可以正確識別26幅含槍支違禁品的圖像。圖10為REMF方法相較于其他方法額外識別出來的部分圖像,盡管對于全部的測試樣本,本文方法只識別出了一小部分,但相對于基礎模型提升了4.3倍,表明本文方法提升了在不同顏色分布圖像上的泛化能力,與理論分析保持一致。
圖10 僅REMF方法正確識別的圖像
為了更加直觀地檢驗不同特征以及超參數(shù)設置對模型性能的影響,實驗選擇ResNet34網絡為基礎模型、SIXray_sub為實驗數(shù)據進行消融實驗。實驗結果如表5所示。
表5 消融實驗結果
第1組實驗為基礎模型,僅采用彩色特征分支進行預測;第2、3組實驗增加邊緣特征和區(qū)域增強特征,并采用自適應方式進行融合,即超參數(shù)默認為1。第4組實驗引入三元損失函數(shù)進行引導式融合,即對超參數(shù)進行設置,減弱彩色特征分支權重,增強區(qū)域增強特征分支權重。
從表5可以看出,邊緣特征和區(qū)域增強特征使整體識別性能分別提升了1.32%和1.05%,由于訓練樣本單一的顏色分布,多特征的自適應融合會提升模型在同樣顏色分布圖像上的性能,但面對不同顏色分布的圖像,訓練得到的自適應參數(shù)并不完全適用,因此模型在泛化性能的表現(xiàn)并不穩(wěn)定。三元損失函數(shù)的引入提升了模型的泛化性能,基礎模型僅能識別出11幅顏色分布不同的含槍支違禁品的圖像,自適應融合可以正確識別17幅含槍樣本,引導式融合可正確識別出30幅含槍樣本。盡管整體識別性能相對于自適應融合方法有所欠缺,但相較于只提取彩色特征的基礎模型仍然有所提高。
本文根據X光安檢圖像顏色豐富且分布不同以及物品混亂復雜的特點,提出一種區(qū)域增強和多特征融合模型。引用注意力機制的思想并依據數(shù)據的整體特征分布訓練得到區(qū)域增強特征,可以消除顏色差異的影響并增強違禁品區(qū)域信息。根據安檢員進行安全檢查關注的色彩、形狀和輪廓細節(jié)等信息,采用多特征融合策略,并提出一種三元損失函數(shù)優(yōu)化融合效果。在公開的來自不同安檢設備的實測數(shù)據集上進行實驗,結果表明本文方法提升了模型識別違禁品的性能,并緩解了圖像顏色分布不同引起的識別性能下降問題,驗證了本文方法的有效性及魯棒性。本文方法相較于實驗中的其他方法,在整體識別性能和泛化性能方面均有所提升。但本文方法的多分支結構增加了模型計算量,因此在識別效率方面沒有明顯優(yōu)勢。未來將進一步優(yōu)化網絡結構,在保證識別效果的情況下減小模型的計算量,提高模型的識別效率。