国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

行李安檢禁限帶物品識別多標(biāo)簽圖像分類算法

2022-11-11 01:15胡本翼彭凱貝呂曉軍劉躍虎
鐵路計算機應(yīng)用 2022年10期
關(guān)鍵詞:違禁品掩膜X光

胡本翼,彭凱貝,張 馳,呂曉軍,劉躍虎

(1. 西安交通大學(xué) 人工智能學(xué)院,西安 710049;2. 中國鐵道科學(xué)研究院集團有限公司 電子計算技術(shù)研究所,北京 100081)

行李安檢是公共軌道交通社會治安防控體系建設(shè)的重要內(nèi)容。針對禁限帶物品(簡稱:違禁品)的行李安檢智能識別技術(shù)有助于高安檢效率,降低安檢勞動強度,尤其對于公共軌道交通公交化運營以及應(yīng)對高峰時段安檢具有重要的應(yīng)用價值[1~2]。

1 行李X光安檢圖像的特點

與可見光成像的自然圖像不同,行李安檢圖像是由X射線穿過不同密度材料的物品后,根據(jù)透射光強度,通過相應(yīng)算法著色生成。

行李中互相重疊的物品會改變一些區(qū)域的透射光強度,形成X光偽彩色圖像特有的影像混疊現(xiàn)象,即原本因遮擋而無法看見的物體會以迥異的形態(tài)重新出現(xiàn)[3]。如圖1所示,相互堆疊的物品在X光圖像中呈現(xiàn)典型的影像混疊現(xiàn)象。

圖1 行李安檢圖像的物品影像混疊現(xiàn)象

行李安檢圖像識別的難點在于:(1)X光透射成像使物品間遮擋關(guān)系呈現(xiàn)為影像混疊,減弱了物品圖像邊緣、顏色等特征的可辨識性;(2)違禁品種類豐富、材料構(gòu)成復(fù)雜、成像角度多變,造成不同類物品圖像差異小,同類物品圖像差異大的特點;(3)物品圖像物理尺寸變化較大。

2 行李X光安檢圖像多標(biāo)簽分類算法

針對行李X光安檢圖像的特性,采用圖像多標(biāo)簽分類深度神經(jīng)網(wǎng)絡(luò)框架,引入圖像注意力機制,在行李物品堆疊的復(fù)雜場景中準(zhǔn)確定位違禁品關(guān)鍵區(qū)域,以提升算法的細(xì)粒度辨識能力;在此基礎(chǔ)上,引入能夠動態(tài)融合各層預(yù)測結(jié)果的元選擇網(wǎng)絡(luò),在物品視覺特征劇烈變化的條件下,自適應(yīng)地融合多層信息,較為準(zhǔn)確地預(yù)測圖像中是否存在違禁品。

2.1 算法描述

行李安檢圖像違禁品識別任務(wù)的特點是:圖像中可能出現(xiàn)的違禁品種類和數(shù)量不確定。本文將該問題建模為一個多標(biāo)簽分類問題,即假設(shè)數(shù)據(jù)集中可能出現(xiàn)有C類違禁品,給定輸入行李安檢圖像x,深度神經(jīng)網(wǎng)絡(luò)g輸 出對應(yīng)的C維向量yNC,即

2.2 算法流程

在深度卷積網(wǎng)絡(luò)架構(gòu)的基礎(chǔ)上,構(gòu)建主干網(wǎng)絡(luò)、注意力分支、元融合分支,算法流程如圖2所示。

圖2 算法流程示意

(1)主干網(wǎng)絡(luò)通過基于ResNet50的特征金字塔提取2個分支共享的卷積特征;

(2)注意力分支模塊融合共享的卷積特征與原始輸入圖像,生成注意力掩膜,用于對金字塔特征進行篩選,以便在嚴(yán)重混疊情況下區(qū)分違禁品,并鎖定物品細(xì)微特征,保證算法的細(xì)粒度辨識能力;

(3)元融合分支基于質(zhì)量改善過的特征金字塔,通過外部神經(jīng)知識引導(dǎo)的元融合預(yù)測物品類別。

2.2.1 金字塔主干網(wǎng)絡(luò)

在實際安檢場景中,違禁品種類多,且物理尺寸差異大。而卷積網(wǎng)絡(luò)在前向傳遞過程中,隨著層次的加深,卷積特征感受野越來越大,特征分辨率會越來越小。因此,僅使用單層特征圖無法兼顧大尺寸物品和小尺寸物品的識別需求。

特征金字塔架構(gòu)[4]將低分辨率的高層語義特征與高分辨率的低層細(xì)節(jié)特征進行連接,使所有尺度下的特征圖都具有豐富的語義信息。在金字塔架構(gòu)前向傳遞的過程中,把不改變特征圖大小的層歸為一個階段,并將每個階段最后一層輸出作為該階段的特征抽取結(jié)果,由此構(gòu)成特征金字塔,如圖3所示。

圖3 特征金字塔架構(gòu)

特征金字塔架構(gòu)自上而下地對特征進行上采樣處理,并將其與下層特征進行融合,得到融合了不同語義層信息的新特征圖,以有效地處理不同尺寸特征圖所蘊含語義信息懸殊的問題。

2.2.2 注意力分支

由于行李安檢圖像中各種物品圖像特征相互糾纏,同時各類物品圖像缺乏紋理信息,只能通過顏色、形狀等低層視覺信息進行識別,增加了違禁品辨識難度。此外,各種違禁品的類間差別小,類內(nèi)差別大,進一步增加了細(xì)粒度識別的難度。

為此,在特征金字塔架構(gòu)上增加注意力掩膜,使網(wǎng)絡(luò)能在復(fù)雜背景下定位關(guān)鍵區(qū)域,避免復(fù)雜背景帶來的干擾與混淆;同時,鎖定具有區(qū)分度的關(guān)鍵區(qū)域,為后續(xù)的細(xì)粒度識別奠定基礎(chǔ)。為了解決物品識別嚴(yán)重依賴顏色、形狀等低層視覺信息的問題,多批次引入原始輸入圖像,能夠在分辨率不斷丟失的前向傳遞過程中,不斷補充關(guān)鍵的低層視覺線索,其架構(gòu)如圖4所示。

圖4 注意力分支架構(gòu)示意

具體地,對輸出的第l級金字塔特征pl,利用注意力分支產(chǎn)生相應(yīng)掩膜來預(yù)測該級所有違禁品的區(qū)域位置。在主干網(wǎng)絡(luò)輸出的最大空間尺度特征圖的基礎(chǔ)上,通過堆疊上采樣模塊構(gòu)造注意力分支。其中,每個上采樣模塊由1個雙線性上采樣層(用于擴展空間大小)、4個膨脹卷積層(用于提取感受野更大的特征)和1個1×1卷積層(作為輸出層)組成。

在每次上采樣前,將特征與重新縮放的輸入圖像沿通道拼接;注意力分支輸出預(yù)測掩膜后,再將多層金字塔特征同時與其對應(yīng)的注意力掩膜相乘,以改善多尺度特征圖。

2?.2.3 元融合分支

為了解決行李安檢圖像的物品影像混疊和尺寸大小變化問題,有效的信息融合機制是關(guān)鍵。對于混疊現(xiàn)象較為輕微的物品,可直接通過高層語義信息識別;對于混疊現(xiàn)象比較嚴(yán)重的物品,則需要借助顏色、形狀等低層視覺信息。另一方面,小尺寸物品需要使用感受野小的低層特征來識別,而大尺寸物品則應(yīng)借助感受野大的高層特征來發(fā)現(xiàn)。由于不同層級特征對物品辨識的作用不同,用于融合各層級預(yù)測結(jié)果的權(quán)重應(yīng)動態(tài)地產(chǎn)生。

傳統(tǒng)融合策略往往通過自定義或采用全連接層直接輸出融合權(quán)重,缺乏有效的信號監(jiān)督,容易產(chǎn)生權(quán)重偏差現(xiàn)象。已有研究表明,在其它X光安檢圖像數(shù)據(jù)集訓(xùn)練出的CNN模型,會在給定X光安檢圖像數(shù)據(jù)集上表現(xiàn)出更強的適應(yīng)性[5]。因此,本文利用其它網(wǎng)絡(luò)學(xué)到的外部神經(jīng)知識,對各層級預(yù)測結(jié)果進行動態(tài)融合,以避免權(quán)重偏差現(xiàn)象。

如圖5所示,元融合架構(gòu)首先池化金字塔特征,使其具有7×7的空間大小;在通道側(cè)拼接合并后,將其傳遞至元選擇網(wǎng)絡(luò),輸出每一維均以服從0~1分布的多維向量作為軟融合權(quán)重,以增強網(wǎng)絡(luò)在復(fù)雜場景下對多階段信息自適應(yīng)融合能力,從而提升算法在物品圖像混疊和尺寸變化場景下的物品分類性能。

圖5 元融合架構(gòu)與元選擇網(wǎng)絡(luò)

2.3 多階段損失函數(shù)定義

鑒于網(wǎng)絡(luò)涵蓋多個分支與任務(wù),本文提出的算法采用多階段損失函數(shù):

(1)注意力分支網(wǎng)絡(luò)訓(xùn)練階段:采用均方誤差函數(shù)(MSE)衡量注意力掩膜真值與預(yù)測值的差異,以抑制圖像背景、突出前景,從而準(zhǔn)確定位關(guān)鍵物品區(qū)域。

(2)元融合分支網(wǎng)絡(luò)訓(xùn)練階段:多標(biāo)簽分類網(wǎng)絡(luò)采用二進制交叉熵(BCE,Binary Cross Entropy)函數(shù),確保網(wǎng)絡(luò)能同時準(zhǔn)確地預(yù)測多類違禁物品;元選擇網(wǎng)絡(luò)使用標(biāo)準(zhǔn)交叉熵(CE,Cross Entropy)函數(shù)來衡量融合權(quán)重真值與預(yù)測值的差異,以獲取不同層級特征的最優(yōu)加權(quán)組合,損失函數(shù)定義為

其中,λ為控制元選擇損失項的強度。

3 實驗與結(jié)果分析

3.1 實驗數(shù)據(jù)

在2個X光行李安檢圖像公共數(shù)據(jù)集SIXray和OPIXray[6]上進行實驗,并與現(xiàn)有方法對比,針對注意力和元融合機制進行消融實驗驗證,就本文提出算法對違禁品的辨識能力進行量化分析。

SIXray是近幾年使用比較廣泛的公用X光安檢圖像數(shù)據(jù)集,共包含1 059 231幅X光圖像,其中8 929幅圖像包含槍械、刀具、鉗子、剪刀和扳手等5類常見違禁品,如圖6所示。按照SIXray數(shù)據(jù)集推薦的數(shù)據(jù)劃分策略,將其中7 496幅圖像作為訓(xùn)練數(shù)據(jù),其他1 433幅用于測試。

圖6 SIXray數(shù)據(jù)集包含5種違禁品

為了驗證算法對類內(nèi)差異的辨識能力,選擇折疊刀、直刃刀、剪刀、美工刀和多功能刀5種刀具類實例,共計8 885幅圖像的OPIXray數(shù)據(jù)集(如圖7所示),將其中80%(即7 109幅)圖像作為訓(xùn)練集,剩余20%(即1 776幅)圖像作為測試數(shù)據(jù)。

圖7 OPIXray數(shù)據(jù)集包含5類刀具

3.2 網(wǎng)絡(luò)參數(shù)設(shè)置

本文算法只選取特征金字塔的最高3層,即式(2)中, l f3,4,5g, λ取0.1。為了驅(qū)動網(wǎng)絡(luò)訓(xùn)練,由經(jīng)驗生成掩膜真值和元融合真值。

對于掩膜真值,在實例級標(biāo)注基礎(chǔ)上,為每個邊界框生成一個內(nèi)嵌橢圓,其中橢圓內(nèi)像素設(shè)置為255,其余像素設(shè)置為0。

對于元融合真值,利用預(yù)先訓(xùn)練好的CHR(Class-balanced Hierarchical Refinement)模型對每張圖像進行處理,得到所有層級金字塔特征的分類損失;元融合真值是一個獨熱向量,其維度與特征金字塔層數(shù)相同,1表示該層級特征產(chǎn)生的分類損失最小,否則為0。

3.3 算法訓(xùn)練階段劃分

本文算法訓(xùn)練分2個階段:

(1)區(qū)域定位階段:僅使用少部分實例級標(biāo)注數(shù)據(jù)訓(xùn)練注意力任務(wù),此時只更新主干網(wǎng)絡(luò)和注意力分支參數(shù),共訓(xùn)練350輪,初始學(xué)習(xí)率為1 e-5,每過100輪衰減10倍;

(2)類別辨識階段:在完成第一階段訓(xùn)練之后,繼續(xù)在大量圖像級標(biāo)注數(shù)據(jù)上對網(wǎng)絡(luò)模型進行訓(xùn)練,此過程將更新網(wǎng)絡(luò)所有參數(shù),共訓(xùn)練150輪,初始學(xué)習(xí) 率為5 e-2,每經(jīng)過30輪衰減10倍。

3.4 算法識別準(zhǔn)確率對比分析

選取被廣泛應(yīng)用的ResNet50和對應(yīng)特征金字塔架構(gòu)的Res50-FPN作為實驗比較的基準(zhǔn)方法,并與同樣基于特征金字塔架構(gòu)、且在SIXray數(shù)據(jù)集上表現(xiàn)最好的CHR方法進行對比;實驗結(jié)果采用均值平均精度(mAP, mean Average Precision)作為識別準(zhǔn)確率評價指標(biāo),實驗結(jié)果如表1所示。

表1 多標(biāo)簽分類算法識別準(zhǔn)確率對比

由表1可知,相較于基準(zhǔn)方法ResNet50、ResNet50-FPN和目前最優(yōu)的CHR方法,本文算法具有2個優(yōu)勢。

(1)提升識別準(zhǔn)確率

本文算法對所有具體類別違禁品的識別準(zhǔn)確率均取得最佳結(jié)果;其中,在SIXray數(shù)據(jù)集上準(zhǔn)確率平均提高2.82%,在OPIXray數(shù)據(jù)集上準(zhǔn)確率平均提高3.10%。

(2)具有細(xì)粒度識別能力

在OPIXray數(shù)據(jù)集上,對形狀外觀極為相似的5種刀具的識別準(zhǔn)確率均有顯著提升;其中,直刃刀的識別率提高7.95%,表明本文算法可以較為準(zhǔn)確地辨識違禁品的細(xì)微差異,對X光安檢圖像影像混疊具備一定的抗干擾能力。

3.5 算法有效性分析

3.5.1 注意力機制的有效性

表2是針對本文算法中圖像注意力機制額消融實驗結(jié)果。

表2 圖像注意力機制對算法準(zhǔn)確率的影響

可以看出,無論是否使用元融合機制,注意力機制總能帶來算法準(zhǔn)確率提升,說明注意力在處理X 光安檢圖像的影像混疊現(xiàn)象發(fā)揮了作用,表明區(qū)域定位可以有效提高算法在影像混疊場景下的物品辨識能力,聚焦于前景有助于算法學(xué)習(xí)細(xì)粒度物品的可辨識特征;注意力掩膜預(yù)測與掩膜真值的可視化對比的部分結(jié)果如圖8所示。

圖8 注意力掩膜預(yù)測與掩膜真值的可視化對比

以上對比表明:在存在復(fù)雜混疊的X光圖像背景下,基于低層視覺信息的圖像注意力機制有助于準(zhǔn)確定位違禁物品區(qū)域,為后續(xù)的類別辨識奠定基礎(chǔ)。

3.5.2 元融合策略的有效性

為了驗證元融合的有效性,對門控融合、直覺元融合 (MF-I) 和本文算法采用的神經(jīng)元融合(MF-N)3種策略進行消融實驗,在SIXray數(shù)據(jù)集和OPIXray數(shù)據(jù)集上的實驗結(jié)果如表3所示。

表3 不同融合策略的消融實驗結(jié)果

由表3可知:

(1)在3種融合策略中,神經(jīng)元融合的性能最好;

(2)相比于專家直覺給出的標(biāo)簽(即MF-I),由神經(jīng)網(wǎng)絡(luò)知識提供的標(biāo)簽(即MF-N)能夠更好地利用金字塔特征,從而獲得更好的泛化性能;

(3)MF-I在OPIXray數(shù)據(jù)集上的性能略有降低,原因可能是OPIXray數(shù)據(jù)集中違禁品的物理尺寸比SIXray數(shù)據(jù)集中的違禁品要小很多,由于先驗知識與實際情況不匹配,故造成性能下降。

4 結(jié)束語

針對行李X光安檢圖像固有屬性與特點,提出基于原始輸入圖像信息的注意力機制,用于定位關(guān)鍵物品區(qū)域、減輕影像混疊狀態(tài)下背景干擾,還能夠挖掘細(xì)粒度可辨識特征;針對傳統(tǒng)無監(jiān)督學(xué)習(xí)可能造成的權(quán)重偏置現(xiàn)象,提出基于外部神經(jīng)知識的動態(tài)元融合,對多層級特征的選擇融合進行優(yōu)化。實驗表明,本文提出的算法可有效避免物品圖像影像混疊干擾,通過對網(wǎng)絡(luò)多階段預(yù)測的自適應(yīng)融合,提升了對物品影像混疊和尺寸變化較大的行李安檢圖像的識別能力,有效提升了違禁品識別率。

在實際的行李安檢場景中,由于系統(tǒng)硬件資源與安檢人員精力均有限,可能無法應(yīng)對本文算法對外部模型依賴較強、訓(xùn)練流程相對繁瑣等問題,影響算法的應(yīng)用效果。因此,如何挖掘模型本身豐富的多尺度特征信息,解耦對外部模型的深度依賴,以及簡化模型訓(xùn)練與推理流程,將是下一階段的研究重點。

猜你喜歡
違禁品掩膜X光
利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
記憶X光機(下)
記憶X光機(上)
仿生武器大揭秘
基于Mask R-CNN的回環(huán)檢測算法
清溢光電:掩膜版產(chǎn)業(yè)國產(chǎn)化的領(lǐng)軍者
貪污罪的特殊對象研究
國內(nèi)首條G11光掩膜版項目在成都高新區(qū)啟動
X光眼鏡的神秘歷史
違禁品在這里