国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多戰(zhàn)場環(huán)境軍事人員圖像分割技術(shù)應(yīng)用研究

2021-11-03 09:17陶志文周旗開
醫(yī)療衛(wèi)生裝備 2021年10期
關(guān)鍵詞:空洞卷積神經(jīng)網(wǎng)絡(luò)

陶志文,張 偉,周旗開,牛 福

(軍事科學(xué)院系統(tǒng)工程研究院,北京 100166)

0 引言

人工智能技術(shù)在軍隊的信息化建設(shè)中具有廣闊的應(yīng)用前景[1]。運用半自動化搜救裝備(如機器人、無人機等)進(jìn)行軍事人員搜救是邁向信息化搜救過程中的重要任務(wù)之一,而地面軍事人員圖像的高精度和快速分割是進(jìn)行地面軍事人員搜救的重要先導(dǎo)任務(wù)之一。圖像分割涉及到將圖像分割為多個部分或者對象,它是由圖像處理到圖像分析的非常關(guān)鍵的步驟,實現(xiàn)軍事人員的高精度圖像分割對進(jìn)一步進(jìn)行具體軍事人員目標(biāo)識別和進(jìn)行圖像分析、圖像內(nèi)容理解等工作具有重要意義。

國內(nèi)對多種戰(zhàn)場環(huán)境下軍事人員圖像分割的研究很少,目前已知的相關(guān)公開研究只有陸軍工程大學(xué)梁新宇等[2]構(gòu)建的迷彩偽裝目標(biāo)圖像語義分割數(shù)據(jù)集,但其并未針對戰(zhàn)場環(huán)境的特點進(jìn)行圖像分割算法改進(jìn)。在多戰(zhàn)場環(huán)境(如叢林、山地或城市廢墟等)中進(jìn)行軍事人員圖像分割的難點主要在于:(1)戰(zhàn)場中軍事人員目標(biāo)往往較小,圖像中目標(biāo)像素比例較小,小目標(biāo)特征提取困難,神經(jīng)網(wǎng)絡(luò)訓(xùn)練較為困難;(2)在戰(zhàn)場環(huán)境中身著迷彩服的軍事人員與環(huán)境相似度非常高,軍事人員與背景環(huán)境難以區(qū)分,難以提取到辨識性較強的特征。經(jīng)典的圖像分割神經(jīng)網(wǎng)絡(luò)對小目標(biāo)的分割效果較差,且對身著迷彩服的軍事人員與環(huán)境背景的區(qū)分不明顯。因此,為了解決上述難點問題并改善相關(guān)研究的匱乏狀態(tài),有必要針對以上難點對算法進(jìn)行改進(jìn)。

本研究以U-Net 為主干神經(jīng)網(wǎng)絡(luò),基于空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP)模塊和雙特征交叉融合(dual feature cross fusion,DFCF)模塊提出了編碼-解碼神經(jīng)網(wǎng)絡(luò)模型ASPP-DFCFU-Net(以下簡稱“AD-U-Net”)來進(jìn)行軍事人員圖像分割。

1 基于ASPP 模塊和DFCF 模塊的AD-U-Net

1.1 神經(jīng)網(wǎng)絡(luò)模型

為了處理多戰(zhàn)場環(huán)境中軍事人員圖像分割的難點,分別從2 個方面出發(fā):一方面利用改進(jìn)后的空洞卷積增強對較小目標(biāo)特征的提取能力,擴大神經(jīng)網(wǎng)絡(luò)的感受野,融合不同空洞率提取的特征圖,提升對較小目標(biāo)的分割效果;另一方面利用通道注意力機制,交叉融合整體語義特征(global semantic feature,GSF)和局部語義特征(local semantic feature,LSF),整合不同級別的重要特征,增強神經(jīng)網(wǎng)絡(luò)對軍事人員和環(huán)境背景的區(qū)分能力。提出的編碼-解碼神經(jīng)網(wǎng)絡(luò)模型AD-U-Net 結(jié)構(gòu)如圖1 所示。

圖1 AD-U-Net 結(jié)構(gòu)圖

1.2 ASPP 模塊

在U-Net 編碼結(jié)構(gòu)后加入了ASPP 模塊,針對戰(zhàn)場環(huán)境中小目標(biāo)較多的特點對ASPP 模塊做出了改進(jìn),增強了神經(jīng)網(wǎng)絡(luò)提取戰(zhàn)場環(huán)境中小目標(biāo)特征的能力,利用不同空洞率的空洞卷積融合多尺度信息,增強特征的表達(dá)能力。改進(jìn)的ASPP 模塊如圖2 所示。ASPP 模塊的結(jié)構(gòu)思想是Chen 等[3]在DeepLab 系列網(wǎng)絡(luò)中提出的,目前DeepLabv3+神經(jīng)網(wǎng)絡(luò)在很多數(shù)據(jù)集上是該系列神經(jīng)網(wǎng)絡(luò)中效果較為突出的。ASPP 模塊在提取圖像的多尺度特征上具有良好的效果。DeepLabv3+神經(jīng)網(wǎng)絡(luò)ASPP 模塊中原先的卷積核空洞率分別為6、12、18。ASPP 模塊卷積核的空洞率越小,越利于分割較小的目標(biāo);ASPP 卷積核的空洞率越大,越利于分割較大的目標(biāo)。由于在叢林、城市廢墟、山地等場景中軍事人員目標(biāo)往往較小,較大目標(biāo)雖然存在但數(shù)量相比小目標(biāo)較少,因此將AD-U-Net 中ASPP 模塊的空洞率設(shè)計為2、4、6、8。改進(jìn)的ASPP 模塊由1 個1×1 卷積、1 個空洞率為2的3×3 卷積、1 個空洞率為4 的3×3 卷積、1 個空洞率為6 的3×3 卷積、1 個空洞率為8 的3×3 卷積和1個全局平均池化組成。采用空洞率為2、4、6、8 的卷積核,使神經(jīng)網(wǎng)絡(luò)增加了分割較小目標(biāo)的能力,增強了產(chǎn)生的特征的表達(dá)能力,提高了對多環(huán)境迷彩分割數(shù)據(jù)集(Multi Environment Camouflage Dataset,MECD)中軍事人員的分割效果。

圖2 改進(jìn)的ASPP 模塊

1.3 DFCF 模塊

由于在野外身著迷彩服的軍事人員與背景環(huán)境非常相似,區(qū)分度非常低,模型難以提取到高辨識性的特征,對軍事人員和環(huán)境背景的邊界辨識不明顯,對MECD 的圖像中軍事人員的分割效果較差。針對此問題,受Zhang 等[4]提出的重要性感知特征選擇(importance-aware feature selection,IAFS)模塊的思想啟發(fā),并結(jié)合通道注意機制——壓縮-激勵模塊(squeeze-and-excitation block,SE Block)[5],提出了DFCF 模塊。DFCF 模塊利用了通道注意力機制,交叉融合了LSF 和GSF,通過對卷積特征通道之間的相互依賴性進(jìn)行顯式的建模來提高網(wǎng)絡(luò)的表示能力,整合了不同層級的重要特征,使得有效的特征權(quán)重更大,無效或效果小的特征權(quán)重更小,提高了神經(jīng)網(wǎng)絡(luò)對軍事人員和背景的區(qū)分能力,改善了軍事人員與環(huán)境背景邊界區(qū)域的分割效果。

DFCF 模塊結(jié)構(gòu)圖如圖3 所示。LSF 相比GSF 更加側(cè)重于表達(dá)目標(biāo)輪廓的細(xì)節(jié)等局部特征信息,GSF則更側(cè)重于表達(dá)目標(biāo)的整體特征信息。DFCF 模塊通過交叉融合GSF 和LSF,將得到的2 個特征向量以矩陣逐元素相加的形式融合至對方的原始輸出特征圖,提高神經(jīng)網(wǎng)絡(luò)提取高辨識性特征的能力。

圖3 DFCF 模塊結(jié)構(gòu)圖

DFCF 模塊的計算過程如下:以LSF 為例[假設(shè)輸入為H×W×C(高×寬×通道數(shù))],首先經(jīng)過全局平均池化模塊,輸出變?yōu)?×1×C,再經(jīng)過全連接模塊、ReLU 激活函數(shù)和全連接模塊,最后經(jīng)過Sigmoid 函數(shù)處理后分別得到LSF 經(jīng)過計算后的語義權(quán)重和GSF 經(jīng)過計算后的語義權(quán)重,再經(jīng)過通道乘法的方式與對方的特征圖相乘,最后將得到的特征圖以矩陣逐元素相加的方式處理,得到輸出。

DFCF 模塊的優(yōu)勢如下:如果GSF 和LSF 的某個通道的權(quán)重都較大,則認(rèn)為GSF 和LSF 在該通道的語義匹配,該通道的語義特征信息就會被增強。如果GSF 和LSF 在某個通道的語義不匹配(即GSF 較大、LSF 較小或GSF 較小、LSF 較大),則該通道的語義特征信息就會被阻抑。

1.4 損失函數(shù)

選擇合適的損失函數(shù)對提升模型的分割性能是非常重要的。在MECD 中樣本并不均衡,圖像中的軍事人員像素所占比例較小、背景像素比例較大,即MECD 存在正樣本占整個圖像比例較低的樣本不均衡問題。使用二分類交叉熵?fù)p失函數(shù)來優(yōu)化模型時,在樣本不均衡的情況下訓(xùn)練時損失函數(shù)會偏向樣本多的一方,導(dǎo)致訓(xùn)練時損失函數(shù)很小,對樣本較小的目標(biāo)(圖像中的軍事人員)分割精度不高,訓(xùn)練出的模型魯棒性不佳,算法容易趨向于更好地識別背景。二分類交叉熵?fù)p失函數(shù)公式如下:

式中,y 表示實際標(biāo)簽值;y^表示模型預(yù)測結(jié)果。

Dice 損失函數(shù)可衡量圖像中不同類別樣本的整體像素分類準(zhǔn)確率,可以緩解數(shù)據(jù)集中樣本不平衡的問題,但Dice 損失函數(shù)在訓(xùn)練過程中可能會產(chǎn)生梯度震蕩,不如二分類交叉熵?fù)p失函數(shù)穩(wěn)定。Dice 損失函數(shù)公式如下:

為提高模型對軍事人員的分割效果、降低數(shù)據(jù)集樣本不均衡的問題,同時使訓(xùn)練過程變得更加穩(wěn)定,減少出現(xiàn)梯度震蕩的可能性,考慮采用混合Dice損失函數(shù)與二分類交叉熵?fù)p失函數(shù)的損失函數(shù)L,其公式如下:

2 數(shù)據(jù)集及評價指標(biāo)

2.1 數(shù)據(jù)集

使用已建立的MECD,該數(shù)據(jù)集含有多種角度、多種場景的身著迷彩服及槍支、背包等裝備并化有迷彩妝的軍事人員的圖像,圖像的背景豐富、人員姿態(tài)眾多、迷彩類型多樣(含有不同類型的迷彩服共14種)、環(huán)境種類豐富(包括雨林、叢林、山地、荒漠、城市廢墟、雪地6 種環(huán)境)。該數(shù)據(jù)集中軍事人員與環(huán)境背景相似度非常高。圖4 展示了MECD 包含的部分場景示例圖,從圖中可看到,該數(shù)據(jù)集中軍事人員和環(huán)境背景的區(qū)分度非常低,且軍事人員像素占比較小。MECD 共包含高分辨力圖像1 600 張。為了提高訓(xùn)練效果、防止模型過擬合,在訓(xùn)練中將數(shù)據(jù)集及其標(biāo)注圖像通過水平翻轉(zhuǎn)、旋轉(zhuǎn)、縮放等方式進(jìn)行增強。按7∶1∶2 的比例將數(shù)據(jù)集隨機分為訓(xùn)練集、驗證集和測試集。

圖4 MECD 包含的6 種戰(zhàn)場環(huán)境示例圖像

2.2 評價指標(biāo)

為了對神經(jīng)網(wǎng)絡(luò)的分割性能進(jìn)行準(zhǔn)確、客觀的評價,常使用多種評價指標(biāo)來評估其性能,常用的評價指標(biāo)有:交并比(intersection over union,IoU)、平均交并比(mean intersection over union,mIoU)、召回率(R)、精確度(P)和F1分?jǐn)?shù)(F1),其計算公式分別如公式(4)~(8)。本研究使用mIoU、R、P 和F1來評估神經(jīng)網(wǎng)絡(luò)的性能。

3 實驗分析

實驗基于Ubuntu18.04 操作系統(tǒng),使用Pytorch 1.7框架,通過1 臺NVIDIA Tesla V100 顯卡進(jìn)行訓(xùn)練,顯存為31 GiB。Python 版本為3.8,CUDA 版本為11.0。模型訓(xùn)練的迭代次數(shù)設(shè)置為100,可根據(jù)模型的訓(xùn)練情況隨時手動調(diào)整。初始學(xué)習(xí)率為0.000 1,訓(xùn)練過程中動態(tài)調(diào)整學(xué)習(xí)率,采用Adam[6]優(yōu)化器進(jìn)行優(yōu)化。每經(jīng)過一輪訓(xùn)練,就在驗證集上對各評價指標(biāo)及訓(xùn)練損失進(jìn)行計算,并保存截止到當(dāng)前訓(xùn)練輪數(shù)的最優(yōu)神經(jīng)網(wǎng)絡(luò)參數(shù)。在神經(jīng)網(wǎng)絡(luò)訓(xùn)練完成之后,再用測試集對神經(jīng)網(wǎng)絡(luò)進(jìn)行測試。

為了驗證AD-U-Net 的有效性,利用U-Net[7]、SegNet[8]、FCN-8s[9]這3 種語義分割神經(jīng)網(wǎng)絡(luò)在MECD上進(jìn)行實驗,并與AD-U-Net 的結(jié)果進(jìn)行對比,詳見表1。

表1 AD-U-Net 與U-Net、SegNet、FCN-8s 的實驗結(jié)果對比

從表1 可以看出,AD-U-Net 在4 個評價指標(biāo)上均高于U-Net、SegNet 及FCN-8s,證明了AD-U-Net的有效性和優(yōu)越性。圖5 展示了U-Net、SegNet、FCN-8s、AD-U-Net 分割同時具有2 種分割難點的圖像的部分結(jié)果圖,從圖中可以看出,在圖像中軍事人員像素占比較小、軍事人員與環(huán)境區(qū)分度很低的情況下,AD-U-Net 的分割效果均優(yōu)于U-Net、SegNet 和FCN-8s。

圖5 4 種神經(jīng)網(wǎng)絡(luò)針對具有2 種分割難點圖像的部分分割結(jié)果圖

4 結(jié)語

本研究中改進(jìn)后的ASPP 模塊能針對數(shù)據(jù)集中分割目標(biāo)像素占比較小的情況增強對小目標(biāo)特征的提取能力,提升了針對小目標(biāo)的分割效果。提出的DFCF 模塊能夠利用不同類型特征的共同特點,交叉融合LSF 和GSF,改善了分割目標(biāo)與背景的邊界區(qū)域的分割效果?;诟倪M(jìn)的ASPP 模塊和DFCF模塊提出的AD-U-Net 在MECD 數(shù)據(jù)集上具有優(yōu)良的分割效果,分割多種戰(zhàn)場環(huán)境中的軍事人員圖像比U-Net、SegNet、FCN-8s 3 種神經(jīng)網(wǎng)絡(luò)效果更好,明顯改善了前文中提到的2 個圖像分割的難點問題。機器學(xué)習(xí)算法在搜救、醫(yī)療等領(lǐng)域的應(yīng)用越來越廣泛[10],若將所提出的AD-U-Net 應(yīng)用在多種戰(zhàn)場環(huán)境下進(jìn)行軍事人員搜救,可大大提高軍事人員的識別率、分割準(zhǔn)確率,提高搜救效率。做好圖像分割這一圖像處理研究中的關(guān)鍵一步意義重大,可以為進(jìn)一步的圖像分析、圖像內(nèi)容理解等工作做好鋪墊,為后續(xù)的研究和分析工作減少障礙、降低難度。

雖然AD-U-Net 的分割精度相比U-Net 等神經(jīng)網(wǎng)絡(luò)有所提升,但嵌入移動端進(jìn)行快速實時分割仍有難度,在未來的工作中,研究更加輕量化、高效的實時分割神經(jīng)網(wǎng)絡(luò)以滿足搜救裝備進(jìn)行快速實時軍事人員分割將是一個重要的研究方向。

猜你喜歡
空洞卷積神經(jīng)網(wǎng)絡(luò)
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測定
基于神經(jīng)網(wǎng)絡(luò)的船舶電力系統(tǒng)故障診斷方法
MIV-PSO-BP神經(jīng)網(wǎng)絡(luò)用戶熱負(fù)荷預(yù)測
番茄出現(xiàn)空洞果的原因及防治措施
基于改進(jìn)Hopfield神經(jīng)網(wǎng)絡(luò)的對地攻擊型無人機自主能力評價
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準(zhǔn)圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
一種并行不對稱空洞卷積模塊①
如何避免想象作文空洞無“精神”
基于神經(jīng)網(wǎng)絡(luò)的中小學(xué)生情感分析