国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多模態(tài)對齊融合的車廂部件語義分割算法

2024-09-21 00:00:00趙梓云高曉蓉羅林
現(xiàn)代電子技術(shù) 2024年16期
關(guān)鍵詞:注意力機制螺栓管線

摘" 要: 車廂部件的定期情況監(jiān)測是列車安全運行的重要保證之一,基于深度學(xué)習(xí)的語義分割方法可以用于相關(guān)部件的位置形態(tài)確定,以便后續(xù)進行螺栓和管線是否松動或變形的檢查,但這對分割精度有較高的要求。另外,僅基于普通圖像的紋理特征難以應(yīng)對各種實際復(fù)雜場景,會出現(xiàn)分割不連續(xù)、邊緣輪廓不清晰的問題。為此,提出一種基于多模態(tài)數(shù)據(jù)對齊融合的語義分割算法,額外引入車廂深度圖來補充普通圖像中缺失的幾何特征信息,再將兩種模態(tài)的特征對齊后作為互補的特征融合學(xué)習(xí),最終達到準確分割部件的目的。通過車廂部件的RGBD語義分割數(shù)據(jù)集的建立,對所提算法在實際應(yīng)用場景下的效果進行驗證,得到97.2%的召回率以及87.4%的平均交并比。同時,所設(shè)計模型在NYUDV2數(shù)據(jù)集上達到了53.5%的平均交并比,與同類型算法相比處于先進水平。這些結(jié)果表明,所提算法在有挑戰(zhàn)性的車廂部件分割任務(wù)中,可以達到良好的分割效果,也具有較好的泛化性,有助于提升車廂部件檢測的自動化水平,減輕人工壓力。

關(guān)鍵詞: RGBD語義分割; 車廂部件; 多模態(tài)特征融合; 特征對齊; 螺栓; 管線; 注意力機制

中圖分類號: TN911.73?34; TP391" " " " " " " " " " 文獻標識碼: A" " " " " " " " "文章編號: 1004?373X(2024)16?0150?07

Carriage component semantic segmentation algorithm based on multi?modal alignment fusion

ZHAO Ziyun, GAO Xiaorong, LUO Lin

(College of Physical Science and Technology, Southwest Jiaotong University, Chengdu 610031, China)

Abstract: Regular condition monitoring of carriage components is one of the important guarantees for the safe operation of trains. The semantic segmentation method based on deep learning can be used to determine the position and shape of relevant components so as to check whether bolts and pipelines are loose or deformed, which has higher requirements for segmentation accuracy. However, it is difficult to cope with various practical and complex scenes based on the texture features of ordinary images, and the problem of discontinuous segmentation and unclear edge contours will occur. Therefore, a semantic segmentation algorithm based on multi?modal data alignment fusion is proposed, and the depth map of the carriage is introduced to supplement the missing geometric feature information in the ordinary image. The features of the two modes are aligned and used as complementary feature fusion learning to realize the accurate component segmentation. By establishing the RGBD semantic segmentation data set of compartment components, the effect of the proposed algorithm in practical application scenarios is verified, and the recall rate of 97.2% and the average crossover ratio of 87.4% are obtained. The proposed model achieves an average crossover ratio of 53.5% on the NYUDV2 dataset, which is at an advanced level compared with similar algorithms. These results show that the proposed algorithm can realize the good segmentation effect in challenging compartment component segmentation tasks, and has good generalization, which is helpful to improve the automation level of compartment component detection and reduce manual pressure.

Keywords: RGBD semantic segmentation; carriage component; multi?modal feature fusion; feature alignment; bolt; pipeline; attention mechanism

0" 引" 言

隨著我國在交通領(lǐng)域基礎(chǔ)設(shè)施建設(shè)方面的不斷投入,截至2023年底,鐵路營業(yè)里程已經(jīng)達到15.9萬km。鐵路交通運輸承載著提升人們生活便利度以及促進社會經(jīng)濟發(fā)展的使命,所以鐵路運輸安全必須予以重視。車廂關(guān)鍵位置的部件狀態(tài)對于列車是否能夠平穩(wěn)安全運行起著至關(guān)重要的作用,然而這些位置的螺栓和管線數(shù)量非常多,人工檢查的方式效率低且容易出現(xiàn)疏漏,越來越不能適用于當前鐵路事業(yè)的不斷發(fā)展。故隨著深度學(xué)習(xí)的興起,基于計算機視覺的檢測手段逐漸開始應(yīng)用于鐵路相關(guān)領(lǐng)域[1]。

RGB圖像具有紅、綠、藍三個通道,是生活中最為常見的圖像,但是僅基于RGB圖像的語義分割算法由于光照不均勻、部件交錯遮擋等原因,分割效果并不穩(wěn)定,所以引入包含互補特征的深度圖像是有必要的。RGB圖像主要包含紋理信息,而深度圖像則包含幾何信息,兩者具有較大差異性,因而RGB圖像和深度圖像的特征信息融合是兩種不同模態(tài)之間的特征融合。早期的多模態(tài)融合網(wǎng)絡(luò)特征結(jié)合方式簡單,例如C. Hazirbas等人提出的FuseNet,該結(jié)構(gòu)利用兩個獨立的卷積神經(jīng)網(wǎng)絡(luò)分別提取模態(tài)特征,然后直接進行特征拼接[2]。這種多分支融合的模型成為了RGBD語義分割網(wǎng)絡(luò)的主流結(jié)構(gòu)。為了更好地利用深度圖像的特征,Xing Y等人提出了可塑的2.5D卷積對不同深度范圍的像素進行針對性學(xué)習(xí)[3]。Jiao J等人提出通過幾何感知嵌入的方式對深度信息進行推斷[4]。這些方法為RGBD語義分割提供了新思路。目前大多數(shù)模型為了使特征提取階段獲得幾何信息指導(dǎo),傾向于以多階段的形式將深度分支特征傳播到RGB分支進行融合[5]。

然而以上方法沒有考慮到實際情況中深度圖像質(zhì)量欠佳且存在噪聲的問題。深度圖像和RGB圖像可能是由不同的鏡頭拍攝的,雖然通常會進行圖像配準[6],但錯位仍然不可避免,神經(jīng)網(wǎng)絡(luò)在兩個不相關(guān)的模態(tài)中無法建立足夠的聯(lián)系。針對上述問題,本文提出了一種基于對齊融合的多模態(tài)語義分割算法。該算法利用改進的注意力機制來減少深度數(shù)據(jù)所包含的噪聲影響,通過對齊模塊調(diào)整兩種模態(tài)的特征進行對準后再融合,從而適應(yīng)實際情況,改善分割效果。

1" 基本原理

1.1" 語義分割模型框架

語義分割網(wǎng)絡(luò)總體結(jié)構(gòu)如圖1所示。本文語義分割網(wǎng)絡(luò)模型由編碼器和解碼器組成,編碼器采用三個ResNet50作為獨立分支[7],分別用于提取輸入的RGB圖像特征、深度圖像特征以及處理后的融合特征;解碼器用于完成分割預(yù)測,連續(xù)對特征進行上采樣處理,恢復(fù)圖像分辨率,產(chǎn)生精細的分割結(jié)果。

為進一步提高網(wǎng)絡(luò)模型性能,本文引入注意力機制和對齊融合模塊。具體做法是:在RGB圖像和深度圖像經(jīng)過初步卷積后,將這兩個特征送入如圖2所示的AAF模塊,借鑒光流對齊思想[8],通過定義的空間網(wǎng)格確定扭曲操作所需坐標,解決像素偏移和模態(tài)差異的問題,提高模型的精度和穩(wěn)定性。這里扭曲對齊的RGB特征會替換為RGB分支的后續(xù)特征。RGB分支和深度分支特征經(jīng)過AAF模塊處理后,也作為融合分支上的初始特征輸入到下一層繼續(xù)進行特征提?。煌瑫r這兩個分支在前三層(Layer1~Layer3)均將提取到的階段特征送入AA注意力模塊中,這樣融合分支就可以在各個階段獲得優(yōu)化后,攜帶更多有效信息的特征指導(dǎo);在最后一部分網(wǎng)絡(luò)(Layer4),兩類特征再次利用AAF模塊進一步去噪以及對準,三分支相加得到的最終融合特征具有豐富的語義信息。此外,三分支架構(gòu)能夠更好地利用深度信息和RGB信息的互補性,在有效組合RGBD特征的同時保留原始數(shù)據(jù)信息,很好地避免了特征過遲或過早融合的情況。

1.2" AA注意力模塊

注意力機制在計算機視覺領(lǐng)域可以幫助模型更多地關(guān)注目標信息??紤]到在車廂部件語義分割任務(wù)中RGB圖像的背景比較復(fù)雜,且深度圖像存在一定程度的噪聲影響,因此本文使用AA注意力模塊來解決此問題,該模塊的結(jié)構(gòu)如圖3所示。AA注意力模塊首先對輸入特征均分,然后對每一組特征沿同一維度再次均分,將得到的大小為[C×H×W2N]的特征在A1分支中進行Squeeze操作,對特征的通道維度全局平均池化從而獲得向量Z。Conv代表卷積操作,它代替多層全連接神經(jīng)網(wǎng)絡(luò)得到對應(yīng)的注意力權(quán)重,通過權(quán)重對上一步的向量Z進行處理,獲得通道權(quán)重值S。本文參考了ECANet[9]中將全連接層替換為1×1卷積的操作,進行了輕量化處理。FScale代表Scale操作,是對輸入特征進行按通道維度的加權(quán),可以將注意力權(quán)重應(yīng)用到輸入特征中。作為A1分支的互補分支,A2分支更加關(guān)注空間信息,因此使用GN操作進行歸一化,然后經(jīng)過一個全連接層增強,后續(xù)的操作與A1分支基本一致。

將A1和A2分支處理后的特征拼接,最后各組特征進行通道混洗融合可得到優(yōu)化特征。通過該注意力機制,模型可以同時考慮到空間和通道維度上的信息,從而更全面地理解輸入數(shù)據(jù),提高模型抵抗噪聲的能力。

1.3" 對齊融合模塊

錯位問題需要深度圖像和彩色圖像之間的特征對齊,這是一個將不同模態(tài)數(shù)據(jù)轉(zhuǎn)換為一個唯一坐標系的過程。光流對齊是一種廣泛使用的圖像配準方法,用于描述由相對于觀察者的運動引起的觀察目標、表面或邊緣的運動。近年來,光流在計算機視覺相關(guān)任務(wù)中的應(yīng)用越來越廣泛,光流的概念也擴展到了語義分割中的語義流。不同在于僅依賴RGB圖像的語義分割算法中只調(diào)整單模態(tài)的特征,而本文將特征對齊拓展到了RGBD語義分割網(wǎng)絡(luò),可以在一定程度上解決圖像以及后續(xù)特征不對齊的問題。

如圖4所示,對于給定的RGB和Depth特征,首先經(jīng)過一個1×1的卷積層將其通道數(shù)統(tǒng)一,然后把兩個特征圖拼接到一起,再經(jīng)過一個3×3的卷積提取流特征[Mflow],過程參考可變形卷積中offsets的獲取[10]。[Mflow]具有兩個通道,分別表示特征在坐標軸x方向和y方向上的偏移,公式如下:

[Mflow=Conv(RGB⊙Depth)," Mflow∈RW×H×2] (1)

式中“⊙”代表拼接操作。

此時就可以通過Warp操作對齊兩種特征圖,具體來說,首先定義[Ω]∈[RW×H×2]的空間網(wǎng)格,假設(shè)u、v分別是空間網(wǎng)格在水平和垂直方向上的整數(shù)坐標,將坐標根據(jù)輸入特征圖大小尺寸進行歸一化處理。這里把坐標u、v歸一化到[-1,1],處理后的坐標作為空間網(wǎng)格該位置的數(shù)值。對應(yīng)關(guān)系如式(2)所示。

[Ωu,v=2u-W+1W-1,2v-H+1H-1] (2)

然后把得到的流特征偏移和定義的空間網(wǎng)格[Ω]相結(jié)合,可以得到新的空間網(wǎng)格[γ]。由于添加了流場偏移,[γ]中每個點的值均表示最終特征坐標位置。根據(jù)[γ]中坐標對應(yīng)的值,最終可以生成扭曲對齊后的輸出特征圖,公式為:

[RGBwarped=Warp(RGB,γ)] (3)

不同模態(tài)的不對準可能導(dǎo)致特征在融合過程中發(fā)生不準確的特征轉(zhuǎn)移,并使融合的有效性大大降低。通過將對齊融合模塊集成到該模型中,減少了不同模態(tài)之間的不對齊問題,并避免了特征不均勻[11]。后續(xù)兩種模態(tài)的特征可能會因為卷積、下采樣和殘差連接等操作導(dǎo)致差異擴大,對齊融合模塊將按照式(1)~式(3)方法再次校準特征,以便它們可以較好地對齊。

2" 實" 驗

2.1" 實驗環(huán)境

本文所采用的實驗平臺信息如表1所示。

2.2" 數(shù)據(jù)集介紹

為了驗證所提模型實際效果,制作了有關(guān)列車車廂部件的數(shù)據(jù)集,首先使用RGBD相機獲得了分辨率為1 944×1 200的RGB圖像和深度圖像;得到兩種數(shù)據(jù)后,使用Labelme對RGB圖像進行標注。該數(shù)據(jù)集共包含兩大類,分別是螺栓和管線,螺栓又根據(jù)形態(tài)進一步細分。自制數(shù)據(jù)集示例如圖5所示。

在該研究中,確定螺栓位置、形態(tài)是為下一步松動檢測做準備,確定管線位置是為了監(jiān)測管線健康情況。圖5最后一列圖像是真值標簽的圖像可視化示例,框選部分分別為一類螺栓、二類螺栓、管線,黑色區(qū)域代表其他物體。

自制數(shù)據(jù)集包含2 003張已經(jīng)標注的RGB圖像和深度圖像,其中1 500張用來訓(xùn)練,503張用于測試,所有圖像均按照PNG格式保存。在拍攝時希望數(shù)據(jù)集里的圖像盡可能還原真實現(xiàn)場,所以在不同角度和光照條件下進行采集。圖5車廂部件數(shù)據(jù)集的部分示例,從左至右依次為RGB圖像、深度圖以及標簽。

實驗所用的公共數(shù)據(jù)集[12]為NYUDV2,該數(shù)據(jù)集包含40個小類別,由微軟Kinect[13]的RGB和深度攝像機記錄的各種室內(nèi)場景的視頻序列組成,有1 449張標注的 RGB圖像和深度圖像,407 024張沒有標注的圖像,且每個對象都對應(yīng)一個類和一個實例號。實驗所用數(shù)據(jù)集概況如表2所示。

2.3" 結(jié)果分析與討論

在實驗環(huán)境保持一致的情況下,分別在公共數(shù)據(jù)集以及車廂部件數(shù)據(jù)集上對本文提出的方法和現(xiàn)有其他語義分割方法進行了比較。不同方法比較結(jié)果如表3所示。

由表3可以看出,本文所提網(wǎng)絡(luò)在NYUDV2數(shù)據(jù)集上的指標優(yōu)于大部分RGBD語義分割模型,其中使用多分支ResNet152作為主干特征提取網(wǎng)絡(luò)的模型,例如CEN,MPA值與本文模型相近,但是本文模型采用ResNet50作為主干特征提取網(wǎng)絡(luò),模型參量更少、運行速度更快。

圖6從左至右分別是3種不同模型在臥室、廚房、衛(wèi)生間環(huán)境下的分割對比圖,模型從下至上分別為RDFNet?50、CEN和本文模型。從這三處較有代表性的場所分割圖來看,簡單的融合確實無法充分利用深度圖所攜帶的幾何信息,這導(dǎo)致了分割的混亂,分割效果甚至有可能低于部分僅基于RGB圖像的語義分割模型。本文網(wǎng)絡(luò)提高了深度特征以及RGB特征質(zhì)量,分割混亂的情況消失,被正確分類的類別增加,圖6中櫥柜、馬桶、床鋪表面的分割細節(jié)有明顯改善,臥室中相框的邊緣分割更加流暢精細。

為了驗證模型在實際應(yīng)用環(huán)境中的表現(xiàn),在車廂部件數(shù)據(jù)集上進行了相關(guān)實驗,并與其他RGBD語義分割方法進行比較,結(jié)果如表4所示。由表4可知,本文方法在各項指標上均取得了最好的成績。

圖7展示了不同場景下各模型的分割效果,第1列到第4列分別為CANet、WTNet、去除對齊模塊的本文模型(AANet)以及本文模型的分割可視化圖像。可以看出,在車廂部件數(shù)據(jù)集中,本文方法對于實際環(huán)境里的螺栓管線分割效果良好,分類正確率高,檢測到的螺栓數(shù)量更多,邊緣細節(jié)也優(yōu)于其他方法,分割結(jié)果更加貼合真值。本文模型在該數(shù)據(jù)集上的指標,如mIoU、MPA以及召回率均明顯高于主流模型。上述結(jié)果證明了本文方法在實際任務(wù)中的有效性。

以深度數(shù)據(jù)的有無為變量,在車廂部件數(shù)據(jù)集上進行實驗,證明深度分支的作用,得到的結(jié)果如表5所示。表中RGB+RGB表示將深度分支輸入換成相同的RGB圖像后模型不做其他改動的分割結(jié)果。通過實驗可知,包含深度數(shù)據(jù)的實驗組別各項指標均為最高。具體分割結(jié)果比較可視化示例如圖8所示,當光線較好時,兩種方法只在邊緣細節(jié)上有少許差異;當光線較暗時,RGB+RGB的方法出現(xiàn)了分割不連續(xù)的錯誤情況,而本文方法取得了良好的分割效果,這是因為深度圖像提供了額外的幾何信息。

3" 結(jié)" 語

針對車廂部件中大量螺栓和管線難以實現(xiàn)高效率人工檢測,且單純基于RGB圖像的深度學(xué)習(xí)算法無法適應(yīng)實際任務(wù)環(huán)境的問題,本文提出了一種基于多模態(tài)數(shù)據(jù)對齊融合的語義分割算法。該算法三分支的結(jié)構(gòu)可以保留原始的RGB以及深度特征,更好地指導(dǎo)后續(xù)的特征融合,提高模型的性能。引入的AAF模塊包括注意力機制以及對齊融合模塊,可以提高相關(guān)特征質(zhì)量并緩解不同模態(tài)間的特征差異,增強特征對齊融合效果,實現(xiàn)更加精細的分割。

本文模型在NYUDV2數(shù)據(jù)集上,mIoU達到53.5%;在自制車廂部件數(shù)據(jù)集上,可以達到87.4%的mIoU以及97.2%的召回率;在實際環(huán)境尤其是較暗的環(huán)境中,該模型也可以獲得良好的分割細節(jié)。

綜上所述,本文模型在有挑戰(zhàn)性的實際分割任務(wù)中具有優(yōu)秀的分割效果和較好的泛化性,能夠滿足工業(yè)場景下的應(yīng)用任務(wù)要求,有助于提升車廂部件檢測的自動化水平,保障列車安全運行。

參考文獻

[1] 趙冰.基于深度學(xué)習(xí)的鐵路圖像智能分析關(guān)鍵技術(shù)研究與應(yīng)用[D].北京:中國鐵道科學(xué)研究院,2020.

[2] HAZIRBAS C, MA L, DOMOKOS C, et al. Fusenet: incorpo?rating depth into semantic segmentation via fusion?based CNN architecture [C]// Computer Vision?ACCV 2016: 13th Asian Conference on Computer Vision. [S.l.]: Springer, 2017: 213?228.

[3] XING Y, WANG J, ZENG G. Malleable 2.5D convolution: learn?ing receptive fields along the depth?axis for RGB?D scene parsing [C]// European Conference on Computer Vision. Cham: Springer, 2020: 555?571.

[4] JIAO J, WEI Y, JIE Z, et al. Geometry?aware distillation for indoor semantic segmentation [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, CA, USA: IEEE, 2019: 2869?2878.

[5] ZHANG H Y, SHENG V S, XI X F, et al. Overview of RGBD semantic segmentation based on deep learning [J]. Journal of ambient intelligence and humanized computing, 2023, 14(10): 13627?13645.

[6] DESHMUKH M, BHOSLE U. A survey of image registration [J]. International journal of image processing (IJIP), 2011, 5(3): 245.

[7] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 770?778.

[8] CHAN K C K, WANG X, YU K, et al. Understanding deform?able alignment in video super?resolution [EB/OL]. [2023?04?12]. https://www.xueshufan.com/publication/3085056143.

[9] WANG Q, WU B, ZHU P, et al. ECA?Net: efficient channel attention for deep convolutional neural networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, WA, USA: IEEE, 2020: 11534?11542.

[10] DAI J, QI H, XIONG Y, et al. Deformable convolutional net?works [C]// Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 764?773.

[11] LI X, YOU A, ZHU Z, et al. Semantic flow for fast and accurate scene parsing [C]// Computer Vision?ECCV 2020: 16th European Conference. Glasgow, UK: Springer, 2020: 775?793.

[12] SILBERMAN N, HOIEM D, KOHLI P, et al. Indoor segmen?tation and support inference from RGBD images [C]// Computer Vision?ECCV 2012: 12th European Conference on Computer Vision. Florence, Italy: Springer, 2012: 746?760.

[13] ZHANG Z. Microsoft kinect sensor and its effect [J]. IEEE multimedia, 2012, 19(2): 4?10.

[14] PARK S J, HONG K S, LEE S. RDFNet: RGB?D multi?level residual feature fusion for indoor semantic segmentation [C]// IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 4980?4989.

[15] ZHOU H, QI L, HUANG H, et al. CANet: coattention network for RGB?D semantic segmentation [J]. Pattern recognition, 2022, 124: 108468.

[16] WANG Y, HUANG W, SUN F, et al. Deep multimodal fusion by channel exchanging [J]. Advances in neural information processing systems, 2020, 33: 4835?4845.

[17] CHEN S, XIANG Z, QIAO C, et al. SGNet: semantics guided deep stereo matching [C]// Proceedings of the Asian Conference on Computer Vision. [S.l.]: Springer, 2020: 106?122.

[18] FAN R, LIU Y, JIANG S, et al. RGB?D indoor semantic segmentation network based on wavelet transform [J]. Evolving systems, 2023, 14(6): 981?991.

猜你喜歡
注意力機制螺栓管線
M16吊耳螺栓斷裂失效分析
預(yù)緊力衰減對摩擦型高強螺栓群承載力的影響
四川建筑(2020年1期)2020-07-21 07:26:08
基于深度學(xué)習(xí)的問題回答技術(shù)研究
螺栓緊固雜談
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
基于注意力機制的雙向LSTM模型在中文商品評論情感分類中的研究
軟件工程(2017年11期)2018-01-05 08:06:09
InsunKBQA:一個基于知識庫的問答系統(tǒng)
夾套管線預(yù)制安裝
淺談通信管線工程建設(shè)
電子制作(2017年10期)2017-04-18 07:23:00
淺談通信管線工程建設(shè)
電子制作(2017年9期)2017-04-17 03:01:06
神农架林区| 上饶市| 和平区| 土默特右旗| 昌乐县| 敦化市| 怀柔区| 留坝县| 崇阳县| 栖霞市| 宾川县| 崇文区| 嘉兴市| 天长市| 南岸区| 循化| 藁城市| 儋州市| 赤城县| 松江区| 吴旗县| 云安县| 梁山县| 高密市| 东城区| 若尔盖县| 泸州市| 定陶县| 杭锦旗| 云林县| 重庆市| 昌平区| 漳平市| 榆林市| 天峻县| 茶陵县| 成安县| 浦江县| 虞城县| 京山县| 靖安县|