国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于雙向特征融合的露天礦區(qū)道路障礙檢測

2023-05-22 03:52:56阮順領(lǐng)李少博顧清華
煤炭學(xué)報 2023年3期
關(guān)鍵詞:露天礦骨干卷積

阮順領(lǐng),李少博,顧清華,江 松,毛 晶

(1.西安建筑科技大學(xué) 資源工程學(xué)院,陜西 西安 710055;2.西安建筑科技大學(xué) 西安市智慧工業(yè)感知計算與決策重點實驗室,陜西 西安 710055;3.西安優(yōu)邁智慧礦山研究院有限公司,陜西 西安 710055)

露天礦區(qū)無人駕駛逐漸成熟并落地,環(huán)境感知作為礦卡車實現(xiàn)無人化的關(guān)鍵環(huán)節(jié)之一,對于露天礦無人駕駛的實現(xiàn)有著重要意義。然而露天礦區(qū)非結(jié)構(gòu)化道路相較于城市結(jié)構(gòu)化道路,除了常規(guī)的車輛、行人等行車障礙,還存在著一些難以檢測的困難樣本,如坑洼、尖銳碎石等,容易造成陷車或輪胎夾石。同時露天礦區(qū)環(huán)境復(fù)雜惡劣,這對障礙檢測算法可靠性提出了更高的要求,因此亟待對露天礦區(qū)道路障礙的高效、可靠檢測方法進行研究。

基于機器視覺的無人駕駛車輛障礙檢測可以分為傳統(tǒng)的圖像處理方法和深度學(xué)習(xí)方法?;诙S圖像處理的障礙檢測算法通常分為以下步驟:①
圖像增強,如直方圖均衡化法、同態(tài)濾波法,暗通道去霧算法等;②
圖像邊緣檢測,如張金波[1]針對灰度圖像邊緣檢測的特點,提出的快速邊緣檢測算法,FERNANDO等[2]提出的基于強度函數(shù)的數(shù)字圖像邊緣檢測方法;③
圖像分割,如聚類算法[3]、閾值分割算法[4]等,同時針對特定應(yīng)用場景,國內(nèi)外學(xué)者提出了基于弱標(biāo)注信息的語義分割方法[5]、交互式圖像分割方法[6]等。二維圖像處理技術(shù)容易受到各種不利因素的影響,尤其是在光照不足的非結(jié)構(gòu)化道路,因此一些學(xué)者提出了立體視覺的障礙物檢測方法,如STANTANA等[7],ZHANG等[8]。

隨著深度學(xué)習(xí)的發(fā)展,PRABHAKAR[9],SANIL[10]等使用卷積神經(jīng)網(wǎng)絡(luò)去解決無人駕駛車輛障礙檢測問題,獲得了更好的檢測精度和速度。基于深度學(xué)習(xí)的障礙檢測方法往往由以下3個結(jié)構(gòu)組成:① 用于提取圖像特征信息的骨干網(wǎng)絡(luò),如復(fù)雜骨干網(wǎng)絡(luò)VGG[11]、ResNet[12]、DenseNet[13]、EfficientNet[14],輕量型骨干網(wǎng)絡(luò)MobileNet[15]、ShuffleNet[16]、GhostNet[17]等;② 將不同尺寸特征圖進一步融合的特征金字塔模塊,如FPN[18]、PANet[19]、NAS-FPN[20]等;③ 對特征圖進行分類去預(yù)測的Head,如一階段算法的SSD[21]、YOLO[22]、RetinaNet[23]、FCOS[24],兩階段算法的Faster R-CNN[25]、R-FCN[26]、Mask R-CNN[27]等。針對非結(jié)構(gòu)化道路障礙檢測,蔡舒平等[28]提出了基于改進YOLOv4的障礙物實時檢測方法,通過對模型進行輕量化改進并使用了逆殘差方法,使得模型擁有較好的自適應(yīng)性和魯棒性。盧才武等[29]基于Mask R-CNN網(wǎng)絡(luò),提出了融合目標(biāo)檢測的露天礦行車障礙預(yù)警,達到了較好的檢測精確度和7.35 fps的檢測速度。然而其針對露天礦區(qū)障礙物檢測還不夠全面,雖然精度較高但缺少坑洞、尖銳碎石等困難樣本的檢測,同時檢測速度較慢難以滿足實時性要求。因此露天礦區(qū)道路障礙檢測模型需要在以下3個方面具備較好的能力:① 在光線和紋理復(fù)雜情況下,擁有高效的特征提取能力;② 對于坑洼等負向障礙,擁有良好的多尺度檢測性能;③ 對于行人和尖銳碎石等障礙,有著良好的小目標(biāo)檢測性能。

鑒于以上分析,針對露天礦區(qū)復(fù)雜環(huán)境下道路障礙物多尺度和小目標(biāo)特征,筆者提出一種基于深度學(xué)習(xí)的露天礦區(qū)道路障礙檢測模型。由于RepVGG網(wǎng)絡(luò)對復(fù)雜環(huán)境信息有著優(yōu)良的特征提取能力和高效的推理速度,比較適合于露天礦區(qū)道路障礙的檢測,但同時該網(wǎng)絡(luò)使用大量3×3卷積導(dǎo)致其感受野較小,對小目標(biāo)特征提取不充分[30],因此提出在特征提取階段采取優(yōu)化的RepVGG+骨干網(wǎng)絡(luò);并使用雙向特征融合金字塔模型進一步提升多尺度檢測性能;通過對損失函數(shù)和分類預(yù)測模塊進行優(yōu)化進一步提升模型的檢測精度和速度,為復(fù)雜環(huán)境下露天礦區(qū)無人礦卡提供高效的障礙檢測方法。

1 露天礦區(qū)障礙檢測模型

露天礦區(qū)非結(jié)構(gòu)化道路的背景信息復(fù)雜多變,各類障礙物尺寸跨度與特征差異較大,同時過于依賴自然光照條件。而在露天礦開采區(qū)道路多為臨時修建,道路信息經(jīng)常變換,這導(dǎo)致了露天礦區(qū)障礙檢測具有挑戰(zhàn)性,如圖1所示。

圖1 露天礦區(qū)障礙物及其特征Fig.1 Obstacles and their characteristics in open pit mines

RetinaNet[23]作為一階段檢測法,具有良好的實時性和檢測精度,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

圖2 RetinaNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 RetinaNet structure

RetinaNet使用了ResNet50作為特征提取網(wǎng)絡(luò),在FPN中P3、P4、P5使用ResNet50的Stage_2、Stage_3、Stage_4的輸出進行1×1卷積后歸一為通道數(shù)256的特征;P6是經(jīng)過Stage_4的輸出進行步長為2的3×3卷積而來;P7則是通過對P6使用ReLU激活函數(shù)后再進行步長為2的3×3卷積,用來增強大目標(biāo)的檢測。在網(wǎng)絡(luò)的預(yù)測分類的Head中,P3~P7每層的先驗框面積從322~5122像素依次遞增,先驗框的長寬比為[1∶2,1∶1,2∶1],size為[20,21/3,22/3],這樣每層的先驗框數(shù)量為9。雖然先驗框可以代表一定的框的位置信息與框的大小信息,但是其是有限的,無法表示任意情況,因此RetinaNet利用4次256通道的3×3卷積+ReLU和分類器的卷積結(jié)果對先驗框進行調(diào)整。

由于RetinaNet用了5個不同尺寸的特征進行分類回歸操作,使得網(wǎng)絡(luò)各個anchor之間過渡更加平滑,提升網(wǎng)絡(luò)的多尺度檢測性能。當(dāng)RetinaNet的輸入分辨率為600×600時,在分類預(yù)測層中最大特征尺寸僅為75×75,使得露天礦區(qū)的小目標(biāo)檢測性能較差,同時多尺度檢測性能和檢測速度有待進一步提升。

基于上述討論,為了解決露天礦區(qū)障礙物中小目標(biāo)和多尺度問題,在特征提取階段,提出了更加高效的RepVGG+作為骨干特征提取網(wǎng)絡(luò);在特征融合階段,使用基于SimAM空間與通道注意力和跨階段連接的雙向融合特征金字塔(Bidirectional Feature Pyramid Network,B-FPN);在分類預(yù)測階段,對Head結(jié)構(gòu)進行進一步優(yōu)化,降低特征冗余,并提高檢測性能,其結(jié)構(gòu)如圖3所示。

1.1 骨干特征提取網(wǎng)絡(luò)優(yōu)化

露天礦區(qū)障礙檢測需滿足無人礦卡環(huán)境感知的實時性需求,因此采用了RepVGG[30]作為骨干特征提取網(wǎng)絡(luò),保證模型的檢測速度與精度。

RepVGG的網(wǎng)絡(luò)結(jié)構(gòu)類似于ResNet,在VGG網(wǎng)絡(luò)的基礎(chǔ)上使用殘差結(jié)構(gòu)去解決深層網(wǎng)絡(luò)的梯度消失問題,同時大量使用1×1卷積和Identity殘差結(jié)構(gòu),使得網(wǎng)絡(luò)更加簡單高效。其訓(xùn)練和推理階段的基本卷積結(jié)構(gòu)如圖4所示。

RepVGG在模型推理階段首先將殘差塊中的卷積層和BN層進行融合,然后將具體不同卷積核的卷積均轉(zhuǎn)換為具有3×3大小的卷積核的卷積,最后合并殘差分支中的Conv3×3。將所有分支的權(quán)重W和偏置B疊加起來,獲得一個融合之后的Conv3×3網(wǎng)絡(luò)層。由于在模型推理階段僅僅由3×3卷積和Relu激活函數(shù)堆疊而來,拋棄了殘差結(jié)構(gòu),同時當(dāng)前大多數(shù)推理引擎對于3×3卷積有著特定的加速,相較于ResNet骨干網(wǎng)絡(luò),更加易于模型推理和加速。

圖4 RepVGG+結(jié)構(gòu)Fig.4 RepVGG+ structure

雖然RepVGG在圖片分類任務(wù)中取得了優(yōu)異的性能,但其在目標(biāo)檢測任務(wù)中還有待優(yōu)化。如圖4(d)所示,RepVGG_A2的Stage4中只進行了一次基本卷積操作,并使用了1 408個通道,更大的通道數(shù)對于多分類任務(wù)會獲得更好的性能。但是將RepVGG應(yīng)用于目標(biāo)檢測時,由于其Stage4的特征卷積次數(shù)過少,使得16×16尺寸的特征,難以得到更加高層的特征信息。因此,本文提出了更加適應(yīng)于目標(biāo)檢測任務(wù)的RepVGG+(圖3),對Stage4模塊進行2次基本卷積操作,同時將Stage4的通道數(shù)調(diào)整為768,降低參數(shù)量,保證檢測精度與速度的平衡。使用大尺寸的卷積核可以擴大網(wǎng)絡(luò)感受野顯著提高網(wǎng)絡(luò)性能,但越大的卷積核其計算速度越慢,因此本文提出在Stage4中使用金字塔池化結(jié)構(gòu)(Spatial Pyramid Pooling,SPP)[31],如圖3所示將RepVGG的Stage4_1特征層進行卷積降低通道數(shù)為384,然后進行13×13、9×9、5×5、1×1,4個不同尺度的最大池化操作,擴大感受野。將池化后的特征進行拼接,再次使用卷積批處理和激活操作使通道數(shù)還原為768。SPP通過使用大尺寸池化核增加神經(jīng)網(wǎng)絡(luò)的感受野并分離出顯著的上下文特征,提升檢測性能。

1.2 基于通道與空間注意力的雙向特征融合模塊

露天礦區(qū)障礙檢測模型的多尺度和小目標(biāo)檢測能力還有待進一步提升,提升小目標(biāo)檢測常用的方法是擴大特征尺寸,使得網(wǎng)絡(luò)在分類預(yù)測時可以獲得更多特征信息。但是通過擴大輸入分辨率會增加網(wǎng)絡(luò)每一層的特征尺寸,進一步增加模型參數(shù)量并帶來極大的計算開銷。當(dāng)輸入分辨率為512×512時骨干網(wǎng)絡(luò)的Stage1特征尺寸為128×128,包含了豐富的特征信息,因此本文將骨干特征網(wǎng)絡(luò)的Stage1的特征作為特征金字塔模塊P2層的輸入,并取消用于大目標(biāo)檢測的P7層。但是Stage1特征信息具有較多的噪聲,在分類過程難以直接被解析。因此本文提出B-FPN結(jié)構(gòu),進一步優(yōu)化網(wǎng)絡(luò)各層的特征信息使P2層使網(wǎng)絡(luò)可以獲得更加抽象高效的語義特征,同時提升多尺度檢測性能。其結(jié)構(gòu)如圖5所示。

圖5 基于SimAM通道與空間注意力和跨階段連接的雙向特征融合模塊Fig.5 Bidirectional feature fusion module based on SimAM channels with spatial attention and cross-stage connectivity

將骨干網(wǎng)絡(luò)的Stage1、Stage2、Stage3、Stage4_2的特征圖進行1×1卷積獲得通道數(shù)為96的P2、P3、P4、P5層,同時對Stage2的輸出使用步長為2的3×3卷積獲得特征尺寸為8×8的P6層用于檢測大目標(biāo)。在自下而上的融合過程中,P5層使用跨階段連接卷積(CSPnet)[32]后進行上采樣處理和SimAM注意力[33]進行特征增強,然后與P4的特征圖進行橫向連接,P3和P4層重復(fù)上述操作,使得每一層獲得了骨干網(wǎng)絡(luò)各層的特征信息,減少了P3層的噪聲信息。在P3層之后使用SSH[33]結(jié)構(gòu)進一步擴大特征圖感受野,提升微小目標(biāo)檢測能力。在自上而下的融合過程中,P3、P4、P5、P6層則與上一層下采樣之后的特征圖相加后進行CSP卷積處理,達到特征網(wǎng)絡(luò)雙向融合,增強多尺度檢測的目的。

網(wǎng)絡(luò)的基礎(chǔ)卷積模塊為卷積+批處理+LeakyReLU,相較于ReLU激活函數(shù),LeakyReLU當(dāng)x≤0時使用λ系數(shù)調(diào)節(jié)梯度,使得神經(jīng)元在取負值時也有微小梯度,可以有效改善神經(jīng)元死亡問題,2者的數(shù)學(xué)表達為

(1)

在特征融合模塊中使用跨階段連接結(jié)構(gòu)(CSPNet)[32]提升不同特征層在橫向連接后的特征信息。CSPNet的結(jié)構(gòu)如圖3所示,將輸入拆分為相同通道數(shù)的稠密分支與稀疏分支,稠密分支進行多次卷積后與系數(shù)分支進行拼接,還原輸入特征。CSPNet其原理是利用跨階段特征融合策略和截斷梯度流來增強不同層次特征的可變性,用于解決模型在訓(xùn)練中由于梯度冗余,而導(dǎo)致的特征提取效率低下以及模型推理速度較慢問題。

上采樣的過程中,采用nearest插值方法會損失一定的局部特征圖信息,為此引入了SimAM空間與通道注意力機制[33],挖掘通道間各個神經(jīng)元的重要特征。在計算機視覺中現(xiàn)有的注意力模塊集中在通道域或空間域,與人腦中基于特征的注意和基于空間的注意相對應(yīng)。然而,在人類中,這2種機制共存,共同促進視覺處理過程中的信息選擇。SimAM為每個神經(jīng)元定義了以下能量函數(shù):

(2)

其中,t和xi分別為輸入特征X∈C×H×W的目標(biāo)神經(jīng)元和其他神經(jīng)元;i為空間維度上的索引;M=H×W為在該通道上的神經(jīng)元個數(shù);ωt、bt為加權(quán)與偏置轉(zhuǎn)換。求解上述方程得到關(guān)于ωt和bt的快速封閉形式解:

(3)

(4)

其中,

式(4)表示能量越低,神經(jīng)元t與周圍神經(jīng)元的區(qū)別越大,重要性越高。因此,神經(jīng)元的重要性可以通過1/e*得到,最后使用sigmoid對特征進行增強處理:

(5)

為了進一步增強P2層特征,提升微小目標(biāo)檢測性能。在P2層進行特征融合之后,使用SSH[34]模塊處理,其結(jié)構(gòu)如圖6所示,通過引入5×5、7×7卷積核提高感受野,從而引入更多的上下文信息,同時為了減少大尺寸卷積核帶來的計算量提升,使用多個3×3卷積層進行拼接代替5×5、7×7卷積層。本文在3×3卷積模塊之后還加入了批處理層改善梯度消失問題,同時將激活函數(shù)由ReLU更換為LeakyReLU,優(yōu)化模型結(jié)構(gòu)如圖6所示。

圖6 SSH模塊,使用多個3×3卷積層進行拼 接代替5×5、7×7卷積層增強感受野Fig.6 SSH module,using multiple 3×3 convolutional layers for stitching instead of 5×5 and 7×7 convolutional layers to enhance the perceptual field

1.3 分類與邊界框預(yù)測分支優(yōu)化

露天礦區(qū)障礙檢測網(wǎng)絡(luò)的分類子網(wǎng)預(yù)測9個先驗框和K個類別在每個空間位置出現(xiàn)對象的概率,如圖7(a)所示,RetinaNet使用了4個3×3卷積層,每層都有256個過濾器,并在后面加入ReLU激活函數(shù),最后使用帶有K×9個過濾器的3×3卷積層后,使用Sigmoid激活函數(shù)預(yù)測每個空間位置的二進制輸出。邊界框回歸分支與分類子網(wǎng)并行,將每個先驗框的偏移量還原到真實對象。其設(shè)計與分類分支相似,對于每個先驗框使用tx、ty、tw、th四個變量輸出預(yù)測其與真實框之間的相對偏移量(其中,tx、ty為先驗框的中心點坐標(biāo)(x,y)的相對偏移量;tw、th為先驗框的寬高(w,h)的相對偏移量)。

圖7 分類與邊界框預(yù)測分支Fig.7 Classification and bounding box prediction branch

如圖7(b)所示,由于本文提出的模型在特征融合階段已經(jīng)進行了高效的卷積,因此本文模型通道數(shù)和過濾器調(diào)整為96,并進行2次3×3卷積和與LeakyReLU激活,減少計算量和特征冗余。同時由于本文模型使用了更大的P2層的特征圖,刪除了P7層的特征圖,因此將P2~P6層先驗框的面積調(diào)整為162~2562,并針對露天礦區(qū)障礙物的特殊性將先驗框的長寬比重設(shè)為[0.7∶1.4,1∶1,1.4∶0.7]。

1.4 損失函數(shù)優(yōu)化

露天礦區(qū)道路障礙檢測模型的損失函數(shù)包括分類損失和邊界框損失2部分。在分類損失函數(shù)方面,針對露天礦區(qū)的復(fù)雜背景易導(dǎo)致障礙圖像正負樣本比例失衡,RetinaNet提出了Focal loss[23]優(yōu)化交叉熵損失函數(shù)優(yōu)化正負樣本不均衡問題,其數(shù)學(xué)表達式為

(6)

式中,γ為調(diào)整難、易分類樣本之間的權(quán)重;α為調(diào)整正負、樣本之間的權(quán)重;p為模型分類后得到的概率。

為應(yīng)對訓(xùn)練過程中某些易樣本的過擬合,導(dǎo)致的難樣本置信度偏低引起的精度下降,本文在分類損失函數(shù)中引入了標(biāo)簽平滑正則化(label smooth regularization)[35],通過減少易樣本真實樣本標(biāo)簽的類別在計算損失函數(shù)時的權(quán)重,增加難樣本權(quán)重抑制過擬合。因此本文的分類損失函數(shù)為

(7)

式中,Csmooth為經(jīng)標(biāo)簽平滑處理后的類別數(shù)組;e為平滑因子,本文取e=0.01;δ為標(biāo)簽的真實類別數(shù)組;δ0為與δ維度相同的全1數(shù)組;S為每層特征圖尺寸;Z為先驗框數(shù)量;本文取γ=2。

在邊界框損失方面RetinaNet采用Smooth L1 loss,其數(shù)學(xué)表達式為

(8)

IoU可用來衡量2個邊界框的相似性,IoU的計算公式為

(9)

其中,A、B分別為預(yù)測框和真實框。由于目標(biāo)檢測任務(wù)以IoU作為是否檢測到任務(wù)的判定標(biāo)準(zhǔn),因此訓(xùn)練時使用Smooth L1 loss作為位置回歸損失這2者并不等價,尤其當(dāng)預(yù)測框與真實框的L1和L2范數(shù)相近時,與IoU差異過大。如圖8所示,當(dāng)使用IoU作為損失函數(shù)時,當(dāng)預(yù)測框與真實框沒有重合時,IoU無法衡量2者之間的差異,這導(dǎo)致?lián)p失函數(shù)梯度為0而無法優(yōu)化網(wǎng)絡(luò)之間的權(quán)重。

注:紅色表示預(yù)測框,綠色表示真實框,黑色表示2者的最小閉合框。圖8 預(yù)測框與真實框的不同情況Fig.8 Different cases of prediction frame and real frame

GIoU[36]充分利用了IoU具有尺度不變性的優(yōu)點,加入了預(yù)測框與真實框之間的最小閉合框作為損失計算參數(shù),其數(shù)學(xué)表達式為

(10)

其中,C為包含2者的最小閉合框。如圖8(c)、(d)所示,黑色框范圍即為C的表示區(qū)域。GIoU克服了IoU在預(yù)測框與真實框不重合時的不足之處,能夠更好地反映預(yù)測框與真實框的重合情。因此本文模型的邊界框損失函數(shù)為

(11)

綜上所述,本文模型的損失函數(shù)為

(12)

2 露天礦區(qū)障礙數(shù)據(jù)集構(gòu)建

本文中的數(shù)據(jù)采集于2019年2月到2021年4月間在大型露天礦開采現(xiàn)場,使用canon EOS 80d 數(shù)字相機采集,檢測目標(biāo)包括大型運載卡車、行人、挖機、汽車、道路坑洞、道路積水和尖銳碎石7類。在不同季節(jié)與不同光照條件下,總共采集2 081張圖像數(shù)據(jù)。其中坑洞和積水作為負向障礙,位于路面下方且尺寸形狀各異,同時行人和尖銳碎石往往占據(jù)像素面積極少,這導(dǎo)致了本文數(shù)據(jù)集存在大量多尺度特征和小目標(biāo)障礙。隨機選擇1 581張圖片作為訓(xùn)練集,其余500張圖片作為測試集,圖像原分辨率是4 032×3 024,在輸入網(wǎng)絡(luò)時將圖像大小調(diào)整為512×512。

本文數(shù)據(jù)集的訓(xùn)練集過少,難以使網(wǎng)絡(luò)達到很好的擬合狀態(tài),因此通過數(shù)據(jù)擴增取進一步豐富數(shù)據(jù)集。通過對原始數(shù)據(jù)進行變換,進一步增加數(shù)據(jù)量、豐富數(shù)據(jù)多樣性、提高模型的泛化能力。在傳統(tǒng)擴增方法中,本文對圖片進行了90°、180°、270°旋轉(zhuǎn)、改變亮度、灰度化,使樣本擴增為原來的6倍。同時由于尖銳碎石在圖像中占據(jù)很少的像素比例,處于道路中間,與道路的背景信息差異較小,導(dǎo)致其檢測難度很大。而在本文數(shù)據(jù)集中尖銳碎石樣本較少,這導(dǎo)致了訓(xùn)練樣本的不均衡,會進一步增加碎石的檢測難度。為此本文針對尖銳碎石較小,樣本量較少難以檢測的問題,使用了一種小目標(biāo)增強方法,其具體流程為

(2) 將小目標(biāo)(尖銳碎石)圖像進行縮放;

(3) 根據(jù)縮放生成邊界框標(biāo)簽文件,由于小目標(biāo)往往處于路面之中,同時本文采集的照片,道路信息大多存在于圖片下半部分,因此對小目標(biāo)的邊界框位置進行過濾,刪除部分位置錯誤的標(biāo)簽文件;

(4) 與原始標(biāo)簽文件進行交并比計算,防止尖銳碎石圖片生成的位置與原始圖片中的目標(biāo)重疊;

(5)將生成的小目標(biāo)(尖銳碎石)圖像,使用泊松融合(Poisson blending)[37]方法與原始圖片相融合。泊松融合實質(zhì)為求取梯度向量場引導(dǎo)下的影像插值,其數(shù)學(xué)表達如下:

定義二維圖像平面為S(S∈R2)上的閉合區(qū)域為Ω,其邊界為?Ω,V為定義在Ω上的梯度向量場,f為定義在S上的標(biāo)量函數(shù),已知f在?Ω上的取值為f*,則f在Ω內(nèi)取V引導(dǎo)下的插值函數(shù),即求解

(13)

其中,?f為f*的梯度,由于其求解構(gòu)成泊松方程,因此可化為

護理本科生的社會價值體現(xiàn),社會地位要求,薪酬待遇和職稱要求等,不是僅僅靠國家政策、學(xué)校改革、醫(yī)療體制改革等措施能夠充分滿足和不斷完善,更重要的是,護理本科生要提高自身素質(zhì),提高專業(yè)知識和護理技能水平,提高護理科研水平,促進護理事業(yè)健康、長足發(fā)展。這樣,護理本科生的社會價值自然會得到社會各界的認同,本科護生自身也會由內(nèi)而外,提高對護理職業(yè)的認同感,從而熱愛護理事業(yè),為護理事業(yè)的蓬勃發(fā)展貢獻力量。

Δf=divV,f|?Ω=f*|?Ω

(14)

式中,Δ為拉普拉斯算子;div為散度算子;f|?Ω=f*|?Ω為狄利克雷邊界條件。

對于圖像融合應(yīng)用,式(13)的離散化形式為

(15)

本文使用圖像旋轉(zhuǎn)擴增障礙物的多尺度特征,通過調(diào)整亮度和灰度化增強不同光照條件數(shù)據(jù),使數(shù)據(jù)集擴增為原始數(shù)據(jù)集的6倍,同時針對尖銳碎石的樣本量偏少,使用了小目標(biāo)增強算法,使其樣本數(shù)量增加到1 028個(表1)。

3 實驗與分析

3.1 實驗環(huán)境配置及評價指標(biāo)

本實驗采用的計算機配置為Intel? CoreTMi7-7800X CPU,NVIDIA GeForce 3090 (24G) GPU,本實驗的網(wǎng)絡(luò)模型基于Pytorch 1.7,Python3.6,Cuda11.1框架搭建,實驗的各項參數(shù)集合見表2。

由于本文數(shù)據(jù)集較少導(dǎo)致模型難以擬合,因此訓(xùn)練采用了遷移學(xué)習(xí)方式,骨干網(wǎng)絡(luò)RepVGG使用了Imagenet海量數(shù)據(jù)集訓(xùn)練的權(quán)重,本文目標(biāo)檢測模型作為下游任務(wù),對骨干網(wǎng)絡(luò)權(quán)重進行裁剪,刪除不必要分類分支,并在VOC2007+2012數(shù)據(jù)集上進行預(yù)訓(xùn)練,得到遷移學(xué)習(xí)的VOC數(shù)據(jù)集權(quán)重;然后基于VOC數(shù)據(jù)集權(quán)重,對權(quán)重的分類分支進行修改以契合本文類別數(shù)目,并采取分段式訓(xùn)練方法,首先凍結(jié)骨干網(wǎng)絡(luò)權(quán)重進行凍結(jié)訓(xùn)練,使網(wǎng)絡(luò)骨干在訓(xùn)練初期只參與特征提取并不對權(quán)值進行更新,防止訓(xùn)練初期網(wǎng)絡(luò)隨機性過大破壞初始權(quán)值;訓(xùn)練20個Epoch后,解凍骨干網(wǎng)絡(luò)權(quán)重參與整個網(wǎng)絡(luò)訓(xùn)練,并進行50個Epoch的訓(xùn)練。

表1 數(shù)據(jù)增強前后樣本分布

表2 實驗各項參數(shù)設(shè)置

實驗采用精確度(Precision,P)、召回率(Recall,R)、平均精度(Average Precision,Pave)和平均精度均值(Mean Average Precision,Pmap)四個指標(biāo)作為模型精度評價的標(biāo)準(zhǔn):

式中,TP為正確檢測出的目標(biāo);FP為將背景錯誤檢測為目標(biāo);FN為未能檢測出的目標(biāo);n為目標(biāo)檢測的類別;N為檢測到的障礙物數(shù)量;Pave為衡量模型對負障礙目標(biāo)檢測的準(zhǔn)確性;Pmap為所有Pave的平均值,用來衡量整個模型的檢測準(zhǔn)確度。

在模型的推理速度和計算量方面采用了參數(shù)量(Pparams)和浮點運算數(shù)(Fflops),Fflops作為評價指標(biāo),Pparams和Fflops的計算方法為(以卷積層計算為例):

Pparams=KhKwCinCout+Cout,

式中,Kh、Kw為卷積核高度和寬度;Cin為輸入通道數(shù);Cout為輸出通道數(shù);H′、W′為輸出特征圖尺寸高度和寬度。

3.2 障礙檢測模型實驗與性能分析

如圖10所示,本文所提出的露天礦區(qū)障礙檢測模型在密集目標(biāo)、光線不理想、復(fù)雜背景等情況下都有著良好的表現(xiàn)。在大尺寸物體的檢測上邊界框定位精準(zhǔn),物體置信度均高于0.9,在小目標(biāo)的檢測中,對于行人和尖銳碎石的檢測性能較好,對于多尺度特征的負向障礙也能做到更加準(zhǔn)確的檢測和精確定位,可以滿足露天礦區(qū)無人礦卡在封閉、低速環(huán)境下的安全駕駛需求。

如表3所示,本文模型與主流的目標(biāo)檢測網(wǎng)絡(luò)進行了對比分析,所有訓(xùn)練均使用遷移學(xué)習(xí)方式,由于網(wǎng)絡(luò)特性不同,SSD,Faster-RCNN,RetinaNet,本文模型均采用了VOC2007+2012作為預(yù)訓(xùn)練數(shù)據(jù)集,YOLO4,YOLOX,EfficintDet使用了COCO2017數(shù)據(jù)集作為預(yù)訓(xùn)練數(shù)據(jù)集。

本文模型達到了91.76%的Pmap取得了最好的檢測精度,檢測速度、參數(shù)量和Fflops分別達到了56.74 fps、28.2 MB和39.4 GB,有著最好的綜合性能。其中anchor free的代表網(wǎng)絡(luò),YOLOX在面對多種任務(wù)時都有著良好的表現(xiàn),取得了87.75%Pmap,anchor base的EfficintDet-d3也取得了88.01%Pmap,由于預(yù)訓(xùn)練時YOLOX,EfficintDet-d3采用COCO數(shù)據(jù)集對于小微目標(biāo)中的行人、汽車時有著良好的檢測效果,但是YOLOX,EfficintDet-d3在檢測碎石的Pave分別為59.70%、76.24%。

圖10 露天礦區(qū)障礙物檢測結(jié)果Fig.10 Obstacle detection results in open pit mine

表3 不同網(wǎng)絡(luò)模型對比

由于EfficintDet-d3的輸入分辨率為896×896,使得其小目標(biāo)預(yù)測分支的特征圖尺寸為112×112,這使得它對于露天礦區(qū)障礙物數(shù)據(jù)集有著極好的精度,由于EfficintDet網(wǎng)絡(luò)使用了大量的深度可分離卷積降低參數(shù)量這導(dǎo)致其參數(shù)量和Fflops僅為11.9 MB、23.15 GB,但其輸入分辨率過大,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜導(dǎo)致推理速度較慢,難以滿足實時性要求。

傳統(tǒng)的網(wǎng)絡(luò)如SSD和Faster-RCNN的檢測精度均不理想,但是SSD取得了112.96 fps的檢測速度。而YOLO4由于輸入分辨率僅為416×416對于小微目標(biāo)難以取得良好效果。

3.3 障礙檢測模型預(yù)訓(xùn)練影響因素分析

如上文所述,本文提出的目標(biāo)檢測模型作為分類骨干網(wǎng)絡(luò)的下游任務(wù),使用ImageNet 1K大規(guī)模圖像分類數(shù)據(jù)集進行訓(xùn)練的RepVGG權(quán)重,作為遷移學(xué)習(xí)的基礎(chǔ)權(quán)重。ImageNet 1K包含1 000個對象類,1 281 167個訓(xùn)練圖像、50 000個驗證圖像和100 000個測試圖像。為了驗證遷移學(xué)習(xí)的必要性與骨干網(wǎng)絡(luò)的選擇,分別使用RepVGG、RepVGG+、ResNet三種骨干網(wǎng)絡(luò)在VOC2007和2012數(shù)據(jù)集上進行訓(xùn)練,使用權(quán)重隨機初始化與載入預(yù)訓(xùn)練權(quán)重進行對比。

如圖11所示,通過對比網(wǎng)絡(luò)是否使用ImageNet海量數(shù)據(jù)訓(xùn)練的權(quán)重,可以看出網(wǎng)絡(luò)在loss收斂和每個epoch的Pap中都有著顯著的差異性,圖11(c)中,在不使用骨干權(quán)重時,網(wǎng)絡(luò)在60個epoch時漸漸趨于擬合,此時模型精度僅為60%左右。而使用了預(yù)訓(xùn)練權(quán)重的網(wǎng)絡(luò),在20個epoch時網(wǎng)絡(luò)已經(jīng)逐漸趨于擬合,且精度為80%左右。在圖11(d)中RepVGG作為骨干網(wǎng)絡(luò)相較于ResNet有著近似的性能表現(xiàn),可見使用了海量數(shù)據(jù)作為預(yù)訓(xùn)練的權(quán)重,在實驗中,有助于加速模型的收斂,同時提升模型的精度。同時如圖11(d)所示,本文所提出的RepVGG+,相較于ResNet和原始結(jié)構(gòu),有著更加優(yōu)異的性能表現(xiàn)。

圖11 RepVGG_A2、RepVGG_A2+、ResNet50骨干網(wǎng)絡(luò)預(yù)訓(xùn)練結(jié)果Fig.11 Pre-training results of RepVGG_A2,RepVGG_A2+,and ResNet50 backbone networks

3.4 障礙檢測模型有效性分析

3.4.1 RepVGG+網(wǎng)絡(luò)性能分析

為驗證提出的RepVGG+的有效性,針對露天礦區(qū)障礙檢測模型的骨干網(wǎng)絡(luò)消融實驗對比,并分別在預(yù)訓(xùn)練的VOC數(shù)據(jù)集和本文數(shù)據(jù)集上進行測試。其結(jié)果見表4。

如表4所示,當(dāng)本文按照常規(guī)的網(wǎng)絡(luò)設(shè)計,提取骨干網(wǎng)絡(luò)后3層作為FPN結(jié)構(gòu)的輸入時,由于Res-Net50相較于RepVGG A2的參數(shù)量更多,在VOC數(shù)據(jù)集和本文數(shù)據(jù)集中都比RepVGG A2更加優(yōu)異,但RepVGG由于在推理時使用了層間融合等方法,推理速度顯著優(yōu)于ResNet50。RepVGG A0作為輕量型骨干網(wǎng)絡(luò)參數(shù)量僅有7.03 MB,但精度也較低,RepVGG B2由于其網(wǎng)絡(luò)更深,能夠提取到更多的特征信息,在預(yù)訓(xùn)練中達到了82.45%Pmap,但是其參數(shù)量巨大,檢測速度較慢。本文針對RepVGG在目標(biāo)檢測任務(wù)中的缺陷,所提出的RepVGG A2+結(jié)構(gòu),在擴增了Stage4的卷積層數(shù)并引入金字塔池化結(jié)構(gòu),使模型更加適應(yīng)于小類別目標(biāo)檢測。如表4所示,使用RepVGG+骨干網(wǎng)絡(luò)的模型在VOC數(shù)據(jù)集的精度超越了ResNet50,達到了81.94%的Pmap,同時增加了少許參數(shù)量,由于RepVGG作為輕量型骨干網(wǎng)絡(luò),其特征提取能力還稍顯不足,在針對碎石等小目標(biāo)時,難以獲取更加抽象的特征信息,去分離背景特征,導(dǎo)致在本文數(shù)據(jù)集中相較于ResNet50低了0.58%的Pmap。

表4 不同骨干網(wǎng)絡(luò)對于模型性能影響

3.4.2 注意力機制影響分析

為了改善模型在上采樣過程中的特征信息丟失問題,在B-FPN中引入了SimAM注意力機制,見表5,相較于傳統(tǒng)的通道注意力SENet[38]和通道與空間注意力CBAM[39],SimAM在不增加參數(shù)量的基礎(chǔ)上有著更好的性能。

表5 不同注意力機制對模型性能影響

如圖12所示,筆者使用GradCAM++[40]方法對不同注意力機制進行了特征可視化。SENet基于通道維度對神經(jīng)元進行增強,其效果并不顯著,而基于通道與空間的注意力機制CBAM和SimAM都能很好地增強神經(jīng)元信息,從而改善特征丟失問題。

3.4.3 消融實驗與分析

為驗證針對小目標(biāo)和多尺度目標(biāo)提出的特征融合機制、分類預(yù)測模塊和改進Loss函數(shù)的有效性,設(shè)計了消融實驗,針對露天礦區(qū)道路障礙物數(shù)據(jù)不足問題進行了數(shù)據(jù)擴增,見表6,由于擴增前模型處于欠擬合狀態(tài)且訓(xùn)練樣本極不均衡,通過數(shù)據(jù)集擴增后大幅提升了模型精度。對FPN模塊進行了重新設(shè)計,提出了基于通道和空間注意力的SimAM注意力和跨階段連接卷積的雙向特征融合的B-FPN結(jié)構(gòu),針對小微目標(biāo),在最大尺度的特征圖后加入了SSH卷積模塊,擴大感受野,進一步提升其檢測性能。如表6所示,提出的特征融合模塊在加入了SimAM注意力機制和SSH后檢測精度均得到了提升。同時由于雙向FPN結(jié)構(gòu)已經(jīng)提取到大量的特征信息,如果在模型的Head中還是使用連續(xù)的4次卷積+ReLU會導(dǎo)致特征冗余,因此將Head優(yōu)化為連續(xù)2次3×3卷積+LeakyReLU,使用改進的骨干網(wǎng)絡(luò)+FPN+Head取得了更好的精度,在VOC數(shù)據(jù)集和本文數(shù)據(jù)集上分別達到了83.87%、86.35%的Pmap。

圖12 基于GradCAM++的不同注意力機制特征Fig.12 Characterization of different attention mechanisms based on GradCAM++

表6 消融實驗

圖13 Loss函數(shù)對模型檢測效果影響Fig.13 Effect of Loss function on model detection effect

如圖13(a)所示,在模型的實際驗證過程中,取置信度為0.05時,發(fā)現(xiàn)同一目標(biāo)有著大量的重合框與定位不準(zhǔn)確問題,因此本文在訓(xùn)練過程中對Loss進行優(yōu)化。

如圖13(b)所示,改進后的Loss函數(shù)很好的抑制了這一問題,同時表6也表明,在引入改進后Loss函數(shù)模型在2個數(shù)據(jù)集的精度達到了84.17%和86.49%的Pmap。

但是本文模型針對露天礦區(qū)障礙物中的碎石檢測仍然是個難點,在對網(wǎng)絡(luò)的骨干網(wǎng)絡(luò)、FPN、Head、Loss函數(shù)優(yōu)化后,碎石的Pap只有63%,因此本文提取骨干網(wǎng)絡(luò)的4層輸出,進一步擴大網(wǎng)絡(luò)預(yù)測小目標(biāo)分支的特征圖尺寸,使網(wǎng)絡(luò)預(yù)測最大特征圖從64×64,提升為128×128,極大地提升了小目標(biāo)的預(yù)測能力,在本文數(shù)據(jù)集中達到了91.76%Pmap,其中尖銳碎石的Pap為85.38%。如表6所示,由于小尺寸特征圖主要作用與大尺寸抽象目標(biāo)預(yù)測,導(dǎo)致了本文模型在VOC數(shù)據(jù)集上的精度為83.89%Pmap,相較于3個骨干網(wǎng)絡(luò)輸出層的模型減少了0.27%。

4 結(jié) 論

(1)針對露天礦區(qū)無人礦卡行進障礙檢測,提出了基于雙向融合機制的露天礦區(qū)障礙檢測模型,模型采用了改進的RepVGG A2+進行障礙特征提取,B-FPN對多尺度障礙特征進行雙向融合,增強不同尺寸特征圖的特征信息,對小微目標(biāo)檢測分支額外使用SSH結(jié)構(gòu)增強感受野,提升尖銳碎石等障礙信息表達能力。

(2)針對分類預(yù)測模塊進一步調(diào)整,刪除冗余信息提升模型檢測精度與速度。針對類別不均衡問題使用標(biāo)簽正則化優(yōu)化Fcoal Loss,使用GIoU Loss優(yōu)化邊界框回歸Loss。

(3)實驗表明本文模型在多種情況下都有著良好的檢測性能,達到了91.76%Pmap和56.76 fps的檢測速度,滿足無人礦卡準(zhǔn)確快速檢測需求,對比主流的目標(biāo)檢測網(wǎng)絡(luò)也處于領(lǐng)先地位。

(4)通過實地采集與數(shù)據(jù)擴增建立了露天礦區(qū)障礙數(shù)據(jù)集,然而受限于采集數(shù)據(jù)的露天礦區(qū)較少以及規(guī)模較小,本研究仍有不足之處難以覆蓋不同路況的露天礦區(qū)。此外,如何利用大量數(shù)據(jù)缺失標(biāo)注的圖像進行自動標(biāo)注和對抗生成圖像,去擴增數(shù)據(jù)集也有待進一步研究。

猜你喜歡
露天礦骨干卷積
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
備戰(zhàn)鐵礦露天礦與掛幫礦同時開采穩(wěn)定性研究
露天礦山土石方量的測量及計算
核心研發(fā)骨干均16年以上!創(chuàng)美克在產(chǎn)品研發(fā)上再發(fā)力
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
骨干風(fēng)采展示
基于Delphi-TOPSIS法的露天礦采區(qū)接續(xù)方案優(yōu)選
中國煤炭(2016年9期)2016-06-15 20:29:54
河北將對1881個露天礦山開展環(huán)境治理
關(guān)于組建“一線話題”骨干隊伍的通知
磐石市| 伊川县| 岢岚县| 临澧县| 沙洋县| 启东市| 临城县| 汝城县| 银川市| 湖北省| 靖州| 密山市| 三门县| 绩溪县| 利津县| 长沙县| 凤山县| 昌黎县| 泰州市| 建湖县| 寿阳县| 玉溪市| 紫云| 谢通门县| 子长县| 宜宾市| 邓州市| 循化| 涪陵区| 梅州市| 金山区| 桃江县| 甘德县| 内黄县| 长阳| 西乌珠穆沁旗| 隆德县| 历史| 镇沅| 酉阳| 黄平县|