国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

井下礦工多目標檢測與跟蹤聯(lián)合算法

2022-11-09 04:46周孟然李學松朱梓偉黃凱文
工礦自動化 2022年10期
關鍵詞:礦工特征提取卷積

周孟然,李學松,朱梓偉,黃凱文

(安徽理工大學 電氣與信息工程學院,安徽 淮南 232001)

0 引言

目前,大多煤礦對井下礦工的安全管理仍存在一定盲區(qū)。充分利用圖像信息對多個運動目標進行檢測與跟蹤,對可能出現(xiàn)的危險進行預警,對于保障井下礦工的人身安全具有重要意義[1]。

多目標跟蹤技術是計算機視覺領域的研究熱點,在自動駕駛、軍事等領域都有廣泛應用[2-3]。針對井下礦工的多目標檢測與跟蹤,學者們已進行了不少研究。Jiang Daihong 等[4]提出了結(jié)合主成分分析和尺度不變特征變換的運動目標跟蹤模型,通過均值漂移實現(xiàn)移動目標跟蹤,但由于井下礦工服裝顏色與背景顏色高度相似,特征提取精確度低??慃惖萚5]采用射頻識別技術實現(xiàn)對井下礦工的高精度定位,但需要設置大量傳感器節(jié)點,成本高,且存在通信信號弱等缺點。郭曦等[6]提出使用雙目相機獲取跟蹤目標,并通過相關濾波算法有效解決跟蹤問題,但該方法檢測速度慢,難以實現(xiàn)實時跟蹤。

隨著計算機硬件的迅速發(fā)展,深度學習領域迎來了新的突破,基于檢測的跟蹤(Detection Based Tracking,DBT)框架被廣泛使用。DBT 框架主要包括目標檢測和匹配跟蹤2 個部分,目標檢測的質(zhì)量直接影響匹配跟蹤的效果。①目標檢測。目標檢測模型主要分為2 類,一類是以Faster RCNN[7]等為代表的兩階段檢測模型,一類是以SSD,YOLO[8-11]為代表的一階段檢測模型。兩階段檢測模型雖然精度較高,但檢測速度慢,不適用于實時監(jiān)控場景。一階段檢測模型中,YOLO 模型檢測速度快、準確率高,YOLOv5s 是YOLOv5 系列中最小的網(wǎng)絡模型,相對來說結(jié)構(gòu)更加簡單、速度更快。因此,本文在YOLOv5s 的基礎上進行改進,得到Y(jié)OLOv5s-GAD目標檢測模型。② 匹配跟蹤。A.Bewley 等[12]提出了簡單在線實時跟蹤(Simple Online and Realtime Tracking,SORT)算法,通過Faster RCNN 獲取圖像特征,再通過卡爾曼濾波和匈牙利算法進行模型關聯(lián),但SORT 算法主要關注的是逐幀跟蹤,出現(xiàn)人員遮擋問題時身份轉(zhuǎn)換頻率非常高。N.Wojke 等[13]提出了引入深度關聯(lián)度量的SORT(Deep SORT)算法,在SORT 算法基礎上加入淺層殘差網(wǎng)絡進行行人重識別,減少了人員身份轉(zhuǎn)換次數(shù),但淺層殘差網(wǎng)絡提取的是局部特征。為了進一步減少人員身份轉(zhuǎn)換次數(shù),本文在Deep SORT 算法基礎上進行改進,采用全尺度網(wǎng)絡(Omni-Scale Network,OSNet)[14]進行全方位特征學習,以更好地實現(xiàn)行人重識別,提高目標跟蹤的準確性和實時性。

另外,由于煤礦井下環(huán)境特殊,光線較暗,現(xiàn)有的公開數(shù)據(jù)集如PASCAL VOC 和MS COCO 等無法完全滿足井下低照度特殊場景應用需求[15],本文通過訓練自定義的井下礦工數(shù)據(jù)集,對比常見的幾種目標檢測算法,驗證YOLOv5s-GAD 模型的有效性。

1 井下礦工多目標檢測與跟蹤聯(lián)合算法原理

多目標跟蹤主要解決的問題是在視頻序列的當前幀中找到過去幀出現(xiàn)的多個特征目標。井下礦工多目標檢測與跟蹤聯(lián)合算法流程如圖1 所示。獲取井下礦工數(shù)據(jù)集并進行預處理,通過YOLOv5s-GAD模型進行特征提取,得到檢測框信息,最后通過改進Deep SORT 多目標跟蹤算法實現(xiàn)級聯(lián)匹配,從而實現(xiàn)多目標檢測與跟蹤。

圖1 井下礦工多目標檢測與跟蹤聯(lián)合算法流程Fig.1 Flow of joint algorithm of multi-target detection and tracking for underground miners

2 目標檢測

2.1 YOLOv5s 模型結(jié)構(gòu)

YOLOv5s 模型中,backbone 部分使用一系列CBL(Conv+BN+Leaky_ReLU)模塊和BottleneckCSP模塊的組合疊加,實現(xiàn)對輸入圖像的特征提?。辉谧詈笠粚虞敵鼋由弦粋€空間金字塔池化層(Spatial Pyramid Pooling,SPP)[16],相比于普通的池化操作,這種方式更能增加感受野;在neck 部分使用路徑聚合網(wǎng)絡(Path Aggregation Network,PANet)[17],融合自底向上和自頂向下2 種方式來加強骨干網(wǎng)絡的特征提取能力;輸出部分應用了多尺度融合,對于3 個輸出尺度,得到3 種不同大小的單元格,分別用于檢測對應大小的特征圖像。

2.2 YOLOv5s-GAD 模型

YOLOv5s-GAD 模型主要包括輸入、backbone、neck、輸出等部分,如圖2 所示,其中ConCat 表示連接,dw Conv 表示深度卷積,pw Conv 表示逐點卷積。

圖2 YOLOv5s-GAD 模型Fig.2 YOLOv5s-GAD model

YOLOv5s-GAD 模型在YOLOv5s 模型的基礎上進行了以下改進:

(1)在backbone 部分,為了減少特征圖冗余運算,降低計算成本,提高特征提取速度,引入幻象(Ghost)模塊和幻象瓶頸卷積(GhostConv)模塊對網(wǎng)絡進行輕量化設計[18],替換原YOLOv5s 模型中的卷積模塊和BottleneckCSP 模塊,實現(xiàn)對輸入圖像的特征提取。

(2)針對井下光線暗、圖像噪點多等特點,在SPP 輸出的最小特征圖中引入高效通道注意力神經(jīng)網(wǎng)絡(Efficient Channel Attention Neural Networks,ECA-Net)模塊,使模型更多地關注感興趣特征,提高模型整體精度。

(3)在neck 部分同樣進行輕量化設計[19],將原來的BottleneckCSP 模塊替換為深度可分離卷積(Depthwise Separable Convolution,DWConv)模塊,以加快特征提取速度,提高實時性。

2.2.1 GhostConv 模塊

Ghost 模塊通過一半普通卷積疊加一半逐通道卷積操作實現(xiàn)特征提取,GhostConv 模塊由Ghost 模塊與DWConv 模塊前后相連并與捷徑分支組合得到。普通卷積和Ghost 的加速比為

式中:n為卷積核個數(shù);h′和w′分別為特征圖的高和寬;c為通道數(shù);k和m為卷積核大小,k≈m;s為幻象特征圖個數(shù),s<<c。

化簡式(1)可得

2.2.2 DWConv 模塊

DWConv 模塊是用于算力較小的移動設備或嵌入式設備的輕量化模塊。由于YOLOv5s 在路徑聚合部分使用了參數(shù)量很大的BottleneckCSP 模塊,在特征提取過程中需耗費大量時間,使得井下礦工目標跟蹤的實時性得不到保障,所以用DWConv 模塊替換路徑聚合部分的BottleneckCSP。

標準卷積過程如圖3 所示。對于輸入尺寸為DF×DF的特征圖,通過N個大小為DK×DK、深度為M的卷積核進行特征提取,輸出圖像尺寸為。標準卷積的參數(shù)量為

圖3 標準卷積過程Fig.3 Standard convolution process

DWConv 過程如圖4 所示。將普通卷積的1 步操作拆分成2 步執(zhí)行。先通過M個大小為DK×DK、深度為1 的卷積核進行深度卷積,再通過N個大小為1×1、深度為M的卷積核進行逐點卷積。深度卷積負責濾波,逐點卷積負責轉(zhuǎn)換通道。DWConv 的參數(shù)量為

圖4 DWConv 過程Fig.4 Depthwise separable convolution process

DWConv 與標準卷積的參數(shù)量之比為

因為N和DK的值都很大,所以C2與C1的比值遠小于1,說明DWConv 模塊可明顯減少網(wǎng)絡模型的參數(shù)量,加快模型的訓練速度。

2.2.3 ECA-Net 模塊

注意力機制能夠改善卷積神經(jīng)網(wǎng)絡的性能[20-22],但目前大部分研究都是用更復雜的結(jié)構(gòu)來提升性能,Wang Qilong 等[23]提出了一種基于一維卷積的局部跨通道交互策略,兼顧了網(wǎng)絡性能及復雜度。在不降低維度的條件下輸入特征圖,由通道注意力機制獲得通道權重 ω的通用計算公式:

式中:J(·)為ReLU 激活函數(shù);W1,W2為帶狀矩陣;y為通道全局平均池化。

由式(6)可知,通道與其權重之間的對應關系是間接的,ECA-Net 使用第K個帶狀矩陣WK來學習通道注意力,對于第a個通道的全局平均池化ya,只考慮其與K個相鄰通道的信息交互,忽視其他干擾信息。第a個通道的權重為

式中:σ(·)為激活函數(shù);Wab,yab分別為第a個通道的第b個相鄰通道的帶狀矩陣和全局平均池化。

最后使用卷積核大小為S的一維卷積VS來獲取最終權重:

3 Deep SORT 多目標跟蹤算法改進

匹配關聯(lián)模型是DBT 框架的核心,其目的是將目標檢測獲得的檢測框與卡爾曼濾波器獲得的預測框關聯(lián)起來,并通過對各目標標記ID 來確定身份。Deep SORT 算法的級聯(lián)匹配融合了2 種度量方式:一種是通過目標的運動信息計算檢測框與預測框之間的馬氏距離,實現(xiàn)狀態(tài)匹配;另一種是通過引入檢測目標的外觀信息,對淺層殘差網(wǎng)絡提取的128 維特征向量進行關聯(lián),計算特征向量與檢測框的最小余弦距離,實現(xiàn)狀態(tài)匹配。

第i個預測框與第j個檢測框的馬氏距離為

式中:dt(j) 為第t條軌跡的第j個檢測框;ft(i)為第t條軌跡的第i個預測框;Qt(i)為檢測狀態(tài)和估計狀態(tài)的平均協(xié)方差矩陣。

第i個預測框與第j個檢測框的最小余弦距離為

式中:rj為利用第j個檢測框在行人重識別中提取的128 維特征向量;為第t條軌跡的第i個特征向量;?i為最近100 幀內(nèi)特征向量的集合。

將上述結(jié)果按權重λ加入代價矩陣中,得到第i個預測框與第j個檢測框總的匹配指標為

最后用匈牙利算法得到匹配結(jié)果。

由于淺層殘差網(wǎng)絡提取的是局部特征,為了進一步減少人員身份轉(zhuǎn)換次數(shù),本文使用OSNet 替換Deep SORT 算法中行人重識別部分的淺層殘差網(wǎng)絡。OSNet 結(jié)構(gòu)如圖5 所示。通過全局平均池化實現(xiàn)的聚合門(Aggregation Gate,AG)按照特定比例對4 種特征尺度進行動態(tài)組合,以減少因遮擋等原因產(chǎn)生的身份轉(zhuǎn)換現(xiàn)象。另外,在普通的3×3 卷積中加入DWConv 模塊,以減少模型參數(shù),提高訓練速度。

圖5 OSNet 結(jié)構(gòu)Fig.5 Omni-scale network structure

4 實驗分析

深度學習的硬件平臺為計算機,CPU 型號為Intel i5-9400F,GPU 型號為NVIDIA GTX 1070-8G,采用Windows 10 操作系統(tǒng),結(jié)合配套驅(qū)動工具CUDA10.1及深度學習加速庫cuDNN8.0.4,在Pytorch1.8.1 框架下,使用Pycharm 集成開發(fā)環(huán)境實現(xiàn)目標檢測及跟蹤模型的訓練與驗證。

4.1 數(shù)據(jù)集的選取與處理

數(shù)據(jù)集分為目標檢測數(shù)據(jù)集和目標跟蹤數(shù)據(jù)集2 個部分。檢測部分的井下礦工數(shù)據(jù)集來自于2021 年10 月安徽淮南某礦區(qū)底抽巷道作業(yè)監(jiān)控視頻[24],通過自定義的python 腳本進行視頻抽幀,共采集1 636 張圖像,圖像尺寸為1 920×1 280 像素。由于識別對象是井下礦工,所以忽略了視頻中其他所有類別,類別標簽僅有1 個,即Person 類。使用開源標注軟件LabelImg 對圖像進行人工標注,用矩形框確定目標所在區(qū)域,如圖6 所示。將數(shù)據(jù)集按照9∶1 的比例劃分為訓練集與驗證集,訓練集1 472 張,驗證集164 張。通過加載部分預訓練權重的遷移學習方法,在自定義數(shù)據(jù)集Miner21 上進行微調(diào)訓練。跟蹤部分數(shù)據(jù)集使用公開行人數(shù)據(jù)集MOT17 中除MOT17-06 以外的視頻序列。

圖6 數(shù)據(jù)集圖像Fig.6 Dataset image

4.2 YOLOv5s-GAD 模型消融實驗

為了驗證YOLOv5s-GAD 模型的有效性,在Miner21 數(shù)據(jù)集上迭代100 輪進行消融實驗。采用隨機裁剪、拉伸等方法進行數(shù)據(jù)增強,以增強模型的泛化能力。以YOLOv5s 為基準網(wǎng)絡,分別加入GhostConv,ECA-Net 模塊及其與DWConv 組合進行實驗,并調(diào)用YOLOv5 的自適應anchor 腳本,使用遷移學習方法加載部分預訓練權重,訓練結(jié)果見表1,其中AP為交并比為0.5 時的平均精度。

表1 不同模型消融實驗結(jié)果Table 1 Ablation experiment results of different models

由表1 可知,在基準網(wǎng)絡中加入GhostConv 后,雖然精度降低了0.7%,但是參數(shù)量減少了近200 萬個;同時加入GhostConv 和DWConv 后,參數(shù)量減少至原來的1/10,幀率提升至原來的3 倍左右,大大提升了模型的訓練速度;加入ECANet 后,雖然參數(shù)量略增加,但檢測精度提升了1.6%;同時加入上述3 個模塊后,檢測精度提升了1.2%,幀率提高了83.9 幀/s。各模型訓練過程如圖7 所示。訓練至第45 輪時模型漸漸收斂并趨于穩(wěn)定。

圖7 各模型訓練過程Fig.7 Training process of each model

4.3 目標檢測實驗

為了驗證YOLOv5s-GAD 模型的檢測效果,采用常用的Faster RCNN,YOLOv3 及YOLOv5s 進行對比實驗。同樣在Miner21 數(shù)據(jù)集上進行100 輪迭代訓練,結(jié)果如圖8 所示??煽闯鯵OLOv3 模型出現(xiàn)了漏檢情況,且精度較低,YOLOv5s-GAD 模型的精度最高,說明在自定義的驗證集上,引入注意力機制后的模型更適合井下低照度的特殊需求,目標檢測效果更好。

圖8 各種目標檢測模型效果對比Fig.8 Comparison of effects of various target detection models

各種目標檢測模型對比實驗結(jié)果見表2??煽闯鯵OLOv5s-GAD 模型雖然檢測精度低于Faster RCNN,但是速度提升了近16 倍;與YOLOv3 模型相比,YOLOv5s-GAD 模型平均精度提升了24.9%,幀率提升了119.8 幀/s;與原始的YOLOv5s 模型相比,YOLOv5s-GAD 模型平均精度提升了1.2%,幀率提升了83.9 幀/s,模型的訓練速度及精度都得到了明顯提升。

表2 目標檢測模型實驗結(jié)果Table 2 Experimental results of target detection models

4.4 多目標檢測與跟蹤聯(lián)合算法性能驗證

為了驗證多目標檢測與跟蹤聯(lián)合算法的有效性,采用常見的多目標跟蹤算法進行對比,包括IOU17[25],MOTDT17[26],Deep SORT,F(xiàn)airMOT[27]。采用MOT17 中除MOT17-06 以外的視頻序列進行實驗,并選取文獻[28]提出的部分常用評價指標進行評估,結(jié)果見表3。其中A為多目標跟蹤準確率,R為正確識別的檢測數(shù)與真實檢測數(shù)的比值,I為跟蹤目標身份切換次數(shù),T為成功跟蹤目標百分比,L為丟失目標百分比??煽闯鯥OU17 算法雖然速度最快,但是準確率低于本文算法;MOTDT,Deep SORT,F(xiàn)airMOT 雖然準確率高,但幀率遠低于本文算法,實時性得不到保障。權衡速度與準確率,在MOT17 測試序列上,采用YOLOv5s-GAD 模型和改進Deep SORT 算法時人員身份轉(zhuǎn)換次數(shù)最少,行人重識別效果最好。

表3 多目標檢測與跟蹤聯(lián)合算法實驗結(jié)果Table 3 Experimental results of joint algorithms of multi-target detection and tracking

聯(lián)合YOLOv5s-GAD 模型和改進Deep SORT 算法進行多目標檢測與跟蹤,結(jié)果如圖9 所示??煽闯鲈谶B續(xù)序列幀中,即使出現(xiàn)行人交錯重疊,跟蹤的ID 號也沒有發(fā)生改變,對新出現(xiàn)的井下礦工也能及時跟蹤并匹配ID,跟蹤效果良好。

圖9 井下礦工多目標檢測與跟蹤結(jié)果Fig.9 Multi-target detection and tracking results of underground miners

5 結(jié)論

(1)通過引入GhostConv 模塊和DWConv 模塊,替換YOLOv5s 模型骨干網(wǎng)路和路徑聚合網(wǎng)絡中的BottleneckCSP 模塊,提高礦工目標的特征提取速度。通過引入ECA-Net 模塊,提高礦工多目標檢測精度。

(2)使用全尺度網(wǎng)絡替換Deep SORT 中的淺層殘差網(wǎng)絡,可進一步減少人員身份轉(zhuǎn)換次數(shù),更好地實現(xiàn)行人重識別,提高目標跟蹤的準確性。

(3)實驗結(jié)果表明:在自定義數(shù)據(jù)集Miner21上,YOLOv5s-GAD 模型的平均精度達97.8%,幀率達140.2 幀/s;在公開行人數(shù)據(jù)集MOT17 上,多目標檢測與跟蹤聯(lián)合算法的速度與準確率等綜合性能優(yōu)于IOU17,Deep SORT 等常用多目標跟蹤算法,能夠滿足井下礦工多目標跟蹤的實時性和準確性需求。

猜你喜歡
礦工特征提取卷積
基于新SEIRS 的礦工不安全行為傳播分析
基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
金牌挖礦工
礦工
卷積神經(jīng)網(wǎng)絡的分析與設計
空間目標的ISAR成像及輪廓特征提取
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
基于特征提取的繪本閱讀機器人設計方案
從濾波器理解卷積
基于Daubechies(dbN)的飛行器音頻特征提取