国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向智慧工廠的雙光融合車間人員行為識別方法

2022-08-25 02:12任丹彤何赟澤劉賢金王彥鑫譙靈俊
測控技術(shù) 2022年8期
關(guān)鍵詞:置信度紅外車間

任丹彤, 何赟澤,2*, 劉賢金, 易 輝, 王彥鑫, 譙靈俊

(1.湖南大學 電氣與信息工程學院,湖南 長沙 410082;2.高性能智能傳感器及檢測系統(tǒng)湖南省重點實驗室,湖南 長沙 410082;3.湖南紅太陽新能源科技有限公司,湖南 長沙 410205)

在產(chǎn)業(yè)智能化升級的趨勢下,越來越多的企業(yè)正試圖通過機器人和人工智能等技術(shù),打造智慧工廠[1]。在智慧工廠中,工人的活動范圍較廣且環(huán)境復(fù)雜,車間內(nèi)嚴禁使用明火、抽煙、打電話等易造成事故的行為發(fā)生。如果采用傳統(tǒng)的人工分析視頻的方法來監(jiān)控人員行為,耗時費力且容易出現(xiàn)疏漏,因此迫切需要研究面向智慧工廠的車間人員行為識別方法,從而實現(xiàn)智能化的安防管控。

早期對行為識別的研究是將運動人體的輪廓、運動方向等作為特征信息進行識別,主要包括時空興趣點法和運動軌跡法[2]等,改進的密集軌跡(Improved Dense Trajectories,IDT)算法是其中最經(jīng)典的模型。隨著人體三維數(shù)據(jù)采集技術(shù)的發(fā)展,行為識別可大致分為兩類。一類是基于骨骼關(guān)鍵點的行為識別[3],利用視頻幀之間關(guān)鍵點的變化描述人體行為。Yan等[4]通過骨骼序列構(gòu)建時空圖,提出了基于骨架的動作識別時空圖卷積網(wǎng)絡(luò)(Spatial Temporal Graph Convolutional Networks,ST-GCN)。Plizzari等[5]提出的時空轉(zhuǎn)換網(wǎng)絡(luò)(Spatial-Temporal Transformer Network,ST-TR)針對ST-GCN只能捕捉局部特征這一不足進行了改進,提出了空間自注意力模塊(Spatial Self-Attention,SSA)和時間自注意力模塊(Temporal Self-Attention,TSA)來捕捉特征。另一類是基于RGB的深度學習方法,根據(jù)要處理的輸入任務(wù)可分為基于視頻和基于圖像的行為識別?;谝曨l的行為識別方法是給定剪輯好的視頻行為片段,輸出視頻級的行為類別,主流方法有TSN(Temporal Segment Networks)[6]、TSM(Temporal Shift Module)[7]、SlowFast、TimeSformer(Time-Space Transformer)等。TSN屬于雙流法(Two-Stream),將特征提取分為2路,一路分支使用RGB視頻幀提取空間特征,另一路對時間提取光流特征。Feichtenhofer等[8]提出的SlowFast與雙流法思路類似,Slow分支用于學習空間語義信息,F(xiàn)ast分支學習運動信息。Facebook提出的TimeSformer[9]是一種無卷積的視頻分類方法,基于Transformer模型的自注意力機制,對一系列視頻幀提取時空序列并單獨應(yīng)用時間注意力和空間注意力進行學習?;趫D像的行為識別方法分為以殘差網(wǎng)絡(luò)(ResNet)為代表的行為分類和以YOLO(You Only Look Once)為代表的行為檢測。ResNet輸出的是圖像級的分類結(jié)果,YOLO是對輸入的視頻幀中的每個目標進行定位和類別檢測,是一種端到端的訓(xùn)練和推斷方法。

車間行為多為人和物的交互,基于骨骼關(guān)鍵點的行為識別方法僅輸入關(guān)鍵點的坐標信息,丟棄了關(guān)鍵的物體和語義信息,難以區(qū)分相似動作(如打電話和摸耳朵)。基于RGB的深度學習方法中,多數(shù)方法對輸入數(shù)據(jù)的處理要求嚴格,為保證充分的模型訓(xùn)練需要大量的數(shù)據(jù),對計算設(shè)備的要求高,推理速度也有所欠缺。其中,基于圖像的行為識別方法由于采用端到端的網(wǎng)絡(luò)結(jié)構(gòu),推理速度較快,模型體積較小且容易部署。

上述兩類行為識別方法都是基于可見光的視頻輸入[10],可見光圖像雖然含有清晰豐富的紋理細節(jié),但在車間某些昏暗或隱蔽的環(huán)境下觀測效果差,容易遺漏目標。相反紅外圖像能夠根據(jù)輻射差異將目標與背景區(qū)分開,特征更為突出。常用的監(jiān)控視頻包括紅外和可見光2種,僅使用紅外識別的方法也存在分辨率較低和細節(jié)缺失的問題,因此考慮將可見光圖像和紅外圖像進行融合,彌補單一傳感器成像的不足,從而提高識別精度。融合方式包括像素級融合、特征級融合和決策級融合。像素級融合[11]和特征級融合[12]在對算力和時間的需求上都比決策級融合要高,而決策級融合[13]能夠吸取可見光和紅外的互補信息達到全局最優(yōu)。

為了有效地規(guī)范車間人員的行為,針對傳統(tǒng)監(jiān)控方式耗時費力和單一數(shù)據(jù)源易受環(huán)境影響識別效果差的問題,筆者提出一種面向智慧工廠的雙光融合車間行為的識別方法。主要工作為建立了包含9類車間行為的可見光數(shù)據(jù)集和紅外數(shù)據(jù)集,用于重新訓(xùn)練YOLOv5網(wǎng)絡(luò);提出了決策級融合算法,用于同時識別可見光和紅外數(shù)據(jù)中的目標并進行融合,作為最終融合圖像中的檢測結(jié)果;通過實驗將本文算法與其他算法的檢測結(jié)果進行對比,能夠減少漏檢的情況,提高行為識別的效果和精度。

1 面向智慧工廠的雙光融合車間行為識別方法

1.1 方法概述

本文提出的雙光融合行為識別方法如圖1所示。首先獲取可見光數(shù)據(jù)與紅外數(shù)據(jù),建立車間可見光-紅外行為數(shù)據(jù)集,使用YOLOv5網(wǎng)絡(luò)分別訓(xùn)練可見光模型YOLO_VI和紅外模型YOLO_IR。從測試集中抽取數(shù)據(jù)制作可見光-紅外圖像對,使用模型同時對可見光-紅外圖像對進行推理預(yù)測。根據(jù)融合策略對2個模型預(yù)測的結(jié)果進行決策融合,從而得到最終融合圖像的行為識別結(jié)果。

圖1 雙光融合行為識別方法

1.2 異常行為的定義

異常行為的定義[14]是在某場景下正常位置和正常時刻發(fā)生的不尋常的動作、姿態(tài)或事件。以本項目智慧車間為例,雖然車間內(nèi)有一套嚴格的生產(chǎn)行為規(guī)范,但是仍有部分員工無法按照制定的操作規(guī)范進行操作;且車間范圍大,內(nèi)有多個分區(qū)和通道,易產(chǎn)生視覺盲區(qū),如有員工突發(fā)不適會難以察覺;另外,車間內(nèi)部嚴禁明火、吸煙和不規(guī)范操作的行為出現(xiàn)。在此基礎(chǔ)上經(jīng)過調(diào)研和走訪,設(shè)計了6類異常行為和3類工作行為,行為類別如表1所示。

表1 行為類別

1.3 動作檢測網(wǎng)絡(luò)

YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)分為輸入端、主干網(wǎng)絡(luò)(Backbone)、中間層(Neck)和輸出端4個部分[15]。在輸入端使用自適應(yīng)錨框計算方式;對原始圖像自適應(yīng)地添加最少的黑邊,減少信息冗余;采用Mosaic數(shù)據(jù)增強,隨機使用4張圖片隨機縮放再隨機分布拼接,豐富了數(shù)據(jù)集,使網(wǎng)絡(luò)的魯棒性更好。

主干網(wǎng)絡(luò)使用2種CSP模塊,如圖2所示。

圖2 CSP模塊

圖2中,CSP1_X結(jié)構(gòu)應(yīng)用于主干網(wǎng)絡(luò),在反向傳播時增強梯度值,可以有效防止網(wǎng)絡(luò)加深時引起的梯度消失,使特征粒度更細。CSP2_X結(jié)構(gòu)應(yīng)用于Neck中,保留了更豐富的特征信息,同時降低了計算瓶頸,減少了內(nèi)存成本。中間層引入了SPP模塊,如圖3所示,與單純使用k×k最大池化的方式相比,其能夠有效增加主干特征的接收范圍,更好地提取融合特征。

圖3 SPP模塊

1.4 決策級融合

1.4.1 融合前訓(xùn)練

紅外圖像與可見光圖像包含的細節(jié)信息不同,為保證融合前檢測的準確性,分別使用可見光數(shù)據(jù)集和紅外數(shù)據(jù)集重新訓(xùn)練YOLOv5網(wǎng)絡(luò),得到權(quán)重模型。

1.4.2 圖像對匹配

融合應(yīng)對目標的位置和行為類別均進行融合,由于可見光和紅外像素不同,在相同焦距拍攝的情況下存在廣度差異,需要對融合所需的數(shù)據(jù)進行預(yù)處理,即制作匹配的圖像對。

1.4.3 融合策略

用訓(xùn)練好的權(quán)重模型對紅外-可見光圖像對預(yù)測,下面以可見光圖像中某一目標M的檢測結(jié)果為例進行說明。

(1)判定目標僅在可見光圖像中被檢測到。

此時有如下關(guān)系:

scoreA≥a,IOU(A,B)

(1)

式中:scoreA為目標M的可見光檢測框A的置信度;A、B分別為目標M的可見光檢測框和對應(yīng)紅外圖像中與M類別相同的紅外檢測框;a為置信度閾值,值為0.5;b為重疊度IOU閾值,值為0.6。

首先判斷可見光圖像中目標M的檢測框是否正確,如果該檢測框置信度大于或等于閾值a,說明預(yù)測正確并保留結(jié)果;如果小于閾值a,說明預(yù)測結(jié)果不正確,舍棄結(jié)果。進而遍歷對應(yīng)的紅外圖像中與目標M類別相同的檢測框,分別與目標M的可見光檢測框做IOU計算,計算公式為

(2)

式中:area(A)為目標M的可見光檢測框A的面積;area(B)為與目標M同類別的紅外檢測框B的面積。

如果IOU小于所設(shè)定的閾值b,說明目標M僅在可見光中被檢測到,將該檢測框的位置和類別作為對應(yīng)融合目標的檢測結(jié)果。

同樣地,該方法用于判定目標僅在紅外圖像中被檢測到。

(2)判定目標在可見光圖像和紅外圖像中同時被檢測到。

此時有如下關(guān)系:

scoreA≥a,scoreB≥a,IOU(A,B)≥b

(3)

式中:scoreA和scoreB分別為目標M的可見光檢測框和紅外檢測框的置信度;在可見光圖像中目標M檢測結(jié)果正確的前提下,從相應(yīng)的紅外圖像中選擇與目標M類別相同的檢測框,分別計算這些紅外檢測框與M檢測框的IOU。如果IOU大于或等于閾值b,說明紅外檢測框檢測到的是目標M。進而從這些紅外檢測框中選擇置信度大于或等于閾值a的檢測框,則該檢測框為目標M在對應(yīng)紅外圖像中的檢測框。

同樣地,該方法用于判定紅外圖像中被檢測到的目標是否在對應(yīng)可見光圖像中被檢測到。

(3)融合檢測結(jié)果。

如果目標M同時在紅外圖像和可見光圖像中被檢測到,對2個檢測框的位置和置信度進行融合,可以得到融合檢測框的位置和置信度。

L=λVLVI+λILIR

(4)

式中:L為融合檢測框的位置;LVI為可見光檢測框的位置;LIR為紅外檢測框的位置;λV為LVI對應(yīng)的權(quán)值;λI為LIR對應(yīng)的權(quán)值。

融合檢測框的位置由紅外檢測框的位置和可見光檢測框的位置加權(quán)融合得到,λV和λI取0.5。

S=λ1SVI+λ2SIR

(5)

式中:S為融合檢測框的置信度;SVI為可見光檢測框的置信度;λ1為SVI對應(yīng)的權(quán)值;SIR為紅外檢測框的置信度;λ2為SIR對應(yīng)的權(quán)值。

對2個預(yù)測框的置信度進行加權(quán)作為融合預(yù)測框的置信度。

2 雙光數(shù)據(jù)集制作

雙光數(shù)據(jù)集制作分為2步:① 對原視頻進行處理得到源數(shù)據(jù)集,用于訓(xùn)練雙光模型進行融合前的預(yù)測;② 從源數(shù)據(jù)集中抽取部分對應(yīng)的可見光與紅外圖像,制作圖像對,用于驗證融合算法的有效性。

2.1 單獨訓(xùn)練所需數(shù)據(jù)集

本實驗數(shù)據(jù)是在湖南紅太陽新能源科技有限公司車間內(nèi)進行采集,拍攝場景包括車間內(nèi)的隱蔽場景、無遮擋物的寬闊場景、不同工位所在的場景,對單人和多人行為均進行采集。拍攝過程中將可見光相機和熱像儀放置于同一水平面并保持相對靜止,同時刻觸發(fā),同角度采集??梢姽庀鄼C分辨率為1920像素×1080像素,幀率為30 f·s-1;熱像儀分辨率為640像素×512像素,幀率為30 f·s-1。

對采集到的視頻進行標準化數(shù)據(jù)處理,經(jīng)過視頻抽幀和對高相似度圖片去重后,篩選得到原始圖片,再人工進行標注和多次審核,獲得可見光數(shù)據(jù)集10900張,紅外數(shù)據(jù)集10900張;行為類別分為玩手機、打電話、躺倒、打架、吸煙、持刀危險、工作行為1、工作行為2和工作行為3,共9個類別。按照8∶2的比例隨機劃分訓(xùn)練集和測試集,其中可見光訓(xùn)練集有8720張、測試集有2180張,紅外訓(xùn)練集有8720張、測試集有2180張??梢姽鈹?shù)據(jù)集組成和紅外數(shù)據(jù)集組成分別如表2和表3所示。

表2 可見光數(shù)據(jù)集組成

表3 紅外數(shù)據(jù)集組成

2.2 決策融合所需數(shù)據(jù)集

由于可見光相機和熱像儀的拍攝廣度和像素不同,直接融合會出現(xiàn)預(yù)測框的不匹配。因此需要以可見光圖像大小為基準,對紅外圖像進行預(yù)處理。由于拍攝過程中2個設(shè)備保持相對靜止、相聚很近且均朝正前方拍攝,可近似認為光軸幾乎平行,則在同一時刻觸發(fā)拍攝得到的可見光圖片與紅外圖片可以通過仿射變換關(guān)系實現(xiàn)匹配。匹配示例如圖4所示。

圖4 匹配示例

從測試集中抽取部分對應(yīng)圖片,制作342對可見光-紅外圖像對,重新進行標注和審核,融合標注規(guī)范要求包括所有的可見光目標和紅外目標,標注結(jié)果作為ground-truth進行后續(xù)測試計算,為保證測試結(jié)果的有效性,該圖像對中各類別行為所占比例應(yīng)盡可能相同。

3 實驗結(jié)果與分析

本文實驗所用CPU處理器為i9-10900X,GPU處理器為RTX3090,軟件環(huán)境為Python 3.8。為了驗證融合算法的有效性,將通過3個方面進行評估,其中檢測精度由平均精度mAP(Mean Average Precision)和召回率(Recall)評估,檢測速度由每秒推理的圖片數(shù)量(Frame Per Second,F(xiàn)PS)評估。

3.1 實驗結(jié)果

使用融合算法在服務(wù)器上對342對紅外-可見光圖像對進行測試,其平均精度為93.04%,召回率為93%,推理速度達到61.3 f·s-1滿足實時檢測的要求。融合后各類別數(shù)據(jù)檢測精度如圖5所示。

圖5 本文融合算法各類測試結(jié)果

將融合算法檢測結(jié)果與YOLOv5網(wǎng)絡(luò)僅識別可見光圖像和僅識別紅外圖像的結(jié)果進行比較,從圖6左圖可以看出,僅識別可見光圖像時檢出2個目標,僅識別紅外圖像時沒有檢出右側(cè)的目標,而本文算法在對應(yīng)的融合圖像中同時檢測出2個目標“吸煙”;從圖6右圖可以看出,僅識別可見光圖像時沒有檢出目標“持刀危險”,本文融合算法在對應(yīng)的融合圖像中檢出了漏檢的“持刀危險”,提高了識別精度。

圖6 檢測結(jié)果示例

3.2 對比實驗

為了驗證融合算法的優(yōu)勢,需要與其他算法的檢測結(jié)果比較。由于目前沒有通用的決策級融合算法,故采用特征級融合算法結(jié)果進行比較。這里使用ADF[16]、GFCE[17]、IFEVIP[18]、TIF[19]和GFF[20]這5種融合算法進行對比。基于ADF的融合檢測方法是通過各向異性擴散對細節(jié)層和基礎(chǔ)層線性疊加得到融合圖像,再使用YOLOv5網(wǎng)絡(luò)對融合圖像檢測?;贕FCE的融合檢測方法是通過混合多尺度分解與融合得到融合圖像,再使用YOLOv5網(wǎng)絡(luò)對融合圖像檢測?;贗FEVIP的融合檢測方法是通過重建紅外背景進行圖像融合,再使用YOLOv5網(wǎng)絡(luò)對融合圖像檢測?;赥IF的融合檢測方法是通過加權(quán)平均策略對基礎(chǔ)層和細節(jié)層進行融合,再使用YOLOv5網(wǎng)絡(luò)對融合圖像檢測?;贕FF的融合檢測方法是使用多種濾波器進行圖像融合,再使用YOLOv5網(wǎng)絡(luò)對融合圖像檢測。各融合算法檢測示例如圖7所示,在同一數(shù)據(jù)集上的算法性能對比結(jié)果如表4所示。

表4 算法性能對比

從圖7可以看出,本文融合算法檢測到了所有目標,其余算法均有漏檢的情況。本文融合算法的平均精度與YOLO_VI和YOLO_IR相比,分別提升了3.43%和0.84%;與ADF融合檢測、GFCE融合檢測、IFEVIP融合檢測、TIF融合檢測和GFF融合檢測相比,平均精度分別提升了8.17%、8.43%、7.73%、18.34%和8.43%。實驗結(jié)果表明,本文提出的融合算法能夠利用紅外與可見光的互補性,有效地提升檢測精度,推理速度能夠滿足實時識別的要求。

圖7 各算法檢測示例

4 結(jié)束語

以工業(yè)車間為背景,針對傳統(tǒng)監(jiān)控采用單一成像的方式且難以規(guī)范人員行為的問題,提出一種雙光融合行為識別算法。融合算法在使用YOLOv5網(wǎng)絡(luò)訓(xùn)練可見光與紅外數(shù)據(jù)的基礎(chǔ)上,用決策級融合方式對檢測結(jié)果進行處理,從而獲得融合后的行為識別結(jié)果。與其他算法相比,該算法對漏檢問題有明顯改善,識別精度均有提升。而且模型能夠部署在嵌入式平臺實現(xiàn)在線檢測,可用于監(jiān)控車間的安全生產(chǎn),及時發(fā)現(xiàn)異常行為并進行預(yù)警。

對未來的研究工作需要注意以下2點。

① 人-物交互行為的識別需要依靠檢測算法,如何提高對小目標的檢測能力是研究的重點之一。一方面可以利用生成對抗網(wǎng)絡(luò)提高小目標的分辨率實現(xiàn)圖像增強;另一方面可增加小目標的檢測層獲取更大的特征圖,同時要考慮由計算量增加引起的速度下降問題。

② 考慮引入骨骼識別等構(gòu)建時間和空間信息的網(wǎng)絡(luò),這對于判別行為發(fā)生的始末實現(xiàn)在線檢測具有重要意義。

猜你喜歡
置信度紅外車間
基于數(shù)據(jù)置信度衰減的多傳感器區(qū)間估計融合方法
網(wǎng)紅外賣
一種基于定位置信度預(yù)測的二階段目標檢測方法
“資源一號”02衛(wèi)星可見近紅外相機、寬幅紅外相機在軌順利開機成像
100MW光伏車間自動化改造方案設(shè)計
閃亮的中國紅外『芯』
湯定元:中國紅外事業(yè)奠基人
“扶貧車間”拔窮根
校核、驗證與確認在紅外輻射特性測量中的應(yīng)用
A7_p69
将乐县| 龙陵县| 新郑市| 景德镇市| 望谟县| 长岛县| 无极县| 岳普湖县| 额济纳旗| 通渭县| 宁波市| 盐池县| 莱芜市| 延长县| 厦门市| 株洲市| 蒙自县| 二手房| 锡林浩特市| 威信县| 平谷区| 南平市| 宁阳县| 霞浦县| 集安市| 泉州市| 伊春市| 鄂伦春自治旗| 苍南县| 启东市| 民和| 分宜县| 芦溪县| 靖宇县| 阿克陶县| 新乡市| 霍州市| 双柏县| 运城市| 淮阳县| 松阳县|