国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合關(guān)鍵點(diǎn)和注意力機(jī)制的人員著裝檢測(cè)方法

2023-03-14 03:50孔華永聶志勇隋立林張金祿
關(guān)鍵詞:工裝姿態(tài)人體

孔華永,聶志勇,隋立林,張金祿

(1.國(guó)家能源集團(tuán)信息公司 綜合自動(dòng)化部, 北京 100011;2.武漢大學(xué) 測(cè)繪遙感信息工程國(guó)家重點(diǎn)實(shí)驗(yàn)室, 武漢 430072)

0 引言

大規(guī)模集中工業(yè)化生產(chǎn)線可以提高工業(yè)生產(chǎn)效率和質(zhì)量,在實(shí)際的工業(yè)生產(chǎn)環(huán)境中,工作人員的安全保障和監(jiān)管系統(tǒng)對(duì)構(gòu)建持續(xù)化高質(zhì)量的工業(yè)生產(chǎn)系統(tǒng)有著至關(guān)重要的作用。其中,對(duì)于工作人員的著裝規(guī)范性檢測(cè)對(duì)防范安全事故尤為重要——比如在礦場(chǎng)的工作人員,如果不按照要求進(jìn)行著裝,防護(hù)措施不到位將對(duì)工作人員生命安全和生產(chǎn)線造成不可挽回的損失。但是,目前關(guān)于工業(yè)生產(chǎn)場(chǎng)景下的安全監(jiān)管系統(tǒng)大多數(shù)依賴人工完成,消耗了大量人力成本,并缺乏統(tǒng)一的規(guī)范化管理和評(píng)判標(biāo)準(zhǔn)。并且,工作人員著裝的檢測(cè)和監(jiān)管具有出現(xiàn)頻率稀疏和持續(xù)時(shí)間短的特點(diǎn),依賴人工的監(jiān)管系統(tǒng)往往存在較多漏報(bào),且無法滿足從海量視頻大數(shù)據(jù)信息中快速檢測(cè)篩選有效信息的需求。因此,人員著裝規(guī)范性檢測(cè)方法的研究具有十分重要的現(xiàn)實(shí)意義和應(yīng)用價(jià)值。

人員著裝檢測(cè)首先要對(duì)人體進(jìn)行檢測(cè),目前的人員檢測(cè)方法往往依賴于現(xiàn)有的成熟的目標(biāo)檢測(cè)技術(shù),然后在目標(biāo)檢測(cè)方案的基礎(chǔ)上進(jìn)行細(xì)粒度的特征提取、分析和識(shí)別,使模型達(dá)到判斷人員是否規(guī)范著裝的目的。最初,傳統(tǒng)方法的監(jiān)控系統(tǒng)中的目標(biāo)檢測(cè)技術(shù)往往通過人工構(gòu)建的幾何特征或紋理特征[1-3]完成對(duì)圖像的分析,但這種方法由于缺少數(shù)據(jù)驅(qū)動(dòng)的特性,往往只能在部分常規(guī)場(chǎng)景中保持較好的效果,但在異常環(huán)境(如黑暗的礦井,多人互遮擋的入口處等)中的檢測(cè)效果會(huì)有漏檢、誤檢等嚴(yán)重問題。之后,隨著深度學(xué)習(xí)的發(fā)展,出現(xiàn)了很多基于神經(jīng)網(wǎng)絡(luò)(neural network)的數(shù)據(jù)驅(qū)動(dòng)方法,可以在大規(guī)模數(shù)據(jù)集中取得更好的效果。YOLO系列[4-7]方法作為一階段目標(biāo)檢測(cè)方法的代表,由于其在效率和檢測(cè)質(zhì)量上取得較好的平衡,因此在實(shí)際工業(yè)場(chǎng)景取得了廣泛的應(yīng)用和推廣。對(duì)人體的檢測(cè)往往傾向于使用更快速的YOLO系列方法高效地獲取人體區(qū)域,從而可以對(duì)后續(xù)的各區(qū)域著裝規(guī)范性判斷進(jìn)行更復(fù)雜、細(xì)致地處理,并保持實(shí)時(shí)性處理性能。此外,在人員著裝檢測(cè)任務(wù)中,主要面臨的問題是人體的互遮擋、人體姿態(tài)變化和尺度變化,精確的目標(biāo)定位(便于人體不同區(qū)域的定位),密集和遮擋的目標(biāo)檢測(cè),加速檢測(cè)等問題,面對(duì)這些問題,需要魯棒性和針對(duì)性更強(qiáng)的設(shè)計(jì)方案。

在現(xiàn)階段的研究中,對(duì)于人員的著裝檢測(cè),現(xiàn)有的方法往往將其視為目標(biāo)檢測(cè)任務(wù)[8-11],即將畫面中的人體各部位(如頭部、腿部、軀干等)分別進(jìn)行定位、裁剪,然后送入對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行檢測(cè)與識(shí)別。但這些方法會(huì)帶來3個(gè)問題:

首先,區(qū)域的定位操作往往是基于先驗(yàn)知識(shí)和人體解剖結(jié)構(gòu)對(duì)圖片中的信息進(jìn)行的,雖然方式簡(jiǎn)單,但無法有效處理下蹲、彎腰等復(fù)雜姿態(tài)情況,這會(huì)帶來人體區(qū)域定位準(zhǔn)確度較低的缺陷,進(jìn)而影響分類的精度。

其次,對(duì)于不同人體部位服裝的識(shí)別在特征提取過程中往往相互獨(dú)立,只在最后的分類層進(jìn)行融合,或直接從整個(gè)人體區(qū)域進(jìn)行提取。這種做法雖然有利于提升計(jì)算效率,但有些部位具有像素低、特征區(qū)分較弱的特點(diǎn),因此不同部位(如胸部、腿部、肘部等)特征提取的互不相關(guān)會(huì)導(dǎo)致最終不同區(qū)域的檢測(cè)與分類難度提升。

最后,環(huán)境的復(fù)雜性和多變性(如光照、顏色等)對(duì)于人員著裝檢測(cè)的準(zhǔn)確性有很大的影響,但這方面很少被關(guān)注。

針對(duì)上述人員著裝檢測(cè)領(lǐng)域存在的問題,對(duì)該任務(wù)進(jìn)行深入調(diào)研,提出以下解決思路:

1)人體姿態(tài)估計(jì)算法可以從圖像或視頻當(dāng)中估計(jì)人體各個(gè)關(guān)節(jié)的關(guān)鍵點(diǎn),相比基于圖像的算法,人體姿態(tài)估計(jì)算法具有魯棒性高、對(duì)先驗(yàn)知識(shí)的依賴性較低的特點(diǎn),基于這種特點(diǎn),人體區(qū)域的定位可以基于人體姿態(tài)估計(jì)方法進(jìn)行,而不完全依賴先驗(yàn)知識(shí)和人體解剖結(jié)構(gòu)。

2)人體不同區(qū)域的特征提取應(yīng)該是全局-局部交互進(jìn)行的,而不只是從圖像的某一個(gè)區(qū)域或整幅圖像獲得特征,注意力機(jī)制具有對(duì)圖像全局建模的操作符(operator),并且具有出色的局部到全局的映射能力,因此本文考慮將注意力機(jī)制引入人員著裝檢測(cè)方法,優(yōu)化人體不同區(qū)域的特征提取過程和建立不同區(qū)域的特征之間的交互關(guān)系。

3)由于人員著裝檢測(cè)方法落地的場(chǎng)景往往復(fù)雜度高、差異性大,但人員著裝具有高統(tǒng)一性的特點(diǎn),因此對(duì)于圖像空間的預(yù)處理操作,將場(chǎng)景差異性和不同的背景語義信息進(jìn)行統(tǒng)一是至關(guān)重要的,觀察到RGB-HSV色彩空間的轉(zhuǎn)換可以有效解耦圖像空間中的色調(diào)(hue)、飽和度(saturation)和亮度(value),在HSV空間可以對(duì)背景信息進(jìn)行高效地過濾。

1 相關(guān)工作

1.1 目標(biāo)檢測(cè)方法

近年來,隨著視頻監(jiān)控系統(tǒng)的普及和成熟應(yīng)用,海量的視頻數(shù)據(jù)被捕獲和分析?;趫D像處理的目標(biāo)檢測(cè)方法得到快速發(fā)展,如在傳統(tǒng)方法中,目標(biāo)檢測(cè)技術(shù)首先對(duì)圖像進(jìn)行人工特征提取,常見的特征提取手段包括Harr (harr-like features) 方法[1],SIFT(scale invariant feature transform)方法[12]等。然后將提取到的特征送入分類器中進(jìn)行分類,常見的分類器有SVM(support vector machine)[13]和AdaBoost[14]等。但傳統(tǒng)的目標(biāo)檢測(cè)方法存在魯棒性較差、泛化性弱、時(shí)間復(fù)雜度高等缺陷,缺少數(shù)據(jù)驅(qū)動(dòng)特性,導(dǎo)致其在大規(guī)模數(shù)據(jù)場(chǎng)景下的效果遠(yuǎn)不如理論實(shí)驗(yàn)效果。隨著深度學(xué)習(xí)的廣泛應(yīng)用和卷積神經(jīng)網(wǎng)絡(luò)(CNN)[15]的快速發(fā)展,自從深度神經(jīng)網(wǎng)絡(luò)推廣后,目標(biāo)檢測(cè)作為一項(xiàng)基礎(chǔ)視覺任務(wù)受到啟發(fā),開始結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行研究。根據(jù)檢測(cè)結(jié)果的回歸過程,目前主流的目標(biāo)檢測(cè)研究方法可以被分為兩階段和一階段2種方式,其中前者將檢測(cè)結(jié)果(檢測(cè)框)的獲取定義為一種從粗到細(xì)的精細(xì)化過程,而一階段方法將檢測(cè)任務(wù)結(jié)果定義為一步到位的流程,直接獲取檢測(cè)框。以R-CNN[16]為主的兩階段方法主張先提取候選框,然后再對(duì)候選框進(jìn)行篩選和分類。YOLO是第一個(gè)基于深度學(xué)習(xí)方法的一階段檢測(cè)器。本文中使用了一個(gè)完全不同的檢測(cè)方案,即將單個(gè)神經(jīng)網(wǎng)絡(luò)應(yīng)用于整個(gè)圖像的檢測(cè),將圖像直接回歸得到候選框。從驗(yàn)證結(jié)果上看,YOLO系列工作相比R-CNN系列工作的最大不同在于YOLO系列[4-6]更好地兼顧了效率和精度的平衡。本文中使用了最新的YOLO系列版本即YOLOv4作為檢測(cè)任務(wù)的基準(zhǔn)網(wǎng)絡(luò)。

1.2 人體姿態(tài)估計(jì)方法

人體姿態(tài)估計(jì)是一項(xiàng)從圖像或視頻中得到預(yù)先定義的人體關(guān)鍵點(diǎn)(如肘部、腿部、頭部等)的視覺任務(wù)。本文中僅考慮面向圖像的2D人體姿態(tài)估計(jì)算法。當(dāng)前的研究工作大多數(shù)集中于多人場(chǎng)景,根據(jù)高級(jí)語義特征或低級(jí)圖像像素(即先檢測(cè)人體還是先檢測(cè)關(guān)鍵點(diǎn)),2D人體姿態(tài)估計(jì)方法可以被分為自上而下(top-down)方法和自下而上(bottom-up)方法。

自下而上(bottom-up)方法主張首先預(yù)測(cè)輸入圖像中每個(gè)人的身體部位,然后通過關(guān)鍵點(diǎn)匹配算法(如動(dòng)態(tài)規(guī)劃、匈牙利算法、貪婪算法等)得到每個(gè)人的關(guān)鍵點(diǎn)姿態(tài),根據(jù)不同的方法,檢測(cè)的最小單位可以是關(guān)節(jié)或肢體模板區(qū)域。而自上而下(top-down)方法主張首先檢測(cè)人體,將人體檢測(cè)進(jìn)行裁剪、精細(xì)化等處理后,再對(duì)單個(gè)人體分別檢測(cè)關(guān)鍵點(diǎn)。AlphaPose[17]使用了檢測(cè)方法中常見的非極大值抑制(NMS)和沙漏網(wǎng)絡(luò)(hourglass network)[18]提高多人姿態(tài)估計(jì)的準(zhǔn)確性。總的來說,自上而下方法通過將現(xiàn)有的檢測(cè)網(wǎng)絡(luò)和單個(gè)人體姿態(tài)估計(jì)網(wǎng)絡(luò)結(jié)合可以輕松實(shí)現(xiàn)自上而下的人體姿態(tài)估計(jì)方法,但是,這種方法的性能會(huì)受到人檢測(cè)結(jié)果的影響,并且實(shí)際推理速度(使用GPU設(shè)備)通常不是實(shí)時(shí)的。

綜上所述,自上而下和自下而上方法分別都取得了較好的表現(xiàn)并保持了各自的特點(diǎn)。但隨著圖像中人數(shù)的增加,自上而下方法的計(jì)算成本顯著增加,而自下而上方法則保持穩(wěn)定。 但伴隨著人體互遮擋、低分辨率等問題,自下而上的方法將會(huì)有更大的精度損失?;诒救蝿?wù)中已有且必須具備的人體檢測(cè)功能,在本文方法中,將兩階段的自上而下方法(即檢測(cè)人體和單人姿態(tài)估計(jì))進(jìn)行解耦,利用檢測(cè)出的人體進(jìn)行單人姿態(tài)估計(jì)得到每個(gè)人員的人體關(guān)鍵點(diǎn),同時(shí)降低模型計(jì)算量,提高模型推理速度。在已有行人檢測(cè)結(jié)果的基礎(chǔ)上,本文的姿態(tài)估計(jì)方法可以接近自下而上方法的效率。

1.3 注意力機(jī)制

注意力機(jī)制(attention mechanism)目前已經(jīng)被廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域的各項(xiàng)任務(wù)中(圖像分類、目標(biāo)檢測(cè)、姿態(tài)估計(jì)等)[1-3,19-20]。圖像任務(wù)中的注意力機(jī)制相關(guān)的研究工作大多數(shù)使用掩碼矩陣作為圖像中注意力的表征形式。自注意力機(jī)制(self-attention)屬于注意力機(jī)制的一種,也是在圖像任務(wù)中最廣泛應(yīng)用的注意力機(jī)制之一。在首先被ViT[1]應(yīng)用于圖像分類任務(wù)后,在取得亮眼表現(xiàn)的同時(shí),也促進(jìn)了自注意力機(jī)制在視覺任務(wù)中的改進(jìn)。對(duì)于圖像分類任務(wù)和目標(biāo)檢測(cè)任務(wù)而言,注意力機(jī)制已經(jīng)取得了非常矚目的成績(jī),但自注意力機(jī)制尚未被很好地應(yīng)用到人員著裝檢測(cè)任務(wù)當(dāng)中。因此,本文也是第一個(gè)嘗試將自注意力融入到人員著裝檢測(cè)任務(wù)的基準(zhǔn)方案中的,以使得網(wǎng)絡(luò)自適應(yīng)地關(guān)注人員著裝分類的重點(diǎn)區(qū)域,從而提高著裝分類的整體精度。

2 算法設(shè)計(jì)與模型結(jié)構(gòu)

2.1 任務(wù)定義與算法流程

人員著裝檢測(cè)方法的輸入為待檢測(cè)的圖像序列,幀率為25幀/s,對(duì)于輸入的每幅圖像,算法需要檢測(cè)人員所在區(qū)域并準(zhǔn)確定位到人員的不同著裝部位(頭盔、工裝馬甲、工靴和除頭部以外的整體工裝),并對(duì)每個(gè)部位是否正確著裝進(jìn)行判別,輸出多分類概率結(jié)果,對(duì)于著裝違規(guī)的人員,記錄日志信息(時(shí)間、相機(jī)設(shè)備編號(hào)、人員坐標(biāo)、違規(guī)著裝圖片等)。人員著裝檢測(cè)算法是一個(gè)系統(tǒng)的,包含多個(gè)模型的多任務(wù)框架(人體檢測(cè),2D人體姿態(tài)估計(jì),局部圖像分類)。如圖1所示,本文的方法首先使用基于YOLOv4的人體檢測(cè)模型得到待檢測(cè)圖像序列中的人體區(qū)域,然后輸入到2D人體姿態(tài)估計(jì)算法中,得到每個(gè)人體區(qū)域的2D關(guān)鍵點(diǎn),然后使用人體著裝定位得到每個(gè)人體要進(jìn)行識(shí)別的區(qū)域,最終使用一個(gè)簡(jiǎn)單的圖像分類網(wǎng)絡(luò)對(duì)著裝區(qū)域進(jìn)行多分類,得到每個(gè)區(qū)域的分類結(jié)果。整個(gè)流程將人體著裝檢測(cè)任務(wù)解耦為多個(gè)子任務(wù),由于解耦后的每個(gè)子任務(wù)都屬于較為通用的任務(wù)場(chǎng)景,因此大規(guī)模數(shù)據(jù)集預(yù)訓(xùn)練模型的遷移學(xué)習(xí)效果很好,大大減少了算法的數(shù)據(jù)需求,同時(shí)可以保證數(shù)據(jù)驅(qū)動(dòng)帶來的模型通用性和良好的泛化性。

黑色框?yàn)槌绦虿襟E,藍(lán)色框?yàn)樗惴ㄕ{(diào)用的網(wǎng)絡(luò)模型

2.2 基于YOLOv4的人員檢測(cè)方法

本文的方法基于YOLOv4作為baseline,并結(jié)合YOLOv5方案的優(yōu)點(diǎn),在此基礎(chǔ)上根據(jù)實(shí)際情況進(jìn)行具體模型的選擇和模型的修改。借鑒了YOLOv5中的Focus操作,具體來說,在1張圖片中間隔像素進(jìn)行取值得到近鄰下采樣的結(jié)果,得到4張下采樣的圖片,4張圖片將輸入通道維度擴(kuò)充了4倍,即由原始圖片的RGB三通道模式變成了12個(gè)通道,最后將得到的新圖片再經(jīng)過卷積操作,最終得到了沒有信息丟失情況下的二倍下采樣特征圖。此外,由于傳統(tǒng)的SPP(spatial pyramid pooling)的多級(jí)卷積過程依然是檢測(cè)任務(wù)推理過程中的瓶頸,通過統(tǒng)一卷積核尺寸,應(yīng)用一次卷積和分級(jí)池化的策略將SPP升級(jí)為SPPF(spatial pyramid pooling-fast),金字塔池化模塊可以進(jìn)一步提高推理速度,降低了卷積層的計(jì)算量,網(wǎng)絡(luò)在實(shí)際訓(xùn)練中的運(yùn)算速度也得到提升。在訓(xùn)練時(shí),首先加載預(yù)訓(xùn)練的YOLOv4權(quán)重,并修改最后一層的檢測(cè)結(jié)果,使其只檢測(cè)本文需要的結(jié)果,即行人類別,最后,在自己收集的小規(guī)模數(shù)據(jù)集上進(jìn)行遷移學(xué)習(xí),優(yōu)化行人檢測(cè)的效果。此外,本文還添加了部分后處理操作,對(duì)圖像中的非規(guī)則人體、缺失人體或極小目標(biāo)進(jìn)行篩選,此過程基于檢測(cè)框比例和人體結(jié)構(gòu)的先驗(yàn)知識(shí),無需占用計(jì)算量即可快速完成篩選。

2.3 基于人體姿態(tài)估計(jì)的區(qū)域定位方法

在基于人體姿態(tài)估計(jì)的區(qū)域定位方法部分,本文使用了基于AlphaPose的2D人體姿態(tài)估計(jì)網(wǎng)絡(luò)獲取每個(gè)人員的身體關(guān)鍵點(diǎn),并基于獲得的人體關(guān)鍵點(diǎn)檢測(cè)結(jié)果和區(qū)域定位策略,準(zhǔn)確定位不同姿態(tài)下的人體局部區(qū)域,從原圖裁剪各區(qū)域并輸入后續(xù)多級(jí)特征自注意力機(jī)制和多分類模型,實(shí)現(xiàn)著裝特征提取和違規(guī)工裝的識(shí)別。

圖2 2D人體姿態(tài)估計(jì)方法

在得到人體姿態(tài)估計(jì)的結(jié)果后,對(duì)每個(gè)人體進(jìn)行切分定位。如圖3所示,具體的各部位定位策略為:頭和脖子均被檢測(cè)到時(shí)定位到頭部區(qū)域,高度為頭部到脖子的距離適當(dāng)擴(kuò)增,寬度則根據(jù)左右肩部關(guān)節(jié)點(diǎn)與胸部關(guān)節(jié)點(diǎn)的中點(diǎn)進(jìn)行定位;馬甲(上衣)定位由左右肩部和左右臀部進(jìn)行確定;工靴定位則由左右膝蓋和左右腳部構(gòu)成的矩形區(qū)域完成。

圖3 人體工裝定位示意圖

2.4 RGB-HSV空間變換預(yù)處理

使用RGB到HSV空間的變換對(duì)人體的整體區(qū)域進(jìn)行篩選,為工裝分類提供輔助參考,該操作無需神經(jīng)網(wǎng)絡(luò)參與,且操作簡(jiǎn)單,計(jì)算量可以忽略不計(jì)。顏色空間又稱為彩色模型,以某些通??梢越邮艿姆绞綄?duì)該空間中的所有色彩加以表示和說明。在顏色空間中,通常由3個(gè)獨(dú)立的屬性來描述顏色,常見的有 RGB、HSV、CMY、YUV 等[4]。在 RGB 顏色空間中,各顏色分量的數(shù)值越小表示亮度越低,數(shù)值越大表示亮度最高,各顏色分量的強(qiáng)度范圍為 0~255。任意顏色的 RGB 顏色空間構(gòu)成的數(shù)學(xué)表達(dá)式為:

F=r[R]+g[G]+b[B]

(1)

HSV顏色空間是一種亮分離顏色空間,分別為色相(hue)、飽和度(saturation)和明度(value)。色相是色彩的基本屬性,在六角錐體模型中通過從0°~360°的不同角度來度量顏色。飽和度按照顏色與光譜色的接近程度來度量,也就是色彩的純度。某種光譜色與白色混合得到一種顏色,其中光譜色所占的比例愈大,顏色接近光譜色的程度就愈高,顏色的飽和度也就愈高。明度用于衡量顏色明亮的程度,當(dāng)衡量光源的顏色時(shí),發(fā)光物體的明亮程度決定了明度值的大小。

通過RGB-HSV轉(zhuǎn)換后,可以輕易地利用色彩、亮度和飽和度對(duì)人員整體著裝區(qū)域進(jìn)行區(qū)分,以獲取第一步判別(即整體工裝是否穿戴正確)的結(jié)果(如圖4所示),該操作無需任何神經(jīng)網(wǎng)絡(luò)參與,基于現(xiàn)有工裝的先驗(yàn)特征即可設(shè)定合適的色相、飽和度、明度的閾值進(jìn)行篩選,所需計(jì)算量可以忽略不計(jì)。通過RGB-HSV預(yù)處理篩選的結(jié)果可以輕易識(shí)別整體工裝是否正確,當(dāng)判別結(jié)果為不正確時(shí),本文方法直接進(jìn)行報(bào)警記錄。這樣既可以實(shí)現(xiàn)不依賴神經(jīng)網(wǎng)絡(luò)模型的快速檢測(cè),提高檢測(cè)效率,同時(shí)又可以一定程度上避免模型過擬合帶來的低泛化能力。

圖4 RGB-HSV變換預(yù)處理效果

2.5 基于注意力機(jī)制的多區(qū)域特征提取和分類

在各區(qū)域工裝判別分類階段,在圖像分類模型之前引入自注意力機(jī)制,通過訓(xùn)練學(xué)習(xí)少量額外參數(shù),使分類模型將注意力集中于輸入工裝部位中的重要區(qū)域,從而提升違規(guī)著裝識(shí)別的準(zhǔn)確率。如圖5所示,對(duì)于自注意力模塊,基于ViT[21]的圖像任務(wù)處理模式,將輸入圖像的不同區(qū)域視為不同的切塊,使用padding填充和雙線性插值的方式將圖像上采樣到相同大小。經(jīng)過以上預(yù)處理步驟后,再將得到的4個(gè)切塊進(jìn)一步切分(每個(gè)切塊切分為4個(gè)小patch)得到16個(gè)patch,通過一個(gè)由全連接層構(gòu)成的線性嵌入層(linear embedding layer)映射到高維特征空間,輸入到多頭自注意力機(jī)制計(jì)算相互之間的注意力掩碼矩陣,賦給原始patch映射的高維特征。將添加過注意力的圖像維特征恢復(fù)到原始大小,輸入到一個(gè)簡(jiǎn)單的 Resnet-50[22]網(wǎng)絡(luò)中,添加全連接分類層(共8類),得到最終的分類結(jié)果。

圖5 工裝分類模型框架與網(wǎng)絡(luò)結(jié)構(gòu)

3 實(shí)驗(yàn)及結(jié)果分析

3.1 數(shù)據(jù)集和實(shí)驗(yàn)配置

所有實(shí)驗(yàn)均在單張NVIDIA RTX 2080Ti上進(jìn)行,代碼基于Pytorch構(gòu)建,系統(tǒng)環(huán)境為Ubuntu 18.04。公平起見,本文的實(shí)驗(yàn)在公開數(shù)據(jù)集MSCOCO上測(cè)試人體檢測(cè)的效果,并在本文自定義的工裝數(shù)據(jù)集中驗(yàn)證最終的工裝檢測(cè)效果。

3.2 MSCOCO數(shù)據(jù)集

使用MSCOCO2017 val set目標(biāo)檢測(cè)數(shù)據(jù)集驗(yàn)證本文的人體檢測(cè)模型的精度。分別使用準(zhǔn)確率(AP,AP50,AP75)和推理速度(FPS)對(duì)模型進(jìn)行驗(yàn)證,并將最好的結(jié)果進(jìn)行標(biāo)粗。如表1所示,實(shí)驗(yàn)結(jié)果表明,相比通用的檢測(cè)方案,本文方法在人體檢測(cè)任務(wù)中表現(xiàn)優(yōu)異,在AP50和FPS推理速度上均達(dá)到了最優(yōu)結(jié)果,因此可以證明本文基于YOLOv4改進(jìn)的人體檢測(cè)方案可以實(shí)現(xiàn)快速推理的同時(shí),保持幾乎和通用檢測(cè)方案相同的精度表現(xiàn)。

表1 COCO2017人體檢測(cè)數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

3.3 自定義煤礦場(chǎng)景人員著裝檢測(cè)數(shù)據(jù)集

由于煤礦場(chǎng)地作業(yè)場(chǎng)景的特殊性,以及待檢測(cè)的安全帽和工裝馬甲,即工靴類別特征少見的特性,目前尚無統(tǒng)一的公開數(shù)據(jù)集支持任務(wù)驗(yàn)證。為了推進(jìn)該任務(wù)在領(lǐng)域內(nèi)發(fā)展以及合理驗(yàn)證本文方法的有效性,構(gòu)建了煤礦工作場(chǎng)景(安檢通道、礦井等)下的人員著裝數(shù)據(jù),針對(duì)煤礦作業(yè)構(gòu)建專用數(shù)據(jù)集。具體來說,對(duì)3 000張無序圖片分別進(jìn)行安全帽、工裝(藍(lán)色和橙色)、工裝馬甲和工靴進(jìn)行人工標(biāo)注,圖片分辨率為1 920 × 1 080,且其中2 030張圖像中均包含佩戴安全帽及防毒面具的工作人員。鑒于違規(guī)著裝的服裝多樣性,因此負(fù)樣本的搜集不能僅限于指定的工作場(chǎng)景中,從DeepFashion[23]篩選了1 000張站立全身著裝圖,分別進(jìn)行人工標(biāo)注和定位,添加到違規(guī)著裝的負(fù)樣本類別中。數(shù)據(jù)集樣本類別及數(shù)量見表2。

表2 自定義煤礦場(chǎng)景數(shù)據(jù)集樣本類別與數(shù)量

在自定義煤礦場(chǎng)景數(shù)據(jù)集中使用基于注意力機(jī)制的區(qū)域特征表示和多分類網(wǎng)絡(luò)進(jìn)行著裝分類實(shí)驗(yàn),得到結(jié)果如表3所示,實(shí)驗(yàn)證明本文的方案在該工作場(chǎng)景中可以達(dá)到優(yōu)異的效果,在開放世界中的推理結(jié)果的可視化實(shí)驗(yàn)見圖6。本文的方法在單張RTX 2080Ti上未經(jīng)任何推理加速方案(如Tensor RT等)即可達(dá)到29幀/s的檢測(cè)速度,完全可以滿足實(shí)時(shí)檢測(cè)任務(wù)的需求。

表3 人員著裝檢測(cè)結(jié)果

圖6 樣本可視化檢測(cè)場(chǎng)景

3.4 消融實(shí)驗(yàn)

為了驗(yàn)證各模塊對(duì)網(wǎng)絡(luò)模型整體結(jié)構(gòu)的貢獻(xiàn),在MSCOCO數(shù)據(jù)集上設(shè)計(jì)了系統(tǒng)的消融實(shí)驗(yàn),分別驗(yàn)證提出方法中2D姿態(tài)估計(jì)模型對(duì)著裝檢測(cè)的影響和改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)參數(shù)量及實(shí)時(shí)性的影響。首先,使用多種不同的2D姿態(tài)估計(jì)模型(OpenPose,AlphaPose以及本文的姿態(tài)估計(jì)模型)分別進(jìn)行著裝檢測(cè)任務(wù)的端到端訓(xùn)練,并在MSCOCO Keypoint Challenge數(shù)據(jù)集和自定義著裝檢測(cè)數(shù)據(jù)集上分別驗(yàn)證姿態(tài)估計(jì)精度和著裝檢測(cè)精度,結(jié)果如表4所示,本文的方法在精度上大幅優(yōu)于之前的OpenPose和AlphaPose,且改進(jìn)后的姿態(tài)估計(jì)模型相比AlphaPose模型推理速度也得到大幅提升,完全可以滿足實(shí)時(shí)性能的要求。

表4 COCO人體關(guān)鍵點(diǎn)數(shù)據(jù)集實(shí)驗(yàn)結(jié)果及著裝檢測(cè)準(zhǔn)確度

此外,為了驗(yàn)證模型的泛化性,在MSCOCO數(shù)據(jù)集上訓(xùn)練人體檢測(cè)數(shù)據(jù)集后,直接在自定義數(shù)據(jù)集中進(jìn)行遷移學(xué)習(xí),檢測(cè)數(shù)據(jù)集中的工裝及類別,同時(shí)對(duì)比本文所提出的方法(在MSCOCO訓(xùn)練人體定位和姿態(tài)估計(jì)任務(wù)后,再遷移到自定義數(shù)據(jù)集中),結(jié)果如表5所示,直接使用檢測(cè)模型完成端到端的著裝檢測(cè)任務(wù)時(shí),雖然推理速度略快于本文方法,但精確率和召回率方面均大幅落后于本文的方法。鑒于FPS指標(biāo)均可以達(dá)到實(shí)時(shí)性能,且由于去除了著裝部位的檢測(cè)回歸模塊,同時(shí)還可以一定程度上降低參數(shù)量,具有更好的泛化能力和遷移學(xué)習(xí)能力,因此本文方法是更適用于著裝檢測(cè)任務(wù)的解決方案。綜上所述,實(shí)驗(yàn)可以證明將著裝檢測(cè)任務(wù)解耦為人體定位與著裝分類任務(wù)具備更好的通用性。

表5 自定義數(shù)據(jù)集上本文方法與檢測(cè)任務(wù)模型精度

3.5 本文方法的限制及未來工作

不同于傳統(tǒng)的檢測(cè)方案,本文方法將著裝檢測(cè)任務(wù)解耦為人體區(qū)域定位和圖像分類任務(wù),有效提升了模型性能和效率。但同時(shí)本文方法存在小目標(biāo)著裝檢測(cè)能力較弱的問題,這主要是由于小目標(biāo)下的人體姿態(tài)難以準(zhǔn)確估計(jì),從而造成區(qū)域分割不準(zhǔn),且對(duì)于小目標(biāo)人體,即使較小的姿態(tài)誤差也會(huì)造成分割區(qū)域的不準(zhǔn)確,從而導(dǎo)致著裝分類準(zhǔn)確率下降。并且由于現(xiàn)實(shí)場(chǎng)景中小目標(biāo)常出現(xiàn)在畫面邊緣處,因此常常伴隨著邊緣畸變問題,這也增加了區(qū)域定位和分類的難度。因此之后的工作會(huì)集中在矯正畸變和考慮超分辨率重建等數(shù)據(jù)增強(qiáng)方案提升小目標(biāo)情況下的著裝檢測(cè)效果。

4 結(jié)論

1) 提出一種新穎的人員著裝檢測(cè)算法,該方法基于改進(jìn)的人體檢測(cè)算法和2D人體姿態(tài)估計(jì)模型對(duì)人員進(jìn)行精準(zhǔn)檢測(cè)和著裝區(qū)域的精準(zhǔn)定位,結(jié)合注意力機(jī)制和一個(gè)簡(jiǎn)單的多分類網(wǎng)絡(luò)完成最終的人員著裝檢測(cè)任務(wù)。

2) 實(shí)驗(yàn)證明,得益于精確的人體區(qū)域定位和RGB-HSV色彩空間變換預(yù)處理,算法的精度和效率可以得到保證,廣泛適用于多種工作場(chǎng)景,具有較好的魯棒性。

3) 本文算法涉及的模型包括3個(gè)獨(dú)立模塊,并且在工靴檢測(cè)實(shí)驗(yàn)中精度較低,因此,如何設(shè)計(jì)端到端優(yōu)化的人員著裝檢測(cè)模型和提升小目標(biāo)(工靴)檢測(cè)精度將是下一步的研究方向。

猜你喜歡
工裝姿態(tài)人體
人體“修補(bǔ)匠”
人體冷知識(shí)(一)
排便順暢,人體無毒一身輕
某型軸承防錯(cuò)工裝的設(shè)計(jì)
軸鉆斜孔工裝設(shè)計(jì)
攀爬的姿態(tài)
一種取出塑件殘余量的輔助工裝
全新一代宋的新姿態(tài)
跑與走的姿態(tài)
奇妙的人體止咳點(diǎn)