国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于分段線性激活的多任務(wù)行人目標(biāo)檢測(cè)識(shí)別算法研究

2024-04-18 10:12:23朱亞旋張達(dá)明尹榮彬吳繼超
汽車文摘 2024年4期

朱亞旋 張達(dá)明 尹榮彬 吳繼超

【摘要】通過(guò)在已有檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上增加解耦預(yù)測(cè)支路,實(shí)現(xiàn)了車載攝像頭下行人位置、人頭位置、行人年齡與遮擋屬性識(shí)別任務(wù),經(jīng)過(guò)試驗(yàn)論證了分類支路在不同網(wǎng)絡(luò)位置對(duì)檢測(cè)性能的影響。針對(duì)網(wǎng)絡(luò)部署中一些非線性激活函數(shù)算子不受工程環(huán)境支持這一問(wèn)題,提出了一種使用分段線性函數(shù)來(lái)擬合非線性激活函數(shù)的方法。經(jīng)過(guò)驗(yàn)證表明,該方法既提升了網(wǎng)絡(luò)識(shí)別的性能又為工程部署提供了便捷性。

關(guān)鍵詞:多任務(wù)識(shí)別;解耦預(yù)測(cè);擬合非線性;激活函數(shù)

中圖分類號(hào):TP277? ?文獻(xiàn)標(biāo)志碼:A? DOI: 10.19822/j.cnki.1671-6329.20220316

Research on Multi-Task Pedestrian Target Detection and Recognition Algorithm Based on Piecewise Linear Activation Function

Zhu Yaxuan, Zhang Daming, Yin Rongbin, Wu Jichao

(FAW(Nanjing) Technology Development Co., Ltd.,? Nanjing 211100)

【Abstract】 On the basis of the existing detection network structure, a new decoupling prediction branch is added to realize the multi-task recognition of pedestrian position, head position, pedestrian age and occlusion attributes under the vehicle-mounted camera in this paper. The influence of classification branch on detection performance at different network locations is demonstrated by experiments. Aiming at the problem that some nonlinear activation function operators in engineering applications are not supported by the deployment environment, a method using piecewise linear function to fit the nonlinear activation function is proposed, which not only improves the performance of network identification but also provides convenience for engineering deployment.

Key words: Multi -task recognition, Decoupling prediction, Nonlinear fitting, Activation function

縮略語(yǔ)

PAN? ? Path Aggregation Network

FPN? ? Feature Pyramid Networks

YOLOX You Only Look Once X

0 引言

隨著神經(jīng)網(wǎng)絡(luò)技術(shù)與信號(hào)采集技術(shù)的發(fā)展,基于深度學(xué)習(xí)的視覺感知識(shí)別技術(shù)越來(lái)越多地應(yīng)用于生產(chǎn)生活當(dāng)中。而受限于硬件算力支持與工程應(yīng)用環(huán)境的局限性,基于多任務(wù)集成、算子優(yōu)化的神經(jīng)網(wǎng)絡(luò)開發(fā)需求與日俱增。

在當(dāng)前學(xué)術(shù)領(lǐng)域中,基于”編碼-解碼”(Encoder-decoder)結(jié)構(gòu)的目標(biāo)檢測(cè)網(wǎng)絡(luò)近年來(lái)不斷地刷新著各大公開數(shù)據(jù)集的指標(biāo)記錄,其中YOLOX[1](You Only Look Once X)作為一個(gè)“無(wú)需設(shè)定錨框”(Anchor-free)方法,備受業(yè)界學(xué)者與技術(shù)人員青睞。然而,在實(shí)際智能網(wǎng)聯(lián)汽車研發(fā)需求中,除了對(duì)目標(biāo)檢測(cè)與分類有識(shí)別需求外,圖像中目標(biāo)的其他屬性,甚至圖像中除目標(biāo)外的其他背景信息均有著智能化識(shí)別的需求,良好的多任務(wù)模型[2]是解決該類問(wèn)題的首選方案。

通過(guò)設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)目標(biāo)位置與類別預(yù)測(cè)的同時(shí),實(shí)現(xiàn)其他維度的屬性信息識(shí)別,再通過(guò)將網(wǎng)絡(luò)模型工程化部署至相應(yīng)的硬件平臺(tái),最后集成到產(chǎn)品中,是當(dāng)前工業(yè)界的主流智能化開發(fā)流程。其中,如何設(shè)計(jì)一個(gè)好的多任務(wù)預(yù)測(cè)結(jié)構(gòu),如何快速而又穩(wěn)定地將網(wǎng)絡(luò)模型部署到相應(yīng)的硬件平臺(tái)是當(dāng)前技術(shù)開發(fā)的主要挑戰(zhàn)。

在使用神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí),目前學(xué)術(shù)界常用的Mish[3]與Swish[4]激活函數(shù)均能很好地滿足梯度回傳需求,兩者函數(shù)形狀分布較為相似,且均滿足無(wú)上界有下屆、平滑、非單調(diào)的特性,性能在總體上優(yōu)于Relu函數(shù)效果。然而,在實(shí)際部署中,因兩者計(jì)算方式復(fù)雜,不利于網(wǎng)絡(luò)特征量化后的數(shù)值計(jì)算,甚至Mish算子在一些部署環(huán)境中存在算子不支持的情況。

本文針對(duì)這一問(wèn)題,提出了一種針對(duì)復(fù)雜激活函數(shù)映射進(jìn)行擬合的方案,在保障網(wǎng)絡(luò)性能的基礎(chǔ)上,去除了激活函數(shù)中的非線性運(yùn)算部分,方便了后續(xù)的工程化部署。同時(shí),為了達(dá)到目標(biāo)檢測(cè)與圖像內(nèi)容分類任務(wù)的最優(yōu)性能,本文通過(guò)試驗(yàn),探究了不同的識(shí)別任務(wù)之間的相互影響,基于不同的損失約束對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

1 多任務(wù)識(shí)別網(wǎng)絡(luò)

基于實(shí)際的生產(chǎn)應(yīng)用需求,在YOLOX網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,增加了一個(gè)分類支路來(lái)實(shí)現(xiàn)目標(biāo)檢測(cè)與圖片相關(guān)屬性分類的多任務(wù)識(shí)別,探究了分類支路在網(wǎng)絡(luò)不同位置處對(duì)檢測(cè)性能的影響。

1.1 解耦多任務(wù)支路

圖1為所采用的神經(jīng)網(wǎng)絡(luò)方案處理流程,在原有的YOLOX網(wǎng)絡(luò)方案的基礎(chǔ)上,提出了一種解耦的多任務(wù)識(shí)別結(jié)構(gòu),輸入為待識(shí)別圖像,輸出則既有目標(biāo)的檢測(cè)框與類別信息又有目標(biāo)相關(guān)的其他屬性(如年齡、遮擋率、頭部遮擋率)信息。

從圖1可以看出,新增的分類支路的作用是判斷圖片中目標(biāo)的年齡、目標(biāo)的遮擋程度。相較于額外使用一個(gè)分類網(wǎng)絡(luò)模型針對(duì)相同的輸入圖像進(jìn)行識(shí)別,將其集成至原有的目標(biāo)檢測(cè)網(wǎng)絡(luò),只需要在網(wǎng)絡(luò)結(jié)構(gòu)上新增一個(gè)支路即可,在時(shí)效性上,后者具有巨大優(yōu)勢(shì)。

圖2為目標(biāo)新增屬性支路在網(wǎng)絡(luò)模型中的可拼接位置示意,可以看出,對(duì)于新增的網(wǎng)絡(luò)屬性分類,其既可以基于檢測(cè)支路的特征圖進(jìn)行分類[5],也可以在檢測(cè)支路處理前接入解耦支路進(jìn)行分類識(shí)別[6],本文基于這2種選擇分別進(jìn)行了實(shí)驗(yàn)。

1.2 多維度屬性分類

圖3為新增多屬性分類通道示意。本文所設(shè)計(jì)的網(wǎng)絡(luò)需要實(shí)現(xiàn)目標(biāo)包括年齡階段(成人、小孩)、人體遮擋程度、頭部是否遮擋3個(gè)維度屬性,且屬性信息彼此之間相互獨(dú)立,針對(duì)這一情況,本文采用了“一頭多通道”的方式[7],將輸出的特征圖通道進(jìn)行拆分,分別計(jì)算各自屬性損失。

根據(jù)不同分類任務(wù)實(shí)際分類類別數(shù)的情況,具體的損失函數(shù)的設(shè)計(jì)如式(1)所示

[Lcls= Lbce1+ Lbce2+ Lce3]? ? ? ? ? ? ? ? ? ? ? (1)

式中:[Lce]表示分類常用的多分類交叉熵?fù)p失函數(shù),[Lbce1]為目標(biāo)年齡的分類損失,[Lbce2]為目標(biāo)頭部是否遮擋的分類損失,[Lce3]為整體遮擋程度的分類。

2 多任務(wù)損失配比方法

為了更好地了解不同任務(wù)支路同時(shí)訓(xùn)練時(shí)彼此之間的相互性能影響,本研究通過(guò)對(duì)分類支路的損失添加比例系數(shù)k[8],如式(2)所示:

[Losstotal=lossdet+klosscls]? ? ? ? ? ? ? ? ? ? (2)

式中:[k∈(0.01, 2)],[Losstotal]為所有任務(wù)的損失總和,[lossdet]為檢測(cè)支路損失,[ klosscls]為分類支路的損失。

對(duì)于檢測(cè)支路,分別基于當(dāng)前目標(biāo)檢測(cè)領(lǐng)域常用的ciou、diou[9-10]損失函數(shù)進(jìn)行訓(xùn)練,而多屬性分類支路,考慮到屬性之間的獨(dú)立性,本文網(wǎng)絡(luò)訓(xùn)練時(shí)采用的是1∶1∶1的比例即對(duì)不同屬性分類損失進(jìn)行同等比重計(jì)算損失。

3 分段線性擬合方法

圖4和圖5分別為Mish和Swish[3-4]激活函數(shù)的分布形狀,其函數(shù)表達(dá)分別為式(3)和式(4)。

[f(x)=x·tanh (ln (1+ex]))? ? ? ? ? ? ? ? ? ? (3)

[f(x)=x·sigmoidβx]? ? ? ? ? ? ? ? ? ? ? ?(4)

式中:x為輸入特征張量元素值;β為該函數(shù)引入的超參,可根據(jù)實(shí)際應(yīng)用場(chǎng)景調(diào)節(jié)。

可以看出Mish與Swish在(-∞,0)區(qū)間內(nèi)的分布形狀較為相似,核心思想是當(dāng)輸入的x值非常小時(shí),其梯度值變化較小,而在趨近于0的一段區(qū)間內(nèi),存在非線性的同時(shí),梯度分布有正有負(fù)[11]。

針對(duì)這一現(xiàn)象,基于使用正多邊形來(lái)擬合圓形的思想,提出了一種分段擬合的激活映射方式。該方法共分為2個(gè)階段,首先,使用過(guò)原點(diǎn)的線性函數(shù)與分段的邊界值來(lái)確定每個(gè)激活點(diǎn)位置,然后通過(guò)兩個(gè)相鄰的激活點(diǎn)來(lái)實(shí)現(xiàn)該分段區(qū)間的線性激活函數(shù)的映射。

3.1 激活點(diǎn)位置確定

圖6所示為本文所示方案的激活點(diǎn)位置選取的示意,其中每一個(gè)分界區(qū)間點(diǎn)橫坐標(biāo)為x,其對(duì)應(yīng)的激活點(diǎn)縱坐標(biāo)f(x)的計(jì)算方式如式(5)所示:

[f(x)=x· e(x-α)β? ? ? ? ? ? ? ?x<αx· e(α-x)β? ? ? ? α

式中:[α]、[β]為該擬合方案的參數(shù),實(shí)際應(yīng)用時(shí),可根據(jù)試驗(yàn)效果來(lái)選取對(duì)應(yīng)的值。

本研究經(jīng)過(guò)試驗(yàn)發(fā)現(xiàn),在自采的車載行人數(shù)據(jù)集中,取[α=0]和[β=2]時(shí)模型識(shí)別效果最好,不同的取值對(duì)應(yīng)的激活點(diǎn)分布見圖6。

3.2 分段線性擬合

在得到一系列指定區(qū)間的激活點(diǎn)之后,對(duì)相鄰的2個(gè)端點(diǎn)進(jìn)行連接,得到分段的線性映射函數(shù)[12],這一系列分段的線性映射函數(shù)最終能夠擬合原有非線性函數(shù)映射的效果。

如圖7所示,當(dāng)取[α=0]、[β=1]時(shí),本方案與Swish及Mish函數(shù)的分布較為相近。相較于Swish所實(shí)現(xiàn)的非線性映射形態(tài),本文提出的方法通過(guò)2個(gè)參數(shù)能夠?qū)崿F(xiàn)在x < 0范圍[13]內(nèi)引入非線性映射效果的同時(shí),擁有更寬的值域映射區(qū)間,梯度分布較為均勻,有利于網(wǎng)絡(luò)的訓(xùn)練和推理。

4 試驗(yàn)結(jié)果與分析

為了驗(yàn)證本文所提出的網(wǎng)絡(luò)結(jié)構(gòu)的識(shí)別效果,現(xiàn)使用車載攝像頭進(jìn)行圖片的采集,對(duì)包含目標(biāo)的區(qū)域進(jìn)行裁剪,得到11 197張圖片包含26 110個(gè)目標(biāo)檢測(cè)框用于訓(xùn)練,使用2 143張圖片包含5 149個(gè)目標(biāo)框進(jìn)行測(cè)試,由于車載相機(jī)成像分辨率較高,裁剪后的遠(yuǎn)處行人較于原圖屬于較小的目標(biāo),且區(qū)域清晰度較低。

圖8為網(wǎng)絡(luò)識(shí)別的效果圖展示,其中矩形框部分為目標(biāo)檢測(cè)的類別與區(qū)域信息,文字部分為對(duì)圖中目標(biāo)的分類識(shí)別的結(jié)果。

針對(duì)前文所提出的一些問(wèn)題,本文分別從分類支路位置、分類損失權(quán)重以及替換擬合函數(shù)后的模型性能表現(xiàn)3個(gè)方面進(jìn)行了對(duì)比試驗(yàn)并計(jì)算了量化指標(biāo)。

4.1 分類支路對(duì)檢測(cè)支路的影響

表1為新增的分類支路與檢測(cè)支路在結(jié)構(gòu)上是否解耦的性能表現(xiàn),其中檢測(cè)支路主要預(yù)測(cè)人體(Person)、人頭(Head)和非機(jī)動(dòng)車(Non-motor vehicle)3個(gè)類別目標(biāo)框位置,而屬性分類支路既可以使用檢測(cè)支路的特征,也可以另起一個(gè)支路。

由表1可知,對(duì)于新增分類屬性的需求,將新增分類的支路與原有的檢測(cè)支路解耦,確實(shí)有利于神經(jīng)網(wǎng)絡(luò)對(duì)兩個(gè)任務(wù)的學(xué)習(xí)。

在額外的分類支路已經(jīng)解耦的條件下,由于分類支路與檢測(cè)支路雖然識(shí)別任務(wù)不同,但都是對(duì)圖像特征語(yǔ)義的理解與表達(dá),兩者存在部分共同的特征編碼階段,因而兩個(gè)支路的損失函數(shù)梯度回傳而存在一定的相互影響。

本文在實(shí)際訓(xùn)練時(shí)發(fā)現(xiàn),分類支路的損失值(loss)收斂速度較快,故為了達(dá)到較好的綜合性能表現(xiàn),避免因分類支路的網(wǎng)絡(luò)權(quán)重迭代影響目標(biāo)檢測(cè)性能的表現(xiàn),對(duì)分類支路的loss梯度回傳時(shí)的權(quán)重設(shè)置較小的比例,故設(shè)置k分別為0.01、0.10、0.50[14]時(shí)進(jìn)行對(duì)比試驗(yàn), 結(jié)果如表2所示。

為了提升網(wǎng)絡(luò)對(duì)目標(biāo)框的檢測(cè)性能,分別采用giou、ciou[15-16]損失函數(shù)與YOLOX網(wǎng)絡(luò)原生的損失函數(shù)進(jìn)行對(duì)比試驗(yàn),結(jié)果如表3所示。

由表3可以看出,本文所涉及的網(wǎng)絡(luò)在使用YOLOX原生損失約束的條件下,檢測(cè)性能最好,初步分析可能是人頭的目標(biāo)區(qū)域過(guò)小,而giou和ciou損失函數(shù)所計(jì)算的信息在目標(biāo)過(guò)小時(shí)對(duì)檢測(cè)性能的促進(jìn)意義不明顯。

4.2 擬合激活函數(shù)訓(xùn)練

表4所示為使用本文的線性擬合方案與原生非線性激活函數(shù)在相同網(wǎng)絡(luò)結(jié)構(gòu)下的訓(xùn)練效果對(duì)比。

如表4所示,在同等網(wǎng)絡(luò)結(jié)構(gòu)、訓(xùn)練與驗(yàn)證數(shù)據(jù)集條件下,使用本文自定義的分段激活函數(shù)進(jìn)行訓(xùn)練,個(gè)別類別的檢測(cè)效果甚至優(yōu)于使用原激活函數(shù)時(shí)的效果,總體性能表現(xiàn)與原方案能夠保持對(duì)齊。

在試驗(yàn)過(guò)程中發(fā)現(xiàn),使用該方案并沒有產(chǎn)生額外的時(shí)間成本,因此,所設(shè)計(jì)的分段線性擬合激活方案能夠?qū)崿F(xiàn)對(duì)常見非線性激活函數(shù)的完美替換。

5 結(jié)束語(yǔ)

本文通過(guò)試驗(yàn)驗(yàn)證了網(wǎng)絡(luò)模型訓(xùn)練時(shí),不同任務(wù)支路解耦對(duì)總體性能的影響,同時(shí)發(fā)現(xiàn)在人頭等小目標(biāo)檢測(cè)方面,即使一些損失約束在理論上存在改進(jìn),但是實(shí)際網(wǎng)絡(luò)訓(xùn)練時(shí)效果提升不大。

本文結(jié)合理論與實(shí)踐,提出了以分段線性函數(shù)擬合非線性激活函數(shù)的方法,試驗(yàn)表明,該方法能夠完美地替換非線性激活函數(shù)在網(wǎng)絡(luò)中的作用。相較于傳統(tǒng)非線性激活函數(shù),本文設(shè)計(jì)的擬合方法能夠映射的特征值域范圍更廣,在工程部署上更加便捷,同時(shí)沒有額外的時(shí)間成本,有著重要的理論研究意義與工程應(yīng)用價(jià)值。

最后,受限于采集與標(biāo)注條件,試驗(yàn)所使用的圖片質(zhì)量較為駁雜,選取的目標(biāo)為車載攝像頭中的遠(yuǎn)端行人與騎行人區(qū)域的裁剪,后續(xù)可以在數(shù)量更多、分辨率更高的數(shù)據(jù)集下進(jìn)行試驗(yàn)研究。

參 考 文 獻(xiàn)

[1] ZHENG G, SONGT LIU, FENG W, et al.YOLOX: Exceeding YOLO Series in 2021[C]. CVPR(Computer Vision and Pattern Recognition Conference), 2021.

[2] JIAN X. exYOLO:A Small Object Detector Based on YOLOv3 Object Detector[J]. Procedia Computer Science, 2021, 188(10): 18-25.

[3] PRAJIT R, BARRET Z, QUOC V L. Swish: a Self-Gated Activation Function[J]. Neural and Evolutionary Computing,arXiv.1710.05941.2017.

[4] ALEXEY B, CHIEN-YAO W, HONGYUAN M L. Yolov4: Optimal Speed and Accuracy of Object Detection[C]. CVPR, (Computer Vision and Pattern Recognition Conference),2020.

[5] 王彩云. 目標(biāo)檢測(cè)的研究進(jìn)展[C]. 中國(guó)計(jì)算機(jī)用戶協(xié)會(huì)網(wǎng)絡(luò)應(yīng)用分會(huì)2019年第二十三屆網(wǎng)絡(luò)新技術(shù)與應(yīng)用年會(huì)論文集, 2019.

[6] MENGTIAN L,YUX W, DEVA R. Towards Streaming Perception[C].ECCV(European Conference on Computer Vision), 2020.

[7] 張有健, 陳晨, 王再見. 深度學(xué)習(xí)算法的激活函數(shù)研究[J]. 無(wú)線電通信技術(shù), 2021, 47(1): 115-120.

[8] 徐增敏, 陳凱, 郭威偉, 等. 面向輕量級(jí)卷積網(wǎng)絡(luò)的激活函數(shù)與壓縮模型[J]. 計(jì)算機(jī)工程, 2022, 48(5): 242-250.

[9] 朱亞旋, 張小國(guó), 陳剛. 基于圖像紋理與矩特征的轉(zhuǎn)子繞線檢測(cè)研究[J]. 測(cè)控技術(shù), 2018, 37(2): 16-19.

[10] 王攀杰, 郭紹忠, 侯明, 等. 激活函數(shù)的對(duì)比測(cè)試與分析[J]. 信息工程大學(xué)學(xué)報(bào), 2021, 22(5): 551-557.

[11] 付志航. 基于空間與時(shí)間上下文的深度學(xué)習(xí)目標(biāo)檢測(cè)算法研究[D]. 杭州: 浙江大學(xué), 2019.

[12] 尤軒昂, 趙鵬, 慕曉冬, 等. 基于多任務(wù)學(xué)習(xí)的可見光與近紅外虹膜融合研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2022, 58(21): 197-204.

[13] 王曉峰, 王昆, 劉軒, 等. 自適應(yīng)重加權(quán)池化深度多任務(wù)學(xué)習(xí)的表情識(shí)別[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2022, 43(4): 1111-1120.

[14] ROBERTO C, YARING, ALEX K. Multi-task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics[C].IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018.

[15] HAMID R, NATHAN T, JUN Y G, et al.Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression[C]. CVPR,(Computer Vision and Pattern Recognition Conference), 2019.

[16] ZHAO H Z, PING W, DONG W R, et al.Enhancing Geometric Factors in Model Learning and Inference for Object Detection and Instance Segmentation[J].IEEE Transactions on Cybernetics, 2022, 52(8):8574-8586.

(責(zé)任編輯 梵鈴)

【作者簡(jiǎn)介】

朱亞旋(1994—),男,一汽(南京)科技開發(fā)有限公司,碩士研究生,研究方向?yàn)檐囕d視覺障礙物、交通元素感知算法。

E-mail:zhuyaxuan@faw.com.cn

張達(dá)明(1994—),男,一汽(南京)科技開發(fā)有限公司,碩士研究生,研究方向?yàn)檐囕d視覺車道線感知算法開發(fā)。

E-mail:zhangdaming6@faw.com.cn

尹榮彬(1989—),男,一汽(南京)科技開發(fā)有限公司,學(xué)士,研究方向?yàn)檐囕d智能化高低階輔助駕駛技術(shù)合成。

E-mail:yinrongbin@faw.com.cn

吳繼超(1992—),男,一汽(南京)科技開發(fā)有限公司,碩士研究生,研究方向?yàn)榛谲囕d信號(hào)的地圖定位算法。

E-mail:wujichao1@faw.com.cn

调兵山市| 铜鼓县| 高要市| 宝丰县| 肇州县| 凤翔县| 扶余县| 贵南县| 辽源市| 夏邑县| 芒康县| 武功县| 新营市| 城市| 花莲市| 普洱| 乌恰县| 西藏| 志丹县| 西和县| 武定县| 玛纳斯县| 香港 | 镇安县| 江华| 南部县| 玉环县| 汶川县| 淳安县| 雷山县| 铁岭县| 临沭县| 册亨县| 离岛区| 葫芦岛市| 新兴县| 芦山县| 菏泽市| 商都县| 盐津县| 防城港市|