趙思源 彭春蕾 張?jiān)啤⒑『鹈?/p>
摘要:在公共場(chǎng)所的監(jiān)控視頻中,遠(yuǎn)距離的行人目標(biāo)頭部區(qū)域占比往往較小并且頭部區(qū)域分辨率較低,僅靠目標(biāo)檢測(cè)算法和頭部姿態(tài)估計(jì)模型檢測(cè)并分類頭部特征來判定頭部姿態(tài)或注視方向存在較大難度.考慮到目前不同分辨率下的人體骨骼關(guān)鍵點(diǎn)估計(jì)算法越來越成熟,本研究提出一種利用骨骼關(guān)鍵點(diǎn)和頭部姿態(tài)之間的關(guān)系來進(jìn)行遠(yuǎn)距離行人的頭部姿態(tài)估計(jì)算法.該算法首先利用AlphaPose模型檢測(cè)出二維人體骨骼關(guān)鍵點(diǎn)的全局坐標(biāo)值,然后根據(jù)部分骨骼關(guān)鍵點(diǎn)的坐標(biāo)值計(jì)算出頭部朝向象限角度,最后根據(jù)預(yù)設(shè)角度范圍計(jì)算并可視化出視線落點(diǎn).目前,尚沒有公開發(fā)布的可用于遠(yuǎn)距離行人頭部姿態(tài)估計(jì)的數(shù)據(jù)集,因此本文建立了一個(gè)遠(yuǎn)距離行人頭部姿態(tài)系統(tǒng),以對(duì)現(xiàn)有的數(shù)據(jù)集進(jìn)行標(biāo)注,并利用標(biāo)注的數(shù)據(jù)集對(duì)提出的方法進(jìn)行測(cè)試.結(jié)果表明,本文提出的算法可以較精準(zhǔn)地判定到遠(yuǎn)距離行人的頭部姿態(tài)和注視方向,準(zhǔn)確率達(dá)到69.7%.
關(guān)鍵詞:遠(yuǎn)距離行人頭部姿態(tài)估計(jì); 注視方向估計(jì); 人體骨骼關(guān)鍵點(diǎn)檢測(cè)
中圖分類號(hào):TP391.41文獻(xiàn)標(biāo)志碼: A
Algorithm for long-range pedestrian head pose estimation
based on AlphaPose model
ZHAO Si-yuan PENG Chun-lei ZHANG Yun LIU Hai-tao HU Rui-min(1.School of Cyber Engineering, Xidian University, Xi′an 710071, China; 2.Artificial Intelligence and Big Data Applications Research Institution, Nanning 530000, China)
Abstract:Pedestrian targets outside the visible distance in surveillance videos of public places have smaller heads and lower head area resolution,it is difficult to determine the head posture or gaze direction only by the target detection algorithm and the head posture estimation model to detect and classify the head features.Considering that the current human skeleton key point estimation algorithms at different resolutions are becoming more and more mature,this paper proposes a head pose estimation algorithm based on the relationship between skeleton key points and head posture for long-distance pedestrian head pose estimation.The algorithm first uses the AlphPose model to detect the global coordinate values of 2D human skeleton key points,then calculates the quadrant angle of the head according to the coordinate values of some skeleton key points,and finally calculates and visualizes the sightline according to the preset angle range.At present,there is no publicly released data set that can be used for long distance pedestrian head pose estimation,so we built a long-distance head pose estimation system to annotate existing data sets.After testing the labeled data sets,the results show that the proposed algorithm can more accurately determine the long-distance pedestrian head pose estimation and gaze direction,with an accuracy rate of 69.7%.
Key words:long-distance head pose estimation; gaze direction estimation; human skeleton keypoints detection
0引言
監(jiān)控視頻給公共場(chǎng)所的安保工作帶來了極大的便利,但仍有許多潛在的問題,很多研究者在不同方向?qū)矆?chǎng)所的監(jiān)控視頻展開研究[1-5].其中,頭部姿態(tài)估計(jì)是一項(xiàng)重要任務(wù),它是指計(jì)算機(jī)通過對(duì)輸入圖像或視頻進(jìn)行分析、預(yù)測(cè)來估計(jì)頭部方向的任務(wù),通過對(duì)頭部方向的估計(jì)可以表達(dá)當(dāng)前行人的注意力方向,來快速鎖定目標(biāo)或敏感區(qū)域.
目前,頭部姿態(tài)估計(jì)主要方法可以分為2種:
(1)基于面部關(guān)鍵點(diǎn)的參數(shù)化外觀模型.基于關(guān)鍵點(diǎn)方法使用面部關(guān)鍵點(diǎn)、幾何信息或面部模型來估計(jì)頭部姿態(tài),首先是獲取面部關(guān)鍵點(diǎn),隨后通過PnP算法[6]實(shí)現(xiàn)從二維到三維姿態(tài)角的回歸,構(gòu)建面部模型與姿態(tài)之間的對(duì)應(yīng)關(guān)系.基于關(guān)鍵點(diǎn)的方法通常作為上游任務(wù)研究,因此,在許多任務(wù)中是作為輸入的,例如,頭部姿態(tài)估計(jì)[7]、面部對(duì)齊[8]等.隨著深度學(xué)習(xí)方法的進(jìn)步,基于標(biāo)志點(diǎn)的方法[9,10]也表現(xiàn)出卓越的性能并引起了廣泛關(guān)注.然而,現(xiàn)有的基于關(guān)鍵點(diǎn)的頭部姿態(tài)估計(jì)方法無法提供高效的性能,主要原因是模型的表達(dá)能力欠缺,導(dǎo)致了目前的性能瓶頸.
(2)基于頭部圖像特征.基于頭部圖像特征的方法使用頭部特征來估計(jì)頭部姿態(tài),首先是獲取頭部特征,通過學(xué)習(xí)分類各個(gè)姿態(tài)角下的頭部特征實(shí)現(xiàn)二維圖像到三維姿態(tài)角轉(zhuǎn)化,構(gòu)建姿態(tài)角特征與姿態(tài)之間的對(duì)應(yīng)關(guān)系.而基于頭部圖像特征的方法可以不受角度和面部模型的限制,因此是目前研究的熱點(diǎn).然而,這種基于圖像特征的方法需要更高的計(jì)算開銷,并且需要大量數(shù)據(jù)來訓(xùn)練網(wǎng)絡(luò)學(xué)習(xí),并且當(dāng)人物圖像在中遠(yuǎn)距離或者低分辨率情況下并不能很好的進(jìn)行分類,再者在許多實(shí)際應(yīng)用中,面部關(guān)鍵點(diǎn)仍是多種下游任務(wù)的重要中間過程.因此,在多任務(wù)應(yīng)用中,有必要充分利用各種關(guān)鍵點(diǎn)來節(jié)省計(jì)算量和增加計(jì)算的魯棒性.近年來,使用深度學(xué)習(xí)技術(shù)直接提取各個(gè)姿態(tài)角的頭部特征并進(jìn)行分類的方法由于其靈活性、準(zhǔn)確性及對(duì)遮擋和極端姿勢(shì)變化的魯棒性的特點(diǎn),已成為頭部姿態(tài)估計(jì)的主要方法.然而,盡管這幾種類型方法[3,11]在其不同的圖像數(shù)據(jù)特征中表現(xiàn)出很好的學(xué)習(xí)能力,但在監(jiān)控視頻質(zhì)量參差不齊時(shí),尤其是當(dāng)行人目標(biāo)處于遠(yuǎn)距離時(shí),無論是基于臉部關(guān)鍵點(diǎn)和頭部特征的準(zhǔn)確率都會(huì)下降.
如圖1所示,使用深度學(xué)習(xí)方法直接獲取頭部特征進(jìn)行分類得出目標(biāo)的三維姿態(tài)角,其中藍(lán)色線段表示翻滾角,可以表示當(dāng)前目標(biāo)頭部朝向,紅色線段表示俯仰角,綠色線段表示偏航角.圖1(a)選用BIWI[12]中部分?jǐn)?shù)據(jù)集可視化結(jié)果,在近距離面部特征充足時(shí)可以準(zhǔn)確估計(jì)頭部姿態(tài),但當(dāng)面部特征不足時(shí),仍無法判斷頭部姿態(tài); 圖1(b)選用MOT17[13]數(shù)據(jù)集中監(jiān)控場(chǎng)景,在遠(yuǎn)距離場(chǎng)景下,由于面部特征嚴(yán)重不足,導(dǎo)致場(chǎng)景中的面部檢測(cè)失效,無法像圖1(a)中那樣準(zhǔn)確檢測(cè).因此,為在監(jiān)控視頻質(zhì)量較差和可視距離較短時(shí),快速、準(zhǔn)確檢測(cè)行人目標(biāo)的頭部姿態(tài),本文提出了一種基于AlphaPose[14]模型的遠(yuǎn)距離行人頭部姿態(tài)估計(jì)算法.隨著人體骨骼關(guān)鍵點(diǎn)估計(jì)算法越來越成熟[15],所以此算法使用人體骨骼關(guān)鍵點(diǎn)的表示方法來估計(jì)頭部姿態(tài),來避免圖像或視頻中部分目標(biāo)存在頭部特征不足的現(xiàn)象,以在遠(yuǎn)距離外的場(chǎng)景中獲得更好的頭部姿態(tài)結(jié)果.
基于這些研究,本文設(shè)計(jì)遠(yuǎn)距離的行人頭部姿態(tài)估計(jì)算法,算法流程圖如圖2所示.該算法基于人體骨骼關(guān)鍵點(diǎn)可以在面部特征模糊情況下很好地估計(jì)目標(biāo)頭部姿態(tài).為此,本文所做的貢獻(xiàn)如下:
(1)研究遠(yuǎn)近距離和高低分辨率對(duì)姿態(tài)估計(jì)的影響,并使用本文提出的方法,可以有效解決中遠(yuǎn)距離和低分辨率圖像或視頻上頭部姿態(tài)估計(jì)的問題;
(2)提出一種基于人體骨骼關(guān)鍵點(diǎn)直接從圖像特征預(yù)測(cè)頭部姿態(tài)角的方法,該方法可以直接指示目標(biāo)當(dāng)前頭部方向;
(3)針對(duì)不同場(chǎng)景的頭部姿態(tài)進(jìn)行測(cè)試,平均準(zhǔn)確率達(dá)69.7%,驗(yàn)證本文算法的有效性和可行性.
1算法設(shè)計(jì)及模型原理
本文所提出算法流程,首先利用AlphaPose模型檢測(cè)出二維人體骨骼關(guān)鍵點(diǎn),得到其全局坐標(biāo)值,然后根據(jù)鼻部、左右眼部、耳部和肩部關(guān)鍵點(diǎn)的坐標(biāo)可計(jì)算出初始人體面部朝向象限角度,最后本文根據(jù)象限角度從預(yù)設(shè)角度選擇,由此得到與坐標(biāo)系的夾角表示為二維頭部姿態(tài)角,并于鼻部坐標(biāo)組成二元組,經(jīng)過可視化顯示頭部姿態(tài).
1.1AlphaPose人體骨骼關(guān)鍵點(diǎn)檢測(cè)模型
人體骨骼關(guān)鍵點(diǎn)對(duì)于描述人體姿態(tài),預(yù)測(cè)人體行為至關(guān)重要.基于深度學(xué)習(xí)的人體骨骼關(guān)鍵點(diǎn)檢測(cè)方法主要分為2種,即自頂向下和自底向上的檢測(cè)方法.
(1) 自頂向下方法.以AlphaPose為代表,是一種多階段的檢測(cè)模型,首先進(jìn)行目標(biāo)檢測(cè),識(shí)別出圖像中所有人體目標(biāo),然后對(duì)人體目標(biāo)的每個(gè)部位進(jìn)行關(guān)鍵點(diǎn)檢測(cè),最終計(jì)算出每個(gè)人的姿態(tài).目前,這種方法達(dá)到了極高的準(zhǔn)確率.
(2) 自底向上方法.以O(shè)penPose[16]為代表,是一種兩階段的檢測(cè)模型,首先進(jìn)行關(guān)鍵點(diǎn)檢測(cè),識(shí)別出圖像中所有類別的人體關(guān)鍵點(diǎn),然后對(duì)這些類別關(guān)鍵點(diǎn)進(jìn)行聚類處理,將同一人的不同關(guān)鍵點(diǎn)連接在一起,從而聚類產(chǎn)出不同的個(gè)體.目前,這種方法處理速度快,但在兩階段中都容易受到背景的干擾,檢測(cè)精度較低.AlphaPose在COCO[17]數(shù)據(jù)集上的平均精度均值(mean Average Percision,mAP)實(shí)現(xiàn)了75%mAP,在MPII[18]數(shù)據(jù)集上達(dá)到了82.1%mAP,而OpenPose只達(dá)到了62%mAP和75.6%.為了保證頭部姿態(tài)算法的可靠性,本文算法在AlphaPose人體骨骼關(guān)鍵點(diǎn)的高精度基礎(chǔ)上,進(jìn)行頭部姿態(tài)估計(jì)算法的設(shè)計(jì)工作.本文使用其中的7個(gè)關(guān)鍵點(diǎn),分別是:左眼睛、右眼睛、鼻尖、左耳、右耳、左肩及右肩.
AlphaPose骨骼鍵點(diǎn)檢測(cè)效果如圖3所示.
原AlphaPose中的行人目標(biāo)檢測(cè)模型采用了YOLOv3[19],近年來隨著目標(biāo)檢測(cè)模型的不斷發(fā)展,出現(xiàn)了很多在檢測(cè)精度和檢測(cè)速度都表現(xiàn)優(yōu)秀的算法,例如CenterNet[20]網(wǎng)絡(luò),此網(wǎng)絡(luò)在本文提出的遠(yuǎn)距離場(chǎng)景中更具適用性,達(dá)到了行人目標(biāo)檢測(cè)領(lǐng)域的高性能表現(xiàn).
1.2基于人體骨骼關(guān)鍵點(diǎn)的頭部姿態(tài)分析
1.2.1思路分析
在二維空間中,當(dāng)人體在行走過程中頭部姿態(tài)發(fā)生改變時(shí),隨之最明顯的特征變化是頭部各部分比例變化.基于人體骨骼關(guān)鍵點(diǎn)的頭部姿態(tài)估計(jì)的關(guān)鍵就在于如何利用人體多個(gè)關(guān)鍵點(diǎn)之間的全局坐標(biāo)信息和相對(duì)位置信息,從而建立人體頭部姿態(tài)估計(jì)算法將頭部姿態(tài)估計(jì)建模為關(guān)鍵點(diǎn)之間的變化,檢測(cè)圖像中行人頭部姿態(tài).因此在遠(yuǎn)距離下,基于骨骼關(guān)鍵點(diǎn)的頭部姿態(tài)估計(jì)更具有實(shí)際意義.
具體包括:
(1)頭部姿態(tài)象限估計(jì).利用頭部五官關(guān)鍵點(diǎn)之間的距離關(guān)系,在二維圖像下在頭部轉(zhuǎn)動(dòng)時(shí),利用頭部五官和肩部關(guān)鍵點(diǎn)之間的距離關(guān)系,來判斷頭部姿態(tài)的象限角.
(2)頭部姿態(tài)角度估計(jì).由于視頻中行人目標(biāo)較為模糊導(dǎo)致關(guān)鍵點(diǎn)描述有一定的誤差,若是在確定頭部姿態(tài)的象限角之后設(shè)定一個(gè)頭部轉(zhuǎn)向區(qū)域范圍,當(dāng)象限角落入某個(gè)區(qū)域范圍之后,取得這個(gè)區(qū)域的中值代表這個(gè)區(qū)域的精確姿態(tài)角,這樣有一定的魯棒性,并且在視頻中可視化會(huì)更具有穩(wěn)定性.
因此,本文提出的基于AlphaPose的可視距離外的頭部姿態(tài)估計(jì)模型結(jié)構(gòu)如圖5所示.
首先將視頻分割成幀作為輸入,特征提取網(wǎng)絡(luò)DLA-34(ResNet 34 + Deep Layer Aggregation,DLA-34)依次提取視頻幀特征,經(jīng)過檢測(cè)頭對(duì)特征中行人目標(biāo)進(jìn)行檢測(cè)分離,然后輸入至AlphaPose模中采用單人姿態(tài)估計(jì)(Single-Person Pose Estimator,SPPE)依次讀取行人目標(biāo)框進(jìn)行局部姿態(tài)估計(jì),結(jié)合全局圖像得出全局行人目標(biāo)姿態(tài)估計(jì),最后輸入至本文設(shè)計(jì)的二維圖像下頭部姿態(tài)估計(jì)算法中經(jīng)過頭部姿態(tài)象限估計(jì)(Head Pose Quadrant Estimation,HPQE)和頭部姿態(tài)角估計(jì)(Head Pose Angle Estimation,HPAE)處理得到最終頭部姿態(tài)估計(jì)結(jié)果.
1.2.2數(shù)據(jù)處理
1.2.3頭部姿態(tài)判定
2實(shí)驗(yàn)結(jié)果與分析
2.1實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集
實(shí)驗(yàn)所用硬件環(huán)境為NVIDIA RTX2080Ti 11GB GPU×2,Intel(R) Core i7-8 700 K CPU @ 3.70 GHz×12,軟件環(huán)境使用64位Ubuntu 16.04LTS,并配置Python 3.6、CUDA 10.1及Pytorch 1.7深度學(xué)習(xí)框架.
由于目標(biāo)沒有公開的關(guān)于遠(yuǎn)距離及低分辨率頭部姿態(tài)估計(jì)的數(shù)據(jù)集,為了驗(yàn)證本文所提出算法的合理性和有效性,本文選取部分異常行為檢測(cè)代表性的公開圖像及視頻數(shù)據(jù)集綜合標(biāo)注測(cè)試.
如圖8所示,實(shí)驗(yàn)數(shù)據(jù)為隱藏跟蹤數(shù)據(jù)集[4] (Hidden Following Dataset,HFD)選取8段監(jiān)控視角下多行人場(chǎng)景視頻,每段視頻包含多人的完整軌跡(從遠(yuǎn)或近距離出現(xiàn)到消失),視頻分辨率為1 920×1 080,每段視頻包含5~8人,一共5人參與視頻的采集,包括1名女士4名男士,在行走過程中包含多種頭部姿態(tài).
2.2頭部姿態(tài)標(biāo)注系統(tǒng)
由于目前沒有可用于遠(yuǎn)距離頭部姿態(tài)估計(jì)的公開數(shù)據(jù)集,且傳統(tǒng)圖像標(biāo)注工具,大多只提供身份框及類別標(biāo)注,缺乏頭部姿態(tài)標(biāo)注的功能,直接使用這些工具會(huì)產(chǎn)生大量的人工成本,故本文設(shè)計(jì)了一種基于Tkinter框架的數(shù)據(jù)管理及標(biāo)注工具.如圖9所示,設(shè)計(jì)實(shí)現(xiàn)了對(duì)圖像的存儲(chǔ)、身份框及頭部姿態(tài)估計(jì)的標(biāo)注、標(biāo)注數(shù)據(jù)管理等功能模塊,簡(jiǎn)化了直接應(yīng)用傳統(tǒng)標(biāo)注工具的操作,降低了數(shù)據(jù)標(biāo)注工作人員的時(shí)間成本,提升了數(shù)據(jù)標(biāo)注工作的效率.
2.3實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)
2.4結(jié)果分析
在HFD數(shù)據(jù)集中,選取多行人多路徑視頻圖像片段,因部分?jǐn)?shù)據(jù)集視頻質(zhì)量效果較差,故選擇視頻圖像集合1、2、4、8、9、10作為實(shí)驗(yàn)測(cè)試數(shù)據(jù)集.本文采用先求的每個(gè)視頻片段的測(cè)試結(jié)果,最后,求6次測(cè)試結(jié)果的平均值作為最終結(jié)果,保證實(shí)驗(yàn)的可靠性,可視化結(jié)果如圖10所示.圖10HFD部分?jǐn)?shù)據(jù)集可視化結(jié)果為了進(jìn)一步評(píng)價(jià)本文提出的方法,實(shí)驗(yàn)設(shè)置將多分類劃分為多個(gè)二分類分別對(duì)每個(gè)角度進(jìn)行評(píng)估,并且將0 °、-45 °、-135 °、180 °分別作為正例得到的統(tǒng)計(jì)結(jié)果,然后使用精確率P、召回率R及F0.5分?jǐn)?shù)來綜合評(píng)估各個(gè)角度的準(zhǔn)確性.表1所示的實(shí)驗(yàn)結(jié)果表明,本文方法在HFD數(shù)據(jù)集上0 °F0.5達(dá)到了0.661,-45 °F0.5達(dá)到了0.732,-135 °上F0.5達(dá)到了0.696,180 °上F0.5達(dá)到了0.828.
為了進(jìn)一步驗(yàn)證本文提出方法的性能,本文在HFD數(shù)據(jù)集上利用公式(10)計(jì)算得綜合準(zhǔn)確率,其結(jié)果如表2所示,在HFD數(shù)據(jù)集上達(dá)到了0.697的平均準(zhǔn)確率.
其中,數(shù)據(jù)集10中結(jié)果為0.52,如圖11所示,其場(chǎng)景中大多數(shù)行人目標(biāo)均為背部朝向攝像頭,故經(jīng)過AlphaPose模型處理結(jié)果中鼻部坐標(biāo)僅能根據(jù)左右耳的坐標(biāo)確定,因此會(huì)存在一些誤差,除數(shù)據(jù)集Video-10之外,大部分行人目標(biāo)均為正常行走姿態(tài).
為了進(jìn)一步驗(yàn)證本文提出的方法在公開數(shù)據(jù)集上的表現(xiàn),本文將與目前流行的頭部姿態(tài)估計(jì)方法HopeNet[3]和FSANet[11]在不同場(chǎng)景下進(jìn)行對(duì)比.
目前流行的頭部姿態(tài)估計(jì)方法,大部分針對(duì)近距離單目標(biāo)場(chǎng)景,在圖8所示的遠(yuǎn)距離多目標(biāo)中,因頭部特征過少,導(dǎo)致在檢測(cè)階段,無法有效檢測(cè)出頭部,因此通過實(shí)驗(yàn)得到的統(tǒng)計(jì)指標(biāo)評(píng)估較差,故實(shí)驗(yàn)只進(jìn)行可視化結(jié)果對(duì)比.
如圖12所示,其中HopeNet和FSANet將頭部姿態(tài)可視化為三個(gè)方向,藍(lán)色表示頭部姿態(tài)方向,在可視化中將頭部姿態(tài)方向表示為當(dāng)前目標(biāo)身份的顏色,更有助于和身份跟蹤結(jié)合分析.
由圖12(a)可知,當(dāng)行人目標(biāo)處于Video-1場(chǎng)景時(shí),由于距離較遠(yuǎn)HopeNet[3]和FSANet[11]無法檢測(cè)出大部分行人目標(biāo)的頭部,進(jìn)而無法做出有效的頭部姿態(tài)估計(jì),即使檢測(cè)出行人目標(biāo)頭部,由于分辨率較低無法得到有效的臉部特征,使得頭部姿態(tài)估計(jì)出現(xiàn)較大的偏差,由HopeNet和FSANet得到的頭部姿態(tài)角藍(lán)色軸均未正確指向頭部姿態(tài)方向,而本文的方法是基于人體骨骼關(guān)鍵點(diǎn)計(jì)算頭部姿態(tài),因此可以有效利用更多的特征信息較準(zhǔn)確的估計(jì)出目標(biāo)的頭部姿態(tài)角.
由圖12(b)可知,當(dāng)行人目標(biāo)處于Video-2場(chǎng)景時(shí),雖然處于近距離,但由于臉部特征不足,使得HopeNet和FSANet方法無法估計(jì)目標(biāo)姿態(tài)角,而本文基于骨骼關(guān)鍵點(diǎn)的方法即使在目標(biāo)側(cè)面時(shí)也可以估計(jì)目標(biāo)的頭部姿態(tài)角.
由圖12(c)可知,當(dāng)行人目標(biāo)處于Video-10場(chǎng)景時(shí),目標(biāo)完全沒有臉部特征信息,使得基于臉部特征的HopeNet和FSANet方法完全失效,無法估計(jì)目標(biāo)姿態(tài)角,而本文基于骨骼關(guān)鍵點(diǎn)的方法在當(dāng)前場(chǎng)景中可以保證一定的準(zhǔn)確率進(jìn)行頭部姿態(tài)估計(jì).
3結(jié)論
針對(duì)現(xiàn)有頭部姿態(tài)估計(jì)方法對(duì)監(jiān)控視角下中遠(yuǎn)距離外的行人目標(biāo)無法檢測(cè)和錯(cuò)誤率高等問題,本文提出了一種基于AlphaPose的遠(yuǎn)距離行人頭部姿態(tài)估計(jì)模型,首先該模型使用AlphaPose對(duì)行人目標(biāo)進(jìn)行骨骼關(guān)鍵點(diǎn)檢測(cè),然后利用部分骨骼關(guān)鍵點(diǎn)判斷頭部姿態(tài)象限角,最終根據(jù)預(yù)設(shè)角度范圍確定行人目標(biāo)在二維場(chǎng)景下的頭部姿態(tài)角來實(shí)現(xiàn)遠(yuǎn)距離的頭部姿態(tài)估計(jì)問題.本文還設(shè)計(jì)了一種集成身份框標(biāo)注和頭部姿態(tài)的標(biāo)注系統(tǒng),并對(duì)隱蔽跟蹤公開數(shù)據(jù)集進(jìn)行標(biāo)注并進(jìn)行實(shí)驗(yàn),在多種場(chǎng)景下進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明本文提出的模型在不同場(chǎng)景和不同頭部方向下都有較高的檢測(cè)精度.
參考文獻(xiàn)
[1] Kohl P,Specker A,Schumann A,et al.The mta dataset for multi-target multi-camera pedestrian tracking by weighted distance aggregation[C]// IEEE Conference on Computer Vision and Pattern Recognition Workshops.Piscataway:IEEE Computer Society,2020:1 042-1 043.
[2] 周同馳,張毫,瞿博陽,等.基于骨骼特征Hough變換的行為識(shí)別研究[J].計(jì)算機(jī)應(yīng)用研究,2021,38(12):3 831-3 834,3 840.
[3] Ruiz N,Chong E,Rehg J M.Fine-grained head pose estimation without keypoints[C]// IEEE Conference on Computer Vision and Pattern Recognition Workshops.Piscataway:IEEE Computer Society,2018:2 074-2 083.
[4] Xu D,Hu R,Xiong Z,et al.Trajectory is not enough:Hidden following detection[C]//Proceedings of the 29th ACM International Conference on Multimedia.Chengdu:ACM,2021:5 373-5 381.
[5] 王雨生,顧玉宛,封曉晨,等.基于姿態(tài)估計(jì)的安全帽佩戴檢測(cè)方法研究[J].計(jì)算機(jī)應(yīng)用研究,2021,38(3):937-940,945.
[6] Murphy-Chutorian E,Trivedi M M.Head pose estimation in computer vision:A survey[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2008,31(4):607-626.
[7] Al Haj M,Gonzalez J,Davis L S.On partial least squares in head pose estimation:How to simultaneously deal with misalignment[C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE Computer Society,2012:2 602-2 609.
[8] Yang H,Jia X,Loy C C,et al.An empirical study of recent face alignment methods[DB/OL].https://arxiv.org/abs/1511.05049,2015-11-16.
[9] Kazemi V,Sullivan J.One millisecond face alignment with an ensemble of regression trees[C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE Computer Society, 2014:1 867-1 874.
[10] Bulat A,Tzimiropoulos G.How far are we from solving the 2d & 3d face alignment problem? (And a dataset of 230,000 3d facial landmarks)[C]//IEEE International Conference on Computer Vision.Piscataway:IEEE Computer Society, 2017:1 021-1 030.
[11] Yang T Y,Chen Y T,Lin Y Y,et al.Fsa-net:Learning fine-grained structure aggregation for head pose estimation from a single image[C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE Computer Society, 2019:1 087-1 096.
[12] Fanelli G,Dantone M,Gall J,et al.Random forests for real time 3d face analysis[J].International Journal of Computer Vision,2013,101(3):437-458.
[13] Milan A,Leal Taixé L,Reid I,et al.MOT16:A benchmark for multi-object tracking[DB/OL].https://arxiv.org/pdf/1603.00831.pdf,2016-05-03.
[14] Fang H S,Xie S,Tai Y W,et al.Rmpe:Regional multi-person pose estimation[C]//IEEE International Conference on Computer Vision.Piscataway:IEEE Computer Society, 2017:2 334-2 343.
[15] 馬丹,吳躍.基于全局分組策略的對(duì)抗訓(xùn)練在人體輪廓點(diǎn)回歸中的應(yīng)用模型[J].計(jì)算機(jī)應(yīng)用研究,2021,38(5):1 544-1 549.
[16] Cao Z,Simon T,Wei S E,et al.Realtime multi-person 2d pose estimation using part affinity fields[C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE Computer Society,2017:7 291-7 299.
[17] Lin T Y,Maire M,Belongie S,et al.Microsoft coco:Common objects in context[C]//European Conference on Computer Vision.Cham:Springer,2014:740-755.
[18] Andriluka M,Pishchulin L,Gehler P,et al.2d human pose estimation:New benchmark and state of the art analysis[C]// IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE Computer Society,2014:3 686-3 693.
[19] Redmon J,F(xiàn)arhadi A.Yolov3:An incremental improvement[DB/OL].https://arxiv.org/pdf/1804.02767.pdf,2018-04-08.
[20] Duan K,Bai S,Xie L,et al.Centernet:Keypoint triplets for object detection[C]// IEEE International Conference on Computer Vision.Piscataway:IEEE Computer Society,2019:6 569-6 578.
【責(zé)任編輯:蔣亞儒】