国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于雙流全卷積網(wǎng)絡(luò)的駕駛員姿態(tài)估計(jì)方法

2022-03-07 02:38:22趙作鵬
關(guān)鍵詞:關(guān)節(jié)點(diǎn)姿態(tài)卷積

王 彬, 趙作鵬

(1. 中國(guó)礦業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 江蘇 徐州 221116; 2. 江蘇聯(lián)合職業(yè)技術(shù)學(xué)院 信息技術(shù)系, 江蘇 徐州 221008)

人體姿態(tài)估計(jì)是通過(guò)從給定的包含人體的圖片或視頻中檢測(cè)出人體關(guān)節(jié)點(diǎn)的位置信息和人體關(guān)節(jié)點(diǎn)之間的連接關(guān)系進(jìn)而得到人體姿態(tài)的方法.作為眾多人機(jī)交互的基礎(chǔ),它主要應(yīng)用于動(dòng)作識(shí)別、智能監(jiān)控、人體跟蹤、情緒猜測(cè)和醫(yī)療輔助等方面[1].

為了實(shí)現(xiàn)智能安全駕駛,現(xiàn)已產(chǎn)生了各種各樣的駕駛員輔助技術(shù),例如,車輛輔助駕駛系統(tǒng)(advanced driver assistance systems,ADAS)通過(guò)安裝在車輛中的攝像頭獲取駕駛員和車況圖像信息,利用深度學(xué)習(xí)方法對(duì)人體姿態(tài)和車況進(jìn)行檢測(cè)和分析,其中以人體姿態(tài)為基礎(chǔ)的動(dòng)作識(shí)別是實(shí)現(xiàn)智能安全駕駛的關(guān)鍵技術(shù).駕駛員姿態(tài)估計(jì)是人體姿態(tài)估計(jì)技術(shù)在智能安全駕駛中的應(yīng)用[2],它不僅為人體行為識(shí)別提供依據(jù),也為監(jiān)管機(jī)構(gòu)提供更加確切的駕駛員信息[3].

筆者使用遷移學(xué)習(xí),通過(guò)在ImageNet數(shù)據(jù)集預(yù)訓(xùn)練的VGG-19模型[4]中提取原始圖像特征,從而減少訓(xùn)練的總體工作量.該網(wǎng)絡(luò)使用沙漏結(jié)構(gòu)對(duì)特征圖進(jìn)行上采樣操作以過(guò)濾背景噪聲.最后將多個(gè)階段的特征圖進(jìn)行融合,保留原始輸入圖像的空間信息,提高預(yù)測(cè)精度.將提出的網(wǎng)絡(luò)架構(gòu)在COCO (common objects in context)數(shù)據(jù)集和車輛圖像數(shù)據(jù)集DDS(driver′s driving situation)與CMU Pose(Carnegie Mellon University pose)進(jìn)行對(duì)比試驗(yàn).

1 人體姿態(tài)估計(jì)研究

2D人體姿態(tài)估計(jì)算法從方法上可以分為傳統(tǒng)的基于圖形結(jié)構(gòu)的方法和基于深度學(xué)習(xí)的方法[5]2種.傳統(tǒng)姿態(tài)估計(jì)在特征提取上多采用人工設(shè)定的方法,設(shè)計(jì)2D人體部件檢測(cè)器進(jìn)行關(guān)節(jié)點(diǎn)檢測(cè).由于人體姿態(tài)的靈活性,傳統(tǒng)姿態(tài)估計(jì)的部件檢測(cè)器對(duì)人體部件空間關(guān)系的表達(dá)能力有限.隨著應(yīng)用場(chǎng)景的增多,研究人員發(fā)現(xiàn)在復(fù)雜環(huán)境下此類算法很容易受到人體相似外觀物體的影響,無(wú)法準(zhǔn)確地識(shí)別目標(biāo).雖然WANG Y.等[6]提出將多個(gè)人體部件組合為一個(gè)整體的思想,通過(guò)構(gòu)建poselet模型嘗試避免背景噪聲的影響.由于人體結(jié)構(gòu)的復(fù)雜性和人體姿態(tài)的靈活性,傳統(tǒng)的人體姿態(tài)估計(jì)對(duì)人體部件的空間關(guān)系進(jìn)行建模的方法限制了模型的表達(dá)能力,在實(shí)際應(yīng)用中,這種算法難以準(zhǔn)確地表達(dá)圖像中的人體姿態(tài),因此在算法精度上有著難以突破的上限.

基于深度學(xué)習(xí)的人體姿態(tài)估計(jì)算法可以分為單人姿態(tài)估計(jì)和多人姿態(tài)估計(jì).其中單人姿態(tài)估計(jì)是在只有一個(gè)人的圖像中對(duì)姿態(tài)進(jìn)行關(guān)節(jié)點(diǎn)預(yù)測(cè),而多人姿態(tài)估計(jì)對(duì)圖像中不確定數(shù)量的人體進(jìn)行姿態(tài)估計(jì),不僅要對(duì)圖像中所有關(guān)節(jié)點(diǎn)進(jìn)行檢測(cè),還要以個(gè)體為單位,對(duì)關(guān)節(jié)點(diǎn)進(jìn)行分類,多人姿態(tài)估計(jì)更切合實(shí)際場(chǎng)景的需求.多人姿態(tài)估計(jì)從方法上可以分為從上而下和從下而上2種方法.從上而下的方法先使用目標(biāo)檢測(cè)的算法對(duì)圖片中的人體進(jìn)行檢測(cè),然后在每一個(gè)檢測(cè)框區(qū)域內(nèi)進(jìn)行單人姿態(tài)估計(jì),這種算法的精度同時(shí)依賴于目標(biāo)檢測(cè)的精度和單人姿態(tài)估計(jì)的精度;從下而上的方法通過(guò)檢測(cè)圖像中所有人的關(guān)節(jié)點(diǎn),使用匹配算法連接關(guān)節(jié)點(diǎn),確定圖像中人體數(shù)目.

A. TOSHEV等[7]將人體姿態(tài)估計(jì)問(wèn)題轉(zhuǎn)化為坐標(biāo)點(diǎn)回歸問(wèn)題,基于深度學(xué)習(xí)方法對(duì)單人人體姿態(tài)進(jìn)行估計(jì),以坐標(biāo)值為優(yōu)化目標(biāo),直接回歸關(guān)節(jié)點(diǎn)的二維坐標(biāo)信息.該方法通過(guò)設(shè)計(jì)一個(gè)多階段的深度卷積網(wǎng)絡(luò),在初始階段得到關(guān)節(jié)點(diǎn)的大致位置,輸出結(jié)果進(jìn)入下一個(gè)相同深度的卷積網(wǎng)絡(luò),得到更準(zhǔn)確的關(guān)節(jié)點(diǎn)信息,通過(guò)多個(gè)階段的優(yōu)化輸出滿足條件的結(jié)果.相較之前提出的算法,該方法為人體姿態(tài)估計(jì)的研究開(kāi)辟了新的道路,明顯提高了人體姿態(tài)估計(jì)的精度.但在后來(lái)的實(shí)際測(cè)試中人體關(guān)節(jié)定位結(jié)果并不是非常理想,由于沒(méi)有對(duì)人體各個(gè)關(guān)節(jié)間的結(jié)構(gòu)信息進(jìn)行建模,僅使用圖像中關(guān)節(jié)點(diǎn)直接回歸到精確坐標(biāo)點(diǎn)比較困難,使得模型對(duì)于多尺度的姿態(tài)估計(jì)泛化能力較弱.J. TOMPSON等[8]對(duì)模型進(jìn)行改進(jìn),使用熱力圖描述各個(gè)關(guān)節(jié)點(diǎn)可能位置的概率分布情況,熱力圖描述了各個(gè)關(guān)節(jié)點(diǎn)在整幅圖像的各個(gè)像素點(diǎn)可能出現(xiàn)的概率,并在一定程度上反映了關(guān)節(jié)點(diǎn)間的空間信息,將這些關(guān)節(jié)點(diǎn)位置的概率分布進(jìn)一步精細(xì)化得到各個(gè)關(guān)節(jié)點(diǎn)的最終位置,最后通過(guò)池化層將學(xué)習(xí)得到的熱力圖合并到一個(gè)置信圖上,提高了關(guān)節(jié)點(diǎn)定位的魯棒性.T. PFISTER等[9]提出使用熱力圖估算圖像中每個(gè)像素接近真值的概率來(lái)確定每個(gè)關(guān)節(jié)點(diǎn)的坐標(biāo),該工作的主要?jiǎng)?chuàng)新點(diǎn)是提出一種空間融合的方法,即將網(wǎng)絡(luò)的第3層和第7層的特征提取出來(lái)進(jìn)行卷積融合操作,用來(lái)提取關(guān)節(jié)點(diǎn)間的聯(lián)系并利用光流信息對(duì)相鄰幀的熱力圖進(jìn)行預(yù)測(cè).

通過(guò)增大感受野使網(wǎng)絡(luò)能夠在原始圖像中學(xué)習(xí)到范圍更大的特征,這有利于得到目標(biāo)的上下文信息,即關(guān)節(jié)點(diǎn)在圖像中的空間關(guān)系.WEI S. E.等[10]構(gòu)建順序化的多階段級(jí)聯(lián)的深度神經(jīng)網(wǎng)絡(luò),即卷積姿勢(shì)估計(jì)器(convolutional pose machines,CPM),采用大卷積核不斷累加卷積操作,使網(wǎng)絡(luò)逐漸獲得大的感受野,利用不同尺度的特征圖表達(dá)各個(gè)關(guān)節(jié)點(diǎn)之間的空間關(guān)系,最終實(shí)現(xiàn)隱式學(xué)習(xí)關(guān)節(jié)點(diǎn)結(jié)構(gòu)信息的目的,同時(shí)使用中繼監(jiān)督對(duì)每一階段進(jìn)行監(jiān)督,避免梯度消失.

當(dāng)卷積核太大時(shí),網(wǎng)絡(luò)的參數(shù)量也隨之增大,過(guò)于消耗計(jì)算資源.A. NEWELL等[11]提出沙漏網(wǎng)絡(luò)(stacked hourglass networks,SHNs),適當(dāng)降低卷積核的尺寸,采用殘差模塊作為構(gòu)建Hourglass網(wǎng)絡(luò)的基礎(chǔ)模塊.Hourglass網(wǎng)絡(luò)模塊可以提取較高層次的特征,同時(shí)保留原始層次的信息.沙漏網(wǎng)絡(luò)的整體結(jié)構(gòu)是對(duì)稱的,網(wǎng)絡(luò)的前半部分通過(guò)卷積層和Max Pooling層對(duì)逐步縮小特征的分辨率得到高級(jí)特征(High-to-Low階段),網(wǎng)絡(luò)在每個(gè)Max Pooling層處分叉,上下兩路在不同尺度空間提取特征.當(dāng)將特征縮放到最低的分辨率后,網(wǎng)絡(luò)開(kāi)始進(jìn)行Up Sampling并與High-to-Low階段的特征信息進(jìn)行融合.

人體姿態(tài)估計(jì)作為計(jì)算機(jī)視覺(jué)的熱門(mén)課題,一直以來(lái)有大量的研究人員利用各種先進(jìn)方法去實(shí)現(xiàn)人體姿態(tài)估計(jì),取得了顯著的成就.但由于圖像視角、光線變化和遮擋等其他因素的影響,使基于圖像的人體姿態(tài)估計(jì)仍然面臨著各種挑戰(zhàn).

1) 復(fù)雜的背景信息.無(wú)論是室內(nèi)還是室外的圖像,除了人體以外仍存在大量的背景信息,在這些背景信息里可能存在與人體形狀或膚色相似的物體,特別是在駕駛室內(nèi)由于車窗反光會(huì)倒映出部分人體畫(huà)面,導(dǎo)致誤檢測(cè).

2) 光照的干擾.在真實(shí)環(huán)境里,圖片受光線強(qiáng)度和角度的影響,導(dǎo)致最終信息的展示效果差異很大.在過(guò)于強(qiáng)烈或過(guò)于微弱的光線下,拍攝到的照片由于曝光或亮度太低而無(wú)法展示準(zhǔn)確的圖形和顏色信息,而且在各種不同的光線角度下,物體往往會(huì)變得陌生而難以辨別.光照變化問(wèn)題在計(jì)算機(jī)視覺(jué)的各種領(lǐng)域都面臨著挑戰(zhàn),特別是人臉識(shí)別、行人檢測(cè)和動(dòng)作識(shí)別等.

3) 衣著變化.隨著潮流的發(fā)展,人類的衣服款式、造型和顏色日漸豐富,這為人體姿態(tài)估計(jì)的研究帶來(lái)了困難,比如圖像中的人員是否帶有面具或帽子,另類的服裝造型會(huì)使人體外部輪廓發(fā)生巨大的改變,穿裙子和穿褲子對(duì)于辨別下肢關(guān)節(jié)點(diǎn)的難度各不相同,而衣服上的人像圖案往往會(huì)使模型誤判人體數(shù)目,這些情況都會(huì)在不同程度上降低算法最終呈現(xiàn)出來(lái)的效果.

4) 遮擋問(wèn)題.遮擋問(wèn)題一直以來(lái)都是人體姿態(tài)估計(jì)所面臨的重要挑戰(zhàn),因?yàn)槿梭w的靈活性和環(huán)境的復(fù)雜性,極大概率會(huì)發(fā)生自我遮擋和其他遮擋的問(wèn)題.所謂自我遮擋就是個(gè)體的身體部位對(duì)自身關(guān)節(jié)點(diǎn)的遮擋,包括雙手抱胸、雙手背后、向下彎腰、雙腿或雙手交叉以及捂臉等行為,特別是在運(yùn)動(dòng)過(guò)程中基本上會(huì)出現(xiàn)自遮擋情況.而其他遮擋包括物體對(duì)關(guān)節(jié)的遮擋和人體之間的遮擋,在大型集會(huì)中由于人員密集,除了建筑對(duì)人體的遮擋以外,人們?cè)诨?dòng)的過(guò)程中相互遮擋.在發(fā)生遮擋問(wèn)題時(shí),被遮擋部位的信息將會(huì)從圖像上消失,對(duì)此需要算法有強(qiáng)大的聯(lián)系上下文能力,通過(guò)對(duì)全局信息的學(xué)習(xí)最后相對(duì)準(zhǔn)確地得到被遮擋關(guān)節(jié)點(diǎn)的位置.針對(duì)這個(gè)問(wèn)題,研究人員往往通過(guò)擴(kuò)大網(wǎng)絡(luò)結(jié)構(gòu)感受野的方法來(lái)解決.

5) 拍攝角度.由于攝像頭擺放位置的不同,使得最終獲取到的人物信息在圖像上展示的結(jié)果有很大的差異性,而且不同角度拍攝同一物體的結(jié)果甚至?xí)a(chǎn)生自遮擋情況,例如從上往下拍攝人體,圖片中頭部會(huì)顯得很大,腿卻顯得很短,甚至最終圖像得到頭頂信息而不包含下肢身體信息;從下往上拍攝效果與前者剛好相反.同時(shí)由于角度的變化,圖像中人體部位的尺度也會(huì)發(fā)生變化.

現(xiàn)代交通行業(yè)日益趨向自動(dòng)化,出于安全考慮,實(shí)時(shí)掌控汽車內(nèi)部駕駛員和乘客的情況對(duì)駕駛員狀態(tài)做出正確評(píng)估具有重要意義.汽車內(nèi)部由于空間局限、光線變化、駕駛員及乘客衣著變化和遮擋等問(wèn)題,使現(xiàn)有算法在實(shí)際環(huán)境的測(cè)試結(jié)果并不理想.如何有效過(guò)濾背景噪聲對(duì)算法造成的影響和如何提高對(duì)被遮擋關(guān)節(jié)點(diǎn)的檢測(cè)是駕駛員姿態(tài)估計(jì)研究迫切需要解決的問(wèn)題.

2 基于雙流全卷積網(wǎng)絡(luò)的構(gòu)建

由于駕駛室環(huán)境的復(fù)雜性,對(duì)駕駛員關(guān)節(jié)點(diǎn)的檢測(cè)往往會(huì)受到駕駛員衣著變化和光線變化的影響,使現(xiàn)有算法在車載圖像上測(cè)試結(jié)果出現(xiàn)精度不理想和關(guān)節(jié)點(diǎn)之間的連接丟失等問(wèn)題.因此,筆者基于全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)構(gòu)建一個(gè)雙流多階段的網(wǎng)絡(luò)(fully convolutio-nal network fusion,FCNf),同時(shí)預(yù)測(cè)關(guān)節(jié)點(diǎn)位置信息和關(guān)節(jié)點(diǎn)之間的連接信息,F(xiàn)CNf網(wǎng)絡(luò)總體框架如圖1所示.對(duì)特征圖進(jìn)行上采樣和下采樣操作并融合不同層的輸出特征圖,增強(qiáng)網(wǎng)絡(luò)提取關(guān)鍵信息的能力.制作與COCO數(shù)據(jù)集格式相同的駕駛員姿態(tài)數(shù)據(jù)集(DDS數(shù)據(jù)集).將FCNf算法分別在COCO數(shù)據(jù)集和DDS數(shù)據(jù)集上與其他先進(jìn)算法進(jìn)行對(duì)比試驗(yàn),驗(yàn)證算法的有效性.

圖1 FCNf網(wǎng)絡(luò)的總體框架圖

2.1 FCN算法原理

LONG J.等[12]提出一種新型卷積神經(jīng)網(wǎng)絡(luò)——全卷積神經(jīng)網(wǎng)絡(luò),由于FCN能夠?qū)D像進(jìn)行端對(duì)端、像素對(duì)像素的訓(xùn)練且輸入圖像可以是任意大小,所以被廣泛應(yīng)用到語(yǔ)義分割的領(lǐng)域.

簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò)在卷積層后面往往會(huì)通過(guò)全連接層得到固定長(zhǎng)度的特征向量,然后會(huì)使用類似于Softmax等函數(shù)對(duì)結(jié)果進(jìn)行分類,因此CNN(convolutional neural networks)只能輸入固定尺寸的圖像.而FCN可以輸入任意尺寸的圖片,網(wǎng)絡(luò)在最后使用反卷積層替換全連接層,對(duì)特征圖進(jìn)行上采樣,然后模型會(huì)對(duì)恢復(fù)到輸入時(shí)原始尺寸大小的圖像的每一個(gè)像素產(chǎn)生預(yù)測(cè)值,并逐個(gè)像素地分類.FCN通過(guò)上、下采樣的策略還可以保留圖像中的空間信息.

通過(guò)將傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中的全連接層換作相同維度的卷積核進(jìn)行卷積操作就轉(zhuǎn)化成為了一個(gè)簡(jiǎn)單的FCN.將CNN中的全連接層換成了卷積層,即可得到一個(gè)簡(jiǎn)單的FCN,這樣分類網(wǎng)絡(luò)就可以輸出熱力圖.

2.2 遷移學(xué)習(xí)

隨著基礎(chǔ)特征提取網(wǎng)絡(luò)性能的提升,近幾年大多數(shù)網(wǎng)絡(luò)都會(huì)對(duì)在ImageNet數(shù)據(jù)集上訓(xùn)練好的分類網(wǎng)絡(luò)進(jìn)行微調(diào),作為新網(wǎng)絡(luò)的backbone,常用到的分類網(wǎng)絡(luò)有VGGNet和ResNet.充足的數(shù)據(jù)是深度卷積神經(jīng)網(wǎng)絡(luò)能夠訓(xùn)練成功的關(guān)鍵要素之一,但收集和標(biāo)注數(shù)據(jù)需要耗費(fèi)大量的人力和時(shí)間,因此將在其他公共數(shù)據(jù)集上訓(xùn)練得到的模型遷移到一個(gè)新的任務(wù)中是非常有意義的.

隨著卷積層深度的增加,卷積層提取到的特征具有更加抽象的意義,即淺層卷積層提取更加通用的特征,而深層卷積層則提取到更加全面、有針對(duì)性的特征.所以在面對(duì)關(guān)聯(lián)性不大的數(shù)據(jù)集合場(chǎng)景時(shí),可以只用最開(kāi)始的幾層卷積層,其他層重新訓(xùn)練,而對(duì)于相似度高的情況,則可以直接使用整個(gè)網(wǎng)絡(luò).

本研究將提取VGG-19的前13層為整體網(wǎng)絡(luò)的提取輸入的圖像特征,另外為了調(diào)整特征輸出維度,在該網(wǎng)絡(luò)的最后添加卷積層Conv4_3A和Conv4_4A,調(diào)整最終輸出特征圖的維度,如表1所示.

表1 本研究使用的VGG-19網(wǎng)絡(luò)結(jié)構(gòu)表

表1中:Conv為卷積層,后面的序號(hào)為層數(shù);Max Pooling(MP)為最大池化層.這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)一共包括15層,其中卷積層的卷積核大小都是3*3.另外,公開(kāi)的姿態(tài)估計(jì)訓(xùn)練數(shù)據(jù)集COCO等所包含的圖像都是以日常生活中的人為主體.由于本研究是針對(duì)駕駛環(huán)境,與公共數(shù)據(jù)集相比,人體結(jié)構(gòu)一致,所以不用改變輸出類型和網(wǎng)絡(luò)的輸出層,將網(wǎng)絡(luò)先在公開(kāi)數(shù)據(jù)集上進(jìn)行訓(xùn)練,隨后保持網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)重不變,再在新的數(shù)據(jù)集上進(jìn)行第2次訓(xùn)練,微調(diào)權(quán)重使其更加適應(yīng)駕駛環(huán)境.

2.3 網(wǎng)絡(luò)結(jié)構(gòu)

FCNf網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,其中: US為上采樣層;BN為批規(guī)范層.網(wǎng)絡(luò)在每個(gè)階段的后面對(duì)損失函數(shù)進(jìn)行中繼監(jiān)督,防止梯度消失.

圖2 FCNf網(wǎng)絡(luò)結(jié)構(gòu)示意圖

將FCN1與FCN2并聯(lián)得到FCNf,該網(wǎng)絡(luò)可以同時(shí)對(duì)關(guān)節(jié)點(diǎn)位置信息和關(guān)節(jié)點(diǎn)之間的連接進(jìn)行預(yù)測(cè)得到圖像中每個(gè)像素對(duì)于關(guān)節(jié)點(diǎn)的置信度,即每個(gè)像素可能是關(guān)節(jié)點(diǎn)k的概率值.在FCN1和FCN2中設(shè)置High-to-Low和Low-to-High的沙漏結(jié)構(gòu),使特征圖被處理為非常低的分辨率后通過(guò)上采樣操作回到特征圖的原始大小,提取更為有效的特征信息.FCN1和FCN2學(xué)習(xí)并融合不同尺度下的特征圖信息,得到豐富的空間信息.

在第1階段(FCN1-stage1、FCN2-stage1),F(xiàn)CN1和FCN2經(jīng)過(guò)多層卷積核為3*3的卷積層后,通過(guò)Max Pooling操作使特征圖尺寸減半,在達(dá)到最小分辨率后,使用上采樣恢復(fù)特征圖到原始大小.WEI S. E.等[10]通過(guò)試驗(yàn)發(fā)現(xiàn),隨著感受野的增大,預(yù)測(cè)準(zhǔn)確率上升,其中增大感受野的方式包括:① 增大池化層(Pooling)步長(zhǎng),但是會(huì)損失較多信息降低精度;② 增大卷積核,相應(yīng)地會(huì)增大參數(shù)量;③ 增加卷積層.綜上,自第2階段(FCN1-stage2、FCN2-stage2)開(kāi)始采用卷積核為7*7的卷積層擴(kuò)大感受野,適當(dāng)加深網(wǎng)絡(luò)層數(shù)并且在每一個(gè)stage中添加上、下采樣操作,通過(guò)這樣的設(shè)計(jì)提高網(wǎng)絡(luò)的學(xué)習(xí)效率.

3 試 驗(yàn)

3.1 數(shù)據(jù)集

采用多人人體姿態(tài)估計(jì)使用的數(shù)據(jù)集COCO.COCO數(shù)據(jù)集是微軟2014年制作的數(shù)據(jù)集,COCO競(jìng)賽是計(jì)算機(jī)視覺(jué)領(lǐng)域最受關(guān)注和最權(quán)威的比賽之一.COCO數(shù)據(jù)集包括20萬(wàn)張圖片,25萬(wàn)個(gè)關(guān)節(jié)點(diǎn),每人有17個(gè)關(guān)節(jié)點(diǎn),包括鼻子(Nose)、左眼(Left_eye)、右眼(Right_eye)、左耳(Left_ear)、右耳(Right_ear)、左肩膀(Left_shoulder)、右肩膀(Right_shoulder)、左肘(Left_elbow)、右肘(Right_elbow)、左手腕(Left_wrist)、右手腕(Right_wrist)、左臀(Left_hip)、右臀(Right_hip)、左膝蓋(Left_knee)、右膝蓋(Right_knee)、左腳踝(Left_ankle)、右腳踝(Right_ankle).標(biāo)簽中每一個(gè)keypoint表示1個(gè)關(guān)節(jié)點(diǎn)坐標(biāo),它由長(zhǎng)度為3的數(shù)組(x,y,v)表示,其中:x和y表示關(guān)節(jié)點(diǎn)的坐標(biāo)值;v作為一個(gè)標(biāo)志符,取值為0、1和2.當(dāng)v=0時(shí),表示圖像中沒(méi)有該關(guān)節(jié)點(diǎn);v=1時(shí),表示該關(guān)節(jié)點(diǎn)存在,但是被遮擋;v=2時(shí),表示該關(guān)節(jié)點(diǎn)在圖像中存在并可見(jiàn).COCO數(shù)據(jù)集部分?jǐn)?shù)據(jù)展示如圖3所示.

圖3 COCO數(shù)據(jù)集展示

制作針對(duì)駕駛環(huán)境的數(shù)據(jù)集——DDS數(shù)據(jù)集,部分?jǐn)?shù)據(jù)展示如圖4所示.數(shù)據(jù)均來(lái)自江蘇比特達(dá)車輛監(jiān)控平臺(tái),根據(jù)駕駛室環(huán)境的密閉性、局限性和拍攝難度大等問(wèn)題,數(shù)據(jù)統(tǒng)一采集來(lái)自駕駛員右側(cè)攝像頭的圖像,因?yàn)檫@一角度更能全面展示人員在駕駛室內(nèi)的姿態(tài)狀態(tài),可以避免忽略駕駛員下半身的姿態(tài),比如翹腿和盤(pán)腿等危險(xiǎn)姿態(tài).搜集了3 300張、1 280×720像素的圖片,其中2 640張作為訓(xùn)練集,再?gòu)挠?xùn)練集中另取500張作為驗(yàn)證集,剩下的660張作為測(cè)試集.

圖4 DDS數(shù)據(jù)集部分實(shí)例

3.2 試驗(yàn)設(shè)置

使用深度學(xué)習(xí)框架keras作為試驗(yàn)平臺(tái),設(shè)備的系統(tǒng)為Ubuntu16.04,具有GeForce GTX 1080Ti,Intel Core i7,8 GB RAM.使用 ImageNet分類任務(wù)上提前訓(xùn)練好的VGG-16模型作為特征提取網(wǎng)絡(luò).模型一共6個(gè)stage,設(shè)置輸入圖片大小為368×368×3.在訓(xùn)練階段,使用隨機(jī)梯度下降優(yōu)化算法(stochastic gradient descent,SGD)對(duì)參數(shù)θ進(jìn)行優(yōu)化,其中學(xué)習(xí)率設(shè)置為2×10-5,動(dòng)量參數(shù)設(shè)置為0.9.

3.3 性能評(píng)價(jià)指標(biāo)

使用微軟COCO數(shù)據(jù)集提出的精度度量標(biāo)準(zhǔn)OKS(object keypoint similarity)作為性能評(píng)價(jià)指標(biāo),計(jì)算公式如下:

式中:di為每個(gè)對(duì)應(yīng)的標(biāo)簽真值與檢測(cè)到的關(guān)鍵點(diǎn)之間的歐式距離;s為目標(biāo)尺度;ki為常數(shù),用于控制關(guān)鍵點(diǎn)i的衰減情況;δ為將可見(jiàn)點(diǎn)選出來(lái)進(jìn)行計(jì)算的函數(shù);vi為地面真值的可見(jiàn)性標(biāo)志.

3.4 試驗(yàn)結(jié)果與分析

采用Fast-RCNN、CMU Pose(Carnegie Mellon University pose)、FCNf,在公共數(shù)據(jù)集COCO上進(jìn)行性能對(duì)比試驗(yàn),結(jié)果如表2所示.其中:mAP為平均準(zhǔn)確度;AP@0.50為OKS=0.50時(shí),AP的得分;AP@0.75為OKS=0.75時(shí),AP的得分;APm為針對(duì)中等尺度目標(biāo)的得分;APl為針對(duì)大尺度目標(biāo)的得分;AR為平均召回率,是OKS=0.50,0.55,…,0.95時(shí)的平均得分.

表2 在數(shù)據(jù)集COCO上的性能比較 %

在數(shù)據(jù)集COCO上,CMU Pose的平均準(zhǔn)確度(mAP)達(dá)到61.8%;FCNf的平均準(zhǔn)確度(mAP)達(dá)到了64.5%,比CMU Pose更有效.2種算法的試驗(yàn)結(jié)果對(duì)比如圖5所示.

圖5 2種算法在COCO數(shù)據(jù)集上的可視化對(duì)比

從圖5可以看出,提出的算法(FCNf)能更好地克服光線變化的問(wèn)題,并在一定程度上減少了關(guān)節(jié)點(diǎn)的錯(cuò)誤檢測(cè).

為了更好地評(píng)估FCNf的性能,在DDS數(shù)據(jù)集上與Fast-RCNN、CMU Pose進(jìn)行性能對(duì)比試驗(yàn),結(jié)果如表3所示.

表3 在DDS測(cè)試集上的性能比較 %

網(wǎng)絡(luò)中通過(guò)將不同尺度的特征與上下文語(yǔ)義信息融合在一起,有效提高關(guān)節(jié)點(diǎn)的檢測(cè)精度.從表3 可以看出:提出的算法在車載數(shù)據(jù)集上的精度得到了提高,F(xiàn)CNf 的AR比CMU Pose的高1.2%,比Fast-RCNN的高約4.8%;FCNf在DDS上的平均準(zhǔn)確度(mAP)為78.4%,F(xiàn)CNf 的平均準(zhǔn)確度(mAP)比CMU Pose的高4.3%,比Fast-RCNN的高5.8%.

從DDS測(cè)試集中選取4組具有代表性的圖片,并使用CMU Pose與FCNf進(jìn)行對(duì)比分析,結(jié)果如圖6、7所示.

圖6 CMU Pose在DDS測(cè)試集上的可視化結(jié)果

從圖6a、7a可以看出,CMU Pose對(duì)左腿有漏檢現(xiàn)象,并且在背景中出現(xiàn)了一些誤檢點(diǎn),而FCNf對(duì)左腿沒(méi)有出現(xiàn)漏檢現(xiàn)象.從圖6b、7b、6d、7d可以看出,當(dāng)室內(nèi)環(huán)境變得更加復(fù)雜時(shí),相比CMU Pose而言,F(xiàn)CNf可以準(zhǔn)確地檢測(cè)出關(guān)節(jié)點(diǎn)的位置,減少了在背景中對(duì)虛假關(guān)節(jié)點(diǎn)的檢測(cè)現(xiàn)象.從圖6c、7c可以看出,F(xiàn)CNf不僅可以準(zhǔn)確檢測(cè)出靠近窗口的左臂的關(guān)節(jié)點(diǎn)以及它們之間的連接信息,而且可以在光照變化條件下有效地過(guò)濾背景信息.在復(fù)雜環(huán)境和光照條件下,F(xiàn)CNf比CMU Pose對(duì)DDS圖像的處理更高效.

從圖7可以看出,F(xiàn)CNf算法可以有效減少非目標(biāo)區(qū)域的誤判,準(zhǔn)確地標(biāo)記出圖像中未被遮擋的人體關(guān)節(jié)位置.

圖7 FCNf在DDS測(cè)試集上的可視化結(jié)果

為了驗(yàn)證FCNf的魯棒性,從Kaggle Community中提取State Farm駕駛員檢測(cè)數(shù)據(jù)集中的部分駕駛員右側(cè)圖片.采用CMU Pose和FCNf進(jìn)行試驗(yàn),對(duì)比結(jié)果如圖8所示,CMU Pose的檢測(cè)結(jié)果出現(xiàn)細(xì)節(jié)丟失和錯(cuò)誤判斷,然而FCNf 可以更準(zhǔn)確地檢測(cè)圖像中未被遮擋的關(guān)節(jié)點(diǎn),并有效地過(guò)濾掉背景噪音,這表明FCNf模型具有更好的魯棒性.

圖8 2種算法在Kaggle Community的State Farm駕駛員檢測(cè)數(shù)據(jù)集上的試驗(yàn)結(jié)果對(duì)比

4 結(jié) 論

提出了一種基于雙流全卷積神經(jīng)網(wǎng)絡(luò)的駕駛員人體姿態(tài)估計(jì)方法.為了增強(qiáng)網(wǎng)絡(luò)提取特征圖關(guān)鍵信息的能力,在2個(gè)分支中設(shè)置沙漏狀的網(wǎng)絡(luò)結(jié)構(gòu),并將不同網(wǎng)絡(luò)層得到的特征圖進(jìn)行融合.試驗(yàn)結(jié)果表明,該方法對(duì)人體關(guān)節(jié)點(diǎn)的正確識(shí)別率高,可以在一定程度上減少非目標(biāo)區(qū)域?qū)z測(cè)結(jié)果的影響.通過(guò)采集車載平臺(tái)上的數(shù)據(jù)對(duì)算法進(jìn)行訓(xùn)練,使得試驗(yàn)效果與車載環(huán)境更貼切.未來(lái)如何將算法移植到硬件設(shè)備中投入使用并保持較高的準(zhǔn)確率是研究的重點(diǎn).

猜你喜歡
關(guān)節(jié)點(diǎn)姿態(tài)卷積
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
基于深度學(xué)習(xí)和視覺(jué)檢測(cè)的地鐵違規(guī)行為預(yù)警系統(tǒng)研究與應(yīng)用
關(guān)節(jié)點(diǎn)連接歷史圖與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的雙人交互動(dòng)作識(shí)別
攀爬的姿態(tài)
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
全新一代宋的新姿態(tài)
汽車觀察(2018年9期)2018-10-23 05:46:40
跑與走的姿態(tài)
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
搞好新形勢(shì)下軍營(yíng)美術(shù)活動(dòng)需把握的關(guān)節(jié)點(diǎn)
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
商都县| 吉林省| 祁门县| 临沂市| 菏泽市| 湛江市| 固镇县| 楚雄市| 龙山县| 宝鸡市| 延庆县| 岳阳市| 翼城县| 鄢陵县| 武穴市| 普兰店市| 紫金县| 广丰县| 兴安县| 襄城县| 文水县| 肥乡县| 乌兰县| 五峰| 库尔勒市| 河西区| 大理市| 茌平县| 任丘市| 什邡市| 巩义市| 朝阳县| 赤水市| 准格尔旗| 井研县| 榆中县| 额济纳旗| 怀远县| 安溪县| 长岛县| 于都县|