国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種穩(wěn)定的2D骨骼捕捉策略及摔倒檢測(cè)方法*

2023-01-10 03:25陳文軒郭植星
機(jī)電工程技術(shù) 2022年12期
關(guān)鍵詞:置信度骨骼姿態(tài)

陳文軒,曾 碧,郭植星

(廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣州 510006)

0 引言

根據(jù)數(shù)據(jù)顯示,我國(guó)老年人口預(yù)計(jì)到2025年將達(dá)到2.8億左右,約占全國(guó)總?cè)丝诘?9.3%。到21世紀(jì)中葉,65周歲以上的老年人口將接近峰值,老年人口達(dá)到4.83億,占全國(guó)總?cè)丝诒戎貙⑦_(dá)到34.1%,屆時(shí)我國(guó)老年人口將占到亞洲老年人口的40%[1]。隨著人口老齡化現(xiàn)象不斷加劇,用于服務(wù)老年人的公共設(shè)施的數(shù)量和規(guī)模將不再能滿足社會(huì)的需求。老年人身體機(jī)能差,平衡能力不強(qiáng),應(yīng)變能力弱,就容易出現(xiàn)摔倒的情況,而老年人骨骼就像玻璃般脆弱,一旦摔碎,再難粘合恢復(fù),從而引起嚴(yán)重后果[2]。

在過去20年間,一直都有學(xué)者在研究跌倒檢測(cè)方法。國(guó)內(nèi)外摔倒檢測(cè)方法分3類:基于環(huán)境傳感器的方法、基于視頻的方法及基于可穿戴傳感器的方法?;诃h(huán)境的方法[3]有侵犯性小、算法效率高和實(shí)時(shí)性好的優(yōu)點(diǎn),但缺點(diǎn)也相當(dāng)明顯,它難以判定掉落的是人還是物體,導(dǎo)致誤判率非常高,且場(chǎng)地需要有一整套完整的部署,造價(jià)昂貴,限制比較大,難以普及到大多數(shù)人的家庭中?;诖┐魇降乃さ箓鞲衅鱗4-6]容易對(duì)使用者造成不便,而且傳感器的電源供應(yīng)也有局限,導(dǎo)致老人并不喜歡佩戴該類傳感器?;谝曈X的方法有更好的研究前景,在于它全自動(dòng)、普適性強(qiáng)且視頻流能提供更多的場(chǎng)景信息。而在基于視覺的方法中,將RGB圖像[7]作為輸入的方法需要依靠深度網(wǎng)絡(luò)學(xué)習(xí)排除圖像中的冗余信息而導(dǎo)致模型規(guī)模較大,模型算力需求大而在現(xiàn)實(shí)中無法達(dá)到實(shí)時(shí)性;基于RGBD的方法需要特殊的深度傳感器設(shè)備,成本較高;基于光流法需要基于前后兩幀圖像計(jì)算稠密光流圖像,這個(gè)過程就會(huì)消耗大量的時(shí)間,在現(xiàn)實(shí)中也并不具有實(shí)用性。Johansson[8]在生物學(xué)觀察中表明,即使缺乏外觀信息,人類也能夠從人體幾個(gè)關(guān)節(jié)連續(xù)的運(yùn)動(dòng)中識(shí)別出不同的動(dòng)作。這是因?yàn)樵谌说闹饔^視角中,人體骨骼是一種簡(jiǎn)潔的數(shù)據(jù)形式,且序列化的骨骼數(shù)據(jù)也能較好地描述人的動(dòng)態(tài)變化信息。骨骼數(shù)據(jù)是所有人體內(nèi)所有關(guān)鍵關(guān)節(jié)的三維坐標(biāo),其可以通過不同的姿態(tài)估計(jì)方法從多幀圖像或直接由Kinect等傳感器采集得到,時(shí)效性好,因此基于骨骼點(diǎn)的摔倒檢測(cè)方法具有良好的應(yīng)用前景。

但目前公開的摔倒數(shù)據(jù)集大多沒有骨骼點(diǎn)數(shù)據(jù),而且視頻中存在多人走動(dòng)、背景復(fù)雜等干擾因素,需要摔倒領(lǐng)域的研究者付出大量的人力成本才能標(biāo)注好。再者目前基于骨骼點(diǎn)的摔倒檢測(cè)算法并沒有較好的邏輯鏈條,如Yin Zheng[9]和衛(wèi)少潔[10]都使用目標(biāo)檢測(cè)與姿態(tài)估計(jì)方法對(duì)現(xiàn)實(shí)場(chǎng)景中的人物進(jìn)行骨骼提取,獲取一段骨骼序列后輸入到不同的判別模型進(jìn)行判別。Yin Zheng[9]使用ST-GCN圖卷積模型,而衛(wèi)少潔[10]使用的是LSTM對(duì)摔倒行為進(jìn)行判別,雖說這些方法能在公開數(shù)據(jù)集上得到很好的效果,但都僅針對(duì)判別模型進(jìn)行改進(jìn),都沒有考慮目標(biāo)檢測(cè)與目標(biāo)跟蹤對(duì)骨骼提取的穩(wěn)定性問題。上述兩個(gè)問題都會(huì)導(dǎo)致在摔倒數(shù)據(jù)集上訓(xùn)練的算法系統(tǒng)難以泛化到現(xiàn)實(shí)世界中。

本文主要研究解決如何將基于摔倒數(shù)據(jù)集訓(xùn)練出來的模型,能確切地應(yīng)用在現(xiàn)實(shí)世界的問題:(1)為減少研究者在標(biāo)注過程中的人力成本,本文提出了一種骨骼捕捉策略,它利用單目標(biāo)跟蹤算法與目標(biāo)檢測(cè)相結(jié)合,自動(dòng)捕捉場(chǎng)景中人物骨骼點(diǎn),從而穩(wěn)定有效地提取出可用的訓(xùn)練骨骼點(diǎn),使得后續(xù)的模型訓(xùn)練更加有效;(2)針對(duì)現(xiàn)有摔倒檢測(cè)系統(tǒng)存在的缺點(diǎn),本文提出一種優(yōu)化的摔倒檢測(cè)方法,它利用SORT多目標(biāo)跟蹤算法跟蹤姿態(tài)估計(jì)方法生成的BoundingBox,并采用閾值法消取多余的骨骼點(diǎn),該方法不僅有較好的時(shí)效性,且能提高整體的摔倒檢測(cè)系統(tǒng)的穩(wěn)定性,降低系統(tǒng)誤判率。

1 相關(guān)工作

目前所有針對(duì)摔倒行為的公開數(shù)據(jù)集并無骨骼點(diǎn)數(shù)據(jù)。較大規(guī)模的摔倒數(shù)據(jù)集,如Le2i Fall Dataset、UP Fall Dataset、Multiple Cameras Fall Datasets等[11-13],除了UP Fall數(shù)據(jù)集會(huì)有一些加速度傳感器或光流圖像數(shù)據(jù)其他都只是視頻流數(shù)據(jù)。而骨骼點(diǎn)坐標(biāo)數(shù)據(jù)有2D或3D。一般來說2D姿態(tài)的質(zhì)量?jī)?yōu)于3D姿態(tài)。如圖1所示,圖1(a)中是HRNet[14]估計(jì)的2D姿勢(shì)可視化。顯然,它們的質(zhì)量比圖1(b)所示的Kinect傳感器收集的3D姿態(tài)估計(jì)要好得多。因此主要使用與現(xiàn)實(shí)任務(wù)關(guān)鍵點(diǎn)匹配度較高的2D姿態(tài)估計(jì)算法來將摔倒數(shù)據(jù)集轉(zhuǎn)換為骨骼點(diǎn)坐標(biāo)。

圖1 2D與3D可視化骨骼對(duì)比圖

姿態(tài)估計(jì)算法分為兩類,一種是自頂向下,較好的算法是CPN[15]和HR_Net,算法的大概邏輯是先檢測(cè)畫面中的所有人物,將每一個(gè)BoundingBox中的圖片輸入到單人姿態(tài)估計(jì)網(wǎng)絡(luò)中進(jìn)行估計(jì)。另一種是自下而上,較好的代表是Openpose[16],算法邏輯是檢測(cè)畫面中所有的關(guān)節(jié)點(diǎn),再使用匈牙利算法等聚類算法進(jìn)行最優(yōu)匹配。

摔倒數(shù)據(jù)集中的視頻流數(shù)據(jù)會(huì)有不同程度的干擾問題。如Multiple Cameras Fall數(shù)據(jù)集數(shù)據(jù)集擁有8個(gè)不同的視角,為反映真實(shí)的生活狀態(tài),視頻中會(huì)有背景復(fù)雜、目標(biāo)遮擋、目標(biāo)尺度過小等難點(diǎn)。而Le2i Fall數(shù)據(jù)集和UP Fall數(shù)據(jù)集中有多人走動(dòng)、背景陰暗、動(dòng)作執(zhí)行者缺失等難點(diǎn)。如圖2所示。這是從UP Fall數(shù)據(jù)集中截取正向視角與側(cè)面視角的幾幀圖像,展示一個(gè)人模擬摔倒的全過程。正向視角中出現(xiàn)了一個(gè)坐著的人,而側(cè)面視角的玻璃外面有一個(gè)行走的人,他們的行為都并不符合當(dāng)前幀動(dòng)作執(zhí)行者的標(biāo)簽。如果僅用姿態(tài)估計(jì)算法進(jìn)行骨骼提取,會(huì)污染訓(xùn)練數(shù)據(jù)并且難以進(jìn)行篩選。

圖2 UP Fall數(shù)據(jù)摔倒視頻部分截圖

摔倒判別系統(tǒng)有基于光流法[17-18]或基于深度圖像[19]的方法,但它們受到環(huán)境中的光照或移動(dòng)的物品影響較大,且相對(duì)于基于骨骼點(diǎn)的摔倒檢測(cè)系統(tǒng)不夠魯棒或達(dá)不到時(shí)效性。一般基于2D人體姿態(tài)骨骼點(diǎn)的摔倒判別系統(tǒng)框架主要分成4個(gè)部分,分別是檢測(cè)、跟蹤、姿態(tài)估計(jì)以及摔倒檢測(cè)。分類模型可以是傳統(tǒng)的SVM[21]或者LSTM。算法邏輯是先用目標(biāo)檢測(cè)檢測(cè)環(huán)境中的人物,再用單目標(biāo)或多目標(biāo)追蹤算法累積骨骼序列,最后進(jìn)行分類判斷。基于實(shí)時(shí)性考慮,目標(biāo)檢測(cè)算法會(huì)選擇單階段的YOLO系列的算法。出于在實(shí)際家庭場(chǎng)景中多于兩個(gè)人的情況較多,即便單目標(biāo)跟蹤能力要好于多目標(biāo)跟蹤法也并不適用于現(xiàn)實(shí)。此時(shí)這個(gè)摔倒系統(tǒng)在現(xiàn)實(shí)應(yīng)用時(shí)極容易因?yàn)槟繕?biāo)檢測(cè)算法的不穩(wěn)定而丟失跟蹤,導(dǎo)致后續(xù)的判別模型無效。因?yàn)槿缃裆疃葘W(xué)習(xí)的模型在追求速度的前提下就會(huì)損失一定的精度。圖3所示為YOLOv5[21]和MiniYOLOv3[22]目標(biāo)檢測(cè)算法對(duì)UP Fall數(shù)據(jù)集的人物檢測(cè)結(jié)果顯示,可以看到第26幀側(cè)視角畫面出現(xiàn)了誤檢的情況,對(duì)比后兩幀正視角的連續(xù)畫面,雖然兩者都沒有誤檢或漏檢,但YOLOv5對(duì)于檢測(cè)人物邊界的精確度要遠(yuǎn)高于MiniYOLOv3且MiniYOLOv3對(duì)后兩連續(xù)幀檢測(cè)的BoundingBox形變較為嚴(yán)重。這種情況容易導(dǎo)致跟蹤算法丟失追蹤目標(biāo),出現(xiàn)頻繁切換運(yùn)動(dòng)目標(biāo)ID的情況,進(jìn)一步影響整體系統(tǒng)對(duì)摔倒系統(tǒng)的判斷。但YOLOv5的高精度源于其大參數(shù)模型,它的速度遠(yuǎn)不如MiniYOLOv3高。因此本文針對(duì)上述問題提出了一種骨骼捕捉策略以及摔倒檢測(cè)方法。這兩個(gè)方法都能使摔倒系統(tǒng)能更好地應(yīng)用在現(xiàn)實(shí)世界中

圖3 YOLO目標(biāo)檢測(cè)算法對(duì)比圖

2 本文算法

2.1 骨骼捕捉策略

骨骼捕捉策略使用的是自頂向下的HRNet方法。基于以下幾點(diǎn)原因,第一是自下而上的姿態(tài)估計(jì)算法依靠聚類算法去劃分關(guān)節(jié)點(diǎn),當(dāng)目標(biāo)顯示不完全或兩個(gè)多人目標(biāo)重疊的時(shí)候,提取到的骨骼數(shù)容易缺失或錯(cuò)亂,無法轉(zhuǎn)換為有效的訓(xùn)練數(shù)據(jù);第二是目前SOTA算法中自下而上的姿態(tài)估計(jì)算法并無自頂向下的姿態(tài)估計(jì)算法精度高。為了獲得置信度更高且精確的骨骼坐標(biāo)數(shù)據(jù),本文使用的是自頂向下的姿態(tài)估計(jì)算法。針對(duì)視頻中的多人走動(dòng)、動(dòng)作者不在畫面中、遮擋或背景陰暗的問題,本文的骨骼捕捉策略引入了RiamRPN++[23]單目標(biāo)追蹤算法。整體算法流程的描述如下:遍歷每一個(gè)數(shù)據(jù)集的動(dòng)作視頻,人工框選動(dòng)作執(zhí)行者出現(xiàn)的第一幀畫面,利用單目標(biāo)跟蹤算法對(duì)其進(jìn)行跟蹤并輸入到姿態(tài)估計(jì)算法中,這樣就可以過濾掉多余的人,篩選出主要的動(dòng)作執(zhí)行者。但在Multiple cameras Fall數(shù)據(jù)集中拍攝的場(chǎng)景比較復(fù)雜,UP Fall數(shù)據(jù)集動(dòng)作執(zhí)行者速度較快,這些情況都容易導(dǎo)致單目標(biāo)跟蹤算法丟失目標(biāo),難以重捕獲跟蹤目標(biāo)導(dǎo)致轉(zhuǎn)換出錯(cuò)誤的骨骼數(shù)據(jù)污染訓(xùn)練數(shù)據(jù)。因此本文引入目標(biāo)檢測(cè)算法,利用目標(biāo)檢測(cè)得到的目標(biāo)預(yù)測(cè)框不斷糾正單目標(biāo)算法的跟蹤區(qū)域。當(dāng)目標(biāo)檢測(cè)框與單目標(biāo)跟蹤框的IOU重合在[0.8,0.9]的區(qū)間內(nèi)時(shí),對(duì)單目標(biāo)跟蹤框進(jìn)行修正,使得跟蹤更加穩(wěn)定。當(dāng)動(dòng)作執(zhí)行者消失在畫面中時(shí),提取到的骨骼點(diǎn)整體均值會(huì)小于0.3且無IOU重合度高的檢測(cè)框,此時(shí)應(yīng)當(dāng)拋棄當(dāng)前幀的骨骼數(shù)據(jù)。整體骨骼捕捉策略流程如圖4所示。

圖4 骨骼捕捉策略流程

2.2 摔倒檢測(cè)優(yōu)化方法

摔倒檢測(cè)系統(tǒng)優(yōu)化框架分兩部分,數(shù)據(jù)預(yù)處理優(yōu)化及系統(tǒng)邏輯優(yōu)化。在數(shù)據(jù)預(yù)處理部分,要想在現(xiàn)實(shí)世界中達(dá)到更好的泛化性,就需要引入大量的數(shù)據(jù)訓(xùn)練。但不同的摔倒數(shù)據(jù)集中標(biāo)簽和標(biāo)注的方式并不統(tǒng)一。這就需要對(duì)標(biāo)簽進(jìn)行重標(biāo)注,而重標(biāo)注需要選擇合適的方式。Le2i Fall數(shù)據(jù)集只對(duì)摔倒的開始幀和結(jié)束幀作了編號(hào)。Multiple Cameras Fall數(shù)據(jù)集用數(shù)字1~9分別代表了Falling、Lying on the ground、Crounching、Moving down、Moving up、Sitting、Lying on a sofa以及Moving horizontaly這9種標(biāo)簽,數(shù)據(jù)集對(duì)每一幀圖像都標(biāo)上了數(shù)字。而UP Fall數(shù)據(jù)集中則將摔倒分成了5種類型,分別用數(shù)字1~11代 表Falling forward using hands、Falling forward using knees、Falling backwards、Falling sideward、Falling sitting in empty chair、Walking、Standing、Sitting、Picking up an object、Jumping、Laying共11種標(biāo)簽,但數(shù)據(jù)集作者在錄制時(shí)限制了每個(gè)志愿者做的每個(gè)動(dòng)作視頻在10~60 s以內(nèi),并對(duì)整個(gè)視頻標(biāo)注為當(dāng)前的動(dòng)作的數(shù)字。圖2UP Fall數(shù)據(jù)集中的第1幀中志愿者是站立狀態(tài),在第17幀開始有向前傾的動(dòng)作,在47幀時(shí)已經(jīng)完全躺在保護(hù)墊上并維持躺倒姿勢(shì)直到視頻結(jié)束的172幀。摔倒動(dòng)作發(fā)生在一瞬間,僅持續(xù)了大概30幀的時(shí)間。如果標(biāo)注方式如UP Fall數(shù)據(jù)集那樣將整個(gè)10 s視頻都納入摔倒標(biāo)簽中,容易和躺倒的動(dòng)作混淆,因此本文基于現(xiàn)實(shí)應(yīng)用的考慮采取了Multiple Cameras Fall的標(biāo)注方式,對(duì)每一幀圖像都標(biāo)上一個(gè)動(dòng)作標(biāo)簽,人為判斷每個(gè)動(dòng)作之間分離的界限。摔倒檢測(cè)的任務(wù)集中在識(shí)別摔倒行為而非區(qū)分眾多不同的動(dòng)作。因此本文結(jié)合了三個(gè)數(shù)據(jù)集的動(dòng)作標(biāo)簽描述,在重標(biāo)注數(shù)據(jù)集的時(shí)候?qū)⑵浜?jiǎn)單概括為7類(分別對(duì)應(yīng)數(shù)字1~7),Standing、Sitting、Falling down、Waliking、Standing、Sitting、Lying down。例如Le2i Fall數(shù)據(jù)集中目標(biāo)對(duì)象展示是一個(gè)掃地的動(dòng)作,就可以使用Walking或者Standing替代。UP Fall數(shù)據(jù)集中摔倒視頻的后半段就會(huì)換成Lying標(biāo)簽。標(biāo)注實(shí)例如圖5所示。

圖5 UP Fall數(shù)據(jù)集重標(biāo)注示例

姿態(tài)估計(jì)算法會(huì)因?yàn)楫嬅嬷姓诒位蚬饩€等因素而對(duì)當(dāng)前關(guān)節(jié)點(diǎn)的準(zhǔn)確度進(jìn)行評(píng)估,得到置信度Ci?,F(xiàn)實(shí)中對(duì)一個(gè)動(dòng)作是否發(fā)生的判斷也應(yīng)當(dāng)是一個(gè)概率值。因此置信度較差的骨骼點(diǎn)難以作為判斷動(dòng)作的有效依據(jù),因此需要減少錯(cuò)誤骨骼點(diǎn)對(duì)整體算法框架的影響。將標(biāo)簽乘上當(dāng)前幀所有骨骼點(diǎn)的置信度平均值,使得標(biāo)簽值成為會(huì)根據(jù)姿態(tài)估計(jì)得到的可信度進(jìn)行調(diào)整的概率值。計(jì)算過程如下式所示:

式中:Ctave為t時(shí)刻下所有骨骼置信度的平均值,融合到t時(shí)刻下的Labelt并使其成為一個(gè)概率值。

不同的數(shù)據(jù)集的視頻畫面分辨率不同,如UP Fall數(shù)據(jù)集是640×480,而Le2i Fall數(shù)據(jù)集是320×240。姿態(tài)估計(jì)算法得到的是骨骼點(diǎn)在像素坐標(biāo)系下的位置。需要將骨骼點(diǎn)數(shù)據(jù)除以視頻幀的長(zhǎng)度和寬度,縮放到基于數(shù)據(jù)集視頻幀的相對(duì)大小。此時(shí)需要進(jìn)一步消除人物在不同位置做動(dòng)作帶來的誤差。以每幀所有骨骼點(diǎn)為單位作Max-Min歸一化:

式中:xmax、xmin為單幀中最大、最小的關(guān)節(jié)點(diǎn)數(shù)據(jù),

一般基于骨骼的動(dòng)作識(shí)別算法,如文獻(xiàn)[24],使用的是公開的NTU120[25]數(shù)據(jù)集。雖說NTU120數(shù)據(jù)集對(duì)于每一類動(dòng)作的數(shù)據(jù)收集并無統(tǒng)一時(shí)間序列長(zhǎng)度,但為了統(tǒng)一輸入數(shù)據(jù)維度,多數(shù)基于骨骼的動(dòng)作識(shí)別文獻(xiàn)會(huì)以300幀(若不足300則填充0~300)作為時(shí)間維度的長(zhǎng)度,然后選擇其中的關(guān)鍵幀確立為更加短的時(shí)間維度長(zhǎng)度。本文主要任務(wù)是檢測(cè)摔倒行為,它是一種短暫甚至是瞬時(shí)發(fā)生的行為。本文使用的數(shù)據(jù)集是設(shè)定攝像機(jī)在18~30 fps,在標(biāo)注所有數(shù)據(jù)集的過程中,本文總結(jié)出了發(fā)生一次摔倒行為的視頻中可供標(biāo)注的畫面在30~75幀(取決于攝像機(jī)的幀率)。因此可以斷定摔倒行為的持續(xù)時(shí)長(zhǎng)約在1~2.5 s,它可以簡(jiǎn)單概括為向下傾斜、倒下以及完全躺倒3個(gè)狀態(tài)。參考目前家庭監(jiān)控?cái)z像機(jī)多在25 fps以及摔倒行為持續(xù)的時(shí)長(zhǎng)。本文選擇將一次動(dòng)作的判斷定義在30幀,并參考文獻(xiàn)[10]采取窗口滑動(dòng)法提取用于后續(xù)訓(xùn)練的骨骼序列樣本。窗口滑動(dòng)法如圖6所示。其中size大小為30。窗口沿幀順序方向滑動(dòng)一個(gè)單位即可獲得一個(gè)訓(xùn)練樣本Xi以及對(duì)應(yīng)標(biāo)簽Li,其中Xi由30個(gè)連續(xù)幀的14個(gè)骨骼點(diǎn)的x坐標(biāo)、y坐標(biāo)以及骨骼置信度組成,Li則是融入骨骼置信度的標(biāo)簽。

圖6 訓(xùn)練樣本處理

摔倒檢測(cè)系統(tǒng)優(yōu)化方法的整體流程如圖7所示。多目標(biāo)跟蹤算法為SORT[26],它是2016年中多目標(biāo)跟蹤領(lǐng)域的SOTA方法。它沒有使用深度學(xué)習(xí),但有極為良好跟蹤效果且能達(dá)到很高的時(shí)效性。針對(duì)圖3中第26幀中誤檢的問題,如果只是單幀出現(xiàn),則不會(huì)被追蹤算法分配ID,更不會(huì)集滿30幀連續(xù)骨骼數(shù)據(jù)并輸入到摔倒檢測(cè)網(wǎng)絡(luò)中,但如果在家庭中出現(xiàn)連續(xù)超過30幀誤檢時(shí),不僅占據(jù)內(nèi)存還會(huì)提高系統(tǒng)的誤判率,一直觸發(fā)警報(bào)。因此本文使用了閾值法對(duì)提取到的骨骼置信度進(jìn)行篩選,計(jì)算姿態(tài)估計(jì)算法提取的骨骼點(diǎn)的置信度均值,如果骨骼點(diǎn)的置信度均值連續(xù)20幀小于0.35,則將其ID標(biāo)記FalseSkeleton,不輸入到最后的判斷中。針對(duì)圖3第27、28幀前后形變嚴(yán)重的問題,因?yàn)樽藨B(tài)估計(jì)算法得到的骨骼點(diǎn)形成的外邊框比目標(biāo)檢測(cè)的BoundingBox變化更小更穩(wěn)定,因此本文利用多目標(biāo)跟蹤算法跟蹤人體姿態(tài)估計(jì)生成的人體框。

圖7 摔倒檢測(cè)優(yōu)化方法流程圖

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置

本文的實(shí)驗(yàn)環(huán)境是將GTX2080Ti 11G獨(dú)立顯卡作為訓(xùn)練設(shè)備和骨骼提取設(shè)備,而摔倒檢測(cè)算法的測(cè)試設(shè)備為Intel Core i5-6300HQ 2.3GHz處理器與GTX1060 6GB獨(dú)立顯卡的筆記本電腦。摔倒檢測(cè)算法的實(shí)驗(yàn)?zāi)P蚅STM是基于上述捕捉骨骼策略提取的所有摔倒骨骼數(shù)據(jù)集進(jìn)行訓(xùn)練。將整體3個(gè)數(shù)據(jù)集按8:2比例分成訓(xùn)練集和測(cè)試集。模型訓(xùn)練批次大小為256,初始學(xué)習(xí)率設(shè)置為1×10-4,訓(xùn)練80輪,在第20輪與第40輪微調(diào)學(xué)習(xí)率為原來的0.5倍,使用Adam優(yōu)化梯度下降,權(quán)重衰減1×10-4,其余采用默認(rèn)參數(shù)。

3.2 實(shí)驗(yàn)分析

對(duì)骨骼捕捉策略進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)效果如圖8所示。綠色框是RiamRPN++單目標(biāo)跟蹤框,為了跟蹤算法能更穩(wěn)定地跟蹤目標(biāo),人工框的區(qū)域應(yīng)該盡量小。因?yàn)樽藨B(tài)估計(jì)算法需要較為完整的人物圖像輸入才會(huì)有更好的結(jié)果,因此采用基于跟蹤框延伸的紅色擴(kuò)展框作為姿態(tài)估計(jì)算法的輸入數(shù)據(jù),綠色框僅作跟蹤使用。藍(lán)色框?yàn)閅OLOv5的目標(biāo)檢測(cè)算法的檢測(cè)框。當(dāng)檢測(cè)框與擴(kuò)展框的IOU在0.8~0.9區(qū)間時(shí),就會(huì)使用檢測(cè)框?yàn)楦櫩蜻M(jìn)行修正。當(dāng)IOU大于0.9時(shí),選擇目標(biāo)檢測(cè)算法作為姿態(tài)估計(jì)算法的輸入,當(dāng)檢測(cè)框沒有或者其小于0.8時(shí),則使用擴(kuò)展框作為姿態(tài)估計(jì)算法的輸入,起到互補(bǔ)的作用。這樣一方面可以過濾掉場(chǎng)景中的其他檢測(cè)框,另一方面可以糾正單目標(biāo)跟蹤算法的跟蹤軌跡,使輸入到HRnet姿態(tài)估計(jì)算法中的畫面更適合,從而提取更適用的骨骼數(shù)據(jù)。從圖8第一行視角也可以看到追蹤算法始終穩(wěn)定地跟蹤著動(dòng)作執(zhí)行者,而且圖8中第一行全部幀以及Frame126與Frame127背景都出現(xiàn)了額外的目標(biāo),但并無提取出多余動(dòng)作者的骨骼點(diǎn)。當(dāng)?shù)诙蠪rame159運(yùn)動(dòng)目標(biāo)消失在畫面時(shí),目標(biāo)跟蹤框依舊在提取骨骼點(diǎn),但畫面右上角顯示出骨骼的平均為0.213 8且并無高IOU的檢測(cè)框,此時(shí)并不會(huì)存儲(chǔ)到訓(xùn)練數(shù)據(jù)中。當(dāng)Frame197重新出現(xiàn)運(yùn)動(dòng)目標(biāo)時(shí),單目標(biāo)跟蹤算法會(huì)重新捕捉并追蹤。實(shí)驗(yàn)效果表明骨骼捕捉策略可提取較高質(zhì)量的骨骼數(shù)據(jù),減少大量的人工標(biāo)注成本。

圖8 RiamRPN+Yolo骨骼數(shù)據(jù)提取效果圖

對(duì)摔倒檢測(cè)優(yōu)化框架中的系統(tǒng)邏輯優(yōu)化進(jìn)行效果實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)效果如圖9所示。本文將同一個(gè)視頻輸入到經(jīng)過摔倒檢測(cè)優(yōu)化框架(第一行)以及沒有經(jīng)過優(yōu)化框架的摔倒檢測(cè)系統(tǒng)(第二行)進(jìn)行測(cè)試。從第144幀、204幀和第214幀可以看到,第一行與第二行人物的Bounding Box都不相同。優(yōu)化策略的Bounding Box要比Yolo檢測(cè)框小且變化是更加穩(wěn)定的,這是因?yàn)閮?yōu)化策略的Bounding Box是基于骨骼點(diǎn)向外延伸。檢測(cè)框更小的變化更有利于跟蹤。從后面144幀摔倒到295幀的完全站立可看到,優(yōu)化策略一直捕捉到跟蹤目標(biāo)并穩(wěn)定分配為ID2。而普通策略在260幀中已丟失了原來的ID4,并在295幀開始重新分配了ID5。雖然從204幀中多目標(biāo)跟蹤算法跟蹤了YOLOv3誤檢的環(huán)境中的凳子,使得第一行和第二行所分配的ID都不是從1開始。但從144幀開始,普通策略的系統(tǒng)對(duì)凳子和人物的ID分配已經(jīng)歷多次的變化。這是因?yàn)閮?yōu)化策略可繼續(xù)對(duì)凳子進(jìn)行跟蹤并對(duì)低置信度的骨骼點(diǎn)進(jìn)行FalseSkeleton的標(biāo)記,從而不會(huì)輸送到后續(xù)的動(dòng)作判斷模型中。此實(shí)驗(yàn)說明本文的摔倒檢測(cè)優(yōu)化方法可以不犧牲算力的前提下使得摔倒檢測(cè)系統(tǒng)對(duì)目標(biāo)的跟蹤更穩(wěn)定,使得誤判率更低。

圖9 摔倒優(yōu)化框架(第一行)及非優(yōu)化框架(第二行)對(duì)比效果圖

圖9同樣是對(duì)經(jīng)過摔倒檢測(cè)優(yōu)化框架中的數(shù)據(jù)預(yù)處理的實(shí)驗(yàn)效果對(duì)比。本文的研究目的并非是摔倒檢測(cè)模型,因此只選擇了簡(jiǎn)單的3層LSTM模型進(jìn)行訓(xùn)練。模型對(duì)數(shù)據(jù)集的測(cè)試集精度達(dá)到了93%。可以看到在模型很好地學(xué)習(xí)到了本文基于骨骼捕捉策略所獲得的較高質(zhì)量的數(shù)據(jù)集,并能在現(xiàn)實(shí)視頻中很好地檢測(cè)出人物的動(dòng)作。如144幀中的Fall Down,204、214、260的up(第一行中因丟失目標(biāo)而失去up動(dòng)作判斷)以及295幀的walking動(dòng)作。在顯示黑框中,動(dòng)作可視化后面都是模型輸出對(duì)于當(dāng)前動(dòng)作的概率值,如第二行的260幀與295幀,因?yàn)楫?dāng)前幀提取到的骨骼點(diǎn)置信度較高,模型對(duì)其動(dòng)作概率值判斷約65%和78%。這樣更加貼合現(xiàn)實(shí)的邏輯。

4 結(jié)束語(yǔ)

為了將在摔倒數(shù)據(jù)集上訓(xùn)練的老人摔倒檢測(cè)系統(tǒng)能更好地泛化到現(xiàn)實(shí)世界中,本文提出了一種骨骼捕捉策略,經(jīng)試驗(yàn)效果顯示,它能過濾摔倒數(shù)據(jù)集的干擾,并提取出適合訓(xùn)練的骨骼數(shù)據(jù),可以大幅度減少標(biāo)注者的工作量。為了進(jìn)一步使得摔倒檢測(cè)系統(tǒng)能更適用于現(xiàn)實(shí)世界,本文還介紹了一種摔倒檢測(cè)優(yōu)化方法,它包括數(shù)據(jù)預(yù)處理優(yōu)化及系統(tǒng)邏輯優(yōu)化。經(jīng)實(shí)驗(yàn)對(duì)比驗(yàn)證,基于數(shù)據(jù)預(yù)處理優(yōu)化策略訓(xùn)練的LSTM模型,在邏輯優(yōu)化的系統(tǒng)中能準(zhǔn)確識(shí)別自拍攝的測(cè)試視頻,在GTX1060顯卡中達(dá)到約45 fps,模型的準(zhǔn)確率達(dá)到93%。優(yōu)化檢測(cè)方法不僅提高整體系統(tǒng)的穩(wěn)定性,還降低系統(tǒng)誤判率。本論文的工作離部署到邊緣設(shè)備上還有一定的距離,因此未來的工作中需要在保證摔倒系統(tǒng)各部分精度的前提下進(jìn)行更加輕量化的實(shí)驗(yàn),以更低的算力成本植入到嵌入式設(shè)備中。

猜你喜歡
置信度骨骼姿態(tài)
置信度輔助特征增強(qiáng)的視差估計(jì)網(wǎng)絡(luò)
一種基于定位置信度預(yù)測(cè)的二階段目標(biāo)檢測(cè)方法
硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
做家務(wù)的女性骨骼更強(qiáng)壯
三減三健全民行動(dòng)——健康骨骼
攀爬的姿態(tài)
全新一代宋的新姿態(tài)
正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
另一種姿態(tài)
骨骼是如何生長(zhǎng)的
繁峙县| 平江县| 临武县| 安乡县| 怀柔区| 叙永县| 北票市| 准格尔旗| 侯马市| 施甸县| 宜春市| 扎赉特旗| 望城县| 赫章县| 固安县| 亚东县| 伊金霍洛旗| 台山市| 北碚区| 杨浦区| 视频| 河池市| 上饶县| 辉县市| 大安市| 游戏| 桂林市| 海城市| 钦州市| 垫江县| 托克托县| 成都市| 高邮市| 基隆市| 荣成市| 天水市| 武鸣县| 阿图什市| 北安市| 闸北区| 德惠市|