一種穩(wěn)定的2D骨骼捕捉策略及摔倒檢測(cè)方法*

2023-01-10 03:25陳文軒郭植星

機(jī)電工程技術(shù) 2022年12期

陳文軒，曾碧，郭植星

（廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院，廣州 510006）

0 引言

根據(jù)數(shù)據(jù)顯示，我國(guó)老年人口預(yù)計(jì)到2025年將達(dá)到2.8億左右，約占全國(guó)總?cè)丝诘?9.3%。到21世紀(jì)中葉，65周歲以上的老年人口將接近峰值，老年人口達(dá)到4.83億，占全國(guó)總?cè)丝诒戎貙⑦_(dá)到34.1%，屆時(shí)我國(guó)老年人口將占到亞洲老年人口的40%[1]。隨著人口老齡化現(xiàn)象不斷加劇，用于服務(wù)老年人的公共設(shè)施的數(shù)量和規(guī)模將不再能滿足社會(huì)的需求。老年人身體機(jī)能差，平衡能力不強(qiáng)，應(yīng)變能力弱，就容易出現(xiàn)摔倒的情況，而老年人骨骼就像玻璃般脆弱，一旦摔碎，再難粘合恢復(fù)，從而引起嚴(yán)重后果[2]。

在過去20年間，一直都有學(xué)者在研究跌倒檢測(cè)方法。國(guó)內(nèi)外摔倒檢測(cè)方法分3類：基于環(huán)境傳感器的方法、基于視頻的方法及基于可穿戴傳感器的方法?；诃h(huán)境的方法[3]有侵犯性小、算法效率高和實(shí)時(shí)性好的優(yōu)點(diǎn)，但缺點(diǎn)也相當(dāng)明顯，它難以判定掉落的是人還是物體，導(dǎo)致誤判率非常高，且場(chǎng)地需要有一整套完整的部署，造價(jià)昂貴，限制比較大，難以普及到大多數(shù)人的家庭中?；诖┐魇降乃さ箓鞲衅鱗4-6]容易對(duì)使用者造成不便，而且傳感器的電源供應(yīng)也有局限，導(dǎo)致老人并不喜歡佩戴該類傳感器?；谝曈X的方法有更好的研究前景，在于它全自動(dòng)、普適性強(qiáng)且視頻流能提供更多的場(chǎng)景信息。而在基于視覺的方法中，將RGB圖像[7]作為輸入的方法需要依靠深度網(wǎng)絡(luò)學(xué)習(xí)排除圖像中的冗余信息而導(dǎo)致模型規(guī)模較大，模型算力需求大而在現(xiàn)實(shí)中無法達(dá)到實(shí)時(shí)性；基于RGBD的方法需要特殊的深度傳感器設(shè)備，成本較高；基于光流法需要基于前后兩幀圖像計(jì)算稠密光流圖像，這個(gè)過程就會(huì)消耗大量的時(shí)間，在現(xiàn)實(shí)中也并不具有實(shí)用性。Johansson[8]在生物學(xué)觀察中表明，即使缺乏外觀信息，人類也能夠從人體幾個(gè)關(guān)節(jié)連續(xù)的運(yùn)動(dòng)中識(shí)別出不同的動(dòng)作。這是因?yàn)樵谌说闹饔^視角中，人體骨骼是一種簡(jiǎn)潔的數(shù)據(jù)形式，且序列化的骨骼數(shù)據(jù)也能較好地描述人的動(dòng)態(tài)變化信息。骨骼數(shù)據(jù)是所有人體內(nèi)所有關(guān)鍵關(guān)節(jié)的三維坐標(biāo)，其可以通過不同的姿態(tài)估計(jì)方法從多幀圖像或直接由Kinect等傳感器采集得到，時(shí)效性好，因此基于骨骼點(diǎn)的摔倒檢測(cè)方法具有良好的應(yīng)用前景。

但目前公開的摔倒數(shù)據(jù)集大多沒有骨骼點(diǎn)數(shù)據(jù)，而且視頻中存在多人走動(dòng)、背景復(fù)雜等干擾因素，需要摔倒領(lǐng)域的研究者付出大量的人力成本才能標(biāo)注好。再者目前基于骨骼點(diǎn)的摔倒檢測(cè)算法并沒有較好的邏輯鏈條，如Yin Zheng[9]和衛(wèi)少潔[10]都使用目標(biāo)檢測(cè)與姿態(tài)估計(jì)方法對(duì)現(xiàn)實(shí)場(chǎng)景中的人物進(jìn)行骨骼提取，獲取一段骨骼序列后輸入到不同的判別模型進(jìn)行判別。Yin Zheng[9]使用ST-GCN圖卷積模型，而衛(wèi)少潔[10]使用的是LSTM對(duì)摔倒行為進(jìn)行判別，雖說這些方法能在公開數(shù)據(jù)集上得到很好的效果，但都僅針對(duì)判別模型進(jìn)行改進(jìn)，都沒有考慮目標(biāo)檢測(cè)與目標(biāo)跟蹤對(duì)骨骼提取的穩(wěn)定性問題。上述兩個(gè)問題都會(huì)導(dǎo)致在摔倒數(shù)據(jù)集上訓(xùn)練的算法系統(tǒng)難以泛化到現(xiàn)實(shí)世界中。

本文主要研究解決如何將基于摔倒數(shù)據(jù)集訓(xùn)練出來的模型，能確切地應(yīng)用在現(xiàn)實(shí)世界的問題：（1）為減少研究者在標(biāo)注過程中的人力成本，本文提出了一種骨骼捕捉策略，它利用單目標(biāo)跟蹤算法與目標(biāo)檢測(cè)相結(jié)合，自動(dòng)捕捉場(chǎng)景中人物骨骼點(diǎn)，從而穩(wěn)定有效地提取出可用的訓(xùn)練骨骼點(diǎn)，使得后續(xù)的模型訓(xùn)練更加有效；（2）針對(duì)現(xiàn)有摔倒檢測(cè)系統(tǒng)存在的缺點(diǎn)，本文提出一種優(yōu)化的摔倒檢測(cè)方法，它利用SORT多目標(biāo)跟蹤算法跟蹤姿態(tài)估計(jì)方法生成的BoundingBox，并采用閾值法消取多余的骨骼點(diǎn)，該方法不僅有較好的時(shí)效性，且能提高整體的摔倒檢測(cè)系統(tǒng)的穩(wěn)定性，降低系統(tǒng)誤判率。

1 相關(guān)工作

目前所有針對(duì)摔倒行為的公開數(shù)據(jù)集并無骨骼點(diǎn)數(shù)據(jù)。較大規(guī)模的摔倒數(shù)據(jù)集，如Le2i Fall Dataset、UP Fall Dataset、Multiple Cameras Fall Datasets等[11-13]，除了UP Fall數(shù)據(jù)集會(huì)有一些加速度傳感器或光流圖像數(shù)據(jù)其他都只是視頻流數(shù)據(jù)。而骨骼點(diǎn)坐標(biāo)數(shù)據(jù)有2D或3D。一般來說2D姿態(tài)的質(zhì)量?jī)?yōu)于3D姿態(tài)。如圖1所示，圖1（a）中是HRNet[14]估計(jì)的2D姿勢(shì)可視化。顯然，它們的質(zhì)量比圖1（b）所示的Kinect傳感器收集的3D姿態(tài)估計(jì)要好得多。因此主要使用與現(xiàn)實(shí)任務(wù)關(guān)鍵點(diǎn)匹配度較高的2D姿態(tài)估計(jì)算法來將摔倒數(shù)據(jù)集轉(zhuǎn)換為骨骼點(diǎn)坐標(biāo)。

圖1 2D與3D可視化骨骼對(duì)比圖

姿態(tài)估計(jì)算法分為兩類，一種是自頂向下，較好的算法是CPN[15]和HR＿Net，算法的大概邏輯是先檢測(cè)畫面中的所有人物，將每一個(gè)BoundingBox中的圖片輸入到單人姿態(tài)估計(jì)網(wǎng)絡(luò)中進(jìn)行估計(jì)。另一種是自下而上，較好的代表是Openpose[16]，算法邏輯是檢測(cè)畫面中所有的關(guān)節(jié)點(diǎn)，再使用匈牙利算法等聚類算法進(jìn)行最優(yōu)匹配。

摔倒數(shù)據(jù)集中的視頻流數(shù)據(jù)會(huì)有不同程度的干擾問題。如Multiple Cameras Fall數(shù)據(jù)集數(shù)據(jù)集擁有8個(gè)不同的視角，為反映真實(shí)的生活狀態(tài)，視頻中會(huì)有背景復(fù)雜、目標(biāo)遮擋、目標(biāo)尺度過小等難點(diǎn)。而Le2i Fall數(shù)據(jù)集和UP Fall數(shù)據(jù)集中有多人走動(dòng)、背景陰暗、動(dòng)作執(zhí)行者缺失等難點(diǎn)。如圖2所示。這是從UP Fall數(shù)據(jù)集中截取正向視角與側(cè)面視角的幾幀圖像，展示一個(gè)人模擬摔倒的全過程。正向視角中出現(xiàn)了一個(gè)坐著的人，而側(cè)面視角的玻璃外面有一個(gè)行走的人，他們的行為都并不符合當(dāng)前幀動(dòng)作執(zhí)行者的標(biāo)簽。如果僅用姿態(tài)估計(jì)算法進(jìn)行骨骼提取，會(huì)污染訓(xùn)練數(shù)據(jù)并且難以進(jìn)行篩選。

圖2 UP Fall數(shù)據(jù)摔倒視頻部分截圖

摔倒判別系統(tǒng)有基于光流法[17-18]或基于深度圖像[19]的方法，但它們受到環(huán)境中的光照或移動(dòng)的物品影響較大，且相對(duì)于基于骨骼點(diǎn)的摔倒檢測(cè)系統(tǒng)不夠魯棒或達(dá)不到時(shí)效性。一般基于2D人體姿態(tài)骨骼點(diǎn)的摔倒判別系統(tǒng)框架主要分成4個(gè)部分，分別是檢測(cè)、跟蹤、姿態(tài)估計(jì)以及摔倒檢測(cè)。分類模型可以是傳統(tǒng)的SVM[21]或者LSTM。算法邏輯是先用目標(biāo)檢測(cè)檢測(cè)環(huán)境中的人物，再用單目標(biāo)或多目標(biāo)追蹤算法累積骨骼序列，最后進(jìn)行分類判斷。基于實(shí)時(shí)性考慮，目標(biāo)檢測(cè)算法會(huì)選擇單階段的YOLO系列的算法。出于在實(shí)際家庭場(chǎng)景中多于兩個(gè)人的情況較多，即便單目標(biāo)跟蹤能力要好于多目標(biāo)跟蹤法也并不適用于現(xiàn)實(shí)。此時(shí)這個(gè)摔倒系統(tǒng)在現(xiàn)實(shí)應(yīng)用時(shí)極容易因?yàn)槟繕?biāo)檢測(cè)算法的不穩(wěn)定而丟失跟蹤，導(dǎo)致后續(xù)的判別模型無效。因?yàn)槿缃裆疃葘W(xué)習(xí)的模型在追求速度的前提下就會(huì)損失一定的精度。圖3所示為YOLOv5[21]和MiniYOLOv3[22]目標(biāo)檢測(cè)算法對(duì)UP Fall數(shù)據(jù)集的人物檢測(cè)結(jié)果顯示，可以看到第26幀側(cè)視角畫面出現(xiàn)了誤檢的情況，對(duì)比后兩幀正視角的連續(xù)畫面，雖然兩者都沒有誤檢或漏檢，但YOLOv5對(duì)于檢測(cè)人物邊界的精確度要遠(yuǎn)高于MiniYOLOv3且MiniYOLOv3對(duì)后兩連續(xù)幀檢測(cè)的BoundingBox形變較為嚴(yán)重。這種情況容易導(dǎo)致跟蹤算法丟失追蹤目標(biāo)，出現(xiàn)頻繁切換運(yùn)動(dòng)目標(biāo)ID的情況，進(jìn)一步影響整體系統(tǒng)對(duì)摔倒系統(tǒng)的判斷。但YOLOv5的高精度源于其大參數(shù)模型，它的速度遠(yuǎn)不如MiniYOLOv3高。因此本文針對(duì)上述問題提出了一種骨骼捕捉策略以及摔倒檢測(cè)方法。這兩個(gè)方法都能使摔倒系統(tǒng)能更好地應(yīng)用在現(xiàn)實(shí)世界中

圖3 YOLO目標(biāo)檢測(cè)算法對(duì)比圖

2 本文算法

2.1 骨骼捕捉策略

骨骼捕捉策略使用的是自頂向下的HRNet方法。基于以下幾點(diǎn)原因，第一是自下而上的姿態(tài)估計(jì)算法依靠聚類算法去劃分關(guān)節(jié)點(diǎn)，當(dāng)目標(biāo)顯示不完全或兩個(gè)多人目標(biāo)重疊的時(shí)候，提取到的骨骼數(shù)容易缺失或錯(cuò)亂，無法轉(zhuǎn)換為有效的訓(xùn)練數(shù)據(jù)；第二是目前SOTA算法中自下而上的姿態(tài)估計(jì)算法并無自頂向下的姿態(tài)估計(jì)算法精度高。為了獲得置信度更高且精確的骨骼坐標(biāo)數(shù)據(jù)，本文使用的是自頂向下的姿態(tài)估計(jì)算法。針對(duì)視頻中的多人走動(dòng)、動(dòng)作者不在畫面中、遮擋或背景陰暗的問題，本文的骨骼捕捉策略引入了RiamRPN++[23]單目標(biāo)追蹤算法。整體算法流程的描述如下：遍歷每一個(gè)數(shù)據(jù)集的動(dòng)作視頻，人工框選動(dòng)作執(zhí)行者出現(xiàn)的第一幀畫面，利用單目標(biāo)跟蹤算法對(duì)其進(jìn)行跟蹤并輸入到姿態(tài)估計(jì)算法中，這樣就可以過濾掉多余的人，篩選出主要的動(dòng)作執(zhí)行者。但在Multiple cameras Fall數(shù)據(jù)集中拍攝的場(chǎng)景比較復(fù)雜，UP Fall數(shù)據(jù)集動(dòng)作執(zhí)行者速度較快，這些情況都容易導(dǎo)致單目標(biāo)跟蹤算法丟失目標(biāo)，難以重捕獲跟蹤目標(biāo)導(dǎo)致轉(zhuǎn)換出錯(cuò)誤的骨骼數(shù)據(jù)污染訓(xùn)練數(shù)據(jù)。因此本文引入目標(biāo)檢測(cè)算法，利用目標(biāo)檢測(cè)得到的目標(biāo)預(yù)測(cè)框不斷糾正單目標(biāo)算法的跟蹤區(qū)域。當(dāng)目標(biāo)檢測(cè)框與單目標(biāo)跟蹤框的IOU重合在[0.8,0.9]的區(qū)間內(nèi)時(shí)，對(duì)單目標(biāo)跟蹤框進(jìn)行修正，使得跟蹤更加穩(wěn)定。當(dāng)動(dòng)作執(zhí)行者消失在畫面中時(shí)，提取到的骨骼點(diǎn)整體均值會(huì)小于0.3且無IOU重合度高的檢測(cè)框，此時(shí)應(yīng)當(dāng)拋棄當(dāng)前幀的骨骼數(shù)據(jù)。整體骨骼捕捉策略流程如圖4所示。

圖4 骨骼捕捉策略流程

2.2 摔倒檢測(cè)優(yōu)化方法

摔倒檢測(cè)系統(tǒng)優(yōu)化框架分兩部分，數(shù)據(jù)預(yù)處理優(yōu)化及系統(tǒng)邏輯優(yōu)化。在數(shù)據(jù)預(yù)處理部分，要想在現(xiàn)實(shí)世界中達(dá)到更好的泛化性，就需要引入大量的數(shù)據(jù)訓(xùn)練。但不同的摔倒數(shù)據(jù)集中標(biāo)簽和標(biāo)注的方式并不統(tǒng)一。這就需要對(duì)標(biāo)簽進(jìn)行重標(biāo)注，而重標(biāo)注需要選擇合適的方式。Le2i Fall數(shù)據(jù)集只對(duì)摔倒的開始幀和結(jié)束幀作了編號(hào)。Multiple Cameras Fall數(shù)據(jù)集用數(shù)字1～9分別代表了Falling、Lying on the ground、Crounching、Moving down、Moving up、Sitting、Lying on a sofa以及Moving horizontaly這9種標(biāo)簽，數(shù)據(jù)集對(duì)每一幀圖像都標(biāo)上了數(shù)字。而UP Fall數(shù)據(jù)集中則將摔倒分成了5種類型，分別用數(shù)字1～11代表Falling forward using hands、Falling forward using knees、Falling backwards、Falling sideward、Falling sitting in empty chair、Walking、Standing、Sitting、Picking up an object、Jumping、Laying共11種標(biāo)簽，但數(shù)據(jù)集作者在錄制時(shí)限制了每個(gè)志愿者做的每個(gè)動(dòng)作視頻在10～60 s以內(nèi)，并對(duì)整個(gè)視頻標(biāo)注為當(dāng)前的動(dòng)作的數(shù)字。圖2UP Fall數(shù)據(jù)集中的第1幀中志愿者是站立狀態(tài)，在第17幀開始有向前傾的動(dòng)作，在47幀時(shí)已經(jīng)完全躺在保護(hù)墊上并維持躺倒姿勢(shì)直到視頻結(jié)束的172幀。摔倒動(dòng)作發(fā)生在一瞬間，僅持續(xù)了大概30幀的時(shí)間。如果標(biāo)注方式如UP Fall數(shù)據(jù)集那樣將整個(gè)10 s視頻都納入摔倒標(biāo)簽中，容易和躺倒的動(dòng)作混淆，因此本文基于現(xiàn)實(shí)應(yīng)用的考慮采取了Multiple Cameras Fall的標(biāo)注方式，對(duì)每一幀圖像都標(biāo)上一個(gè)動(dòng)作標(biāo)簽，人為判斷每個(gè)動(dòng)作之間分離的界限。摔倒檢測(cè)的任務(wù)集中在識(shí)別摔倒行為而非區(qū)分眾多不同的動(dòng)作。因此本文結(jié)合了三個(gè)數(shù)據(jù)集的動(dòng)作標(biāo)簽描述，在重標(biāo)注數(shù)據(jù)集的時(shí)候?qū)⑵浜?jiǎn)單概括為7類（分別對(duì)應(yīng)數(shù)字1～7），Standing、Sitting、Falling down、Waliking、Standing、Sitting、Lying down。例如Le2i Fall數(shù)據(jù)集中目標(biāo)對(duì)象展示是一個(gè)掃地的動(dòng)作，就可以使用Walking或者Standing替代。UP Fall數(shù)據(jù)集中摔倒視頻的后半段就會(huì)換成Lying標(biāo)簽。標(biāo)注實(shí)例如圖5所示。

圖5 UP Fall數(shù)據(jù)集重標(biāo)注示例

姿態(tài)估計(jì)算法會(huì)因?yàn)楫嬅嬷姓诒位蚬饩€等因素而對(duì)當(dāng)前關(guān)節(jié)點(diǎn)的準(zhǔn)確度進(jìn)行評(píng)估，得到置信度Ci?，F(xiàn)實(shí)中對(duì)一個(gè)動(dòng)作是否發(fā)生的判斷也應(yīng)當(dāng)是一個(gè)概率值。因此置信度較差的骨骼點(diǎn)難以作為判斷動(dòng)作的有效依據(jù)，因此需要減少錯(cuò)誤骨骼點(diǎn)對(duì)整體算法框架的影響。將標(biāo)簽乘上當(dāng)前幀所有骨骼點(diǎn)的置信度平均值，使得標(biāo)簽值成為會(huì)根據(jù)姿態(tài)估計(jì)得到的可信度進(jìn)行調(diào)整的概率值。計(jì)算過程如下式所示：

式中：Ctave為t時(shí)刻下所有骨骼置信度的平均值，融合到t時(shí)刻下的Labelt并使其成為一個(gè)概率值。

不同的數(shù)據(jù)集的視頻畫面分辨率不同，如UP Fall數(shù)據(jù)集是640×480，而Le2i Fall數(shù)據(jù)集是320×240。姿態(tài)估計(jì)算法得到的是骨骼點(diǎn)在像素坐標(biāo)系下的位置。需要將骨骼點(diǎn)數(shù)據(jù)除以視頻幀的長(zhǎng)度和寬度，縮放到基于數(shù)據(jù)集視頻幀的相對(duì)大小。此時(shí)需要進(jìn)一步消除人物在不同位置做動(dòng)作帶來的誤差。以每幀所有骨骼點(diǎn)為單位作Max-Min歸一化：

式中：xmax、xmin為單幀中最大、最小的關(guān)節(jié)點(diǎn)數(shù)據(jù)，

一般基于骨骼的動(dòng)作識(shí)別算法，如文獻(xiàn)[24]，使用的是公開的NTU120[25]數(shù)據(jù)集。雖說NTU120數(shù)據(jù)集對(duì)于每一類動(dòng)作的數(shù)據(jù)收集并無統(tǒng)一時(shí)間序列長(zhǎng)度，但為了統(tǒng)一輸入數(shù)據(jù)維度，多數(shù)基于骨骼的動(dòng)作識(shí)別文獻(xiàn)會(huì)以300幀（若不足300則填充0～300）作為時(shí)間維度的長(zhǎng)度，然后選擇其中的關(guān)鍵幀確立為更加短的時(shí)間維度長(zhǎng)度。本文主要任務(wù)是檢測(cè)摔倒行為，它是一種短暫甚至是瞬時(shí)發(fā)生的行為。本文使用的數(shù)據(jù)集是設(shè)定攝像機(jī)在18～30 fps，在標(biāo)注所有數(shù)據(jù)集的過程中，本文總結(jié)出了發(fā)生一次摔倒行為的視頻中可供標(biāo)注的畫面在30～75幀（取決于攝像機(jī)的幀率）。因此可以斷定摔倒行為的持續(xù)時(shí)長(zhǎng)約在1～2.5 s，它可以簡(jiǎn)單概括為向下傾斜、倒下以及完全躺倒3個(gè)狀態(tài)。參考目前家庭監(jiān)控?cái)z像機(jī)多在25 fps以及摔倒行為持續(xù)的時(shí)長(zhǎng)。本文選擇將一次動(dòng)作的判斷定義在30幀，并參考文獻(xiàn)[10]采取窗口滑動(dòng)法提取用于后續(xù)訓(xùn)練的骨骼序列樣本。窗口滑動(dòng)法如圖6所示。其中size大小為30。窗口沿幀順序方向滑動(dòng)一個(gè)單位即可獲得一個(gè)訓(xùn)練樣本Xi以及對(duì)應(yīng)標(biāo)簽Li，其中Xi由30個(gè)連續(xù)幀的14個(gè)骨骼點(diǎn)的x坐標(biāo)、y坐標(biāo)以及骨骼置信度組成，Li則是融入骨骼置信度的標(biāo)簽。

圖6 訓(xùn)練樣本處理

摔倒檢測(cè)系統(tǒng)優(yōu)化方法的整體流程如圖7所示。多目標(biāo)跟蹤算法為SORT[26]，它是2016年中多目標(biāo)跟蹤領(lǐng)域的SOTA方法。它沒有使用深度學(xué)習(xí)，但有極為良好跟蹤效果且能達(dá)到很高的時(shí)效性。針對(duì)圖3中第26幀中誤檢的問題，如果只是單幀出現(xiàn)，則不會(huì)被追蹤算法分配ID，更不會(huì)集滿30幀連續(xù)骨骼數(shù)據(jù)并輸入到摔倒檢測(cè)網(wǎng)絡(luò)中，但如果在家庭中出現(xiàn)連續(xù)超過30幀誤檢時(shí)，不僅占據(jù)內(nèi)存還會(huì)提高系統(tǒng)的誤判率，一直觸發(fā)警報(bào)。因此本文使用了閾值法對(duì)提取到的骨骼置信度進(jìn)行篩選，計(jì)算姿態(tài)估計(jì)算法提取的骨骼點(diǎn)的置信度均值，如果骨骼點(diǎn)的置信度均值連續(xù)20幀小于0.35，則將其ID標(biāo)記FalseSkeleton，不輸入到最后的判斷中。針對(duì)圖3第27、28幀前后形變嚴(yán)重的問題，因?yàn)樽藨B(tài)估計(jì)算法得到的骨骼點(diǎn)形成的外邊框比目標(biāo)檢測(cè)的BoundingBox變化更小更穩(wěn)定，因此本文利用多目標(biāo)跟蹤算法跟蹤人體姿態(tài)估計(jì)生成的人體框。

圖7 摔倒檢測(cè)優(yōu)化方法流程圖

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置

本文的實(shí)驗(yàn)環(huán)境是將GTX2080Ti 11G獨(dú)立顯卡作為訓(xùn)練設(shè)備和骨骼提取設(shè)備，而摔倒檢測(cè)算法的測(cè)試設(shè)備為Intel Core i5-6300HQ 2.3GHz處理器與GTX1060 6GB獨(dú)立顯卡的筆記本電腦。摔倒檢測(cè)算法的實(shí)驗(yàn)?zāi)Ｐ蚅STM是基于上述捕捉骨骼策略提取的所有摔倒骨骼數(shù)據(jù)集進(jìn)行訓(xùn)練。將整體3個(gè)數(shù)據(jù)集按8:2比例分成訓(xùn)練集和測(cè)試集。模型訓(xùn)練批次大小為256，初始學(xué)習(xí)率設(shè)置為1×10-4，訓(xùn)練80輪，在第20輪與第40輪微調(diào)學(xué)習(xí)率為原來的0.5倍，使用Adam優(yōu)化梯度下降，權(quán)重衰減1×10-4，其余采用默認(rèn)參數(shù)。

3.2 實(shí)驗(yàn)分析

對(duì)骨骼捕捉策略進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)效果如圖8所示。綠色框是RiamRPN++單目標(biāo)跟蹤框，為了跟蹤算法能更穩(wěn)定地跟蹤目標(biāo)，人工框的區(qū)域應(yīng)該盡量小。因?yàn)樽藨B(tài)估計(jì)算法需要較為完整的人物圖像輸入才會(huì)有更好的結(jié)果，因此采用基于跟蹤框延伸的紅色擴(kuò)展框作為姿態(tài)估計(jì)算法的輸入數(shù)據(jù)，綠色框僅作跟蹤使用。藍(lán)色框?yàn)閅OLOv5的目標(biāo)檢測(cè)算法的檢測(cè)框。當(dāng)檢測(cè)框與擴(kuò)展框的IOU在0.8～0.9區(qū)間時(shí)，就會(huì)使用檢測(cè)框?yàn)楦櫩蜻M(jìn)行修正。當(dāng)IOU大于0.9時(shí)，選擇目標(biāo)檢測(cè)算法作為姿態(tài)估計(jì)算法的輸入，當(dāng)檢測(cè)框沒有或者其小于0.8時(shí)，則使用擴(kuò)展框作為姿態(tài)估計(jì)算法的輸入，起到互補(bǔ)的作用。這樣一方面可以過濾掉場(chǎng)景中的其他檢測(cè)框，另一方面可以糾正單目標(biāo)跟蹤算法的跟蹤軌跡，使輸入到HRnet姿態(tài)估計(jì)算法中的畫面更適合，從而提取更適用的骨骼數(shù)據(jù)。從圖8第一行視角也可以看到追蹤算法始終穩(wěn)定地跟蹤著動(dòng)作執(zhí)行者，而且圖8中第一行全部幀以及Frame126與Frame127背景都出現(xiàn)了額外的目標(biāo)，但并無提取出多余動(dòng)作者的骨骼點(diǎn)。當(dāng)?shù)诙蠪rame159運(yùn)動(dòng)目標(biāo)消失在畫面時(shí)，目標(biāo)跟蹤框依舊在提取骨骼點(diǎn)，但畫面右上角顯示出骨骼的平均為0.213 8且并無高IOU的檢測(cè)框，此時(shí)并不會(huì)存儲(chǔ)到訓(xùn)練數(shù)據(jù)中。當(dāng)Frame197重新出現(xiàn)運(yùn)動(dòng)目標(biāo)時(shí)，單目標(biāo)跟蹤算法會(huì)重新捕捉并追蹤。實(shí)驗(yàn)效果表明骨骼捕捉策略可提取較高質(zhì)量的骨骼數(shù)據(jù)，減少大量的人工標(biāo)注成本。

圖8 RiamRPN+Yolo骨骼數(shù)據(jù)提取效果圖

對(duì)摔倒檢測(cè)優(yōu)化框架中的系統(tǒng)邏輯優(yōu)化進(jìn)行效果實(shí)驗(yàn)對(duì)比，實(shí)驗(yàn)效果如圖9所示。本文將同一個(gè)視頻輸入到經(jīng)過摔倒檢測(cè)優(yōu)化框架（第一行）以及沒有經(jīng)過優(yōu)化框架的摔倒檢測(cè)系統(tǒng)（第二行）進(jìn)行測(cè)試。從第144幀、204幀和第214幀可以看到，第一行與第二行人物的Bounding Box都不相同。優(yōu)化策略的Bounding Box要比Yolo檢測(cè)框小且變化是更加穩(wěn)定的，這是因?yàn)閮?yōu)化策略的Bounding Box是基于骨骼點(diǎn)向外延伸。檢測(cè)框更小的變化更有利于跟蹤。從后面144幀摔倒到295幀的完全站立可看到，優(yōu)化策略一直捕捉到跟蹤目標(biāo)并穩(wěn)定分配為ID2。而普通策略在260幀中已丟失了原來的ID4，并在295幀開始重新分配了ID5。雖然從204幀中多目標(biāo)跟蹤算法跟蹤了YOLOv3誤檢的環(huán)境中的凳子，使得第一行和第二行所分配的ID都不是從1開始。但從144幀開始，普通策略的系統(tǒng)對(duì)凳子和人物的ID分配已經(jīng)歷多次的變化。這是因?yàn)閮?yōu)化策略可繼續(xù)對(duì)凳子進(jìn)行跟蹤并對(duì)低置信度的骨骼點(diǎn)進(jìn)行FalseSkeleton的標(biāo)記，從而不會(huì)輸送到后續(xù)的動(dòng)作判斷模型中。此實(shí)驗(yàn)說明本文的摔倒檢測(cè)優(yōu)化方法可以不犧牲算力的前提下使得摔倒檢測(cè)系統(tǒng)對(duì)目標(biāo)的跟蹤更穩(wěn)定，使得誤判率更低。

圖9 摔倒優(yōu)化框架（第一行）及非優(yōu)化框架（第二行）對(duì)比效果圖

圖9同樣是對(duì)經(jīng)過摔倒檢測(cè)優(yōu)化框架中的數(shù)據(jù)預(yù)處理的實(shí)驗(yàn)效果對(duì)比。本文的研究目的并非是摔倒檢測(cè)模型，因此只選擇了簡(jiǎn)單的3層LSTM模型進(jìn)行訓(xùn)練。模型對(duì)數(shù)據(jù)集的測(cè)試集精度達(dá)到了93%。可以看到在模型很好地學(xué)習(xí)到了本文基于骨骼捕捉策略所獲得的較高質(zhì)量的數(shù)據(jù)集，并能在現(xiàn)實(shí)視頻中很好地檢測(cè)出人物的動(dòng)作。如144幀中的Fall Down，204、214、260的up（第一行中因丟失目標(biāo)而失去up動(dòng)作判斷）以及295幀的walking動(dòng)作。在顯示黑框中，動(dòng)作可視化后面都是模型輸出對(duì)于當(dāng)前動(dòng)作的概率值，如第二行的260幀與295幀，因?yàn)楫?dāng)前幀提取到的骨骼點(diǎn)置信度較高，模型對(duì)其動(dòng)作概率值判斷約65%和78%。這樣更加貼合現(xiàn)實(shí)的邏輯。

4 結(jié)束語(yǔ)

為了將在摔倒數(shù)據(jù)集上訓(xùn)練的老人摔倒檢測(cè)系統(tǒng)能更好地泛化到現(xiàn)實(shí)世界中，本文提出了一種骨骼捕捉策略，經(jīng)試驗(yàn)效果顯示，它能過濾摔倒數(shù)據(jù)集的干擾，并提取出適合訓(xùn)練的骨骼數(shù)據(jù)，可以大幅度減少標(biāo)注者的工作量。為了進(jìn)一步使得摔倒檢測(cè)系統(tǒng)能更適用于現(xiàn)實(shí)世界，本文還介紹了一種摔倒檢測(cè)優(yōu)化方法，它包括數(shù)據(jù)預(yù)處理優(yōu)化及系統(tǒng)邏輯優(yōu)化。經(jīng)實(shí)驗(yàn)對(duì)比驗(yàn)證，基于數(shù)據(jù)預(yù)處理優(yōu)化策略訓(xùn)練的LSTM模型，在邏輯優(yōu)化的系統(tǒng)中能準(zhǔn)確識(shí)別自拍攝的測(cè)試視頻，在GTX1060顯卡中達(dá)到約45 fps，模型的準(zhǔn)確率達(dá)到93%。優(yōu)化檢測(cè)方法不僅提高整體系統(tǒng)的穩(wěn)定性，還降低系統(tǒng)誤判率。本論文的工作離部署到邊緣設(shè)備上還有一定的距離，因此未來的工作中需要在保證摔倒系統(tǒng)各部分精度的前提下進(jìn)行更加輕量化的實(shí)驗(yàn)，以更低的算力成本植入到嵌入式設(shè)備中。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡