鄒開達(dá)
【關(guān)鍵詞】異常行為檢測;圖卷積網(wǎng)絡(luò);特定場景
隨著人工智能和圖像視覺分析技術(shù)的發(fā)展[1],在芯片及算力的支持下,傳統(tǒng)的安防行業(yè)已經(jīng)進(jìn)入到了智能時代,視頻異常行為檢測是智能監(jiān)控系統(tǒng)[2]的核心,在學(xué)術(shù)界和工業(yè)界都有較高的研究和應(yīng)用價值。最新調(diào)查研究顯示[3],我國近50%的老年人為“空巢老人”,居家養(yǎng)老為主要養(yǎng)老模式,居家安全問題的發(fā)生率高達(dá)38.03%。如何及時發(fā)現(xiàn)獨居老人在家發(fā)生的異常行為,做到第一時間保證老人的生命健康,成為當(dāng)今社會的重要課題之一。近年來,家庭場景下視頻監(jiān)控的普及為解決獨居老人的安全問題提供了新的方案,傳統(tǒng)的視頻監(jiān)控只能依靠人工的方式確認(rèn)老人的健康狀態(tài),無法做到及時性與實時性。針對這個問題,本文提出了一套智能化的監(jiān)控算法及實現(xiàn),通過將圖卷積網(wǎng)絡(luò)與注意力機(jī)制相結(jié)合,對視頻序列進(jìn)行特征提取與對比,適用于在醫(yī)院、獨居老人或者養(yǎng)老院等看護(hù)人員數(shù)量不足或者缺失的場景下,對一些特殊人群的行為進(jìn)行實時檢測,如果發(fā)生跌倒、揮手、擊打和抽煙等事先設(shè)定的異常行為類別,則向終端輸出發(fā)生的異常行為的類別和時間,最大限度上減少生命及財產(chǎn)損失。
人體骨架是人身體的內(nèi)在框架,骨架由人體的關(guān)節(jié)點和骨骼組成。在空間域上,將這些關(guān)鍵點按照人體結(jié)構(gòu)進(jìn)行連接可以得到人體輪廓圖。在時域上,根據(jù)關(guān)節(jié)點坐標(biāo)信息變化即可對人體行為進(jìn)行訓(xùn)練與分類。把骨架簡化為一個由點和邊所構(gòu)成的無向圖G(V,E)來表示N個關(guān)節(jié)點與T幀的人體骨架序列中點(V)與邊(E)在空間與時間上的連接關(guān)系,圖中藍(lán)色的點代表人體骨骼關(guān)鍵點V,它們之間按照人體結(jié)構(gòu)進(jìn)行連接,藍(lán)線構(gòu)成幀內(nèi)連線,綠線是同一個關(guān)鍵點在相鄰幀之間的連線,通過對比在時域上造成的藍(lán)綠線條的運(yùn)動變化從而實現(xiàn)對運(yùn)動目標(biāo)行為的檢測和識別。
在t時刻,有N個關(guān)鍵點Vt組成的邊Es(t)={vtivtj | (i,j)∈H}作為圖卷積網(wǎng)絡(luò)的輸入,輸入圖像為fin,定義節(jié)點vti其臨近節(jié)點集合B(vti)={vtj |d(vtj,vti)≤D其中d(vtj,vti)表示從vtj到vti的最小長度。即圖卷積的形式:
其中歸一化項Zti(vtj)=|{vtk |lti(vtk)=lti(vtj)}|等于對應(yīng)子集的基數(shù),平衡不同子集對輸出的貢獻(xiàn),w(lti(vtj))為訓(xùn)練過程中更新的權(quán)重規(guī)則函數(shù),由于人體骨架在空間上是局部性的,所以在劃分過程中利用這種特定的空間結(jié)構(gòu),設(shè)計一種將鄰域集劃分為三個子集的策略:(1)根節(jié)點本身;(2)向心集合:距離骨架重心較根節(jié)點近的鄰域節(jié)點;(3)其他所有節(jié)點被分為離心集合。形式上表示為:
為了提高模型的性能,本文對圖卷積網(wǎng)絡(luò)層進(jìn)行疊加圖注意力機(jī)制模塊,使模型通過權(quán)值分配的方式優(yōu)化網(wǎng)絡(luò)學(xué)習(xí)參數(shù),得到更加適合描述行為的圖結(jié)構(gòu),例如人體揮手的動作其主要關(guān)節(jié)點變化是在手部和肘部,其余關(guān)節(jié)點包含運(yùn)動特征信息很少,所以引入圖注意力機(jī)制后,手部和肘部的關(guān)節(jié)點其權(quán)重相對其他關(guān)節(jié)點會變大,權(quán)值矩陣與圖卷積層輸出的特征圖相乘達(dá)到特征評估的目的。
在上一節(jié)中,我們得到的人體關(guān)節(jié)點與邊構(gòu)成一張無向圖G(V,E),其中V={1,2n,...,n}|為節(jié)點集合,節(jié)點的特征用X=x1,x2,...,xn來表示,使用圖卷積公式G'=G-0.5AD-0.5X新的節(jié)點的特征X',其中A為關(guān)節(jié)點的鄰接矩陣,D是圖的度矩陣,圖注意力機(jī)制的目的就是對節(jié)點的特征進(jìn)行加權(quán)平均。用公式表示即:
其中alearn(i,j)代表圖G的鄰接矩陣A的第i行第j列的值,即(i,j)邊的可學(xué)習(xí)權(quán)重,由于Graph的邊是簡單、固定的,因此Convolution加權(quán)平均過程中鄰居節(jié)點的權(quán)值也是簡單、固定的。本文采用基于相似度的注意力計算方式,其權(quán)值更新公式為:
首先將輸入的骨架用一個BatchNorm層來規(guī)范化網(wǎng)絡(luò)模型,一共由9層圖卷積單元塊組成,前三層輸出通道為64,中間三層輸出通道為128,最后三層輸出通道為256,每個層的時間卷積核大小為9,每一個圖卷積塊都使用了殘差結(jié)構(gòu),并使用概率為0.5的Dropout,防止過擬合在第4層和第7層將時域的stride設(shè)為2作為池化層,最后對得到的張量進(jìn)行全局池化得到256維的特征向量,最后提供給softmax分類。采用SGD,learningrate設(shè)為0.01,10個epochs學(xué)習(xí)率自乘0.1。為了模擬相機(jī)的運(yùn)動,對所有幀的骨架序列進(jìn)行隨機(jī)仿射變換。這種變換被插入到中間幀中,以產(chǎn)生一種在拍攝過程中平滑地移動視角一樣的效果。訓(xùn)練中隨機(jī)抽取原始骨架序列的片段,并在測試中使用所有幀。網(wǎng)絡(luò)最后的全局池化使網(wǎng)絡(luò)能夠處理長度不定的輸入序列。最后訓(xùn)練好的模型在NTU-RGB+D數(shù)據(jù)集上驗證精度,將最終的模型與主流的行為識別方法進(jìn)行比較,比較結(jié)果顯示在表1中。本文模型達(dá)到了更高的準(zhǔn)確率,具有更好的性能,這有效地證明了本文模型的優(yōu)越性。
行為識別算法的落地具有較高的研究及應(yīng)用價值,不僅適用于當(dāng)下火熱的無人駕駛技術(shù),在醫(yī)療監(jiān)護(hù)、社會治安等領(lǐng)域也有廣泛的應(yīng)用前景。本文提出了一種基于圖卷積網(wǎng)絡(luò)與注意力機(jī)制結(jié)合的算法,將視頻幀序列進(jìn)行特征提取并嵌入網(wǎng)絡(luò)模型,完成了在監(jiān)護(hù)人員不足或者確定的場景下對特定的檢測人群進(jìn)行實時行為分析與識別,如果發(fā)生指定的異常行為類別,則向終端輸出異常信息保障第一時間減輕人體安全和財產(chǎn)的損失。未來的工作可以集中在如何更好地融合和利用RGB數(shù)據(jù)和骨架數(shù)據(jù)上,進(jìn)一步改善和提高模型的性能。