楊小鵬 高煒程 渠曉東
(北京理工大學信息與電子學院 北京 100081)
隨著智能系統(tǒng)及處理算法的不斷發(fā)展,人體行為識別技術在安防監(jiān)控、救援行動和交互式智能家居等領域具有日趨重要的應用價值[1,2]。穿墻雷達利用低頻超寬帶(Ultra-Wide Band,UWB)電磁波穿透建筑物墻體[3],對室內人員進行探測和識別[4,5]。與光學、紅外、穿戴傳感器等手段相比,穿墻雷達透過墻壁、門窗等障礙物獲取目標信息,無需直接觀測目標,且不存在物理接觸,具備較高的安全性和隱私性[6,7]。因此,穿墻雷達能夠在復雜城市建筑環(huán)境下實現(xiàn)遮蔽空間的人體行為識別[8]。
基于穿墻雷達實現(xiàn)人體目標探測的工作可以追溯到2000年。文獻[9]提出了一種基于機器人平臺的人體運動探測雷達。文獻[10]改進了文獻[9]中的機器人平臺穿墻雷達,在典型樓宇環(huán)境中開展了相關實驗,驗證了人體目標檢測、定位以及行為識別的有效性。文獻[11]利用希爾伯特-黃變換(Hilbert-Huang Transform,HHT)實現(xiàn)微多普勒信息的解耦,因其對非線性和非穩(wěn)態(tài)信號具有較強的自適應能力,提取的微多普勒時頻特征可有效提高后端識別算法的精度。文獻[12]提出了基于快速傅里葉變換(Fast Fourier Transform,FFT)和S變換的微多普勒特征可視化技術,利用圖像處理和機器學習算法實現(xiàn)人體生命特征的探測和識別。文獻[13,14]提出了一種多重希爾伯特-黃變換(Multiple Hilbert-Huang Transform,MHHT)方法,用于穿墻場景下人類活動微多普勒特征的時頻分析,提升了微多普勒特征提取粒度。文獻[15]提出了一種基于像素變化條紋圖案的新型原始測距輪廓數(shù)據(jù)預處理方法,該方法可以呈現(xiàn)出比原始時頻像更清晰的微多普勒特征變化趨勢,提高了識別精度。文獻[16]提出了一種時頻域相對信噪比特征,定量估計多輸入多輸出(Multiple-Input Multiple-Output,MIMO)雷達系統(tǒng)回波中的微多普勒特征,實現(xiàn)快速精確的人體行為識別。文獻[17]利用復值卷積神經(jīng)網(wǎng)絡(Complex-Valued Convolutional Neural Network,CV-CNN)研究了直接利用原始雷達回波實現(xiàn)穿墻人體活動識別的可行性。該工作利用CV-CNN迭代學習雷達原始回波的時域復數(shù)矩陣實現(xiàn)對墻后的人類活動進行分類,并在行走、揮臂等多種典型室內人體行為上取得了較高的驗證準確率。
現(xiàn)有方法從穿墻雷達回波中提取人體運動的微多普勒特征,利用隱含的人體運動的速度和加速度等信息,實現(xiàn)人體異常行為識別[18]。但是,識別模型中特征提取過程未經(jīng)篩選,用于決策分類的語義圖像特征分離度較低,難以對運動狀態(tài)接近的某些突發(fā)步態(tài)異常終止行為實現(xiàn)準確識別[19,20]。因此,本文利用特征表示學習框架,提出一種基于微多普勒角點特征與Non-Local機制的穿墻雷達人體步態(tài)異常終止行為辨識方法。該方法緊密結合人體運動模型的微多普勒信息表示方法,實現(xiàn)特征選擇和降維,并利用該特征設計識別模型,提升人體步態(tài)異常終止行為識別精度和泛化能力。本文的主要研究工作及創(chuàng)新點如下:
(1) 微多普勒角點特征選擇及提取方法:本文提出一種人體運動微多普勒特征的角點表示方法,同時實現(xiàn)特征選擇和降維。微多普勒角點特征代表人體運動距離及時頻像上像素灰度沿不同方向急劇變化的點,反映了人體肢節(jié)點運動過程中的距離、速度曲線的拐點、駐點、相交點以及邊界點。受人體運動學模型的約束,該方法能夠提高在前期運動狀態(tài)非常接近的某些突發(fā)步態(tài)異常終止行為類別上的特征分離度;
(2) 基于Non-Local神經(jīng)網(wǎng)絡的角點特征集識別決策方法:本文提出一種基于Non-Local機制的深度神經(jīng)網(wǎng)絡設計框架。該方法輸入穿墻雷達圖像的微多普勒角點特征集,通過網(wǎng)絡對全局信息的敏感性,學習角點圖像的形態(tài)、結構特征,在保證較高識別準確率的前提下,提升模型的泛化能力。
在不考慮多徑效應的前提下,根據(jù)疊加原理,穿墻雷達的接收信號可以近似等效為墻體回波、以各節(jié)點為散射中心的點散射體的回波以及背景噪聲三者的和[21]。假設穿墻雷達發(fā)射信號在相參處理時間(Coherent Processing Interval,CPI)內包含了M個脈沖重復間隔(Pulse Repetition Interval,PRI)。則其第m個PRI對應的時域發(fā)射波形為
其中,Atx為發(fā)射信號的幅度,Ts為PRI。μ=B/Ts調頻斜率,B為帶寬,fc為載波頻率。φtx為發(fā)射信號的初始相位。經(jīng)補償后的穿墻雷達時域回波為
假設墻體回波為Sb,m,wall(t),背景噪聲為Sb,m,noise(t),則最終所得第m個PRI對應的完整雷達時域回波為
直接從穿墻雷達時域回波中難以提取人體節(jié)點運動的距離及速度信息。本文首先沿慢時間維度拼接CPI內M個PRI的穿墻雷達時域回波,將所得矩陣取模值并歸一化,得到距離-時間圖像(Range-Time Intensity Map,RTM):
其中,Con() 為向量拼接操作。Norm()為矩陣的線性歸一化方法,對于矩陣X:
其中,max() 和 min()分別代表取矩陣最大值和最小值的函數(shù)。所得RTM中近似包含了墻體回波R TMwall、人體運動回波 RTMmv和 背景噪聲 Ns共3個分量,即
其中,墻體回波具備低秩特性,可通過動目標顯示(Moving Target Indicator,MTI)去除[22]:
本文采用經(jīng)驗模態(tài)分解算法(Empirical Modal Decomposition,EMD)進一步抑制靜止目標雜波和背景噪聲[23]。假設EMD將RTM分解為e2個模態(tài)的分量,選取其中第2到第e1模態(tài)的分量近似表示人體回波,其中e2>e1>2,e1∈Z+,e2∈Z+。將所選取的e1-1個模態(tài)分量重建為新的矩陣,得到:
其中,IMFi表示EMD分解后的第i個模態(tài),Res 為殘差項,EM()代表EMD的處理流程,其時間復雜度約為O(It·M·log(M)),空間復雜度約為O(It·M),其中 It 為總的迭代步數(shù)。
為了獲得雷達回波中的多普勒信息,本文利用短時傅里葉變換(Short-Time Fourier Transform,STFT)生成多普勒-時間圖像(Doppler-Time Intensity Map,DTM)[24]。對 RTM沿著快時間維度將矩陣求和,經(jīng)STFT和歸一化后,得到DTM。上述過程的數(shù)學表示為
上述處理過程如圖1所示,在每個CPI中,M個PRI的雷達回波經(jīng)拼接、歸一化、MTI預處理后得到 RTM 和 DTM,分別通過EMD提取目標分量RTMmv和 DTMmv。為了更好地提取微多普勒特征,將 RTMmv和 DTMmv通過插值方法由線性單位變換為平方單位,分別得到 R2TM 與 D2TM。該兩類圖像作為微多普勒角點檢測的數(shù)據(jù)基礎,包含了人體目標節(jié)點運動的平方量測距離、平方量測速度信息。
圖1 穿墻雷達回波模型圖示Fig.1 Schematic diagram of through-the-wall radar echo modeling
本文提出的微多普勒角點特征,是指在R2TM或 D2TM像中,具有明顯邊緣變化和方向變化的像素點,如圖2所示。這些特征通常位于圖像中人體節(jié)點運動跡線的相交、駐點或拐點處,其周圍區(qū)域的像素梯度變化較大,能夠利用閾值檢測算法提取。
考慮到 R2TM 圖像上人體步行全程運動的距離曲線特征相對穩(wěn)定,且同一時刻人體目標占據(jù)的距離單元數(shù)較少,圖像像素向垂直于慢時間軸的灰度變化較平緩,本文采用Harris角點模型對 R2TM進行特征度量[25]。定義圖像窗口ψ(u,v),當滑窗同時向u和v兩個方向移動時,計算窗口內部的像素梯度勢函數(shù)E(u,v):
矩陣形式為
設置閾值 ThR,若 Hr>ThR,則將當前點(u,v)標注為角點,直到遍歷整幅圖像。該檢測過程的時間復雜度及空間復雜度均約為O(H·W·κψ),其中κψ是與窗口ψ(u,v)大小相關的常數(shù)。
考慮到D2TM圖 像上人體突發(fā)異常行為瞬間的速度曲線特征占用的多普勒帶寬較大,圖像像素向垂直于慢時間軸的灰度變化較急劇,本文采用Moravec角點模型對 D2TM進行 特征度量[26]。D2TM圖像上4個方向的梯度分別為:gu,v,gu+i,v,gu+i,v+i,gu,v+i,代表窗口內 D2TM[u,v]沿u →u+i與v →v+i方向的像素差值,i為計算梯度像素的步長。計算4個方向梯度的平方和:
其中,k為窗口半長度。那么,Moravec函數(shù)為
設置閾值T hD,若 Mr>ThD,則將當前點(u,v)標注為角點,直到遍歷整幅圖像。該檢測過程的時間復雜度及空間復雜度同樣均約為其中是與窗口ψ(u,v)大小相關的常數(shù)。
降維后角點空間的特征數(shù)量會影響異常行為辨識的準確率、泛化能力以及魯棒性。特征數(shù)量過多,數(shù)據(jù)冗余、噪聲、耦合加劇,從而降低模型的泛化能力和魯棒性;特征數(shù)量過少,所得角點圖像不足以反映人體運動的完整信息。綜合人體運動學物理模型,穿墻雷達信號模型以及上述幾點考量,R2TM 上的最優(yōu)點數(shù)選取為 30,D2TM上的最優(yōu)點數(shù)選取為 22。工程應用時,將計算窗口分別在R2TM 及 D2TM上滑動遍歷,對所有像素點的Harris及Moravec興趣函數(shù)結果排序,分別對應輸出值最大的 30 點及 22點坐標,即得所需的角點特征圖。
將 R2TM 及 D2TM 通過對應的檢測方法生成角點特征圖,主要包括:空場景(S1),室內人體自然行走(S2),步行中存在坐臥或跌倒等突發(fā)步態(tài)異常終止行為(S3)等3種狀態(tài),作為識別網(wǎng)絡訓練和推理的特征數(shù)據(jù)集。由于角點特征集具備較強的稀疏性,為了實現(xiàn)高精度的特征提取,本文提出基于Non-Local機制的卷積神經(jīng)網(wǎng)絡實現(xiàn)突發(fā)行為識別。全局依賴性建模有助于提高神經(jīng)網(wǎng)絡對圖像上長距離形態(tài)相關性的感知能力,改善網(wǎng)絡的識別準確性和泛化能力[27]。
本文所提網(wǎng)絡結構如圖3所示。首先,將R2TM和 D2TM 角點特征集映射為偽彩色圖,并沿通道方向拼接,形成H×W×C維的輸入圖像。將輸入圖像通過通道數(shù)為C0的 1×1卷 積處理,形成H×W×C0維的圖像。特征提取網(wǎng)絡引入 16路并行卷積鏈路,每個鏈路包含了3個級聯(lián)的卷積層:第1個卷積層的通道數(shù)C′=4,尺度 1×1;第2個卷積層的通道數(shù)C′=C1,尺度 3×3;第3個卷積層的通道數(shù)C′=4,尺度 1×1。將所有鏈路的輸出特征圖求和,并通過殘差連接的方式與輸入特征圖求和。將求和所得的特征圖分別通過批歸一化、ReLU激活函數(shù)、全局上下文信息提取模塊的處理,得到特征圖1,其維度為H×W×C1。將特征圖1依次通過上述同樣結構的多鏈路并行卷積、殘差連接求和、批歸一化、ReLU激活、全局上下文信息提取模塊的處理,得到特征圖2,其維度為H×W×C2。如此重復堆疊4次輸出特征圖4,其維度為H×W×C4。將特征圖4通過尺度變換拉伸為 1×1×HWC4維的列向量,經(jīng)全連接操作和 Softmax 激活函數(shù)映射為1×1×3的輸出向量。該網(wǎng)絡整體參數(shù)量約為 67.1 M。
圖3 基于Non-Local機制的神經(jīng)網(wǎng)絡結構Fig.3 Neural network architecture based on Non-Local mechanism
圖4 全局上下文信息提取模塊結構Fig.4 Structure of the global context information extraction module
全局上下文信息提取模塊是一種具備即插即用能力的Non-Local機制,用來聚焦諸特征圖層上散點的全局信息,如圖4所示,輸入為H×W×C維的圖像。一條支路利用通道數(shù)為1的 1×1卷積獲取H×W×1維度的上下文信息特征圖,經(jīng)尺度變換拉伸為HW×1×1 維的列向量,并通過 Softmax激活函數(shù)非線性化,得到特征圖F1。另一條支路經(jīng)尺度變換拉伸輸入圖像,得到 1×HW×C維的矩陣,即特征圖F2。將F1和F2相乘,依次通過通道數(shù)C/r的 1×1 卷積、層歸一化、ReLU非線性化、通道數(shù)C的 1×1 卷積處理,得到 1×1×C維的特征向量F3。最后,將該特征向量F3與輸入圖像點乘融合得到輸出圖像。
本文利用交叉熵作為損失函數(shù):
其中,L表示損失函數(shù),Samp表示一個批內的樣本數(shù)量,Trueij表示第i個樣本的真實標簽(One-Hot編碼)中第j個類別的值,pij表示第i個樣本屬于第j個類別的概率值。
本文建立了穿墻雷達人體步態(tài)異常終止行為回波仿真和實測數(shù)據(jù)集,并對所提方法的準確性、魯棒性、泛化能力及結構設計合理性進行了驗證。
實驗過程中,本文設計了空場景(S1)、室內人體自然行走(S2)、步行中存在坐臥或跌倒等突發(fā)步態(tài)異常終止行為(S3)等3種不同狀態(tài)。
仿真數(shù)據(jù)集包括訓練集、驗證集和測試集。其中,訓練集和驗證集來自倫敦大學院開源的動作捕捉(Motion Capture,MoCAP)成果。基于Mo-CAP的雷達人體行為識別仿真數(shù)據(jù)集的生成方式包括3個步驟:(1)軌跡數(shù)據(jù)平滑:通過對MoCAP中捕捉到的運動數(shù)據(jù)進行預處理,包含去噪、濾波和關鍵節(jié)點篩選步驟,以獲得更準確和平滑的運動軌跡數(shù)據(jù);(2)運動仿真:使用平滑后軌跡數(shù)據(jù),將人體各肢節(jié)點均近似抽象為各向同性均質的橢球體或球體模型,給出三維空間中體素化的剛體運動仿真結果;(3)雷達回波仿真:利用論文所提的穿墻雷達回波模型和仿真環(huán)境參數(shù),將虛擬人體的體素化運動信息轉化為雷達回波數(shù)據(jù)。最后利用論文第2節(jié)所提的回波預處理方法生成雷達圖像,打上對應的行為標簽,即得所需的仿真數(shù)據(jù)集。在仿真過程中,人體模型身高為 1.8 m,墻體為相對介電常數(shù)εr=6的各向同性均勻長方體介質[28]。測試集的生成方式與訓練集一致,但人體模型身高近似為1 .7 m。經(jīng)仿真S1,S2,S3狀態(tài)下分別得到 480組訓練數(shù)據(jù)、120 組驗證數(shù)據(jù)和 60組測試數(shù)據(jù)。
實測數(shù)據(jù)集包括訓練集、驗證集和測試集。利用團隊搭建的穿墻雷達樣機系統(tǒng)開展實驗,獲取訓練集和驗證集,系統(tǒng)參數(shù)如表1所示,實驗場景如圖5所示。實驗中,受試者身高約為 1.8 m,墻體為厚度 0.12m 的單層空心磚砌墻,相對介電常數(shù)εr≈6,二維導軌固定在距地 1.5 m高處不動,且保持收發(fā)天線緊貼墻體。測試集的生成方式與訓練集一致,但受試者身高約為 1.7 m 。經(jīng)實測S1,S2,S3狀態(tài)下分別得到 480 組訓練數(shù)據(jù)、120 組驗證數(shù)據(jù)和 60組測試數(shù)據(jù)。
表1 雷達數(shù)據(jù)采集系統(tǒng)工作參數(shù)設置Tab.1 Radar data acquisition system operating parameters settings
圖5 實測數(shù)據(jù)的測試場景Fig.5 Scenarios of measured experiments
實驗所用的上位機為Windows 10 Professional 64位操作系統(tǒng),數(shù)據(jù)處理平臺為MATLAB R2023a。神經(jīng)網(wǎng)絡搭建平臺為Python 3.7,Paddlepaddle 2.4.0。訓練環(huán)境為Intel Core i7 CPU,32 GB運存,NVIDIA Tesla V100 GPU,32 GB顯存。驗證、測試環(huán)境為Intel Core i9-10850K CPU,24 GB運存,NVIDIA RTX 3060 OC GPU,12 GB顯存。具體網(wǎng)絡參數(shù)設置如表2所示。在當前軟硬件及超參數(shù)配置條件下,網(wǎng)絡的訓練時長約為1小時 21分鐘,推理速度約為 55幀每秒(Figure Per Second,FPS),含模型加載過程的單幀圖像推理時長約為 2.7 s,小于一幀圖像的慢時間累積長度 4 s。
表2 網(wǎng)絡訓練及驗證過程參數(shù)設置Tab.2 Parameter settings for network training and validation process
5.2.1 數(shù)據(jù)可視化
本節(jié)對空場景(S1)、室內人體自然行走(S2)、突發(fā)步態(tài)異常終止行為(S3)這3種狀態(tài)下的典型數(shù)據(jù)進行可視化呈現(xiàn),結果如圖6所示,主要包括:圖6(a)第1行給出了S1,S2和S3上一組典型數(shù)據(jù)的 R2TM;第2行給出了對應的 D2TM 。圖6(b)第1行給出了S1,S2和S3上該組典型數(shù)據(jù)的 R2TM角點特征圖;第2行給出了對應的 D2TM角點特征圖。
圖6 仿真及實測數(shù)據(jù)的可視化Fig.6 Visualization of simulated and measured data
從仿真和實測的 R2TM 中可以看到,突發(fā)行為和自然行走間存在較為明顯的節(jié)點運動趨勢差異,該差異體現(xiàn)在突發(fā)加速后。S2中手、腳等節(jié)點呈現(xiàn)遠離或靠近雷達的周期性運動趨勢,而S3中手、腳等節(jié)點會在一個短暫的快速加速過程后趨于靜止。對比S2和S3對應的 R2TM角點特征圖,其差異體現(xiàn)在角點的分布趨勢。由于本文所提方法約束了最小點數(shù),因此突發(fā)行為后角點聚集于頭、軀干等節(jié)點的跡線上,自然行走的角點聚集于手、腳等節(jié)點的跡線上。
從仿真和實測的 D2TM 中可以看到,突發(fā)行為和自然行走之間存在較為明顯的節(jié)點運動速度及多普勒帶寬的差異,該差異主要體現(xiàn)在突發(fā)加速瞬間。S2中手、腳等節(jié)點呈現(xiàn)相對雷達速度的周期性變化趨勢,而S3中手、腳等節(jié)點產(chǎn)生瞬時多普勒譜峰。雖然實測數(shù)據(jù)中的特征相對仿真數(shù)據(jù)中的特征較為模糊,但微多普勒角點均可以被檢測。對比S2和S3對應的 D2TM角點特征圖,其差異體現(xiàn)在角點在多普勒方向上的形態(tài)。S3中的角點能夠良好地表征瞬時譜峰特性,其與零多普勒軸的平均距離大于S2中的角點。
5.2.2 網(wǎng)絡訓練過程可視化
圖7展示了所提基于Non-Local機制的異常人體行為角點特征識別方法在仿真、實測數(shù)據(jù)集上的訓練及驗證過程可視化,分別繪制準確率上升及損失函數(shù)下降曲線,網(wǎng)絡訓練的超參數(shù)如表2所示。實驗結果證明,經(jīng)20輪的訓練,所提方法在仿真及實測數(shù)據(jù)集上均達到收斂。由于角點特征圖像具備很強的稀疏性,在仿真和實測數(shù)據(jù)集上,網(wǎng)絡的訓練過程中存在輕微的梯度消失現(xiàn)象。得益于Non-Local機制對圖像全局特征的敏感性,該問題在網(wǎng)絡多批次訓練中逐漸弱化。此外,通過選擇具備最佳驗證準確率的中間輪模型可以進一步有效避免準確率下降問題。
圖7 所提網(wǎng)絡訓練及驗證過程的準確率、損失函數(shù)曲線Fig.7 Accuracy and loss curves for the training and validation process of the proposed network
5.3.1 特征嵌入空間對比分析
圖8展示了不同方法在仿真和實測兩類驗證數(shù)據(jù)集上推理的特征嵌入空間對比。對比方法包括:TWR-SNN[29],FC-SLSTM-FC[30],RPCA-Based[31],TWR-ResNeXt[32]和TWR-CapsuleNet[33]。所有方法的輸入均為同時使用 R2TM 和 D2TM,且與所提方法網(wǎng)絡階段的預處理方式保持一致,網(wǎng)絡訓練的超參數(shù)如表2所示??梢暬那度肟臻g均選自網(wǎng)絡用于決策的全連接層前的特征圖,并通過T-分布隨機鄰近嵌入(T-distribution Stochastic Neighbour Embedding,T-SNE)算法實現(xiàn)降維[34]。降維數(shù)據(jù)量為 60,維度為3。從對比結果中可知,得益于人工特征選擇及網(wǎng)絡特征聚焦的表示學習設計思路,所提人體行為識別方法在仿真及實測數(shù)據(jù)集上推理得到的特征嵌入空間能夠良好地反映空場景(S1)、室內人體自然行走(S2)及突發(fā)步態(tài)異常終止行為(S3)3類數(shù)據(jù)的分布規(guī)律。其降維后的類間特征分離度更大,類內特征分離度更小,有助于網(wǎng)絡決策層實現(xiàn)快速精確擬合,提高準確性和泛化能力。針對室內人體自然行走(S2)及突發(fā)步態(tài)異常終止行為(S3)兩類數(shù)據(jù),對比方法推理的特征嵌入空間降維后仍存在類間樣本點交疊的情況,而所提方法推理的特征嵌入空間降維后數(shù)據(jù)樣本點線性可分。
圖8 神經(jīng)網(wǎng)絡的特征嵌入空間可視化對比Fig.8 Comparison of feature embedding visualization of neural networks
5.3.2 準確性對比分析
圖9展示了不同方法在仿真和實測兩類數(shù)據(jù)集上驗證的混淆矩陣。從對比結果中可知,所提人體行為識別方法在仿真及實測數(shù)據(jù)集上訓練過程的最終收斂準確率分別為 100.0%,97.6%。在仿真驗證數(shù)據(jù)集上,所提網(wǎng)絡準確率為 96.7%,僅略低于TWRCapsuleNet。在實測驗證數(shù)據(jù)集上,所提網(wǎng)絡的準確率為 94.7%,較對比方法準確性高。針對突發(fā)步態(tài)異常終止行為(S3),得益于主干部分多鏈路卷積加寬網(wǎng)絡以及Non-Local機制的設計思路,所提方法在仿真數(shù)據(jù)集和實測數(shù)據(jù)集中均有最高的識別準確性。此外,本文還對比了不同輸入圖像條件下,現(xiàn)有方法在仿真和實測兩類數(shù)據(jù)集上驗證的準確率,如圖10所示。其中輸入圖像包括僅使用 R2TM、僅使用 D2TM、融合 R2TM 與 D2TM、所提的角點檢測方法。從對比結果中可知,融合 R2TM 與D2TM兩幅圖像的信息有利于網(wǎng)絡方法實現(xiàn)更高準確率的識別。通過角點檢測后,所提方法在仿真和實測驗證上均比直接融合 R2TM 與 D2TM取得了更高的準確率。
圖9 模型驗證的混淆矩陣對比(每組中左側混淆矩陣對應仿真數(shù)據(jù)集,右側混淆矩陣對應實測數(shù)據(jù)集,數(shù)字標簽1-3對應S1-S3類樣本)Fig.9 Comparison of confusion matrices for model validation (In each group,the left confusion matrix corresponds to the simulated dataset,the right confusion matrix corresponds to the measured dataset,and the numerical labels 1-3 correspond to the samples of classes S1-S3)
圖10 不同輸入圖像條件下的模型驗證準確率對比Fig.10 Comparison of model validation accuracy under different input image conditions
5.3.3 魯棒性對比分析
本節(jié)中,向 R2TM和 D2TM圖像添加不同功率的高斯白噪聲,僅改變驗證集的圖像信噪比(Signalto-Noise Ratio,SNR)[35],使生成的圖像較原圖像的SNR分別下降2 dB,4 dB,6 dB,8 dB,10 dB,12 dB。利用訓練好的網(wǎng)絡模型,對不同SNR下的驗證集直接推理,分別計算準確率,結果如圖11所示。結果中,橫坐標表示圖像SNR的改變量。從圖中可以看出,隨著圖像SNR的下降,所有方法的準確率呈現(xiàn)出下降的趨勢。在仿真驗證數(shù)據(jù)集上,當SNR較高時,所提方法的準確性僅略低于TWR-CapsuleNet;但是,當SNR下降時,所提方法的準確性逐漸超過TWR-CapsuleNet。在實測驗證數(shù)據(jù)集上,得益于角點檢測可以有效濾除原始圖像噪聲,所提方法在不同的SNR下識別準確率均最高。
圖11 模型驗證的魯棒性對比Fig.11 Robustness comparison of model validation
5.3.4 泛化能力對比分析
為了對比不同方法對不同受試者的泛化能力,本文利用訓練完成的網(wǎng)絡對測試數(shù)據(jù)集進行推理,結果如表3所示。由于生成測試集過程中,受試人員的身高、體態(tài)、步態(tài)等參數(shù)與訓練集不同,R2TM和 D2TM圖像上的微多普勒特征存在差異,各方法的測試準確率通常低于驗證準確率。因此,同一行為的驗證準確率和測試準確率的差異越小,意味著方法的泛化能力越強。通過對比可知,不同方法在仿真測試集上的準確率均不低于71.7%,在實測測試集上的準確率均不低于62.8%。得益于角點檢測能夠在實現(xiàn)特征降維的同時最大限度上保留人體運動的微多普勒信息,所提方法在仿真和實測測試集上準確率均最高,分別為93.3%和88.3%。在仿真數(shù)據(jù)集中,驗證和測試準確率差異為3.4%;在實測數(shù)據(jù)集中,驗證和測試準確率差異為6.4%,差異較現(xiàn)有方法最小,表明所提方法較現(xiàn)有方法提升了網(wǎng)絡的泛化能力。在所有對比方法中,RPCA-Based因其在數(shù)據(jù)處理過程引入了低秩稀疏分解,驗證和測試的準確率差異較小,表明特征降維可以提升模型泛化能力。此外,本文利用仿真數(shù)據(jù)集上訓練完成的網(wǎng)絡對實測的驗證集和測試集進行推理,結果如表4所示。由于異源的 R2TM 和 D2TM圖像上的微多普勒特征分布存在差異,各方法的驗證及測試準確率通常均低于在同源數(shù)據(jù)集上的推理結果。通過對比可知,不同方法的驗證準確率均不低于74.2%,測試準確率均不低于60.0%。得益于角點檢測后,異源數(shù)據(jù)間的微多普勒特征分布差異被縮小,所提方法的驗證和測試準確率差異最小,僅為5.8%。在所有對比方法中,RPCA-Based驗證和測試的準確率差異仍相對較小,進一步證明特征降維可以提升模型泛化能力。
表3 所提方法及現(xiàn)有方法針對驗證及測試集的精度對比(%)Tab.3 Comparison of accuracy of proposed and existing methods for validation and test sets (%)
表4 所提方法及現(xiàn)有方法在仿真數(shù)據(jù)集上訓練,并在實測數(shù)據(jù)集上驗證及測試的精度對比(%)Tab.4 Comparison of the accuracy of the proposed method and existing methods trained on simulated datasets and validated or tested on measured datasets (%)
5.4.1 微多普勒角點檢測方法消融實驗
所提方法利用微多普勒角點檢測實現(xiàn)特征提取,生成角點特征集,并在識別網(wǎng)絡上訓練。在所提方法中,利用Harris檢測器提取 R2TM中的角點,利用Moravec檢測器提取 D2TM中的角點。對比方法包括不同檢測器與數(shù)據(jù)的交叉組合,對比結果如表5所示。在保持后端識別網(wǎng)絡不變的前提下,所提方法生成的角點特征集在仿真驗證數(shù)據(jù)、實測驗證數(shù)據(jù)、仿真測試數(shù)據(jù)和實測測試數(shù)據(jù)上的準確率都最高。由于Harris檢測器以直角坐標系的形式計算圖像梯度,而Moravec檢測器以間隔 45°的形式計算圖像梯度,因此二者對圖像中不同開口角度的角點的敏感性不同,導致在 R2TM 和 D2TM上的檢測精度不同。此外,本文對比了角點檢測前后的識別性能差異,對比方法包括直接輸入R2TM、直接輸入D2TM及融合輸入 R2TM 與 D2TM進行網(wǎng)絡訓練、驗證及測試,對比結果如表5所示。在保持后端識別網(wǎng)絡不變的前提下,若不使用角點檢測方法,所提方法的驗證準確率下降,且與測試準確率的差異增大,模型對數(shù)據(jù)分布的擬合性能、泛化能力均下降。
表5 微多普勒角點檢測方法的消融驗證(%)Tab.5 Ablation validation of micro-Doppler corner detection methods (%)
此外,本文還對比了利用所提微多普勒角點特征與多種常見的計算機視覺特征進行模型驗證及測試時的精度。對比方法包括:基于Canny算子的邊緣特征、圖像灰度共生矩陣特征(Gray-Level Cooccurrence Matrix,GLCM)、局部二值模式特征(Local Binary Pattern,LBP)、Laws紋理特征[36]。對比結果如表6所示。在保持特征圖像處理方法與后端識別網(wǎng)絡設計不變的前提下,除仿真驗證集上Canny算子邊緣特征的推理結果外,所提微多普勒角點特征提取方法在仿真驗證數(shù)據(jù)、實測驗證數(shù)據(jù)、仿真測試數(shù)據(jù)和實測測試數(shù)據(jù)上的準確率都最高。由于所提微多普勒角點特征相對于其他計算機視覺特征在保留人體肢節(jié)點運動距離、速度信息的條件下,最小化了降維后的特征尺度,因此在仿真和實測上都取得了最佳的泛化性能。
表6 微多普勒角點特征與其他常見計算機視覺特征的性能對比(%)Tab.6 Performance comparison of micro-Doppler corner point features with common computer vision metrics (%)
5.4.2 骨干網(wǎng)絡消融實驗
所提方法識別網(wǎng)絡的骨干部分采用寬度為 16路并行的ResNeXt,對比方法包括經(jīng)典卷積骨干網(wǎng)絡:AlexNet[37],VGG-16[38],VGG-19[38],ResNet-18[39],ResNet-50[39],ResNet-101[39],GoogleNet Inception V1[40],GoogleNet Inception V2[40]和GoogleNet Inception V3[40]。全局上下文信息提取模塊保持不變,均內插到骨干網(wǎng)絡各循環(huán)節(jié)的激活函數(shù)輸出后。對比結果如表7所示,所提方法骨干網(wǎng)絡通過加寬網(wǎng)絡的改進,在仿真驗證數(shù)據(jù)、實測驗證數(shù)據(jù)、仿真測試數(shù)據(jù)和實測測試數(shù)據(jù)上的準確率都最高。對比方法中,針對同一類網(wǎng)絡結構的設計,隨著網(wǎng)絡的深度加深,其驗證和測試準確率并不嚴格遞增。因此,所提方法通過控制骨干網(wǎng)絡的深度,使得仿真、實測驗證集和測試集的準確率差異較小,有效緩解過擬合問題,進一步提高方法整體的泛化能力。
5.4.3 Non-Local機制消融實驗
本文利用全局上下文信息提取模塊學習圖像像素的全局分布特性,對比方法包括了注意力模塊及其他Non-Local機制:通道注意力[41],空間注意力[41],卷積注意力[41],Criss-Cross注意力[42],傳統(tǒng)Non-Local模塊[43]和Bilinear Attentional Transform Non-Local (BAT)模塊[43]。對比結果如表8所示,得益于在通道和空間兩個不同維度上對圖像語義特征轉置相乘的操作,基于所提全局上下文信息提取模塊構建的識別網(wǎng)絡在測試集上達到了最高的準確率。雖然基于BAT模塊構建的識別網(wǎng)絡在驗證集上達到了最高的準確率,但其在測試集上表現(xiàn)不佳,證明其在角點特征集上泛化能力不足。
本文提出了一種室內人體步態(tài)異常終止行為識別方法,解決了穿墻雷達場景下,當生成訓練集和測試集的受試者不同時,行為識別方法準確率低和泛化能力較差的問題。所提方法利用MTI和EMD技術抑制RTM和DTM圖像上的雜波及噪聲;利用Harris與Moravec檢測器分別提取 R2TM 和 D2TM圖像上的角點特征,建立角點特征數(shù)據(jù)集;利用基于Non-Local機制的全局上下文信息提取網(wǎng)絡學習角點圖像的形態(tài)、結構特征,提升識別準確率和泛化能力。利用仿真與實測數(shù)據(jù)集開展了推理準確性、魯棒性及泛化能力等對比實驗和消融實驗,實驗結果表明所提方法可以有效地識別室內人體步態(tài)異常終止行為。
附錄
本文開源代碼鏈接如下:
https://github.com/JoeyBGOfficial/Through-the-Wall-Radar-Human-Activity-Recognition-Based-on-M-D-Corner-Feature-and-Non-Local-Net。
利益沖突所有作者均聲明不存在利益沖突
Conflict of InterestsThe authors declare that there is no conflict of interests