董連飛,馬志雄,朱西產(chǎn)
(同濟大學(xué) 汽車學(xué)院 智能汽車研究所, 上海 201804)
車載軟件和車載智慧屏等智能座艙部件的快速發(fā)展和應(yīng)用,一方面給駕車出行增加了更多智能化和趣味化體驗,另一方面也增加了人機交互的頻率容易造成駕駛員分心.手勢識別作為一種有效的人機交互方式也是目前研究的熱點.通過手勢動作這種非接觸式交互可以快速實現(xiàn)音樂切換、空調(diào)開關(guān)等簡單功能,同時不會分散司機過多注意力,有助于提高出行安全降低事故概率[1].
隨著深度學(xué)習(xí)的廣泛應(yīng)用,基于計算機視覺的手勢識別研究取得巨大進展[2].循環(huán)神經(jīng)網(wǎng)絡(luò)[3]和長短期記憶網(wǎng)絡(luò)[4]被應(yīng)用于手勢識別任務(wù),這些網(wǎng)絡(luò)架構(gòu)可以對動態(tài)手勢的時間和序列特征進行建模.DHINGRA 等在三維卷積神經(jīng)網(wǎng)絡(luò)(3DCNN)模型中應(yīng)用了注意機制,學(xué)習(xí)了不同尺度的特征,獲得了良好的分類結(jié)果[5]然而,這些方法對光照變化條件比較敏感,不能在低能見度條件下工作,無法滿足車載應(yīng)用的需求.王粉花等[6]提出基于YOLO 算法的手勢識別方法提升了在膚色和光線明暗不一的背景下檢測精度和速度.強彥等[7]提出了小波變換和雙邊濾波的圖像去噪聲方法,來應(yīng)對光照變化、車載環(huán)境和攝像頭成像質(zhì)量的影響.針對復(fù)雜動態(tài)背景下手勢分割提取效果差、圖像識別率低等問題,強彥團隊[8]研究了多特征融合的快速手勢識別方法,進一步提升手勢識別的準(zhǔn)確率.
毫米波雷達可以通過發(fā)射電磁波并接收手勢運動的回波來進行識別,因此可以不受光照影響,這是與圖像手勢識別相比的巨大優(yōu)勢.同時毫米波雷達不需要采集車內(nèi)圖像信息,可以保護車內(nèi)人員的隱私.因此,基于毫米波雷達的動態(tài)手勢分類越來越受到人們的關(guān)注[9].KIM 等[10]利用24GHz 雷達并訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)對三種手勢的頻譜特征進行識別實現(xiàn)預(yù)測分類.ZHANG 等[11]提出了一種毫米波雷達手勢識別系統(tǒng),采用3DCNN 結(jié)合LSTM 進行端到端訓(xùn)練,實現(xiàn)不同的動態(tài)手勢識別.最近,Transformer 網(wǎng)絡(luò)在自然語言處理、計算機視覺等任務(wù)都取得較大的成功.ANDREA 等[12]通過引入Transformer 自我注意力機制,對視頻手勢進行序列建模,并在手勢識別數(shù)據(jù)集上取得較好的效果.
文中針對車內(nèi)復(fù)雜的光照和動態(tài)干擾場景,提出用于毫米波雷達信息的手勢識別方法,數(shù)據(jù)處理流程圖如圖1 所示.首先,設(shè)計典型的手勢進行車內(nèi)環(huán)境的數(shù)據(jù)采集獲得雷達原始信號;然后,對雷達信號進行預(yù)處理和噪聲濾波獲得距離-多普勒特征圖和距離-角度特征圖,并制作特征分類數(shù)據(jù)集;接著,利用深度學(xué)習(xí)方法提取各種手勢動作特征并提出基于Transformer 的動態(tài)手勢分類網(wǎng)絡(luò).最后,在數(shù)據(jù)集訓(xùn)練獲得最優(yōu)的手勢分類網(wǎng)絡(luò)模型并進行結(jié)果分析.
圖1 動態(tài)手勢識別算法數(shù)據(jù)處理流程圖Fig.1 Data processing flow chart of dynamic gesture recognition algorithm
文中提出的動態(tài)手勢識別網(wǎng)絡(luò)如圖2 所示,主要由網(wǎng)絡(luò)輸入,特征提取,時間序列編碼和分類預(yù)測4 部分組成.
圖2 動態(tài)手勢識別網(wǎng)絡(luò)框架圖Fig.2 Framework diagram of dynamic gesture recognition network
整個手勢識別的框架可以定義為一個函數(shù)關(guān)系:
式中:Γ表示整個網(wǎng)絡(luò)特征提取和編碼過程.R2×m×w×h×c表示每次到網(wǎng)絡(luò)的輸入幀;2 為每次輸入為RAM 和RDM 兩種模態(tài)數(shù)據(jù);m為特征圖的數(shù)量(文中取m=8);w和h分別為特征圖的寬度和高度,這里對于RAM圖大小為96×96,RDM 特征圖大小為24×24;c為通道數(shù),一般圖像具有3 個通道表示3 種不同顏色,這里數(shù)值含義為雷達回波強度值,所以只有單通道即c=1.對于Rn,n為手勢的類別,這里n=6.由連續(xù)m張?zhí)卣鲌D組成了實際輸入網(wǎng)絡(luò)的1 幀記為I,整個輸入可以組成數(shù)據(jù)集S.
特征提取層主要經(jīng)過兩個3DCNN 主干網(wǎng)絡(luò)進行空間特征提取,如圖3 所示.卷積層可以表示為Conv3D(in, out,k,s),各個參數(shù)含義依次為輸入通道數(shù),輸出通道數(shù),卷積核大小和步長且每個卷積層后面一次包含批歸一化層和ReLU 激活函數(shù)層;最大池化層可以表示為Maxpooling(p,q),p為為池化核大小,q為步長,其中池化層并不在時間維度進行.IRAM序列經(jīng)過3DCNN1 得到(32,8,12,12)的特征圖記為RAF,IRDM序列經(jīng)過3DCNN2 得到(32,8,6,6)的特征圖記為RDF.在特征融合模塊,兩個特征張量首先經(jīng)過最大池化后得到均為(32,8)的二維張量RAF1和RDF1,將兩個張量進行拼接得到F1,然后經(jīng)過線性層得到(8,64)的二維張量作為Transformer 層的輸入記為SF.整個過程記為
圖3 3DCNN 層Fig.3 3DCNN layer
其中在Linear(·)為輸入輸出均為64 的線性層.
此過程原始的Transformer 編碼器用來進行時序特征提取如圖4 所示.由于不同幀之間有著嚴(yán)格的順序關(guān)系,在進行3D 卷積時并沒有破壞前后的時序特征關(guān)系,因此需要對輸入序列特征的位置進行編碼.
在Transformer 編碼前使用位置編碼
式中:PE表示位置編碼,通過不同頻率的正余弦函數(shù)生成.O為所處的位置,i為相應(yīng)的維度,dm為每一幀特征圖經(jīng)過3D 卷積后特征向量的長度,即64.后面處理過程沿用了經(jīng)典的Transformer 編碼過程[13],主要包含多頭注意力層和前饋網(wǎng)絡(luò)層,這里不再贅述.最終得到的編碼向量經(jīng)過一個兩層全連接進行手勢類別預(yù)測,并采用softmax 函數(shù)實現(xiàn)最終的概率預(yù)測.最終輸出為N維的向量Y,其中概率最大值對應(yīng)的手勢類是網(wǎng)絡(luò)的預(yù)測輸出結(jié)果.
為了獲取真實場景中的數(shù)據(jù)集,搭建了如圖5所示的數(shù)據(jù)采集系統(tǒng),對車內(nèi)人員手勢交互的實時數(shù)據(jù)進行采集.在數(shù)據(jù)采集過程中考慮汽車在加速、減速、怠速、勻速與轉(zhuǎn)彎等各種場景產(chǎn)生的震動以及對人員的慣性影響;同時也考慮了各個時間段,車內(nèi)光照強弱的變化.車內(nèi)環(huán)境比實驗室更為復(fù)雜,車內(nèi)人員數(shù)量變化,同時也要避免車內(nèi)人員換擋、轉(zhuǎn)身等非指令動態(tài)被誤識別.同時,車內(nèi)外的其他環(huán)境噪聲的動態(tài)變化也會對數(shù)據(jù)采集造成干擾.
數(shù)據(jù)采集的硬件平臺為德州儀器IWR6843AOP.該雷達載頻為60 Hz 帶寬為3.2 GHz,同時具有較小的設(shè)計尺寸便于嵌入車內(nèi)座艙.雷達的設(shè)計參數(shù)如表1 所示:
文中共設(shè)計6 種常見的動態(tài)手勢,所有手勢動作采集實驗中滿足以下要求:
①所有手勢動作連續(xù)且需要被完整采集.
②手勢動作速度適中:動作時間范圍1.5 s~2 s;手勢速度范圍0.2 m/s~0.6 m/s;距離雷達徑向距離0.2 m~1 m.
③手勢在動作開始和結(jié)束有短暫停頓.
每個手勢動作在不同場景下分別采集100 個有效的數(shù)據(jù)樣本,最終得到600 個動態(tài)手勢數(shù)據(jù)序列.
數(shù)據(jù)采集完成后需要對雷達原始數(shù)據(jù)進行處理獲得雷達特征圖數(shù)據(jù)集.雷達的發(fā)射信號和接收信號通過混頻可以得到中頻信號,IWR6843 可以直接輸出雷達的中頻信號.對中頻信號進行快時間維進行傅里葉變換(FFT)得到一維距離特征,在此基礎(chǔ)上對慢時間維進行FFT 變換可以得初始RDM;在距離特征基礎(chǔ)上做通道FFT 變換可以得到初始RAM,如圖6 所示.但是,此時的雷達數(shù)據(jù)中包含了大量無用的背景噪聲,這并不利于模型的遷移應(yīng)用,為此我們采用背景模型差法進行去背景操作.最后,為了便于進行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,將所有特征圖進行標(biāo)準(zhǔn)化,使得數(shù)據(jù)分布均值為0 方差為1.圖6 中展示了向左擺動和靠近雷達兩種不同手勢的雷達特征圖舉例,從圖中可以看出不同運動模式對應(yīng)雷達的特征具有顯著差異,可以有效地進行手勢特征的識別.
圖6 兩種手勢的RDM 和RAM 特征圖處理前后Fig.6 RDM and RAM feature maps of two gestures before and after processing
采集數(shù)據(jù)樣本按照上一節(jié)方法進行預(yù)處理,每個連續(xù)的手勢序列提取連續(xù)8 幀的RAM 和RDM 序列,所以最終得到樣本集數(shù)量為4 800 幀。將數(shù)據(jù)按照7∶3 比例隨機分成訓(xùn)練集和測試集.采用多分類任務(wù)中的交叉熵?fù)p失作為損失函數(shù).
網(wǎng)絡(luò)算法框架基于PyTorch1.9,并采用SGD 優(yōu)化器進行端到端網(wǎng)絡(luò)訓(xùn)練,批大小設(shè)置為8,初始學(xué)習(xí)率為0.001,權(quán)重衰減為0.000 1,共計訓(xùn)練100 個周期.網(wǎng)絡(luò)采用硬件服務(wù)器主要參數(shù)GPU:NVIDIA GTX1080Ti-11G*4,CPU:Interl(R)Xeon(R) E5-2630 v4@2.20 GHz,內(nèi)存:128 G,系統(tǒng):Ubuntu18.04.
本實驗為多分類任務(wù),將所有類別的平均分類準(zhǔn)確率作為評價指標(biāo).為了驗證算法的有效性,與其他幾種手勢識別網(wǎng)絡(luò)進行對照,如表2 所示.
從表2 中可以看出,文中提出的算法達到了最高的平均分類精度97.14%,遠好于傳統(tǒng)的HMM 算法.僅采用3DCNN 網(wǎng)絡(luò)的分類準(zhǔn)確率只有93.34%,當(dāng)加入LSTM 和Transformer 模塊手勢分類精度明顯提高.在3DCNN 中添加Transformer 模塊要比LSTM模塊分類準(zhǔn)確率也增加1.1%,證明了Transformer 模塊的時序和空間編碼方式在本次分類任務(wù)中要優(yōu)于LSTM 網(wǎng)絡(luò).為了對比各種手勢識別的準(zhǔn)確率,繪制每種類別的分類準(zhǔn)確率的混淆矩陣如圖7 所示.
圖7 動態(tài)手勢分類結(jié)果混淆矩陣Fig.7 Confusion matrix of dynamic gesture classification results
表2 對比實驗結(jié)果Tab.2 Comparison results between proposed and other method
從混淆矩陣可以看出,向左和向右存在較多誤識別,分類準(zhǔn)確率只有0.96 和0.95;而向上、向下、靠近和遠離的手勢分類準(zhǔn)確率都高于0.97.從整體來看,整個網(wǎng)絡(luò)的分類準(zhǔn)確率沒有太大偏差,具體較穩(wěn)定的動態(tài)手勢的識別能力.
設(shè)計了基于毫米波雷達數(shù)據(jù)的動態(tài)手勢識別的數(shù)據(jù)處理流程,通過數(shù)據(jù)采集、預(yù)處理、網(wǎng)絡(luò)訓(xùn)練和測試驗證來證明了該方案的有效性.提出了針對毫米波雷達特征圖的3DCNN+Transformer 的動態(tài)手勢分類網(wǎng)絡(luò),在實際采集的數(shù)據(jù)集上具有97.14%的分類準(zhǔn)確率,滿足了動態(tài)手勢分類任務(wù)的需求.與圖像手勢識別方法相比,文中設(shè)計的車載毫米波雷達的手勢識別系統(tǒng)具有全天候識別和乘客隱私保護的優(yōu)點,可以為今后智能座艙的人機交互設(shè)計提供參考.