許 帥,姜俊厚,高 偉,王國棟,虞志軍
(1.青島大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院,青島 266071;2.海信電子信息集團(tuán)研發(fā)中心,青島 266104)
手勢識別是人機(jī)交互領(lǐng)域的一個重要研究方向,廣泛應(yīng)用于手語識別、虛擬現(xiàn)實(shí)和智能家居等現(xiàn)實(shí)場景。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,手勢識別算法在服務(wù)器端已經(jīng)趨于成熟,現(xiàn)階段的研究熱點(diǎn)是實(shí)現(xiàn)移動設(shè)備上的產(chǎn)品落地。移動設(shè)備諸如智能手機(jī)、智能電視等,代表了新的計算機(jī)領(lǐng)域,通常具有存儲空間小、計算能力低的特點(diǎn)。在移動設(shè)備上部署手勢識別算法,需要在保證識別成功率的同時,滿足模型輕量化、推理時間短的要求。目前,手勢識別算法主要分為基于機(jī)器學(xué)習(xí)或者計算機(jī)視覺的傳統(tǒng)算法和基于深度學(xué)習(xí)的算法,首要任務(wù)是手的定位檢測以及手所在圖像區(qū)域的分割[1]。為了將復(fù)雜的背景和人手分隔開,可以基于人體膚色模型提取人手區(qū)域,利用手指個數(shù)信息和HOG(histogram of oriented gradient)特征建立分類器實(shí)現(xiàn)手勢識別[2]。針對手勢識別特征不足的問題,可以將HOG和SIFT(scale invariant feature transform)兩種特征融合[3]。傳統(tǒng)手勢識別算法主要依賴手工提取的特征,局限性在于需要對數(shù)據(jù)進(jìn)行復(fù)雜的預(yù)處理,且設(shè)計對應(yīng)的特征提取器?;谏疃葘W(xué)習(xí)的手勢識別算法不依賴于手工提取特征,通過深層次的網(wǎng)絡(luò)結(jié)構(gòu)提取特征。為構(gòu)建深層次網(wǎng)絡(luò)結(jié)構(gòu),可以組合簡單的非線性模塊,例如卷積神經(jīng)網(wǎng)絡(luò)與多層降噪編碼器的組合可以實(shí)現(xiàn)端到端手勢識別[4],卷積神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制的組合可以實(shí)現(xiàn)動態(tài)手勢識別[5]。手勢識別過程中需要對數(shù)據(jù)預(yù)分割和后輸出處理,可通過融合卷積神經(jīng)網(wǎng)絡(luò)和雙向長短時記憶的方法構(gòu)建串聯(lián)型網(wǎng)絡(luò)模型[6]。與二維卷積神經(jīng)網(wǎng)絡(luò)相比,三維卷積神經(jīng)網(wǎng)絡(luò)具有更復(fù)雜的結(jié)構(gòu),能夠?qū)崿F(xiàn)更豐富的功能,例如將三維卷積神經(jīng)網(wǎng)絡(luò)與ResNet結(jié)合的Res3D模型[7],可對時序RGB圖像、光流數(shù)據(jù)和深度數(shù)據(jù)提取特征。在實(shí)際應(yīng)用中,復(fù)雜背景會影響手勢識別算法識別成功率,且提取的圖像特征難以適應(yīng)手勢多變性,可基于膚色閾值來解決這類問題[8]。綜上,基于深度學(xué)習(xí)的算法需要構(gòu)建深層次的網(wǎng)絡(luò)結(jié)構(gòu),存在繁多的權(quán)值參數(shù),需要耗費(fèi)大量的內(nèi)存空間,且推理時間難以滿足實(shí)時要求,無法部署于移動設(shè)備。為此,本文設(shè)計了一種輕量化的手勢識別算法,在自制數(shù)據(jù)集上訓(xùn)練該算法,在移動設(shè)備上對比測試算法性能。
本文基于改進(jìn)的YOLOv3目標(biāo)檢測算法實(shí)現(xiàn)手勢識別。與其他目標(biāo)檢測算法相比,YOLOv3在檢測速度和檢測精度上取得了平衡[9-10]。為提升手勢識別算法的運(yùn)算速度和減小參數(shù)量,重新設(shè)計算法網(wǎng)絡(luò)結(jié)構(gòu),如圖1所示。基于MobileNetv2中的倒置殘差結(jié)構(gòu),構(gòu)建主干網(wǎng)絡(luò),代替YOLOv3中的主干網(wǎng)絡(luò)DarkNet-53。倒置殘差結(jié)構(gòu)將深度可分離卷積與殘差結(jié)構(gòu)相結(jié)合以提高特征復(fù)用性,降低網(wǎng)絡(luò)的深度。整個網(wǎng)絡(luò)結(jié)構(gòu)包括特征提取部分和預(yù)測分支部分,即圖1中的Backbone和Output部分。以輸入圖像大小256×256為例,特征提取后,在多尺度檢測上保留16×16和8×8兩個預(yù)測分支。采用本文設(shè)計的具有12種手勢的數(shù)據(jù)集訓(xùn)練算法,在網(wǎng)絡(luò)輸出部分的16×16×51和8×8×51表示預(yù)測結(jié)果維度,實(shí)際為16×16×3×(5+12)和8×8×3×(5+12),表示有16×16和8×8的網(wǎng)格,每個網(wǎng)格有3個先驗(yàn)框(anchor),每個先驗(yàn)框有17個參數(shù)。該算法對小尺度預(yù)測分支上采樣,融合兩個尺度的輸出,利用非極大值抑制計算結(jié)果。
圖1 本文手勢識別算法整體結(jié)構(gòu)
1.2.1 深度可分離卷積模塊 在移動設(shè)備上部署手勢識別算法,首要任務(wù)是降低算法網(wǎng)絡(luò)的參數(shù)量。深度可分離卷積是MobileNet的核心構(gòu)建模塊,將標(biāo)準(zhǔn)卷積轉(zhuǎn)換成一個深度卷積和一個逐點(diǎn)卷積[11-12]。標(biāo)準(zhǔn)卷積的輸入特征圖和輸出特征圖連接方式如圖2(a)所示。分組卷積將輸入特征圖分為3組,每組輸出特征圖通道數(shù)為2,每個卷積核的通道數(shù)為4,卷積核只與其同組的輸入特征圖進(jìn)行卷積,如圖2(b)所示。當(dāng)分組數(shù)量等于輸入特征圖的通道數(shù),則輸出特征圖和輸入特征圖的通道數(shù)相等,分組卷積就成為深度卷積,與標(biāo)準(zhǔn)卷積相比參數(shù)量降低。逐點(diǎn)卷積為1×1的卷積,在深度可分離卷積中,一是讓深度卷積能夠自由改變輸出特征圖的通道數(shù),二是對深度卷積的輸出的特征圖進(jìn)行通道融合。
圖2 卷積參數(shù)量對比(a) 標(biāo)準(zhǔn)卷積;(b)分組卷積
1.2.2 倒置殘差模塊 為降低網(wǎng)絡(luò)參數(shù)量,采用MobileNetV2[13]的模塊構(gòu)建主干網(wǎng)絡(luò),將倒置殘差(Inverted Residuals)結(jié)構(gòu)和線性瓶頸 (Linear Bottlenecks) 層與深度可分離卷積結(jié)合,使網(wǎng)絡(luò)在多類型多尺度手勢識別方面的性能得到提升。倒置殘差結(jié)構(gòu)呈“兩頭窄、中間寬”的形式,輸入的特征圖經(jīng)過深度可分離卷積處理,將輸入數(shù)據(jù)擴(kuò)充到高維空間,再經(jīng)過卷積操作,將輸出特征圖的通道融合。借鑒ResNet網(wǎng)絡(luò)的跳躍連接結(jié)構(gòu),用來增強(qiáng)特征復(fù)用性。該結(jié)構(gòu)以深度可分離卷積為基礎(chǔ),參數(shù)量低,可有效提升神經(jīng)網(wǎng)絡(luò)的運(yùn)行效率。ReLU6激活函數(shù)能夠保證輸入數(shù)據(jù)的信息完整性,可用來替換ReLU激活函數(shù)。
手勢數(shù)據(jù)集是手勢識別算法的基礎(chǔ),高質(zhì)量的數(shù)據(jù)集可以提高算法模型訓(xùn)練效率和識別準(zhǔn)確率。為滿足本文算法在實(shí)際應(yīng)用中對手勢多樣化的需求以及應(yīng)對各類復(fù)雜的現(xiàn)實(shí)場景,由不同年齡不同性別的個體在室內(nèi)和室外各種復(fù)雜背景環(huán)境下采集制作了一個具有12種手勢的數(shù)據(jù)集,其中每張圖像像素大小為1 920×1 080。該自制手勢數(shù)據(jù)集樣本數(shù)量豐富,貼合實(shí)際生活。將其劃分為訓(xùn)練集和驗(yàn)證集,其中各類手勢樣本數(shù)量和數(shù)字對應(yīng)關(guān)系見表1。
表1 自制手勢數(shù)據(jù)集中各類手勢樣本數(shù)量及數(shù)字對應(yīng)關(guān)系
采用二值化圖像作為算法的訓(xùn)練數(shù)據(jù),可降低實(shí)際環(huán)境中各種顏色對手勢識別的影響,加快模型的訓(xùn)練速度。二值圖像中的每一個像素由一個on/off(開/關(guān))位來表示?;谏疃壬窠?jīng)網(wǎng)絡(luò)的自動化方法[14],可將數(shù)據(jù)集中的圖像轉(zhuǎn)化為二值紋理圖像,原始圖像中的所有特征信息都被編碼到可見的紋理中,如圖3所示。
圖3 手勢數(shù)據(jù)集中的二值化紋理圖像示例
該方法采用自編碼器神經(jīng)網(wǎng)絡(luò)[15-16]給定輸入空間x∈X和特征空間h∈H,自編碼器求解兩者的映射f和g,使輸入特征的重建誤差達(dá)到最小求解完成后,由編碼器輸出的隱含層特征h,可視為輸入數(shù)據(jù)x的表征。
(1)
人工設(shè)計的先驗(yàn)框(anchor)存在弊端,若先驗(yàn)框的尺寸和目標(biāo)的尺寸差異較大,會影響算法模型的檢測效果。為此,對數(shù)據(jù)集的邊界框采用K-均值聚類的方法提取先驗(yàn)框[17]。為避免采用歐式距離作為度量方法產(chǎn)生較大誤差的問題,采用先驗(yàn)框與邊界框的交并比作為度量,度量公式為
d(box,anchor)=1-IOU(box,anchor)
(2)
其中,box代表訓(xùn)練集中所有邊界框的集合,anchor代表通過聚類邊界框得到的先驗(yàn)框,通過迭代得到最優(yōu)的先驗(yàn)框,IOU代表先驗(yàn)框與邊界框的面積交并比。
使用K-均值聚類時,一個重要的問題是如何選擇合適的K值,即先驗(yàn)框的數(shù)量。考慮到計算復(fù)雜度,K值應(yīng)不超過10。本文在自制的12種手勢的數(shù)據(jù)集上對先驗(yàn)候選框數(shù)量和平均交并比的關(guān)系進(jìn)行了對比試驗(yàn),結(jié)果如圖4所示。采用elbow方法來確定最佳K值,即使平均交并比的斜率發(fā)生了明顯變化的K值為最佳值。因此,選取K=6作為先驗(yàn)候選框的數(shù)量,在網(wǎng)絡(luò)輸入大小為320×320時,6個anchor為:[(10,25), (14,38), (21,34), (22,56), (36,74), (60,127)]。
圖4 先驗(yàn)框數(shù)量與平均交并比的關(guān)系
通過真實(shí)場景測試和對比實(shí)驗(yàn),驗(yàn)證本文算法的有效性。實(shí)驗(yàn)運(yùn)行環(huán)境為Pyhon3.6和Darknet深度學(xué)習(xí)框架。訓(xùn)練服務(wù)器搭載64位Ubuntu18.04操作系統(tǒng),Intel Xeon Gold 6240處理器,32 GB內(nèi)存,Titan RTX顯卡等。訓(xùn)練時各參數(shù)值:batch為512,subdivisions為16,max_batches為50 000,動量值為0.9。每訓(xùn)練1 000步保存一次模型且保存最后一次模型,最終選取loss最低的模型用于真實(shí)場景測試和對比實(shí)驗(yàn)。將本文算法的模型部署在搭載MTK9652處理器的海信電視,部分真實(shí)場景測試效果如圖5所示??梢钥闯觯P湍軠?zhǔn)確識別測試者做出的手勢。
圖5 本文算法在真實(shí)場景中的測試效果
基于自制手勢數(shù)據(jù)集,將本文算法與YOLOv3-tiny、YOLOv4-tiny、MobileNetv2-YOLOv3、NanoDet等經(jīng)典輕量化算法進(jìn)行對比實(shí)驗(yàn),得到模型大小、運(yùn)算量、mAP(均值平均精度用來衡量算法模型識別成功率)和移動端推理時間等技術(shù)指標(biāo)見表2(算法滿足實(shí)時手勢識別的標(biāo)準(zhǔn)推理時間在30 ms以內(nèi))。YOLOv3-tiny和YOLOv4-tiny分別是YOLOv3和YOLOv4的簡化版本。YOLOv3-tiny基于YOLOv3算法開發(fā),去掉部分特征提取層,只保留2個獨(dú)立預(yù)測分支。該算法在對比實(shí)驗(yàn)中表現(xiàn)最差,mAP為72.1%,相比本文算法低了21.4%。YOLOv4-tiny是基于YOLOv4算法提出的,在特征加強(qiáng)層只采用一個特征金字塔,沒有下采樣操作,mAP為83.3%。上述兩種算法均未達(dá)到實(shí)時手勢識別標(biāo)準(zhǔn)。MobileNetv2-YOLOv3是采用MobileNetv2作為YOLOv3主干網(wǎng)絡(luò),與原主干網(wǎng)絡(luò)DarkNet53相比,MobileNetv2的計算量較低。該算法在對比實(shí)驗(yàn)中mAP最高,為98.7%。但與本文算法相比,MobileNetv2-YOLOv3的計算量較大,未達(dá)到實(shí)時手勢識別標(biāo)準(zhǔn)。NanoDet是一種一階全卷積的單階段無預(yù)選框的目標(biāo)檢測算法,通過自適應(yīng)的方法選取正樣本,該算法mAP達(dá)到了92.3%,比本文算法低了1.2%。
表2 不同算法技術(shù)指標(biāo)對比
本文所提算法是基于深度可分離卷積與倒置殘差結(jié)構(gòu)改進(jìn)的YOLOv3手勢識別算法,在對比實(shí)驗(yàn)中mAP為93.5%,計算量最小,且在搭載驍龍710的智能手機(jī)端推理時間最短,僅有8.3 ms,滿足實(shí)時手勢識別標(biāo)準(zhǔn)。同時,在搭載MTK9652處理器的海信電視端的推理時間僅有24.7 ms,模型只有0.6 MB,滿足在海信電視的實(shí)際部署中模型輕量化、推理速度快的要求。
本文提出了一種輕量化的手勢識別算法和一個具有12種手勢的大型手勢識別數(shù)據(jù)集,滿足了實(shí)際應(yīng)用場景中手勢多樣化的需求。采用基于深度學(xué)習(xí)的圖像二值化方法,將提出的數(shù)據(jù)集轉(zhuǎn)化為二值圖像進(jìn)行訓(xùn)練,降低實(shí)際環(huán)境中膚色、燈光、衣服顏色、背景顏色等各類顏色對手勢識別的影響,在保證識別準(zhǔn)確率的前提下提高了推理速度。通過真實(shí)場景測試和對比實(shí)驗(yàn),新算法在各項(xiàng)指標(biāo)上達(dá)到了較優(yōu),可以部署在移動設(shè)備上。由于Ok手勢樣本數(shù)量有限,測試中存在識別錯誤的情況。下一步研究將采集更多Ok手勢的圖像添加至數(shù)據(jù)集進(jìn)行訓(xùn)練,提高算法對Ok手勢識別的準(zhǔn)確率。