適用于移動設(shè)備的輕量化手勢識別算法

2022-05-20 08:13姜俊厚王國棟虞志軍

青島大學(xué)學(xué)報（自然科學(xué)版） 2022年2期

許帥，姜俊厚，高偉，王國棟，虞志軍

(1.青島大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院，青島 266071；2.海信電子信息集團(tuán)研發(fā)中心，青島 266104)

手勢識別是人機(jī)交互領(lǐng)域的一個重要研究方向，廣泛應(yīng)用于手語識別、虛擬現(xiàn)實(shí)和智能家居等現(xiàn)實(shí)場景。隨著深度學(xué)習(xí)技術(shù)的發(fā)展，手勢識別算法在服務(wù)器端已經(jīng)趨于成熟，現(xiàn)階段的研究熱點(diǎn)是實(shí)現(xiàn)移動設(shè)備上的產(chǎn)品落地。移動設(shè)備諸如智能手機(jī)、智能電視等，代表了新的計算機(jī)領(lǐng)域，通常具有存儲空間小、計算能力低的特點(diǎn)。在移動設(shè)備上部署手勢識別算法，需要在保證識別成功率的同時，滿足模型輕量化、推理時間短的要求。目前，手勢識別算法主要分為基于機(jī)器學(xué)習(xí)或者計算機(jī)視覺的傳統(tǒng)算法和基于深度學(xué)習(xí)的算法，首要任務(wù)是手的定位檢測以及手所在圖像區(qū)域的分割[1]。為了將復(fù)雜的背景和人手分隔開，可以基于人體膚色模型提取人手區(qū)域，利用手指個數(shù)信息和HOG(histogram of oriented gradient)特征建立分類器實(shí)現(xiàn)手勢識別[2]。針對手勢識別特征不足的問題，可以將HOG和SIFT(scale invariant feature transform)兩種特征融合[3]。傳統(tǒng)手勢識別算法主要依賴手工提取的特征，局限性在于需要對數(shù)據(jù)進(jìn)行復(fù)雜的預(yù)處理，且設(shè)計對應(yīng)的特征提取器?；谏疃葘W(xué)習(xí)的手勢識別算法不依賴于手工提取特征，通過深層次的網(wǎng)絡(luò)結(jié)構(gòu)提取特征。為構(gòu)建深層次網(wǎng)絡(luò)結(jié)構(gòu)，可以組合簡單的非線性模塊，例如卷積神經(jīng)網(wǎng)絡(luò)與多層降噪編碼器的組合可以實(shí)現(xiàn)端到端手勢識別[4]，卷積神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制的組合可以實(shí)現(xiàn)動態(tài)手勢識別[5]。手勢識別過程中需要對數(shù)據(jù)預(yù)分割和后輸出處理，可通過融合卷積神經(jīng)網(wǎng)絡(luò)和雙向長短時記憶的方法構(gòu)建串聯(lián)型網(wǎng)絡(luò)模型[6]。與二維卷積神經(jīng)網(wǎng)絡(luò)相比，三維卷積神經(jīng)網(wǎng)絡(luò)具有更復(fù)雜的結(jié)構(gòu)，能夠?qū)崿F(xiàn)更豐富的功能，例如將三維卷積神經(jīng)網(wǎng)絡(luò)與ResNet結(jié)合的Res3D模型[7]，可對時序RGB圖像、光流數(shù)據(jù)和深度數(shù)據(jù)提取特征。在實(shí)際應(yīng)用中，復(fù)雜背景會影響手勢識別算法識別成功率，且提取的圖像特征難以適應(yīng)手勢多變性，可基于膚色閾值來解決這類問題[8]。綜上，基于深度學(xué)習(xí)的算法需要構(gòu)建深層次的網(wǎng)絡(luò)結(jié)構(gòu)，存在繁多的權(quán)值參數(shù)，需要耗費(fèi)大量的內(nèi)存空間，且推理時間難以滿足實(shí)時要求，無法部署于移動設(shè)備。為此，本文設(shè)計了一種輕量化的手勢識別算法，在自制數(shù)據(jù)集上訓(xùn)練該算法，在移動設(shè)備上對比測試算法性能。

1 手勢識別算法網(wǎng)絡(luò)

1.1 網(wǎng)絡(luò)整體結(jié)構(gòu)

本文基于改進(jìn)的YOLOv3目標(biāo)檢測算法實(shí)現(xiàn)手勢識別。與其他目標(biāo)檢測算法相比，YOLOv3在檢測速度和檢測精度上取得了平衡[9-10]。為提升手勢識別算法的運(yùn)算速度和減小參數(shù)量，重新設(shè)計算法網(wǎng)絡(luò)結(jié)構(gòu)，如圖1所示。基于MobileNetv2中的倒置殘差結(jié)構(gòu)，構(gòu)建主干網(wǎng)絡(luò)，代替YOLOv3中的主干網(wǎng)絡(luò)DarkNet-53。倒置殘差結(jié)構(gòu)將深度可分離卷積與殘差結(jié)構(gòu)相結(jié)合以提高特征復(fù)用性，降低網(wǎng)絡(luò)的深度。整個網(wǎng)絡(luò)結(jié)構(gòu)包括特征提取部分和預(yù)測分支部分，即圖1中的Backbone和Output部分。以輸入圖像大小256×256為例，特征提取后，在多尺度檢測上保留16×16和8×8兩個預(yù)測分支。采用本文設(shè)計的具有12種手勢的數(shù)據(jù)集訓(xùn)練算法，在網(wǎng)絡(luò)輸出部分的16×16×51和8×8×51表示預(yù)測結(jié)果維度，實(shí)際為16×16×3×(5+12)和8×8×3×(5+12)，表示有16×16和8×8的網(wǎng)格，每個網(wǎng)格有3個先驗(yàn)框(anchor)，每個先驗(yàn)框有17個參數(shù)。該算法對小尺度預(yù)測分支上采樣，融合兩個尺度的輸出，利用非極大值抑制計算結(jié)果。

圖1 本文手勢識別算法整體結(jié)構(gòu)

1.2 網(wǎng)絡(luò)模塊設(shè)計

1.2.1 深度可分離卷積模塊在移動設(shè)備上部署手勢識別算法，首要任務(wù)是降低算法網(wǎng)絡(luò)的參數(shù)量。深度可分離卷積是MobileNet的核心構(gòu)建模塊，將標(biāo)準(zhǔn)卷積轉(zhuǎn)換成一個深度卷積和一個逐點(diǎn)卷積[11-12]。標(biāo)準(zhǔn)卷積的輸入特征圖和輸出特征圖連接方式如圖2(a)所示。分組卷積將輸入特征圖分為3組，每組輸出特征圖通道數(shù)為2，每個卷積核的通道數(shù)為4，卷積核只與其同組的輸入特征圖進(jìn)行卷積，如圖2(b)所示。當(dāng)分組數(shù)量等于輸入特征圖的通道數(shù)，則輸出特征圖和輸入特征圖的通道數(shù)相等，分組卷積就成為深度卷積，與標(biāo)準(zhǔn)卷積相比參數(shù)量降低。逐點(diǎn)卷積為1×1的卷積，在深度可分離卷積中，一是讓深度卷積能夠自由改變輸出特征圖的通道數(shù)，二是對深度卷積的輸出的特征圖進(jìn)行通道融合。

圖2 卷積參數(shù)量對比(a) 標(biāo)準(zhǔn)卷積；(b)分組卷積

1.2.2 倒置殘差模塊為降低網(wǎng)絡(luò)參數(shù)量，采用MobileNetV2[13]的模塊構(gòu)建主干網(wǎng)絡(luò)，將倒置殘差(Inverted Residuals)結(jié)構(gòu)和線性瓶頸 (Linear Bottlenecks) 層與深度可分離卷積結(jié)合，使網(wǎng)絡(luò)在多類型多尺度手勢識別方面的性能得到提升。倒置殘差結(jié)構(gòu)呈“兩頭窄、中間寬”的形式，輸入的特征圖經(jīng)過深度可分離卷積處理，將輸入數(shù)據(jù)擴(kuò)充到高維空間，再經(jīng)過卷積操作，將輸出特征圖的通道融合。借鑒ResNet網(wǎng)絡(luò)的跳躍連接結(jié)構(gòu)，用來增強(qiáng)特征復(fù)用性。該結(jié)構(gòu)以深度可分離卷積為基礎(chǔ)，參數(shù)量低，可有效提升神經(jīng)網(wǎng)絡(luò)的運(yùn)行效率。ReLU6激活函數(shù)能夠保證輸入數(shù)據(jù)的信息完整性，可用來替換ReLU激活函數(shù)。

2 數(shù)據(jù)集的制作及預(yù)處理

2.1 手勢數(shù)據(jù)集的制作

手勢數(shù)據(jù)集是手勢識別算法的基礎(chǔ)，高質(zhì)量的數(shù)據(jù)集可以提高算法模型訓(xùn)練效率和識別準(zhǔn)確率。為滿足本文算法在實(shí)際應(yīng)用中對手勢多樣化的需求以及應(yīng)對各類復(fù)雜的現(xiàn)實(shí)場景，由不同年齡不同性別的個體在室內(nèi)和室外各種復(fù)雜背景環(huán)境下采集制作了一個具有12種手勢的數(shù)據(jù)集，其中每張圖像像素大小為1 920×1 080。該自制手勢數(shù)據(jù)集樣本數(shù)量豐富，貼合實(shí)際生活。將其劃分為訓(xùn)練集和驗(yàn)證集，其中各類手勢樣本數(shù)量和數(shù)字對應(yīng)關(guān)系見表1。

表1 自制手勢數(shù)據(jù)集中各類手勢樣本數(shù)量及數(shù)字對應(yīng)關(guān)系

2.2 圖像二值化處理

采用二值化圖像作為算法的訓(xùn)練數(shù)據(jù)，可降低實(shí)際環(huán)境中各種顏色對手勢識別的影響，加快模型的訓(xùn)練速度。二值圖像中的每一個像素由一個on/off(開/關(guān))位來表示?；谏疃壬窠?jīng)網(wǎng)絡(luò)的自動化方法[14]，可將數(shù)據(jù)集中的圖像轉(zhuǎn)化為二值紋理圖像，原始圖像中的所有特征信息都被編碼到可見的紋理中，如圖3所示。

圖3 手勢數(shù)據(jù)集中的二值化紋理圖像示例

該方法采用自編碼器神經(jīng)網(wǎng)絡(luò)[15-16]給定輸入空間x∈X和特征空間h∈H，自編碼器求解兩者的映射f和g，使輸入特征的重建誤差達(dá)到最小求解完成后，由編碼器輸出的隱含層特征h，可視為輸入數(shù)據(jù)x的表征。

(1)

2.3 先驗(yàn)框的提取

人工設(shè)計的先驗(yàn)框(anchor)存在弊端，若先驗(yàn)框的尺寸和目標(biāo)的尺寸差異較大，會影響算法模型的檢測效果。為此，對數(shù)據(jù)集的邊界框采用K-均值聚類的方法提取先驗(yàn)框[17]。為避免采用歐式距離作為度量方法產(chǎn)生較大誤差的問題，采用先驗(yàn)框與邊界框的交并比作為度量，度量公式為

d(box,anchor)=1-IOU(box,anchor)

(2)

其中，box代表訓(xùn)練集中所有邊界框的集合，anchor代表通過聚類邊界框得到的先驗(yàn)框，通過迭代得到最優(yōu)的先驗(yàn)框，IOU代表先驗(yàn)框與邊界框的面積交并比。

使用K-均值聚類時，一個重要的問題是如何選擇合適的K值，即先驗(yàn)框的數(shù)量。考慮到計算復(fù)雜度，K值應(yīng)不超過10。本文在自制的12種手勢的數(shù)據(jù)集上對先驗(yàn)候選框數(shù)量和平均交并比的關(guān)系進(jìn)行了對比試驗(yàn)，結(jié)果如圖4所示。采用elbow方法來確定最佳K值，即使平均交并比的斜率發(fā)生了明顯變化的K值為最佳值。因此，選取K=6作為先驗(yàn)候選框的數(shù)量，在網(wǎng)絡(luò)輸入大小為320×320時，6個anchor為：[(10,25), (14,38), (21,34), (22,56), (36,74), (60,127)]。

圖4 先驗(yàn)框數(shù)量與平均交并比的關(guān)系

3 結(jié)果分析

通過真實(shí)場景測試和對比實(shí)驗(yàn)，驗(yàn)證本文算法的有效性。實(shí)驗(yàn)運(yùn)行環(huán)境為Pyhon3.6和Darknet深度學(xué)習(xí)框架。訓(xùn)練服務(wù)器搭載64位Ubuntu18.04操作系統(tǒng)，Intel Xeon Gold 6240處理器，32 GB內(nèi)存，Titan RTX顯卡等。訓(xùn)練時各參數(shù)值：batch為512，subdivisions為16，max_batches為50 000，動量值為0.9。每訓(xùn)練1 000步保存一次模型且保存最后一次模型，最終選取loss最低的模型用于真實(shí)場景測試和對比實(shí)驗(yàn)。將本文算法的模型部署在搭載MTK9652處理器的海信電視，部分真實(shí)場景測試效果如圖5所示?？梢钥闯觯Ｐ湍軠?zhǔn)確識別測試者做出的手勢。

圖5 本文算法在真實(shí)場景中的測試效果

基于自制手勢數(shù)據(jù)集，將本文算法與YOLOv3-tiny、YOLOv4-tiny、MobileNetv2-YOLOv3、NanoDet等經(jīng)典輕量化算法進(jìn)行對比實(shí)驗(yàn)，得到模型大小、運(yùn)算量、mAP(均值平均精度用來衡量算法模型識別成功率)和移動端推理時間等技術(shù)指標(biāo)見表2(算法滿足實(shí)時手勢識別的標(biāo)準(zhǔn)推理時間在30 ms以內(nèi))。YOLOv3-tiny和YOLOv4-tiny分別是YOLOv3和YOLOv4的簡化版本。YOLOv3-tiny基于YOLOv3算法開發(fā)，去掉部分特征提取層，只保留2個獨(dú)立預(yù)測分支。該算法在對比實(shí)驗(yàn)中表現(xiàn)最差，mAP為72.1%，相比本文算法低了21.4%。YOLOv4-tiny是基于YOLOv4算法提出的，在特征加強(qiáng)層只采用一個特征金字塔，沒有下采樣操作，mAP為83.3%。上述兩種算法均未達(dá)到實(shí)時手勢識別標(biāo)準(zhǔn)。MobileNetv2-YOLOv3是采用MobileNetv2作為YOLOv3主干網(wǎng)絡(luò)，與原主干網(wǎng)絡(luò)DarkNet53相比，MobileNetv2的計算量較低。該算法在對比實(shí)驗(yàn)中mAP最高，為98.7%。但與本文算法相比，MobileNetv2-YOLOv3的計算量較大，未達(dá)到實(shí)時手勢識別標(biāo)準(zhǔn)。NanoDet是一種一階全卷積的單階段無預(yù)選框的目標(biāo)檢測算法，通過自適應(yīng)的方法選取正樣本，該算法mAP達(dá)到了92.3%，比本文算法低了1.2%。

表2 不同算法技術(shù)指標(biāo)對比

本文所提算法是基于深度可分離卷積與倒置殘差結(jié)構(gòu)改進(jìn)的YOLOv3手勢識別算法，在對比實(shí)驗(yàn)中mAP為93.5%，計算量最小，且在搭載驍龍710的智能手機(jī)端推理時間最短，僅有8.3 ms，滿足實(shí)時手勢識別標(biāo)準(zhǔn)。同時，在搭載MTK9652處理器的海信電視端的推理時間僅有24.7 ms，模型只有0.6 MB，滿足在海信電視的實(shí)際部署中模型輕量化、推理速度快的要求。

4 結(jié)論

本文提出了一種輕量化的手勢識別算法和一個具有12種手勢的大型手勢識別數(shù)據(jù)集，滿足了實(shí)際應(yīng)用場景中手勢多樣化的需求。采用基于深度學(xué)習(xí)的圖像二值化方法，將提出的數(shù)據(jù)集轉(zhuǎn)化為二值圖像進(jìn)行訓(xùn)練，降低實(shí)際環(huán)境中膚色、燈光、衣服顏色、背景顏色等各類顏色對手勢識別的影響，在保證識別準(zhǔn)確率的前提下提高了推理速度。通過真實(shí)場景測試和對比實(shí)驗(yàn)，新算法在各項(xiàng)指標(biāo)上達(dá)到了較優(yōu)，可以部署在移動設(shè)備上。由于Ok手勢樣本數(shù)量有限，測試中存在識別錯誤的情況。下一步研究將采集更多Ok手勢的圖像添加至數(shù)據(jù)集進(jìn)行訓(xùn)練，提高算法對Ok手勢識別的準(zhǔn)確率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡