国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于膚色分割與改進VGG網(wǎng)絡的手語識別①

2020-06-20 07:31包嘉欣田秋紅楊慧敏陳影柔
計算機系統(tǒng)應用 2020年6期
關鍵詞:手部手語膚色

包嘉欣,田秋紅,楊慧敏,陳影柔

(浙江理工大學 信息學院,杭州 310018)

手語的構成主要是借助手和手臂完成的手勢語,是包含信息量最多的一種人體語言,它與口語及書面語等自然語言的表達能力相當.手語識別技術提供一種更為簡單自然的人機交互方式,它逐漸改變著人們的生活方式,并已廣泛應用于體感游戲、機器人控制、智能家電和車載系統(tǒng)等領域,其研究發(fā)展影響著人機交互的自然性和靈活性,具有重要的社會經(jīng)濟價值和研究意義.手語識別不僅是聽力障礙者的主要交流手段,而且有效的手語識別將減輕聽力障礙者因交流不便帶來的困擾,因此手語識別具有重要的社會意義.

根據(jù)手語識別提取特征的方法不同,手語識別主要分為以下幾類:1)基于穿戴式輸入設備的識別方法[1-4],該方法利用穿戴式的設備采集手的位置、形狀和運動軌跡和運動方向等信息,獲得的手勢時序可直接用于分類器識別.但是該方法要求穿戴的設備比較昂貴,且易損壞,不容易維護,難以推廣和普及.2)基于人工設計特征的識別方法[5-8],該方法利用通過提取合適的手語特征作為識別特征,但是該方法的學習能力不強,在樣本量不斷增大的情況下,識別率不會顯著提高,且提取的特征容易受到光照、背景的影響.3)基于神經(jīng)網(wǎng)絡的識別方法[9-12],該方法基于統(tǒng)計的方法能夠實現(xiàn)復雜的非線性映射,且具有分類特性和抗干擾性,但是該方法在手語圖像不足的情況下,容易陷入過擬合.

基于深度學習的卷積神經(jīng)網(wǎng)絡具有結構層次化、權值共享、區(qū)域局部感知、特征提取和識別分類相結合的全局分類特點,能夠逐層自動地學習到合適的特征并進行分類,在圖像識別領域獲得了廣泛的應用.Liu 等[13]提出了基于深度神經(jīng)網(wǎng)絡的轉移學習算法來解決帶標記的彩色圖像樣本不足的問題,與原始的VGG 方法和淺層機器學習方法相比,提出的方法具有更高的精度.Gu 等[14]提出將復雜算法(卷積和批量歸一化)應用于VGG 網(wǎng)絡,并對模型進行了擴展,通過訓練具有相同網(wǎng)絡結構的實值VGG 網(wǎng)絡和復值VGG網(wǎng)絡,得到了訓練和測試的精度.Ha 等[15]提出了一種基于圖像的建筑信息模型(BIM)和VGG 的室內定位新方法.該方法通過渲染BIM 圖像構建數(shù)據(jù)集,并在數(shù)據(jù)集中搜索與室內照片最相似的圖像,從而估算出照片的室內位置和方向,結果證明了VGG 網(wǎng)絡中的池化層適合于特征選擇.但是VGG 網(wǎng)絡模型對手語圖像數(shù)據(jù)集的數(shù)量要求過高,且在訓練模型時需要大量的存儲容量,對硬件的要求較高.

針對以上不足,本文提出了一種基于膚色分割與改進VGG 網(wǎng)絡的手語識別方法.在保證識別準確率的同時解決了復雜背景下手勢圖像的特征提取問題.通過優(yōu)化網(wǎng)絡結構,減少了模型所需的存儲容量和參數(shù)量.

1 綜合多要素的手語膚色分割方法

目前,基于視覺的手勢分割算法主要有基于膚色的手勢分割算法、基于輪廓的手勢分割算法和基于運動的手勢分割算法.基于膚色分割的方法,通過在原始圖像中選取與手部皮膚顏色相近的像素點,然后把這些像素點所在的區(qū)域分割出來.基于膚色分割的方法簡單高效,不受尺度和角度等因素的影響,得到了廣泛的應用.但是基于膚色分割的方法容易受到背景中類膚色區(qū)域的干擾,本文提出了一種綜合多要素的手語膚色分割方法.該方法首先采用橢圓模型對手語圖像進行初步分割,然后利用基于最大連通域和質心定位的方法來排除背景中的類膚色區(qū)域及除手部區(qū)域以外的膚色區(qū)域,進而分割出手部區(qū)域.

1.1 基于橢圓模型的膚色分割

由于膚色對人的表情、動作等變化具有強烈的抗干擾能力,因此常常將它作為手語識別與人臉識別的首選特征,不同光照變化會導致膚色的亮度發(fā)生變化,需要選擇一個可靠的膚色模型來檢測膚色區(qū)域[16].YCbCr 顏色空間的是一種能將亮度信號和色度信號單獨分離開的顏色空間,其中Y、Cb、Cr分別指亮度、藍色色度、紅色色度.從RGB 顏色空間到YCbCr 顏色空間的轉換公式如下[17]:

其中,R、G、B值分別為圖像紅、綠、藍顏色值歸一化后的值.

采集手語圖像數(shù)據(jù)集中膚色的樣本點,并將膚色轉化到YCbCr 顏色空間,然后在CbCr 平面進行投影,得到一個CbCr 的橢圓,判斷坐標(Cb,Cr)是否在橢圓內(包括邊界),即可判斷是否為膚色像素點,進而形成的統(tǒng)計橢圓模型如下:

其中,Cx=109.38,Cy= 152.02,a=25.39,b=14.03,θ=2.53,eCx= 1.60,eCy=2.41.

1.2 圖像去噪

經(jīng)過膚色分割后,手語圖像中可能會存在孤立的噪聲點和小的干擾塊(類膚色背景),且膚色區(qū)域會存在大小不一的孔洞,這些因素會嚴重干擾手部區(qū)域的提取,因此必須去除.

中值濾波法是一種非線性平滑技術,它將每一像素點的灰度值設置為該點某鄰域內的所有像素點灰度值的中值,對毛刺和孔洞的填充具有重要作用[18].在圖像濾波中最常用 3×3的窗口對圖像進行中值濾波,即選取指定點周圍的8 鄰域的像素值進行排序,將排序后的中值作為指定點的像素值.中值濾波的公式如下:

其中,f(i,j)為 原圖像的像素值,g(i,j)為中值濾波后像素值,med為中值運算符.

漫水填充算法是一種用顏色來填充連通區(qū)域的算法,首先從連通域里選出一點,將該點作為種子點,然后從該點開始尋找當前的連通域內其他的點,并將這些點填充成指定的顏色.

本文先采用中值濾波對膚色分割后的手語圖像進行平滑濾波,去除孤立的噪聲點及邊緣的毛刺,然后采用漫水填充算法填充膚色區(qū)域的孔洞,確保手語區(qū)域的完整性.

1.3 基于最大連通域和質心定位的手部區(qū)域獲取

經(jīng)過膚色分割和圖像去噪后,圖像中仍存在3 處皮膚區(qū)域及其他稍微大一點的類膚色背景區(qū)域.本文提出了一種基于面積算子和質心位置的手部區(qū)域定位方法,實現(xiàn)了手部區(qū)域的獲取.

計算圖像中每個連通區(qū)域內的像素數(shù)目,找出最大的3 個連通區(qū)域,即脖子區(qū)域、手臂區(qū)域、和手部區(qū)域,舍棄其他連通區(qū)域.

根據(jù)式(5)~式(7)計算3 個區(qū)域的零階矩和一階矩,根據(jù)式(8)~式(9)利用所得的零階矩和一階矩計算3 個區(qū)域質心的坐標,選擇在X 方向上質心坐標最小的區(qū)域,即為手部區(qū)域(本文研究圖像中,手部區(qū)域均在脖子區(qū)域的左側),保留質心坐標最小的區(qū)域,去除其他區(qū)域.

其中,m00為零階矩,m10和m01為 一階矩;V(i,j)是圖像在點(i,j)處的灰度值,I和J分別是圖像的寬度和高度.

手語膚色分割提取的流程圖如圖1所示.

圖1 手語膚色分割提取流程圖

手語膚色分割提取的過程結果如圖2所示.

圖2 手語膚色分割提取過程結果

2 基于改進的VGG 網(wǎng)絡進行手語識別

通過分析VGG 網(wǎng)絡模型的優(yōu)缺點,從模型的參數(shù)量和計算量方面對VGG 網(wǎng)絡模型進行分析.

2.1 VGG 網(wǎng)絡模型介紹

VGG 網(wǎng)絡模型在圖像特征提取方面具有很明顯的優(yōu)勢,近年來被廣泛的用于圖像的特征提取[19-21].該模型主要是通過增加網(wǎng)絡結構的深度來提高網(wǎng)絡提取特征的能力,同時用小的卷積核和小池化核來代替之前的卷積神經(jīng)網(wǎng)絡中的大卷積核和大池化核,這樣既減少了網(wǎng)絡結構中的參數(shù)量,又增加了網(wǎng)絡中的非線性單元,提升了神經(jīng)網(wǎng)絡對特征的學習能力.VGG 網(wǎng)絡結構如圖3所示.

圖3 VGG 網(wǎng)絡結構示意圖

VGG 網(wǎng)絡結構說明如下:

1)網(wǎng)絡的輸入是224×224 的RGB 圖片,所有圖片都經(jīng)過均值處理.

2)網(wǎng)絡模型中有5 個block.每個block 內有2 個或者3 個卷積層,共有13 層卷積;每個block 尾部連接一個最大池化層,用于縮小圖片的尺寸,即壓縮輸入的特征信息.

3)網(wǎng)絡中總共有3 個全連接層和一個Softmax 分類器,分類器用于對輸入的圖像進行分類.在第一個和第二個全連接層后添加了dropout (隨機失活),這樣既可以減少全連接層的計算量,又避免了網(wǎng)絡的過擬合和梯度消散問題.

2.2 改進的VGG 網(wǎng)絡模型

VGG 網(wǎng)絡模型在手語識別領域已經(jīng)取得了不錯的成績[22],但是VGG 模型仍存在以下不足之處:

(1)網(wǎng)絡模型的卷積層數(shù)太多,訓練模型時計算量大,損失值的收斂較慢,且需要大量的數(shù)據(jù)集;

(2)通過對VGG 網(wǎng)絡每一層的權重參數(shù)量分析可得,VGG 網(wǎng)絡訓練模型時的參數(shù)主要產(chǎn)生于全連接層,約占整個網(wǎng)絡權重參數(shù)的87%,這就導致了訓練網(wǎng)絡所需的內存較多.

為了使VGG 網(wǎng)絡模型能夠更好地達到手語識別的應用要求,需要對VGG 網(wǎng)絡結構進行改進,降低模型所需的存儲容量和權重參數(shù)量.對原始的VGG 網(wǎng)絡結構進行如下改進:

(1)將原來的13 個卷積層減少到6 個卷積層,減少網(wǎng)絡對手語圖像數(shù)據(jù)集的需求;

(2)用兩個全連接層代替原來的3 個全連接層,并將第一個全連接層的輸出節(jié)點設為1024,第二個全連接層的輸出節(jié)點設為26;

(3)在卷積層和激活函數(shù)之間,我們增加了一個批量歸一化(BN)層[23],以提高網(wǎng)絡性能和穩(wěn)定性,并實現(xiàn)手語圖像的準確分類.

BN 是一種有效的逐層歸一化的方法,可以對神經(jīng)網(wǎng)絡中的中間層進行歸一化操作,對于神經(jīng)網(wǎng)絡來說,令第l層的凈輸入為Z(l),經(jīng)過激活函數(shù)后的輸出層是a(l),如式(10)所示.

其中,f(·)是 激活函數(shù),W和b是權重和偏置參數(shù).

為了減少內部協(xié)變量偏移問題,就要使得凈輸入Z(l)的分布一致,利用數(shù)據(jù)預處理方法對Z(l)進行歸一化,相當于每一層都進行一次數(shù)據(jù)預處理,從而加速損失值的收斂速度.為了提高歸一化效率,一般使用標準歸一化,將凈輸入Z(l)的每一維都歸一到標準正態(tài)分布,歸一化的公式如式(11)所示.

給定一個包含K個樣本的小批量樣本集合,第l層神經(jīng)元的凈輸入Z(1,l),···,Z(K,l)的均值、方差的計算公式分別如式(12)、式(13)所示.

為了使歸一化操作不對網(wǎng)絡的表示能力造成負面影響,可以通過一個附加的縮放和平移變換改變取值區(qū)間,最后的輸出如式(14)所示.

其中,γ、β分別表示縮放和平移的參數(shù)向量.

改進的VGG 網(wǎng)絡具體模型結構如圖4所示,對比改進前后的網(wǎng)絡模型可以看到,改進后的網(wǎng)絡模型卷積層數(shù)大大減少,這就縮短了訓練時間.同時,改進后的網(wǎng)絡中卷積層和池化層依舊是交替出現(xiàn)的,所以仍保留了圖像對縮放、扭曲和位移的不變性和良好魯棒性的優(yōu)點.

圖4 改進的VGG 網(wǎng)絡結構圖

2.3 基于改進的VGG 的手語識別模型

基于改進的VGG 網(wǎng)絡,結合手語圖像的種類和特點,構建了識別26 個英文字母手語的模型,手語識別流程圖如圖5所示.

(1)隨機從26 個英文字母手語圖像數(shù)據(jù)集中抽取一定等比例的26 個英文字母手語圖像作為訓練樣本數(shù)據(jù)集.

(2)綜合多要素的手語膚色提取分割.對采集到的手語圖像先利用橢圓模型將膚色區(qū)域分割出來,然后再利用最大連通區(qū)域和質心定位實現(xiàn)手部區(qū)域的分割,將分割后手語灰度圖片的尺寸統(tǒng)一設置為1 28×128,并將其作為神經(jīng)網(wǎng)絡的輸入.

(3)模型訓練.利用改進的VGG 網(wǎng)絡提取輸入手語圖像的特征,從而構建26 個英文字母手語圖像識別模型.

(4)模型測試.手語圖像數(shù)據(jù)集中剩余的手語圖像作為測試樣本集進行模型測試,驗證模型的準確率.

圖5 基于改進的VGG 的手語識別方法流程圖

3 實驗與結果

本節(jié)主要介紹了手語識別所采用的數(shù)據(jù)集,分割算法的有效性驗證,涉及的實驗參數(shù)設置及網(wǎng)絡的對比實驗,實驗參數(shù)包括批量歸一化層(BN)的添加、批處理尺寸及學習率的設置.

3.1 數(shù)據(jù)集介紹

為了驗證改進模型的有效性,本文構建了一個自建手語圖像數(shù)據(jù)集.自建手勢數(shù)據(jù)集是通過計算機攝像頭采集了真人的26 種不同手語,共有10 400 張圖像,手語者穿著類似膚色的衣服,兩側手臂裸露,所有手語者均使用右手打手勢.部分手語圖像如圖6所示.

圖6 手語圖像數(shù)據(jù)集

3.2 分割算法有效性驗證

為了驗證本文提出的手語膚色分割算法的有效性,我們將本文提出的分割算法和以下3 種方法進行對比:(1)基于橢圓模型的膚色分割;(2)橢圓模型與最大3 個連通域提取相結合的方法;(3)橢圓模型與質心定位相結合的方法.相應的結果圖如圖7~圖9所示,本文方法的結果圖如圖10所示.

由圖7、圖8可以看出,方法(1)和方法(2)均不能獲取單獨的手部區(qū)域.由圖9可以看出,方法(3)只能提取手勢圖像中最左邊一塊類膚色區(qū)域,該方法不能實現(xiàn)手部區(qū)域的獲取.由圖10可以看出,本文的方法對手部區(qū)域的獲取具有顯著效果,該方法能夠從復雜背景中獲取單獨的手部區(qū)域.

圖7 橢圓模型

圖8 橢圓模型與最大3 個連通域提取相結合的方法

圖9 橢圓模型與質心定位相結合的方法

圖10 本文方法

3.3 批量歸一化

本實驗比較了添加BN 層和不添加BN 層的網(wǎng)絡訓練效果,對應的損失、準確率隨迭代次數(shù)的變化如圖11、圖12所示.由圖11可以看出,添加BN 層的網(wǎng)絡損失值隨迭代次數(shù)的增加下降較快,最終趨于穩(wěn)定;而未添加BN 層的網(wǎng)絡損失值隨迭代次數(shù)的增加一直在震蕩,說明添加BN 層對損失值的下降及穩(wěn)定具有重要作用.從圖12可以看出添加BN 層的網(wǎng)絡準確率明顯高于未添加BN 層的網(wǎng)絡準確率高,說明添加BN 層有助于獲得更高的準確率.

3.4 批處理尺寸及學習率設置

在本實驗中,我們將batch size 分別設置為32,64和128,比較這3 種條件來選擇最適合該模型的batch size,不同batch size 訓練的實驗結果如圖13、圖14所示.由圖13可以看出,當batch size = 32 時,損失值波動幅度遠大于其他兩種情況,且梯度下降速率最慢.當batch size = 128 時,損失值波動范圍最小.但是經(jīng)過一定次數(shù)的迭代,batch size 為64 和128 的訓練情況基本相同.由圖14看出,當batch size = 32 時,準確率遠大于其他兩種情況.當batch size = 128 時,準確率提高較快.但是經(jīng)過一定次數(shù)的迭代,batch size 為64 和128的訓練情況基本相同.綜合考慮,本實驗中選擇64 作為訓練的batch size,在保證訓練速度的同時,也保證訓練模型的泛化能力.

圖11 損失值隨迭代次數(shù)的變化曲線

圖12 準確率隨迭代次數(shù)的變化曲線

圖13 損失值隨迭代次數(shù)的變化曲線

圖14 準確率隨迭代次數(shù)的變化曲線

本實驗將網(wǎng)絡的初始學習率lr設為0.001,并且通過指數(shù)衰減對學習率進行更新,衰減系數(shù)設為0.9,衰減速度設為1000,學習率計算公式如式(15)所示,其中l(wèi)r為初始學習率,decay_rate為衰減系數(shù),global_steps為當前的迭代次數(shù),decay_steps為衰減速度(每隔decay_steps次更新一下學習率).

3.5 網(wǎng)絡的對比試驗

通過調整網(wǎng)絡中的block 內的層數(shù)來優(yōu)化網(wǎng)絡,本實驗中構建了4 種網(wǎng)絡模型,如表1所示.由表1可以看出,VGG1 網(wǎng)絡模型中有4 個block,共有4 層卷積,兩個全連接層;VGG2 網(wǎng)絡模型中有5 個block,共有5 層卷積,2 個全連接層;VGG3 網(wǎng)絡模型中有5 個block,共有5 層卷積,2 個全連接層;VGG4 網(wǎng)絡模型(改進的網(wǎng)絡模型)中有5 個block,共有6 層卷積,2 個全連接層.其中,Conv3 代表卷積層采用3 ×3的卷積核;Conv3-64 代表該層卷積核的通道數(shù)為64;Max Pooling代表最大池化層;FC 代表全連接層;FC-1024 代表全連接層的輸出節(jié)點為1024.

在實驗參數(shù)設置相同的基礎上,實驗中將討論4 種模型訓練網(wǎng)絡的實驗結果.

4種模型訓練網(wǎng)絡的實驗結果如圖15、圖16所示.由圖15可以看出,通過比較VGG1 和VGG44,可以發(fā)現(xiàn)增加塊數(shù)來提取更深層次的手語特征,可以幫助模型較快地實現(xiàn)穩(wěn)定的收斂.由VGG2 和VGG3 可以發(fā)現(xiàn),塊和卷積層的數(shù)量相同時,增加卷積核的通道數(shù)可以提高模型的每個迭代的優(yōu)化效果最后,比較VGG3 和VGG4 可以發(fā)現(xiàn),特征深度(塊數(shù))相同時,通過增加塊內卷積數(shù)可以獲得更好的特征提取效果.由圖16可以看出,VGG4 訓練模型的準確率相比其他兩種網(wǎng)絡模型能夠獲得較高的識別率,識別率達到了97%以上.

表1 卷積網(wǎng)絡層配置

圖15 損失值隨迭代次數(shù)的變化曲線

圖16 準確率隨迭代次數(shù)的變化曲線

4 結論

本文主要研究內容是基于改進的VGG 網(wǎng)絡的手語識別.在提出實驗方案之前,我們分析了常用的手語特征提取方法的優(yōu)缺點.在此基礎上,提出了一種基于綜合多要素的手語膚色分割與改進的VGG 網(wǎng)絡結合的手語識別方法.在該方法中,根據(jù)人體膚色在YCbCr空間聚類緊湊的特征構建橢圓模型,從而對手語圖像進行初步分割;利用中值濾波進行對初步分割后的圖形進行平滑處理,去除膚色區(qū)域周圍的毛刺或者白點,然后采用漫水填充算法填充手語區(qū)域的空洞,最后采用基于最大連通域和質心定位的方法手部區(qū)域的提取.本文減少了VGG 網(wǎng)絡模型中的卷積和全連接的層數(shù),并將批量歸一化層添加到網(wǎng)絡中.利用改進后的網(wǎng)絡構建識別模型,識別模型以手部區(qū)域的灰度信息為輸入,減少訓練網(wǎng)絡模型時所需的參數(shù)量.本文提出的方法在保證復雜背景下的手語圖像特征提取有效性的同時,解決了VGG 網(wǎng)絡模型所需數(shù)據(jù)集大和權重參數(shù)量過多等問題,且保證了手語圖像識別的準確性.

猜你喜歡
手部手語膚色
膚色(外一首)
高通聯(lián)手Ultraleap 為XR2提供手部交互解決方案
人的膚色為什么不同
為什么人有不同的膚色?
無聲的世界里,怎樣唱一首歌?
廚房料理小妙招——山藥去皮手不癢的竅門
奇怪的手語圖
永川市| 瑞丽市| 广平县| 蕉岭县| 云南省| 尖扎县| 同仁县| 四川省| 于田县| 龙川县| 阳高县| 东平县| 观塘区| 栖霞市| 四子王旗| 广灵县| 普宁市| 宝兴县| 丰原市| 于都县| 大方县| 盐源县| 监利县| 胶州市| 彭泽县| 土默特右旗| 丽水市| 呼和浩特市| 秦皇岛市| 和田市| 黎川县| 溧水县| 台南市| 囊谦县| 老河口市| 图片| 北海市| 赤峰市| 六安市| 阳山县| 平舆县|