国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于雙卷積神經網絡的人眼狀態(tài)和眨眼識別算法研究

2022-07-12 04:24馬???/span>陳軍峰
中國電子科學研究院學報 2022年5期
關鍵詞:掩膜人眼輪廓

馬??? 陳軍峰

(1. 武警工程大學, 陜西 西安 710086;2. 武警警官學院, 四川 成都 610213)

0 引 言

激光眩目器是一種重要的非致命性警用裝備,然而如何實時地改變對目標人眼的照射能量以達到可控的照射效果是其實際應用的一大難題。為解決這一問題需要對目標人眼進行準確定位并對眼睛的開閉狀態(tài)進行準確的預測。

目前,人眼定位及狀態(tài)檢測算法主要有Hough[1]、灰度積分投影[2]、Gabor[3]、模板匹配[4]等融合類算法。這幾種算法里,對已知形狀的目標檢測上,Hough算法具備不受圖形旋轉影響和受曲線間斷影響小的優(yōu)勢,即便檢測的目標有稍許的缺損或污染也能被正確識別,其不足之處是計算量非常大;灰度積分投影的優(yōu)點是定位目標坐標的算法計算量較低,不足之處是自然條件下背景圖像較復雜,準確定位目標的識別率會降低;Gabor小波變換的優(yōu)點是適用于局部特征提取,該算法的魯棒性優(yōu)良,其不足之處是存在維數災難和特征冗余的問題;模板匹配優(yōu)點是用合成的目標模板對圖像進行匹配,有效壓縮了計算量,提高了定位速度和精度,不足之處是目標姿態(tài)變化大的情況下不能保證定位準確率等問題。

此外,文獻[5]使用時空濾波和方差圖來定位臉部和眼睛的特征點,用Lucas Kanade特征追蹤器進行眼睛追蹤,算法不足在于眨眼檢測會受到頭部運動的影響,導致準確率較大幅度下降。文獻[6]使用眼角、眼瞼和虹膜來跟蹤眼球運動和眨眼,實現(xiàn)基于流的人眼跟蹤,其檢測準確率達到90%,其不足之處是在多姿態(tài)的檢測中,特別是側面的檢測時準確率還不夠高。文獻[7]提出的眨眼檢測系統(tǒng)可以根據眨眼持續(xù)時間,將眨眼分類為自主和非自主,檢測準確率達到95.3%。其不足之處是在光照變化時檢測準確率會下降。文獻[8]提出凝視跟蹤方法,使用兩個基于外觀的跟蹤器,分別對眼瞼和虹膜進行跟蹤。用于眼瞼跟蹤的跟蹤器能夠快速識別眨眼,使其適用于實時應用,其不足之處是算法比較復雜。文獻[9] 提出的基于面部標志點自動跟蹤的眼睛眨動檢測方法,實現(xiàn)了眼睛和眼瞼輪廓的定位,使用 savitzky-golay (sg)濾波器對所獲得的信號進行平滑處理,使用有限狀態(tài)機根據持續(xù)時間檢查假眨眼和真眨眼情況,其不足之處是算法模型復雜,運算量大。

針對上述算法的不足,本文提出一種基于雙卷積神經網絡的人眼定位與狀態(tài)識別的算法,該模型基于兩個卷積神經網絡的聯(lián)合訓練,將眼睛輪廓和二進制掩膜作為輸入來預測眼睛的狀態(tài)。實驗結果表明此算法對普通視頻及紅外視頻中的動態(tài)目標人眼位置及狀態(tài)預測均具有良好的效果,能夠應用于智能激光眩目器控制系統(tǒng)。

1 基于雙卷積神經網絡的人眼狀態(tài)和眨眼識別算法

算法整體框架如圖1所示。視頻流作為輸入,首先,采用基于多任務級聯(lián)卷積網絡檢測器進行人臉區(qū)域檢測,利用得到的眉毛和眼睛坐標信息定位人眼;而后,通過計算其對應眼標坐標集上的凸包,對提取的兩個眼斑進行二元掩碼運算,得到二進制掩碼;最后,把提取的眼斑及其相應的二進制掩碼帶入彩色人眼和掩膜人眼兩個卷積神經網絡,通過兩個神經網絡聯(lián)合訓練對眼睛狀態(tài)(睜開或閉合)進行預測。算法框架記錄每一幀眼睛狀態(tài),若眼睛在閉上若干幀后首次睜開,即認定為眨眼。幀數的閾值根據人類平均眨眼時間設定為100 ms~400 ms[10]。

圖1 基于雙卷積神經網絡的人眼狀態(tài)和眨眼識別算法框架

1.1 眼睛輪廓提取

眼睛輪廓提取過程如圖2所示。本文采用基于多任務級聯(lián)卷積神經網絡(Multi Task Cascaded Convolutional Networks,MTCNN)的檢測器[11],其特點是檢測準確率較高且運算復雜度較低。當視頻流輸入初始,首先對每幀圖像檢測面部區(qū)域。當檢測到圖像中存在人臉時,卷積約束局部模型(Convolutional Experts Constrained Local Model,CE-CLM)將檢測出圖像中人臉的坐標,該卷積約束使用點分布模型(Point Distribution Model,PDM)來捕捉坐標的形狀變化,并使用區(qū)域專家模型來模擬每個坐標的局部外觀變化,以得到圖像中人臉眼睛、眉毛、嘴唇、下顎線和鼻子等68個坐標位置,而后提取出與眼睛和眉毛相對應的坐標。利用此信息將眼睛圖像定義為一個輪廓邊界,具體定義為,將輪廓的上邊界和下邊界分別設置為相應的眉毛最上端坐標和眼睛最下端坐標;輪廓左邊和右邊的邊界分別設置為眼睛的最左和最右邊坐標。之所以這樣設置,是考慮到在閉眼時,上眼皮和下眼皮的坐標幾乎相同,如果只用眼睛的坐標來確定上界,那么提取的閉眼輪廓高度與睜眼輪廓高度相差較大,帶入卷積神經網絡后會造成特征提取不準確。同時由于PDM能夠捕捉足夠數量的變化坐標,使得檢測器對不同角度的人臉和眼睛定位均有較高檢測率,在實際測試中準確率達到98.7%左右,這也為后續(xù)人眼動作識別奠定了良好的基礎。

圖2 眼睛輪廓提取示意圖

1.2 二值化掩膜生成

在提取眼睛輪廓后,通過在其對應的眼睛標坐標集使用凸包算法生成二值化掩膜。凸包內區(qū)域像素值設定為1(白色),凸包外區(qū)域像素值設定為0(黑色)。計算掩膜是由于其特征圖簡單,只需關注眼睛的開放程度,即可以準確地區(qū)分閉眼和睜眼。睜眼輪廓的掩膜像大部分像素值為1,相反閉眼輪廓掩膜大部分像素值為0。掩膜中的白色前景(僅眼睛區(qū)域)和黑色背景(掩膜的其他部分)之間的高度對比將使得卷積神經網絡只關注眼睛的外部形狀和輪廓,從而學習睜眼/閉合的真實映射關系。二值化掩膜生成示意圖如圖3所示。

圖3 二值化掩膜生成示意圖

1.3 人眼狀態(tài)預測

在提取了眼睛輪廓及其相應的二值化掩膜后,把該信息輸入到一個雙卷積神經網絡,即:將眼睛輪廓(RGB彩色圖像)作為彩色人眼神經網絡的輸入,將同一眼睛輪廓的二值化掩膜作為掩膜人眼神經網絡的輸入。彩色人眼神經網絡旨在學習整個眼睛輪廓的全局特征,而掩膜人眼神經網絡則側重于學習局部特征,如眼睛輪廓的形狀、輪廓以及白色(眼區(qū))像素和黑色(非眼區(qū))像素的空間分布。鑒于其不同的結構,彩色人眼神經網絡和掩膜人眼神經網絡可以提取眼睛輪廓的不同特征。因此,本文將此兩個網絡并聯(lián)共同訓練用于眼睛狀態(tài)分類。

1)彩色人眼神經網絡。將大小為32×32的眼睛輪廓的彩色圖像作為輸入。本文對經典LeNet-5架構進行改進,使用了三個卷積層、三個最大池化層和兩個全連接層。同時在每個卷積層之后使用一個最大池化層減少特征圖的空間維度[12],最終可減少網絡中的參數總數,防止過度擬合。彩色人眼神經網絡結構如圖4(a)所示。

2)掩膜人眼神經網絡。將大小為32×32的二值掩膜作為輸入。該模型結構與彩色人眼神經網絡類似,只是在兩個全連接層中的神經元數量減少了一半。這樣做是為了減少過擬合,因為輸入的二進制遮罩圖像只有一個顏色通道,與相應的RGB眼罩相比,變化要小得多。因此,掩膜人眼神經網絡的模型復雜度需要比彩色人眼神經網絡低,以便在相同數量的數據上訓練時學習相同質量的辨別特征。對于進入神經元的來自上一層神經網絡的輸入向量,使用線性整流激活函數的神經元會輸出至下一層神經元或作為整個神經網絡的輸出。掩膜人眼神經網絡結構如圖4(b)所示。

圖4 神經網絡結構

3)雙卷積神經網絡。上述彩色人眼神經網絡和掩膜人眼神經網絡經過單獨訓練后,通過連接兩個神經網絡對應的頂部全連接層。在串聯(lián)層的基礎上增加一個全連接層和一個softmax函數,用于對閉眼和睜眼進行分類。訓練時,固定預先訓練好的彩色人眼神經網絡和掩膜人眼神經網絡的卷積層的權重值,并與聯(lián)合模型的連接層和全連接層一起重新訓練其頂層[13],同時定義綜合損失函數訓練兩個網絡模型[14]。整個雙卷積神經網絡的損失函數表示為

(1)

式中:Li和ψi分別是第i個模型的損失函數和調諧超參數權重。i=1代表彩色人眼神經網絡;i=2代表掩膜人眼神經網絡;i=3代表融合模型。參數ψ1、ψ2、ψ3根據經驗分別設置為1、1和0.5。每個損失函數Li是交叉熵損失,其定義為

(2)

其中,

(3)

(4)

(5)

從圖5中可以看到雙卷積神經網絡的三個softmax輸出在訓練時計算損失函數,而在預判時只使用集成模型的softmax輸出。使用學習率為0.001的Adam優(yōu)化器[15]對雙卷積神經網絡進行120次訓練。本文采用丟棄正則化技術[16],同時在每個卷積層之后使用一個最大池化層減少特征圖的空間維度[12],最終減少網絡中的參數總數,防止過度擬合。

圖5 雙卷積神經網絡模型架構

1.4 眨眼檢測

從輸入的視頻流中,檢測每一幀的人的眼睛是睜開還是閉上。當眼睛在閉上一定時間后再次睜開時,即定義檢測到了眨眼。人類平均眨眼時間范圍從100 ms~400 ms,對于一個30幀的相機,相當于3~12幀。因此,可以通過眼睛在再次睜開前保持閉合的幀數來判斷是否眨眼。如果眼睛閉上的幀數超出了這個范圍,即認定為無效眨眼。本文采用有限狀態(tài)機來模擬檢查真假眨眼。預先定義兩個參數,即眨眼下限 0.1 fps和眨眼上限 0.4 fps(fps為視頻攝像機的流媒體速率,單位是幀/s),這是有限狀態(tài)機檢測一個真正的眨眼所需的最小和最大的幀數。同時設置“閉合幀計數器”,用于計算眼睛閉合的幀數初始值為0。有限狀態(tài)機初始狀態(tài)為0,最終狀態(tài)是狀態(tài)3。當檢測到閉眼時,會出現(xiàn)以下狀態(tài),如圖6所示。

圖6 有限狀態(tài)機檢測眨眼過程

1)有限狀態(tài)機從狀態(tài)0過渡到狀態(tài)1。在這個狀態(tài)下,每一幀的閉眼幀計數器都會遞增1。如果閉合幀計數器超過眨眼幀數上限,則檢測到一個無效眨眼,該狀態(tài)被重置為狀態(tài)0。閉合幀計數器也被重置為0。

2)當檢測到睜眼時,有限狀態(tài)機從狀態(tài)1轉換到狀態(tài)2。如果閉合幀計數器小于較低的眨眼幀數,則檢測到無效眨眼,狀態(tài)被重置為狀態(tài)0。閉合幀計數器也被重置為0。

3)如果閉合幀計數器大于較低的眨眼幀數,有限狀態(tài)機從狀態(tài)2轉換到狀態(tài)3。檢測到一個真正的眨眼,狀態(tài)被重置為狀態(tài)0。閉合幀計數器也被重置為0。

2 實驗及結果分析

本文采用Blinks數據集來訓練、驗證和測試眼睛狀態(tài)分類模型。從Blinks數據集中抽取1 408個閉眼幀和1 369個睜眼幀,其中,70%的數據用來訓練,20%的數據用來驗證,10%的數據用來測試模型。在眨眼檢測中,本文采用ZJU[17]、Eyeblinks8[18]和Talking Face[19-20]數據集進行檢測,精度和召回率兩個指標作為評估指標,得到比較結果。這三個數據集各有特點:1)ZJU 數據集由20個人的80個視頻組成,每個人都有正面視圖、向上視圖、戴眼鏡和不戴眼鏡4個片段,分辨率為320×240(30幀),無面部表情,無頭部運動。2)Eyeblink8數據集包含了面部表情、頭部運動和低頭看鍵盤,分辨率為640×480,平均長度5 000~11 000幀,由70 992個視頻幀上的408個眨眼組成。3)Talking Face數據集采用顯式與隱式屬性的協(xié)同學習方法,形成具有個性化的頭部運動軌跡,考慮到不同個體的運動特點,可以預測其眨眼信息,同時也可以生成更加逼真包含眨眼信息的人臉視頻。

表1 雙卷積神經網絡的眼位預測指標 %

2.1 眼部狀態(tài)分類實驗結果

本文采用標準指標,如準確率、精確度、召回率、F1得分、第一類錯誤率、第二類錯誤率和等效錯誤率(EER)來評估提出的雙卷積神經網絡模型。圖7和為雙卷積神經網絡模型的訓練、驗證精度和損失曲線。圖8~圖11所示的是精度-召回率和ROC曲線。表1列出在測試數據集上以眼睛為輸入的雙卷積神經網絡的所有指標值,表2列出以整個面部圖像為輸入的相同指標。

圖7 雙卷積神經網絡模型的訓練和驗證準確性與歷時的關系

圖8 眼睛層圖精度-召回率曲線

圖9 人臉層精度-召回率曲線

圖10 眼睛層ROC曲線

圖11 人臉層ROC曲線

表2 雙卷積神經網絡的臉部水平預測指標 %

本文提出的雙卷積神經網絡與單個彩色人眼神經網絡和掩膜人眼神經網絡比較結果,以及本文算法與基于分割的模糊邏輯算法[21]、深度殘差CNN算法[22]、HOG-SVM算法[23]比較結果如表3所示??梢钥闯?,本文提出的雙卷積神經網絡模型在準確度和等錯誤概率方面優(yōu)于其他基線模型,包括單個彩色人眼神經網絡和掩膜人眼神經網絡。

表3 普通圖像算法比較測試結果 %

為進一步驗證雙卷積神經網絡對于不同環(huán)境圖像的效果,本文又采用開放的近紅外眼睛圖像數據集[23]上對其進行了測試,并與傳統(tǒng)算法比較,結果如表4所示??梢钥闯觯梢噪p卷積神經網絡等效錯誤率為1.18%,在近紅外數據集上優(yōu)于其他模型。

表4 近紅外圖像算法比較測試結果 %

2.2 眨眼檢測實驗結果

通過比較標準測試集ZJU、Eyeblink8和Talking face上檢測到的眨眼與真實眨眼比較眨眼檢測算法,評估指標為精度和召回率,實驗結果如表5所示??梢钥闯觯疚奶岢龅恼Q蹤z測方法在精度和召回率方面優(yōu)于其他現(xiàn)有方法。

表5 算法比較測試結果 %

3 結 語

針對動態(tài)人群人眼狀態(tài)及定位問題,本文提出了一種基于并聯(lián)架構的雙卷積神經網絡模型。實驗表明,本文提出的算法模型復雜度低、運算量小,對自然環(huán)境中光線、角度變化具有更好的魯棒性。其次,通過有限狀態(tài)機在人眼眨眼檢測的準確度方面要優(yōu)于傳統(tǒng)的haar加adaboost級聯(lián)分類器。本文算法在實際中實現(xiàn)了27 幀/s的平均處理率,適用于對實時性要求較高的動態(tài)人眼目標檢測場合。

猜你喜歡
掩膜人眼輪廓
利用掩膜和單應矩陣提高LK光流追蹤效果
田志強
基于Mask R-CNN的回環(huán)檢測算法
清溢光電:掩膜版產業(yè)國產化的領軍者
跟蹤導練(三)
國內首條G11光掩膜版項目在成都高新區(qū)啟動
閃瞎人眼的,還有唇
看人,星光璀璨繚人眼
人眼的視力為何達不到3.0?
兒童筒筆畫
南涧| 安福县| 沂南县| 定边县| 宁强县| 桐梓县| 三台县| 红安县| 齐齐哈尔市| 鹰潭市| 太保市| 漠河县| 绥宁县| 宁武县| 稻城县| 屏边| 密云县| 龙口市| 仁怀市| 盈江县| 林周县| 梁山县| 江山市| 泌阳县| 福泉市| 邻水| 宜黄县| 宁安市| 高尔夫| 美姑县| 湖口县| 哈巴河县| 潮州市| 阿巴嘎旗| 砚山县| 扎兰屯市| 开远市| 天镇县| 英超| 英吉沙县| 包头市|