■ 文/劉子龍 周志鵬 萬森 許瑞
1.安徽科大擎天科技有限公司 2.安徽省公安廳科技信息化處
關鍵字:人臉口罩佩戴識別技術(shù) 智慧社區(qū) 疫情防控
社區(qū)通過傳統(tǒng)的視頻監(jiān)控手段可以實現(xiàn)社區(qū)進出人員的身份識別,滿足社區(qū)通行管理和安全監(jiān)控需求。疫情防控期間,佩戴口罩是疫情防控的最佳手段,也是人員出行的基本要求。但在佩戴口罩的情況下,人臉識別系統(tǒng)如何做到戴口罩刷臉通行,避免接觸感染,成為疫情防控和治安防控要求下的新難題。
傳統(tǒng)的口罩識別技術(shù)采用MTCNN(多任務級聯(lián)卷積神經(jīng)網(wǎng)絡)或SSD(單發(fā)多邊框檢測器)網(wǎng)絡作為口罩佩戴識別的網(wǎng)絡模型,在識別準確率和識別速度等方面不盡如人意,給社區(qū)疫情防控工作帶來不便,進而帶來疫情傳播風險。因此,為解決傳統(tǒng)識別方法中識別率和準確率低等問題,我們對傳統(tǒng)SSD架構(gòu)進行了改進,增加對戴口罩人臉的檢測,實現(xiàn)自動準確且快速地識別人臉或視頻中的人物是否佩戴口罩,有效預防感染、防控疫情。
對于口罩識別功能,目前大多采用神經(jīng)網(wǎng)絡進行識別,很多安防監(jiān)控系統(tǒng)通過系統(tǒng)升級來實現(xiàn)口罩識別。例如,采用MTCNN(多任務級聯(lián)卷積神經(jīng)網(wǎng)絡)作為口罩佩戴識別的網(wǎng)絡模型,在光譜圖像上標記ROI(感興趣區(qū)域)的目標區(qū)域,獲取坐標和類別信息,訓練SVM(支持向量機)分類器,進而針對是否佩戴口罩進行分類判斷。該方法的缺點在于光譜成像儀成本高,且識別流程冗余,速度慢。
傳統(tǒng)的SSD(單發(fā)多邊框檢測器)網(wǎng)絡同樣可以作為口罩佩戴識別的網(wǎng)絡模型。采用視頻監(jiān)控圖像作為檢測輸入,降低了采樣端設備安裝和使用成本,但采用SSD方案仍然存在模型的魯棒性差、識別準確率低等缺點。同時,該方法對硬件處理性能要求較高,網(wǎng)絡模型的識別速率相對較慢,導致系統(tǒng)實時性不足。除此之外,檢測目標對象用衣物或手臂捂住口鼻、天氣及環(huán)境因素等很多非系統(tǒng)原因也會導致識別系統(tǒng)的識別準確率降低。
本文設計了一種人臉口罩佩戴識別方法、系統(tǒng)及終端?;诟倪M后的SSD網(wǎng)絡模型設計,解決了傳統(tǒng)識別方法誤檢率高和識別速率低、實時性差、易受環(huán)境等因素干擾等缺點。該識別方法包括以下過程。
對社區(qū)真實的歷史監(jiān)控視頻數(shù)據(jù)分幀處理,選擇其中包含人臉的圖像,并人工將其分類標記為佩戴口罩和未佩戴口罩兩類圖像,從而獲得包含兩類圖像的原始數(shù)據(jù)集。其中,原始數(shù)據(jù)集中佩戴口罩和未佩戴口罩的人臉圖像數(shù)量比為3:1。
采用數(shù)據(jù)集增強方法對原始數(shù)據(jù)集進行預處理,將處理后的圖像增加到原始數(shù)據(jù)集中,獲得擴增后的訓練數(shù)據(jù)集。數(shù)據(jù)集增強方式包括:角度旋轉(zhuǎn)、隨機裁剪、亮度調(diào)整、對比度調(diào)整。
角度旋轉(zhuǎn)指對原始圖像進行任意角度旋轉(zhuǎn)的變化,該過程中人物圖像主體的位置被改變,契合了真實場景下取景角度的差異。
隨機裁剪是對原始圖像進行裁剪,在該變換情況下,人物主體在圖像中的大小比例發(fā)生改變,契合了真實場景下人物主體位置變化帶來的前景和后景的景深變化。
亮度調(diào)整是對圖像的亮度進行調(diào)整,對比度調(diào)整是改變圖像的對比度。在這兩種調(diào)整情況下,圖像質(zhì)量被改變,契合了真實場景下因為光纖、空氣質(zhì)量等環(huán)境因素造成取像質(zhì)量不一的情況。
可見,數(shù)據(jù)集增強處理的應用,有效解決了常規(guī)取景狀態(tài)下可能存在的各種影響成像質(zhì)量的問題,也滿足了神經(jīng)網(wǎng)絡在訓練過程中準確識別圖像中人物對口部進行遮擋和欺騙行為等深層語義特征的識別要求,保障了神經(jīng)網(wǎng)絡最終識別準確率。同時對于克服小樣本缺陷,改善神經(jīng)網(wǎng)絡的魯棒性,并最終達到工業(yè)化應用的標準也具有重要意義。
將單發(fā)多邊框檢測器基礎網(wǎng)絡模型中的主干網(wǎng)絡替換為具有殘差結(jié)構(gòu)的DenseNet網(wǎng)絡,并在神經(jīng)網(wǎng)絡模型中引入具有特征融合的特征金字塔模塊,進而構(gòu)建改進后的基于單發(fā)多邊框檢測器的神經(jīng)網(wǎng)絡模型。其中,改進后的神經(jīng)網(wǎng)絡模型對輸入數(shù)據(jù)集的識別處理過程包括如下步驟:
1)對輸入圖片進行預處理,將圖片尺寸統(tǒng)一調(diào)整為300×300,所述圖片作為網(wǎng)絡模型的輸入神經(jīng)元;
2)輸入圖片經(jīng)過網(wǎng)絡模型中的多個卷積層后,進入到DenseNet網(wǎng)絡;DenseNet網(wǎng)絡在前面層和后面層之間建立短路連接,增強訓練過程中梯度的反向傳播,獲取準確參數(shù),得到第一個特征圖;
3)圖片繼續(xù)在卷積層中進行前向傳播和后向參數(shù)調(diào)整傳播,并在經(jīng)過若干卷積層后依次獲得第二、三、四、五、六個特征圖;
4)利用神經(jīng)網(wǎng)絡模型產(chǎn)生的第一、第二和第三特征圖搭建特征金字塔結(jié)構(gòu),通過神經(jīng)網(wǎng)絡模型中的特征金字塔模塊對特征圖進行特征信息融合;
5)設置神經(jīng)網(wǎng)絡模型損失函數(shù),然后對六個特征圖進行目標分類和位置定位,獲得特征圖的目標檢測框;
6)通過非極大值抑制方法找到最佳目標檢測框,消除冗余的目標檢測框,進而針對獲取最佳目標檢測框,得到檢測目標是否佩戴口罩的識別結(jié)果。
傳統(tǒng)SSD網(wǎng)絡模型的網(wǎng)絡架構(gòu)如圖1所示。
圖1 傳統(tǒng)SSD網(wǎng)絡模型的網(wǎng)絡架構(gòu)
在該網(wǎng)絡模型中,樣本圖像從左邊第一個模塊輸入,輸入圖像經(jīng)過預處理后,圖片規(guī)格統(tǒng)一調(diào)整為300×300,然后數(shù)據(jù)會經(jīng)過第二部分的主干網(wǎng)絡,傳統(tǒng)SSD網(wǎng)絡的主干網(wǎng)絡為VGG-16網(wǎng)絡,主干網(wǎng)絡中最后兩個全連接層為卷積層,隨后為增加的4個卷積層,依次為:conv8_2、conv9_2、conv10_2、conv11_2,在該網(wǎng)絡模型中,圖像信息最終經(jīng)過神經(jīng)網(wǎng)絡中的卷積操作達到conv5_3層,將該層卷積后的圖像作為第一個特征圖。
經(jīng)過conv5_3層后,圖像繼續(xù)在卷積層中前向傳播和后向參數(shù)調(diào)整傳播,經(jīng)過卷積操作,在conv7即第七全連接層中調(diào)整通道數(shù),圖像在該層卷積后的輸出作為第二個特征圖。
在接下來的各卷積層中,四層網(wǎng)絡每層都會產(chǎn)生一個特征圖。因此,在卷積層結(jié)束后一共會產(chǎn)生六個特征圖,分別是conv5_3、conv7(FC7)、conv8_2、conv9_2、conv10_2、conv11_2。這六個特征圖都要經(jīng)過目標分類和位置定位,不同的是這四個特征圖尺度大小不一樣,所能識別的物體體積不一樣,通常低層次的特征圖對小目標的識別更為準確。
隨著特征圖層次的提高,其所能識別的目標體積也逐漸增大。上述六個特征圖會產(chǎn)生數(shù)量龐大的目標檢測框。最終SSD網(wǎng)絡會將這些框進行非極大值抑制(NMS),篩選出一定區(qū)域內(nèi)屬于同一種類得分最大的框,將識別結(jié)果框出并顯示。
該項技術(shù)中,將傳統(tǒng)的VGG-16主干網(wǎng)絡改成了DenseNet網(wǎng)絡,可以使目標檢測的神經(jīng)網(wǎng)絡層數(shù)變得更深,避免傳統(tǒng)識別網(wǎng)絡模型中出現(xiàn)的梯度爆炸和計算量變大的問題,同時可以提高識別率。DenseNet網(wǎng)絡的網(wǎng)絡結(jié)構(gòu)如圖2所示。
圖2 DenseNet網(wǎng)絡的網(wǎng)絡結(jié)構(gòu)
在DenseNet網(wǎng)絡中,最左邊為輸入圖像,原始圖像輸入被等比縮放至300×300的尺寸,作為神經(jīng)網(wǎng)絡的輸入神經(jīng)元。經(jīng)過若干卷積層后,圖片會進入DenseNet網(wǎng)絡,DenseNet網(wǎng)絡是在前面層和后面層之間建立短路連接,增強訓練過程中梯度的反向傳播,更快更準確地獲取參數(shù)。在DenseNet網(wǎng)絡中,x0是網(wǎng)絡的初始輸入;H1的輸入是x0,輸出是x1;而H2的輸入是x0和x1,輸出是x2,以此類推。在這種網(wǎng)絡構(gòu)架中,網(wǎng)絡更窄、參數(shù)更少,每個卷積層輸出特征圖的數(shù)量都很小,而且特征和梯度的傳遞更加有效,網(wǎng)絡更加容易訓練。
在經(jīng)過主干網(wǎng)絡DenseNet后,數(shù)據(jù)網(wǎng)絡模型可以獲取第一個特征圖;再經(jīng)過若干卷積層,獲取第二個特征圖,第二個特征圖在conv7層中產(chǎn)生;圖像繼續(xù)在卷積層中進行前向傳播和后向參數(shù)調(diào)整傳播;接下來的四層卷積層,分別為conv8_2、conv9_2、conv10_2、conv11_2,上述四層卷積層都會產(chǎn)生一個特征圖,在卷積層結(jié)束后一共會產(chǎn)生六個特征圖。
該技術(shù)的神經(jīng)網(wǎng)絡模型,在對圖像的特征提取過程中引入了特征金字塔結(jié)構(gòu),對不同尺度的特征圖進行特征融合,檢測對應尺度的目標。SSD網(wǎng)絡模型在訓練過程中會產(chǎn)生六個不同尺度的特征圖,該項技術(shù)將前三個特征圖構(gòu)建特征金字塔結(jié)構(gòu),目的是加強目標特征提取,以獲取更完整的特征信息,提高目標檢測的最終識別率。特征金字塔模型的架構(gòu)如圖3所示。
圖3 特征金字塔模型的架構(gòu)
特征金字塔模型中特征信息的融合過程如下:
原始的輸入特征圖沿特征金字塔模型左側(cè)最低層輸入,并自下向上獲得尺寸依次減小的第一、第二和第三特征圖;特征金字塔模型右側(cè)進行自上向下的特征融合,其中最上方第四特征圖的輸入是由左側(cè)第三特征圖進行卷積得到的,下一層級的第五特征圖輸入是由左側(cè)第二特征圖進行卷積得到的,最后一個層級的第六特征圖輸入是由左側(cè)第一特征圖進行卷積得到的。特征金字塔模型中,同一層級的左右特征圖進行信息疊加從而實現(xiàn)特征圖的特征信息融合。
在該項技術(shù)的神經(jīng)網(wǎng)絡模型中,產(chǎn)生的六個特征圖都會進行目標分類和位置定位,因此,還需要定義識別定位過程中的損失函數(shù)。
上式中,X為當前預測框的類別匹配信息,c為類別置信度預測值,l表示預測框坐標,g表示真實框坐標,N表示與該類別的校準框匹配成功的默認框數(shù)量,a為拉格朗日乘子,來平衡置信度誤差和位置誤差。
其中,置信誤差函數(shù)的表達式如下:
考慮到神經(jīng)網(wǎng)絡模型在識別檢測過程中產(chǎn)生候選框的數(shù)量過于龐大,該技術(shù)采用NMS(非極大值抑制)方法進行候選框擇優(yōu)。
非極大值抑制方法的對目標檢測框的處理過程如下:
1)依靠神經(jīng)網(wǎng)絡模型中的分類器獲取多個候選框及候選框中屬于類別的概率值;
2)對分類器得到的所有候選框進行得分排序,選中最高分及其對應的候選框;
3)遍歷其余的候選框,比較當前最高分候選框的重疊面積IOU與設定閾值的關系,并作出如下判斷:
a)當最高分候選框的重疊面積小于閾值時,則保留當前候選框;
b)當最高分候選框的重疊面積大于或等于閾值時,則將當前候選框刪除。
4)重復步驟3),依次處理所有候選框,完成對候選框非極大值抑制處理過程,獲得最佳目標檢測框。
需要對構(gòu)建的神經(jīng)網(wǎng)絡模型進行訓練,以提高其對于目標檢測對象的識別準確率。該階段,需要根據(jù)具體的訓練指標要求設定訓練階段的相關參數(shù),這些參數(shù)包括學習率、迭代次數(shù)和衰減策略等。該項技術(shù)中,利用經(jīng)過數(shù)據(jù)集增強方法擴增后的訓練數(shù)據(jù)集作為樣本輸入,對基于SSD網(wǎng)絡改進的神經(jīng)網(wǎng)絡模型進行迭代訓練,訓練完成后保存經(jīng)訓練過的具有最優(yōu)識別效率的神經(jīng)網(wǎng)絡模型。
神經(jīng)網(wǎng)絡模型在進行目標對象是否佩戴口罩的識別檢查過程中,輸入樣本數(shù)據(jù)是從視頻監(jiān)控中獲取的圖像。該項技術(shù)中,通過分幀方法將實時獲取的監(jiān)控視頻轉(zhuǎn)化為逐幀圖像,并識別出其中含有人臉的目標圖像。
通常,一段視頻經(jīng)分幀后產(chǎn)生的圖像很多,在實際識別檢測過程中無需對所有圖像進行輸入識別,否則會導致系統(tǒng)處理難度和數(shù)據(jù)量激增。因此,可以通過擇優(yōu)方式選擇其中的若干張作為輸入圖像進行檢測。通常,選擇標準是人物主體在圖像的中央?yún)^(qū)域且圖像質(zhì)量較佳,圖像質(zhì)量的判斷指標包括亮度、對比度和圖像噪點等。在針對逐幀圖像選取最佳圖像之后,還需要通過對目標圖像進行亮度調(diào)整和清晰度提升完成圖像預處理。其中,通常需要將圖像的亮度提升至可清晰辨認人物主體的程度,而清晰度調(diào)整可通過圖像去噪等技術(shù)實現(xiàn),最后再將預處理后的圖像作為目標檢測圖像輸入。
將實時監(jiān)控過程中提取并預處理后的目標檢測圖像作為輸入,訓練完成后的神經(jīng)網(wǎng)絡模型對其進行識別和檢測,獲取檢測目標對象是否佩戴口罩的識別結(jié)果。該處理結(jié)果可以通過語音或視頻圖像方式直接輸出,也可以傳輸?shù)狡渌δ芟到y(tǒng)中,作為后續(xù)管理執(zhí)行過程的依據(jù)。
人臉口罩佩戴識別技術(shù)通過對傳統(tǒng)SSD模型進行改進,將具有殘差結(jié)構(gòu)的DenseNet網(wǎng)絡和具有特征融合的特征金字塔(FNP)模塊引入到網(wǎng)絡模型中,提高了網(wǎng)絡模型的深度和對融合特征的提取性能,進而提升網(wǎng)絡模型識別精度和處理速度。在社區(qū)疫情防控中,進出人員在正確佩戴口罩的場景下,可以實現(xiàn)無接觸式的精準快速身份識別。
為檢測該項技術(shù)方法的優(yōu)越性,本文進行了MTCNN、SSD與改進后的SSD網(wǎng)絡模型性能對比實驗。測試應用數(shù)據(jù)包含10個隨機小區(qū),10萬條人臉數(shù)據(jù)。性能評價指標包括用于評估識別準確率的mAP(均值平均精度)和用于評估檢測速率的FPS(每秒幀率)。具體參見表1。
表1 對比實驗中各類目標檢測方法的性能測試結(jié)果
從對比結(jié)果來看,改進后的SSD網(wǎng)絡模型,相比于MTCNN模型,檢測精度提升了9.09%,檢測速度提高了8.1 FPS,效果比較明顯;相比于傳統(tǒng)SSD模型,檢測精度提高了7.27%,檢測速度提高了5.7 FPS。因此可以判定,改進后的SSD網(wǎng)絡模型顯著提高了人臉口罩佩戴識別的準確率和檢測速率,性能上有了明顯提升。
社區(qū)疫情精準防控是一項復雜任務,因此,將改進后的人臉口罩佩戴識別技術(shù)運用到社區(qū)疫情精準防控系統(tǒng)中,可有效提升社區(qū)疫情防控智能化水平。系統(tǒng)主要包括實時測溫單元、臉部跟蹤單元、信息掃描單元、閘機控制單元。具體如圖4所示。
圖4 社區(qū)疫情精準防控系統(tǒng)架構(gòu)圖
實時測溫單元包括非接觸式紅外體溫測量儀,采用紅外掃描的方式檢測體溫。
臉部跟蹤單元,包括改進后的人臉口罩佩戴識別模塊和人臉精準識別模塊(包含佩戴口罩場景)??谡肿R別模塊識別是否佩戴口罩。人臉精準識別模塊,通過采集人臉圖片(包含佩戴口罩場景)并提取人臉特征值,從而與信息掃描單元掃描的身份證信息上的人臉進行特征值比對,實現(xiàn)人員精準識別。
信息掃描單元包括身份信息掃描模塊、身份信息輸入模塊和健康碼信息掃描模塊。身份信息掃描模塊用以掃描身份證信息,包括身份證號、姓名、住址及人臉圖片等等。身份信息輸入模塊是針對未攜帶身份證者提供一個手動輸入身份信息的界面。健康碼信息掃描模塊用以掃描并記錄健康碼,以及解讀其代表含義。
閘機控制單元包括信號接受模塊、閘機控制機和警報控制機。信號接受模塊用于接收是否放行以及是否發(fā)出警報指令,當收到放行指令時,閘機控制機打開閘門放行,當收到發(fā)出警報指令時,警報控制機發(fā)出報警警示音。
我們選取5個社區(qū),對每個社區(qū)全天出入人員進行疫情防控識別(5個社區(qū)數(shù)據(jù)量分別為10000人次、12000人次、13000人次、16000人次、20000人次),判別是否體溫正常、佩戴口罩等。測試結(jié)果如圖5所示。
圖5 改進前與改進后的社區(qū)疫情防控系統(tǒng)準確率測試
社區(qū)是疫情防控的第一道防線,在社區(qū)疫情防控中,做好人臉識別檢測、體溫測量與人員管控,是有效防控疫情和進行社區(qū)管理的重要舉措。基于改進后人臉口罩佩戴識別技術(shù)的社區(qū)疫情精準防控系統(tǒng),有效解決傳統(tǒng)網(wǎng)絡模型下人臉識別圖像識別難度大、準確率低、速度慢等難題,結(jié)合實時測溫與身份采集,促進了疫情防控的智能化發(fā)展。同時,在社區(qū)人流量大、人員流動性強的情況下,口罩佩戴識別做到高效、快速通行,真正實現(xiàn)“無接觸”服務,大大提升了疫情防控形勢下社區(qū)管理的智能化水平,保障了社區(qū)安全。