姚礪 周同輝 馬睿 萬燕
摘 要: 校園安全接送作為一個(gè)嚴(yán)肅的社會(huì)問題,需要及時(shí)發(fā)現(xiàn)不明身份人員混入校園等隱患,而市場上大多數(shù)的校園人臉識(shí)別系統(tǒng),基本上都需要專用的硬件設(shè)備,且只支持單人逐個(gè)檢測,這無疑提高了推廣的成本。針對(duì)以上問題,本文提出了使用普通攝像頭的支持多人的人臉識(shí)別系統(tǒng)。首先采用YOLOv3算法訓(xùn)練人臉數(shù)據(jù)集,利用K-Means++算法改進(jìn)先驗(yàn)框中心位置的預(yù)測,提高邊界框的準(zhǔn)確性,得到人臉檢測器,對(duì)視頻中的行人進(jìn)行人臉檢測;之后利用本文的人臉圖像質(zhì)量評(píng)價(jià)FIQUE算法對(duì)人臉進(jìn)行篩選,增加高質(zhì)量的人臉圖像占比;最后使用Inception-ResNet-v1模型提取人臉特征,進(jìn)行識(shí)別。本文方法利用學(xué)?,F(xiàn)有的攝像頭設(shè)備,提高了系統(tǒng)的普及率。實(shí)驗(yàn)證明了本文多人識(shí)別系統(tǒng)的實(shí)時(shí)性和魯棒性良好。
關(guān)鍵詞: YOLOv3; K-Means++; 人臉檢測; 人臉圖像質(zhì)量評(píng)價(jià)算法; Inception-ResNet-v1; 人臉識(shí)別
文章編號(hào): 2095-2163(2021)07-0001-06中圖分類號(hào):TP391.41文獻(xiàn)標(biāo)志碼: A
Face recognition research on campus security transportation system based on video
YAO Li, ZHOU Tonghui, MA Rui, WAN Yan
(School of Computer Science and Technology,? Donghua University, Shanghai 201620, China)
【Abstract】As a serious social problem, campus safe transportation needs to be discovered in time for hidden dangers such as unidentified people entering the campus. Most of the campus face recognition systems on the market basically require dedicated hardware equipment, and only support single-person detection. This undoubtedly increases the cost of promotion. In response to the above problems, this paper proposes a face recognition system that supports multiple people using ordinary cameras. First, use the YOLOv3 algorithm to train the face data set, use the K-Means++ algorithm to improve the prediction of the center position of the prior box, improve the accuracy of the bounding box, and obtain a face detector to detect the faces of pedestrians in the video; then use the? FIQUE algorithm for facial image quality evaluation to filter faces and increase the proportion of high-quality face images; finally, use the Inception-ResNet-v1 model to extract facial features for recognition. The method in this paper uses the existing camera equipment of the school to increase the penetration rate of the system. The experiment proves that the multi-person recognition system in this paper has good real-time and robustness.
【Key words】YOLOv3; K-Means++; face detection; face image quality evaluation algorithm; Inception-ResNet-v1; face recognition
0 引 言
一直以來,校園安全都是一個(gè)吸引各界關(guān)注的社會(huì)熱點(diǎn)問題,而中小學(xué)上下學(xué)的接送問題就是校園安全中的重要一環(huán),并與每位師生、家長都有著密切的關(guān)系。2017年12月,“校園安全”入選2017年民生熱詞榜[1]。為此,國務(wù)院教育委緊急下發(fā)通知,要求各地學(xué)校和相關(guān)部門加強(qiáng)校園安全管理。同時(shí),公安部也提出準(zhǔn)確把握校園安全管理的規(guī)律性,建立防控體系,構(gòu)建長效機(jī)制,積極推進(jìn)平安校園建設(shè)[2]。
為方便學(xué)生家長和學(xué)校教師及時(shí)掌握學(xué)生的出校情況,本文開發(fā)一套基于視頻的人臉識(shí)別校園安全接送系統(tǒng),能夠準(zhǔn)確進(jìn)行校園接送人員身份識(shí)別。相較于傳統(tǒng)的核驗(yàn)技術(shù),本文的人臉識(shí)別技術(shù)[3]能夠在無需接觸出行者的前提下使用普通攝像頭逐幀拍攝人臉照片,結(jié)合人臉識(shí)別算法,通過人臉數(shù)據(jù)庫進(jìn)行身份比對(duì),從而對(duì)進(jìn)出校門的人員進(jìn)行精準(zhǔn)識(shí)別。
本文是在經(jīng)典的YOLOv3[4]目標(biāo)檢測算法的基礎(chǔ)上,結(jié)合深度神經(jīng)網(wǎng)絡(luò)DNN[5]模塊,針對(duì)原始YOLOv3的K-Means[6]算法對(duì)初始聚類中心的選擇不同所產(chǎn)生的聚類結(jié)果偏差大的不足,本文采用K-Means++[7]聚類算法改進(jìn)先驗(yàn)框中心位置的預(yù)測,利用改進(jìn)之后的算法訓(xùn)練人臉檢測模型。為了提高人臉識(shí)別的準(zhǔn)確率,本文主要采用了下列技術(shù):人臉檢測定位后,利用圖像質(zhì)量評(píng)價(jià)FIQUE算法,計(jì)算人臉圖像質(zhì)量的評(píng)估數(shù)值,挑選質(zhì)量好的人臉照片送入預(yù)訓(xùn)練的inception-resnet-v1模型進(jìn)行特征提取,該模型是將Inception[8]和ResNet[9]兩者融合。該方法縮短了人臉識(shí)別核驗(yàn)的平均耗時(shí),同時(shí)提升了人臉識(shí)別的感受成功率,人臉識(shí)別準(zhǔn)確率超過97%。
1 基于視頻的人臉識(shí)別方法
基于視頻的人臉識(shí)別技術(shù)應(yīng)用于校園安全接送,存在的主要問題是視頻幀中出現(xiàn)的人臉對(duì)象較多,而且受到外界天氣、光線以及移動(dòng)中的行人臉部姿態(tài)變化等影響,這都會(huì)給人臉識(shí)別帶來挑戰(zhàn)。
本文的研究突破傳統(tǒng)的基于專用硬件設(shè)備的人臉識(shí)別方法,采用普通攝像頭拍攝的圖像質(zhì)量往往不如專用的設(shè)備,因此本文基于視頻的技術(shù)對(duì)人臉檢測的要求較高。圖1為本文人臉識(shí)別的流程。
為了提高低質(zhì)量的人臉圖像識(shí)別的準(zhǔn)確性,本文研究了基于YOLOv3人臉檢測聚類先驗(yàn)框的預(yù)測方法,提出使用K-Means++算法替換原始的K-Means進(jìn)行改進(jìn),很好地解決了初始聚類中心選擇的敏感性問題。K-Means++算法的基本思想是使初始聚類點(diǎn)中心之間的距離盡可能遠(yuǎn),并在每一個(gè)維度的輸出都是使用3個(gè)先驗(yàn)框進(jìn)行預(yù)測,因此總共得到9種尺度的先驗(yàn)框。同時(shí),基于視頻的人臉檢測,屬于運(yùn)動(dòng)物體的檢測,存在的問題是對(duì)于每一幀獲得的一個(gè)或多個(gè)人臉,無法預(yù)知其人臉姿勢、人臉質(zhì)量,因此本文基于OpenCV模塊提出了人臉圖像質(zhì)量評(píng)估算法:利用支持向量和LIBSVM[10-11]預(yù)測質(zhì)量得分,從多幀圖像中選取符合門限閾值的人臉圖像,提升了檢測效率和人臉識(shí)別的魯棒性。
基于上述研究的技術(shù)路線,本文提出了一套低成本的易于中小學(xué)校園推廣的基于視頻的較高準(zhǔn)確率的人臉識(shí)別系統(tǒng),該系統(tǒng)不需要專門的人臉識(shí)別硬件設(shè)備,可減輕學(xué)校的經(jīng)濟(jì)壓力。
2 基于視頻的人臉識(shí)別關(guān)鍵技術(shù)
2.1 人臉檢測算法
如何判斷一幅圖像或者一幀視頻中存在人臉?首次成功地將深度學(xué)習(xí)應(yīng)用到目標(biāo)檢測領(lǐng)域的算法是R-CNN算法[12],其結(jié)構(gòu)有2級(jí)網(wǎng)絡(luò):首先通過外部區(qū)域選擇性搜索算法提出可能包含對(duì)象的候選邊界框,然后將這些區(qū)域傳遞到CNN[13]進(jìn)行分類。Fast R-CNN[14]算法對(duì)原始R-CNN進(jìn)行了相當(dāng)大的改進(jìn),但該模型仍然依賴于外部區(qū)域搜索算法。上述算法屬于two-stage檢測算法,這類算法需要先產(chǎn)生候選區(qū)域,再對(duì)ROI(region of interest)做分類和位置預(yù)測。
由于校園接送系統(tǒng)對(duì)人臉檢測的檢測速度要求較高,本文采用的是基于YOLOv3的one-stage目標(biāo)檢測方法,用來檢測視頻幀中出現(xiàn)的人臉。
YOLOv3只需要一個(gè)網(wǎng)絡(luò)就可同時(shí)產(chǎn)生ROI并預(yù)測出物體的類別和位置坐標(biāo),是目前比較流行的端到端的目標(biāo)檢測算法。其基本思想是:首先對(duì)輸入的圖像進(jìn)行卷積和一系列殘差操作提取特征網(wǎng)絡(luò),產(chǎn)生3個(gè)尺寸像素為shape*shape的特征層的輸出,將其放入YOLOv3進(jìn)行解碼,接著對(duì)提取的3個(gè)特征層分別進(jìn)行處理,輸入圖像分成shape*shape個(gè)網(wǎng)格單元,每個(gè)網(wǎng)格單元負(fù)責(zé)預(yù)測其右下角區(qū)域的物體,若物體的中心點(diǎn)落在這個(gè)區(qū)域,這個(gè)物體的位置就由該網(wǎng)格點(diǎn)來確定,同時(shí)每個(gè)網(wǎng)格單元預(yù)測生成3個(gè)先驗(yàn)框,通過非極大值抑制算法排除冗余的候選框。由于YOLOv3中的K-Means聚類對(duì)初始聚類點(diǎn)的選擇存在缺陷,通過隨機(jī)選擇K個(gè)點(diǎn)作為聚類中心,就導(dǎo)致假如初始點(diǎn)的位置選擇不當(dāng),則最終的聚類結(jié)果會(huì)很糟糕或者需要進(jìn)行多次隨機(jī)初始化聚類中心才能得到良好的聚類結(jié)果。而K-Means++算法對(duì)聚類中心的選擇遵循距離聚類中心越遠(yuǎn)的點(diǎn)有更高的概率被選為下一個(gè)聚類中心的原則,因此K-Means++算法能顯著地減小分類結(jié)果的誤差,對(duì)聚類中心的選取更加有效。
本文使用K-Means++算法替換原始的K-Means,對(duì)先驗(yàn)框聚類中心的位置選取進(jìn)行改進(jìn),逐個(gè)中心點(diǎn)輸入進(jìn)行計(jì)算,大大降低了初始聚類點(diǎn)選取的影響。YOLOv3網(wǎng)絡(luò)架構(gòu)如圖2所示。圖2中,YOLOv3主干網(wǎng)絡(luò)采用了ResNet思想的Darknet-53網(wǎng)絡(luò)結(jié)構(gòu),包含了52個(gè)卷積層和一個(gè)全連接層,借鑒了FPN[15]架構(gòu),采用多個(gè)不同尺度的特征圖來進(jìn)行對(duì)象檢測。從主干網(wǎng)絡(luò)獲得相對(duì)輸入圖像的8倍、16倍以及32倍下采樣的特征圖,進(jìn)行3個(gè)尺度的預(yù)測。在第79層特征圖做上采樣與第61層特征圖融合,經(jīng)過幾個(gè)卷積層后得到16倍下采樣特征圖,適合檢測中等尺度的對(duì)象。第91層特征圖再次上采樣與第36層特征圖融合,得到8倍下采樣的特征圖,適合檢測小尺寸的對(duì)象,同時(shí)改用sigmoid和交叉熵函數(shù)對(duì)softmax損失函數(shù)進(jìn)行改進(jìn),能夠支持多標(biāo)簽對(duì)象的預(yù)測。
由于本文的檢測目標(biāo)是人臉,因此選用香港中文大學(xué)發(fā)起的WIDER FACE人臉檢測基準(zhǔn)數(shù)據(jù)集訓(xùn)練人臉檢測器,其圖像是從可公開獲得的WIDER(Web Image Dataset for Event Recognition)數(shù)據(jù)集中選擇。本文選取了32 203張圖像,并且還標(biāo)記了393 703張人臉,從中隨機(jī)選擇70%、10%和20%分別作為訓(xùn)練集、驗(yàn)證集和測試集。本文將WIDER FACE數(shù)據(jù)集標(biāo)注好的人臉邊框轉(zhuǎn)成VOC格式,再進(jìn)一步轉(zhuǎn)換為YOLO標(biāo)簽,將檢測類別修改為face,同時(shí)修改配置文件使其使用于小目標(biāo)檢測,因?yàn)槿四樆径急容^小。為了適應(yīng)多尺度的目標(biāo)檢測,本文在訓(xùn)練開始前,首先進(jìn)行實(shí)時(shí)數(shù)據(jù)增強(qiáng)的隨機(jī)預(yù)處理:對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng),其本質(zhì)是對(duì)圖片進(jìn)行平移縮放以及色域變換,使原始圖片更加豐富多彩,訓(xùn)練的模型更具有魯棒性。訓(xùn)練過程batch設(shè)置為32,subdivisions設(shè)置為8,最大迭代次數(shù)約為11 592次,共50個(gè)Epoch。在精確度相當(dāng)?shù)那闆r下,YOLOv3算法檢測速度更快,并在WIDER FACE數(shù)據(jù)集上評(píng)估本文模型的檢測性能,對(duì)比結(jié)果見表1。由表1分析可知,本文YOLOv3-416模型的mAP比原論文稍高。
本文利用訓(xùn)練好的YOLOv3人臉檢測模型yolov3_16000.weights,對(duì)多目標(biāo)跟蹤MOT16基準(zhǔn)數(shù)據(jù)集[16]進(jìn)行測試。MOT16是2016年提出的多目標(biāo)跟蹤MOT Challenge系列的一個(gè)衡量多目標(biāo)檢測跟蹤方法標(biāo)準(zhǔn)的數(shù)據(jù)集,包含訓(xùn)練集和測試集,本文選取了測試集中的MOT16-11-raw.webm 和MOT16-12-raw.webm進(jìn)行測試,顯示每一幀檢測的人臉數(shù)量,實(shí)驗(yàn)結(jié)果如圖3所示。
同時(shí),本文使用本地?cái)z像頭進(jìn)行了測試,均能準(zhǔn)確檢測到人臉,測試結(jié)果如圖4所示。
2.2 人臉圖像質(zhì)量評(píng)價(jià)算法FIQUE
基于視頻的人臉識(shí)別,同一個(gè)人臉很可能會(huì)多次出現(xiàn)在視頻中,而在重復(fù)出現(xiàn)的過程會(huì)呈現(xiàn)不同的人臉圖像質(zhì)量,那么選取合適的人臉進(jìn)行識(shí)別是非常關(guān)鍵的。因此,本文使用評(píng)價(jià)算法FIQUE評(píng)估從多個(gè)人臉中篩選質(zhì)量更好的人臉,從而避免了每拍攝到一個(gè)人臉就進(jìn)行識(shí)別,能夠提高系統(tǒng)的識(shí)別效率。
由于普通攝像頭拍攝的視頻幀往往面臨一些復(fù)雜的現(xiàn)實(shí)環(huán)境,例如:人臉遮擋、光線不充足、人臉多、人臉姿態(tài)不正以及人臉尺寸過小等,這都會(huì)降低人臉圖像的質(zhì)量,進(jìn)而影響到人臉識(shí)別算法的精度。因此,在人臉檢測完成之后,本文提出一種在無參考圖像的情況下,來預(yù)測圖像質(zhì)量分?jǐn)?shù)的算法,將設(shè)定的閾值分?jǐn)?shù)之外的人臉圖像進(jìn)行過濾,篩選掉不合格的人臉,從而確保了輸入到人臉識(shí)別環(huán)節(jié)中的人臉圖像質(zhì)量不會(huì)存在問題。
圖像質(zhì)量好壞是一個(gè)主觀問題,針對(duì)如何為人臉圖像給定質(zhì)量得分,本文基于圖像評(píng)估算法[17]的思想提出了一種人臉圖像質(zhì)量評(píng)價(jià)算法(Face Image Quality Evaluator, FIQUE),該算法的原理是對(duì)圖像進(jìn)行預(yù)處理后,從圖像中提取均值減去對(duì)比度歸一化系數(shù),將該系數(shù)擬合成非對(duì)稱廣義高斯分布AGGD [18]的結(jié)構(gòu),把提取到的擬合的高斯分布特征輸入到支持向量機(jī)SVM[19]中進(jìn)行回歸,進(jìn)而得到圖像質(zhì)量的評(píng)估結(jié)果。下面給出人臉圖像評(píng)價(jià)算法相關(guān)的系數(shù)和計(jì)算公式。
歸一化系數(shù)I(x,y)的定義如下:
上述公式中,μ(i,j)表示高斯濾波得到的結(jié)果,σ(i,j)表示標(biāo)準(zhǔn)差,該系數(shù)的優(yōu)點(diǎn)在于對(duì)圖像紋理等特征的依賴性較弱,這樣提取出來的特征更具有普適性。廣義高斯分布GGD[20]的定義見式(4):
廣義高斯分布共有2個(gè)參數(shù)。其中,參數(shù)α代表分布的“形狀”,也就是衰減的速率;參數(shù)σ代表方差。利用公式(4)可以方便地?cái)M合歸一化后人臉圖像的分布,在廣義高斯分布的基礎(chǔ)上,進(jìn)一步利用了非對(duì)稱廣義高斯分布的參數(shù)估計(jì)擬合人臉圖像四個(gè)參數(shù)方向的歸一化內(nèi)積[18],其定義見式(5):
非對(duì)稱廣義高斯分布一共有3個(gè)參數(shù)。其中,α參數(shù)的含義同上,σl、σr分別代表兩側(cè)的擴(kuò)展速度,利用查找和匹配的方式,本文選擇距離最小的值即為所求參數(shù)α的值。相比廣義高斯分布,非對(duì)稱廣義高斯分布可以更好地?cái)M合低質(zhì)量圖像產(chǎn)生的左右非對(duì)稱現(xiàn)象。另外,本文將上述產(chǎn)生的這些特征向量輸入到SVM算法中進(jìn)行回歸即可得到圖像的質(zhì)量得分。
本文選用TID2008圖像質(zhì)量評(píng)價(jià)數(shù)據(jù)集,其規(guī)定圖像質(zhì)量得分范圍為0~100,得分越小,主觀圖像質(zhì)量越好。為了區(qū)分失真圖像與自然圖像,本文利用歸一化系數(shù)對(duì)圖像像素進(jìn)行歸一化,進(jìn)而達(dá)到對(duì)人臉圖像規(guī)范化的目的,使其特征向量被縮放至-1~1之間,接著將特征向量輸入到SVM和LIBSVM預(yù)測最終的質(zhì)量分?jǐn)?shù)。本文分別從表情、噪聲、角度、模糊、遮擋維度,對(duì)人臉圖像進(jìn)行評(píng)估實(shí)驗(yàn),各個(gè)維度對(duì)應(yīng)的質(zhì)量分?jǐn)?shù)見表2,根據(jù)實(shí)際情況設(shè)置圖像質(zhì)量得分閾值。
2.3 人臉識(shí)別算法
基于手工特征和傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)的人臉識(shí)別方法存在部分人臉無法識(shí)別以及識(shí)別側(cè)臉時(shí)精確度較低等問題,被深度神經(jīng)網(wǎng)絡(luò)技術(shù)所取代[21]。本文將2.1節(jié)中YOLOv3檢測到的人臉圖像送入Inception-ResNet-v1[22]模型,該模型會(huì)對(duì)輸入的人臉圖像進(jìn)行特征提取,最終通過比較特征向量進(jìn)行人臉識(shí)別。
Inception-ResNet-v1網(wǎng)絡(luò)是在Inception模塊中引入ResNet的殘差結(jié)構(gòu),如圖5所示,兩者組合成為一個(gè)更優(yōu)的網(wǎng)絡(luò),與原始Inception模塊對(duì)比,增加了shortcut結(jié)構(gòu),并且在add操作前使用了線性的1*1卷積操作。ResNet殘差網(wǎng)絡(luò)的模型能夠通過增加相當(dāng)?shù)木W(wǎng)絡(luò)深度來提高訓(xùn)練準(zhǔn)確率,其內(nèi)部的殘差塊使用了捷徑(shortcut connection),由于網(wǎng)絡(luò)層數(shù)較深,因此使用跨越3個(gè)卷積層網(wǎng)絡(luò)的殘差塊[8],同時(shí)采用了恒等映射(identity mapping),保證了反向傳播更新參數(shù)時(shí)不會(huì)導(dǎo)致梯度消失,很大程度上解決了當(dāng)今深度神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)退化問題,使得越深的網(wǎng)絡(luò)對(duì)于抽象特征的提取和網(wǎng)絡(luò)性能更優(yōu)。
為了提升人臉識(shí)別的速度,本文使用的Inception網(wǎng)絡(luò)進(jìn)行了卷積分解,將5*5卷積分解為2個(gè)3*3的卷積網(wǎng)絡(luò)[8],使得網(wǎng)絡(luò)參數(shù)減少進(jìn)而提升網(wǎng)絡(luò)特征提取的能力,并且使用ReLU激活函數(shù),使得人臉識(shí)別準(zhǔn)確率更高。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)與環(huán)境
本文的實(shí)驗(yàn)平臺(tái)采用Linux操作系統(tǒng)Ubuntu16.04,GTX1060Ti顯卡,3.2 GHz,16 GB內(nèi)存,256G固態(tài)硬盤,CUDA版本為10.2,集成開發(fā)環(huán)境IDE使用PyCharm,集成包使用的是Anaconda3,Python版本為3.7.0,Tensorflow版本為1.14.0。為了測試本文的人臉識(shí)別模型的精確度,選用了下列人臉數(shù)據(jù)集進(jìn)行測試。對(duì)此擬展開分述如下。
(1)LFW(Labled Faces in the Wild)人臉數(shù)據(jù)庫進(jìn)行測試,主要用來研究非受限情況下的人臉識(shí)別問題,是測評(píng)人臉識(shí)別算法性能的重要指標(biāo)。LFW數(shù)據(jù)集提供的人臉圖片均來源于生活中的自然場景,尤其由于對(duì)姿態(tài)、光照、表情等因素影響導(dǎo)致即使同一人的照片差異也很大,其共有13 233張人臉圖像,每張圖像均給出對(duì)應(yīng)的人名,共有5 749個(gè)人。
本文從中隨機(jī)選擇了6 000對(duì)人臉組成了人臉驗(yàn)證lfw_pairs.txt文件,其中3 000對(duì)是屬于同一標(biāo)簽的2張人臉圖像,另外3 000對(duì)屬于不同標(biāo)簽的人臉圖像。本文使用了13 175張人臉圖像,每次測試選用正負(fù)樣本各300對(duì),重復(fù)10組測試,即通過記錄6 000次人臉測試結(jié)果的系統(tǒng)答案與真實(shí)答案的比值計(jì)算人臉識(shí)別的準(zhǔn)確率。
(2)CFP(Celebrities in Frontal-Profile) [23]數(shù)據(jù)集,主要是用來檢測野外環(huán)境下的人臉識(shí)別。該數(shù)據(jù)集包括了500個(gè)類別ID的人臉圖像,每個(gè)ID均有10張正面人臉照片和4張側(cè)面人臉照片。CFP數(shù)據(jù)集分為2個(gè)部分,分別是frontal-frontal和frontal-profile。其中,前者是從正臉圖像中選取的,后者的驗(yàn)證對(duì)象則是正面、側(cè)面人臉各一張組成。本文測試集包含來自同一類別和不同類別的各350張人臉圖像。
3.2 實(shí)驗(yàn)結(jié)果分析
為評(píng)估本文算法模型的精度,與經(jīng)典的Dlib人臉識(shí)別庫進(jìn)行比較,兩者在LFW數(shù)據(jù)集的識(shí)別準(zhǔn)確率對(duì)比見表3。由表3分析可知,本文算法的識(shí)別率稍好于Dlib。
4 結(jié)束語
本文研究的是基于視頻的人臉識(shí)別的應(yīng)用,在不需要增加額外硬件設(shè)備的前提下,利用校園普遍具備的攝像頭,很好地解決了現(xiàn)階段低年級(jí)學(xué)生上下學(xué)接送環(huán)節(jié)的安全隱患。
針對(duì)接送過程中人流量大、人臉重復(fù)出現(xiàn)以及運(yùn)動(dòng)中人臉姿態(tài)變化等問題,為了對(duì)視頻幀中出現(xiàn)的所有正向完整人臉進(jìn)行有效的檢測,本文選用基于YOLOv3的人臉檢測算法,實(shí)驗(yàn)結(jié)果也表明了本文的人臉檢測模型具有可靠效果。接著對(duì)檢測到的人臉使用FIQUE算法進(jìn)行人臉圖像質(zhì)量評(píng)價(jià),篩選[CM(22]質(zhì)量分?jǐn)?shù)合格的人臉圖像,保證人臉識(shí)別環(huán)節(jié)的人臉是正向清晰的,能夠確保人臉識(shí)別的準(zhǔn)確率和系統(tǒng)的效率,同時(shí)本文的人臉識(shí)別精度優(yōu)于Dlib人臉識(shí)別庫。通過對(duì)多個(gè)人臉數(shù)據(jù)集的實(shí)驗(yàn)證明了本文人臉識(shí)別算法的良好性能,不過對(duì)于佩戴口罩等存在遮擋的人臉場景的識(shí)別依然不夠精準(zhǔn),這仍是一個(gè)具有挑戰(zhàn)的方向,下一步還應(yīng)深入研究,尋找更有效的方法。
參考文獻(xiàn)
[1]十大民生熱詞2017:校園安全排名第一[N]. 人民日?qǐng)?bào),2017-12-27(002).
[2]潘玉嬌. 推動(dòng)新時(shí)代校園安全工作再上新臺(tái)階[N]. 中國教育報(bào),2019-05-18(012).
[3]RAVEENDRA K, RAVI J. Performance evaluation of face recognition system by concatenation of spatial and transformation domain features,International Journal of Computer Network and Information Security ,2021, 13(1):47-60.
[4]REDMON J, FARHADI A.YOLOv3:Anincremental improvement[J]. arXiv preprint arXiv:1804.02767, 2018.
[5]SZEGEDY C, TOSHEV A, ERHAN D. Deep Neural Networks for object detection[J]. Advances in neural information processing systems, 2013, 26:2553-2561.
[6]ARTHUR D, VASSILVITSKII S. K-Means++: The advantages of careful seeding[C]// Proceedings of the Eighteenth Annual ACM-SIAM Symposium on Discrete Algorithms, SODA 2007. New Orleans, Louisiana, USA: ACM, 2007:1027-1035.
[7]BABU B G, MURTY M. A near optimal initial seed value selection in kmeans algorithm using a genetic algorithm[J]. Pattern Recognition Letters, 1993,14(10):763-769.
[8]SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA:IEEE Computer Society, 2016:2818-2826.
[9]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA:IEEE, 2016: 770-778.
[10]顏偉超. 基于LIBSVM的簡單圖形識(shí)別研究與實(shí)現(xiàn)[J]. 電子技術(shù),2020,49(1):44-46.
[11]CHEN Tian, JU Sihang, REN Fuji, et al. EEG emotion recognition model based on the LIBSVM classifier[J]. Measurement, 2020, 164:108047.
[12]GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE Computer Society, 2014:580-587.
[13]KRIZHEVSKY A, SUTSKEVER I, HINTON G. ImageNet classification with Deep Convolutional Neural Networks[C]// NIPS. Nevada:Curran Associates Inc., 2012,141: 1097-1105.
[14]GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision (ICCV). Santiago:IEEE, 2015:1440-1448.
[15]LIN T Y, DOLLR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. Honolulu, HI, USA:IEEE, 2017: 2117-2125.
[16]MILAN A, LEALTAIXE L, REID I, et al. MOT16: A benchmark for multi-object tracking [EB/OL]. (2016-03-02). https://arxiv.org/pdf/1603.00831.pdf .
[17]SUN Tao, ZHU Xingjie, PAN Shyang, et al. No-reference image quality assessment in spatial domain[M]//SUN H, YANG C Y, LIN C ,et al. Genetic and Evolutionary Computing. Advances in Intelligent Systems and Computing. Cham:Springer, 2015, 329:381-388.
[18]LASMAR N E, STITOU Y, BERTHOUMIEU Y. Multiscale skewed heavy tailed model for texture analysis[C]// IEEE International Conference on Image Processing. Cairo, Egypt: IEEE, 2010:2281-2284.
[19]尹旭東. 基于并行SVM算法的中文文本分類方法研究[D]. 長春:吉林大學(xué),2018.
[20]LUKIN V V. Estimation of parameters for generalized Gaussian distribution[C]// 2014 6th International Symposium on Communications, Control and Signal Processing (ISCCSP). Athens, Greece: IEEE, 2014: 376-379.
[21]TRIGUEROS D S, MENG L, HARTNETT M. Face recognition: From traditional to deep learning methods[J]. arXiv preprint arXiv:1811.00116,2018.
[22]SZEGEDY C, IOFFE S, VANHOUCKE V, et al. Inception-v4, Inception-ResNet and the impact of residual connections on learning[J]. arXiv preprint arXiv:1602.07261,2016.
[23]SENGUPTA S, CHEN J C, CASTILLO C, et al. Frontal to profile face verification in the wild[C]// 2016 IEEE Winter Conference on Applications of Computer Vision (WACV). Lake Placid, NY, USA:IEEE, 2016:1-9.
[24]李洋,郭紅利,管樹林,等. OpenCV+Dlib技術(shù)在課堂教學(xué)中的應(yīng)用與研究[J]. 電腦知識(shí)與技術(shù),2020,16(19):159-162.
作者簡介: 姚 礪(1967-),男,博士,副教授,主要研究方向:圖像處理; 周同輝(1994-),男,碩士研究生,主要研究方向:圖像處理。
通訊作者: 姚 礪Email: yaoli@dhu.edu.cn
收稿日期: 2021-05-17