方冠男 胡騫鶴 方書雅 劉守印
(華中師范大學(xué)物理科學(xué)與技術(shù)學(xué)院 湖北 武漢 430079)
大學(xué)生課堂考勤制度作為校園制度文化建設(shè)的重要環(huán)節(jié),其所實施的效果將直接影響著學(xué)校的規(guī)范管理和人才培養(yǎng)質(zhì)量[1]。上課點名的目的是統(tǒng)計學(xué)生人數(shù),督促學(xué)生按時上課,進而提高教學(xué)質(zhì)量[2]。傳統(tǒng)的課堂考勤由任課教師通過花名冊進行點名實現(xiàn)[3],但這種傳統(tǒng)的課堂考勤方式通常會占用很多課堂時間,降低了課堂教學(xué)質(zhì)量[4]。
當(dāng)然,近年來指紋簽到、虹膜識別等手段也相繼出現(xiàn)并被應(yīng)用,但是考慮到人臉信息特征相比于指紋、虹膜等生物特征,更具有易于獲得、直觀友好、易于區(qū)分等優(yōu)點,因此本文選用人臉特征作為識別對象。
目前,人臉檢測的主流方式包含兩大類別:基于統(tǒng)計模型的方法與基于深度學(xué)習(xí)的方法?;诮y(tǒng)計的人臉檢測方法有:支持向量機、haar[5-6]分類器、隱馬爾可夫模型HMM(Hidden Markov Models)[7];支持向量機SVM(Support Vector Machine)的方法[8-9]由于它基于結(jié)構(gòu)風(fēng)險最小化原理,因而表現(xiàn)出很多優(yōu)良的性能。但使用SVM方法訓(xùn)練需要大量的存儲空間,并且訓(xùn)練速度很慢。Nefian等[10]利用隱馬爾可夫模型,這種方法魯棒性較好,適用于對不同角度和不同光照條件的人臉識別。haar分類器,實現(xiàn)了實時人臉檢測。缺點是當(dāng)人臉在非約束環(huán)境下,該算法檢測效果極差?;谏疃葘W(xué)習(xí)的人臉檢測在非約束環(huán)境下性能遠勝于上述檢測方法,目前常用的有Cascade-CNN[11]與MTCNN級聯(lián)式神經(jīng)網(wǎng)絡(luò)的方法[12]等。
人臉識別技術(shù)的主要工作是分析人臉圖像并提取特征信息,將特征信息與存儲在人臉庫中的信息進行比較,得到最終的識別結(jié)果。早期由Turk和Pentland首次提出“特征臉”方法[13-14]是人臉識別的里程碑,但這種方法的識別效果過度依賴特征定位算法的準(zhǔn)確性,實用難度較大。隨后Brunelli和Poggio[15]通過實驗發(fā)現(xiàn)模板匹配的方法優(yōu)于基于特征的方法,其優(yōu)點在于光照不變性,但其算法不能摒除人臉面部表情變化的影響。Belhumeur等[16]提出的Fisherface人臉識別方法首先采用主成分分析PCA對圖像表觀特征進行降維,然后根據(jù)降維特征計算與目標(biāo)特征的歐氏距離以辨別身份。另一種彈性圖匹配技術(shù)提取人臉Jet特征[17](Gabor變換12特征),得到輸入圖像的屬性圖。然而,這些方法對光線、年齡、表情等條件變化較為敏感,當(dāng)某些條件發(fā)生變化時,識別效果并不理想。深度學(xué)習(xí)[19]在人臉特征提取方面取得了巨大成就,減弱了外部因素的影響,提高了人臉識別的可靠性,從而促進了人臉識別技術(shù)的實用化。
針對人臉識別在課堂點名的應(yīng)用,文獻[2]提出了基于Android移動平臺的課堂人臉識別系統(tǒng),通過haar人臉檢測方法與VGG人臉特征提取網(wǎng)絡(luò)方法對手機攝像機采集到的學(xué)生人臉進行身份識別。但由于該系統(tǒng)拍攝區(qū)域有限,并未起到教室點名的作用。文獻[19]提出了一種結(jié)合AdaBoost的人臉檢測算法和主成分分析PCA算法的課堂人臉識別系統(tǒng),但PCA算法對光線、年齡、表情等條件較為敏感,不能保證提取到的人臉特征信息的一致性,識別效果不佳。
從已有文獻資料看,大部分論文雖然能在實驗環(huán)境下取得較好的效果,但并未考慮到實際課堂環(huán)境中的問題:1)由于攝像機設(shè)置在教室前方,因為不同座位與攝像機的相對位置不同,造成課堂后排人臉尺寸過小,人臉圖像質(zhì)量不能滿足識別的要求。2)在攝像機所獲取的視頻中,被采集的人臉大多處于非約束狀態(tài),人臉區(qū)域圖像常常呈現(xiàn)像素低、運動模糊不清和姿態(tài)偏差較大的問題。
針對上述的第一個問題,本文通過PTZ(平移(Pan)、傾斜(Tilt)、變焦(Zoom)的縮寫)攝像機預(yù)置巡航功能對教室中的每一個座位設(shè)置巡航點,通過此方式完成了對單個學(xué)生目標(biāo)圖像的采集,保證了人臉尺寸的一致性。
本文在基于人臉識別的課堂點名系統(tǒng)中融合了圖像質(zhì)量評估方法解決了上述的第二個問題。圖像質(zhì)量客觀評價方法可分為全參考FR、部分參考RR和無參考NR。
全參考評價需要選擇一副理想圖像作為參考對象,與待評價圖像進行對比得出待參考圖像的圖像質(zhì)量,由于該理想圖像難以選擇,不適用于本文的應(yīng)用場景。半?yún)⒖荚u價依賴于理想圖像的部分特征,同全參考評價圖像一樣需提供一幅“理想圖像”的部分信息做參考,同樣不適用于本文的應(yīng)用場景。因此,完全脫離對理想?yún)⒖紙D像依賴的無參考質(zhì)量評價方法是本文解決問題的關(guān)鍵。
傳統(tǒng)的無參考評價方法一般都是基于圖像的統(tǒng)計特性(均值、標(biāo)準(zhǔn)差、平均梯度等)進行圖像評價,然而影像圖像失真的因素往往不止一個,圖像的統(tǒng)計特性可能無法系統(tǒng)地表達多種失真因素。所以本文使用的圖像質(zhì)量評估方法采用深度卷積神經(jīng)網(wǎng)絡(luò)模型對圖像的失真特征提取,并在文獻[20]的基礎(chǔ)上進一步改進,經(jīng)測試,模型性能得到了進一步提升,能有效地檢測并舍棄圖像質(zhì)量較差的人臉區(qū)域圖像。
通過在基于視頻流人臉識別的課堂點名系統(tǒng)應(yīng)用人臉圖像質(zhì)量評估方法,不僅提升了人臉識別的準(zhǔn)確率,同時也提升了點名效率,為實現(xiàn)好的課堂質(zhì)量奠定了基礎(chǔ)。
本文是一種基于視頻流的人臉識別課堂點名系統(tǒng)。系統(tǒng)整體設(shè)計框圖如圖1所示,其主要由攝像機與服務(wù)端兩部分組成。
圖1 系統(tǒng)整體設(shè)計框圖
攝像機的主要功能是收集課堂上的實時視頻流,將視頻流通過RTSP協(xié)議傳給服務(wù)端。
服務(wù)端主要由人臉檢測系統(tǒng)、人臉質(zhì)量評估系統(tǒng)、人臉識別系統(tǒng)和MySQL數(shù)據(jù)庫四部分組成。本文采用MTCNN級聯(lián)式神經(jīng)網(wǎng)絡(luò)進行人臉檢測,然后將檢測的單人臉區(qū)域圖像輸入到人臉質(zhì)量評估方法中進行分類,把圖像質(zhì)量符合識別要求的人臉區(qū)域圖像通過FaceNet[21]人臉特征提取網(wǎng)絡(luò)進行高維特征提??;最后通過SVC分類器[22]對學(xué)生人臉進行識別。對圖像質(zhì)量達不到要求的人臉圖像進行舍棄,直到獲取合格的人臉圖像,從而完成教室全部學(xué)生的識別。人臉識別完成后,對學(xué)生出勤狀況進行登記,并將信息存入數(shù)據(jù)庫。數(shù)據(jù)庫中存儲有根據(jù)各班級學(xué)生人臉預(yù)訓(xùn)練完成的SVC分類器、學(xué)生信息及學(xué)生簽到情況。
文獻[23]使用Viola jones級聯(lián)式人臉檢測器,而MTCNN是該級聯(lián)式結(jié)構(gòu)與深度卷積神經(jīng)網(wǎng)絡(luò)的結(jié)合。Viola jones級聯(lián)式人臉檢測器主要通過Haar特征作為分類依據(jù),但其特征對角度極為敏感,當(dāng)人臉角度偏移較大時,將無法檢測到人臉。而基于深度學(xué)習(xí)的MTCNN人臉檢測器是通過WiderFace數(shù)據(jù)集和FDDB數(shù)據(jù)集訓(xùn)練而來,并在其驗證集模型上達到了95%的準(zhǔn)確率。MTCNN通過深度卷積神經(jīng)網(wǎng)絡(luò)提取的特征對自然環(huán)境中的光線、角度和人臉表情都具有較好的魯棒性,因此本文選擇采用基于深度學(xué)習(xí)的MTCNN級聯(lián)式神經(jīng)網(wǎng)絡(luò)人臉檢測方法。MTCNN采用三級網(wǎng)絡(luò)結(jié)構(gòu)組成(P-Net,R-Net,O-Net),如圖2所示。P-Net網(wǎng)絡(luò)主要獲得人臉區(qū)域的候選窗口和邊界框的回歸向量,并用該邊界框做回歸,對候選窗口進行校準(zhǔn),然后通過非極大值抑制(NMS)來合并高度重疊的候選框。R-Net網(wǎng)絡(luò)依然通過邊界框回歸和NMS來進一步篩選false-positive區(qū)域。最后使用O-Net輸出最終的人臉框和特征點位置。
圖2 MTCNN的級聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)圖
文獻[23]中使用了基于稀疏表示的人臉特征提取方法,但其方法提取的人臉特征對于人臉表情變化、姿態(tài)角度變化較為敏感,將其應(yīng)用于課堂環(huán)境下,提取的人臉特征一致性較差。同時該方法也會給后續(xù)基于學(xué)生社交關(guān)系推理的人臉識別工作帶來一定影響。
最近深度學(xué)習(xí)在人臉識別領(lǐng)域逐漸嶄露頭角,其方法大多已經(jīng)克服了自然客觀因素的影響,其中FaceNet[20]模型在人臉識別方面中取得了優(yōu)秀效果,因此本文借用了FaceNet網(wǎng)絡(luò)模型結(jié)構(gòu)進行人臉特征的提取。原始的FaceNet模型結(jié)構(gòu)主要由inception深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與tripleLet loss損失函數(shù)組成。但在2016年,Szegedy等[24]結(jié)合了resnet以及inception,提出了inception-resnet模型,該模型進一步降低了在ImageNet分類任務(wù)中top-1以及top-5的錯誤率,因此本文選擇inception-resnet-v1模型作為深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其模型結(jié)構(gòu)如圖3所示。
圖3 inception-resnet-v1模型結(jié)構(gòu)圖
在模型訓(xùn)練方面,Wen等[25]提出使用softmax loss和central loss作為損失函數(shù)和訓(xùn)練模型,其方法可以得到更好的人臉特征提取模型。其中,softmax loss定義如下:
(1)
式中:xi∈d為提取的表征屬于yi類的第i維特征,特征維度為d;W∈d×n表示最后的全連層的網(wǎng)絡(luò)參數(shù),WJ∈d則表示參數(shù)的第j列;b∈n為偏置項。m為每批次里訓(xùn)練樣本的個數(shù);n為分類中類的個數(shù)。
Central loss可以減小被提取的特征在類間的距離,Central loss的定義如下:
(2)
式中:cyi∈d表示屬于yi類的特征的中心。cyi在每批訓(xùn)練需要使用整個數(shù)據(jù)集時更新計算,計算量過大。在訓(xùn)練時,只更新當(dāng)前用于訓(xùn)練的該批數(shù)據(jù)所涉及的類中心。最后損失函數(shù)為:
(3)
因子λ用以平衡Ls和Lc。本文通過式(3)作為損失函數(shù)進行訓(xùn)練,由此可得更為一致的人臉特征。而更改后的網(wǎng)絡(luò)模型結(jié)構(gòu)如圖4所示。
圖4 更改后的FaceNet網(wǎng)絡(luò)模型結(jié)構(gòu)圖
在本文中,首先將使用inception-Resnet-v1模型結(jié)構(gòu)與softmax loss和center loss作為損失函數(shù)相結(jié)合的方法在LFW數(shù)據(jù)集[26]上訓(xùn)練得到的預(yù)訓(xùn)練模型對單張人臉進行特征提取。然后將提取的128維特征作為輸入,將其作為SVC分類器的訓(xùn)練集,對SVC分類器進行有監(jiān)督訓(xùn)練。最后將SVC分類器模型存入數(shù)據(jù)庫。當(dāng)進行班級點名時,本文通過預(yù)訓(xùn)練模型提取人臉圖像的128維特征,然后將特征矩陣輸入至預(yù)訓(xùn)練的SVC分類器,即可得到最終的識別結(jié)果。
文獻[23]中提到在課堂環(huán)境下拍攝的面部照片大小不一、分辨率不同,甚至還會嚴(yán)重扭曲。因此,為了避免惡劣環(huán)境對人臉圖像的影響,其提出了基于地理位置推理式的人臉識別方法。該方法有較強的創(chuàng)新意識,但仍舊不能完全擺脫因圖像失真造成準(zhǔn)確率下降的問題。
因此本文采用PTZ攝像機的預(yù)置位方式,解決了課堂后排人臉圖像尺寸過小的問題。實驗結(jié)果如圖5所示。
(a) 全景幀
(b) 調(diào)整至預(yù)置位后的區(qū)域幀圖5 實驗結(jié)果
圖5(a)為覆蓋了課堂全場景視頻幀,可見后排人臉尺寸偏小,人臉辨識度極低。(b)為攝像機調(diào)整至預(yù)置位,變焦放大后的圖像結(jié)果,由圖中可看出人臉細(xì)節(jié)豐滿,辨識度較高。
雖然基于深度學(xué)習(xí)的人臉特征提取網(wǎng)絡(luò)解決了光照、表情、姿態(tài)等大部分難題,但在實際的課堂環(huán)境下,仍有如下問題:在攝像機所獲取的視頻流中,被采集的單人臉大多處于非約束狀態(tài),單人臉區(qū)域圖像常常呈現(xiàn)像素低、模糊不清和姿態(tài)偏差較大的特點。如圖6所示為視頻中通過人臉檢測方法提取的人臉區(qū)域圖像。若直接使用這些提取的人臉圖像進行人臉識別,會對人臉識別系統(tǒng)的準(zhǔn)確率造成較大影響,無法保證系統(tǒng)的正確性和魯棒性。
圖6 非約束狀態(tài)人臉圖
我們將以上這類問題歸結(jié)為人臉區(qū)域圖像質(zhì)量評估問題,那么如何對視頻關(guān)鍵幀中的人臉區(qū)域圖像質(zhì)量進行量化評估,便成為了本文主要研究內(nèi)容之一。本文借鑒了圖像質(zhì)量評估領(lǐng)域的無參考圖像質(zhì)量評估方法,根據(jù)失真圖像的自身特征來估計圖像質(zhì)量。
本文選擇了VGG19網(wǎng)絡(luò)體系結(jié)構(gòu)[27]作為圖像特征提取器,但在實踐中,由于訓(xùn)練CNN神經(jīng)網(wǎng)絡(luò)需要足夠大的數(shù)據(jù)集,而通常這些數(shù)據(jù)很難得到,完整訓(xùn)練大數(shù)據(jù)集對硬件要求也頗高,因此很少有人從零開始訓(xùn)練整個CNN神經(jīng)網(wǎng)絡(luò)。相反,采用在不同的開源大型數(shù)據(jù)集(例如ImageNet[28])上的預(yù)訓(xùn)練模型,并將其作為特征提取器或用作進一步學(xué)習(xí)過程的初始化(即轉(zhuǎn)移學(xué)習(xí),也稱為微調(diào)[29])是常見的。因此我們將在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練后得到的VGG19模型的最后一個全連接層用隨機值初始化的方法進行了權(quán)值替換,新的全連接層是從零開始訓(xùn)練的,其他層的權(quán)重是通過反向傳播算法[30]和可用的LFW-IQA圖像質(zhì)量評估數(shù)據(jù)集來進行更新的,以此方法完成了對圖像質(zhì)量評估模型的微調(diào)。在這個體系之上,最后從CNN提取出的圖像特征到MOS(平均主觀質(zhì)量分?jǐn)?shù))的映射函數(shù)將由帶有線性內(nèi)核的SVR(支持向量機回歸算法)學(xué)習(xí)得到。
人臉圖像質(zhì)量評估結(jié)構(gòu)如圖7所示。圖像將通過以上預(yù)訓(xùn)練的CNN模型與SVR模型,得到平均主觀質(zhì)量分?jǐn)?shù)(即MOS)。根據(jù)5個MOS分?jǐn)?shù)段落,可將人臉圖像質(zhì)量分為5個等級:差、較差、一般、好、優(yōu)質(zhì)。
圖7 人臉圖像質(zhì)量評估結(jié)構(gòu)圖
通過該評估方法得到MOS分?jǐn)?shù),本文將MOS分?jǐn)?shù)小于60的人臉區(qū)域舍棄,即合理地從視頻流中選取符合識別質(zhì)量要求的人臉區(qū)域圖像。
由圖8所示結(jié)果可明顯看出,從左至右圖像質(zhì)量依次對應(yīng)上述的5個等級,差[0~20]、較差[20~40]、一般[40~60]、好[60~80]、優(yōu)質(zhì)[80~100]。
圖8 人臉質(zhì)量評估結(jié)果
本文的學(xué)生人臉數(shù)據(jù)集是通過攝像機獲取2個班的學(xué)生(分別為15人和21人)個體圖像,并對圖像進行人臉檢測和人臉對齊以獲取單人臉區(qū)域圖像。一共采集了36名學(xué)生的3 600張單人臉區(qū)域圖像(每名學(xué)生100張)作為SVC分類器的數(shù)據(jù)集,部分?jǐn)?shù)據(jù)集如圖9所示。將數(shù)據(jù)集隨機分為80%訓(xùn)練集和20%測試集。為了檢驗訓(xùn)練集樣本數(shù)量對訓(xùn)練出的SVC分類器性能的影響,依次增大訓(xùn)練集的圖像數(shù)量(從5~80,每次增加5張圖像)訓(xùn)練出不同的SVC分類器并在同一測試集上驗證準(zhǔn)確度。
圖9 部分?jǐn)?shù)據(jù)集示例
實驗結(jié)果如圖10所示,橫坐標(biāo)代表訓(xùn)練SVC分類器所使用的圖像樣本數(shù)量,縱坐標(biāo)代表SVC分類器在測試集上的平均準(zhǔn)確率。(例:通過每人5張圖像作為訓(xùn)練集訓(xùn)練的分類器在測試集上的平均準(zhǔn)確率在0.86左右。通過每人80張圖像作為訓(xùn)練集訓(xùn)練的分類器在測試集上的平均準(zhǔn)確率在0.98左右)。因此本文系統(tǒng)中使用的預(yù)訓(xùn)練SVC分類器是通過每名學(xué)生80張圖像訓(xùn)練完成的。
圖10 分類器在同一測試集上的測試結(jié)果
為了驗證不同的人臉圖像質(zhì)量對人臉識別系統(tǒng)準(zhǔn)確率的影響。本文選擇了36個學(xué)生在視頻流中出現(xiàn)的歸一化后的單人臉區(qū)域圖像作為測試集,并將此測試集通過本文的人臉質(zhì)量評估系統(tǒng)評價得出MOS(平均主觀質(zhì)量分?jǐn)?shù))。本文將MOS分?jǐn)?shù)大于60的作為人臉圖像質(zhì)量較高的一類,即測試集H;其余的作為人臉圖像質(zhì)量較差的一類,即測試集L。每個測試集中都含有36個學(xué)生個體的20張單人臉區(qū)域圖像,測試結(jié)果如圖11所示。
圖11 不同質(zhì)量圖像的準(zhǔn)確度
由圖11的測試結(jié)果可以看出,人臉識別系統(tǒng)對于單人臉區(qū)域圖像質(zhì)量高的圖像的準(zhǔn)確率遠遠高于人臉圖像質(zhì)量低的準(zhǔn)確率。由此可以得出,人臉圖像的質(zhì)量對整個人臉識別系統(tǒng)有較大影響。
通過文獻[31-32]的數(shù)據(jù)集對本文提出的圖像質(zhì)量評估模型進行評估。其包含1 162張500×500像素的圖像,這些圖像受到各種真實失真和真實人為因素的影響,如低光噪聲和模糊、運動引起的模糊、曝光過度和曝光不足、壓縮錯誤等。該圖像數(shù)據(jù)庫已經(jīng)收集了8 100位專業(yè)人士的超過350 000的意見分?jǐn)?shù)。每幅圖像的主觀意見分?jǐn)?shù)(MOS)是通過平均各科目的個體評分計算得到的,并將其作為真實的圖像質(zhì)量分?jǐn)?shù)。本文比較了一些領(lǐng)先的無參考圖像質(zhì)量評估方法,由于大多數(shù)算法都是基于機器學(xué)習(xí)的訓(xùn)練過程,因此在所有實驗中,我們將數(shù)據(jù)集隨機分為80%訓(xùn)練集和20%測試集,使用訓(xùn)練數(shù)據(jù)對上述在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練完成的模型進行微調(diào),并在測試集上驗證它的性能。為了降低由于數(shù)據(jù)分割造成的偏差,數(shù)據(jù)集將隨機分割重復(fù)10次,對于每次重復(fù),計算預(yù)測和實際質(zhì)量得分之間的皮爾遜線性相關(guān)系數(shù)(LCC)和斯皮爾曼秩相關(guān)系數(shù)(SROCC),選擇10次重復(fù)試驗的中位數(shù)作為最終結(jié)果。測試結(jié)果如表1所示,可以看出通過微調(diào)后的預(yù)訓(xùn)練模型(BIQVGG)能夠?qū)CC和SROCC分別提高0.05和0.09。
表1 各算法在LFW IQ Chall.DB.數(shù)據(jù)集中10次隨機分組的LCC和SROCC中位數(shù)
通過本模型預(yù)測的MOS圖像質(zhì)量分?jǐn)?shù)與真實的MOS圖像質(zhì)量分?jǐn)?shù)存在11%的均方根誤差(RMSE)。
本文分別在兩個班級(班級A和班級B)進行了實驗,對比了通過人臉質(zhì)量評估與未通過人臉質(zhì)量評估情況下的人臉識別準(zhǔn)確率,結(jié)果分別如表2、表3所示。
表2 未通過人臉質(zhì)量評估情況下人臉識別準(zhǔn)確率
表3 通過人臉質(zhì)量評估情況下人臉識別準(zhǔn)確率
從上述分析可知,在課堂環(huán)境下,如未通過人臉質(zhì)量評估進行人臉識別,準(zhǔn)確率大多在70%左右,準(zhǔn)確率較低,不能滿足實用級別要求。在引入了人臉質(zhì)量評估環(huán)節(jié)后,準(zhǔn)確率可以達到90%左右。
本文提出一種基于視頻流的人臉自動識別課堂點名系統(tǒng),結(jié)合機器視覺與人工智能技術(shù)改善了傳統(tǒng)課堂點名方式,保證了上課時間,提升了上課效率,為學(xué)校未來智慧課堂建設(shè)提供了新的思路。通過引入人臉質(zhì)量評估方法解決了實際課堂環(huán)境下所出現(xiàn)的問題。通過在實際課堂環(huán)境下的實驗表明本系統(tǒng)在課堂環(huán)境下有較高的實用價值與魯棒性。
該系統(tǒng)不僅為課堂考勤管理提供了一種智能化手段,同時可以將學(xué)生課堂的考勤情況與該課的學(xué)業(yè)成績聯(lián)系起來,有效地分析學(xué)生的課堂考勤情況與學(xué)業(yè)成績的關(guān)系。