羅莉莎 鐘嘉桐 王樹同 陳龍 邵文澤
摘 ?要: 近年來,視頻監(jiān)控在國防領(lǐng)域和城市管理中起著越來越突出的作用。文章以道路監(jiān)控視頻的低分辨率圖像為切入點(diǎn),利用深度學(xué)習(xí)方法下的圖像超分辨率重建算法,訓(xùn)練超分辨率模型,提高監(jiān)控視頻所記錄的低清人臉模型的精度,同時(shí)利用FaceNet算法及模型實(shí)現(xiàn)低清人臉的識(shí)別與檢測,從而完善道路視頻監(jiān)控系統(tǒng)低分辨率圖像的人臉識(shí)別與檢測。
關(guān)鍵詞: 圖像超分辨率重建算法; 超分辨率模型; 深度學(xué)習(xí); 低分辨率圖像; 人臉識(shí)別; 人臉檢測
中圖分類號(hào):TP391 ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A ? ?文章編號(hào):1006-8228(2020)01-26-04
Abstract: In recent years, video surveillance plays an increasingly prominent role in the field of national defense and urban management. Taking the low resolution image of road surveillance video as the starting point, this paper uses the image super-resolution reconstruction algorithm with deep learning, trains the super-resolution model, improves the accuracy of the low-resolution human face model recorded in the surveillance video, and uses the FaceNet to realize the recognition and detection of low-resolution human face, so as to improve the face recognition and detection of the image from road video surveillance system.
Key words: image super-resolution reconstruction algorithm; super-resolution model; deep learning; low resolution image; face recognition; face detection
0 引言
對(duì)于社會(huì)治安問題和道路交通事故越來越嚴(yán)重的情況。運(yùn)用科技手段強(qiáng)化城市道路交通管理成為交通管理部門的迫切需求。
隨著科學(xué)技術(shù)的不斷發(fā)展,圖像超分辨率重建技術(shù)和人臉識(shí)別技術(shù)越發(fā)受研究者青睞,大量研究人員通過改進(jìn)圖像超分辨率算法和人臉識(shí)別技術(shù),實(shí)現(xiàn)圖像重建分辨率和人臉識(shí)別率的提高,這一研究課題已成為當(dāng)前圖像處理技術(shù)的重要研究方向。超分辨率重建技術(shù)和人臉識(shí)別與檢測的發(fā)展,強(qiáng)有力地彌補(bǔ)了城市道路監(jiān)控中傳感器硬件方面的不足,能有效地發(fā)展和完善道路視頻監(jiān)控系統(tǒng)。
1 圖像超分辨率和人臉識(shí)別技術(shù)的研究歷史及現(xiàn)狀
1.1 圖像超分辨率算法研究歷史及現(xiàn)狀
超分辨率重建技術(shù)具有重要的理論意義和應(yīng)用價(jià)值,成為圖像處理、計(jì)算機(jī)視覺等領(lǐng)域的重大研究課題。
1955年,“超分辨率”首次出現(xiàn)在光學(xué)成像領(lǐng)域。1964年左右,“圖像超分辨率”被提出。隨后,超分辨率重建技術(shù)受到廣泛的關(guān)注和研究。2014年,Dong等人首次將“深度學(xué)習(xí)”應(yīng)用到圖像超分辨率重建領(lǐng)域,實(shí)現(xiàn)了令人驚喜的成效。
1.2 人臉識(shí)別的研究歷史及現(xiàn)狀
人臉識(shí)別技術(shù)作為一種重要的生物特征識(shí)別技術(shù),是模式識(shí)別研究方面的熱點(diǎn)課題。
近幾年,國際上許多項(xiàng)目將深度學(xué)習(xí)成功地運(yùn)用到人臉識(shí)別中。2012 年,勒尼德·米勒研究小組率先將深度學(xué)習(xí)用于 LFW(labeled face in the wild)數(shù)據(jù)庫的人臉識(shí)別。比較知名的算法有DeepFace、DeepID、FaceNet等,在以上算法中,準(zhǔn)確率最高的是FaceNet[1]。本課題主要應(yīng)用FaceNet算法對(duì)課題的另一研究對(duì)象——圖像超分辨率模型進(jìn)行驗(yàn)證。
2 基于深度學(xué)習(xí)的圖像超分辨率模型的構(gòu)建
從重建算法角度看,圖像超分辨率算法可概括為三大類型:基于插值的算法、基于重構(gòu)的算法和基于學(xué)習(xí)的算法[2-3]。文章基于學(xué)習(xí)的超分辨率算法訓(xùn)練圖像超分辨率重建模型,從而改善城市道路監(jiān)控視頻圖像質(zhì)量。
2.1 基于深度學(xué)習(xí)的圖像超分辨率重建技術(shù)簡介
隨著人工智能和計(jì)算機(jī)硬件的不斷發(fā)展,“深度學(xué)習(xí)”憑借著強(qiáng)大的擬合能力,應(yīng)用于各個(gè)領(lǐng)域,特別是在圖像與視覺領(lǐng)域。
基于深度學(xué)習(xí)的圖像超分辨率技術(shù)的重建流程主要包括:①特征提?。簩?duì)輸入的低分辨率圖像進(jìn)行去噪、上采樣等預(yù)處理,隨后送入神經(jīng)網(wǎng)絡(luò)提取特征;②設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)及損失函數(shù):搭建網(wǎng)絡(luò)模型,并根據(jù)先驗(yàn)知識(shí)設(shè)計(jì)損失函數(shù);③訓(xùn)練模型:確定優(yōu)化器及學(xué)習(xí)參數(shù),通過最小化損失函數(shù)提升模型的學(xué)習(xí)能力。④驗(yàn)證模型:根據(jù)訓(xùn)練后的模型通過驗(yàn)證集的相關(guān)評(píng)判標(biāo)準(zhǔn)對(duì)現(xiàn)有模型做出評(píng)估和相應(yīng)的調(diào)整。
2.2 重建圖像的結(jié)果評(píng)判標(biāo)準(zhǔn)
對(duì)超分辨率重建模型的圖像質(zhì)量進(jìn)行分析是評(píng)價(jià)算法好壞以及準(zhǔn)確度高低的重要準(zhǔn)則,主要包含主觀評(píng)價(jià)和客觀評(píng)價(jià)【4】。主觀評(píng)價(jià)把人眼作為最終接收對(duì)象,通過觀察對(duì)圖像最終效果作出主觀評(píng)定。客觀質(zhì)量評(píng)價(jià)常用的評(píng)價(jià)超分的指標(biāo)分別是是PSNR和SSIM。
2.2.1 PSNR(Peak Signal to Noise Ratio)峰值信噪比
PSNR是最普遍和使用最為廣泛的一種圖像客觀評(píng)價(jià)指標(biāo),它是基于對(duì)應(yīng)像素點(diǎn)間的誤差,即基于誤差敏感的圖像質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)。
2.3 圖像超分辨率模型(EDV模型)介紹
文章將所訓(xùn)練的圖像超分辨率模型命名為“EDV”模型,該重建模型的網(wǎng)絡(luò)結(jié)構(gòu)由對(duì)稱的卷積層——反卷積層構(gòu)成,通過多個(gè)卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)圖像的重建,類似編碼——解碼結(jié)構(gòu)。以下將“EDV模型”與“SRCNN模型”進(jìn)行介紹與對(duì)比。
SRCNN(Super-Resolution Convolutional Neural Network)是深度學(xué)習(xí)在超分辨率重建領(lǐng)域的開山之作[5-6]。當(dāng)輸入低分辨率圖像,SRCNN通過使用雙立方插值將其放大至目標(biāo)尺寸,然后利用一個(gè)三層的卷積神經(jīng)網(wǎng)絡(luò)去擬合低分辨率圖像與高分辨率圖像之間的非線性映射,最后將網(wǎng)絡(luò)輸出的結(jié)果作為重建后圖像。
與SRCNN不同,這里所使用的“EDV模型”網(wǎng)絡(luò)結(jié)構(gòu)由對(duì)稱的卷積層——反卷積層構(gòu)成,每個(gè)卷積層對(duì)應(yīng)相應(yīng)的反卷積層,卷積層將數(shù)據(jù)預(yù)處理后,送入神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取。反卷積層放大特征的尺寸同時(shí)恢復(fù)圖像細(xì)節(jié)。其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
該模型通過使用多層卷積層和反卷積層獲得較大的感受野,理論上,感受野越大,學(xué)習(xí)的信息越多,準(zhǔn)確率越大。另外,多層網(wǎng)絡(luò)的應(yīng)用,能實(shí)現(xiàn)復(fù)雜的非線性映射,使重建效果更好。
2.4 EDV模型訓(xùn)練過程
通過以下內(nèi)容對(duì)圖像超分辨率模型——EDV模型訓(xùn)練過程進(jìn)行介紹。
2.4.1 CelebA數(shù)據(jù)集簡介
CelebA數(shù)據(jù)集是香港中文大學(xué)提供的包含10177個(gè)名人身份的202599張人臉圖片的開放數(shù)據(jù)集,該人臉數(shù)據(jù)集在人臉相關(guān)的訓(xùn)練中受到廣泛應(yīng)用。
文章使用CelebA數(shù)據(jù)集的前兩萬張圖片作為模型訓(xùn)練的數(shù)據(jù)集,將數(shù)據(jù)集進(jìn)行對(duì)齊裁剪為128*128格式作為輸入。
2.4.2 模型參數(shù)設(shè)置
該模型“編碼”部分由四個(gè)卷積層構(gòu)成,對(duì)應(yīng)“解碼”部分由四個(gè)反卷積層和兩個(gè)卷積層構(gòu)成。各卷積層可看成由多級(jí)組成的分級(jí)網(wǎng)絡(luò),在每一級(jí)中,先通過級(jí)聯(lián)的卷積層提取特征,接著通過反卷積層將提取出的特征的尺寸上采樣。反卷積層后又接著兩個(gè)卷積層,一個(gè)卷積層的作用是繼續(xù)提取特征,另外一個(gè)卷積層的作用是預(yù)測出這一級(jí)的殘差。該EDV模型的網(wǎng)絡(luò)結(jié)構(gòu)具體參數(shù)見表1。
2.4.3 測試數(shù)據(jù)集降質(zhì)過程
由于實(shí)驗(yàn)所用測試數(shù)據(jù)集均為高清圖像或清晰度較高的圖像,因此需要對(duì)其進(jìn)行降質(zhì)獲得對(duì)應(yīng)低清圖像作為模型輸入。降質(zhì)過程如圖2所示。
2.4.4 第一種訓(xùn)練方案(方案一)
該EDV模型于Tensorflow平臺(tái)進(jìn)行訓(xùn)練,使用CelebA人臉數(shù)據(jù)集中前兩萬張圖片作為訓(xùn)練集進(jìn)行訓(xùn)練,訓(xùn)練完成后制作測試數(shù)據(jù)集,將測試圖像做下采樣增加噪聲獲得低清圖像,作為模型輸入,對(duì)應(yīng)輸出SR則為重建高清圖像。
2.4.5 第二種訓(xùn)練方案(方案二)
考慮到方案一的模型重建輸出圖像產(chǎn)生幾何形變以及模糊導(dǎo)致重建質(zhì)量不佳,為提高重建圖像與原圖像的相似度,考慮對(duì)方案一的訓(xùn)練數(shù)據(jù)集做數(shù)據(jù)增強(qiáng)。
在對(duì)訓(xùn)練數(shù)據(jù)集做平移、旋轉(zhuǎn)、翻轉(zhuǎn)之后,訓(xùn)練數(shù)據(jù)集由原來的兩萬張擴(kuò)充到八萬張,一定程度上增大了訓(xùn)練數(shù)據(jù)集的數(shù)量,同時(shí)改善了圖像輸出效果。
3 人臉識(shí)別與檢測
3.1 FaceNet簡介
FaceNet可以用于人臉的檢測,識(shí)別和聚類。其方法主要是通過卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí),把圖像映射到歐幾里得空間,根據(jù)歐式距離大小給圖像分類,距離和圖片相似度有關(guān)。
3.2 基于LFW的精度測試
LFW數(shù)據(jù)集由美國馬薩諸塞大學(xué)阿姆斯特分校計(jì)算機(jī)視覺實(shí)驗(yàn)室整理,其包含13233張圖片。該數(shù)據(jù)集常用于研究非限制環(huán)境下的人臉識(shí)別問題。
經(jīng)測試驗(yàn)證,官方預(yù)訓(xùn)練模型精度能夠達(dá)到0.992±0.003,說明FaceNet的人臉識(shí)別和檢測的準(zhǔn)確度較高。
3.3 FaceNet人臉識(shí)別與檢測步驟
⑴ 搭建人臉庫,從網(wǎng)上下載明星圖片并分類至對(duì)應(yīng)名字的文件夾。
⑵ 圖片預(yù)處理,通過mtcnn.py程序?qū)崿F(xiàn)人臉的裁剪與對(duì)齊,實(shí)現(xiàn)圖片數(shù)據(jù)都為160*160大小的人臉。
⑶ 下載官方基于CASIA-WebFace數(shù)據(jù)集的預(yù)訓(xùn)練模型。
⑷ 結(jié)合SVM訓(xùn)練人臉識(shí)別系統(tǒng),通過classifier.py用圖像算出來的向量數(shù)據(jù)來訓(xùn)練一個(gè)SVM分類器,從而對(duì)人的身份進(jìn)行一個(gè)判斷,同時(shí)在.pkl格式的文件中存儲(chǔ)每一個(gè)分類。
⑸ 通過predict.py進(jìn)行人臉識(shí)別測試,compare.py進(jìn)行人臉檢測測試。
4 結(jié)果與分析
4.1 測試數(shù)據(jù)集準(zhǔn)備
在圖像超分辨率重建過程和人臉識(shí)別過程,均使用了3.3中搭建的人臉庫,從中選擇部分圖片建立測試集進(jìn)行測試。
4.2 EDV模型圖像重建測試結(jié)果
將測試數(shù)據(jù)集分別通過方案一、方案二重建模型進(jìn)行測試,測試結(jié)果如圖3。
通過人眼主觀視覺對(duì)比兩個(gè)方案的重建圖像可以發(fā)現(xiàn),圖像增強(qiáng)后的輸出圖像在形變和模糊程度有一定減少,眼部等高頻細(xì)節(jié)較增強(qiáng)前有明顯改善。
4.3 人臉識(shí)別測試結(jié)果
經(jīng)predict.py測試,方案一、方案二可以準(zhǔn)確識(shí)別身份。
4.4 人臉檢測結(jié)果
選取超分辨率模型的部分測試圖像進(jìn)行人臉檢測分析,見圖4。此處僅使用方案二的輸出結(jié)果,經(jīng)過compare.py代碼的測試,重建模型輸出的圖像能準(zhǔn)確進(jìn)行人臉檢測。
4.5 結(jié)果對(duì)比與分析
4.5.1 主觀圖像質(zhì)量評(píng)價(jià)
圖5是對(duì)上述兩個(gè)訓(xùn)練方案進(jìn)行部分圖像對(duì)比的結(jié)果。通過人眼視覺判斷輸出圖片的效果可以看出,在對(duì)訓(xùn)練數(shù)據(jù)集做了數(shù)據(jù)增強(qiáng)之后,重建圖像有了明顯改善。
4.5.2 客觀圖像質(zhì)量評(píng)價(jià)
由測試結(jié)果可知,兩種訓(xùn)練方法都可以做到低清重構(gòu)的人臉識(shí)別,但是精度有一定差別,見表2-表3。
由測試結(jié)果可見,方案二的主觀圖像質(zhì)量評(píng)價(jià),以及經(jīng)過圖像增強(qiáng)后的重構(gòu)精度和識(shí)別結(jié)果都優(yōu)于方案一。人眼主觀評(píng)價(jià)來看,即方案二的清晰度提高、失真減少。從客觀測得數(shù)據(jù)來看,方案二的PSNR與SSIM值小幅提高,閾值大幅減少。
5 結(jié)果與分析
隨著人們安全需求的提高,監(jiān)控視頻中的人臉識(shí)別準(zhǔn)確度也需要提高,然而大多數(shù)監(jiān)控視頻中人臉的清晰度通常較低,識(shí)別準(zhǔn)確度存在一定的問題。本文基于Tensorflow的深度學(xué)習(xí)方法,研究了低清人臉的重構(gòu)、檢測與識(shí)別,提高了一定的識(shí)別準(zhǔn)確度,這對(duì)城市低清道路監(jiān)控系統(tǒng)有重要意義。該模型在多角度人臉的重構(gòu)、識(shí)別檢測上還存在一定局限性,需改進(jìn),此外,將其應(yīng)用到視頻中進(jìn)行跟蹤、捕捉也是進(jìn)一步研究的方向。
參考文獻(xiàn)(References):
[1] Florian Schroff, Dmitry Kalenichenko, James Philbin. FaceNet:A unified embedding for face recognition and clustering[C].In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2015. 815-823
[2] Chang H,Yeung D Y,Xiong Y.Super-Resolution through Neighbor Embedding[C]// null.IEEE Computer Society,2004.
[3] LertrattanapanichS,Bose N K.High resolution image formation from low resolution frames using delaunay triangulation[J].IEEE Transactions on ImageProcessing,2002.11(12):1427-1441
[4] 張漫.圖像質(zhì)量評(píng)價(jià)算法的研究[D].山東大學(xué),2007.
[5] 孫玉寶,張錚嶸,韋志輝,et al.基于稀疏表示的圖像超分辨率重建快速算法[J].系統(tǒng)工程與電子技術(shù),2010.32(12):2696-2700
[6] 劉永信,段添添.基于深度學(xué)習(xí)的圖像超分辨率重建技術(shù)的研究[J].科技與創(chuàng)新,2018.119(23):46-49
[7] 方振宇.圖像超分辨率重建技術(shù)的研究及應(yīng)用[D].武漢理工大學(xué),2012.
[8] 賈亮.圖像超分辨率重建技術(shù)研究[D].南京航空航天大學(xué).