農(nóng)忠海,劉向榮
(廣西警察學(xué)院,廣西 南寧 530023)
近幾年,公安機(jī)關(guān)開展天網(wǎng)工程建設(shè),全國攝像頭數(shù)量已超過2 000萬個[1],視頻監(jiān)控在公安偵查破案、治安防控、警務(wù)指揮、社會管理等公共安全領(lǐng)域發(fā)揮了重大作用。天網(wǎng)視頻監(jiān)控系統(tǒng)對公共安全及時預(yù)防、現(xiàn)場處理和現(xiàn)場管控,應(yīng)對突發(fā)事件起到非常重要的作用。
天網(wǎng)是大型社會視頻監(jiān)控系統(tǒng),監(jiān)控點(diǎn)規(guī)模龐大、所處環(huán)境復(fù)雜,在視頻監(jiān)控圖像的獲取、壓縮、傳輸?shù)冗^程中難免會存在一些異常干擾因素,這些都會造成圖像質(zhì)量的下降(降質(zhì)、失真),從而導(dǎo)致其中包含的信息丟失,視頻監(jiān)控圖像經(jīng)常出現(xiàn)抖動、模糊、偏色、畫面凍結(jié)、黑屏與播放延時、亮度異常、視頻源丟失等異?,F(xiàn)象。
往往因為一些天網(wǎng)攝像頭關(guān)鍵點(diǎn)圖像質(zhì)量不好,直接影響了公共安全相關(guān)業(yè)務(wù)工作。面對海量前端攝像機(jī),如何及時、準(zhǔn)確地管理與掌握前端攝像機(jī)的視頻圖像質(zhì)量,保障監(jiān)控系統(tǒng)良好運(yùn)行,及時處理故障,提高維護(hù)效率,進(jìn)一步提高圖像聯(lián)網(wǎng)監(jiān)控系統(tǒng)的建設(shè)與應(yīng)用,促進(jìn)治安防控體系的完善,已成為天網(wǎng)視頻監(jiān)控系統(tǒng)真正發(fā)揮作用急需解決的問題,也是確保系統(tǒng)發(fā)揮良好社會效益的重要任務(wù)。
對天網(wǎng)視頻圖像質(zhì)量監(jiān)測,最初階段是采用人工檢查的主觀評價方法,隨著監(jiān)控攝像機(jī)數(shù)量在逐年增加,該方法已經(jīng)無法完成工作任務(wù)?,F(xiàn)在普遍采用視頻質(zhì)量輪巡系統(tǒng)的客觀評價方法,對大規(guī)模視頻圖像質(zhì)量的檢測,在效率上有了很大的提高。視頻質(zhì)量輪巡系統(tǒng)所采用的核心算法是基于傳統(tǒng)的無參考圖像質(zhì)量評價方法,主要采用基于人工特征提取的方法,該方法解決了天網(wǎng)視頻圖像質(zhì)量監(jiān)測存在誤報率高、漏報率高、準(zhǔn)確度不高等問題。本文主要研究應(yīng)用深度學(xué)習(xí)算法提高天網(wǎng)視頻監(jiān)控異常圖像發(fā)現(xiàn)的準(zhǔn)確性。
圖像質(zhì)量評價有主觀、客觀兩種方法[2]。主觀圖像質(zhì)量評價方法就是采用人工肉眼觀看的方式,由人對正常圖像和異常圖像進(jìn)行評價的方法。在圖像數(shù)量少的情況下,可以采用主觀圖像質(zhì)量評價方法,但是像天網(wǎng)這樣具有海量監(jiān)控圖像的系統(tǒng),該方法就難以完成任務(wù)。客觀圖像質(zhì)量評價方法就是通過計算機(jī)程序根據(jù)一定的參數(shù)對圖像質(zhì)量進(jìn)行判定的方法,而使用全參考圖像進(jìn)行判定的叫全參考客觀圖像質(zhì)量評價方法,使用部分參考圖像進(jìn)行判定的叫半?yún)⒖伎陀^圖像質(zhì)量評價方法,不使用參考圖像進(jìn)行判定的叫無參考客觀圖像質(zhì)量評價方法[3]。
全參考圖像質(zhì)量評價需要將失真前圖像的所有信息和失真圖像進(jìn)行對比,如均方根誤差(MSE)和峰值信噪比(PSNR)[4]。半?yún)⒖紙D像使用失真前圖像的部分信息作為參考,對失真后圖像質(zhì)量進(jìn)行評價。全參考和半?yún)⒖嫉膱D像質(zhì)量評價方法多用于圖像傳輸和壓縮。
在實際應(yīng)用中,如果要對圖像的清晰度衰減程度進(jìn)行評價,圖像清晰度的衰減可能來自于傳輸和壓縮,此時可以通過和壓縮傳輸前的圖像進(jìn)行比對來衡量其衰減程度。但更多的圖像質(zhì)量問題是來自于聚焦錯誤或其他意外故障,這是我們主要關(guān)注的異常情況,此時圖像的來源即攝像機(jī)端的圖像已經(jīng)失真,沒有無失真圖像可參考,所以要用無參考圖像質(zhì)量評價方法。無參考圖像質(zhì)量評價是一種無須原始圖像任何信息,直接對目標(biāo)圖像進(jìn)行質(zhì)量評價的方法,是實際應(yīng)用中最廣泛的評價方法。
目前的天網(wǎng)視頻質(zhì)量輪巡系統(tǒng)基于傳統(tǒng)的無參考圖像質(zhì)量評價方法,采用基于人工特征提取的方法,對圖像的模糊、曝光、偏色以及遮擋等指標(biāo)進(jìn)行判斷,在對于單一攝像機(jī)或者網(wǎng)上公開的圖像質(zhì)量數(shù)據(jù)集如LIVE、TID2008/TID2013等進(jìn)行判斷方面取得了較好的效果,但在實際應(yīng)用中效果并不理想?;趥鹘y(tǒng)方法的圖像質(zhì)量評價方法主要存在模型容量小,無法考慮攝像機(jī)的多樣性,以及在實際使用中場景的復(fù)雜性,對實際場景泛化能力差等缺點(diǎn)。
深度學(xué)習(xí)是一種模擬人腦神經(jīng)網(wǎng)絡(luò)的一種算法,在很多專門領(lǐng)域應(yīng)用達(dá)到了像人腦一樣學(xué)習(xí)、歸納的效果,目前在圖像質(zhì)量評價方面也有一些應(yīng)用研究。比如,在計算視覺與模式識別領(lǐng)域頂級國際會議CVPR 2014上,Kang等人的論文“Convolutional Neural Networks for No-Reference Image Quality Assessment”[5]設(shè)計的卷積神經(jīng)網(wǎng)絡(luò)(CNN),對圖像的一部分和整幅圖像都進(jìn)行質(zhì)量評價。
深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)(CNN)的特征提取層參數(shù)是通過訓(xùn)練數(shù)據(jù)學(xué)習(xí)得到的,避免了人工特征提取,通過同一特征圖的權(quán)值共享,大幅減少了網(wǎng)絡(luò)參數(shù),同時也降低了圖像質(zhì)量評價實現(xiàn)的復(fù)雜度。CNN具有良好的容錯能力、并行處理能力和自學(xué)習(xí)能力,在處理二維圖像問題上具有良好的魯棒性和運(yùn)算效率。因此,應(yīng)用深度學(xué)習(xí),在天網(wǎng)視頻監(jiān)控圖像質(zhì)量評價方面將有比傳統(tǒng)方法更好的效果。
本文研究使用深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型算法對視頻監(jiān)控圖像進(jìn)行質(zhì)量檢測。首先人工對天網(wǎng)中存在的異常視頻監(jiān)控圖像進(jìn)行抓取;然后人工標(biāo)定異常圖像為清晰、輕微模糊或嚴(yán)重模糊,并對應(yīng)的異常圖像提取歷史記錄的清晰圖片;接著對輸入圖像進(jìn)行裁剪和縮放預(yù)處理,處理后的數(shù)據(jù)在tensorflow serving進(jìn)行數(shù)據(jù)訓(xùn)練,以獲得有效的圖像質(zhì)量評價模型。本文的圖像質(zhì)量評價算法基于優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)(CNN),進(jìn)行天網(wǎng)視頻監(jiān)控圖像質(zhì)量評價方法有三種,分別是清晰度評價、曝光評價和偏色評價。
陳欣的“基于深度學(xué)習(xí)的無參考模糊圖像質(zhì)量評價方法研究”[6],采用傳統(tǒng)CNN方法在圖像上取不同的塊分別計算清晰度值然后求平均,由于圖像空白區(qū)域和被虛化的部分都是模糊的,因此會將這兩種圖像評價為偏向模糊,實際上這兩種圖像都是正常的清晰圖像。針對天網(wǎng)視頻監(jiān)控圖像的特點(diǎn),本文提出取所有圖像塊的均值作為整張圖的評價值,將整張圖像采樣同時輸入網(wǎng)絡(luò),考慮圖像不同區(qū)域清晰度的差異,尤其是對存在大面積空白和背景虛化的圖像。
通過tensorflow serving構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),以從監(jiān)控平臺抓取的圖片作為訓(xùn)練數(shù)據(jù),訓(xùn)練出可以評價圖像清晰度、曝光和偏色模型并測試效果,采用“理論模型→原型系統(tǒng)→實驗驗證→理論模型”的做法。
2.2.1 數(shù)據(jù)獲取
訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)所用的數(shù)據(jù)主要來自天網(wǎng)抓取的圖像數(shù)據(jù),包括多種前端設(shè)備,從分辨率為1080 p圖像到CIF圖像,工作模式包括可見光和紅外,場景包括室內(nèi)、室外、交通、卡口等多種場景共32 516張圖像,取出60%作為訓(xùn)練集,分別取20%作為驗證集和測試集。
2.2.2 數(shù)據(jù)標(biāo)定
由于抓取圖像的前端設(shè)備的種類非常多,且場景多,不同類型的前端成像效果不同,為了減少人工標(biāo)定時的復(fù)雜度,我們將圖像清晰度分為清晰、輕微模糊、嚴(yán)重模糊三個等級。
一級:清晰圖片,指圖像內(nèi)容邊緣清晰、細(xì)節(jié)紋理豐富,清晰度無明顯衰減。
二級:輕微模糊,指圖像的內(nèi)容大致都能看清,邊緣不夠銳利,畫面中的紋理不明顯,清晰度有一定程度的衰減。產(chǎn)生該問題的主要原因是輕微的失焦。
三級:嚴(yán)重模糊,指圖像有明顯的模糊,導(dǎo)致部分內(nèi)容已經(jīng)無法分辨,紋理和邊緣基完全看不到。產(chǎn)生這種問題的主要原因是嚴(yán)重的失焦。
對于不同分辨率的圖像清晰度的比較,我們僅考慮實際分辨率下圖像內(nèi)容是否清晰,即以達(dá)到圖像分辨率極限作為最清晰,所有圖像在標(biāo)定時以原始分辨率查看。
2.2.3 數(shù)據(jù)預(yù)處理
由于采集的圖像大多是1080 p和720 p的高清圖像,1080 p單幀的輸入節(jié)點(diǎn)數(shù)為1920×1080×3,如果直接輸入原圖,則需要對整張圖像進(jìn)行卷積,計算量非常大,會嚴(yán)重影響圖像質(zhì)量評價系統(tǒng)的運(yùn)行效率,所以要對輸入圖像進(jìn)行裁剪和縮放。
對于清晰度評價算法則不能對圖像進(jìn)行縮放,因為縮小圖像會導(dǎo)致圖像的高頻信息丟失,無法分辨圖像的清晰度,所以采用裁剪下的圖像塊作為輸入。在原圖像上等間距裁剪20個1×64的圖像塊,將20個1×64的圖像在垂直方向?qū)盈B,生成一個高20寬63的三通道圖像。
圖1 圖像塊裁取方式
這里假設(shè)圖像在垂直方向的分辨率和水平方向分辨率是相同的。在實際應(yīng)用環(huán)境中,由于sensor和鏡頭像差,垂直方向和水平方向的分辨率是不同的,但相對于圖像清晰度出現(xiàn)異常情況和正常情況清晰度的差別,垂直和水平方向分辨率的差異可以忽略,為了減小計算量和內(nèi)存占用,提高運(yùn)行速度,從圖像中隨機(jī)裁剪1×64的圖像塊作為輸入。
實際圖像各部分的分辨率是不一致的,如果對所有選區(qū)的樣本進(jìn)行標(biāo)定,則工作量太大,難以實現(xiàn),所以近似圖像每個部分分辨率一致。由于清晰度值是連續(xù)的,采用一個數(shù)值來表示每個圖像清晰度,將不同三個清晰度值分別映射到0、0.5和1。
對于曝光和偏色算法,將圖像統(tǒng)一縮放到96×96,然后隨機(jī)裁剪出64×64的圖像塊作為輸入,這樣既保留了圖像顏色和亮度信息,又能反映出圖像整體的亮度和顏色分布。分別用偏藍(lán)值和偏紅值來表示圖像偏色程度,用一個曝光數(shù)值來表示圖像曝光情況。
2.2.4 模型訓(xùn)練
清晰度評價模型的輸入大小為1×64,基于CNN的分類網(wǎng)絡(luò),將網(wǎng)絡(luò)結(jié)構(gòu)在水平方向上做卷積和池化,在20個圖像塊分別經(jīng)過相同參數(shù)的卷積和池化以及一個全連接層后,得到一個大小為[batch_size,20,36]的tensor,batch_size為一個batch的樣本圖像數(shù)目,20表示輸入中包含的20個圖像塊樣本,36為每個樣本最后的輸出節(jié)點(diǎn)數(shù),最后將20個樣本中每個樣本的36個節(jié)點(diǎn)合并成一個720節(jié)點(diǎn)的向量,經(jīng)過一個全連接層,輸出1個清晰度值。取所有圖像塊的均值作為整張圖的評價值,對整張圖像采樣同時輸入網(wǎng)絡(luò)考慮了圖像不同區(qū)域清晰度的差異,尤其是對存在大面積空白和背景虛化的圖像。傳統(tǒng)CNN方法在圖像上取不同的塊分別計算清晰度值然后求平均,由于圖像空白區(qū)域和被虛化的部分都是模糊的,因此會將這兩種圖像評價為偏向模糊,實際上這兩種圖像都是正常的清晰圖像。
圖2 清晰度評價網(wǎng)絡(luò)
圖3 偏色評價網(wǎng)絡(luò)
圖4 曝光評價網(wǎng)絡(luò)
曝光評價模型輸入為64×64×3,即先將圖像縮放到64×64大小,基于CNN回歸網(wǎng)絡(luò),輸出一個值評價曝光程度。
偏色評價模型輸入為64×64×3,即先將圖像縮放到64×64大小,基于CNN回歸網(wǎng)絡(luò),輸出兩個值評價偏色程度。
經(jīng)過200個epoch的訓(xùn)練,清晰度評價模型交叉熵收斂到0.4,曝光和偏色模型分別收斂到0.09和0.11。
部署基于tensorflow serving,分為client端和server端,server端運(yùn)行在有GPU的服務(wù)器上,可以實現(xiàn)同時對多路圖像進(jìn)行分析。
在推斷時,在輸入圖像上取等間距的20個1×64的圖像塊作為輸入x[20],分別得到20個塊的分類結(jié)果y[20],統(tǒng)計y[20]中三個分類的個數(shù),取個數(shù)最多的分類作為整張圖片的分類結(jié)果。
圖5 清晰圖像與切塊后的輸入
圖6 輕微模糊圖像與切塊后的輸入
圖7 嚴(yán)重模糊圖像與切塊后的輸入
采用皮爾遜線性相關(guān)系數(shù)PLCC(Pearson Linear Correlation Coefficient)對圖像評價方法進(jìn)行評價,PLCC的數(shù)學(xué)表達(dá)式為
式中,n為圖像數(shù)量;為主觀圖像質(zhì)量評價分值;為客觀圖像質(zhì)量評價分值;分別表示兩組數(shù)據(jù)的均值。
應(yīng)用上述方法在測試集數(shù)據(jù)上測試了清晰度分辨模型,PLCC達(dá)到了0.80。這個結(jié)果比已有的研究在LIVE或TID2008等公開數(shù)據(jù)集上得到的超過0.9的PLCC準(zhǔn)確率要低得多。應(yīng)該是天網(wǎng)實際場景圖像比公開數(shù)據(jù)集的情況復(fù)雜,因此準(zhǔn)確率相對較低。
應(yīng)用本圖像質(zhì)量評價模型,通過對天網(wǎng)圖像質(zhì)量輪巡系統(tǒng)上的1000臺設(shè)備進(jìn)行了輪巡,檢測出存在圖像模糊問題的設(shè)備26臺,準(zhǔn)確率0.81,召回率0.82,存在偏色問題的設(shè)備5臺,存在曝光問題的設(shè)備8臺。
基于深度學(xué)習(xí)的天網(wǎng)圖像質(zhì)量輪巡系統(tǒng),可以利用大數(shù)據(jù)的優(yōu)勢,對實際應(yīng)用中攝像機(jī)種類多且場景復(fù)雜的情況有較好的泛化能力,相對于傳統(tǒng)方法更適用于實際應(yīng)用,提高了發(fā)現(xiàn)問題設(shè)備的準(zhǔn)確率。在應(yīng)用過程中還可以通過對異常圖像的采集,經(jīng)過人工標(biāo)定,加入訓(xùn)練數(shù)據(jù),后續(xù)只要更新模型模塊即可不斷提高圖像質(zhì)量評價的準(zhǔn)確率。得益于當(dāng)前深度學(xué)習(xí)硬件加速技術(shù)的發(fā)展,基于深度學(xué)習(xí)的天網(wǎng)圖像質(zhì)量輪巡系統(tǒng)可以有很高的運(yùn)行速度,在短時間內(nèi)對大量設(shè)備進(jìn)行輪巡,可用于公安部門天網(wǎng)攝像頭輪巡,也可拓展延伸到交通部門、電力行業(yè)、大型建筑群、運(yùn)營商監(jiān)控等建設(shè)有大型視頻監(jiān)控系統(tǒng)的領(lǐng)域?!?/p>