黃有山,候 鳴,秦宏帥,徐 玲,施剛強(qiáng),胡一奇
(1.浙江新納陶瓷新材有限公司,浙江 東陽 322100;2.滁州市質(zhì)監(jiān)局,安徽 滁州 239000;3.杭州電子科技大學(xué),浙江 杭州 310018)
運(yùn)動(dòng)目標(biāo)檢測是目前智能視頻監(jiān)控的基礎(chǔ)技術(shù)之一,其核心是利用計(jì)算機(jī)視覺技術(shù)和數(shù)字圖像處理技術(shù)來對獲取的視頻進(jìn)行自動(dòng)分析處理進(jìn)而判斷其中是否有運(yùn)動(dòng)目標(biāo)存在的一種技術(shù)。運(yùn)動(dòng)目標(biāo)檢測廣泛應(yīng)用于機(jī)動(dòng)車輔助駕駛、智能視頻監(jiān)控、機(jī)器人以及人體行為分析等領(lǐng)域。在一些特定區(qū)域如機(jī)場、政府、軍事區(qū)等對安全性要求比較高的場景,需采用運(yùn)動(dòng)目標(biāo)檢測對一些危險(xiǎn)情況進(jìn)行及時(shí)報(bào)警。運(yùn)動(dòng)目標(biāo)檢測還可用于對運(yùn)動(dòng)目標(biāo)的跟蹤和運(yùn)動(dòng)分析,不僅能用于安防方面的人員追蹤,還能為人體運(yùn)動(dòng)研究、運(yùn)動(dòng)目標(biāo)個(gè)體行為研究等提供支持。
隨著人工智能、機(jī)器視覺技術(shù)的不斷進(jìn)步,人們對該技術(shù)的需求也越來越高。但在實(shí)際應(yīng)用中,因運(yùn)動(dòng)目標(biāo)圖像容易受到光照、穿著、姿態(tài)、遮擋以及拍攝角度的多樣性等影響,運(yùn)動(dòng)目標(biāo)檢測成為計(jì)算機(jī)視覺領(lǐng)域的研究難點(diǎn)與熱點(diǎn)。當(dāng)前制約該技術(shù)發(fā)展的因素有以下幾個(gè):虛警問題,即計(jì)算機(jī)把不是運(yùn)動(dòng)目標(biāo)的物體或者背景當(dāng)做了運(yùn)動(dòng)目標(biāo);檢測率不理想,即計(jì)算機(jī)把運(yùn)動(dòng)目標(biāo)當(dāng)做了非運(yùn)動(dòng)目標(biāo)來處理;檢測速度慢,即計(jì)算機(jī)每秒能處理的視頻幀數(shù)少。
芮挺[1]等提出了基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的運(yùn)動(dòng)目標(biāo)檢測算法,最終確定深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)共分7層,卷積核大小為9×9,隱含層輸出特征維數(shù)為360維左右時(shí)效果最佳。Carlos Ismael Orozco[2]等提出了一個(gè)深度卷積網(wǎng)絡(luò)架構(gòu),將之前生成的候選區(qū)域劃分為運(yùn)動(dòng)目標(biāo)或非運(yùn)動(dòng)目標(biāo)——使用一個(gè)簡單的金字塔滑動(dòng)窗口方法。卷積神經(jīng)網(wǎng)絡(luò)在這個(gè)系統(tǒng)中不需要預(yù)先分類階段的幫助,也不需要特殊的模糊步驟或首字母條件,就能從非運(yùn)動(dòng)目標(biāo)圖像中對運(yùn)動(dòng)目標(biāo)進(jìn)行分類,使其比其他基于卷積神經(jīng)網(wǎng)絡(luò)的解決方案更直接。胡洋[3]等提出了基于回歸窗口和全局概率的運(yùn)動(dòng)目標(biāo)檢測方法,并進(jìn)一步探索端到端的網(wǎng)絡(luò)結(jié)構(gòu)與傳播方式,以保證較高的檢測準(zhǔn)確度。薛璐晨[4]等設(shè)計(jì)了基于OpenCV的運(yùn)動(dòng)目標(biāo)異常檢測系統(tǒng),通過金字塔Lucas-Kanade方法跟蹤分析特征點(diǎn)光流,獲得特征點(diǎn)在圖像中的光流特性,進(jìn)行運(yùn)動(dòng)估計(jì)。Sanjukta Ghosh[5]等提出了一種利用訓(xùn)練有素的深度卷積神經(jīng)網(wǎng)絡(luò)來檢測運(yùn)動(dòng)目標(biāo)的新方法,該方法避免了通過邊界框?qū)τ?xùn)練數(shù)據(jù)中運(yùn)動(dòng)目標(biāo)位置的不確定定位。岳頎[6]等采用PCA非監(jiān)督學(xué)習(xí)方式獲取導(dǎo)向性初始化參數(shù)數(shù)值方法,并基于對網(wǎng)絡(luò)誤差的傳播分析,提出指數(shù)自適應(yīng)彈性動(dòng)量參數(shù)學(xué)習(xí)方法。靳培飛[7]等根據(jù)SVM(Support Vector Machine)檢測運(yùn)動(dòng)目標(biāo)時(shí)所表現(xiàn)出的特點(diǎn),快速提取出運(yùn)動(dòng)目標(biāo)ROI區(qū)域,然后在提取的ROI內(nèi)部使用可變形部件模型(DPM)檢測運(yùn)動(dòng)目標(biāo)。謝林江[8]提出一種改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)模型,即在第一個(gè)卷積層前加入一個(gè)選擇性注意層,模擬人眼的選擇性注意功能,選取LBP紋理預(yù)處理和梯度預(yù)處理為該層運(yùn)算。
本文首先為了全面描述運(yùn)動(dòng)目標(biāo)的特征屬性,使用HOG(Histogram of Oriented)特征和顏色特征相結(jié)合的特征融合方法,克服了單特征描述能力不全面的問題,并使用主成分分析法對特征維度進(jìn)行降維,克服了多個(gè)特征數(shù)據(jù)量大的問題;其次為了能高效識別運(yùn)動(dòng)目標(biāo),使用經(jīng)過調(diào)優(yōu)結(jié)構(gòu)后的BP神經(jīng)網(wǎng)絡(luò),克服了檢測時(shí)間長的問題。
運(yùn)動(dòng)目標(biāo)檢測的任務(wù)是將運(yùn)動(dòng)的物體(感興趣的物體)從背景中最大程度地提取出來,一般使用黑白二值圖來表示運(yùn)動(dòng)目標(biāo)的檢測。Stauffer C[9]等提出了基于利用高斯分布來描述像素點(diǎn)的方法。該方法通過不斷更新高斯分布的參數(shù)來實(shí)現(xiàn)對背景的適應(yīng),同時(shí)通過維護(hù)一組權(quán)值較高的高斯分布(一般是3~5個(gè))來實(shí)現(xiàn)對動(dòng)態(tài)背景的擬合。
存在像素X,則其混合高斯模板為:
其中δw為提前設(shè)好的閾值,ωtk代表了第K個(gè)高斯分量的權(quán)重。
在判斷當(dāng)前點(diǎn)屬于前景還是背景時(shí)需要經(jīng)過以下幾個(gè)步驟:
(1)高斯分量按照權(quán)重從大到小與像素X逐一對比,判斷像素X是否落在高斯分量的中心2.5σ以內(nèi);
(2)若落在其內(nèi)則判定為背景,落在其外則繼續(xù)對比下一個(gè)高斯分量;
(3)重復(fù)2步驟直到最后一個(gè)高斯分量,若依然沒有落入相應(yīng)的高斯分量的2.5σ以內(nèi)則判定為前景。
混合高斯模板的高斯分量更新只在前景檢測的結(jié)果為前景或前景檢測結(jié)束時(shí)Q的數(shù)量小于設(shè)定的上限時(shí)對其維護(hù)的高斯分量進(jìn)行維護(hù)。當(dāng)前景檢測結(jié)果為背景且Q的數(shù)量小于設(shè)定的上限,則為該像素X建立一個(gè)高斯分量并加入到已有的高斯分量組中,若Q等于設(shè)定的上限則將權(quán)重最小的高斯分量刪除并為該像素X建立一個(gè)高斯分量并加入到已有的高斯分量組中。
混合高斯模板為像素X所維護(hù)的高斯分量數(shù)據(jù)中的不同參數(shù)的公式如下:
其中α和β為更新系數(shù),由一般經(jīng)驗(yàn)得知α和β通常為0.02。
對于所有維護(hù)的高斯分量的權(quán)重ωtk、ωt+1k的更新如下:
其中式(5)是像素X中權(quán)重最大的高斯分量的權(quán)重的更新公式;式(6)是其余高斯分量權(quán)重的更新公式;式(7)是對已有的高斯分量進(jìn)行系數(shù)歸一化的公式,這樣設(shè)置是為了削弱除權(quán)重最大的高斯分量之外的其余高斯分量的權(quán)重。
算法通過視頻序列的第一幀圖像來初始化混合高斯模板,并在后續(xù)的視頻序列檢測中繼續(xù)完善混合高斯模板的高斯分量。混合高斯模板對前景的提取效果好、結(jié)構(gòu)簡單,對計(jì)算機(jī)的要求也相對低,在較小系統(tǒng)消耗的情況下能做到每秒20幀左右的速度,該方法已經(jīng)能滿足視頻處理中的實(shí)時(shí)性要求。
人工神經(jīng)網(wǎng)絡(luò)是研究人員在人腦神經(jīng)網(wǎng)絡(luò)的啟發(fā)下通過模擬人腦神經(jīng)網(wǎng)絡(luò)工作方法來實(shí)現(xiàn)的一種模式識別方法。在圖1中,最左側(cè)為輸入層,中間為隱藏層,最右側(cè)為輸出層。相同層之間無連線,不同層中間全部連線。每一條線段代表一個(gè)權(quán)值。除輸入層以外每層點(diǎn)的求值公式如下:
圖1 神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
式(8)中wi為第i個(gè)點(diǎn)對應(yīng)的權(quán)值,為第i個(gè)點(diǎn)的值。訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程就是尋找最優(yōu)權(quán)值組的過程。以BP神經(jīng)網(wǎng)絡(luò)為例,其通過反向傳播來實(shí)現(xiàn)對權(quán)值組的最優(yōu)調(diào)整,通過尋找使上層網(wǎng)絡(luò)的實(shí)際輸出與下層網(wǎng)絡(luò)的實(shí)際值之間的平方誤差最小化。誤差求和公式如下:
式中outputs指神經(jīng)網(wǎng)絡(luò)中輸出層單元的集合,tkd和okd指訓(xùn)練樣本d在第k個(gè)輸出層的值。
該方法需要在解空間中尋找能使平方誤差和E最小的權(quán)值組。同時(shí)為了防止神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)陷入無限循環(huán)的問題,一般給其設(shè)立了3個(gè)結(jié)束訓(xùn)練的條件:
(1)迭代次數(shù)超標(biāo);
(2)平方誤差和E降低到了預(yù)先規(guī)定的值;
(3)當(dāng)其在測試樣本中達(dá)到預(yù)先要求。
使用pets2001標(biāo)準(zhǔn)視頻進(jìn)行測試。pets2001標(biāo)準(zhǔn)視頻由測試視頻和訓(xùn)練視頻共5個(gè)部分組成,由于其中第一部分有樹木遮擋、第五部分為車載鏡頭拍攝,使用其中第二部分和第四部分作為算法的室外場景來對算法進(jìn)行實(shí)驗(yàn)。
在特征提取步驟中,首先利用獲取的代表運(yùn)動(dòng)目標(biāo)位置的矩形框坐標(biāo)從原始圖像幀中截取相應(yīng)位置的圖像作為運(yùn)動(dòng)目標(biāo)圖像,并將其歸一化到預(yù)先設(shè)定的大小以便后續(xù)的特征提取操作,使用的歸一化大小是64×128像素。
其次,從運(yùn)動(dòng)目標(biāo)圖像中按照HOG特征和顏色特征的提取方法獲取描述運(yùn)動(dòng)目標(biāo)屬性的特征數(shù)據(jù)組。然后通過主成分分析法將獲取的描述運(yùn)動(dòng)目標(biāo)屬性的特征數(shù)據(jù)組維度降低。
模式識別步驟中,BP神經(jīng)網(wǎng)絡(luò)在得到降維后的代表運(yùn)動(dòng)目標(biāo)屬性的特征數(shù)據(jù)組之后,調(diào)用事先使用INRIA運(yùn)動(dòng)目標(biāo)數(shù)據(jù)庫中的訓(xùn)練樣本訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)來對運(yùn)動(dòng)目標(biāo)進(jìn)行智能判定,并輸出該運(yùn)動(dòng)目標(biāo)為運(yùn)動(dòng)目標(biāo)的概率和非運(yùn)動(dòng)目標(biāo)的概率。通過BP神經(jīng)網(wǎng)絡(luò)輸出的代表運(yùn)動(dòng)目標(biāo)為運(yùn)動(dòng)目標(biāo)的概率和非運(yùn)動(dòng)目標(biāo)的概率來判斷運(yùn)動(dòng)目標(biāo)檢測環(huán)節(jié)檢測出來的目標(biāo)是否為運(yùn)動(dòng)目標(biāo):若其為運(yùn)動(dòng)目標(biāo)則將代表該運(yùn)動(dòng)目標(biāo)位置的矩形框標(biāo)記成藍(lán)色;否則不做反應(yīng),直接將輸入圖像幀作為輸出圖像幀輸出。
圖2顯示了算法在pets2001標(biāo)準(zhǔn)視頻上的部分實(shí)驗(yàn)結(jié)果。算法檢測出了視頻中的運(yùn)動(dòng)的運(yùn)動(dòng)目標(biāo),并對其作出了標(biāo)記。
根據(jù)檢測結(jié)果,從檢測率、檢測速度、對運(yùn)動(dòng)目標(biāo)錯(cuò)誤檢測為非運(yùn)動(dòng)目標(biāo)的概率、對背景或非運(yùn)動(dòng)目標(biāo)檢測為運(yùn)動(dòng)目標(biāo)的概率共4個(gè)指標(biāo)來對算法進(jìn)行效果和性能的評估。實(shí)驗(yàn)證明,采用基于神經(jīng)網(wǎng)絡(luò)算法的運(yùn)動(dòng)目標(biāo)檢測在使用單隱層結(jié)構(gòu)BP神經(jīng)網(wǎng)絡(luò)、隱層節(jié)點(diǎn)數(shù)為80、閾值為運(yùn)動(dòng)目標(biāo)概率為1.4,非運(yùn)動(dòng)目標(biāo)概率為0.4的時(shí)候達(dá)到最佳值,算法表現(xiàn)如表1。將本樣本集運(yùn)用目前主流的HOG特征+支持向量機(jī)SVM算法進(jìn)行運(yùn)動(dòng)目標(biāo)檢測,結(jié)果對比如表2。
表1 檢測方法性能指標(biāo)
表2 不同算法的識別率比較
圖2 pets2001標(biāo)準(zhǔn)視頻檢測試驗(yàn)結(jié)果
上述對比結(jié)果進(jìn)一步表明基于神經(jīng)網(wǎng)絡(luò)算法的運(yùn)動(dòng)目標(biāo)檢測能夠更好地提取運(yùn)動(dòng)目標(biāo)特征并完成對運(yùn)動(dòng)目標(biāo)的檢測,與HOG特征+支持向量機(jī)SVM算法相比,正確率有明顯提升,識別速度也有所提高。
在室外場景下基于神經(jīng)網(wǎng)絡(luò)算法進(jìn)行運(yùn)動(dòng)目標(biāo)檢測,使用HOG特征和顏色特征相結(jié)合的特征融合方法,并使用主成分分析法對特征維度進(jìn)行降維。實(shí)驗(yàn)證明,算法對視頻中的運(yùn)動(dòng)目標(biāo)檢出效果好。同時(shí),通過與目前使用較多的HOG特征和支持向量機(jī)SVM的方法進(jìn)行對比,在總識別率上有明顯提升,在檢測速度上也有所提高。