基于時空感知級聯(lián)神經(jīng)網(wǎng)絡(luò)的視頻前背景分離

2020-04-28 05:47楊敬鈺宋曉林岳煥景

天津大學(xué)學(xué)報(自然科學(xué)與工程技術(shù)版) 2020年6期

楊敬鈺，師?雯，李?坤，宋曉林，岳煥景

楊敬鈺1，師?雯1，李?坤2，宋曉林1，岳煥景1

(1. 天津大學(xué)電氣自動化與信息工程學(xué)院，天津 300072；2. 天津大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院，天津 300350)

針對在復(fù)雜情景下視頻前背景分離技術(shù)中存在的前景泄露問題，設(shè)計開發(fā)了一個端對端的二級級聯(lián)深度卷積神經(jīng)網(wǎng)絡(luò)，實現(xiàn)了對輸入視頻序列進(jìn)行精確的前景和背景分離．所提網(wǎng)絡(luò)由一級前景檢測子網(wǎng)絡(luò)和二級背景重建子網(wǎng)絡(luò)串聯(lián)而成．一級網(wǎng)絡(luò)融合時間和空間信息，其輸入包含2個部分：第1個部分是3張連續(xù)的彩色RGB視頻幀，分別為上一幀、當(dāng)前幀和下一幀；第2個部分是3張與彩色視頻幀相對應(yīng)的光流圖．一級前景檢測子網(wǎng)絡(luò)通過結(jié)合2部分輸入對視頻序列中運(yùn)動的前景進(jìn)行精確檢測，生成二值化的前景掩膜．該部分網(wǎng)絡(luò)是一個編碼器-解碼器網(wǎng)絡(luò)：編碼器采用VGG16的前5個卷積塊，用來提取兩部分輸入的特征圖，并在經(jīng)過每一個卷積層后對兩類特征圖進(jìn)行特征融合；解碼器由5個反卷積模塊構(gòu)成，通過學(xué)習(xí)特征空間到圖像空間的映射，從而生成當(dāng)前幀的二值化的前景掩膜．二級網(wǎng)絡(luò)包含3個部分：編碼器、傳輸層和解碼器．二級網(wǎng)絡(luò)能夠利用當(dāng)前幀和生成的前景掩膜對缺失的背景圖像進(jìn)行高質(zhì)量的修復(fù)重建．實驗結(jié)果表明，本文所提時空感知級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)在公共數(shù)據(jù)集上取得了較其他方法更好的結(jié)果，能夠應(yīng)對各種復(fù)雜場景，具有較強(qiáng)的通用性和泛化能力，且前景檢測和背景重建結(jié)果顯著超越多種現(xiàn)有方法．

背景重建；運(yùn)動物體檢測；卷積神經(jīng)網(wǎng)絡(luò)；光流

前背景分離是視頻分析技術(shù)中的一項基本任務(wù)，目的是從輸入視頻序列中提取出兩個互補(bǔ)分量：靜態(tài)背景分量和運(yùn)動前景分量，其在計算機(jī)視覺領(lǐng)域中有非常廣泛的應(yīng)用，包括運(yùn)動檢測[1]、目標(biāo)跟蹤[2]、行為識別[3]等．前背景分離任務(wù)在真實的視頻場景下面臨著各種挑戰(zhàn)，如惡劣天氣、相機(jī)抖動、光照條件變化、背景移動等，在這些情況下，前景常常會泄露到背景當(dāng)中，造成不準(zhǔn)確的分離結(jié)果．

在過去的十?dāng)?shù)年間，研究者們已提出許多方法用來解決這一問題．早期的研究工作通過在各種統(tǒng)計模型(如高斯混合模型[4]、非參數(shù)模型等[5])下局部地估計像素強(qiáng)度的分布，從而將像素分類為背景成分或前景成分．這類方法計算復(fù)雜度低，分離速度快，可以很好地處理簡單的視頻場景．但由于其忽略了視頻序列中重要的全局結(jié)構(gòu)，在復(fù)雜場景下分離效果往往不盡如人意，常常丟失復(fù)雜的紋理、輪廓等細(xì)節(jié)信息．

近年來，基于魯棒主成分分析[6](robust principal component analysis，RPCA)的方法引起了學(xué)界的廣泛關(guān)注．Candès等[6]表明前背景分離可以建模成一個低秩矩陣恢復(fù)問題：將每一個視頻幀拉成一列，按時間順序組成一個二維觀測矩陣．背景分量在時域上是不變的，因此其對應(yīng)一個低秩矩陣分量；而前景分量在視頻幀上通常只占據(jù)一小部分，可通過稀疏矩陣建模．因此，前背景分離任務(wù)則轉(zhuǎn)化成了將觀測矩陣分解為低秩陣和稀疏陣的問題．這種方法充分利用了視頻序列的全局結(jié)構(gòu)信息，許多研究工作基于這一基本原理針對特定問題做出了相應(yīng)改進(jìn)，極大地提高了分離的準(zhǔn)確性．Zhou等[7]提出通過檢測連續(xù)異常值來分離運(yùn)動物體，前景和背景分量通過馬爾科夫隨機(jī)場(Markov random field，MRF)同時優(yōu)化，分離結(jié)果連續(xù)平滑，具有很好的視覺效果．同時Zhou等[7]的模型中還引入了仿射變換算子，可以將相機(jī)視角不固定的視頻序列配準(zhǔn)到固定視角下，從而解決動態(tài)視頻背景恢復(fù)困難的問題．但該方法僅可以處理背景的小范圍移動，當(dāng)背景運(yùn)動相對較大時，分離結(jié)果嚴(yán)重失真，且分離出的前景分量的輪廓信息不精確．Cao等[8]在魯棒主成分分析的框架基礎(chǔ)上引入總變差正則化約束時空連續(xù)性，該方法對于一些包含不規(guī)則運(yùn)動的場景能夠取得不錯的效果，例如當(dāng)視頻中含有搖晃的樹枝、波動的水面等，一般的方法會將這類物體歸為前景，但事實上它們是屬于背景的，Cao等[8]的方法則可以很好地處理這類問題．但該方法是批處理方法，需要將所有的視頻幀統(tǒng)一處理，計算復(fù)雜度高，程序運(yùn)行較慢，對計算機(jī)硬件要求較高，且同樣不能處理動態(tài)背景．

簡而言之，這些傳統(tǒng)方法通常依賴于很強(qiáng)的先驗條件，所以它們可以在特定的條件下很好地處理一些場景．但是，當(dāng)面對更加復(fù)雜的視頻場景，約束條件不再滿足時，這些方法則無法取得很好的效果．在這種情況下，迫切需要提高前背景分離方法對通用復(fù)雜視頻的適用性．近年來，卷積神經(jīng)網(wǎng)絡(luò)(convolu-tional neural network，CNN)被廣泛應(yīng)用于計算機(jī)視覺領(lǐng)域，在圖像和視頻處理方面取得了一系列卓越成就．CNN在前背景分離方面的應(yīng)用也逐漸興起．

Xu等[9]使用一個串聯(lián)網(wǎng)絡(luò)實現(xiàn)背景重建和前景檢測，該方法首先通過基于自動編碼器的卷積神經(jīng)網(wǎng)絡(luò)恢復(fù)背景圖，然后根據(jù)已生成的背景圖和原始圖像，使用全卷積網(wǎng)絡(luò)生成二值化的前景圖．Lim等[10]提出基于三重卷積神經(jīng)網(wǎng)絡(luò)的前景分割方法，利用多尺度特征編碼實現(xiàn)對單個視頻幀的前景檢測．雖然基于深度學(xué)習(xí)的方法較傳統(tǒng)方法相比有諸多優(yōu)勢，且在復(fù)雜視頻的分析上取得了很大的進(jìn)展，但這些方法仍存在一些缺陷．首先，大多數(shù)方法采用單張視頻幀作為輸入，而從單張圖片上是無法捕捉運(yùn)動信息的，此時前景檢測的結(jié)果往往不夠準(zhǔn)確．其次，這些方法的通用性較差，一個網(wǎng)絡(luò)模型只能處理一種場景，當(dāng)換用不同場景時，就需要重新訓(xùn)練模型，這會導(dǎo)致過擬合的問題，且在實際應(yīng)用中是十分不便捷的．

本文提出了一個時空感知的端對端級聯(lián)深度卷積神經(jīng)網(wǎng)絡(luò)，以實現(xiàn)前景和背景的準(zhǔn)確分離．它由一級前景檢測子網(wǎng)絡(luò)(FDnet)和二級背景重建子網(wǎng)絡(luò)(BRnet)組成．一級網(wǎng)絡(luò)的輸入分為2個部分：第1個部分是作為空間信息為引導(dǎo)的3張連續(xù)彩色RGB視頻幀(前一幀、當(dāng)前幀和下一幀)，以避免因單張視頻幀造成的運(yùn)動信息不準(zhǔn)確的問題；第2個部分是作為時間信息引導(dǎo)的3張連續(xù)光流圖(與3張彩色RGB視頻幀相對應(yīng))．由于光流圖可用來表征相鄰視頻幀之間的移動物體的運(yùn)動速度，包括速度大小和方向，所以將光流圖輸入到網(wǎng)絡(luò)中有利于模型檢測前景的運(yùn)動信息．這部分網(wǎng)絡(luò)的輸出是當(dāng)前幀的二值化前景掩膜，以指示移動對象的區(qū)域(1代表前景，0代表背景)；接著，二級網(wǎng)絡(luò)以一級網(wǎng)絡(luò)生成的前景掩膜和當(dāng)前幀作為輸入，重建出完整的背景．由于背景通常具有局部相似性，因此網(wǎng)絡(luò)能夠很好地學(xué)習(xí)這種相似性并有效地恢復(fù)背景．同時，本文方法充分考慮了訓(xùn)練數(shù)據(jù)的多樣性和復(fù)雜性，在訓(xùn)練網(wǎng)絡(luò)時將不同的視頻場景數(shù)據(jù)混合，保證網(wǎng)絡(luò)具有較強(qiáng)的泛化??能力．

1?時空聯(lián)合的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)

本文提出了一種融合時空信息的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)，網(wǎng)絡(luò)架構(gòu)如圖1所示．具體而言，一級前景檢測子網(wǎng)絡(luò)通過融合時間和空間信息來檢測前景．接著，將當(dāng)前幀乘以生成的二值化前景掩膜輸入到二級背景重建子網(wǎng)絡(luò)中，對前景缺失的視頻幀進(jìn)行高質(zhì)量的修復(fù)重構(gòu)．

圖1?本文所提的網(wǎng)絡(luò)框架

1.1?一級前景檢測子網(wǎng)絡(luò)

本文提出了一個融合時空信息的多輸入編碼-解碼前景檢測子網(wǎng)絡(luò)(如圖1中綠色框圖所示)，目的是從原始的視頻幀中檢測出運(yùn)動的物體．具體來說，采用VGG16[11]的前5個卷積塊作為編碼器來提取運(yùn)動物體的豐富特征，并利用5個轉(zhuǎn)置卷積層作為解碼器將特征映射到掩膜中．準(zhǔn)確地檢測出前景的關(guān)鍵是識別出畫面中哪些物體是運(yùn)動的，因此僅從單張視頻幀中檢測前景是不合適的．與先前的工作不同，本方法的網(wǎng)絡(luò)輸入分為2部分．第1個部分是9通道的?3張連續(xù)的原始RGB視頻幀(前一幀、當(dāng)前幀和下一幀)，以引入前景的空間信息，網(wǎng)絡(luò)可以從3張不同的視頻幀中學(xué)習(xí)到它們之間的差異，這種差異暗含著運(yùn)動信息．第2個部分是6通道的與原始視頻幀相對應(yīng)的光流圖，以引入前景的時域信息．注意光流圖與視頻幀是一一對應(yīng)的關(guān)系．兩個輸入分別用權(quán)重不共享的卷積層提取特征，在每一個卷積層后面都增加一個特征融合層對兩類特征圖進(jìn)行融合，即

1.2?二級背景重建子網(wǎng)絡(luò)

對于神經(jīng)網(wǎng)絡(luò)，選取合適的網(wǎng)絡(luò)優(yōu)化算法能夠極大地提升網(wǎng)絡(luò)訓(xùn)練速度．因此，本文采用均方根誤差(RMSprop)優(yōu)化函數(shù)來降低損失，RMSprop優(yōu)化函數(shù)是很長時間以來經(jīng)得住考驗的優(yōu)化算法，并且適用于各種不同的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)，收斂速度更快的同時波動幅度更小．對于兩個子網(wǎng)絡(luò)，訓(xùn)練時批尺寸大小設(shè)置為8，學(xué)習(xí)率設(shè)為0.001．子網(wǎng)絡(luò)訓(xùn)練好后，接著訓(xùn)練整體網(wǎng)絡(luò)進(jìn)行微調(diào)，此時批尺寸設(shè)為4，學(xué)習(xí)率設(shè)為0.0001．在硬件條件滿足的情況下，批尺寸設(shè)置越大越好．通過這種逐步訓(xùn)練方式，網(wǎng)絡(luò)可以很快收斂．

2?實驗驗證與結(jié)果分析

2.1?數(shù)據(jù)集

為了保證訓(xùn)練好的網(wǎng)絡(luò)能夠有效地應(yīng)對各種不同的場景，在選取訓(xùn)練集時應(yīng)盡量確保訓(xùn)練數(shù)據(jù)集的多樣化和合理性．本方法采用CDnet2014異常物檢測公開數(shù)據(jù)集[13]作為訓(xùn)練數(shù)據(jù)．該數(shù)據(jù)集包含11種場景類別，53個不同的視頻序列，但其中有些視頻序列的前景真值掩膜不完整，因此，本文從中選出了30個具有合適標(biāo)簽的視頻序列．訓(xùn)練數(shù)據(jù)充分考慮了場景和運(yùn)動物體的多樣性，例如冰雪天氣、相機(jī)抖動、運(yùn)動遮擋、光照變化等真實場景，場景中包含人、汽車、船、動物等各種運(yùn)動目標(biāo)．訓(xùn)練數(shù)據(jù)的多樣性能夠保證網(wǎng)絡(luò)具有較強(qiáng)的通用性和泛化能力．

考慮到訓(xùn)練數(shù)據(jù)的均衡性，對于每一個場景，隨機(jī)選取500幀．有一些場景的視頻幀數(shù)比較少，不足500幀，則需要進(jìn)行數(shù)據(jù)增廣．具體的做法是：首先用前景的二值化真值掩膜將前景從原始視頻幀中分割出來，然后將分割出來的前景圖進(jìn)行水平翻轉(zhuǎn)，最后將翻轉(zhuǎn)后的前景圖貼到背景的真值圖上．保證訓(xùn)練數(shù)據(jù)的均衡性有助于提高網(wǎng)絡(luò)的泛化能力，避免網(wǎng)絡(luò)過度擬合某一種特定類型的場景，而對其他場景欠擬合．在全部的15000幀訓(xùn)練數(shù)據(jù)中，隨機(jī)劃分80%的數(shù)據(jù)作為訓(xùn)練集，其他20%作為測試集．值得一提的是，由于各個場景圖像的尺寸大小不一，在訓(xùn)練網(wǎng)絡(luò)之前需要將所有的訓(xùn)練數(shù)據(jù)統(tǒng)一調(diào)整為256× 256的大?。?/p>

2.2?前景檢測實驗結(jié)果分析

為了合理評估所提網(wǎng)絡(luò)在前景檢測方面的有效性，本文從測試數(shù)據(jù)集中選取了4個有代表性的數(shù)據(jù)：辦公室(office)、林蔭道(boulevard)、滑冰(skating)、落葉(fall)．它們分別代表不同類型的復(fù)雜場景：運(yùn)動遮擋、相機(jī)抖動、惡劣冰雪天氣、動態(tài)背景．為了客觀準(zhǔn)確地評估所提方法的有效性，采用測度值(-measure)作為量化指標(biāo)，測度值是前景檢測方向被廣泛使用的一種測量指標(biāo)，值越大代表效果越好．本文方法與現(xiàn)有8種具有代表性的算法的量化比較結(jié)果如表1所示．第1～5行代表傳統(tǒng)方法，第6～9行代表深度學(xué)習(xí)方法．從表中可以看出，本文方法除落葉(fall)場景較DeepBS[16]方法稍低外，在其他3個場景上都達(dá)到了最好結(jié)果，平均指標(biāo)超過次優(yōu)方法DeepBS[16]4.53%．

表1?9種方法的前景檢測結(jié)果的測度值比較

Tab.1?F-measure comparison of nine methods of foreground detection

除了數(shù)值上的客觀比較，前景檢測結(jié)果還需要滿足視覺上的可觀性．圖2顯示了本方法與其他5種方法的視覺質(zhì)量比較結(jié)果．從對比圖中可以看出，本方法在視覺上更加接近真值圖，檢測出來的前景掩膜更加準(zhǔn)確，能夠保持物體邊緣的輪廓信息，同時結(jié)果圖像中的噪聲更低．而其他方法則出現(xiàn)了不同程度的噪聲．例如在落葉(fall)場景中，由于該場景的背景包含搖擺的樹枝，RPCA[6]、TVRPCA[8]和CL_ VID[17]錯誤地把樹枝當(dāng)成了前景，導(dǎo)致結(jié)果圖中出現(xiàn)了嚴(yán)重的噪聲．而DECOLOR[7]和CascadeCNN[15]方法的結(jié)果圖中雖然噪聲并不明顯，但檢測出來的車的輪廓信息與真值圖相比有較大差距．在包含相機(jī)抖動問題的林蔭道(boulevard)場景中，所有的對比方法均出現(xiàn)了不同程度的噪聲，尤其是CL_VID[17]方法．而在相對簡單的辦公室(office)場景中，RPCA[6]方法和TVRPCA[8]方法都出現(xiàn)了非常明顯的空洞，這些空洞是由運(yùn)動遮擋造成的，人物在同一個位置停留時間較長，這兩種方法將空洞部分的前景像素誤當(dāng)成背景像素．

圖2?前景檢測結(jié)果的視覺質(zhì)量比較

綜合客觀上的量化結(jié)果以及主觀上的視覺質(zhì)量結(jié)果，本文所提方法可以應(yīng)對各種復(fù)雜的視頻場景，實現(xiàn)準(zhǔn)確的前景檢測，通用性和可擴(kuò)展性較強(qiáng)，具有一定實際意義．

2.3?多輸入對網(wǎng)絡(luò)性能的影響分析

為了驗證多輸入的方法對前景檢測的有效性，同時測試以連續(xù)的3個視頻幀作為輸入是否會損失長程信息，本小節(jié)設(shè)置了對比實驗：分別以1幀、3幀、5幀作為網(wǎng)絡(luò)輸入，采用在VGG16[11]上預(yù)訓(xùn)練好的參數(shù)作為初始化權(quán)重，比較它們的前景檢測結(jié)果．圖3給出了不同的輸入分別在3種場景下的視覺質(zhì)量結(jié)果．從結(jié)果圖中可以看出，多幀輸入(圖3(d)和(e))的前景檢測結(jié)果更加接近真值圖，能夠保持較為準(zhǔn)確的輪廓信息．單幀輸入的結(jié)果則較為遜色，甚至在highway這個場景下沒有檢測出右上角運(yùn)動的汽車，這是因為將多種視頻場景混合在一起訓(xùn)練時，網(wǎng)絡(luò)無法從一張圖像中準(zhǔn)確地判斷出哪個物體是運(yùn)動的，哪個物體是靜止的，所以網(wǎng)絡(luò)只能大致判斷出圖像中的顯著性物體．從圖中還可以看出，3幀輸入和5幀輸入的結(jié)果差別并不明顯，但是在office這個場景中，5幀輸入的結(jié)果沒有3幀的好，這是因為增加的視頻幀與當(dāng)前幀相關(guān)性并不大，從而引入了一些不必要的誤差，由此可以得出，網(wǎng)絡(luò)的輸入并不是越多越好．對比實驗的量化結(jié)果如表2所示，多輸入的測度值十分接近，而3幀輸入的平均測度值最高，從而進(jìn)一步驗證了本文所提方法的有效性．

表2 不同輸入下的前景檢測結(jié)果的測度值比較

Tab.2 F-measure comparison on different inputs for foreground detection

圖3?不同輸入下前景檢測視覺質(zhì)量結(jié)果

通過以上的對比實驗證明了所提方法的有效性，但在一些情況下也存在一些局限性．例如當(dāng)視頻中存在偽裝物，即前景物體在視頻中靜止了一段時間，那么該前景物體在一些連續(xù)的視頻幀中始終處在同一位置，這時網(wǎng)絡(luò)輸入3個視頻幀與輸入1個視頻幀的效果是一樣的．另外網(wǎng)絡(luò)對視頻的時間信息的利用還不夠充分，在視頻幀輸入到網(wǎng)絡(luò)中后，時間信息在第1個卷積層后就消失了．針對這個問題，筆者將在日后的工作中努力克服改進(jìn)，通過3D卷積神經(jīng)網(wǎng)絡(luò)探求更加豐富的時間信息．

2.4?不同方法的運(yùn)動目標(biāo)檢測效果對比

光流法也常常被用作運(yùn)動物體的檢測，光流是一種反映空間運(yùn)動物體在成像平面上的像素運(yùn)動的方法[18]．傳統(tǒng)的光流算法是利用圖像序列中像素在時域上的變化以及相鄰幀之間的相關(guān)性來找到兩幀之間存在的對應(yīng)關(guān)系，從而計算出物體的運(yùn)動信息．光流圖是一種兩通道的特殊運(yùn)動場，其中一個通道能夠反映圖像像素的水平運(yùn)動場，另一個通道反映垂直運(yùn)動場．但是，光流法通常具有較強(qiáng)的約束條件，需要假設(shè)參與運(yùn)算的兩幀之間的亮度恒定，且物體的運(yùn)動比較微?。趯嶋H情況下，受到運(yùn)動模糊、圖像分辨率不足等各種因素的影響，通過光流法檢測出的運(yùn)動物體往往是不精確的．如圖4所示，光流圖只能大致檢測出視頻幀中的運(yùn)動區(qū)域，其輪廓是粗糙的，而通過本文所提方法得到的前景圖則更加準(zhǔn)確．本文引入光流圖作為網(wǎng)絡(luò)輸入，目的是強(qiáng)化網(wǎng)絡(luò)的注意力機(jī)制，使前景檢測子網(wǎng)絡(luò)更加關(guān)注運(yùn)動物體．

圖4?光流圖與前景圖對比

2.5?背景重建實驗結(jié)果分析

圖5顯示了本文所提方法與其他5種方法(RPCA[6]、TVRPCA[8]、DECOLOR[7]、ORPCA[19]和OMoGMF[20])的視覺質(zhì)量對比結(jié)果，使用了5個具有挑戰(zhàn)性的視頻序列：辦公室(office)、沙發(fā)(sofa)和公交車站(bus station)．由于前文提到的深度學(xué)習(xí)方法(CascadeCNN[15]和CL_VID[17])沒有進(jìn)行背景重建實驗，本文選取了另外兩種傳統(tǒng)算法(ORPCA[19]和OMoGMF[20])進(jìn)行對比．如圖5中紅框框出的局部圖所示，其他方法的結(jié)果均出現(xiàn)了嚴(yán)重的噪聲，這是由于前背景分離不準(zhǔn)確，導(dǎo)致前景像素泄漏到了背景圖中．而本文所提算法可以重建出令人滿意的背景圖像，沒有明顯的噪聲存在．由于背景重建子網(wǎng)絡(luò)的性能依賴于前景檢測子網(wǎng)絡(luò)的結(jié)果，所以本文方法在背景重建方面的表現(xiàn)出色，同時也可以證明本文所提方法的前景檢測結(jié)果是準(zhǔn)確的．

為了進(jìn)一步對背景重建結(jié)果進(jìn)行定量比較，本文選取圖像處理中使用較為廣泛的峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)作為質(zhì)量評估指標(biāo)．從表3中可以看出，在多個場景中，本文所提方法的PSNR和SSIM值普遍高于其他方法，平均PSNR值超過次優(yōu)方法5.52dB．綜合以上對比結(jié)果，本方法可以有效地實現(xiàn)前景檢測和背景重建．

圖5?背景重建結(jié)果的視覺質(zhì)量比較

表3?6種方法的前景檢測結(jié)果的測度值比較

Tab.3?F-measure comparison of six different methods of foreground detection

3?結(jié)?語

本文提出了一個用于前背景分離的時空感知的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)；網(wǎng)絡(luò)分為兩個部分，通過端對端的方式實現(xiàn)；第一級的前景檢測子網(wǎng)絡(luò)能夠在一些具有挑戰(zhàn)性的場景中準(zhǔn)確地檢測出移動物體；接著，第二級的背景重建子網(wǎng)絡(luò)利用一級網(wǎng)絡(luò)的結(jié)果對背景進(jìn)行高質(zhì)量重建；最后，通過將兩個子網(wǎng)絡(luò)組合在一起，可獲得更準(zhǔn)確的前背景分離結(jié)果．

在未來的工作中，希望在本文方法的基礎(chǔ)上進(jìn)行擴(kuò)展，致力于重建紋理更加豐富的背景圖，并嘗試?yán)酶嗟臅r域信息，借助3D卷積神經(jīng)網(wǎng)絡(luò)生成更加準(zhǔn)確的前景圖．

［1］ Klein L，Schlunzen H，von S K. An advanced motion detection algorithm with video quality analysis for video surveillance systems[J]. IEEE Transactions on Circuits and Systems for Video Technology，2011，21(1)：1-14.

［2］ Yilmaz A，Javed O，Shah M. Object tracking：A survey[J]. Acm Computing Surveys，2006，38(4)：13-13.

［3］ Tsaig Y. Automatic segmentation of moving objects in video sequences[J]. IEEE Transactions on Circuits and Systems for Video Technology，2002，12(7)：597- 612.

［4］ Zivkovic Z. Improved adaptive gaussian mixture model for background subtraction[C]// Proceedings of the 17th International Conference on Pattern Recognition. Cambridge，UK，2004：28-31.

［5］ Elgammal A，Harwood D，Davis L. Non-parametric model for background subtraction[C]//European Conference on Computer Vision. Heidelberg，Berlin，2000：751-767.

［6］ Candès E J，Li X，Ma Y，et al. Robust principal component analysis?[J] Journal of the ACM，2011，58(3)：1-37.

［7］ Zhou X，Yang C，Yu W. Moving object detection by detecting contiguous outliers in the low-rank representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence，2013，35(3)：597-610.

［8］ Cao X，Yang L，Guo X. Total variation regularized RPCA for irregularly moving object detection under dynamic background[J]. IEEE Transactions Cybernetics，2016，46(4)：1014-1027.

［9］ Xu Z，Chen Y，Ming T，et al. Joint background reconstruction and foreground segmentation via a two-stage convolutional neural network[C]//IEEE International Conference on Multimedia and Expo. Ypsilanti，Michigan，USA，2017：343-348.

［10］ Lim L A，Keles H. Foreground segmentation using a triplet convolutional neural network for multiscale feature encoding[J]. Pattern Recognition Letters，2018，112：256-262.

［11］ Simonyan K，Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. http://arxiv.org/abs/1801.02225，2014-01-07.

［12］ He K，Zhang X，Ren S，et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas，USA，2016：770-778.

［13］ Goyette N，Jodoin P M，Porikli F，et al. Changedetection. net：A new change detection benchmark dataset[C]// IEEE Conference on Computer Vision and Pattern Recognition Workshops. Providence Rhode Island，USA，2012：1-8.

［14］ Chen Y，Wang J，Lu H. Learning sharable models for robust background subtraction[C]// IEEE International Conference on Multimedia and Expo. Providence Rhode Island，USA，2015：1-6.

［15］ Wang Y，Luo Z，Jodoin P M. Interactive deep learning method for segmenting moving objects[J]. Pattern Recognition Letters，2017，96：66-75.

［16］ Babaee M，Dinh D T，Rigoll G. A deep convolutional neural network for video sequence background subtraction[J]. Pattern Recognition，2018，76：635-649.

［17］ López-Rubio E，Molina-Cabello M A，Luque-Baena R M，et al. Foreground detection by competitive learning for varying input distributions[J]. International Journal of Neural Systems，2018，28(5)：1750056.

［18］袁?猛. 基于變分理論的光流計算技術(shù)研究[D]. 南昌：南昌航空大學(xué)信息工程學(xué)院，2010.

Yuan Meng. A Study of Optical Flow Computation Technology Based on Variational Theory[D]. Nanchang：School of Measuring and Optical Engineering，Nanchang Hangkong University，2010(in Chinese).

［19］ Feng J，Xu H，Yan S. Online robust PCA via stochastic optimization[C]//Advances in Neural Information Processing Systems. Lake Tahoe，USA，2013：404-412.

［20］ Yong H，Meng D，Zuo W，et al，Robust online matrix factorization for dynamic background subtraction[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence，2017，40(7)：1726-1740.

Fusing Spatiotemporal Clues with Cascading Neural Networks for Foreground-Background Separation

Yang Jingyu1，Shi Wen1，Li Kun2，Song Xiaolin1，Yue Huanjing1

(1. School of Electrical and Information Engineering，Tianjin University，Tianjin 300072，China；2. School of Computer Science and Technology，Tianjin University，Tianjin 300350，China)

Separation of foreground and background in video clips presented various problems，such as foreground leakage．To solve these problems，this paper proposed an end-to-end cascading deep convolutional neural network，which can accurately separate foreground and background in video clips．The proposed method included foreground detection and background reconstruction sub-network，and they were cascaded．The first network fused time and space information，and its input consisted of two parts：the first part included three consecutive RGB video frames，the previous，current and next frames；the second part included three optical flow maps corresponding to RGB video frames．These two inputs were combined by the first sub-network in order to detect moving objects and generate a binary foreground mask．The foreground detection sub-network was a multi-input encoder-decoder network：the encoder was the first five convolution blocks of VGG16 to extract the feature maps of two inputs．These two types of feature maps were fused after each convolution layer．The decoder consisted of five transpose convolution layers that could generate a binary mask for the current frame through learning a projection from the feature space to the image space．The background reconstruction sub-network contained three parts：the encoder，the transmitter and the decoder，which took the generated mask and the current frame to reconstruct the background pixels occluded by the foreground．Experimental results showed that the proposed spatiotemporal fused cascade convolutional neural network has achieved better performance on the public dataset than other methods and can handle various complex scenarios．Foreground detection and background reconstruction results greatly outperformed the existing state-of-the-art methods．

background reconstruction；moving objects detection；convolutional neural network；optical ?ow

TP391

0493-2137(2020)06-0633-08

10.11784/tdxbz201905029

2019-05-09；

2019-07-28.

楊敬鈺（1982—??），男，博士，教授，yjy@tju.edu.cn.

師?雯，wenshi@tju.edu.cn.

國家自然科學(xué)基金資助項目(61571322，61771339，61672378)；天津市科學(xué)技術(shù)計劃資助項目(17ZXRGGX00160，18JCYBJC19200)．

Supported bythe National Natural Science Foundation of China(No.61571322，No.61771339，No.61672378)；Tianjin Science and Technology Program(No.17ZXRGGX00160，No.18JCYBJC19200)．

(責(zé)任編輯：王曉燕)

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于時空感知級聯(lián)神經(jīng)網(wǎng)絡(luò)的視頻前背景分離

1?時空聯(lián)合的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)

1.1?一級前景檢測子網(wǎng)絡(luò)

1.2?二級背景重建子網(wǎng)絡(luò)

2?實驗驗證與結(jié)果分析

2.1?數(shù)據(jù)集

2.2?前景檢測實驗結(jié)果分析

2.3?多輸入對網(wǎng)絡(luò)性能的影響分析

2.4?不同方法的運(yùn)動目標(biāo)檢測效果對比

2.5?背景重建實驗結(jié)果分析

3?結(jié)?語