国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

時域模型對視頻行人重識別性能影響的研究

2020-10-19 04:41:00林染染黃子源侯建華
計算機工程與應用 2020年20期
關鍵詞:池化時域行人

項 俊,林染染,黃子源,侯建華

中南民族大學 電子信息工程學院,武漢 430074

1 引言

近年來,隨著公共安全需求的不斷增長和監(jiān)控攝像網(wǎng)絡的迅速發(fā)展,行人重識別(person re-identification,Re-ID)研究受到了廣泛的關注。行人重識別的任務是從圖像或視頻中檢索出特定行人,按照輸入對象的不同分為基于圖像的行人重識別和基于視頻的行人重識別。前者主要由特征表達學習和距離度量學習兩部分組成,其中魯棒性的特征提取使得分類器更具辨別性,而度量學習構建特定的度量空間,使得在此空間內(nèi)相同行人距離接近,不同行人則相互遠離。本文主要關注基于視頻的行人重識別,即給定一個特定行人的查詢視頻,在視頻庫中識別出包含該行人的視頻。相比于單幀圖像,視頻Re-ID所處理的視頻序列中含有更豐富的時域信息,因此基于視頻的行人重識別算法中不僅包括特征提取、度量學習模塊,還需設計時域模型用以挖掘視頻序列中行人特有的時域信息。時域模型是基于視頻的行人重識別算法中的研究熱點,目前常用的時域建模方法包括時域池化模型、時間注意力模型、循環(huán)神經(jīng)網(wǎng)絡等。鑒于當前主流的Re-ID 算法普遍采用深度學習技術[1-3],以下簡要回顧基于深度神經(jīng)網(wǎng)絡的時域模型在Re-ID 算法中的應用。在視頻Re-ID 中,時域建模方法可分為兩大類:基于循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)、基于時間注意力(temporal attention)。

基于循環(huán)神經(jīng)網(wǎng)絡:Zhang 等人[4]在Image-to-Video Re-ID 研究中,用卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNNs)提取查詢集中的行人特征;對于庫圖像中的視頻序列,首先使用CNN提取每幀圖像特征,再將這些特征經(jīng)過長短時記憶網(wǎng)絡(Long Short Term Memory,LSTM)進行時域建模,得到視頻序列的特征表達;最后通過相似性度量,計算查詢圖片與庫圖像中視頻序列的相似性。為了提取更加有效的特征,Xu等人[5]在獲得CNN特征基礎上,引入了空間金字塔池化層,再采用RNN 網(wǎng)絡提取行人視頻序列中的時間信息。McLanghlin 等人[6]利用RNN 建模不同幀之間的時域相關信息,將RNN 細胞輸出的平均作為視頻序列特征。Yan等人[7]用RNN最終的隱狀態(tài)作為視頻序列的特征編碼。Zhang 等人[8]利用CNN 提取不同時間尺度的特征,再通過雙向GRU模型獲取過去和未來的依賴特征信息。

基于時間注意力:Zheng 等人[9]將重識別問題看作是一個分類問題,利用行人視頻序列中的多幀圖像,采用交叉熵損失訓練CNN 模型,再利用最大池化(Max-Pooling)將多個行人的單幀圖像特征融合為一個序列特征。Liu等人[10]提出了一種質(zhì)量感知網(wǎng)絡(Quality Aware Network,QAN),在提取每幀圖片特征的同時還預測該圖片的質(zhì)量(即注意力權重),再將各幀特征進行加權平均;該方法對質(zhì)量好/差的圖片賦予大/小的權重,從而改善視頻序列特征質(zhì)量。文獻[11]針對視頻重識別問題,提出了一種聯(lián)合時空注意力機制網(wǎng)絡;輸入為圖片的3個RGB 通道和2 個光流通道,用CNN 提取特征后再經(jīng)過空間金字塔池化層,獲得圖片層次的特征;再通過RNN 和時間注意力池化層,獲得視頻序列特征。與文獻[11]類似,Zhou等人[12]利用了RNN和時間注意力模型來學習行人視頻序列特征,其中RNN 模型提取上下文信息,時間注意力模型用以自動篩選序列中更具代表性的視頻幀。Liu等人[13]利用多距離度量框架來自動挖掘訓練過程中的困難樣本圖片,以此來學習一個更具判別力的度量框架。

綜上所述,時域模型是設計視頻Re-ID算法的關鍵環(huán)節(jié)之一,本文研究不同時域模型對視頻Re-ID算法的影響。但由于上述算法中采用的圖片特征提取方法、訓練網(wǎng)絡的損失函數(shù)各不相同,對于每種時域建模方法難以直接進行對比。例如,文獻[6]采用3層卷積神經(jīng)網(wǎng)絡對圖像進行編碼,文獻[10]中則使用VGG模型[14]提取圖像特征;不同的特征提取策略和損失函數(shù)都將對算法性能產(chǎn)生顯著的影響。本文借鑒文獻[15]的思路,在固定圖片特征提取器和損失函數(shù)條件下,研究了三種常用的時域模型結構:時域池化(Temporal Pooling)、時域注意力(Temporal Attention)和循環(huán)神經(jīng)網(wǎng)絡,通過在iLIDS-VID[1]和Mars[9]數(shù)據(jù)集上的實驗結果,分析與比較不同時域模型對視頻Re-ID算法性能的影響。

2 基于時域建模的視頻行人重識別算法

2.1 特征提取

圖1 給出了視頻行人重識別算法中的視頻序列特征生成流程圖。給定視頻輸入序列,經(jīng)過特征提取器得到各幀的圖片級特征(image-level feature)并構成特征序列;再通過時域模型提取視頻序列中的時域信息,生成行人最終的特征表達,即視頻序列特征。

圖1 視頻序列特征生成流程圖

圖片級特征提取一般采用卷積神經(jīng)網(wǎng)絡,從最初的VGGNet[14]、AlexNet[16],到目前的ResNet50[17]、DenseNet[18]等,模型從開始的簡單淺層網(wǎng)絡變得更深更復雜。本文主要研究時域建模,因此對特征提取模型的選取未做特別要求,綜合衡量后選取模型大小適中、同時在ImageNet上分類性能優(yōu)異的ResNet50[17]網(wǎng)絡作為基礎網(wǎng)絡。ResNet50網(wǎng)絡是用于分類任務的,其最后兩層是全連接層用以預測類別;而本文采用ResNet50提取行人特征,因此將ResNet50模型中最后兩層全連接層被去除后的結果作為圖片特征。

2.2 時域模型

設輸入視頻序列s={x1,x2,…,xL},即某個行人的視頻中含有L幀圖片。設f(?)表示特征提取函數(shù),本文選取ReaNet50 模型,視頻序列經(jīng)過ReaNet50 后得到各幀圖片級特征{f(x1),f(x2),…,f(xL)}。時域模型Tem(?)提取這些圖片級特征中的時域信息,得到視頻序列的特征表達F(s)。圖2給出了本文研究的三種時域模型,分別為時域池化模型、時域注意力模型、循環(huán)神經(jīng)網(wǎng)絡模型。

圖2 三種時域模型

時域池化:時域池化選取文獻[9]中所用的時域平均池化(average-pooling)模型,即對視頻序列中行人每幀圖像的特征進行平均加權融合的操作:

理論上時域池化屬于均值處理操作,存在的問題是特征融合時無法去掉噪聲,只能一定程度上弱化噪聲干擾,對有效信息的鑒別能力存在麻木性,但因其不引入模型參數(shù),在實際應用中有很高的便捷性。

時域注意力:時域注意力模型選取文獻[10]所提到的QAN 模型。QAN 時域模型依據(jù)每幀圖像的預測質(zhì)量賦予不同的權重,用于指導序列特征的融合過程,如遮擋、模糊等圖像賦予較低的權重,因此可以有效減小視頻序列中噪聲的影響。QAN模型最終輸出的視頻序列為:

注意力機制模型在特征融合過程中能有效鑒別多線索特征的有效性,一定程度上可以起到抑制噪聲,突出有用信息的目的,然而高效準確的注意力機制網(wǎng)絡模型設計提高了模型復雜度,尤其是行人重識別領域在缺少大樣本時序樣本集前提下有效性樣本的鑒定任務極具挑戰(zhàn)。

循環(huán)神經(jīng)網(wǎng)絡:本文選取文獻[15]中的循環(huán)神經(jīng)網(wǎng)絡模型,具體采用LSTM模型。該模型對于輸入的L幀行人圖片特征,輸出o(f(xi)),i∈(1,L),再對循環(huán)神經(jīng)網(wǎng)絡的輸出進行平均池化,得到行人視頻序列的特征表達。

遞歸神經(jīng)網(wǎng)絡能有效建立時序數(shù)據(jù)間的相關性,體現(xiàn)在行人重識別中可以理解為行人空域外觀動態(tài)特性,這種動態(tài)特性本身就具備身份驗證特性,由于是時域動態(tài)特性,理論上能一定程度自適應光照、形變等動態(tài)特性,從而提高外觀特征的魯棒性。存在的問題是行人重識別缺少大規(guī)模時序行人訓練樣本集,為避免過擬合,設計模型復雜度不能太高,而遞歸神經(jīng)網(wǎng)絡模型訓練存在梯度消失問題,有效學習周期內(nèi)模型訓練未必能實現(xiàn)有效特征學習。

2.3 損失函數(shù)

損失函數(shù)是度量訓練模型有效性的重要指標,其中交叉熵損失定義為網(wǎng)絡預測類別與真實類別的分布偏差,被廣泛運用于神經(jīng)網(wǎng)絡模型訓練。基于交叉熵損失的行人重識別本質(zhì)是將重識別問題理解為分類問題,好處是有利于挖掘具有身份鑒別特性的表觀特征,且身份作為類別監(jiān)督信息,有效保證模型訓練的收斂性。然而這與行人重識別本質(zhì)是身份再驗證問題相違背。身份再認證問題本質(zhì)上屬于排序問題,也即構建測試圖片與比對圖片相似性順序問題。而三元組損失將度量學習引入網(wǎng)絡訓練,通過三元損失定義,將原始像素域圖片變換到編碼空間,滿足同類樣本的編碼表觀特征距離小,不同類樣本的編碼特征距離大,因此基于三元損失的外觀特征更適用于排序問題。存在的問題是三元損失函數(shù)在訓練過程中監(jiān)督信息較弱,訓練收斂較慢。為此本文利用三元組損失結合交叉損失訓練網(wǎng)絡模型。好處是利用交叉熵損失引入豐富的類別監(jiān)督信息,保留具有身份鑒別特性的同時引入度量學習,使得所提表觀特征即具有身份驗證信息同時兼顧度量排序的目的,也即拉近同類樣本之間的距離,推開不同類樣本間的距離,加速了網(wǎng)絡的收斂效率,同時在測試集上有了精度提升。

具體來說本文在得到行人視頻序列的特征表達F(s)后,分別選取三元組損失和交叉熵損失來訓練網(wǎng)絡。對于三元組損失,選取三個行人視頻序列(sa,sp,sn),并且滿足(sa,sp)屬于同一類別,(sa,sn)屬于不同類別。下式給出了三元組損失的定義:

其中α為閾值,用來約束特征空間內(nèi)不同類別樣本之間的距離。

對于交叉熵損失,在得到視頻序列s的特征表達F(s)后,把行人重識別當作分類問題,假設分類器預測行人類別為qi,行人真實標簽為pi,則交叉熵損失定義如下:

模型的最終損失為三元組損失和交叉熵損失之和:

3 實驗

3.1 實驗設置

以下介紹實驗設置與相關細節(jié),包括數(shù)據(jù)集、基準算法、評測指標等。

數(shù)據(jù)集:實驗數(shù)據(jù)集選自iLIDS-VID[1]和MARS[9]數(shù)據(jù)庫。MARS 數(shù)據(jù)庫是目前已公開的最大視頻行人重識別數(shù)據(jù)集,包含1 261個行人,采集于6個不同的攝像頭,每個人被2~3 個攝像頭捕捉到,每個行人平均含有13.2個視頻序列。iLIDS-VID數(shù)據(jù)庫包含從兩個無交疊攝像頭采集的300 個行人的600 個視頻段,每個行人視頻段含有23 到192 幀圖像不止,平均含有73 幀。在實驗中,把兩個數(shù)據(jù)集圖像尺寸歸一化為224×112。

基準算法(Baseline):為了更好地驗證時域模型的有效性,以基于圖像的行人重識別算法作為基準算法(Baseline)。該方法以文獻[19]為基礎,即采用預先在ImageNet數(shù)據(jù)集上訓練好的ResNet50 網(wǎng)絡提取行人特征,然后引入交叉熵損失,再和原來文獻[19]中的三元組損失一起共同訓練神經(jīng)網(wǎng)絡。

在Baseline 的基礎上,分別加入時域池化、時域注意力和循環(huán)神經(jīng)網(wǎng)絡三種時域模型。在訓練階段,每次送入的訓練樣本個數(shù)(即Batchsize)大小設置為32,即每次送入32個行人視頻,采用AdamSGD[20]優(yōu)化方法;在測試階段,使用訓練好的模型提取行人視頻特征,再根據(jù)特征之間的相似性距離進行排序。

評測指標:采用行人重識別領域廣泛使用的累計匹配特性曲線(Cumulative Matching Characteristic Curve,CMC)CMC@Rank-1,5,10,分別表示在一次查詢結果中,排序列表的前1、5、10 個排序樣本中含有正確樣本的概率;同時還采用檢索任務中另一個常用的評測指標mAP(mean Average Precision),表示檢索結果的精度平均值。

本文實驗在Pytorch 深度學習框架下進行,代碼主要參考文獻[15](https://github.com/jiyanggao/Video-Person-ReID)。

3.2 實驗結果與分析

在Baseline 的基礎上,分別加入時域池化、時域注意力和循環(huán)神經(jīng)網(wǎng)絡三種時域模型,本節(jié)給出了不同的時態(tài)建模方法在Mars 和iLIDS-VID 數(shù)據(jù)集上的實驗結果?;鶞蔅aseline算法提取行人視頻序列圖像級特征,三種時域模型根據(jù)圖像特征生成最終的視頻序列特征表達。

(1)時域池化模型。首先考察在輸入不同視頻序列長度(即所包含的圖片幀數(shù))條件下的時域池化模型的效果,時域池化模型采用簡單的平均方式,即在Baseline提取的圖像級行人特征基礎上,對每幀圖像特征進行平均融合。實驗結果如表1 所示,實驗中,每段視頻送入的幀數(shù)T分別為1、2、4、8,采用AdamSGD優(yōu)化方法,學習率設置為0.000 3,T=1 對應的是基于圖像的基準算法。從表1可以看出,與基于圖像的基準算法(T=1)相比,加入時域池化模型后(即T≥2),基于視頻的Re-ID方法在Rank-1、Rank-15、Rank-10、mAP 指標上均有改善,例如T=4 時在Mars數(shù)據(jù)集上對應的Rank-1和mAP分別提升了2.9個百分點和3個百分點,在iLIDS-VID數(shù)據(jù)集上對應的Rank-1 和mAP 分別提升了3.3 個百分點和4.3個百分點。此結果證明了時域池化模型的有效性。

(2)時域注意力模型。表2給出了時域注意力QAN模型在Mars 數(shù)據(jù)集上的實驗結果。QAN 模型在ResNet50 提取特征的基礎上進行卷積池化和全連接操作,根據(jù)圖像質(zhì)量學習出不同幀的權重大小,隨后指導序列特征的加權融合。實驗中,Batchsize 設置為32,送入的幀數(shù)分別為2、4、8、16;當學習率設置為0.000 3時,模型訓練效果最好。表2 結果證明了時域注意力模型同樣可以改善算法的性能指標,與表1中的基準算法相比,T=4 時在 Mars 數(shù)據(jù)集上對應的 Rank-1 和 mAP 分別提升了1.6個百分點和0.8個百分點,在iLIDS-VID數(shù)據(jù)集上對應的Rank-1 和mAP 分別提升了2.0 個百分點和2.7個百分點。值得指出的是,與時域池化模型相比,時域注意力模型并未呈現(xiàn)優(yōu)勢,分析原因在于行人視頻持續(xù)時間較短,序列間圖像質(zhì)量差異變化不大,因此時域注意力的優(yōu)勢沒有充分發(fā)揮出來。

(3)循環(huán)神經(jīng)網(wǎng)絡。RNN 選取LSTM 作為基本單元,每個時刻送入一幀行人圖像特征,并將LSTM 每個時刻的輸出特征保存,最后把LSTM輸出的所有特征進行平均作為最終的視頻特征表達。測試了LSTM 隱狀態(tài)個數(shù)分別為512、1 024、2 048 三種情況,當隱藏狀態(tài)個數(shù)為512 時,模型性能最好,因此該參數(shù)取為512;學習率設置為0.000 1。表3 給出了循環(huán)神經(jīng)網(wǎng)絡模型在不同幀長下的實驗效果。與表1中的基準算法相比,加入循環(huán)神經(jīng)網(wǎng)絡模型后的效果有所下降,這表明RNN在捕獲序列時域信息方面沒有效果,或者在Mars和iLIDSVID 數(shù)據(jù)集上訓練RNN 網(wǎng)絡效果不佳。如文獻[15]所分析,RNN之所以在文獻[6]中能夠改善算法性能,其原因可能是文獻[6]中采用的是淺層CNN 特征,而其后的RNN時域模型的效果更多體現(xiàn)為特征提取的補充。而本文使用在Imagenet 上預訓練好的Resnet50 網(wǎng)絡提取特征,其已具有一定程度的魯棒性。故RNN 可能不能對其此特征再進行表達方面的學習而只是進行簡單的行人分類,因此導致模型效果不佳甚至略有下降。

表1 時域池化模型在Mars和iLIDS-VID數(shù)據(jù)上的結果 %

表3 循環(huán)神經(jīng)網(wǎng)絡模型在Mars和iLIDS-VID數(shù)據(jù)上的結果 %

表4 時域模型特性分析

(4)三種時域建模方法的比較。表4 給出了T=4時本文三種行人重識別時域模型的對比。時域池化模型的機制簡單而直觀,參數(shù)量最少。時域注意力模型需額外的網(wǎng)絡模型來學習注意力權重,故網(wǎng)絡結構最復雜且參數(shù)量最多。隱藏狀態(tài)個數(shù)為512 時的循環(huán)神經(jīng)網(wǎng)絡參數(shù)量較少,能夠自動學習模型參數(shù)。

(5)與其他視頻行人重識別算法的比較。表5給出了當前主流的視頻行人重識別算法和本文研究的3 種時域模型方法在Mars 和iLIDS-VID 數(shù)據(jù)集上的實驗結果,其中Ours(image)代表基于圖像的行人重識別算法,即表1 中T=1 的基準算法;Ours(pooling)、Ours(attention)、Ours(RNN)分別為表1、表2、表3 中T=4 對應的算法。

從表5可以看出,本文所研究的方法在識別性能上均普遍超過了文獻[9-10,12,19,21]中的方法,其原因在于本文選取的ResNet50模型在圖像特征提取上性能更優(yōu),同時本文研究的方法中采用三元組損失和交叉熵損聯(lián)合訓練模型。例如,文獻[9]采用交叉熵損失訓練CNN 模型,再利用最大池化(Max-Pooling)將多個行人的單幀圖像特征融合為一個序列特征;相比之下,Ours(pooling)選用三元組和交叉熵聯(lián)合損失函數(shù),并采取了平均池化的方式融合特征,Rank-1從65%提升到83.4%,mAP 從 45.6%提升到 76.2%。Ours(attention)是在文獻[10]基礎上的改進,文獻[10]采用VGG網(wǎng)絡提取圖像特征,本文使用的是ResNet50模型,同時又引入了三元組損失,因此取得了比文獻[10]更好的結果。在文獻[12]中,作者使用三元組損失和循環(huán)神經(jīng)網(wǎng)絡提取行人魯棒性特征;相比于該文獻,Ours(RNN)是針對行人圖片特征使用循環(huán)神經(jīng)網(wǎng)絡,也取得了優(yōu)于文獻[12]的結果。

表5 與其他視頻行人重識別算法的比較%

4 結束語

基于視頻的行人重識別是近幾年興起的一個研究熱點,相比于基于圖像的行人重識別,視頻Re-ID 需設計時域模型用以挖掘視頻序列中特有的時域信息。本文通過在Mars 和iLIDS-VID 數(shù)據(jù)集上的實驗,比較與分析了三種不同的時間建模方法。實驗結果表明,與基于圖像的行人重識別基準算法(Baseline)相比,采用時域池化模型或者時間注意力模型均可以將Rank-1、mAP等指標提高2%~3%;而循環(huán)神經(jīng)網(wǎng)絡的時域建模性較差,其效果比基準算法有所下降。與當前主流的視頻行人重識別算法比較,本文討論的四種算法在CMC@Rank-n、mAP 指標上均有較大幅度的提升,這說明了圖像特征提取、損失函數(shù)設計對視頻Re-ID的性能也將產(chǎn)生很重要的影響。上述結論將為設計基于視頻的行人重識別算法提供有意義的借鑒。

猜你喜歡
池化時域行人
基于緊湊型雙線性網(wǎng)絡的野生茵識別方法研究
無線電工程(2024年8期)2024-09-16 00:00:00
基于Sobel算子的池化算法設計
卷積神經(jīng)網(wǎng)絡中的自適應加權池化
軟件導刊(2022年3期)2022-03-25 04:45:04
毒舌出沒,行人避讓
意林(2021年5期)2021-04-18 12:21:17
路不為尋找者而設
揚子江(2019年1期)2019-03-08 02:52:34
基于卷積神經(jīng)網(wǎng)絡和池化算法的表情識別研究
基于時域信號的三電平逆變器復合故障診斷
測控技術(2018年11期)2018-12-07 05:49:02
我是行人
基于極大似然準則與滾動時域估計的自適應UKF算法
基于時域逆濾波的寬帶脈沖聲生成技術
南涧| 惠东县| 永胜县| 康定县| 姜堰市| 中卫市| 诸城市| 勐海县| 马边| 闻喜县| 松潘县| 嘉义县| 枞阳县| 随州市| 白银市| 星子县| 安阳县| 蒙阴县| 中方县| 周口市| 颍上县| 高邮市| 鸡西市| 友谊县| 精河县| 防城港市| 远安县| 额尔古纳市| 台安县| 舟曲县| 淮阳县| 高碑店市| 尼木县| 霍山县| 仲巴县| 奉贤区| 老河口市| 葵青区| 遵化市| 鹿泉市| 民勤县|