国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

無監(jiān)督學習三元組用于視頻行人重識別研究

2022-12-11 09:42蔡江琳韓華王春媛潘欣宇芮行江
智能計算機與應用 2022年11期
關(guān)鍵詞:三元組行人關(guān)聯(lián)

蔡江琳,韓華,王春媛,潘欣宇,芮行江

(上海工程技術(shù)大學 電子電氣工程學院,上海 201620)

0 引言

行人重識別的目的是在配備多臺攝像機、且視野不交叉的環(huán)境中找到具有相同身份的目標行人。當目標行人穿過某臺攝像機視野時,可以在另一臺攝像機下找到相同身份的人。當前的行人重識別多是基于2 類:基于圖像的行人重識別[1-7]和基于視頻的行人重識別[8-12]。從傳統(tǒng)的特征提取方法和度量學習方法、到利用卷積神經(jīng)網(wǎng)絡訓練模型,基于圖像的行人重識別模型已經(jīng)取得了很高的識別準確度。但在實際的監(jiān)控視頻中,由于行人的許多不確定因素,例如光照、遮擋、姿態(tài)變化等,導致監(jiān)控跟蹤失敗,基于圖像的二維特征很難解決這些問題。而不同于圖像重識別的是,基于視頻的行人重識別的研究對象是行人軌跡,包含了行人更多的時空信息,連續(xù)的幀圖像之間有著密切聯(lián)系。當前基于視頻的行人重識別技術(shù)已取得有效的成果。例如,Times Shift Dynamic Warping(TSDTW)[13]模型通過對每個行人的時空動態(tài)信息進行編碼來生成一種潛在的特征表示,解決不準確和不完整序列的選擇和數(shù)據(jù)匹配問題。又如一種頂推度量學習模型[9],是通過優(yōu)化最小類內(nèi)的變化來提高top rank 中行人重識別的準確度。再如,采用一種視頻排序函數(shù)[14]方法,在排序的同時可以從含噪或者不完整的視頻序列中選擇可靠的時空特征。上述的視頻重識別技術(shù)多是采用有監(jiān)督的學習方法,但是在實際的場景中,往往不具有可測量性和實際性。為此,基于半監(jiān)督[1,12]和無監(jiān)督[13-19]的學習方法開始得到更多的關(guān)注。

當前由于無監(jiān)督學習存在的一些固有性質(zhì),導致無監(jiān)督模型的性能比有監(jiān)督模型差。而事實上,這些基于視頻研究的無監(jiān)督模型不能有效地利用深度卷積神經(jīng)網(wǎng)絡[20](deep Convolutional Neural Networks)強大的特征學習能力,獲取具有表達性的特征和具有判別力的匹配模型。主要是因為無標簽數(shù)據(jù)集中并不具備有效的監(jiān)督信息供模型訓練。在基于深度神經(jīng)網(wǎng)絡的行人重識別中,常用三元組損失函數(shù)作為度量模型損失的方法。而對于無監(jiān)督學習則需要模型自主挖掘三元組用于損失計算。本文中,基于無監(jiān)督學習挖掘三元組方案的主要內(nèi)容有:

(1)單相機內(nèi)的時空一致性,每條行人軌跡中的圖像都屬于同一個ID,目的是利用構(gòu)成軌跡的圖像更新軌跡特征。

(2)從無標簽數(shù)據(jù)集中挖掘三元組,設(shè)計一種自適應加權(quán)的條件、即三元組損失函數(shù),動態(tài)調(diào)整正負樣本對之間的距離,提高模型性能。

1 方法

1.1 單相機關(guān)聯(lián)學習

單相機內(nèi)關(guān)聯(lián)學習的目的是為了學習具有判別力的單相機軌跡特征。基于單相機內(nèi)的時空一致性如圖1 所示。

圖1 單相機內(nèi)的時空一致性Fig.1 The spatio-temporal consistency with a single camera

研究中,將圖1 中的行人軌跡定義為源軌跡,假設(shè)攝像機k下有Nk條小片段軌跡,則所有錨樣本軌跡的特征集合為構(gòu)成源軌跡中的任一幀圖像特征表示為xk,p。而單相機內(nèi)的時空一致性則意味著來自同一條軌跡的大多數(shù)圖像都表示同一個行人,因此構(gòu)成源軌跡中的任一幀圖像與該軌跡間的特征距離會比該幀圖像與其它軌跡間的特征距離小。

1.1.1 軌跡特征表示方法

由圖1 可知,這里的行人軌跡是由連續(xù)的圖像幀構(gòu)成。每條軌跡包含了同一行人的多張連續(xù)圖像,為此可以提取行人豐富的時空信息,使學習到的行人特征更加具有表達力。當前的許多軌跡特征處理方案多是利用卷積神經(jīng)網(wǎng)絡中的時間池化層,例如最大池化層[21](max-pooling)、或是平均池化層[10](mean-pooling),將小片段軌跡表示成一種序列級的特征。但是,這種方法在網(wǎng)絡學習的過程中需要大量的計算成本,因為每個小批量學習迭代中都要用到前饋(feed-forward)軌跡中的所有圖像,會造成時間浪費。為此,在模型訓練過程中,將小片段軌跡表示成ak,i,并采用指數(shù)滑動平均的方法(EMA),通過構(gòu)成該軌跡中的任意幀圖像xk,p來更新軌跡特征。進而推得的數(shù)學公式可寫為:

其中,i=p表示更新軌跡的圖像是源軌跡中的任意幀圖像;t表示小批量樣本集訓練迭代的次數(shù);τ是向EMA 提供的衰減率參數(shù),通常用來控制模型的更新速度相當于一個影子變量,其初值可表示為構(gòu)成ak,i這條軌跡的所有圖像幀的特征均值,最終目的是獲取更新后軌跡特征值

由于軌跡特征ak,i和圖像特征xk,p之間存在尺度和單位的差異,研究中采用l2對其進行歸一化,例如,采用指數(shù)滑動平均的算法來更新軌跡,究其原因就在于對滑動窗口中的值求平均時,前面的值都是呈指數(shù)衰減的,導致原來的值對更新后的值產(chǎn)生的影響減少,而最近的值權(quán)重更大,從而使滑動均值只與最近的迭代有關(guān)系。當ak,i初始化為所有圖像的特征均值并根據(jù)式(1)進行迭代更新時,單相機內(nèi)的錨樣本會伴隨著模型學習的過程持續(xù)學習來表示每條軌跡。

1.1.2 關(guān)聯(lián)排序

在模型學習的過程中,逐漸更新攝像機k內(nèi)的Nk軌跡特征。由式(1)獲取所有錨樣本軌跡集合為要搜索的目標行人圖像為xk,p,為了找到和目標圖像xk,p最近鄰的軌跡特征,將目標圖像與攝像機k內(nèi)的所有軌跡進行關(guān)聯(lián),計算彼此間的相似程度,并進行排序,得到一個排序列表,再找到與目標圖像距離最近的軌跡特征。

本節(jié)將使用標準的l2度量方法,對圖像特征和軌跡特征進行標準化后將計算兩者間的特征距離。計算目標圖像與所有錨樣本軌跡間的特征距離,這里需用到的數(shù)學公式可寫為:

1.1.3 挖掘三元組和損失函數(shù)設(shè)計

在本節(jié)中,采用一種特殊的三元組損失函數(shù)來評估模型性能。在訓練過程中起到一種類似頂推(top-push)的作用。單相機關(guān)聯(lián)學習過程如圖2 所示。圖2中,使rank -1 的軌跡ak,t能夠?qū)谀繕藞D像所在的軌跡ak,p,即p=t。

圖2 單相機關(guān)聯(lián)學習過程Fig.2 The process of intra-camera association learning

傳統(tǒng)的三元組損失函數(shù)是由FaceNet[23-24]提出,包括:錨樣本xa、即要尋找的目標樣本,與目標樣本具有相同身份的正樣本xp,與目標樣本不具有相同身份的負樣本xn,此處的數(shù)學公式具體如下:

其中,[·]+=max (0,·) ;Da,p表示目標樣本與正樣本之間的特征距離;Da,n表示目標樣本與負樣本之間的特征距離;m是給定的閾值,可以使目標樣本與正樣本之間的最大距離遠小于目標樣本與負樣本之間的最小距離。

為了在訓練過程中學習更好的特征,充分挖掘各個樣本對之間潛在的關(guān)聯(lián)性、從而提取更加鮮明的行人特征,為此引入一種自適應加權(quán)的方法,將損失函數(shù)中的各個樣本對距離加上相應的權(quán)重來訓練模型,圖3 給出的就是樣本權(quán)重描述。則一般加權(quán)三元組的數(shù)學計算公式見如下:

圖3 樣本權(quán)重Fig.3 Illustration of weights

其中,xp∈P表示正樣本集,xn∈N表示負樣本集。

而由Hermans 等人提出的困難三元組損失[21],僅考慮正負樣本時,對應的權(quán)重可以寫成:

其中,最困難正樣本是指視覺上看不是同一個人、但實際是相同身份的行人,則兩者之間的特征距離會最大。最困難負樣本是指視覺上看是同一個人、但實際上不是相同身份的行人,則兩者之間的特征距離將會最小。這種方法可以有效避免在訓練過程中由于簡單樣本的影響使訓練陷入了較壞的局部最小值。而傳統(tǒng)的權(quán)重統(tǒng)一的三元組損失在模型訓練過程中對異常值較魯棒,為此擬結(jié)合這2 種損失的優(yōu)越性,來設(shè)計本節(jié)的三元組損失函數(shù)。

由于該模型是基于無監(jiān)督的一種端到端的訓練模式,因此沒有預先標記的成對行人標簽。為此要先找到對應的三元組,從而設(shè)計損失函數(shù)。此后的設(shè)計過程可做研究闡釋如下。

由式(2)可以得到,攝像機k內(nèi)所有錨樣本軌跡與目標圖像xk,p之間的特征距離為了確定對應的正負樣本,利用式(3)找到rank -1 的軌跡ak,t,并且在理想狀況下可認為ak,t對應xk,p所在的軌跡ak,p。那么如果p=t,則rank -1 軌跡ak,t就是軌跡ak,p,對應目標圖像xk,p為正樣本集;如果p≠t,則rank -1 軌跡ak,t不是軌跡ak,p,對應目標圖像xk,p為負樣本集?;诖?,單相機內(nèi)三元組損失可進一步剖析闡述如下。

(1)當p≠t時。損失函數(shù)為:

(2)當p=t時。三元組對應的正樣本為ak,p,并且從小批量數(shù)據(jù)中隨機采樣M幀圖像作為負樣本,則損失函數(shù)為:

式(7)~式(8)是基于關(guān)聯(lián)排序,由rank -1 判斷三元組而設(shè)計的損失函數(shù)。為了挖掘軌跡中圖像之間潛在的關(guān)聯(lián)性,提取更鮮明的軌跡特征,根據(jù)目標圖像與正負樣本之間特征距離的大小來自適應加權(quán)訓練模型,模型參數(shù)可由如下公式計算求得:

由式(9)可以看出,對于正樣本,在計算ωp時,困難的樣本與目標樣本間的特征距離大,則分配的權(quán)重會大,模型訓練時會更加注重困難樣本學習;而簡單的樣本與目標樣本間的特征距離小,分配的權(quán)重也會小。對于負樣本,在計算ωn和ωM時,困難的樣本與目標樣本間的特征距離小,在設(shè)計時指數(shù)變成負號,從而保證分配給困難樣本的權(quán)重更大。

此外在單相機內(nèi)關(guān)聯(lián)學習的過程中,每個小批量樣本迭代時,都要對樣本集中的圖像進行采樣計算LI_weighted,并持續(xù)更新錨樣本軌跡集合,當數(shù)據(jù)集規(guī)模較大時,會造成計算資源和時間的浪費,這里采用了典型的隨機梯度下降法來優(yōu)化模型訓練。

綜上所述,這種設(shè)計的關(guān)聯(lián)學習方案,在無標簽數(shù)據(jù)集的前提下,可以采用一種端到端的深度學習方式。將單相機內(nèi)的任意軌跡初始化為構(gòu)成軌跡的幀特征的均值,以此減少計算成本,采用指數(shù)滑動平均的方法在批量迭代學習的過程中持續(xù)更新軌跡,保證軌跡特征與最近迭代的特征相關(guān);對所有錨樣本軌跡集合進行排序,確定rank -1 軌跡,并作為判斷三元組的關(guān)鍵條件;在rank -1 軌跡的條件下,確定三元組,由此設(shè)計損失函數(shù),并引入自適應權(quán)重挖掘樣本間潛在的關(guān)聯(lián)性,在批量學習中能夠動態(tài)調(diào)整正負樣本間的特征距離,可以加速模型的收斂速率,避免過擬合的風險,提高模型的魯棒性。為此,這種方案能夠有效學習單相機下具有判別力的軌跡特征,從而促進跨相機下軌跡關(guān)聯(lián)的效率。

1.2 挖掘跨相機三元組錨樣本和損失計算

由式(2)得到單相機內(nèi)的軌跡排序列表詳見圖3。在模型迭代過程中,采用如下方式連接2 臺攝像機k,l下的軌跡,作為跨相機關(guān)聯(lián)學習的錨樣本,即:

其中,ak,i表示攝像機k中的rank -1;al,t表示攝像機l中的rank -1;t表示樣本集訓練迭代的次數(shù)。

其中,DXp,p表示要查詢的目標圖像xk,p與跨相機關(guān)聯(lián)的軌跡Xk,p之間的特征距離,而Xk,p即是由式(10)獲得的與源軌跡ak,p關(guān)聯(lián)的軌跡特征。ωn與ωM即是由式(9)獲得。這種三元組損失函數(shù)將會有助于該深度模型推進跨相機下最匹配的軌跡合并成含有豐富信息的跨相機錨樣本,并且此種關(guān)聯(lián)的軌跡特征將有效對應于要尋找的目標圖像特征。

1.3 聯(lián)合優(yōu)化關(guān)聯(lián)損失

在模型訓練中,還要知道模型識別的差異,通過聯(lián)合單相機關(guān)聯(lián)損失LI_weighted與跨相機關(guān)聯(lián)損失LC_weighted作為模型訓練的最終損失,數(shù)學計算公式為:

其中,λ是一個平衡參數(shù)。

在模型訓練中,單相機內(nèi)的軌跡特征學習見圖2。隨著模型的訓練更新,要搜索的目標圖像與源軌跡之間的關(guān)聯(lián)程度更深,能夠有效判別軌跡,從而增強跨相機下軌跡的關(guān)聯(lián)程度,有效提高跨相機內(nèi)的關(guān)聯(lián)學習。因此,為了使模型對2 種關(guān)聯(lián)學習的程度一致,這里將λ設(shè)置為1。

2 實驗結(jié)果和分析

2.1 實驗設(shè)置

本文采用標準視頻數(shù)據(jù)集iLIDS-VID[23]、PRID2011[24]和MARS[10]來評估算法模型。文中的數(shù)據(jù)參數(shù)見表1。

表1 數(shù)據(jù)集參數(shù)Tab.1 Parameters for the datasets

在MARS 數(shù)據(jù)集中共有20 478條行人軌跡,包括1 261個行人,每個行人至少穿過2 臺攝像機視野。在6 臺攝像機部署的監(jiān)控環(huán)境下采集的行人軌跡更加貼近實際的監(jiān)控場景,包含更多的未知變化。在iLIDS-VID 數(shù)據(jù)集中共有300 個行人,包含600條軌跡,在不同的攝像機下共有2 條軌跡,每條軌跡由23~192 張不等的連續(xù)圖像構(gòu)成,平均會有73 張圖像。在PRID2011 數(shù)據(jù)集中共有178 個行人,包含1 134條軌跡,每條軌跡由5~675 幀圖像構(gòu)成。

本文中,將MARS 數(shù)據(jù)集中的625 個行人的軌跡用來訓練,其余的636 個行人的軌跡用來測試模型。將iLIDS-VID 中的行人平均劃分作為訓練集和測試集。對于PRID2011,采用傳統(tǒng)的分割方案,將178 個行人平均劃分用來訓練和測試,每條軌跡至少包含27 幀圖像。

本文中采用累積匹配特性CMC值來評估基于iLIDS-VID 和PRID2011 算法的性能,學習過程中將行人標簽隨機劃分,重復10次,確保統(tǒng)計結(jié)果穩(wěn)定。采用CMC和平均精度均值map來評估基于MARS算法的性能。

仿真實驗是基于Linux 系統(tǒng),搭建GPU 版的Tensorflow[25]框架,使用Python 編寫完成的。利用基于ImageNet[26]預訓練的參數(shù)初始化該深度模型。為了保證采樣的小批量集中都包含所有攝像機下的行人,將batch_size設(shè)置為128。對于較大規(guī)模的數(shù)據(jù)集MARS,設(shè)置迭代次數(shù)為2×105,并采用隨機梯度下降(Stochastic Gradient Descent,SGD)的方法訓練模型。將初始化學習率設(shè)置為0.01,當模型迭代剩下5×104時,學習率下降為0.001。自適應加權(quán)訓練模型,為了避免被零除,在實驗中,將權(quán)重衰減速率設(shè)為e-6。對于較小規(guī)模數(shù)據(jù)集iLIDS-VID 和PRID2011,將學習率初始為0.045,設(shè)置迭代次數(shù)為4×104,采用RMSProp 優(yōu)化器[27]優(yōu)化模型時,設(shè)置指數(shù)衰減為每2個epoches為0.94。此外,則根據(jù)經(jīng)驗將2 種關(guān)聯(lián)損失的閾值m設(shè)為0.2。在測試階段,研究獲取的軌跡特征是遵循l2標準化。對跨相機下軌跡間的l2距離進行計算,作為相似度測量的標準,用于視頻行人重識別中。

2.2 結(jié)果和分析

基于ImageNet 預訓練參數(shù)來初始化本文模型,采用典型的MobileNet[28]網(wǎng)絡作為本文模型的骨干網(wǎng)絡。對此過程可給出探討論述如下。

(1)本文設(shè)計的自適應加權(quán)損失與其它損失對比。為證明本文優(yōu)化的自適應加權(quán)三元組損失函數(shù)能夠有效提高模型的準確度,基于標準數(shù)據(jù)集PRID2011、iLIDS-VID 和MARS(這里的各數(shù)據(jù)集皆為rank -1 軌跡),與使用權(quán)重一致的傳統(tǒng)三元組損失函數(shù)和困難樣本權(quán)重的三元組損失函數(shù)做對比,說明本文采用自適應加權(quán)的方法更適用于行人重識別研究。比較結(jié)果見表2,CMC曲線如圖4 所示。

表2 不同關(guān)聯(lián)損失之間的比較Tab.2 Comparisons between different association loss

圖4 基于不同數(shù)據(jù)集的3 種損失性能比較Fig.4 Comparison of three loss performance based on different datasets

實驗證明,本文引入自適應權(quán)重,動態(tài)訓練模型,提高模型的準確度更有效。由表2 可以看出,本文模型基于3 種標準數(shù)據(jù)集訓練結(jié)果均比使用傳統(tǒng)和困難三元組損失高。在MARS 這種多攝像頭捕捉、更貼近于現(xiàn)實監(jiān)控場景中,本文rank -1 相較于其它2 種損失分別高出4.3%和15.1%。在數(shù)據(jù)集iLIDS-VID 和PRID2011上,本文rank -1 比另外2種損失分別高出7.1%和24.8%以及4.3%和15.1%。再結(jié)合基于不同數(shù)據(jù)集的3 種損失性能比較的CMC曲線圖如圖5 所示,圖5 中的藍色曲線是本文模型性能。從圖5 中可以直觀看出,基于本文設(shè)計的損失函數(shù)的模型性能明顯優(yōu)于另外2 種損失,在不使用任何行人的先驗信息條件下,本文的rank -1 基本可以達到50%以上。

圖5 基于MARS的CMC 曲線圖Fig.5 CMC curve on MARS

(2)本文算法與其它較先進算法對比。本文中先基于較大數(shù)據(jù)集MARS 進行實驗,分別與2020年較先進的算法UTAL[29]、以及其它較先進的算法Stepwise[18]等做比較,比較結(jié)果見表3。

表3 在MARS 上的結(jié)果比較Tab.3 Comparison results on MARS %

實驗證明,在選用了較大的數(shù)據(jù)集、且更加接近真實的監(jiān)控場景中,本文模型識別的準確率明顯優(yōu)于其它模型。本文算法的rank -1 為50.2%,要比先進的UTAL 算法rank-1 高出0.3%。這就說明本文模型在沒有任何先驗行人信息的前提下,更加適用于行人重識別任務。

此外本文在標準的較小數(shù)據(jù)集PRID2011 和iLIDS-VID 上做了對比實驗。實驗結(jié)果見表4。CMC 曲線如圖6 所示。

表4 在PRID2011 和iLIDS-VID 上的結(jié)果比較Tab.4 Comparison results on PRID2011 and iLIDS-VID %

圖6 基于PRID2011 和iLIDS-VID的CMC 曲線圖Fig.6 CMC curve based on PRID2011 and iLIDS-VID

實驗證明,在較小的數(shù)據(jù)集上,本文算法識別準確率更高,rank -1 分別為86.2%,65.4%,相較先進的Stepwise[16]算法分別高出了5.3%和23.7%。在圖6 中藍色曲線代表本文的算法,可以直觀看出比其它較先進的算法高出較多,模型性能更好,在無監(jiān)督學習條件下,基于PRID2011 訓練的模型準確率達到85%以上?;趇LIDS-VID 數(shù)據(jù)集訓練的模型性能,從圖6 中也可以看出明顯高于其它算法性能,rank -1 比黑色曲線高出23.7%。

在結(jié)合不同損失函數(shù)性能對比和與當前較先進算法的比較中可以發(fā)現(xiàn),本文算法較優(yōu)越主要可歸因為基于rank -1 挖掘的三元組較困難。具體地,當rank -1 軌跡不是源軌跡時,表明該軌跡是與目標樣本距離最近的負樣本、即困難樣本;當rank -1軌跡是源軌跡時,本文隨機采樣的M張圖像作為負樣本,再通過圖像間的特征距離來分配權(quán)重,對困難樣本著重學習。而在特征學習的過程中,基于困難三元組學習可以得到更加有效的特征。綜上所述,本文模型在不使用任何先驗身份信息的前提下,更加適用于行人重識別任務。

3 結(jié)束語

本文提出無監(jiān)督學習三元組用于視頻行人重識別研究。在基于單相機內(nèi)軌跡的時空一致性學習軌跡特征過程中,利用關(guān)聯(lián)排序的方法從無標簽的數(shù)據(jù)集中挖掘目標圖像的三元組用于計算損失,并引入自適應加權(quán)的方法來動態(tài)調(diào)整正負樣本間的距離,提高模型的魯棒性,學習單相機下具有判別力的行人特征。同時基于rank -1 合并2 臺不同攝像機下的關(guān)聯(lián)軌跡,作為跨相機損失計算的三元組錨樣本。最終聯(lián)合2 種關(guān)聯(lián)損失優(yōu)化,提高無監(jiān)督模型的準確度。

猜你喜歡
三元組行人關(guān)聯(lián)
不懼于新,不困于形——一道函數(shù)“關(guān)聯(lián)”題的剖析與拓展
特征標三元組的本原誘導子
毒舌出沒,行人避讓
關(guān)于余撓三元組的periodic-模
“一帶一路”遞進,關(guān)聯(lián)民生更緊
路不為尋找者而設(shè)
一個時態(tài)RDF存儲系統(tǒng)的設(shè)計與實現(xiàn)
奇趣搭配
我是行人
智趣
蒙城县| 宜兴市| 苏尼特右旗| 钟祥市| 杭锦旗| 高要市| 裕民县| 苍山县| 天全县| 石林| 诏安县| 柳州市| 高陵县| 邢台县| 静乐县| 本溪市| 沂源县| 东辽县| 邳州市| 香港 | 凌云县| 诸城市| 修武县| 孟州市| 长岭县| 宕昌县| 芦溪县| 张家川| 安化县| 航空| 泰和县| 巫溪县| 怀安县| 乳山市| 和政县| 滁州市| 宁津县| 广州市| 阳山县| 弥勒县| 武隆县|