朱 利 林 欣 徐亦飛 劉 真 馬 英
1(西安交通大學(xué)電信學(xué)部軟件學(xué)院 西安 710049)
2(北京交通大學(xué)計(jì)算機(jī)科學(xué)與信息學(xué)院 北京 100091)
3(國(guó)家信息中心 北京 100038)
行人重識(shí)別(Person Re-identification,Re-ID)是一個(gè)特殊的人員檢索問(wèn)題,近年來(lái)受到了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。Person Re-ID 的目的是在不同的時(shí)間、攝像機(jī)或場(chǎng)景中匹配一個(gè)特定的人,稱為“查詢?nèi)恕薄S捎趶膱D像、視頻和文本描述中提取有鑒別性特征的方式不同,Person Re-ID 十分具有挑戰(zhàn)性。此外,不同視角、背景雜波、姿勢(shì)多樣性和遮擋的存在為 Person Re-ID任務(wù)帶來(lái)了變化和不確定性。
隨著公眾安全的迫切需求和城市中監(jiān)控?cái)z像機(jī)數(shù)量的不斷增加,在復(fù)雜城市環(huán)境中,如何匹配識(shí)別特定人物給智慧城市帶來(lái)了嚴(yán)峻的挑戰(zhàn)。在研究與實(shí)驗(yàn)中,傳統(tǒng)行人重識(shí)別數(shù)據(jù)集的樣本數(shù)量有限、風(fēng)格單一,且 Re-ID 任務(wù)只是查詢圖像在圖庫(kù)中進(jìn)行相似匹配。而在現(xiàn)實(shí)的行人重識(shí)別任務(wù)中,通過(guò)多種渠道收集的行人圖像數(shù)量龐大、風(fēng)格迥異、相似匹配難度大。因此,單一的行人重識(shí)別技術(shù)難以應(yīng)對(duì)復(fù)雜的識(shí)別需求。為提高行人重識(shí)別技術(shù)的實(shí)用性,本文提出將行人重識(shí)別技術(shù)與多級(jí)城市信息單元深度融合,形成相似的層次結(jié)構(gòu),可以將任務(wù)的數(shù)據(jù)規(guī)??刂圃谝欢ǚ秶鷥?nèi)。該融合便于構(gòu)建解決實(shí)際問(wèn)題的概念模型,可將復(fù)雜的現(xiàn)實(shí)識(shí)別需求分解為多級(jí)城市信息單元框架下的多個(gè)明確的行人重識(shí)別子問(wèn)題,從而使行人重識(shí)別技術(shù)滿足智慧城市場(chǎng)景下的多層次行人重識(shí)別任務(wù)需要。
近年來(lái),大量研究集中于利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行行人重識(shí)別,識(shí)別效果良好[1-3]。相關(guān)學(xué)者還針對(duì)其訓(xùn)練技巧和性能提升進(jìn)行了研究[4],嘗試將行人重識(shí)別技術(shù)與注意力機(jī)制相結(jié)合,以增強(qiáng)深度特征的辨別性,并抑制無(wú)用特征[5-9]。大多數(shù)注意力由有限感受野的全連接層或卷積層進(jìn)行學(xué)習(xí),但它們僅使用了單個(gè)圖像信息。
現(xiàn)有的深度特征學(xué)習(xí)模型和注意力機(jī)制只關(guān)注深度特征與其對(duì)應(yīng)樣本數(shù)據(jù)之間的關(guān)系,而忽略了不同特征對(duì)之間的差異。實(shí)際上,通過(guò)深度特征學(xué)習(xí)方法解決行人重識(shí)別問(wèn)題的核心是將檢索問(wèn)題轉(zhuǎn)化為深度特征的相似匹配任務(wù)。然而,目前基于距離函數(shù)的深層網(wǎng)絡(luò)一般都局限于特定的數(shù)據(jù)集或特定的識(shí)別任務(wù)。
本文設(shè)計(jì)了差異注意力模塊解決特征相似性匹配任務(wù),實(shí)現(xiàn)了基于深度特征向量對(duì)差異的注意力機(jī)制。為使差異注意力模塊能夠匹配多樣的深度特征模型,且保證提取特征的多樣性,本文提出了差異注意力框架。此外,還設(shè)計(jì)了兩種不同的訓(xùn)練策略用于訓(xùn)練差異注意力模塊和整個(gè)框架。
本文主要工作如下:
(1)將行人重識(shí)別技術(shù)與多級(jí)城市信息單元深度融合,形成相似的層次結(jié)構(gòu),使行人重識(shí)別技術(shù)能夠滿足智慧城市場(chǎng)景下的多層次行人重識(shí)別任務(wù)需求。
(2)指出基于深度特征表示的行人重識(shí)別問(wèn)題的核心是特征向量之間的差異,提出差異注意力的思想,通過(guò)差異注意力選擇更具有辨別力的特征。
(3)設(shè)計(jì)了差異注意力模塊,用于實(shí)現(xiàn)基于深度特征差異的差異注意力機(jī)制。設(shè)計(jì)了差異注意力框架和兩種不同的訓(xùn)練策略(聯(lián)合訓(xùn)練和單獨(dú)訓(xùn)練)以匹配不同的深度模型并對(duì)其進(jìn)行訓(xùn)練。在 Market-1501、CUHK03 和 MSMT17 等行人重識(shí)別數(shù)據(jù)集上,與其他行人重識(shí)別特征表示方法相比,差異注意力的效果更好。
在計(jì)算機(jī)視覺(jué)中,行人重識(shí)別是一項(xiàng)具有挑戰(zhàn)性且十分復(fù)雜的任務(wù)。本節(jié)將討論城市信息單元、與行人重識(shí)別相關(guān)的特征表示學(xué)習(xí)和面向有監(jiān)督的行人重識(shí)別的注意力機(jī)制。
根據(jù)城市行政區(qū)劃,城市信息單元[10]在地理上分為網(wǎng)格、區(qū)域、街道和市轄區(qū)。每個(gè)城市信息單元包含基本的政府?dāng)?shù)據(jù)和社會(huì)傳感器數(shù)據(jù)。其中,政府?dāng)?shù)據(jù)包括人口普查結(jié)果、社會(huì)經(jīng)濟(jì)指標(biāo)、地圖、街道等信息;社會(huì)傳感器數(shù)據(jù)包括天氣、溫度、水質(zhì)、交通流量、人流等信息。
一座城市包含一個(gè)或多個(gè)市政區(qū),每個(gè)市政區(qū)包含一條或多條街道,街道又包含社區(qū)、小學(xué)、購(gòu)物中心、公園等區(qū)域。根據(jù)緯度和經(jīng)度,城市在地理上可被劃分為多個(gè)網(wǎng)格。因此,城市信息單元有類似的層次結(jié)構(gòu):每個(gè)市政區(qū)級(jí)城市信息單元包含一個(gè)或多個(gè)街道級(jí)城市信息單元,每個(gè)街道級(jí)城市信息單元包含一個(gè)或多個(gè)區(qū)域級(jí)城市信息單元,每個(gè)區(qū)域級(jí)城市信息單元包含一個(gè)或多個(gè)網(wǎng)格級(jí)城市信息單元,網(wǎng)格級(jí)城市信息單元是最基礎(chǔ)的城市信息單元層級(jí)。
特征表示學(xué)習(xí)是從具有良好識(shí)別能力的行人重識(shí)別數(shù)據(jù)集中提取樣本圖像的特征向量。目前,主要有 4 種特征學(xué)習(xí)策略:全局特征、局部特征、輔助特征和視頻特征[11-12]。其中,全局特征是從每個(gè)人物圖像中提取全局的特征表示向量[1];局部特征聚合了不同的零件級(jí)局部特征,便于為每個(gè)人物圖像組合出一個(gè)新的更精確的特征表示[13-14];輔助特征使用其他輔助信息(如語(yǔ)義屬性)學(xué)習(xí)與表示特征[15];視頻特征是從多個(gè)圖像幀中學(xué)習(xí)視頻的特征表示,用于視頻中的行人重識(shí)別[16]。
全局特征指學(xué)習(xí)每個(gè)圖像的全局特征,其僅利用整個(gè)圖像進(jìn)行特征提取。隨著深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于行人重識(shí)別,基于深度學(xué)習(xí)的全局特征學(xué)習(xí)已成為提取特征向量的主要策略[17]。為提取更有用的全局特征向量,身份判別嵌入模型(IDdiscriminative Embedding,IDE)[1]將行人重識(shí)別視為一個(gè)多類分類問(wèn)題,每個(gè)身份被視為一個(gè)不同的類。近年來(lái),研究者們?yōu)樾腥酥刈R(shí)別設(shè)計(jì)了多種用于全局特征表示的深度網(wǎng)絡(luò),以達(dá)到更優(yōu)的行人重識(shí)別性能[2-3,18]。
本文將利用差異注意力信息增強(qiáng)全局特征向量的表示效果和識(shí)別能力。差異注意力不局限于全局特征表示方法,它適用于任何類型的行人重識(shí)別特征表示學(xué)習(xí)模型。
注意力方法通過(guò)關(guān)注特征向量中的重要特征抑制不相關(guān)特征,使注意力可適應(yīng)復(fù)雜的任務(wù)需求。Wang 等[5]和 Yang等[6]在注意力模塊中設(shè)置卷積層以獲得更大的感受野。卷積塊注意力模塊[7]在空間特征和通道特征上利用卷積層和一個(gè)共享的多層感知機(jī)(Multilayer Perceptron,MLP)學(xué)習(xí)空間和通道注意圖。其他相關(guān)工作將人類語(yǔ)義的外部線索視為注意力,或?qū)⑵渥鳛檩o助信息來(lái)指導(dǎo)注意力的學(xué)習(xí)[8-9,19-20]。
然而,上述方法僅利用了單個(gè)圖像的特征生成相應(yīng)的注意力信息。為進(jìn)一步使用兩個(gè)不同圖像特征向量之間的差異信息,本文設(shè)計(jì)了差異注意力模塊生成差異注意力信息,為距離函數(shù)提供更具區(qū)分度的注意力,以獲得更好的行人重識(shí)別性能。
本節(jié)將介紹基于城市信息單元和差異注意力的多層行人重識(shí)別技術(shù)。第 3.1 小節(jié)討論行人重識(shí)別技術(shù)與城市信息單元的深度融合;在回顧廣泛使用的有監(jiān)督的行人重識(shí)別框架后,第 3.2 小節(jié)提出差異注意力模式;第 3.3 小節(jié)詳細(xì)描述差異注意力模塊;第 3.4 小節(jié)介紹整個(gè)差異注意力框架以及兩種不同的訓(xùn)練策略。
在智慧城市系統(tǒng)中,行人重識(shí)別任務(wù)具有重要的實(shí)踐意義與應(yīng)用價(jià)值。然而,在解決具體的實(shí)踐問(wèn)題上,單純的行人重識(shí)別技術(shù)還存在盲點(diǎn)。為提高行人重識(shí)別技術(shù)的實(shí)用性,本文將行人重識(shí)別技術(shù)與多級(jí)城市信息單元深度融合,形成相似的層次結(jié)構(gòu),構(gòu)建解決實(shí)際問(wèn)題的概念模型,使得行人重識(shí)別技術(shù)能夠滿足智慧城市場(chǎng)景下的多層次行人重識(shí)別任務(wù)需求。
行人重識(shí)別任務(wù)可被看作安全領(lǐng)域的一項(xiàng)多層次的復(fù)雜任務(wù),不同的行人重識(shí)別任務(wù)之間,可通過(guò)共同/不同的查詢子集/圖庫(kù)子集形成行人重識(shí)別任務(wù)的層級(jí)關(guān)系。城市信息單元的層次結(jié)構(gòu)類似。圖 1 展示了城市信息單元與多級(jí)行人重識(shí)別相似的層次結(jié)構(gòu),從下到上依次為網(wǎng)格、區(qū)域、街道、行政區(qū)域和城市,上級(jí)城市信息單元包含下級(jí)城市信息單元,同一級(jí)別的城市信息單元相互獨(dú)立。同樣地,同級(jí)城市信息單元需要執(zhí)行的人員識(shí)別任務(wù)也是獨(dú)立的,高級(jí)的城市信息單元對(duì)應(yīng)的行人重識(shí)別任務(wù)包括其所有的下級(jí)城市信息單元的行人重識(shí)別任務(wù),而最低級(jí)的城市信息單元對(duì)應(yīng)的任務(wù)也是最基礎(chǔ)的任務(wù)。
圖1 行人重識(shí)別任務(wù)與城市信息單元的層次結(jié)構(gòu)Fig. 1 The hierarchical architecture of Person Re-ID tasks and urban information units
基于上述層次結(jié)構(gòu),城市信息單元可作為解決實(shí)際問(wèn)題的概念模型。選擇不同層級(jí)的城市信息單元,根據(jù)其包含的政府?dāng)?shù)據(jù)和社會(huì)傳感器數(shù)據(jù),即可確定具體需要執(zhí)行行人重識(shí)別任務(wù)的查詢圖集和圖庫(kù)圖集,從而明確地執(zhí)行具體的行人重識(shí)別任務(wù),生成查詢結(jié)果以組成最終的任務(wù)輸出。
將行人重識(shí)別技術(shù)與城市信息單元深度融合,可明確行人重識(shí)別任務(wù)在智慧城市等實(shí)際應(yīng)用場(chǎng)景中的概念模型,滿足多樣的多級(jí)行人重識(shí)別任務(wù)需求。此外,基于城市信息單元的多級(jí)行人重識(shí)別,還可更進(jìn)一步解決行人跟蹤等其他與行人重識(shí)別相關(guān)的問(wèn)題。
行人重識(shí)別旨在從預(yù)定義的圖庫(kù)中查找與給定的查詢圖像最相似的圖像。一般地,通過(guò)深度學(xué)習(xí)方法進(jìn)行有監(jiān)督的行人重識(shí)別包括 3 個(gè)步驟:(1)提取訓(xùn)練數(shù)據(jù)集(通常基于 ResNet-50 骨干網(wǎng)絡(luò)[17])的圖像特征向量,并訓(xùn)練深度模型;(2)使用(1)中訓(xùn)練的模型提取查詢圖像和圖庫(kù)中所有圖像的特征向量;(3)計(jì)算查詢圖像特征向量與圖庫(kù)圖像特征向量之間的距離(或相似性),并對(duì)距離矩陣進(jìn)行排序,以生成行人重識(shí)別查詢結(jié)果。
在許多情況下,提取魯棒的圖像特征是行人重識(shí)別任務(wù)中最重要的部分。由實(shí)驗(yàn)結(jié)果可知,不同類型的圖像特征在不同的任務(wù)和數(shù)據(jù)集上可能具有最佳性能。當(dāng)深度網(wǎng)絡(luò)模型的參數(shù)固定時(shí),圖像特征將失去針對(duì)不同任務(wù)的靈活性和魯棒性。因此,本文在解決行人重識(shí)別任務(wù)時(shí),需要提供能夠提取各種特征的深度網(wǎng)絡(luò),當(dāng)計(jì)算不同行人重識(shí)別任務(wù)中圖像特征之間的距離時(shí),選擇合適的特征就變得尤為重要。使用上述差異注意力模式,根據(jù)特征向量的差異注意力對(duì)特征進(jìn)行加權(quán),距離函數(shù)只需計(jì)算兩個(gè)特征向量之間的有用特征差異,就可計(jì)算出更具辨別力的距離矩陣。
差異注意力模塊是差異注意力框架中的核心組件,其結(jié)構(gòu)如圖 2 所示,差異注意力模塊包括輸入變換、聚合卷積、多層感知機(jī)和輸出變換等組件。
圖2 差異注意力模塊的結(jié)構(gòu)Fig. 2 The structure of our diff attention module
為最終實(shí)現(xiàn)差異注意力,本文設(shè)計(jì)了用于行人重識(shí)別的差異注意力框架,結(jié)構(gòu)如圖 3 所示,其主要結(jié)構(gòu)包括骨干網(wǎng)絡(luò)(BagTricks 或 AGW)、差異注意力模塊及距離函數(shù)。
首先,利用骨干網(wǎng)絡(luò)提取圖像的深度特征向量。然后,差異注意力框架中的特征向量將被成對(duì)地發(fā)送到差異注意力模塊,以生成每對(duì)圖像之間的差異注意力圖,再將差異注意力與原始的特征向量相乘。在訓(xùn)練階段,訓(xùn)練批次中每個(gè)圖像的特征向量與同一批次中的所有其他向量互相配對(duì),以計(jì)算差異注意力圖;在推理階段,查詢圖像的特征向量和圖庫(kù)圖像的特征向量自然配對(duì)。最后,可以通過(guò)距離函數(shù)計(jì)算圖像對(duì)之間的距離,以計(jì)算損失,從而訓(xùn)練深度模型或得到行人重識(shí)別結(jié)果。
為了使差異注意力框架適用于多種經(jīng)過(guò)訓(xùn)練的深度模型,本文還提出了聯(lián)合訓(xùn)練和單獨(dú)訓(xùn)練兩種訓(xùn)練策略。聯(lián)合訓(xùn)練通常用于訓(xùn)練新的深度網(wǎng)絡(luò),單獨(dú)訓(xùn)練則更適用于微調(diào)已經(jīng)訓(xùn)練過(guò)的深度模型。
聯(lián)合訓(xùn)練指一起訓(xùn)練所有的模型,即同時(shí)訓(xùn)練骨干模型和差異注意力模塊。該訓(xùn)練策略有助于訓(xùn)練適應(yīng)差異注意力的骨干網(wǎng)絡(luò)。在聯(lián)合訓(xùn)練開(kāi)始前,通常利用 ImageNet 數(shù)據(jù)集預(yù)訓(xùn)練骨干模型,并且隨機(jī)初始化差異注意力模塊。聯(lián)合訓(xùn)練中涉及的訓(xùn)練超參數(shù)與僅訓(xùn)練骨干模型的參數(shù)相同,并采用骨干模型 BagTricks[4]和 AGW[21]論文中所使用的損失函數(shù),損失函數(shù)及其參數(shù)保持不變。聯(lián)合訓(xùn)練使用 ID 損失LID和標(biāo)簽平滑技術(shù)[22]、三元組損失LBHTriplet[23]和中心損失LCenter[24]來(lái)訓(xùn)練所有的模型。對(duì)于 AGW 骨干模型,將使用其加權(quán)正則化三元組損失[21]。
聯(lián)合訓(xùn)練的損失函數(shù)公式如下:
單獨(dú)訓(xùn)練指微調(diào)現(xiàn)有的訓(xùn)練過(guò)的骨干模型。訓(xùn)練模型的超參數(shù)可能與僅訓(xùn)練骨干模型時(shí)使用的參數(shù)不同。該訓(xùn)練策略可以大大縮短訓(xùn)練時(shí)間和訓(xùn)練成本,有助于快速找到差異注意力框架的最佳超參數(shù)。由于不再訓(xùn)練骨干模型,聯(lián)合訓(xùn)練使用的損失函數(shù)中只有三元組損失具有意義,ID損失與中心損失不再發(fā)生改變。因此,單獨(dú)訓(xùn)練可僅使用三元組損失訓(xùn)練差異注意力模塊。
單獨(dú)訓(xùn)練的損失函數(shù)公式如下:
為增強(qiáng)三元組損失的效果,在計(jì)算三元組損失時(shí),使用 softplus 函數(shù)而非 hinge 函數(shù),這被稱為 soft-margin 方法[23]。
本節(jié)將評(píng)估差異注意力框架的行人重識(shí)別性能。第 4.1 小節(jié)將介紹實(shí)驗(yàn)中使用的數(shù)據(jù)集;第 4.2 小節(jié)將列出所有的實(shí)現(xiàn)細(xì)節(jié);第 4.3 小節(jié)將驗(yàn)證差異注意力模塊的效果;第 4.4 小節(jié)將對(duì)差異注意力框架所涉及的超參數(shù)進(jìn)行討論;第4.5 小節(jié)將差異注意力框架與其他最先進(jìn)的有監(jiān)督的行人重識(shí)別方法進(jìn)行對(duì)比;第 4.6 小節(jié)主要介紹基于城市信息單元的安防監(jiān)控識(shí)別系統(tǒng)的具體應(yīng)用。
本實(shí)驗(yàn)使用了 3 個(gè)著名的基于圖像的行人重識(shí)別數(shù)據(jù)集:Market-1501[25]、CUHK03[26]和MSMT17[27]。其中,Market-1501 包括 32 668 個(gè)有標(biāo)簽的行人邊界框,每個(gè)邊界框由 DPM 模型[28]檢測(cè)而來(lái),每個(gè)身份至少由 2 個(gè)攝像頭捕捉,數(shù)據(jù)集包含 6 個(gè)攝像機(jī)捕捉到的 1 501 個(gè)身份;CUHK03 包含 1 360 名行人的 13 164 張圖片,數(shù)據(jù)集由 6 個(gè)攝像頭捕獲,每個(gè)身份由2 個(gè)不相交的攝像頭進(jìn)行觀察;MSMT17 是一個(gè)新的多場(chǎng)景多時(shí)間的行人重識(shí)別數(shù)據(jù)集,盡可能地模擬了真實(shí)場(chǎng)景,其數(shù)據(jù)由部署在校園內(nèi)的 15 個(gè)攝像頭網(wǎng)絡(luò)進(jìn)行收集,該數(shù)據(jù)集包括4 101 名行人的 126 441 個(gè)邊界框。
差異注意力框架的骨干模型是 AGW 基線網(wǎng)絡(luò)[21]和 BagTricks 強(qiáng)基線[4],它們均使用經(jīng)ImageNet 預(yù)訓(xùn)練后的 ResNet-50[17]作為骨干網(wǎng)絡(luò)。
本實(shí)驗(yàn)中所有的模型訓(xùn)練硬件為 NVIDIA GeForce RTX 3080 Ti。所有圖像的尺寸被調(diào)整為256×128,每張圖像填充 10 個(gè)像素并被隨機(jī)裁剪。此外,本模型還使用了一些被廣泛使用的圖像增強(qiáng)方法:隨機(jī)水平翻轉(zhuǎn)和隨機(jī)擦除增強(qiáng)[29],翻轉(zhuǎn)概率p=0.5。
為計(jì)算 ID 損失,本實(shí)驗(yàn)在骨干模型后添加了一個(gè)無(wú)偏差的全連接層。該層的輸出維度設(shè)置為訓(xùn)練集中的身份數(shù)。由于 GPU 顯存容量的限制,批次大小被限制為 64,并設(shè)置P=16,K=4。優(yōu)化中心損失的中心參數(shù)的算法是 SGD。
訓(xùn)練使用的優(yōu)化模型算法是 Adam,權(quán)重衰減為 5×10-4。聯(lián)合訓(xùn)練共設(shè)置 120 個(gè)訓(xùn)練回合,初始學(xué)習(xí)率為 3.5×10-4,在前 10 個(gè)回合預(yù)熱學(xué)習(xí)率[30],在第 40 個(gè)和第 70 個(gè)回合學(xué)習(xí)率降低為原來(lái)的 1/10。對(duì)于單獨(dú)訓(xùn)練,只訓(xùn)練 60 個(gè)回合,初始學(xué)習(xí)率設(shè)置為 0.05,每 20 個(gè)回合降低一次學(xué)習(xí)率。
對(duì)于差異注意力模塊,輸入變換是帶絕對(duì)值的減法。當(dāng)骨干模型為 AGW 時(shí),MLP 比率設(shè)置為 4,當(dāng)骨干模型為 BagTricks 時(shí),MLP 比率設(shè)置為 512。
本文使用累積匹配特性、平均準(zhǔn)確率和平均逆負(fù)懲罰 3 個(gè)評(píng)估指標(biāo)評(píng)估差異注意力框架的性能。值得注意的是,本實(shí)驗(yàn)未使用重排序技術(shù)[31]。
本節(jié)將展示兩種不同訓(xùn)練策略下的差異注意力框架的實(shí)驗(yàn)結(jié)果。本實(shí)驗(yàn)使用單獨(dú)訓(xùn)練的策略,以尋求差異注意力模塊的最佳參數(shù)。
如表 1 和圖 4 所示,在 CUHK03 數(shù)據(jù)集上,差異注意力框架與聯(lián)合訓(xùn)練分別獲得了64.6% 和 70.3% 的 Rank-1 準(zhǔn)確度、62.5% 和69.2% 的 mAP、50.2% 和 58.7% 的 mINP;單獨(dú)訓(xùn)練也獲得了良好的結(jié)果:66.6% 和 70.6% 的Rank-1 準(zhǔn)確度、63.7% 和 67.9% 的 mAP、51.0%和 56.7% 的 mINP。在 Market-1501 數(shù)據(jù)集上,本實(shí)驗(yàn)使用 AGW 主干模型的框架取得了 95.2%的 Rank-1 準(zhǔn)確度、88.6% 的 mAP 和 66.8% 的mINP,高于原始 AGW 基線模型的性能。在MSMT17 數(shù)據(jù)集上,使用 AGW 模型的訓(xùn)練結(jié)果為 68.2% 的 Rank-1 準(zhǔn)確度、50.0% 的 mAP 和15.3% 的 mINP。
表1 差異注意力框架的性能Table 1 The performance of our diff attention framework
圖4 差異注意力框架的性能Fig. 4 The performance of our diff attention framework
本節(jié)將通過(guò)實(shí)驗(yàn)對(duì)差異注意力模塊中的超參數(shù)進(jìn)行討論——在所有的消融實(shí)驗(yàn)中,將BagTricks 和 AGW 作為骨干網(wǎng)絡(luò),使用單獨(dú)訓(xùn)練的策略,分別對(duì)不同的超參數(shù)進(jìn)行實(shí)驗(yàn),確定模型超參數(shù)的最優(yōu)值。
4.4.1 輸入變換
本文比較了 3 種輸入變換方法(減法、減法后平方和減法后絕對(duì)值)的影響。在這些輸入變換的消融實(shí)驗(yàn)中,當(dāng) AGW 作為主干模型時(shí),MLP 比率固定為 4;當(dāng) BagTricks 作為主干模型時(shí),MLP 比率固定為 512。
表 2 和圖 5 的輸入變換實(shí)驗(yàn)結(jié)果顯示了不同輸入變換對(duì)模型性能的影響。由此可知,依次進(jìn)行減法運(yùn)算和取絕對(duì)值運(yùn)算的輸入變換取得了最好的性能,其在 AGW 模型或 CUHK03 數(shù)據(jù)集上均實(shí)現(xiàn)了最佳性能。與其他兩種輸入變換相比,僅進(jìn)行減法運(yùn)算的性能較差。
表2 不同輸入變換的影響Table 2 The impact of different input transforms
圖5 不同輸入變換的影響Fig. 5 The impact of different input transforms
4.4.2 MLP 比率
MLP 比率是差異注意力模塊的核心超參數(shù),本節(jié)通過(guò)實(shí)驗(yàn)比較了不同的 MLP 比率對(duì)模型性能的影響?;诘?4.4.1 小節(jié)的實(shí)驗(yàn)結(jié)果,在測(cè)試時(shí)將輸入變換固定為帶絕對(duì)值的減法。圖 6 為不同 MLP 比率的影響,當(dāng)使用 AGW 作為主干模型時(shí),將 MLP 比率設(shè)置為 4,通常可實(shí)現(xiàn)最佳性能;若使用 BagTricks,那么就將比率設(shè)置為512。
圖6 不同 MLP 比率的影響Fig. 6 The impact of different MLP ratios
本文將其他先進(jìn)方法分為全局特征和其他兩種不同的類型,并與差異注意力框架進(jìn)行比較,結(jié)果如表 3~5 所示。由表 3~5 可知,差異注意力方法的 mAP 和 Rank-1 準(zhǔn)確度均較為優(yōu)異。
表3 在 Market-1501 上與其他最先進(jìn)方法的比較結(jié)果Table 3 Comparison results with other state-of-the-art methods on Market-1501
本文將行人重識(shí)別技術(shù)與城市信息單元深度融合,基于自建數(shù)據(jù)集,實(shí)現(xiàn)了基于城市信息單元的安防監(jiān)控識(shí)別系統(tǒng),如圖 7 所示。用戶上傳待查詢的行人圖像到該系統(tǒng)后,系統(tǒng)對(duì)行人圖像進(jìn)行圖像增強(qiáng),并利用行人重識(shí)別深度模型進(jìn)行特征提取。識(shí)別系統(tǒng)將依次對(duì)提取的行人圖像特征與選定的城市信息單元中對(duì)應(yīng)的圖庫(kù)圖像特征進(jìn)行相似度計(jì)算,并根據(jù)相似度排序生成識(shí)別結(jié)果序列。識(shí)別系統(tǒng)還能綜合行人重識(shí)別結(jié)果與城市信息單元中的位置數(shù)據(jù),利用地圖組件生成待查詢行人的軌跡。實(shí)驗(yàn)結(jié)果表明,本文基于城市信息單元的安防監(jiān)控識(shí)別系統(tǒng)識(shí)別精度高,生成識(shí)別結(jié)果速度較快,軌跡展示效果直觀明顯。
圖7 基于城市信息單元的安防監(jiān)控識(shí)別系統(tǒng)Fig. 7 The identification system based on urban information unit
表4 在 CUHK03 上與其他最先進(jìn)方法的比較結(jié)果Table 4 Comparison results with other state-of-the-art methods on CUHK03
表5 在 MSMT17 上與其他最先進(jìn)方法的比較結(jié)果Table 5 Comparison results with other state-of-the-art methods on MSMT17
為提高行人重識(shí)別技術(shù)在智慧城市等現(xiàn)實(shí)場(chǎng)景中的應(yīng)用能力,本文提出將行人重識(shí)別技術(shù)與城市信息單元進(jìn)行多層次深度融合。在行人重識(shí)別的過(guò)程中,特征差異具有重要作用。因此,本文提出了差異注意力的概念,主張利用差異注意力模塊實(shí)現(xiàn)深度特征的差異注意力機(jī)制;并提出了差異注意力框架,使得差異注意力模塊適用于多種深度特征模型。此外,本文還提出兩種不同的訓(xùn)練策略(聯(lián)合訓(xùn)練和單獨(dú)訓(xùn)練),以訓(xùn)練差異注意力框架,快速找到能夠獲得最佳性能的參數(shù)。在 Market-1501、CUHK03 和 MSMT17 上,與其他先進(jìn)的行人重識(shí)別方法相比,差異注意力框架行人重識(shí)別性能較為優(yōu)異。最后,期望本研究能為行人重識(shí)別技術(shù)在現(xiàn)實(shí)場(chǎng)景中的廣泛應(yīng)用做出貢獻(xiàn)。