国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于屬性依存增強(qiáng)的文搜圖行人重識(shí)別

2024-07-01 15:27:12夏威袁鑫攀
科技資訊 2024年8期

夏威 袁鑫攀

摘要:文搜圖行人重識(shí)別旨在通過給定的文本從行人圖庫(kù)中檢索目標(biāo)人物,主要挑戰(zhàn)是學(xué)習(xí)自由視角(姿勢(shì)、照明和相機(jī)視點(diǎn))的圖像和自由形式的文本的魯棒特征。然而,由于在文本描述和行人圖像中存在對(duì)行人屬性挖掘的不足,在細(xì)粒度上因?yàn)榧?xì)節(jié)的差異從而影響了文本描述到行人圖像的檢索性能。因此,研究提出了基于屬性依存增強(qiáng)的文搜圖行人重識(shí)別。首先,從文本描述解析出依存關(guān)系,并轉(zhuǎn)化為依存矩陣。其次,設(shè)計(jì)了一個(gè)基于自注意力的屬性干預(yù)模塊用來融合文本特征和依存矩陣,得到屬性增強(qiáng)的文本特征,此時(shí)文本特征經(jīng)過干預(yù),更為關(guān)注屬性信息。最后,文本特征與圖像特征參與訓(xùn)練,讓整個(gè)網(wǎng)絡(luò)對(duì)屬性的挖掘更為敏感。在兩個(gè)數(shù)據(jù)集CUHK-PEDES和ICFG-PEDES上進(jìn)行實(shí)驗(yàn),證明了提出的模型的有效性。

關(guān)鍵詞:文搜圖行人重識(shí)別?自注意力機(jī)制?句法依存?自由視角

中圖分類號(hào):TP391

Text-to-Image?Person?Reidentification?Based?on?Attribute?Dependency?Augmentation

XIA?Wei??YUAN?Xinpan

Hunan?University?of?Technology,?Zhuzhou,?Hunan?Province,?412000?China

Abstract:?Text-to-Image?Person?Reidentification?(TIPR)?aims?to?retrieve?a?target?person?from?a?pedestrian?gallery?with?a?given?text,?and?its?main?challenge?is?to?learn?the?robust?features?of?free-view?(posture,?lighting?and?camera?viewpoint)?images?and?free-form?texts.?However,?due?to?the?lack?of?pedestrian?attribute?mining?in?text?descriptions?and?pedestrian?images,?the?retrieval?performance?from?text?descriptions?to?pedestrian?images?is?affected?by?differences?in?details?in?fine?granularity.?Therefore,?this?study?proposes?TIPR?based?on?Attribute?Dependency?Augmentation?(ADA).?Firstly,?it?analyzes?dependencies?from?text?descriptions?and?transforms?them?into?dependency?matrixes.?Then,?it?designs?an?attribute?intervention?module?based?on?self-attention?to?fuse?text?features?and?dependency?matrixes?and?obtains?attribute-augmented?text?features?which?are?more?concerned?about?attribute?information?after?intervention.?Finally,?it?allows?text?features?and?image?features?participate?in?training,?making?the?whole?network?more?sensitive?to?attribute?mining.?Experiments?on?two?datasets?CUHK-PEDES?and?ICFG-PEDES?demonstrate?the?effectiveness?of?the?proposed?model.

Key?Words:?Text-to-Image?Person?Reidentification;?Self-attention?mechanism;?Syntactic?dependency;?Free?view

文搜圖行人重識(shí)別(Text-to-Image?Person?Reidentification,TIPR)旨在通過給定的文本從行人圖庫(kù)中檢索目標(biāo)人物,其主要挑戰(zhàn)是學(xué)習(xí)對(duì)自由視角(姿勢(shì)、照明和相機(jī)視點(diǎn))的圖像和對(duì)自由形式的文本具有魯棒性的特征,相比于圖搜圖行人重識(shí)別,TIPR更具有挑戰(zhàn)性?,F(xiàn)在主流的方法[1-4]之一是利用屬性作為一種手段來表示數(shù)據(jù)的語(yǔ)義,屬性作為TIPR的軟生物特征,是人類可理解的語(yǔ)義概念,例如性別、年齡、服裝描述。因?yàn)槟B(tài)不變的特性,屬性可以作為文本模態(tài)和視覺模態(tài)之間數(shù)據(jù)語(yǔ)義的良好媒介。

盡管現(xiàn)有利用屬性的方法都取得了不錯(cuò)的性能,但基本上是通用的跨模態(tài)檢索方法的變種,有時(shí)對(duì)于具有豐富語(yǔ)義的TIPR任務(wù)來說并不是最優(yōu)的解決方案。針對(duì)上述存在的技術(shù)問題,提出了基于屬性依存增強(qiáng)(Attribute?Dependency?Augmentation,ADA)的TIPR方法,使用依存關(guān)系的先驗(yàn)知識(shí)挖掘?qū)傩孕畔碓鰪?qiáng)語(yǔ)義特征,以額外的行人屬性特征作為關(guān)鍵信息優(yōu)化檢索性能。

1?方法

1.1?數(shù)據(jù)預(yù)處理

1.1.1圖像特征提取

對(duì)行人圖像進(jìn)行數(shù)據(jù)增強(qiáng),并將其轉(zhuǎn)化為張量并歸一化后再進(jìn)行標(biāo)準(zhǔn)化,得到關(guān)于的多樣化樣本,然后將饋送到ResNet中,得到圖像特征。

1.1.2文本特征提取

通過自然語(yǔ)言處理工具SpaCy將進(jìn)行分詞,得到分詞結(jié)果,表示詞的數(shù)量。通過Word2Vec將中的每個(gè)詞映射到對(duì)應(yīng)的詞向量,得到。然后將饋送到文本提取器BiLSTM中,處理從到以及到的詞向量,對(duì)于詞向量有:

其中,,分別表示第個(gè)詞向量的前向和后向隱藏狀態(tài)。于是得到關(guān)于的特征,則對(duì)于有文本特征。

1.1.3文本特征提取

通過SpaCy對(duì)進(jìn)行依存分析得到,對(duì)于中的每個(gè)詞根據(jù)?計(jì)算其父詞到每個(gè)詞的依存距離,有數(shù)組;對(duì)于根節(jié)點(diǎn)即無(wú)父節(jié)點(diǎn)上的詞,計(jì)算到本身的依存距離,進(jìn)一步計(jì)算得到從轉(zhuǎn)化的矩陣。映射到以為中心,方差為的高斯分布上,得到依存矩陣。如下所示:

1.2?屬性干預(yù)

受工作[5]啟發(fā),引入自注意力網(wǎng)絡(luò)將和融合,并設(shè)置個(gè)注意力頭,關(guān)于第個(gè)注意力頭如圖2所示。對(duì)于每個(gè)詞特征,經(jīng)過3個(gè)可學(xué)習(xí)的權(quán)重矩陣分別得到3個(gè)向量,具體如下。

進(jìn)一步對(duì)于得到。

為避免中索引的使用沖突,對(duì)應(yīng)為,計(jì)算對(duì)應(yīng)的點(diǎn)積并除以縮放因子,得到一個(gè)表示對(duì)的注意力程度的注意力分?jǐn)?shù)。

進(jìn)而得出注意力權(quán)重矩陣,將和做哈達(dá)瑪積并通過Softmax函數(shù)映射,有:

然后將和進(jìn)行矩陣乘法,得到關(guān)于的注意力輸出。如下所示:

將個(gè)注意力頭輸出的拼接,最終得到文本特征。

在這一維度上,對(duì)和做最大池化處理,得到分別得到文本嵌入和圖像嵌入。都經(jīng)過一個(gè)的共享權(quán)重矩陣做矩陣乘法,用以縮小文本模態(tài)和視覺模態(tài)之間的語(yǔ)義鴻溝,得到最終的文本嵌入和圖像嵌入。公式如下所示:

1.3?損失計(jì)算

進(jìn)行分類損失的計(jì)算時(shí),給定行人標(biāo)簽,做獨(dú)熱編碼處理,得到

文本嵌入和圖像嵌入饋送到作為預(yù)測(cè)頭的一層全連接,并預(yù)測(cè)行人概率,對(duì)應(yīng)預(yù)測(cè)的行人概率為,對(duì)應(yīng)預(yù)測(cè)的行人概率為,和的表達(dá)式分別為:

都為對(duì)每個(gè)行人預(yù)測(cè)的一組概率值,表示訓(xùn)練集中行人唯一標(biāo)簽的總數(shù)。最終,分類損失的計(jì)算公式為:

排名損失基于三元損失進(jìn)行計(jì)算,公式為:

為正樣本對(duì),為隨機(jī)選取的負(fù)樣本,為余弦相似度計(jì)算??倱p失計(jì)算表示為。

2?實(shí)驗(yàn)結(jié)果與分析

2.1?實(shí)驗(yàn)準(zhǔn)備

2.1.1數(shù)據(jù)集

為了驗(yàn)證我們方法的有效性和準(zhǔn)確性,在公開的主流數(shù)據(jù)集CUHK-PEDES和ICFG-PEDES上進(jìn)行實(shí)驗(yàn)。

2.1.2實(shí)驗(yàn)參數(shù)

批量大小為64,訓(xùn)練次數(shù)為60,初始學(xué)習(xí)率為0.001,并使用Adam優(yōu)化器。

2.1.3評(píng)價(jià)指標(biāo)

在測(cè)試集上,我們使用Rank-1、Rank-5、Rank-10作為評(píng)價(jià)指標(biāo),分別表示查詢結(jié)果中前一、前五、前十張圖像與文本描述屬于同一個(gè)行人的概率。

2.2?對(duì)比實(shí)驗(yàn)

我們方法與近年來的一系列先進(jìn)的TIPR方法在兩個(gè)主流的數(shù)據(jù)集上進(jìn)行比較,具體實(shí)驗(yàn)結(jié)果如表1所示。從表中可以觀察到以前的方法都取得了不錯(cuò)的精度,但這些方法仍存在著缺少對(duì)文本描述的深層結(jié)構(gòu)細(xì)節(jié)的關(guān)注。我們方法將依存關(guān)系作為一種在文本模態(tài)的數(shù)據(jù)增強(qiáng)手段,顯式地干預(yù)對(duì)屬性的關(guān)注從而提取關(guān)鍵線索。在CUHK-PEDES和ICFG-PEDES的Rank-1上本方法有著更高的精度,且Rank-5和Rank-10也有著不錯(cuò)的競(jìng)爭(zhēng)性。

2.3?屬性依存的合理性

從詞性和依存距離的關(guān)系上解釋屬性依存增強(qiáng)的有效性。如圖3所示,橫坐標(biāo)表示某一詞性的數(shù)量,縱坐標(biāo)表示依存深度。圖中可以明顯觀察到修飾屬性(ADJ)和名詞屬性(NOUN)在有著最多單詞數(shù)量的同時(shí),還有著較高的依存深度。這就意味著,利用屬性依存增強(qiáng)策略干預(yù)模型關(guān)注到文本更深層次的依存結(jié)構(gòu)時(shí),往往關(guān)注到修飾屬性和名詞屬性,這對(duì)于利用行人屬性表示數(shù)據(jù)語(yǔ)義的文搜圖行人重識(shí)別來說,是有利于提取語(yǔ)義特征的。

3?結(jié)論

在本文中,提出了一種基于屬性依存增強(qiáng)的文搜圖行人重識(shí)別方法,為該領(lǐng)域提供了一種利用依存關(guān)系干預(yù)模型對(duì)行人屬性關(guān)注的思路。在實(shí)驗(yàn)中,與其他方法相比,本文提出的模型在Rank1、Rank5和Rank10的評(píng)價(jià)指標(biāo)上均有競(jìng)爭(zhēng)性。另外,還從依存深度的角度上,解釋了屬性依存增強(qiáng)的合理性。在未來的研究工作中,將繼續(xù)探索該方法在通用的跨模態(tài)領(lǐng)域的有效性。

參考文獻(xiàn)

[1] ZHANG?J?F,NIU?L,ZHANG?L?Q.?Person?re-identification?with?reinforced?attribute?attention?selection[J].?IEEE?Transactions?on?Image?Processing,2020,30:?603-616.

[2] 王繼民.融合行人屬性信息的行人重識(shí)別研究[J].集成電路應(yīng)用,2023,40(12):420-424.

[3] 陳琳.?跨模態(tài)行人重識(shí)別研究[D].濟(jì)南:山東大學(xué),2023.

[4] 王玉煜.?基于語(yǔ)言信息的行人重識(shí)別算法研究[D].大連:大連理工大學(xué),2021.

[5] BUGLIARELLO??E,?OKAZAKI?N.?Enhancing?machine?translation?with?dependency-aware?self-attention[C]//Annual?Meeting?of?the?Association?for?Computational?Linguistics,2019:?1618–1627.

基隆市| 西乌珠穆沁旗| 尉氏县| 武强县| 彭水| 茶陵县| 出国| 栾城县| 遂川县| 湘阴县| 利川市| 金川县| 西乌珠穆沁旗| 江阴市| 徐闻县| 东莞市| 泾阳县| 沙湾县| 灌云县| 新邵县| 炉霍县| 阿巴嘎旗| 云阳县| 来安县| 高阳县| 北碚区| 镶黄旗| 临夏市| 含山县| 汉川市| SHOW| 南宫市| 盱眙县| 淮滨县| 白河县| 德钦县| 满洲里市| 北票市| 桓仁| 许昌市| 营口市|