圖像—文本多模態(tài)指代表達(dá)理解研究綜述

2023-05-20 07:36:52王麗安繆佩翰蘇偉李璽吉娜燁姜燕冰

中國圖象圖形學(xué)報(bào) 2023年5期

王麗安，繆佩翰，蘇偉，李璽，吉娜燁，姜燕冰*

1.浙江大學(xué)軟件學(xué)院，寧波 315048；2.浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，杭州 310007；3.浙江傳媒學(xué)院媒體工程學(xué)院，杭州 310018

0 引言

指代表達(dá)理解（referring expression comprehension，REC）要求根據(jù)輸入指代表達(dá)式在圖像中定位目標(biāo)對象，其中輸入表達(dá)式是一個(gè)完整的關(guān)于目標(biāo)對象的描述性句子。該任務(wù)成功地構(gòu)建起人類語言、機(jī)器以及現(xiàn)實(shí)場景之間的溝通橋梁，實(shí)現(xiàn)了基于復(fù)雜文本的視覺定位。因此，REC 在新一代智能設(shè)備的視覺理解系統(tǒng)和對話系統(tǒng)中具有廣泛的應(yīng)用前景（王忠民等，2019），例如導(dǎo)航（Thomason 等，2017）、自動(dòng)駕駛、視頻監(jiān)控、機(jī)器人和早期教育等。其中，在視頻監(jiān)控領(lǐng)域REC 的出現(xiàn)可以代替?zhèn)鹘y(tǒng)監(jiān)控網(wǎng)絡(luò)中的單模態(tài)目標(biāo)定位方法，實(shí)現(xiàn)機(jī)器對人類復(fù)雜語言指令的響應(yīng)。

隨著社會(huì)中大規(guī)模多模態(tài)數(shù)據(jù)的產(chǎn)生，與REC類似的利用視覺和文本兩種模態(tài)的數(shù)據(jù)進(jìn)行視覺語義理解的相關(guān)任務(wù)吸引了大量關(guān)注，包括視覺定位（visual grounding，VG）（Kazemzadeh 等，2014；Yu 等，2017）、圖像和視頻描述生成（image and video description generation）（Karpathy 和Li，2015）、視覺問答（visual question answering，VQA）（包希港等，2021）、視覺文本檢索（image-text retrieval）（尹奇躍等，2021）等。REC 和短語定位（phrase localization）（Plummer等，2017；Wang等，2019a）可以看做是視覺定位的兩個(gè)子任務(wù)。其關(guān)鍵區(qū)別在于：短語定位需要對查詢語句中提及的所有對象進(jìn)行定位，其查詢語句可以是單個(gè)的詞、短語或短從句，甚至可以是完整的句子；而REC 的查詢語句則是一個(gè)描述特定對象的表達(dá)式，其需要根據(jù)句子中對象的類別、屬性以及與其他對象之間的關(guān)系等信息唯一地在圖像中定位目標(biāo)對象。另外，與REC 任務(wù)相似的還有指代表達(dá)分割任務(wù)（referring expression segmentation，RES）（Hu 等，2016a；Li 等，2018），目的是在圖像中分割出指代表達(dá)式所描述的對象。

作為指代表達(dá)理解任務(wù)的基石，目標(biāo)檢測（object detection）（Ren 等，2017）可以在預(yù)定義了固定類別的數(shù)據(jù)集上實(shí)現(xiàn)對所有目標(biāo)對象的定位。在過去20 多年中，目標(biāo)檢測作為計(jì)算機(jī)視覺領(lǐng)域的核心任務(wù)不斷發(fā)展，目前，其性能可以實(shí)現(xiàn)在COCO（common objects in context）數(shù)據(jù)集（Lin 等，2014）上達(dá)到平均精度均值（mean average precision，mAP）63.2%（Zhang 等，2022）。區(qū)別于傳統(tǒng)的目標(biāo)檢測任務(wù)，REC 的目標(biāo)對象沒有固定的類別，完全由輸入表達(dá)式?jīng)Q定。因此，相較于目標(biāo)檢測指代表達(dá)理解任務(wù)更具有挑戰(zhàn)性，其不僅需要理解輸入表達(dá)式的語義信息，包括對象的屬性和關(guān)系等；還要對包含多個(gè)對象的視覺數(shù)據(jù)進(jìn)行推理，最終定位目標(biāo)對象。如圖1 所示，輸入的指代表達(dá)式“1）man on middle horse wearing black and red”與“2）man on horse red top”的長度以及描述的屬性等信息都存在差異，但其指代同一個(gè)目標(biāo)對象（圖1 中用紅框及藍(lán)框圈出的對象）。而表達(dá)式“3）man in the blue jacket on the left white horse”與表達(dá)式1）雖然存在很多重復(fù)的詞匯，如“man”、“horse”，但其所指代的目標(biāo)對象卻不相同（分別在圖1 中用橙框和紅框圈出）。

圖1 指代表達(dá)理解任務(wù)示例Fig.1 The examples of REC task

本文將REC 的處理流程劃分成3 個(gè)模塊，并在第1 節(jié)中對各模塊進(jìn)行詳細(xì)介紹。現(xiàn)有研究表明視覺—文本多模態(tài)特征交互融合是整個(gè)流程的關(guān)鍵。此外，很多研究也將關(guān)注點(diǎn)放在視覺特征提取模塊的設(shè)計(jì)上，將該模塊看做是REC 模型的基礎(chǔ)模塊。因?yàn)橄噍^于文本數(shù)據(jù)，視覺數(shù)據(jù)含有更豐富信息的同時(shí)也存在更多冗余信息的干擾，提取出完整且有效的視覺特征是后續(xù)定位成功的基礎(chǔ)?；谏鲜龇治觯疚膭?chuàng)新性地提出了針對REC 模型的兩級分類方法：第1 級分類著眼于視覺特征提取模塊，從視覺表征粒度出發(fā)劃分為3 類；進(jìn)一步，第2 級分類按照視覺—文本多模態(tài)特征融合模塊的建模方式進(jìn)行劃分。各種分類方法及其對應(yīng)模型在第2 節(jié)中進(jìn)行詳細(xì)介紹。

目前，該領(lǐng)域出現(xiàn)了大量研究性論文，但是綜述性的論文更多關(guān)注于視覺—語言多模態(tài)任務(wù)的總體概述（杜鵬飛等，2021；Summaira 等，2021；Zhang 等，2020a；張浩宇等，2022）。針對REC 任務(wù)，目前僅有1 篇2021 年發(fā)表的英文綜述（Qiao 等，2021），該論文對當(dāng)時(shí)的REC 方法以及數(shù)據(jù)集進(jìn)行了全面總結(jié)，但沒有對REC 任務(wù)進(jìn)行深入分析。不同于此，本文從REC 任務(wù)的處理流程出發(fā)，深入分析了各模塊的功能以及常用處理方法；基于此，本文創(chuàng)新性地提出了針對REC模型的兩級分類架構(gòu)對當(dāng)前REC方法進(jìn)行總結(jié)，其中全面地涵蓋了近兩年流行的基于Transformer（Vaswani 等，2017）的REC 方法；最后，本文總結(jié)了現(xiàn)有REC 方法面臨的挑戰(zhàn)，并從模型設(shè)計(jì)以及領(lǐng)域發(fā)展方兩個(gè)方面對REC的未來發(fā)展進(jìn)行了全面的展望。

1 指代表達(dá)理解處理流程

指代表達(dá)理解任務(wù)的處理流程可以劃分為如圖2所示的3 個(gè)步驟：文本特征提取、視覺特征提取以及視覺—文本特征融合推理。文本和視覺特征提取器分別對文本、視覺輸入數(shù)據(jù)進(jìn)行單模態(tài)特征提取，視覺—文本特征融合模塊進(jìn)行模態(tài)交互。本節(jié)分別對上述3個(gè)步驟進(jìn)行詳細(xì)介紹。

圖2 指代表達(dá)理解方法的通用處理流程圖Fig.2 General processing diagram of the REC method

1.1 文本特征提取

文本特征提取模塊用于對輸入的指代表達(dá)式進(jìn)行語義理解以獲取目標(biāo)對象的相關(guān)信息，進(jìn)而指導(dǎo)后續(xù)的目標(biāo)定位。早期方法普遍采用單個(gè)長短期記憶網(wǎng)絡(luò)（long short-term memory，LSTM）（Donahue等，2015）直接對整個(gè)表達(dá)式進(jìn)行編碼，這種方法處理簡單但忽略了表達(dá)式各部分信息重要程度的差異，對于較長表達(dá)式無法提取其關(guān)鍵特征。之后陸續(xù)出現(xiàn)了對表達(dá)式進(jìn)行分解建模的方法，包括將表達(dá)式分解為三元組或者利用外部解析器對表達(dá)式進(jìn)行分解等，在一定程度上實(shí)現(xiàn)了對文本中有效信息更高的注意力。隨著大規(guī)模預(yù)訓(xùn)練任務(wù)在自然語言處理領(lǐng)域的發(fā)展，大量REC 方法利用預(yù)訓(xùn)練的BERT（bidirectional encoder representations from Transformers）模型（Devlin等，2019）對表達(dá)式進(jìn)行特征提取。

1.2 視覺特征提取

REC任務(wù)的輸入圖像通常包含多個(gè)同類別以及不同類別的對象。面對復(fù)雜的輸入表達(dá)式，例如圖1中的“man on middle horse wearing black and red”，模型需要根據(jù)表達(dá)式的語義對圖像中的對象“man”和“horse”進(jìn)行關(guān)系推理從而定位目標(biāo)對象，因此對圖像進(jìn)行高級語義理解是REC 任務(wù)的重要步驟?，F(xiàn)有REC 方法對圖像的視覺特征提取存在多種方式，如圖4所示，本文根據(jù)特征粒度的不同將其分為3類：區(qū)域卷積粒度視覺表征、網(wǎng)格卷積粒度視覺表征、圖像塊粒度視覺表征。

1.2.1 區(qū)域卷積粒度視覺表征

區(qū)域（region）卷積粒度視覺表征方法將圖像輸入預(yù)訓(xùn)練的目標(biāo)檢測網(wǎng)絡(luò)，例如Faster R-CNN（faster region-convolutional neural network）（Ren 等，2017）等，得到一系列對象邊界框。類比二階段目標(biāo)檢測模型中的區(qū)域提議（region proposal）方法，視覺特征提取模塊會(huì)在這些對象中篩選出一部分作為對象提議（proposal），并將其對應(yīng)卷積特征作為輸入圖像的視覺特征輸入到后續(xù)的視覺—文本融合模塊中，如圖3（a）所示。區(qū)域卷積粒度視覺表征方法可以有效避免圖像中無用背景的干擾，一定程度上有利于最終目標(biāo)對象的選擇。

圖3 3種不同粒度的視覺表征方法比較Fig.3 Comparison of three different granularity visual representation methods（（a）regional convolution granularity visual representation；（b）grid convolution granularity visual representation；（c）image patch granularity visual representation）

1.2.2 網(wǎng)格卷積粒度視覺表征

一階段目標(biāo)檢測器最早提出利用圖像的整層卷積特征代替二階段目標(biāo)檢測的區(qū)域提議特征：直接將圖像的整層卷積特征劃分為S×S個(gè)網(wǎng)格（grid），每個(gè)網(wǎng)格負(fù)責(zé)檢測中心位于該網(wǎng)格內(nèi)部的物體。一階段目標(biāo)檢測器的成功表明網(wǎng)格卷積粒度的視覺特征可以用于實(shí)現(xiàn)目標(biāo)定位。因此，現(xiàn)有很多REC 方法直接使用ResNet（He 等，2016）等卷積神經(jīng)網(wǎng)絡(luò)輸出的整層卷積特征作為圖像的視覺表征，如圖3（b）所示。網(wǎng)格卷積粒度特征的引入有效緩解了基于區(qū)域卷積粒度視覺表征方法使用目標(biāo)檢測網(wǎng)絡(luò)生成對象提議導(dǎo)致的推理速度緩慢的問題。

1.2.3 圖像塊粒度視覺表征

上述兩類視覺特征提取方法都依賴于復(fù)雜的視覺特征提取器，包括區(qū)域提議網(wǎng)絡(luò)以及卷積神經(jīng)網(wǎng)絡(luò)等，因此在視覺特征提取步驟需要耗費(fèi)很多額外的計(jì)算資源。Dosovitskiy 等人（2021）在ViT（vision Transformer）中提出將輸入圖像直接在空間（spatial）維度上劃分為一個(gè)個(gè)圖像塊（patch），然后將圖像塊映射成1 維序列后直接作為Transformer 的視覺輸入。此類視覺特征處理過程如圖3（c）所示。ViT 在圖像分類任務(wù)上的成功證明了這種無需卷積計(jì)算的簡單視覺表征作為Transformer的視覺輸入是足夠有效的。此類圖像塊粒度表征方法實(shí)現(xiàn)了更輕量化、更快速視覺特征提取。

1.3 視覺—文本特征融合推理

視覺—文本特征融合推理部分需要對文本特征以及視覺特征進(jìn)行融合處理從而篩選出圖像中有用的視覺特征，其是REC 任務(wù)最核心的模塊（Deng 等，2022）。現(xiàn)有方法對于該模塊的設(shè)計(jì)非常多樣，包括視覺—文本特征匹配（Mao 等，2016）、基于注意力機(jī)制的視覺—文本特征融合（Zhang 等，2018）、基于圖網(wǎng)絡(luò)的特征融合（Yang 等，2019a）、基于濾波的特征融合（Liao 等，2020）以及基于Transformer 的特征融合方法（Deng等，2022）等。

2 方法分類

不同于以往直接根據(jù)是否對圖像預(yù)生成對象候選框，將現(xiàn)有REC 方法直接分類為一階段方法與二階段方法（Qiao 等，2021）的分類方式。如圖4 所示，本文從REC 任務(wù)的處理流程入手，首先關(guān)注視覺特征提取模塊的設(shè)計(jì)，從視覺數(shù)據(jù)的表征粒度出發(fā)，將REC 方法分成3 類；更進(jìn)一步地，根據(jù)多模態(tài)特征融合模塊的建模方法進(jìn)行了子類別劃分。

圖4 指代表達(dá)理解現(xiàn)有方法分類總結(jié)圖Fig.4 Classification summary diagram of existing methods of referring expression comprehension

2.1 基于區(qū)域卷積粒度視覺表征的方法

基于區(qū)域卷積粒度視覺表征的REC 方法以二階段目標(biāo)檢測思想為參考，在處理流程上將REC 任務(wù)分成了對象提議、篩選兩大步驟。如第1.2.1 節(jié)所述，此類方法使用圖像的對象提議卷積特征作為視覺表征，后續(xù)多模態(tài)融合模塊僅需根據(jù)輸入文本對多個(gè)對象進(jìn)行篩選，最終選取得分最高的一個(gè)對象邊界框即可。根據(jù)視覺—文本特征融合建模方式，本文將該類方法更細(xì)粒度地劃分為如下5個(gè)子類別。

2.1.1 早期方法

指代表達(dá)理解任務(wù)最早直接采用簡單的CNNLSTM 框架（Mao 等，2016），如圖5 所示，首先對每個(gè)對象區(qū)域提議提取卷積視覺特征，LSTM用于提取文本特征，然后將兩種模態(tài)的特征嵌入到同一特征空間計(jì)算每個(gè)對象區(qū)域提議與整個(gè)指代表達(dá)式的匹配得分，最終選取匹配得分最高的區(qū)域作為目標(biāo)定位結(jié)果。Mao 等人（2016）首次將CNN-LSTM 框架引入到指代表達(dá)理解和生成任務(wù)中，提出了MMI（maximum mutual information）模型。該模型采用VGGNet（Visual Geometry Group network）（Simonyan 和Zisserman，2015）提取的整體圖像特征、單個(gè)區(qū)域提議特征以及區(qū)域提議的位置信息共同作為LSTM 每個(gè)時(shí)間步的視覺輸入。Mao 等人（2016）利用最大互信息的思想設(shè)計(jì)損失函數(shù)用于訓(xùn)練，使得模型在除目標(biāo)區(qū)域以外的區(qū)域提議上的匹配得分較低。

圖5 早期方法模型結(jié)構(gòu)圖Fig.5 Model structure diagram of early fusion method

在MMI（Mao 等，2016）之后，陸續(xù)出現(xiàn)了一些改進(jìn)區(qū)域提議卷積視覺表征的方法。Yu 等人（2016）提出Visdif 模型，在視覺特征中添加了同類區(qū)域提議特征的差值用于表示物體間的視覺差異。Nagaraja 等人（2016）的MIL（multiple instance learning）模型采用多實(shí)例學(xué)習(xí)思想，LSTM的視覺輸入采用區(qū)域提議對的形式，模型最終輸出目標(biāo)邊界框及其相關(guān)對象邊界框。Hu 等人（2016b）設(shè)計(jì)了空間上下文網(wǎng)絡(luò)（spatial context recurrent ConvNet，SCRC）將區(qū)域提議邊界框的空間信息聚合到區(qū)域提議的視覺特征中。

早期方法直接計(jì)算對象區(qū)域提議與指代表達(dá)式的匹配得分，無需對視覺以及文本特征進(jìn)行融合處理，模型思想簡單，并且在RefCOCO 數(shù)據(jù)集（Yu 等，2016）上取得了73.33%的準(zhǔn)確率（Zhang 等，2018），如表1 所示。然而，此類方法直接將整個(gè)表達(dá)式編碼為一個(gè)向量，只考慮了整個(gè)輸入語句與區(qū)域提議之間的相似性，忽略了表達(dá)式本身豐富的語義結(jié)構(gòu)信息。因此對于長且復(fù)雜的表達(dá)式，上述方法通常無法準(zhǔn)確定位目標(biāo)對象。

2.1.2 基于注意力機(jī)制的融合

當(dāng)輸入表達(dá)式太長，或者圖像中存在較多的潛在對象時(shí)，上述基于全局表示的早期的方法無法得到較好的效果。結(jié)合現(xiàn)實(shí)場景中人類的推斷行為，研究人員認(rèn)為指代對象的定位應(yīng)該是漸進(jìn)的：如圖6所示，注意力模塊通過指代表達(dá)式的內(nèi)容逐步修改區(qū)域提議的注意力權(quán)重，最終選取注意力得分最高的區(qū)域提議作為目標(biāo)對象。

圖6 基于注意力機(jī)制的融合方法模型結(jié)構(gòu)圖Fig.6 Model structure diagram of fusion method based on attention mechanism

Zhuang 等人（2018）提出了一種平行注意（parallel attention，PLAN）方法將自然語言表達(dá)式的每個(gè)單詞看成一個(gè)單獨(dú)部分（unit），并對每個(gè)部分分別進(jìn)行編碼。采用圖像級和區(qū)域級兩種級別的注意力機(jī)制：圖像級注意力機(jī)制不斷調(diào)整圖像全局上下文特征的注意力，區(qū)域級注意力機(jī)制則不斷根據(jù)輸入的文本特征調(diào)整每個(gè)對象提議框的注意力得分，最終將圖像全局特征以及區(qū)域提議特征輸入匹配模塊，計(jì)算其匹配概率。這種循環(huán)發(fā)現(xiàn)目標(biāo)對象的方式令模型朝著可解釋的方向邁出了第1步。Deng等人（2018）則定義了3 個(gè)注意力模型，并提出了一個(gè)累積注意力機(jī)制A-ATT（accumulated attention mechanism）對目標(biāo)對象進(jìn)行推理。A-ATT 機(jī)制可以循環(huán)積累對圖像、表達(dá)式以及區(qū)域提議中有用信息的注意力得分，最終選取注意力得分最高的區(qū)域提議作為最終定位結(jié)果。A-ATT模型可以在視覺定位的過程中顯示圖像中高注意力區(qū)域以及表達(dá)式中的關(guān)鍵單詞，進(jìn)一步實(shí)現(xiàn)了模型的可解釋性。

如表1 所示，基于注意力機(jī)制的融合方法相比早期方法實(shí)現(xiàn)了性能的明顯提升，其中CM-Att-Erase（cross-modal attention-guided erasing）（Liu 等，2019c）在RefCOCO 數(shù)據(jù)集的testA 上性能達(dá)到了83.14%，相比當(dāng)時(shí)最優(yōu)的早期方法VaruContext（variational context）（Zhang 等，2018）模型性能提升了近10 個(gè)百分點(diǎn)。并且此類方法通過可視化圖像的注意力熱圖可以逐步推斷出輸入文本與圖像中對象之間的匹配關(guān)系，推動(dòng)了模型可解釋性的發(fā)展。

表1 在RefCOCO、RefCOCO+、RefCOCOg數(shù)據(jù)集上現(xiàn)有REC方法的性能比較Table 1 Performance comparison of existing REC methods on RefCOCO，RefCOCO+，and RefCOCOg datasets/%

2.1.3 基于表達(dá)式分解的融合

早期方法將整個(gè)表達(dá)式直接編碼為一個(gè)向量的方式不僅沒有考慮表達(dá)式中各部分的重要程度，還忽略了語言本身的語法結(jié)構(gòu)信息。因此，對表達(dá)式進(jìn)行結(jié)構(gòu)化分解，構(gòu)建細(xì)粒度的文本表征對定位目標(biāo)對象也非常重要。如圖7 所示，本類方法首先對輸入表達(dá)式進(jìn)行分解，然后分別計(jì)算視覺輸入與分解后的每一部分表達(dá)式對應(yīng)的注意力得分，最終將所有的注意力得分進(jìn)行加權(quán)獲得最終的視覺注意力得分，從而定位目標(biāo)對象。

圖7 基于表達(dá)式分解的融合方法模型結(jié)構(gòu)圖Fig.7 Model structure diagram of fusion method based on expression decomposition

Hu 等人（2017）提出了一個(gè)端到端的組合模塊網(wǎng)絡(luò)（compositional modular networks，CMNs），通過3 個(gè)軟注意（soft attention）將表達(dá)式解析為主語、關(guān)系和賓語3 部分。然后利用定位模塊對主語、賓語與圖像的區(qū)域提議計(jì)算匹配得分，利用關(guān)系模塊對關(guān)系與區(qū)域提議對計(jì)算匹配分?jǐn)?shù)。最后選取兩個(gè)模塊的綜合匹配得分最高的區(qū)域提議作為目標(biāo)對象。

上述將表達(dá)式分解為三元組的方式過分簡化了語言結(jié)構(gòu)，可能會(huì)忽略語言中的其他重要信息。為此，Cirik 等人（2018）引入外部解析器以及語法樹構(gòu)建了GroundNet 模型。首先利用外部解析器構(gòu)建指代表達(dá)式的語法樹，然后將語法樹顯式映射到一個(gè)同結(jié)構(gòu)的由神經(jīng)模塊組成的計(jì)算圖（graph）上，該計(jì)算圖自下而上地定義了目標(biāo)對象的定位過程。Liu等人（2019a）則設(shè)計(jì)了一個(gè)神經(jīng)模塊樹（neural module tree，NMTree）網(wǎng)絡(luò)，該網(wǎng)絡(luò)在表達(dá)式的依賴解析樹（dependency parsing trees，DPT）（Chen和Manning，2014）中自下而上地積累區(qū)域置信度從而定位目標(biāo)區(qū)域。NMTree 方法的動(dòng)態(tài)組裝以及端到端的訓(xùn)練策略使得模型性能相比GroundNet更加健壯，在Ref-COCOg（Mao等，2016）驗(yàn)證集上高出近10個(gè)百分點(diǎn)。

相比早期直接對整個(gè)文本進(jìn)行編碼，加入外部解析器對指代表達(dá)式進(jìn)行細(xì)粒度解析的方式進(jìn)一步提升了模型可解釋性的同時(shí)，使得性能也得到了提升。如表1所示，CMNs 雖然采用弱監(jiān)督的方式進(jìn)行訓(xùn)練但是其性能仍舊優(yōu)于早期的基線方法MMI；此外NMTree 通過引入外部解析器來對文本輸入進(jìn)行更加細(xì)粒度的解析，使模型性能達(dá)到81.21%。

2.1.4 基于圖網(wǎng)絡(luò)的融合

REC 任務(wù)的圖像大多包含多個(gè)對象，此前的方法大多孤立地處理圖像的所有區(qū)域提議，忽略了不同區(qū)域提議中對象之間的關(guān)系信息?，F(xiàn)有很多工作表明通過提取文本以及圖像中的實(shí)體、概念以及關(guān)系，并以圖結(jié)構(gòu)可視化的表示更有助于發(fā)現(xiàn)各實(shí)體內(nèi)部的關(guān)系（Sheng等，2019，2020；Zhang等，2020b）。因此，在REC 領(lǐng)域也提出利用圖（graph）建模對象之間的關(guān)系，其中節(jié)點(diǎn)表示對象，邊表示對象間的關(guān)系。文本特征則用于計(jì)算各關(guān)系以及對象的注意力得分從而修正初始graph。最終的目標(biāo)結(jié)果由graph中的對象視覺特征以及關(guān)系特征的注意力加權(quán)得分獲得。具體模型結(jié)構(gòu)如圖8 所示，圖中節(jié)點(diǎn)的顏色深淺對應(yīng)對象的注意力得分，得分越低顏色越淺，邊同理。

圖8 基于圖網(wǎng)絡(luò)的融合方法模型結(jié)構(gòu)圖Fig.8 Model structure diagram of fusion method based on graph network

Wang 等人（2019b）提出了一種語言引導(dǎo)的圖注意網(wǎng) 絡(luò)（language-guided graph attention network，LGRAN）利用圖結(jié)構(gòu)建模對象之間的關(guān)系。該網(wǎng)絡(luò)由語言自注意模塊、語言引導(dǎo)圖注意模塊和匹配模塊3 個(gè)模塊組成。語言自注意模塊通過將表達(dá)式分解為主語、類內(nèi)關(guān)系和類間關(guān)系3 部分構(gòu)建文本表征。然后對輸入圖像的對象區(qū)域提議構(gòu)造對象關(guān)系有向圖，每個(gè)對象區(qū)域提議由對象、類間關(guān)系、類內(nèi)關(guān)系3 種特征表示。語言引導(dǎo)圖注意模塊則通過聯(lián)合視覺以及語言特征計(jì)算節(jié)點(diǎn)與邊的注意得分。最后的匹配模塊利用上述對象區(qū)域提議特征對所有的對象提議與指代表達(dá)式計(jì)算特征相似度。

類似地，Yang 等人（2019a）提出了一種動(dòng)態(tài)圖（dynamic graph attention，DGA）注意網(wǎng)絡(luò)，通過對圖像中對象之間的關(guān)系和表達(dá)式的語言結(jié)構(gòu)進(jìn)行建模來執(zhí)行多步迭代推理。Yang 等人（2020b）則提出了一種場景圖引導(dǎo)模塊化網(wǎng)絡(luò)（scene graph guided modular network，SGMN）分別將指代表達(dá)式和輸入圖像的對象區(qū)域提議都構(gòu)建為圖結(jié)構(gòu)，然后在表達(dá)式圖的指導(dǎo)下對區(qū)域提議圖進(jìn)行推理，計(jì)算各個(gè)節(jié)點(diǎn)的注意力權(quán)重，推理過程可以通過圖注意力機(jī)制明確地解釋。Pan 和Huang（2022）則構(gòu)建了一個(gè)多層次交互網(wǎng)絡(luò)SeMBI（semantic-aware multi-branch interaction），分別利用對象視覺特征、對象間關(guān)系信息、對象屬性信息以三分支并行的方式構(gòu)建了隱式關(guān)系圖、顯式關(guān)系圖以及視覺屬性圖，從而實(shí)現(xiàn)對多級視覺特征的聯(lián)合建模。

基于圖網(wǎng)絡(luò)的方法可以依據(jù)復(fù)雜的輸入表達(dá)式對視覺特征進(jìn)行推理，從而實(shí)現(xiàn)對目標(biāo)對象的逐步定位。如表1 所示，基于圖網(wǎng)絡(luò)的DGA 方法的性能顯著超過了所有同階段的早期方法。

2.1.5 基于Transformer的融合

Transformer 在計(jì)算機(jī)視覺領(lǐng)域中的成功應(yīng)用，體現(xiàn)了其內(nèi)部注意力機(jī)制對視覺特征的強(qiáng)大建模能力（Liu 等，2021b；Chen 等，2020b；Yang 等，2020a；Chen 等，2020c）。此外，以Tokens 序列作為輸入使得Transformer 可以兼容各種模態(tài)數(shù)據(jù)的處理（Xu等，2022）?；谝陨蟽?yōu)勢，近年來很多REC 方法直接利用Transformer內(nèi)部的注意力機(jī)制實(shí)現(xiàn)視覺—文本特征的融合，其輸入是視覺以及文本Tokens 序列，其中視覺Tokens 的可以由1.2 節(jié)所述3 類視覺特征分別經(jīng)過線性映射得到，文本Tokens 一般是輸入文本的單詞嵌入（embedding）。

現(xiàn)有REC 方法通過改變注意力層中的Q、K、V的輸入內(nèi)容將Transformer的原有自注意力機(jī)制改進(jìn)為多模態(tài)融合注意力機(jī)制，其具體修改可以分為3類：1）相加融合；2）拼接融合；3）交叉融合。各類注意力機(jī)制如圖9所示，其具體實(shí)現(xiàn)方法在表2中進(jìn)行了總結(jié)。

圖9 基于Transformer的多模態(tài)融合注意力的分類Fig.9 Classification of Transformer-based multimodal fusion attention mechanisms（（a）summation fusion；（b）concatenation fusion；（c）cross fusion）

表2 基于Transformer的多模態(tài)融合方法總結(jié)Table 2 Summary of Transformer-based multimodal fusion methods

本類以區(qū)域卷積特征作為視覺表征的方法的視覺Tokens 由區(qū)域提議的卷積特征進(jìn)過線性映射得到。代表方法有ViLBERT（vision and language BERT）（Lu 等，2019）和VL-BERT（visual-linguistic BERT）（Su 等，2020）。其中，ViLBERT 采用雙流（dual-stream）結(jié)構(gòu)：首先使用兩個(gè)獨(dú)立的Transformer 分支分別對視覺和文本輸入進(jìn)行特征提??；然后，將視覺、文本特征經(jīng)過如圖9（c）的交叉注意力層實(shí)現(xiàn)視覺—文本特征融合。其中，視覺分支采用Faster RCNN（Ren 等，2017）獲取對象候選框的CNN 特征作為視覺Tokens；文本分支的Tokens 為單詞嵌入。需要注意的是，ViLBERT 的交叉注意力的實(shí)現(xiàn)是將每個(gè)模態(tài)的鍵K 和值V 分別傳給另一個(gè)模態(tài)的Q。該模型在成對的圖像—文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練后可以遷移到很多下游任務(wù)中，包括視覺問答、指代表達(dá)理解等。區(qū)別于ViLBERT，Su 等人（2020）提出的VL-BERT 方法則是使用一個(gè)單流（singlestream）框架，采用圖9（b）的方法將視覺以及文本特征進(jìn)行拼接（concatenate）之后共同輸入到Transformer中進(jìn)行多模態(tài)信息融合處理。如表1所示，上述兩個(gè)模型的性能都要優(yōu)于同類別的其他多模態(tài)融合方法，實(shí)現(xiàn)了在RefCOCO+驗(yàn)證集（val）上準(zhǔn)確率達(dá)到72.34%以及72.59%。

綜上，現(xiàn)有基于區(qū)域提議粒度視覺輸入的REC方法通過加入注意力機(jī)制包括表達(dá)式解析器、圖網(wǎng)絡(luò)，有效挖掘了多模態(tài)特征之間的關(guān)鍵信息，模型性能提升了近20%，如表1所示。但此類方法仍存在一些問題：1）性能受到對圖像生成的對象區(qū)域提議質(zhì)量的影響；2）對于圖像的每個(gè)區(qū)域提議都需要進(jìn)行特征提取和相似度計(jì)算，因此存在大量額外的計(jì)算開銷。

2.2 基于網(wǎng)格卷積粒度視覺表征的方法

基于網(wǎng)格卷積粒度視覺表征的REC 方法利用圖像的整層卷積特征作為后續(xù)多模態(tài)特征融合模塊的視覺輸入。如圖3（b）所示，此類方法無需預(yù)先生成圖像的區(qū)域候選框，其直接利用輸入圖像的多層卷積特征分別與文本特征進(jìn)行融合，模型直接輸出目標(biāo)定位結(jié)果。其對于文本數(shù)據(jù)的處理大多使用BERT 或者LSTM 將指代表達(dá)式直接編碼為一個(gè)向量。此類基于網(wǎng)格卷積粒度特征的方法在獲得與區(qū)域卷積粒度方法相近準(zhǔn)確率的情況下有效實(shí)現(xiàn)了模型推理速度的提升。

2.2.1 基于濾波的融合

Yang 等人（2019b）首次提出基于區(qū)域卷積粒度視覺輸入的方法生成區(qū)域提議需要耗費(fèi)過多的計(jì)算量，因此其設(shè)計(jì)了一種直接采用圖像的多級卷積特征作為視覺輸入的端到端方法FAOA（fast and accurate one-stage approach）。其利用Darknet 網(wǎng)絡(luò)（Redmon 和Farhadi，2018）獲取圖像的多級卷積特征與BERT 獲取到的文本特征共同輸入融合模塊；融合模塊首先將視覺文本特征在通道維度進(jìn)行拼接，然后采用1 × 1 卷積核作為濾波器進(jìn)行視覺文本特征融合；最終定位模塊直接輸出目標(biāo)對象的邊界框坐標(biāo)。雖然FAOA 的模型性能沒有超過同期的基于區(qū)域卷積粒度方法，但是如表3 所示，其推理速度達(dá)到了當(dāng)時(shí)區(qū)域卷積粒度特征方法的10倍。

現(xiàn)有REC 方法也提出利用相關(guān)濾波（correlation filtering）根據(jù)文本信息對視覺特征進(jìn)行過濾篩選。Liao 等人（2020）提出的實(shí)時(shí)跨模態(tài)相關(guān)濾波（real-time cross-modality correlation filtering，RCCF）方法，將REC 任務(wù)重新定義為跨模態(tài)模板匹配問題。RCCF 首先使用文本特征引導(dǎo)的濾波內(nèi)核對視覺特征進(jìn)行相關(guān)濾波，在圖像中定位目標(biāo)對象中心點(diǎn)；然后利用回歸模塊對目標(biāo)對象的大小和中心點(diǎn)偏移進(jìn)行預(yù)測。該方法在單個(gè)Titan Xp GPU 上的推理速度達(dá)到了實(shí)時(shí)的效果約為40 幀/s，約為基于區(qū)域卷積特征方法的12～16倍，如表3所示。

表3 部分REC方法的推理速度比較Table 3 Comparison of inference speed of partial REC methods

2.2.2 基于Transformer的融合

Jiang 等人（2020）最早在VQA 任務(wù)中提出將圖像的網(wǎng)格卷積特征在空間維度上劃分成多個(gè)塊，將每個(gè)塊進(jìn)行線性映射后得到1 維特征作為Transformer 的編碼器的輸入。此類方法可以有效避免區(qū)域提議邊界框生成所消耗的時(shí)間以及其產(chǎn)生的推理性能上限。

Deng等人（2021）設(shè)計(jì)的TransVG 采用類似ViLBERT 的雙流架構(gòu)，不同的是TransVG 的視覺分支的輸入tokens 為圖像網(wǎng)格卷積特征的1 維映射。視覺—文本特征的融合采用如圖9（b）所示的拼接融合方式，將視覺和文本Transformer 的輸入以及一個(gè)REG token 直接進(jìn)行拼接作為多模態(tài)融合Transformer 層的輸入。REG Token 對應(yīng)的輸出用于回歸計(jì)算目標(biāo)對象的邊界框坐標(biāo)。Du 等人（2022）提出的VGTR（visual grounding with Transformers）模型也采用網(wǎng)格特征劃分Tokens 的方式，利用Transformer中的注意力機(jī)制進(jìn)行跨模態(tài)特征融合。但是，不同于TransVG，VGTR 采用一種文本指導(dǎo)的視覺編碼器，通過將文本編碼器的V 傳入到視覺編碼器的Q中實(shí)現(xiàn)，類似圖9（c）所示的交叉注意力結(jié)構(gòu)。

視覺—語言聯(lián)合預(yù)訓(xùn)練模型（vision-andlanguage pre-training，VLP）的提出為多模態(tài)理解任務(wù)提供了統(tǒng)一的處理框架，通過事先從大量對齊的視覺—文本數(shù)據(jù)中學(xué)習(xí)通用的多模態(tài)表征，然后在下游任務(wù)中微調(diào)后加以利用（Kamath 等，2021）從而實(shí)現(xiàn)了多模態(tài)理解任務(wù)性能的突破。其中最為代表性的是Wang 等人（2022）提出的多模態(tài)預(yù)訓(xùn)練全能模型OFA（one for all），分別對圖片、文本和位置等數(shù)據(jù)設(shè)計(jì)了一種統(tǒng)一的離散化方式，將其全部轉(zhuǎn)換為序列輸入，從而利用統(tǒng)一的編碼器—解碼器架構(gòu)實(shí)現(xiàn)對未知任務(wù)的不同模態(tài)數(shù)據(jù)的處理。OFA 采用Seq2Seq（sequence-to-sequence）方式，對于統(tǒng)一的輸入，模型利用任務(wù)指令區(qū)分多種不同的任務(wù)。這種采用大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的方式使得OFA 模型在多個(gè)下游多模態(tài)任務(wù)中都取得了較好的性能，分別在視覺文本生成任務(wù)（image-to-text generation）以及視覺定位任務(wù)上達(dá)到了當(dāng)前最優(yōu)。如表1 所示，對REC 任務(wù)OFA 達(dá)到了RefCOCO 驗(yàn)證集上90.05%的準(zhǔn)確率，并且Wang 等人（2022）還選取了一些與COCO 數(shù)據(jù)集圖像風(fēng)格差別較大的漫畫圖像進(jìn)行實(shí)驗(yàn)，發(fā)現(xiàn)模型在此類圖像上依舊可以準(zhǔn)確定位。OFA在下游任務(wù)上的成功進(jìn)一步預(yù)示著大規(guī)模多模態(tài)預(yù)訓(xùn)練模型在處理多模態(tài)任務(wù)上的優(yōu)勢，也成為今后多模態(tài)領(lǐng)域發(fā)展的一大趨勢。

綜上，以網(wǎng)格卷積粒度視覺特征為輸入的方法在推理速度上相比區(qū)域卷積粒度特征方法有了極大提升。如表3 所示，F(xiàn)AOA 方法以及RCCF 方法是VaruContext 等區(qū)域卷積粒度特征的方法10 倍以上。在性能上，摒棄圖像區(qū)域提議網(wǎng)絡(luò)的性能局限，直接使用圖像的全局特征作為視覺輸入，在Transformer建模方法中相比ViLBERT 以及VL-BERT 模型性能提升了超過10%，如表1所示。

2.3 基于圖像塊粒度視覺表征的方法

前兩類REC 方法在視覺特征提取模塊的設(shè)計(jì)上都采用獨(dú)立的預(yù)訓(xùn)練網(wǎng)絡(luò)：以區(qū)域卷積粒度特征作為視覺輸入的REC 方法大多采用在固定類別的數(shù)據(jù)集上預(yù)訓(xùn)練的目標(biāo)檢測器，例如Faster R-CNN等；網(wǎng)格卷積特征粒度的REC 方法則廣泛采用預(yù)訓(xùn)練的圖像分類網(wǎng)絡(luò)，如ResNet（He 等，2016）等。因此，這種預(yù)訓(xùn)練的視覺特征提取網(wǎng)絡(luò)可能無法適用于指代表達(dá)理解任務(wù)。ViT 模型的提出證明了：將圖像塊簡單地進(jìn)行線性映射變?yōu)? 維視覺向量作為Transformer的輸入在圖像分類任務(wù)中足夠有效。受此啟發(fā)，基于圖像塊粒度視覺表征的REC 方法的視覺文本融合模塊的視覺輸入直接采用圖像塊的1 維映射作為輸入，實(shí)現(xiàn)了不依賴卷積網(wǎng)絡(luò)以及目標(biāo)檢測網(wǎng)絡(luò)的視覺特征提取。并且此類基于圖像塊粒度的REC 方法，其視覺—文本融合模塊的都采用Transformer實(shí)現(xiàn)。

為了解決獨(dú)立視覺特征處理模塊導(dǎo)致的視覺特征與REC 任務(wù)不匹配的問題，Ye等人（2022）改進(jìn)了原本獨(dú)立的視覺特征提取模塊，提出了QRNet（query-modulated refinement network）網(wǎng)絡(luò)用于實(shí)現(xiàn)基于本文查詢輸入的視覺特征提取。QRNet 網(wǎng)絡(luò)中的查詢感知?jiǎng)討B(tài)注意模塊（query-aware dynamic attention）實(shí)現(xiàn)了基于文本特征指導(dǎo)的視覺特征細(xì)化提取。在視覺—文本特征融合模塊，QRNet 采用如圖9（b）所示的基于拼接融合注意力的Transformer。QRNet 的設(shè)計(jì)有效地避免了視覺特征提取與文本輸入分離導(dǎo)致的視覺特征與REC 任務(wù)不匹配的問題。

同年，Deng 等人（2022）在之前TransVG 模型的基礎(chǔ)上，提出了TransVG++模型用于改進(jìn)TransVG訓(xùn)練難的問題。TransVG++刪除了TransVG 中獨(dú)立的多模態(tài)融合模塊，對原有視覺編碼器進(jìn)行了改進(jìn)，令其在實(shí)現(xiàn)視覺特征提取的同時(shí)進(jìn)行多模態(tài)特征融合處理。該模型本質(zhì)上是將基于圖像塊輸入的視覺Transformer的最后一層修改為語言指導(dǎo)的視覺編碼器。Deng 等人（2022）對文本—視覺融合編碼層設(shè)計(jì)了兩種不同的注意力方案，分別為language prompter 和language adapter。Language prompter 的注意力融合方案就是簡單拼接方法，如圖9（b）所示，將視覺、文本令牌拼接之后輸入到多頭自注意力層（multi-head self-attention，MHSA）中。Language adapter 則由一個(gè)視覺多頭自注意層和一個(gè)交叉注意層（multi-head cross-attention，MHCA）組成：將MHSA 輸出的視覺序列傳入到MHCA 中作為Q 與文本特征表示的K、V 進(jìn)行交叉注意力計(jì)算，然后將視覺以及文本輸出直接相加后作為融合特征輸出，該注意力機(jī)制的實(shí)現(xiàn)可以看成是對交叉融合以及相加融合的改進(jìn)。Deng 等人（2022）的實(shí)驗(yàn)結(jié)果表明使用language adapter 的效果相比簡單拼接的方式更優(yōu)。TransVG++相比基于網(wǎng)格卷積視覺輸入的TransVG 性能實(shí)現(xiàn)了大幅提升：分別在RefCOCO、RefCOCO+以及RefCOCOg 的驗(yàn)證集上提升了5.26%、10.57%和7.51%，如表1所示。

綜上，基于圖像塊粒度視覺表征的方法將REC任務(wù)整體模型架構(gòu)的簡化成了純Transformer 的結(jié)構(gòu)，模型無需依賴預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)處理視覺輸入。此類方法實(shí)現(xiàn)了模型架構(gòu)更加簡潔的同時(shí)，在性能上與采用區(qū)域卷積特征以及網(wǎng)格卷積特征作為視覺tokens 的Transformer 方法實(shí)現(xiàn)了提升，但是仍然以接近4%的差距略落后于多規(guī)模預(yù)訓(xùn)練的方法OFA，如表1所示。

3 數(shù)據(jù)集及評估指標(biāo)

3.1 數(shù)據(jù)集

隨著REC 研究的發(fā)展，相關(guān)數(shù)據(jù)集不斷完善，本節(jié)列舉了當(dāng)前REC 任務(wù)的4 個(gè)主流數(shù)據(jù)集，并且在表4中對各數(shù)據(jù)集進(jìn)行了比較。

ReferItGame（Kazemzadeh 等，2014）數(shù)據(jù)集的圖像來源于ImageCLEF IAPR 圖像檢索數(shù)據(jù)集（Grubinger 等，2006）的20 000 幅圖像以及SAIAPR TC-12（segmented and annotated IAPR-TC12）擴(kuò)展數(shù)據(jù)集（Escalante 等，2010）的分割相關(guān)圖像。指代表達(dá)式的收集采用Kazemzadeh 等人（2014）設(shè)計(jì)的雙人游戲。由于該數(shù)據(jù)集中的圖像很多只包含給定類別的一個(gè)對象，玩家普遍使用簡短的語句進(jìn)行描述，因而如表4 所示該數(shù)據(jù)集表達(dá)式的平均長度偏短。迄今為止，該游戲已經(jīng)在19 894 幅自然場景照片中生成了一個(gè)包含130 525 個(gè)表達(dá)式的數(shù)據(jù)集，其中涉及96 654個(gè)不同的對象。

RefCOCOg（Mao 等，2016）數(shù)據(jù)集是在Amazon Mechanical Turk 的非交互式設(shè)置中收集的。一組工作人員負(fù)責(zé)為MS COCO（Lin 等，2014）圖像中的對象編寫指代表達(dá)式，另一組工作人員則需要點(diǎn)擊圖像中給定指代表達(dá)式的指代對象。如表4 所示，該數(shù)據(jù)集包含26 711 幅圖像與85 474 個(gè)指代表達(dá)式，共計(jì)標(biāo)注了54 822 個(gè)對象。RefCOCOg 中的每幅圖像中都包含2—4 個(gè)同類別的物體，因此如表4 所示其表達(dá)式的平均長度較長。RefCOCOg 數(shù)據(jù)集有兩種劃分方式：第1 種將對象隨機(jī)劃分為訓(xùn)練集和驗(yàn)證集，驗(yàn)證集用于評估模型的性能，一般將該劃分下的驗(yàn)證集表示為“val*”；第2種根據(jù)圖像將數(shù)據(jù)集劃分為訓(xùn)練集、測試集以及驗(yàn)證集，分別表示為表1 中的“train”、“test”和“val”。

表4 指代表達(dá)理解任務(wù)主流數(shù)據(jù)集特點(diǎn)總結(jié)Table 4 Summary of characteristics of mainstream datasets of referring expression comprehension

RefCOCO 和RefCOCO+（Yu 等，2016）這兩個(gè)數(shù)據(jù)集是使用ReferitGame（Kazemzadeh 等，2014）收集的。如表4 所示，RefCOCO 數(shù)據(jù)集包含19 994 幅圖像和142 209個(gè)指代表達(dá)式，共計(jì)標(biāo)注了50 000個(gè)對象。RefCOCO+數(shù)據(jù)集不允許在指代表達(dá)式中使用位置詞，指代表達(dá)式的表述純粹基于目標(biāo)對象的外觀，這種要求使數(shù)據(jù)集的標(biāo)注可以不受觀察者視角的影響。RefCOCO+數(shù)據(jù)集則包含19 992幅圖像，以及49 856 個(gè)對象的141 564 個(gè)指代表達(dá)式。這兩個(gè)數(shù)據(jù)集被劃分成訓(xùn)練集、驗(yàn)證集以及測試集A 和測試集B，分別表示為表1中的“train”、“val”、“testA”和“testB”。測試集A 由包含多個(gè)人實(shí)例的圖像構(gòu)成，測試集B 則由包含除人外的多個(gè)物體實(shí)例的圖像組成。并且一張圖像不會(huì)重復(fù)出現(xiàn)在訓(xùn)練集、測試集以及驗(yàn)證集中。如表4所示，RefCOCO 和RefCOCO+數(shù)據(jù)集中的表達(dá)式相對比較簡短。

3.2 評估指標(biāo)

REC 任務(wù)可以理解為一個(gè)特殊的目標(biāo)檢測任務(wù)，其目的是在圖像中定位指代表達(dá)式描述的目標(biāo)對象，因此該任務(wù)通常采用預(yù)測邊界框與真實(shí)邊界框的交并比（intersection over union，IoU）來衡量預(yù)測結(jié)果的正確性，計(jì)算為

式中，Rgt表示數(shù)據(jù)集中的人工標(biāo)注框，Rpr表示算法預(yù)測的目標(biāo)結(jié)果的邊界框，S為兩者的交并比。交并比大于0.5 的預(yù)測結(jié)果被判定是預(yù)測正確，否則判為預(yù)測錯(cuò)誤。

最終利用交并比計(jì)算準(zhǔn)確率（accuracy）作為衡量模型性能的指標(biāo)。

4 挑戰(zhàn)及未來發(fā)展方向

4.1 挑戰(zhàn)

指代表達(dá)理解任務(wù)作為溝通自然語言處理以及計(jì)算機(jī)視覺兩大領(lǐng)域的橋梁，實(shí)現(xiàn)了利用人類文本表述在物理世界的視覺數(shù)據(jù)中定位目標(biāo)。該任務(wù)近幾年受到越來越多的關(guān)注，也涌現(xiàn)出了諸多相關(guān)算法。但是，目前該領(lǐng)域的研究還面臨一定的挑戰(zhàn)以及困難，本文對其進(jìn)行了簡單總結(jié)：

1）模型的推理速度。REC 領(lǐng)域現(xiàn)有的研究大多關(guān)注如何提升模型的推理性能，但是在實(shí)際應(yīng)用中，推理速度也是模型的一個(gè)非常重要的衡量指標(biāo)。如表3 所示，現(xiàn)有基于區(qū)域卷積粒度視覺表征的方法因其需要預(yù)先生成圖像的區(qū)域候選框，因此模型的推理速度非常慢。而基于網(wǎng)格卷積粒度視覺表征的方法則將模型的推理速度提升到了實(shí)時(shí)檢測的效果。但是，基于網(wǎng)格卷積特征粒度的方法的性能還有待提高，未來REC 領(lǐng)域的發(fā)展需要在兼顧性能的同時(shí)盡可能地提升模型推理速度。

2）模型的可解釋性?，F(xiàn)有研究大多關(guān)注于視覺—文本特征融合模塊的設(shè)計(jì)，忽略了模型的可解釋性問題（Cirik 等，2018）。模型對于指代表達(dá)式中目標(biāo)對象的描述與圖像中的諸多對象的篩選、匹配過程是一個(gè)無法可視化的黑盒過程。已經(jīng)有研究人員開始關(guān)注模型的可解釋性問題，Deng 等人（2018）利用注意力模型輸出指代表達(dá)式的各個(gè)部分對推理過程的重要程度得分，Cirik 等人（2018）則通過建立語法樹以及圖像中對象關(guān)系圖之間節(jié)點(diǎn)的關(guān)聯(lián)實(shí)現(xiàn)表達(dá)式各部分與圖像中對象之間的一一對應(yīng)，未來模型的發(fā)展應(yīng)該向可解釋的方向繼續(xù)努力。

3）模型對表達(dá)式的推理能力?，F(xiàn)有很多REC方法對表達(dá)式的理解僅停留在對象的屬性層次，沒有實(shí)現(xiàn)真正的推理，因此模型對長且復(fù)雜的表達(dá)式的處理結(jié)果不盡人意。此外，當(dāng)前的主流數(shù)據(jù)集由于表達(dá)式通常較短且圖像中的干擾對象較少而無法作為模型推理能力的評估依據(jù)（Chen 等，2020d）。目前已經(jīng)提出了一些更復(fù)雜的數(shù)據(jù)集（Chen 等，2020d；Liu等，2019b）用于對模型的評估能力進(jìn)行判定。Chen 等人（2020d）在新的數(shù)據(jù)集Cops-Ref 上對當(dāng)前最先進(jìn)的REC 模型進(jìn)行了實(shí)驗(yàn)評估，觀察到與傳統(tǒng)的REC 任務(wù)數(shù)據(jù)集相比，模型的性能在新的數(shù)據(jù)集上顯著下降。這也表明以往的大多數(shù)模型只是實(shí)現(xiàn)了在特定數(shù)據(jù)集上的過擬合，而沒有學(xué)會(huì)真正的推理。因此，開發(fā)出具有真正的推理能力的REC模型是研究人員目前面臨的重要挑戰(zhàn)。

4.2 未來發(fā)展方向

本文通過結(jié)合現(xiàn)有的研究以及該任務(wù)目前面臨的挑戰(zhàn)，分別從模型設(shè)計(jì)以及領(lǐng)域發(fā)展兩個(gè)層面對該領(lǐng)域未來發(fā)展進(jìn)行了如下展望：

1）構(gòu)建大規(guī)模預(yù)訓(xùn)練通用多模態(tài)模型。隨著社會(huì)中越來越多的各種模態(tài)數(shù)據(jù)的產(chǎn)生，多模態(tài)任務(wù)相比傳統(tǒng)的計(jì)算機(jī)視覺或者自然語言處理任務(wù)具有更廣闊的發(fā)展前景。以往單一模態(tài)任務(wù)使用相關(guān)的預(yù)訓(xùn)練模型參數(shù)進(jìn)行初始化已經(jīng)成為了一種標(biāo)準(zhǔn)的操作，在有效節(jié)省模型和訓(xùn)練時(shí)間的同時(shí)也帶來了更高的性能。因此，使用大規(guī)模視覺—語言模態(tài)的數(shù)據(jù)對通用的視覺—語言模型進(jìn)行預(yù)訓(xùn)練，然后在多種下游任務(wù)中進(jìn)行遷移是一種必然的發(fā)展趨勢。

2）優(yōu)化基于Transformer 的多模態(tài)特征融合方法?；赥ransformer的多模態(tài)融合方法將成為一段時(shí)間內(nèi)的主流?；趨^(qū)域卷積粒度視覺表征的方法以及基于網(wǎng)格卷積粒度視覺表征的方法都在嘗試使用Transformer中的多個(gè)注意力層實(shí)現(xiàn)兩個(gè)模態(tài)之間的信息融合，實(shí)驗(yàn)效果也要優(yōu)于此前手工設(shè)計(jì)的各種多模態(tài)融合方法。

3）采用多任務(wù)學(xué)習(xí)的方法提升性能。出現(xiàn)了一些將指代表達(dá)理解與指代表達(dá)分割或指代表達(dá)生成的任務(wù)聯(lián)合學(xué)習(xí)的模型（Luo 等，2020；Sun 等，2022）。Luo 等人（2020）構(gòu)建了一個(gè)REC 和RES 聯(lián)合訓(xùn)練模型，與RES 相比REC 本身在目標(biāo)定位上更有優(yōu)勢；而RES 可以為REC 提供更細(xì)粒度的像素級監(jiān)督。Sun 等人（2022）則構(gòu)建了一個(gè)統(tǒng)一的模型將REC 和REG（referring expression generation）任務(wù)合并，從而實(shí)現(xiàn)模型在兩個(gè)任務(wù)模型之間的知識共享。Luo 等人（2020）與Sun 等人（2022）方法的實(shí)現(xiàn)表明這種多任務(wù)學(xué)習(xí)的方式可以有效實(shí)現(xiàn)單一任務(wù)的性能提升。

4）構(gòu)建弱監(jiān)督模型緩解對標(biāo)注數(shù)據(jù)的依賴。全監(jiān)督的學(xué)習(xí)方式依賴于輸入指代表達(dá)式—圖像—目標(biāo)邊界框之間的對應(yīng)標(biāo)注信息，此類數(shù)據(jù)集獲取非常困難。因此，有效的弱監(jiān)督模型通過輸入未標(biāo)注的指代表達(dá)式和圖像，模型輸出重建表達(dá)式，選取與原表達(dá)式距離最近的對象作為最終結(jié)果即可緩解模型對復(fù)雜標(biāo)注數(shù)據(jù)的依賴，同時(shí)避免了因?yàn)槿斯?biāo)注錯(cuò)誤導(dǎo)致的模型效果不理想的情況。

5）深入視頻領(lǐng)域以及3D 領(lǐng)域的研究。研究人員開始將視覺定位任務(wù)擴(kuò)展到視頻領(lǐng)域（Vasudevan等，2018；Yamaguchi 等，2017）。視頻時(shí)空定位任務(wù)由于缺少相應(yīng)的邊界框注釋只能采用弱監(jiān)督的方法，導(dǎo)致模型的性能不理想。因此，對于后續(xù)的視頻定位任務(wù)的研究不僅需要完善相關(guān)的數(shù)據(jù)集，還需要探索如何在未對齊的視頻片段與文本上實(shí)現(xiàn)視覺—語言的對應(yīng)。在3D 空間對機(jī)器實(shí)現(xiàn)語言—視覺定位是一項(xiàng)非常有現(xiàn)實(shí)意義的任務(wù)。最近的一些工作（Chen等，2020a；Liu等，2021a）實(shí)現(xiàn)了將視覺定位任務(wù)擴(kuò)展到3D 場景下，可以在3D 場景下定位自然語言表達(dá)式所指的對象，雖然這些方法取得了一定的成果，但是該領(lǐng)域的研究還需要更加深入，并且3D場景下的相關(guān)數(shù)據(jù)集也需要進(jìn)一步完善。

5 結(jié) 語

指代表達(dá)理解作為視覺定位任務(wù)中的重要分支，通過在視覺數(shù)據(jù)中定位表達(dá)式指代的目標(biāo)對象可以實(shí)現(xiàn)物理世界、機(jī)器與人類語言的有效連接，在現(xiàn)實(shí)世界中具有廣闊的應(yīng)用前景。本文從視覺數(shù)據(jù)的表征粒度出發(fā)將現(xiàn)有的REC 方法分為3 大類，包括最早出現(xiàn)的基于區(qū)域卷積粒度視覺表征的方法、基于網(wǎng)格卷積粒度視覺表征的方法以及基于圖像塊粒度視覺表征的方法，并且進(jìn)一步按照多模態(tài)融合模塊的設(shè)計(jì)進(jìn)行了子類別劃分。隨著Transformer在計(jì)算機(jī)視覺任務(wù)中的成功應(yīng)用，基于Transformer 的視覺—語言大規(guī)模預(yù)訓(xùn)練模型取得了當(dāng)前最優(yōu)的性能。最后對REC 領(lǐng)域研究目前面臨的主要問題進(jìn)行了總結(jié)，并且從多個(gè)角度對REC 未來的發(fā)展進(jìn)行了展望。希望本文可以對該領(lǐng)域未來的模型設(shè)計(jì)和領(lǐng)域發(fā)展起到一定的啟發(fā)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡