問題引導(dǎo)的空間關(guān)系圖推理視覺問答模型

2022-07-15 01:05蘭紅張蒲芬

中國圖象圖形學(xué)報 2022年7期

蘭紅，張蒲芬

江西理工大學(xué)信息工程學(xué)院，贛州 341000

0 引言

視覺問答(visual question answering，VQA)(Antol等，2015)是計算機視覺和自然語言處理在人工智能中一個新興的交叉領(lǐng)域。給定一幅圖像和關(guān)于這幅圖像的一個形式自由、開放式的自然語言問題，視覺問答系統(tǒng)要求能夠根據(jù)圖像和問題的內(nèi)容推斷出正確答案。VQA構(gòu)成了真正的AI-complete(artificial intelligence complete)任務(wù),并且通常認為是視覺推理的一個很好的代理(Wu等，2017)。另外，視覺問答在諸如協(xié)助盲人和幼兒教育等實際中有著廣泛應(yīng)用(Gao等，2019)?？紤]到VQA的挑戰(zhàn)和意義，視覺問答引起了計算機視覺和自然語言處理學(xué)界越來越多的研究和關(guān)注。

近年來，研究者在文本、圖像特征的多模態(tài)學(xué)習(xí)和視覺推理都進行了探索。早期提出的視覺問答模型采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network，CNN)提取圖像的全局特征，采用詞袋模型(bag-of-words，BOW)提取問題的文本特征，然后簡單地融合兩種模態(tài)特征以預(yù)測答案(Zhou等，2015)。然而用圖像全局特征作為模型的視覺輸入，有可能向預(yù)測階段提供不相關(guān)或嘈雜信息，且這種聯(lián)合嵌入方法學(xué)習(xí)的是圖像及問題到答案分布的簡單映射，缺少推理過程，因而導(dǎo)致模型回答的準確率較低。引入注意力機制，使得模型可以利用圖像的局部特征，對來自不同區(qū)域/對象的特征賦予不同的重要性來緩解嘈雜信息的問題，并使模型具有一定的推理能力。Yang等人(2016)提出堆疊注意力網(wǎng)絡(luò)，以迭代的方式分層關(guān)注并定位到圖像區(qū)域；Lu等人(2016)提出層次協(xié)同注意力模型，同時學(xué)習(xí)視覺和文本的協(xié)同注意力，更有利于圖像和問題的細粒度表示，從而更準確地預(yù)測答案；Yu 等人(2017)利用視覺注意力和語義注意力之間的互補性，提出一種新穎的多層次注意力網(wǎng)絡(luò)，增強對圖像理解的細粒度分析；Anderson等人(2018)首次提出檢測圖像中的顯著性對象，再利用自上而下的注意力機制學(xué)習(xí)對象級別的注意力權(quán)重；Kim等人(2018)提出雙線性注意力網(wǎng)絡(luò)，探討了高階的多模態(tài)融合策略，以更好地將文本信息與視覺信息結(jié)合起來；閆茹玉和劉學(xué)亮(2020)提出基于注意力機制的記憶網(wǎng)絡(luò)，以解決在推斷答案過程中有效信息丟失的問題。

以上介紹的VQA方法主要專注于新注意力架構(gòu)和更好的多模態(tài)融合策略，其中推理過程通常采用隱式關(guān)系推理，而未能對圖像場景中對象之間的語義聯(lián)系顯式建模。另外，視覺對象之間的空間關(guān)系在視覺推理中起著重要作用，而上述模型的另一個不足是較少突出對象空間位置關(guān)系的概念，或只是簡單地將對象的位置特征信息融入到對象的視覺特征中，從而導(dǎo)致空間關(guān)系推理能力欠佳。實際情況中，回答視覺問題通常涉及觀察不同的區(qū)域或?qū)ο螅⒈容^它們的內(nèi)容或位置。例如要回答圖1(a)中的問題“What animal is shown?”，VQA模型只需要檢測出圖像中的elephant對象，即可做出正確的回答，甚至不需要理解整幅圖像的內(nèi)容；又如圖1(b)中“What is under the car?”這類需要空間推理的問題，VQA模型先要定位到car和plate對象，然后比較它們的空間位置，并充分理解under這個空間概念后，才能做出正確回答。所以VQA模型需要在圖像理解中超越單純的目標檢測，并通過闡述圖像中不同對象之間的動態(tài)交互作用，學(xué)習(xí)到對圖像場景更加整體的理解。

圖1 視覺問答任務(wù)的示例Fig.1 Examples of visual question answering((a)elephant；(b)plate)

針對上述問題，本文提出了問題引導(dǎo)的空間關(guān)系圖推理視覺問答模型(question-guided spatial relation graph reasoning model，QG-SRGR)。該模型將圖像結(jié)構(gòu)化建模為具有空間交互的空間關(guān)系圖，視覺對象定義為空間關(guān)系圖的節(jié)點，而圖的邊則通過視覺對象之間固有的空間位置關(guān)系動態(tài)地構(gòu)建。在動態(tài)構(gòu)建的空間關(guān)系圖上，模型執(zhí)行門控圖推理網(wǎng)絡(luò)(gated graph reasoning network,GGRN)進行空間關(guān)系圖推理，以產(chǎn)生具有空間關(guān)系感知的視覺特征表示。此外，門控圖推理的門控值基于問題中詞引導(dǎo)的注意力權(quán)重，這允許將問題中的語義信息注入到關(guān)系推理和視覺特征的上下文學(xué)習(xí)階段，通過這種方式，學(xué)習(xí)到的特征不僅捕獲了圖像中對象交互的視覺內(nèi)容，而且還兼顧了問題中的語義線索，動態(tài)地關(guān)注特定的關(guān)系類型和每個問題對應(yīng)的實例對象。

1 QG-SRGR模型

本文提出的QG-SRGR模型由4個網(wǎng)絡(luò)模塊組成，分別為，1)空間關(guān)系圖的構(gòu)建模塊。動態(tài)捕獲對象之間的空間關(guān)系，將圖像結(jié)構(gòu)化建模為空間關(guān)系圖。2)問題表征模塊。生成問題中詞的詞嵌入、詞的特征向量和問題的特征向量。3)問題引導(dǎo)的空間關(guān)系圖推理模塊。進行基于問題引導(dǎo)的空間關(guān)系推理，并學(xué)習(xí)到具有空間關(guān)系感知的視覺特征表示。4)多模態(tài)融合及答案預(yù)測模塊。將具有空間關(guān)系感知的視覺特征和問題特征進行多模態(tài)融合，以預(yù)測高質(zhì)量的答案。提出模型的總體框架如圖2所示。

圖2 本文QG-SRGR模型的整體架構(gòu)Fig.2 The overall architecture of the proposed QG-SRGR model

1.1 空間關(guān)系圖的構(gòu)建

1)首先計算度量空間關(guān)系的3個值，分別為中心坐標(xi,yi)和(xj,yj)的相對距離di,j與圖像對角線長度的比值μi,j，對象間的相對角度θi,j(θi,j為圖像水平軸與向量(xi-xj,yi-yj)的夾角)，以及對象oi和oj之間的區(qū)域交并比值IoUi,j。該交并比具體為

(1)

2)優(yōu)先考慮“內(nèi)部”和“覆蓋”兩種空間關(guān)系。如果oi完全包含了oj，意味著oi在oj的“內(nèi)部”，邊ei,j表示內(nèi)部邊，其邊標簽值lab(i,j)=1；如果oi被oj覆蓋，邊ei,j表示覆蓋邊，則lab(i,j)=2。

3)如果不存在上述兩種特殊情況，而IoUi,j大于0.5，這意味著oi和oj部分“重疊”；在μi,j和IoUi,j都小于0.5的情況下，ei,j根據(jù)相對角度θi,j劃分到空間關(guān)系“右”、“右上”、“頂部”、“左上”、“左”、“左下”、“底部”和“右下”的其中一種，對應(yīng)的邊標簽值為

(2)

特別地，當(dāng)μi,j>0.5而IoUi,j<0.5，認為oi和oj空間交互較弱，不建立它們之間的空間關(guān)系。

圖3 所有空間關(guān)系示意圖Fig.3 All types of spatial relations

1.2 問題表征

Q=fGloVe(F)

(3)

H=fGRU(Q)

(4)

q=fSelf-attention(H)

(5)

式中，詞特征向量序列H將用于問題引導(dǎo)的注意力，問題的特征向量q將用于多模態(tài)融合和答案預(yù)測。此外，經(jīng)過GRU編碼的詞特征向量，兼顧了每個詞在問題中的整體語義上下文，為更好的問題引導(dǎo)的空間關(guān)系推理提供了語義線索。

1.3 問題引導(dǎo)的空間關(guān)系圖推理

1.3.1 問題引導(dǎo)的注意力

al,i=Wn(tanh(Wvvi+Whhl))

(6)

(7)

式中，Wv∈RDn×Dv、Wh∈RDn×Dh和Wn∈R1×Dn均為可學(xué)習(xí)的參數(shù)矩陣，vi表示節(jié)點i的特征信息，hl表示詞l的特征向量,計算得到的注意力權(quán)重值al,i再使用歸一化指數(shù)函數(shù)softmax進行歸一化操作(fsoftmax)。歸一化后的注意力權(quán)重為αl,i，表示詞l在推理過程中參照視覺對象實例oi的可能性，達到了某些名詞屬性的詞和對應(yīng)的視覺對象實例在語義上對齊的效果，同時αl,i也構(gòu)成節(jié)點i的節(jié)點門控尺度因子。

同理，為衡量空間關(guān)系圖G上每條空間關(guān)系邊ei,j與問題的相關(guān)性，并使空間關(guān)系邊與問題中的空間描述保持一致，模型同樣在空間關(guān)系邊上學(xué)習(xí)一個注意力分布，表示為

βl,lab(i,j)=fsoftmax(Wβ1tanh(Wβ0hl+bβ0)+bβ1)

(8)

式中，Wβ1∈R11×Dβ0、Wβ0∈RDβ0×Dh、bβ0∈RDβ0和bβ1∈R11×1均為模型需要訓(xùn)練的可學(xué)習(xí)參數(shù)。結(jié)果βl,lab(i,j)是基于詞l獲得的邊門控尺度因子，表示問題中詞參照對象之間空間關(guān)系類型為ei,j的概率。

1.3.2 門控圖推理網(wǎng)絡(luò)

受圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolution neural network，GCN)強大的圖表示學(xué)習(xí)和推理能力(Kipf和Welling，2017；Chen等，2018)的啟發(fā)，本文提出一種基于空域GCN(Hamilton等，2017)的空間關(guān)系圖推理方法，將具有空間關(guān)系圖結(jié)構(gòu)的所有圖像區(qū)域編碼為具有空間關(guān)系感知的視覺特征表示，并賦予模型空間推理能力。將從原始的GCN到改進的具有邊方向和邊標簽信息感知的GCN逐步展開論述，并分析它們的缺陷及提出相應(yīng)的改進策略，最終提出門控圖推理網(wǎng)絡(luò)。

1)原始GCN。原始GCN定義在無向圖上，其圖卷積的特征聚合計算操作為

(9)

雖然原始GCN通過聚合其鄰居的特征和根據(jù)局部的拓撲結(jié)構(gòu)傳遞消息來學(xué)習(xí)節(jié)點新的特征表示，并隱式地捕獲節(jié)點之間的相關(guān)性，但對于增強和學(xué)習(xí)到具有空間關(guān)系感知的圖像區(qū)域特征，不帶有任何關(guān)于方向性或邊標簽的GCN會忽略重要的關(guān)系信息。

2)具有邊方向和邊標簽信息感知的GCN。為實現(xiàn)在帶標簽、有向的空間關(guān)系圖G上進行圖卷積操作，通過充分利用節(jié)點之間的空間關(guān)系對原始GCN進行改進，分別改造變換矩陣W和偏置向量b以利用不同的邊方向和邊標簽，使改進后的GCN能夠?qū)W習(xí)邊方向和邊標簽的信息，則每個節(jié)點i改進后的具有邊方向和邊標簽信息感知的GCN編碼為

(10)

式中，dir(i,j)根據(jù)邊的方向選擇不同的變換參數(shù)矩陣，lab(i,j)代表每條有向邊ei,j的邊標簽，改進后的Wdir(i,j)∈RDnew×Dv項能夠感知邊方向，偏置項blab(i,j)∈RDnew學(xué)習(xí)了每條空間關(guān)系邊的信息。此外，式(10)改進的GCN均勻地聚合了來自有邊連接節(jié)點的特征信息，但沒有反映不同鄰居節(jié)點和連接邊的重要性。

(11)

(12)

(13)

(14)

(15)

(16)

改進的門控圖推理網(wǎng)絡(luò)中加入了門控值，能夠根據(jù)問題的文本信息和語義線索動態(tài)聚焦于重要的節(jié)點和空間關(guān)系邊，并根據(jù)鄰居節(jié)點和連接邊的重要性聚合自鄰居的特征信息。所有節(jié)點被門控圖推理網(wǎng)絡(luò)編碼后，節(jié)點特征獲取了節(jié)點之間動態(tài)的空間關(guān)系交互，賦予特征的空間感知力豐富了圖像內(nèi)容的表示，同時學(xué)習(xí)到的特征還兼顧了問題的語義信息和線索。以編碼節(jié)點1的特征為例，問題引導(dǎo)的空間關(guān)系圖推理過程如圖4所示。

圖4 問題引導(dǎo)的空間關(guān)系圖推理過程Fig.4 The reasoning process of the question-guided spatial relation graph

1.4 多模態(tài)融合及答案預(yù)測

u=f(Vnew,q)

(17)

(18)

由于一個問題可能存在多個正確答案，所以用二元交叉熵損失(binary cross-entropy loss，BCE)作為模型優(yōu)化的目標，表示為

(19)

2 實驗

本文所有實驗基于 Linux Ubuntu 18.04系統(tǒng)，GPU為GeForce RTX 2080Ti，深度學(xué)習(xí)框架為Pytorch，CUDA版本為10.0。

2.1 VQA v2.0數(shù)據(jù)集及評估指標

本文提出的QG-SRGR模型在VQA v2.0(visual question answering)(Goyal等，2017)數(shù)據(jù)集上進行訓(xùn)練、驗證和測試。VQA v2.0數(shù)據(jù)集是目前最常用的評估視覺問答模型性能的大規(guī)模數(shù)據(jù)集，可在官網(wǎng)visualqa.org下載訓(xùn)練的圖像，問題和答案。VQA v2.0數(shù)據(jù)集包含1.1 M個由人類提出的問題，由訓(xùn)練集、驗證集和測試集3個部分組成，每一條有效的數(shù)據(jù)由三元問答組(圖像,問題,答案)構(gòu)成，其中訓(xùn)練集有80 k幅圖像和444 k個與圖像對應(yīng)的問答組，驗證集有40 k幅圖像和相應(yīng)的214 k個問答組，測試集有80 k幅圖像和相應(yīng)的448 k個問答組。根據(jù)答案的類別，問題劃分為“是/否”(Y/N)、“計數(shù)”(Count)和“其他”(Other)3種類型。其中每個問題的10個可選答案由10位不同的答案注釋者給出，考慮到由多人給出的可選答案中可能存在近義詞、同義詞等，為了反映真實世界中語言和視覺的開放性，采用軟分數(shù)的形式作為模型回答準確率的評估指標，具體為

(20)

式中，c為可選答案在注釋者給出答案中出現(xiàn)的次數(shù)。

根據(jù)該評估指標，若模型預(yù)測的答案在該問題的10個可選答案中出現(xiàn)的次數(shù)大于等于3，則ACC為1，當(dāng)預(yù)測答案在可選答案中出現(xiàn)的次數(shù)為 0、1、2 時，ACC分別為 0、0.3和0.6。

2.2 實驗設(shè)置

實驗預(yù)篩選在訓(xùn)練集和驗證集中出現(xiàn)次數(shù)超過8次的答案構(gòu)造候選答案集，候選答案集的大小為|A|=3 129；每個問題都劃分成單詞序列，單詞個數(shù)大于14的問題只取前14個單詞，而丟棄后面的單詞，小于14個單詞的問題在末尾使用零填充；將處理后的單詞序列輸入GloVe詞嵌入模型，對每個單詞進行向量維度為300的詞嵌入，得到的詞嵌入序列再輸入到GRU中生成詞特征向量序列，詞特征向量和問題向量的維度均設(shè)置為1 024；對于圖像特征，在Visual Genome數(shù)據(jù)集(Krishna等，2017)上預(yù)訓(xùn)練Faster R-CNN模型，對每幅圖像依據(jù)概率獲得K= 36個視覺對象的視覺特征和對應(yīng)檢測框的位置坐標，并且每個對象的視覺特征通過ResNet-101(residual neural network)(He等，2016)卷積特征的池化得到，提取的視覺特征向量的維度為2 048。

采用Adamax算法(Kingma和Ba，2017)進行損失函數(shù)的優(yōu)化，mini-batch size設(shè)置為256。學(xué)習(xí)率采用預(yù)熱策略，將初始的學(xué)習(xí)率設(shè)置為0.000 5，每個epoch線性地增加0.000 5，直到在第4個epoch達到0.002，并一直穩(wěn)固這個學(xué)習(xí)率到第15個epoch。在15個epoch之后，學(xué)習(xí)率衰減0.5，并維持直到第17個epoch。每一輪epoch訓(xùn)練結(jié)束后，打亂一次訓(xùn)練集數(shù)據(jù)，避免訓(xùn)練樣本的先后次序影響優(yōu)化的結(jié)果。為了防止梯度爆炸，使用閾值為0.25梯度裁剪策略。為了穩(wěn)固輸出和防止出現(xiàn)過擬合，每個線性映射都經(jīng)過權(quán)重歸一化和dropout處理。

2.3 實驗結(jié)果及分析

模型在VQA v2.0的訓(xùn)練集上進行訓(xùn)練，并在驗證集上評估模型的回答準確率，圖5展示了訓(xùn)練損失的變化以及模型分別在訓(xùn)練集和驗證集上的回答準確率。在前4個epoch，模型優(yōu)化采用了學(xué)習(xí)率預(yù)熱策略，從損失、訓(xùn)練準確率和驗證準確率的曲線來看，前4個epoch的損失下降非常快，訓(xùn)練準確率和驗證準確率都上升比較快，說明學(xué)習(xí)率預(yù)熱策略生效。第4個epoch后維持了學(xué)習(xí)率，從各曲線看，模型得到穩(wěn)定的優(yōu)化。第11個epoch后，驗證準確率提升非常小，損失下降速度開始放緩。第14個epoch后，模型在驗證集上的準確率不再上升，直到第16個epoch學(xué)習(xí)率衰減，損失進一步下降，驗證準確率小幅度提升，而第17個epoch模型在驗證集上準確率開始下降。最終采用訓(xùn)練16個epoch的模型，且在驗證集上準確率為 64.09%。對損失和準確率的曲線圖進行分析發(fā)現(xiàn)，采用的優(yōu)化策略生效，模型并沒有陷入局部最優(yōu)的情況，模型得到了有效的優(yōu)化。

圖5 模型訓(xùn)練過程中損失和準確率變化圖Fig.5 Changes in loss and accuracy during model training

表1展示了本文模型與其他VQA模型在VQA v2.0 Test-dev和Test-std測試集上的性能對比，選取的模型包括基線模型和近年具有代表性的模型，分別為Prior(Goyal等，2017)、Language-only(Goyal等，2017)、MCB(multimodal compact bilinear)(Fukui等，2016)、Bottom-up(Anderson等，2018)、Mutan(Ben-Younes等，2017)、ReasonNet(Ilievski和Feng，2017)、Graph learner(Norcliffe-Brown等，2018)、SSAN(stacked self-attention network)(Sun和Fu，2019)和BUMN(bottom-up attention and memory network)(閆茹玉和劉學(xué)亮，2020)，表1中對比的準確率均取自相關(guān)文獻。從表1可以看出，相比于Prior和Language-only這兩個基線模型，本文模型在Test-std測試集上總體的準確率有較大提升，分別為41.36%和23.08%。MCB是一種多模態(tài)緊湊雙線性池化方法，Bottom-up是2017年VQA Challenge的冠軍模型，對比于MCB和Bottom-Up模型，本文模型在Test-std測試集上總體的準確率上有不小提升，分別為5.07%和1.67%，在Test-dev測試集上比Bottom-up模型的總體準確率提高了1.66%。與剩下的其他沒有推理能力的模型對比，本文模型在各方面的準確率上都有不同程度的提升，總體好于沒有關(guān)系推理和學(xué)習(xí)的模型。

表1 本文模型與其他VQA模型在VQA v2.0測試集上準確率的對比Table 1 Comparison of the accuracy among our model and other models on VQA v2.0 test set /%

進一步與兩個有推理能力的模型進行比較，相比于ReasonNet模型，本文模型在Test-std測試集上，“Overall”(總體)、“Y/N”(是/否)、“Count”(計數(shù))和“Other”(其他)問題的準確率分別提高了2.73%、4.41%、5.37%和0.65%。對比發(fā)現(xiàn)，QG-SRGR模型和ReasonNet模型在答案類型各異的“Other”問題上，回答準確率高于其他模型，說明模型可因推理能力帶來準確率的提升，而本文采用結(jié)構(gòu)化建模和更細粒度的顯著性對象級特征的推理模型，在該項上取得了更好的結(jié)果。與本文對圖像建模方法相似的是Graph learner，不過Graph learner以問題為條件構(gòu)建無向圖，并沒有從邊方向和邊標簽信息中學(xué)習(xí)到具有空間關(guān)系的信息感知。實驗表明，本文能學(xué)習(xí)方向和空間關(guān)系的圖推理模型，在各方面的回答準確率都好于Graph learner。值得注意的是，本文模型和Graph learner兩個圖建模模型在“Count”問題上的回答準確率高于對比的其他模型，該項的性能提升主要來自兩方面：一是圖模型構(gòu)建了被計數(shù)對象與其他對象的交互，可將推理進一步聚焦在被計數(shù)對象上；二是圖卷積操作通過聚合鄰居節(jié)點的信息細化了節(jié)點特征，使得各節(jié)點特征表示的信息有所差異，有利于識別計數(shù)。

2.4 消融實驗

為探討本文方法的有效性，在門控圖推理網(wǎng)絡(luò)上對門控組件進行消融實驗，結(jié)果如表2所示。

表2 在VQA v2.0驗證集上對門控的消融結(jié)果Table 2 Result on VQA v2.0 validation set for ablation study of gates

原始GCN對應(yīng)式(9)的圖卷積運算，即當(dāng)μ≤0.5時，視覺對象之間存在邊連接，不區(qū)分邊方向和邊類型。實驗表明，用原始GCN做關(guān)系推理的效果欠佳，這種無邊方向、無邊標簽信息、無問題語義線索引導(dǎo)以及不能反映鄰居節(jié)點和邊重要性的特征聚合方式，為每個節(jié)點特征帶來非常大的噪聲信息。兩個門控為No相當(dāng)于式(10)感知邊方向和邊標簽信息的GCN，實驗表明，具有邊方向和空間關(guān)系感知的GCN與原始GCN相比，準確率因邊方向和邊標簽的信息提升了1.12%，表明了邊方向和邊標簽信息的重要性。但是這種聚合方式并沒有利用問題的語義線索、鄰居節(jié)點和邊的重要性，而是盲目地獲取了與鄰居節(jié)點的交互信息，信息噪聲仍然非常大。當(dāng)引入受問題語義線索引導(dǎo)的邊門控或節(jié)點門控后，門控圖推理網(wǎng)絡(luò)能夠根據(jù)鄰居節(jié)點或邊的重要性，增強或衰減來自鄰居節(jié)點的特征信息，減少來自不相關(guān)節(jié)點和關(guān)系的噪聲，且任意一種門控都有助于提升性能，這充分表明問題引導(dǎo)的注意力的有效性和在推理中加入問題語義線索的重要性。當(dāng)同時加入兩種門控值后，模型在VQA v2.0驗證集上達到了最好的性能表現(xiàn)，相比于感知邊方向和邊標簽信息、只帶邊門控、只帶節(jié)點門控和原始GCN，分別提升了3.42%、0.36%、0.35%和4.54%。

2.5 可視化及質(zhì)量分析

為進一步探究模型的學(xué)習(xí)效果，闡明空間關(guān)系如何幫助提升模型性能和空間關(guān)系的推理能力，本文對QG-SRGR模型學(xué)習(xí)到的注意力權(quán)重與視覺對象之間的位置進行了可視化，如圖6所示，

圖6(a)(b)展示了單詞girl對各區(qū)域的注意力權(quán)重和權(quán)重值前4的區(qū)域，其中對bench和girl的聯(lián)合區(qū)域6有著最大的注意力權(quán)重，模型有效地學(xué)習(xí)到了詞與區(qū)域的語義對齊。圖6(c)(d)展示了節(jié)點門控值最大的4個區(qū)域和每個區(qū)域的門控值，其中區(qū)域5的節(jié)點門控值最大，說明模型主要將注意力集中在區(qū)域5對應(yīng)的girl對象上，此外區(qū)域11和17也有較高的節(jié)點門控值，而這些區(qū)域也是與推斷出正確答案極其相關(guān)的。圖6(e)還展示了模型是如何利用問題中的空間描述和語義信息引導(dǎo)空間推理，以及如何學(xué)習(xí)具有空間關(guān)系感知的區(qū)域特征表示的。圖6(e)展示詞on對“右上”和“頂部”兩種邊類型的注意力分數(shù)較高(填充詞的注意力分數(shù)已省略)，其中對“頂部”的注意力權(quán)重最高，同時計算得出這兩種邊類型對應(yīng)的邊門控值也是前2名。也就是說，在進行門控圖卷積運算時，bench區(qū)域?qū)?yīng)的節(jié)點在特征信息聚合時將感知和接收更多總體在其頂部的girl節(jié)點的交互信息，這些信息被門控圖推理網(wǎng)絡(luò)學(xué)習(xí)為具有空間感知的視覺特征表示，以此增強了視覺特征和豐富了圖像的表示。

圖6 對注意力權(quán)重及門控值的可視化Fig.6 Visualization of attention weights and gating values((a)top-4 regions of attention value；(b)the attention values of “girl” respect to regions；(c)top-4 regions of node gated values；(d)the node gated values of regions；(e)the attention values of words respect to edges)

為分析QG-SRGR模型預(yù)測答案的質(zhì)量，展示了QG-SRGR模型、復(fù)現(xiàn)的Bottom-up模型(Anderson等，2018)和Zhou等人(2015)的基線模型對需要不同推理能力的問題的預(yù)測結(jié)果，如圖7所示。通過定性比較可以發(fā)現(xiàn)，QG-SRGR模型對于需要空間關(guān)系推理的問題，預(yù)測的答案質(zhì)量更高。如圖7(b)所示，Bottom-up預(yù)測的答案為hat，Baseline預(yù)測的答案為nothing，而QG-SRGR模型預(yù)測出了hat的復(fù)數(shù)形式hats；圖7(c)中，Bottom-up和Baseline都預(yù)測到在bathtub外面的toilet的顏色white，而本文的QG-SRGR模型成功地根據(jù)問題的語義信息in預(yù)測到在bathtub里面的toilet的顏色pink；圖7(d)這類被鏡像化處理的圖像，QG-SRGR模型同樣預(yù)測出了正確答案，展現(xiàn)出較強的空間關(guān)系推理能力。剩余的問題同樣展示QG-SRGR模型預(yù)測的答案比沒有空間關(guān)系推理的Bottom-up和Baseline模型質(zhì)量更高。此外，在不需要空間關(guān)系推理的問題上，QG-SRGR模型也有不錯的表現(xiàn)，如圖7(k)所示。

圖7 QG-SRGR、Bottom-up和Baseline模型預(yù)測結(jié)果的比較Fig.7 Comparison of prediction results among QG-SRGR,bottom-up and baseline models((a)people；(b)hats；(c)pink；(d)wall；(e)blue1；(f)blonde；(g)plate；(h)rainbow；(i)blue2；(j)raspberries；(k)baseball；(l)3)

3 結(jié) 論

針對視覺問答中需要空間關(guān)系推理的問題，通過改進的門控圖推理網(wǎng)絡(luò)，提出了問題引導(dǎo)的空間關(guān)系圖推理視覺問答模型。利用視覺對象之間固有的空間關(guān)系屬性將圖像結(jié)構(gòu)化建模為空間關(guān)系圖，構(gòu)建了對象間的空間交互；對變換矩陣和偏置向量改進的圖卷積神經(jīng)網(wǎng)絡(luò)，有效地感知了方向和空間關(guān)系信息；構(gòu)建的門控圖推理網(wǎng)絡(luò)將其集成并學(xué)習(xí)為表現(xiàn)力更強、具有空間關(guān)系感知的視覺特征，并賦予模型空間關(guān)系推理能力。問題引導(dǎo)的注意力達到了圖像區(qū)域與問題文本信息更準確的語義對齊，確保了對象間的空間關(guān)系與問題中的空間描述的一致性。

充分的消融實驗驗證了提出的QG-SRGR模型及其各個組件的有效性，特別是進行的可視化實驗表明其空間關(guān)系推理過程符合人類的推理習(xí)慣。與大多數(shù)使用注意力機制和多模態(tài)融合但空間關(guān)系推理能力欠佳的其他VQA模型相比，QG-SRGR模型在各類問題的回答準確率上都有顯著提升。本文單獨圍繞眾多視覺關(guān)系中的空間關(guān)系展開研究，事實是對象之間存在多種交互關(guān)系，如代表動作交互的行為關(guān)系等，因此后續(xù)的工作將探討對象之間更多的交互關(guān)系，并進一步將本文提出的關(guān)系推理方法運用到每一種可能的視覺關(guān)系中。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡