張豐碩 李豫 李向前 徐金安 陳鈺楓
北京大學學報(自然科學版) 第60卷 第1期 2024年1月
Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 60, No. 1 (Jan. 2024)
10.13209/j.0479-8023.2023.072
2023–05–18;
2023–09–26
一種消減多模態(tài)偏見的魯棒視覺問答方法
張豐碩 李豫 李向前?徐金安 陳鈺楓
北京交通大學計算機與信息技術(shù)學院, 北京 100044; ?通信作者, E-mail: xqli@bjtu.edu.cn
為了增強視覺問答模型的魯棒性, 提出一種偏見消減方法, 并在此基礎(chǔ)上探究語言與視覺信息對偏見的影響。進一步地, 構(gòu)造兩個偏見學習分支來分別捕獲語言偏見以及語言和圖片共同導致的偏見, 利用偏見消減方法, 得到魯棒性更強的預(yù)測結(jié)果。最后, 依據(jù)標準視覺問答與偏見分支之間的預(yù)測概率差異, 對樣本進行動態(tài)賦權(quán), 使模型針對不同偏見程度的樣本動態(tài)地調(diào)節(jié)學習程度。在 VQA-CP v2.0 等數(shù)據(jù)集上的實驗結(jié)果證明了所提方法的有效性, 緩解了偏見對模型的影響。
視覺問答; 數(shù)據(jù)集偏差; 語言偏見; 深度學習
視覺問答(visual question answering, VQA)[1]是一項結(jié)合計算機視覺與自然語言處理的多模態(tài)任務(wù),其目標是根據(jù)圖片來回答問題。近年來, VQA 相關(guān)研究取得長足的進展?,F(xiàn)有的視覺問答任務(wù)常用評測數(shù)據(jù)集(如 VQA v2.0[2])中, 訓練集和測試集的分布是相近的, 當模型較好地擬合此類數(shù)據(jù)的訓練集時, 更容易表現(xiàn)出優(yōu)越的測試性能。然而, 真實場景中的數(shù)據(jù)集往往呈現(xiàn)不均衡的類別分布, 且難以避免長尾分布問題。因此, 當訓練集與測試集存在較大的分布差異(甚至完全相反)時, 數(shù)據(jù)中的分布偏差常常使模型表現(xiàn)出較差的泛化能力。
常用的 VQA 數(shù)據(jù)集存在相同類別問題下答案分布不均衡的現(xiàn)象。例如, 在當前評測視覺問答任務(wù)的主流數(shù)據(jù)集 VQA v2.0 中, 以“How many”開頭的問題, 大約 70%的答案為“2”; 以“What sport”開頭的問題, 以“tennis”作為答案的約占 40%。因此, 模型在訓練期間往往只簡單地學習到問題與標準答案的表面相關(guān)性(配對關(guān)系), 從而在沒有結(jié)合圖片信息進行充分推理的情況下, 依據(jù)經(jīng)驗得出有偏見的預(yù)測結(jié)果, 表現(xiàn)出較強的語言偏見。為了探索解決這一語言先驗性問題的途徑, 前人通過重新分割和組織原有 VQA 數(shù)據(jù)集的方式, 構(gòu)建訓練集和測試集中相同問題類型下答案分布相反的數(shù)據(jù)集(如VQA-CP[3])。值得注意的是, 很多表現(xiàn)良好的 VQA模型在這類數(shù)據(jù)集上的性能大幅度下降。因此, 克服數(shù)據(jù)集分布不均衡導致的偏見問題至關(guān)重要。
針對上述問題, 有別于前人的工作[4–13], 本文嘗試直接將標準分支與偏見分支的概率輸出之差作為預(yù)測結(jié)果。首先, 構(gòu)造兩個不同的偏見學習分支來分別捕捉語言偏見以及語言和圖片共同導致的偏見。一個分支通過對語言輸入進行特征提取來識別和理解文本中的偏見, 另一個分支基于注意力機制來分析并捕捉語言和圖片共同導致的偏見。進一步地, 在推理階段, 將基礎(chǔ)視覺問答模型的預(yù)測分值減去語言偏見模型的偏見分值, 得到的差值即為去偏后的預(yù)測概率, 最終取概率最大的預(yù)測標簽作為答案輸出。該方法通過消減捕捉到的偏見來降低模型對偏見的敏感性, 并生成更加無偏和準確的預(yù)測結(jié)果。最后, 根據(jù)標準視覺問答與偏見分支之間的預(yù)測概率差異, 對樣本進行動態(tài)賦權(quán)。不同的差異意味著樣本具有不同的偏見程度, 而賦予不同的權(quán)重, 可以調(diào)節(jié)模型對樣本的學習程度。這種動態(tài)賦權(quán)的方式可以使模型更加靈活和準確地應(yīng)對不同程度的偏見樣本, 從而提高模型的整體性能。通過基于 VQA-CP v2.0 和 VQA v2.0 數(shù)據(jù)集的實驗, 證明本文方法具有比基線模型更高的效能。
近幾年, 處理視覺問答任務(wù)偏見問題的相關(guān)研究可以分為兩大類: 數(shù)據(jù)增強方法[4–7]和非數(shù)據(jù)增強方法[8–13]。
1)數(shù)據(jù)增強的方法: 通過自動生成問題和圖像對來擴展訓練數(shù)據(jù)集, 以便平衡數(shù)據(jù)集存在的偏見。Teney 等[4]和Zhu等[5]通過從原有的數(shù)據(jù)集中構(gòu)建不相關(guān)的問題–圖像對來生成額外的數(shù)據(jù), 以此在不引入新樣本的方式下來平衡數(shù)據(jù)集。Chen 等[6]通過對圖像中的關(guān)鍵對象和問題中的關(guān)鍵目標進行掩蓋, 并分別對這些樣本分配不同的答案來生成反事實的訓練樣本, 從而大大提高模型的視覺可解釋性和問題敏感能力。Mutant 模型[7]從多個角度擴充訓練樣本, 包括去除圖像的關(guān)鍵對象、反轉(zhuǎn)圖像中關(guān)鍵對象的顏色、否定問題的表達以及遮蓋問題關(guān)鍵詞等。數(shù)據(jù)增強的方法雖然效果很顯著, 但新生成數(shù)據(jù)的質(zhì)量往往難以保證, 同時還可能引入新的偏見。
2)非數(shù)據(jù)增強的方法主要分為兩類。一類是引入先驗知識來增強視覺靈敏度: HINT 模型[9]引入人類注意力來加強模型對圖像的敏感度; 在 HINT模型的基礎(chǔ)上, SCR 模型[10]提出自我批評的方法, 懲罰不正確答案對重要區(qū)域的敏感度, 取得更好的去偏效果。但是, 這類方法效果有限, 并且需要額外的人工標注, 成本較高。另一類常見的策略是引入一個輔助的單模態(tài)分支模型來檢測偏見: Ramak-rishnan 等[11]引入僅問題分支, 并使用對抗正則化方法減少數(shù)據(jù)集偏見對模型的影響; Cadene 等[12]改善了對抗的做法, 提出融合僅問題分支來改變模型的預(yù)測結(jié)果, 從而降低有偏樣本的重要性; Clark 等[13]使用問題類型和答案訓練一個捕獲偏見的僅問題分支, 再將僅問題分支的預(yù)測值嵌入基本模型的預(yù)測值中進行集成訓練, 使模型的性能有較高的突破; Wen 等[8]注意到視覺模態(tài)的偏見效應(yīng), 構(gòu)建僅問題和僅圖像兩個分支來同時消除兩種偏見。
與上述方法不同的是, 本文的方法引入的輔助分支可以直接作用于任意視覺問答基礎(chǔ)模型, 適用范圍更廣; 同時, 我們還依據(jù)標準視覺問答分支和偏見分支之間的差異, 構(gòu)造動態(tài)調(diào)節(jié)機制來作用于損失函數(shù), 從而進一步優(yōu)化去偏效能。
本研究中, 我們嘗試直接將標準分支與偏見分支的概率輸出之差作為預(yù)測結(jié)果。在這種方式下, 針對語言偏見問題, 在模型的訓練階段, 我們沿襲前人的方法, 訓練一個語言模態(tài)的問答模型來捕獲語言先驗知識; 在推理階段, 我們將基礎(chǔ)視覺問答模型的預(yù)測分值(VQA)減去語言偏見模型的偏見分值(QA), 得到的差值即為去偏后的預(yù)測概率, 最終取概率最大的預(yù)測標簽作為答案輸出。為了驗證該方法的有效性, 我們選用經(jīng)典的視覺問答模型Updn[14]作為基礎(chǔ)模型, 并在數(shù)據(jù)集 VQA-CP v2.0 上進行初步實驗。表 1 列出的實驗結(jié)果表明, 該方法可以顯著地提高視覺問答的準確率。然而, 只考慮語言偏差而忽略視覺信息帶來的影響, 不能充分地去除偏見, 視覺信息導致的偏見效應(yīng)[8]仍然未被充分探究。從圖 1 的示例 1~3 中可以觀察到, VQA 模型因受圖片中模型最感興趣的區(qū)域影響而預(yù)測出錯誤的答案“Water”。
表1 直接消減方法在VQA-CP v2.0數(shù)據(jù)集上的去偏效果
為了進一步探索上述問題, 受前人捕獲語言偏見的工作[11–13]啟發(fā), 我們首先觀測僅使用圖片來回答問題(VA 分支)的效果。如圖 1 所示, 我們發(fā)現(xiàn)由VA 分支輸出的概率分布中, 分值最高的答案始終為 Yes 或 No。主要原因在于, 通過圖片信息直接預(yù)測答案的過程并不能使模型學到有效的知識。具體地說, 在 VQA-CP v2.0 數(shù)據(jù)集中, 一張圖片往往對應(yīng)多個自然語言問答實例, 因此在缺失問題引導的情況下, 模型僅僅捕捉到訓練集中圖片與答案的映射規(guī)律, 并將對應(yīng)頻率最高的答案(即 yes 或 no)作為最終的預(yù)測。因此, 單純使用圖片來捕獲視覺偏見的做法仍然存在問題。我們繼續(xù)對樣例進行分析, 發(fā)現(xiàn)錯誤答案“Water”大多出現(xiàn)在“What”問題類型的樣例中, 如圖 1 中示例 1~3 所示。所以, 我們推測部分問題信息可能會與圖片中的某些區(qū)域結(jié)合在一起, 與答案標簽形成配對關(guān)系, 從而被模型在訓練階段利用, 即存在一種文本和視覺信息共同導致的混合偏見。
針對上述問題, 本文提出兩個偏見檢測分支模型, 即語言偏見檢測分支和混合偏見檢測分支, 分別捕獲兩種偏見, 并且將它們?nèi)谌胛覀兲岢龅闹苯酉麥p策略當中, 得到去偏結(jié)果??紤]到單純使用圖片信息不能捕獲視覺偏見, 我們?yōu)閳D片提供部分問題線索, 并且使用多頭自注意力機制使它們充分交互, 從而得到融合視覺與文本線索信息的混合偏見特征。同時, 我們還探究不同偏見分支對不同類型問題的影響, 并設(shè)計基于問題類型的分段注意力機制來調(diào)節(jié)各類型問題的去偏過程。最后, 我們依據(jù)標準分支和偏見分支預(yù)測的相似性, 設(shè)計樣本重賦權(quán)策略, 通過動態(tài)地調(diào)節(jié)損失函數(shù), 進一步優(yōu)化去偏過程。
預(yù)測輸出中粗體字表示模型預(yù)測的概率最大的答案, 下同
如圖 2 所示, 本文模型的整體結(jié)構(gòu)包括 3 個部分: 1)基礎(chǔ)視覺問答模型, 例如Updn[14]; 2)偏見檢測模型, 用于捕獲語言偏見和混合偏見; 3)動態(tài)調(diào)節(jié)模塊, 用于依據(jù)標準分支和偏見分支的相似性, 動態(tài)地調(diào)節(jié)損失函數(shù)的大小。
目前, 可以將視覺問答視為多標簽分類任務(wù)。具體地說, 給定數(shù)據(jù)集, 其中v,q和分別代表第個樣本(樣本總數(shù)為)中的圖片、問題和答案, 任務(wù)的目標是根據(jù)自然語言問題和對應(yīng)的視覺信息預(yù)測出正確的答案。通常, 視覺問答模型的預(yù)測概率分布可以建模為
3.3.1語言偏見檢測模型
一般將語言偏見視為僅僅根據(jù)問題文本得到的答案分布, 通常用如下方式得到:
其中,q表示映射函數(shù), 將問題特征直接映射到答案空間。
3.3.2混合偏見檢測模型
為了捕獲圖片與文本共同導致的偏見, 我們設(shè)計一種混合偏見檢測模型(如圖 3 所示), 分別從底層特征級別和注意力結(jié)構(gòu)級別兩方面對圖片提供問題線索的引導。
在前期處理階段, 首先將訓練集中的問題文本輸入預(yù)訓練模型BERT[15]中:
其中,表示問句單詞集合{1,2, …,w}經(jīng)過 BERT編碼后的向量。之后, 在特征級別上使用已標記好的問題類型的訓練數(shù)據(jù)集來訓練意圖分類器。這里, 將問題的類型視為問題意圖。在分類器的實現(xiàn)過程中, 我們從 BERT 編碼后的文本特征中選擇[CLS]標記對應(yīng)的特征輸送到多層感知機以及 Soft-max 歸一化層中, 取概率分值最高的問題類型對應(yīng)的下角標作為問題意圖標簽。計算方法如下:
其中,cls表示中[CLS]標記對應(yīng)的向量, idx 表示預(yù)測概率值最高的意圖對應(yīng)的下角標索引,intent代表預(yù)測出的問題意圖標簽。在視覺問答訓練過程中, 我們先在特征表示層面將意圖標簽投射到向量空間, 并與圖片區(qū)域特征進行加和, 后接多頭自注意力機制, 使它們充分地交互, 從而得到混合意圖的視覺特征序列:
其中,enc表示圖片區(qū)域特征向量,表示當前文具對應(yīng)的問題意圖向量, MHSA(·)表示多頭自注意力機制[16],intent表示混合意圖的視覺特征序列。
除在特征層面引入意圖線索外, 與 Updn 類似, 我們在注意力機制層面直接利用問句信息來擇取問題最有可能關(guān)注到的視覺區(qū)域。具體地說, 將式(1)中編碼后的問題向量enc進行平均池化, 得到整體問題文本特征:
最后, 引入注意力機制來對混合文本線索的視覺特征進行聚合。值得注意的是, 考慮到不同的問題受到的偏見影響存在差異, 我們設(shè)計分段注意力權(quán)重的計算方法。具體地說, 我們依據(jù)答案類型的不同, 采取不同的查詢向量來計算權(quán)重。對于推理難度較大的 Num 類型問題, 將完整的問題文本特征作為查詢向量; 對于非 Num 類型的問題, 考慮到給予太多的文本線索會使偏見模型學習到正確的知識, 因此訓練一個隨機向量作為查詢向量來計算混合意圖的視覺特征權(quán)重, 加權(quán)求和后, 得到最終的混合偏見特征。這里的隨機向量近似地代表用戶對圖片區(qū)域關(guān)注的隨機傾向性。式(7)和(8)分別表示注意力權(quán)重的計算和混合偏見特征mix的獲取操作。
LVQA 和LBias 分別表示基礎(chǔ)視覺問答模型和偏見檢測分支模塊的損失函數(shù); Q*表示從問句中提取的問題類型, 下同
圖3 混合偏見檢測模型示意圖
(8)
其中,為初始化的隨機向量,為當前問題的答案類型,為隱藏層的維度,,,和為訓練權(quán)重,為偏置量。
為了進一步增強去偏效果, 本文設(shè)計一種樣本損失動態(tài)調(diào)節(jié)機制。具體地說, 我們依據(jù)標準視覺問答分支與偏見預(yù)測概率之間的分布差異, 計算出一個衡量樣本偏見程度的權(quán)重因子, 用于調(diào)整損失函數(shù)的大小, 從而在模型訓練過程中削弱對偏見樣本的學習強度, 同時關(guān)注無偏樣本的學習。
然后, 為了衡量樣本的偏見程度, 計算標準分支輸出概率s與的余弦相似度:
由于s和的取值都大于等于零, 故的取值在 0~1 之間。由余弦相似性可知,值越大, 標準分支和偏見檢測分支的輸出概率越接近, 樣本存在偏見的可能性越大。
最后, 對于極有可能存在偏見的樣本(余弦相似度大于當前問題對應(yīng)答案類型為時的臨界值), 賦予較小的權(quán)重系數(shù)來削弱偏見的影響; 對于幾乎不存在偏見的樣本(余弦相似度小于臨界值), 通過增大權(quán)重系數(shù)來增加模型對這類樣本的關(guān)注度。權(quán)重系數(shù)ω的計算公式如下:
其中,是超參數(shù), 表示人工放縮的權(quán)重。
3.5.1模型訓練
在模型訓練階段, 我們通過二元交叉熵損失函數(shù), 分別優(yōu)化基礎(chǔ)視覺問答模型和偏見檢測分支模塊, 計算公式如下:
其中,是超參數(shù), 用于平衡基礎(chǔ) VQA 模型和偏見檢測模型;是偏見分支的數(shù)目;是答案標簽; bce(·)是二元交叉熵損失函數(shù);s表示基礎(chǔ) VQA 模型輸出的概率;表示第個偏見檢測模型輸出的概率。
3.5.2模型推理
在測試階段, 某一答案標簽的概率分值表示為
其中,是答案類型, 共有 3 種??紤]到不同偏見分支對各個類型問題的影響可能存在差異, 我們設(shè)置權(quán)重來調(diào)節(jié)去偏程度, 并且。
4.1.1數(shù)據(jù)集
針對視覺問答中的偏見問題, 目前常用 VQA-CP v2.0 數(shù)據(jù)集[3]來評估模型的性能, 在 VQA v2.0數(shù)據(jù)集[2]上測試模型是否過度糾偏。VQA v2.0 訓練集包含 443757 個圖像問題對, 驗證集包含 214354個圖像問題對, 測試集包含447793 個圖像問題對。VQA-CP v2.0 數(shù)據(jù)集是對VQA v2.0 數(shù)據(jù)進行重新劃分后得到的, 在同一類型的問題下, 該數(shù)據(jù)集的訓練集和測試集答案分布差異較大。VQA-CP v2.0數(shù)據(jù)集的訓練集包含 438183 個圖像問題對, 不包含驗證集, 測試集包含 219928 個圖像問題對。在兩個數(shù)據(jù)集中, 樣本的問題類型分為 3 類: Yes/No, Num和 Other。
4.1.2評價方法
評價句子的正確性時, 需要考慮句法和句子語義的正確性。為了簡化問題, 視覺問答的大多數(shù)數(shù)據(jù)集將生成的答案限制為單詞或短語, 長度為 1~3個單詞。當前通用的評估方法如式(14)[1]所示:
其中, Acc(ans)表示某樣本下某個答案的準確率, #humans provided ans 表示人工給出該答案的次數(shù)。數(shù)據(jù)集會對每個問題收集 10 個人工答案, 如果某個答案被人工標注 3 次或以上, 則得分為 1; 如果某個答案沒有被標注, 則得分為 0,即錯誤答案。在評估時, 需要將生成的答案與 10 個人工答案進行比較, 從而得到準確率。
4.1.3測試基準模型
我們在 Updn[14]和 LXMERT[17]兩個視覺問答基礎(chǔ)模型上測試本文提出的方法。Updn 模型是目前主流的視覺問答模型, 它使用一種自上而下和自下向上的注意力機制[16]; LXMERT 是一個基于 Trans-former[16]架構(gòu)的多模態(tài)預(yù)訓練模型。我們按照是否在 LXMERT 框架下加載預(yù)訓練權(quán)重, 分兩組進行實驗。
4.1.4參數(shù)設(shè)置與實驗環(huán)境
在 Updn 模型的訓練過程中, 設(shè)置初始學習率為 5×10?4, 訓練 batch 大小為 256, 共迭代 25 輪; 在LXMERT 模型的訓練過程中, 設(shè)定初始學習率為5×10?5, 訓練 batch 大小為 32, 共迭代 10 輪。我們使用 Pytorch 1.40 框架來實現(xiàn)本文提出的模型, 所有的計算均在 NVIDIA Tesla V100 GPUs 上進行。
表 2 對比本文方法和近年來提出的其他方法在VQA-CP v2.0 測試集以及 VQA v2.0 驗證集上的性能。公平起見, 我們主要比較非數(shù)據(jù)增強的方法, 包括 SCR[10], AttAlign[9], HINT[9], AReg[11], DLR[18], GRL[19], RUBi[12], LM[13], LMH[13], Unshuffling[20]和Re-scaling[21]。其中, Unshuffling 方法通過劃分數(shù)據(jù)集, 并為每個子集設(shè)置不同訓練環(huán)境的方式來提高模型的泛化能力; Re-scaling 方法則根據(jù)訓練數(shù)據(jù)的統(tǒng)計特征, 對樣本進行重賦權(quán)來消減偏見。評測實驗結(jié)果表明, 本文方法優(yōu)于其他基線方法, 并可得到以下結(jié)論。
1)與去偏后的模型相比, 未經(jīng)過去偏處理的視覺問答方法(如 SAN[22], GVQA[3]和 Updn)在 VQA-CP v2.0 數(shù)據(jù)集上的效果表現(xiàn)較差。本文提出的去偏策略在 Updn 以及兩組 LXMERT 模型上均具有較明顯的去偏效果。具體地說, 與基礎(chǔ)的 Updn 模型相比, 本文方法的準確率提升約 15.45%; 與不加載預(yù)訓練權(quán)重的 LXMERT 相比, 提升 15.76%; 與加載預(yù)訓練權(quán)重的 LXMERT 相比, 提升 15.42%。從整體上看, 上述結(jié)果證明了本文方法在去偏任務(wù)中具有明顯的有效性。
2)在 VQA-CP v2.0 有偏數(shù)據(jù)集上, 本文中提出的去偏策略在單個指標方面均取得最好的效果。與同樣引入問答分支模型的 AReg(+14.31%)、GRL(+13.15%)、LM(+6.70%)、LMH(+3.47%)和 RUBi(+11.25%)相比, 本文方法簡單, 效果更顯著。從與其他基線模型的對比來看, 一方面, 再次體現(xiàn)出本文方法顯著的有效性; 另一方面, 說明本文去偏策略盡可能地針對各個問題類型, 捕獲了更充分的偏見信息。
表2 與已有視覺問答去偏模型的性能比較
注: *實驗結(jié)果取自本研究復(fù)現(xiàn)的模型, 其他用于比較的實驗結(jié)果都取自原文獻; 粗體數(shù)字表示最優(yōu)結(jié)果, 下同。
3)在 VQA v2.0 數(shù)據(jù)集上, 與 Updn 基礎(chǔ)模型相比, 大部分已有去偏方法的效果均有所下降, 說明當前的去偏模型存在一定的矯枉過正現(xiàn)象。本文提出的策略在 VQA v2.0 數(shù)據(jù)集上的測試準確率具有明顯的競爭力, 在一定程度上證實本文方法引起的矯枉過正現(xiàn)象相對較弱, 模型的魯棒性更強。
我們通過消融實驗驗證模型各部分的有效性, 結(jié)果如表 3 所示。所有模型均在與 4.1.4 節(jié)中相同的設(shè)置下訓練。消融實驗結(jié)果表明, 融合偏見檢測分支與動態(tài)調(diào)節(jié)模塊都具有明顯的效果, 可以得到以下結(jié)論。
1)對于 VQA-CP v2.0 數(shù)據(jù), 使用混合偏見檢測模型在 Num 類型上的效果提升較為明顯(+2.00%), 推測其原因可能是 Num 類型的問題更容易受到視覺和語言兩種模態(tài)信息的影響。此外, 使用語言偏見檢測模型在 VQA-CP v2.0 上對 Yes/No 類型問題的作用十分顯著(+35.78%), 說明 Yes/No 類型問題的偏見主要由語言信息引起。
2)僅僅將兩類偏見檢測分支疊加使用時, 在VQA-CP v2.0 上取得比使用單個偏見分支更高的整體效果, 說明它們共同作用, 捕獲到更充分的偏見特征, 同時也結(jié)合了兩類偏見分支各自的優(yōu)勢。此外, 對 VQA v2.0 數(shù)據(jù)而言, 同時融合兩種分支能夠緩解矯枉過正的現(xiàn)象(?0.98%)。
3)單獨使用動態(tài)調(diào)節(jié)機制時, 在 VQA-CP v2.0數(shù)據(jù)集上也取得一定的去偏效果(+1.80%), 在 VQA v2.0 數(shù)據(jù)集上比基礎(chǔ)模型 Updn 有 0.06%的提升, 說明在去除偏見的同時, 動態(tài)調(diào)節(jié)機制矯枉過正的現(xiàn)象并不明顯。
表3 消融實驗結(jié)果
說明: ?Gap表示去偏模型與基礎(chǔ)模型的準確率差值。
表4 分段注意力機制的有效性
說明: E表示使用問句向量作為查詢向量, R表示使用隨機初始化的向量作為查詢向量。
4)將兩類偏見檢測分支與動態(tài)調(diào)節(jié)模塊結(jié)合時, 在 VQA-CP v2.0 數(shù)據(jù)集上的整體去偏效果以及單個問題類型上的去偏效果達到最佳, 證明了本文提出的方法在視覺問答去除偏見任務(wù)中的有效性。
為了直觀地驗證問句引導的分段注意力機制的有效性, 針對在不同問題類型的樣本中混合偏見模塊是否使用分段注意力機制這一問題, 我們根據(jù)是否采用動態(tài)調(diào)節(jié)機制, 在 VQA-CP v2.0 數(shù)據(jù)集上分兩組進行實驗, 結(jié)果如表 4 所示。實驗結(jié)果表明, 當單獨針對 Num 類型的樣本使用問句特征作為查詢向量, 并使用隨機特征表示作用于非 Num 類型問題的方式時, 在加入和不加入動態(tài)調(diào)節(jié)兩種情況下均取得最明顯的提升。給予 Other 類型問題太多的文本線索不利于模型消除 Other 類型樣本的偏見, 推測是由于過多的文本線索與視覺信息結(jié)合時, 會直接得到 Other 類型問題的正確答案。另外, 我們發(fā)現(xiàn)當為 Num 類型問題分配問句特征作為查詢向量時, 會對 Yes/No 類型問題起到更明顯的提升作用, 在此情況下, 使用隨機特征向量來計算 Yes/No類型問題的注意力權(quán)重, 促進了模型對Num類型和Other 類型問題的去偏能力。綜上所述, 本文提出的分段注意力機制考慮到文本線索信息對不同類型問題的作用差異, 能夠有效地提升去偏效果。
圖4 在VQA-CP v2數(shù)據(jù)集上的去偏效果
為了更好地展示結(jié)果, 擇取在 VQA-CP v2.數(shù)據(jù)集上以 Updn 作為基礎(chǔ)模型的實驗結(jié)果中的一些例子來進行深入的分析, 從而進一步證明我們方法的有效性。
圖4中樣例1和2的標準分支與混合偏見分支的預(yù)測輸出分別為 Train 和 Cows, 說明模型受到視覺偏見影響的可能性更大。在此前提下, 僅使用動態(tài)調(diào)節(jié)機制可以使模型直接預(yù)測出正確答案(Train station 和 Grass), 同時在后續(xù)的直接消減策略下, 最終的答案也能保持正確性, 說明本文方法具備較強的克服視覺偏見能力。此外, 圖 4 中樣例 3~5 表明模型在動態(tài)調(diào)節(jié)機制和直接消減策略的共同作用下, 緩解了 Num 和 Yes/No 類型問題中存在的偏見問題, 更加充分地說明本文提出的去偏策略可以增強視覺問答模型的魯棒性。總體而言, 本文方法在各個問題類型上都可以緩解偏見對模型的影響。
本文提出一種直接消減的去偏策略, 將基礎(chǔ)視覺問答模型的輸出減去偏見檢測模型的輸出作為最終的去偏結(jié)果。在之前已經(jīng)提出語言偏見和視覺偏見的基礎(chǔ)上, 本研究發(fā)現(xiàn)一種新的混合偏見檢測分支——圖片和文本共同作用導致的偏見, 并設(shè)計意圖分類器來提取問題句子的意圖, 引入分段注意力機制來將視覺特征與意圖特征有效地結(jié)合, 從而獲取混合偏見。最后, 依據(jù)標準視覺問答分支與偏見分支之間的差異性, 構(gòu)造動態(tài)調(diào)節(jié)模塊來控制樣本的學習程度。實驗結(jié)果表明, 本文提出的方法提高了現(xiàn)有 VQA 模型的推理分析能力, 減少了偏見對模型的誤導性。
[1] Antol S, Agrawal A, Lu J S, et al. VQA: visual question answering // Proceedings of the IEEE International Conference on Computer Vision. Santiago, 2015: 2425 –2433
[2] Goyal Y, Khot T, Summers-Stay D, et al. Making the V in VQA matter: elevating the role of image under-standing in visual question answering // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, 2017: 6904–6913
[3] Agrawal A, Batra D, Parikh D, et al. Don’t just assume, look and answer: overcoming priors for visual question answering // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, 2018: 4971–4980
[4] Teney D, Abbasnejad E, Kafle K, et al. On the value of out-of-distribution testing: an example of goodhart’s law. Advances in Neural Information Processing Sys-tems, 2020, 33: 407–417
[5] Zhu X, Mao Z, Liu C, et al. Overcoming language priors with self-supervised learning for visual question answering [EB/OL]. (2020–12–17) [2023–04–10]. https://doi.org/10.48550/arXiv.2012.11528
[6] Chen L, Yan X, Xiao J, et al. Counterfactual samples synthesizing for robust visual question answering // Proceedings of the IEEE/CVF Conference on Com-puter Vision and Pattern Recognition. Seattle, 2020: 10800–10809
[7] Gokhale T, Banerjee P, Baral C, et al. Mutant: a training paradigm for out-of-distribution generaliza-tion in visual question answering [EB/OL]. (2020–10–16) [2023–03–22]. https://doi.org/10.48550/arXiv.2009. 08566
[8] Wen Z, Xu G, Tan M, et al. Debiased visual ques- tion answering from feature and sample perspectives. Advances in Neural Information Processing Systems, 2021, 34: 3784–3796
[9] Selvaraju R R, Lee S, Shen Y, et al. Taking a hint: leveraging explanations to make vision and language models more grounded // Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul, 2019: 2591–2600
[10] Wu J, Mooney R. Self-critical reasoning for robust visual question answering. Advances in Neural Infor-mation Processing Systems, 2019, 32: 8601–8611
[11] Ramakrishnan S, Agrawal A, Lee S. Overcoming lan-guage priors in visual question answering with adver-sarial regularization. Advances in Neural Information Processing Systems, 2018, 31: 1541–1511
[12] Cadene R, Dancette C, Cord M, et al. Rubi: reducing unimodal biases for visual question answering. Adva-nces in Neural Information Processing Systems, 2019, 32: 839–850
[13] Clark C, Yatskar M, Zettlemoyer L. Don’t take the easy way out: ensemble based methods for avoiding known dataset biases [EB/OL]. (2019–09–09) [2023–04–20]. https://doi.org/10.18653/v1/D19-1418
[14] Anderson P, He X, Buehler C, et al. Bottom-up and top-down attention for image captioning and visual ques-tion answering // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, 2018: 6077–6086
[15] Devlin J, Chang M W, Lee K, et al. Bert: pre-training of deep bidirectional transformers for language under-standing [EB/OL]. (2018–10–11) [2023–04–12]. https: //doi.org/10.48550/arXiv.1810.04805
[16] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. Advances in Neural Information Processing Systems, 2017, 30: 5998–6008
[17] Tan H, Bansal M. LXMERT: Learning cross-modality encoder representations from transformers [EB/OL]. (2019–12–03) [2023–04–20]. https://doi.org/10.48550/ arXiv.1908.07490
[18] Jing C, Wu Y, Zhang X, et al. Overcoming language priors in VQA via decomposed linguistic representations // Proceedings of the AAAI Conference on Artificial Intelligence. New York, 2020, 34: 11181–11188
[19] Grand G, Belinkov Y. Adversarial regularization for visual question answering: strengths, shortcomings, and side effects [EB/OL]. (2019–06–20) [2023–04–11]. https://doi.org/10.48550/arXiv.1906.08430
[20] Teney D, Abbasnejad E, van den Hengel A. Unshuff-ling data for improved generalization in visual ques-tion answering // Proceedings of the IEEE/CVF Inter-national Conference on Computer Vision. Montreal, 2021: 1417–1427
[21] Guo Y, Nie L, Cheng Z, et al. Loss re-scaling VQA: revisiting the language prior problem from a class-imbalance view. IEEE Transactions on Image Proces-sing, 2021, 31: 227–238
[22] Yang Z, He X, Gao J, et al. Stacked attention net- works for image question answering // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, 2016: 21–29
Reducing Multi-model Biases for Robust Visual Question Answering
ZHANG Fengshuo, LI Yu, LI Xiangqian?, XU Jin’an, CHEN Yufeng
School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044; ? Corresponding author, E-mail: xqli@bjtu.edu.cn
In order to enhance the robustness of the visual question answering model, a bias reduction method is proposed. Based on this, the influence of language and visual information on bias effect is explored. Furthermore, two bias learning branches are constructed to capture the language bias, and the bias caused by both language and images. Then, more robust prediction results are obtained by using the bias reduction method. Finally, based on the difference in prediction probabilities between standard visual question answering and bias branches, samples are dynamically weighted, allowing the model to adjust learning levels for samples with different levels of bias. Experiments on VQA-CP v2.0 and other data sets demonstrate the effectiveness of the proposed method and alleviate the influence of bias on the model.
visual question answering; dataset bias; language bias; deep learning