基于反事實推理的事實驗證去偏方法

2024-01-20 05:29:18陳建貴張儒清郭嘉豐范意興

中文信息學報 2023年10期

陳建貴,張儒清,郭嘉豐,范意興

(1. 中國科學院計算技術(shù)研究所網(wǎng)絡(luò)數(shù)據(jù)科學與技術(shù)重點實驗室,北京 100190;2. 中國科學院大學,北京 100190)

0 引言

隨著互聯(lián)網(wǎng)的發(fā)展,虛假信息(如假新聞、政治欺騙和網(wǎng)上謠言等)不斷增加并能在短時間內(nèi)迅速傳播,這給公共安全帶來了極大的隱患。如何自動核查信息的完整性是當前社會迫切需要的一項技術(shù)。因此,最近的許多研究工作[1-6]都致力于事實驗證(Fact Verification,FV)任務(wù),其目標是使用來自可靠語料庫(如百度百科、維基百科等)的多個證據(jù)句子自動驗證文本聲明的真實性。

為了促進研究,一些事實驗證數(shù)據(jù)集[7-9](如FEVER等)被提出。這些數(shù)據(jù)集通常采用眾包機制構(gòu)建,這種數(shù)據(jù)收集方法通常會引入特殊偏差,以意想不到的方式影響性能。例如,Schuster等人[8]發(fā)現(xiàn)聲明中的某些語言模式會對模型的預(yù)測造成影響,甚至只用聲明的分類器與證據(jù)感知的分類器的性能相當。如表1所示,該聲明為“北京冬季奧運會在2021年舉辦”,由于“北京”與“冬季奧運會”共現(xiàn)的頻率較高,模型在訓練時容易將其與“SUPPORT”標簽聯(lián)系。因此,在預(yù)測時,即使在提供證據(jù)的情況下模型也更容易將該聲明判斷成“SUPPORT”。這種聲明對結(jié)果的偏差會極大地影響模型的性能。

表1 事實驗證數(shù)據(jù)中的偏差

盡管現(xiàn)有的事實驗證方法取得了巨大的成功,但它們大多關(guān)注如何建模聲明和證據(jù)的交互信息,忽略聲明對結(jié)果帶來的偏差影響[5,7,10-13]。例如,Zhou等人[10]設(shè)計圖模型來增強聲明和證據(jù)之間的交互信息;Liu等人[5]更進一步使用kernel信息來挖掘聲明和證據(jù)之間的內(nèi)在關(guān)聯(lián)。這些工作都在回答一個問題,“如果模型得到聲明和驗證以及它們的交互信息,那么模型的輸出是什么?”沒有關(guān)注如何消除聲明偏差。為了解決這個問題,一些事實驗證去偏工作被提出[14-17],大致可分為基于數(shù)據(jù)增強的方法和基于權(quán)重正則化的方法。其中,基于數(shù)據(jù)增強的方法極大依賴于額外生成的訓練數(shù)據(jù)來去偏[14-16],然而獲得高質(zhì)量的數(shù)據(jù)代價較大,導(dǎo)致此類方法不靈活,泛化性較差;基于權(quán)重正則化的方法的主要思想是將有偏數(shù)據(jù)對損失函數(shù)的影響權(quán)重降低,該類方法需要構(gòu)建有偏模型和無偏模型。然而,訓練時無偏模型的輸出不準確且不穩(wěn)定,可能會錯誤地導(dǎo)致對無偏樣本的權(quán)重降低。

最近,反事實推理在許多任務(wù)上得到了廣泛應(yīng)用[18-20]。這些工作結(jié)合因果推理技術(shù),以獲得更無偏的模型。例如,Qiu等人[20]運用反事實推理解決推薦系統(tǒng)中的曝光偏差。具體的,該工作采用因果圖來描述推薦過程中的重要因果關(guān)系,并基于因果圖設(shè)計訓練框架;Niu等人[18]基于因果效應(yīng)提出反事實推理框架,該框架能將語言偏差捕獲為問題對答案的直接因果效應(yīng),并通過從總因果效應(yīng)中減去直接語言效應(yīng)來減少語言偏差。

受反事實推理和因果效應(yīng)的啟發(fā),本文提出一種新的基于反事實推理的事實驗證去偏框架。與以往工作不同的是,本文考慮的問題是關(guān)于事實驗證的反事實問題,即“如果只獲得聲明的信息,卻無法得到證據(jù)以及聲明和證據(jù)的交互信息,那么模型的輸出是什么?”。根據(jù)反事實推理理論,聲明對結(jié)果的影響可以通過想象場景來估計,在這個場景中,證據(jù)和交互信息被丟棄,模型只能得到聲明信息。

基于上述理論,本文首先設(shè)計了事實驗證中的因果圖,建模聲明、證據(jù)以及它們之間的交互和預(yù)測結(jié)果的因果關(guān)系。接著,我們根據(jù)因果圖設(shè)計事實驗證去偏方法,通過總間接效應(yīng)去除聲明帶來的偏差影響。我們使用多任務(wù)學習的方式來訓練模型。在FEVER數(shù)據(jù)集的有偏和無偏測試集上的實驗結(jié)果表明,本文方法能夠超過基準方法,去除聲明對結(jié)果的負面影響,有效提高聲明驗證的質(zhì)量。

本文的主要貢獻如下:

(1) 從因果視角解釋事實驗證聲明偏差,并提出對應(yīng)的因果圖;

(2) 提出基于反事實推理的事實驗證去偏框架,該框架可以根據(jù)因果圖訓練事實驗證模型,以消除聲明對證據(jù)的偏差影響;

(3) 本文進行了詳盡的實驗和分析,證明所提方法的有效性和合理性。

1 相關(guān)工作

本節(jié)將簡要回顧兩個方面工作,即事實驗證和去偏方法。

1.1 事實驗證

事實驗證要求在證據(jù)的上下文評估聲明的有效性,判斷的結(jié)果可以是支持(Support)、反駁(Refutes)或信息不足(Not Enough Info)[7,21-23]。目前主流的事實驗證框架是一個三步流水線系統(tǒng),即文檔檢索、句子檢索和聲明驗證[3,5,7,10]。對于文檔檢索,現(xiàn)有的方法一般可以分為三類,即基于mention的方法[2,3,5,12,24]、基于關(guān)鍵詞的方法[13,21-22]和基于特征的方法[4,11,25]。對于句子檢索,通常有三種方法,包括傳統(tǒng)的概率排序模型[2,6,26]、神經(jīng)排序模型[3,11,25]和預(yù)訓練模型[5,24]。對于聲明驗證,早期工作[7,27]將事實驗證視為自然語言推理任務(wù),并直接應(yīng)用其方法設(shè)計事實驗證模型。為了獲得聲明和證據(jù)之間更細粒度的語義一致性,后續(xù)工作又提出了一系列方法,通過將聲明和證據(jù)表述為圖結(jié)構(gòu)數(shù)據(jù)來促進聲明-證據(jù)的交互[10]。此外,受預(yù)訓練語言模型[28]強大表示能力的啟發(fā),一些工作[29-30]嘗試在事實檢查數(shù)據(jù)集上微調(diào)預(yù)訓練語言模型,并取得有競爭力的結(jié)果。最近,研究人員更加關(guān)注可解釋的事實驗證[31],這需要一個模型來產(chǎn)生準確性預(yù)測及其相應(yīng)解釋。

然而,已有方法僅關(guān)注如果更好建模聲明和證據(jù)之間的交互信息,無法去除數(shù)據(jù)集中的偏差,缺乏穩(wěn)健性。為此,本文圍繞去偏事實驗證模型開展研究,不同于之前的工作,本文關(guān)注聲明對結(jié)果的偏差影響?；诜词聦嵧评?本文方法能有效消除聲明的偏差,在性能上得到提升。

1.2 去偏方法

為了增強事實驗證模型的魯棒性,一些無偏和對抗數(shù)據(jù)集被提出來評估模型的推理能力[8,32]?，F(xiàn)有的去偏方法可以分為兩類,基于數(shù)據(jù)增強的方法和基于權(quán)重正則化的方法。

基于數(shù)據(jù)增強的去偏方法的主要思想是在訓練數(shù)據(jù)中增加足夠數(shù)量的無偏樣本,以降低有偏樣本的比例,從而產(chǎn)生更無偏的模型[8,14-15,17,33-35]。其中,無偏樣本可以通過對原始數(shù)據(jù)進行變換操作和釋義生成得到。例如,Wei和Zou[14]使用同義詞替換、隨機插入、隨機交換和隨機刪除等四種操作來獲取新的訓練數(shù)據(jù)。Lee等人[15]提出CrossAug模型,利用交叉對比策略以增加數(shù)據(jù),具體地,該工作使用生成模型BART[16]將原始聲明修改為負面聲明,并通過片段替換來改變證據(jù),以支持此類負面聲明?；跈?quán)重正則化的去偏方法期望通過減少有偏樣本對最終損失計算的貢獻,讓模型更關(guān)注無偏數(shù)據(jù)。例如,Schuster等人[8]提出Re-weighting策略,用局部互信息獲得與特定標簽高度相關(guān)的詞組信息,并將包含該詞組的聲明權(quán)重調(diào)低,迫使模型將重點放在困難例子上。Mahabadi等人[17]采用有偏模型來捕捉聲明中的偏差,并假設(shè)產(chǎn)出標簽分布的不均勻性與偏差實例的置信度正相關(guān)。Xiong等人[33]提出兩種校準器(Temperature變化和Dirichlet校準器)來調(diào)整有偏模型的預(yù)測類分布。

最近,其他領(lǐng)域(包括推薦系統(tǒng)、計算機視覺等)涌現(xiàn)出了一批新的工作,即利用因果推理技術(shù)獲得更無偏的模型[18-20,35-37]。例如,Qiu等人[20]運用反事實推理解決推薦系統(tǒng)中普遍存在的曝光偏差。Niu等人[18]在視覺問答任務(wù)上提出反事實推理框架,通過從總因果效應(yīng)中減去直接語言效應(yīng)有效減少語言偏差所帶來的影響。受這些工作啟發(fā),我們基于反事實推理構(gòu)建了新的事實驗證去偏方法,增強模型的去偏能力。

2 背景知識

本節(jié)首先介紹關(guān)于反事實推理的概念。下文將隨機變量表示為大寫字母(如X),并將其觀察值表示為小寫字母(如x)。

2.1 因果圖

因果圖反映變量之間的因果關(guān)系,用有向無環(huán)圖G={V,E}表示,其中,V表示變量集,E表示因果關(guān)系。圖1顯示了由三個變量組成的因果圖示例。如果變量X對變量Y有直接影響,我們說Y是X的子元素,即X→Y。如果X通過變量M間接影響Y,我們說M在X和Y之間起中介作用,即X→M→Y。

圖1 因果圖及反事實符號

2.2 反事實符號

反事實符號用于將因果假設(shè)從圖表轉(zhuǎn)換為公式。如果X取值為x,M取值為m,則Y的取值表示如式(1) 所示。

Yx,m=Y(X=x,M=m)

(1)

在實際情況中,有m=Mx=M(X=x)。在反事實場景中,對于M和Y,X可以取不同值。例如,Yx,Mx*表示為X取值為x,而M的取值僅當X取值為x*的時候,也就是,Yx,Mx*=Y(X=x,M=M(X=x*))。注意,這里X只能在反事實場景中同時設(shè)置為不同的值x和x*。

2.3 因果效應(yīng)

因果效應(yīng)反映了同一個變量在兩種不同干預(yù)下的兩種潛在結(jié)果之間的比較。假設(shè)X=x表示“干預(yù)條件下”,X=x*表示“未干預(yù)條件下” 。干預(yù)X=x對Y的總效應(yīng) (Total Effect, TE)比較了兩種假設(shè)情況X=x和X=x*,表示如式(2)所示。

TE=Yx,Mx-Yx*,Mx*

(2)

總效應(yīng)可分解為自然直接效應(yīng)(Natural Direct Effect, NDE)和總間接效應(yīng)(Total Indirect Effect, TIE)。NDE表示當中介M被阻斷時,X對Y的影響。具體的,NDE表示當X從x變化到x*,M設(shè)置在X=x*時獲得的值時,Y的增加量如式(3)所示。

NDE=Yx,Mx*-Yx*,Mx*

(3)

TIE是TE和NDE之間的差值如式(4)所示。

TIE=TE-NDE=Yx,Mx-Yx,Mx*

(4)

TE還可以分解為自然間接效應(yīng)(Natural Indirect Effect, NIE)和總直接效應(yīng)(Total Direct Effect, TDE)。類似地,NIE通過中介M反映X對Y的影響,即X→M→Y,而通過將X設(shè)置為x*來阻止對X→Y的直接影響。NIE表示如式(5)所示。

NIE=Yx*,Mx-Yx*,Mx*

(5)

3 事實驗證去偏方法

本節(jié)介紹事實驗證去偏方法,其中包括因果效應(yīng)、模型實現(xiàn)、模型訓練和反事實推斷。

3.1 因果效應(yīng)

針對事實驗證的因果圖如圖2(a)所示。該因果圖有四個變量,分別是聲明(C)、證據(jù)(E)、聲明與證據(jù)的交互信息(K),以及驗證的結(jié)果(Y)。其中,C→Y和E→Y捕獲到聲明和證據(jù)對結(jié)果的直接影響,C,E→K→Y則捕獲到聲明和證據(jù)通過交互信息對結(jié)果的間接影響。在本文中,我們希望消除C→Y的直接影響,從而去除聲明對結(jié)果帶來的偏差。

圖2 針對事實驗證的因果圖

假設(shè)當C取值為c,E取值為e時,Y為y,即:

Yc,e(y)=Y(y;C=c,E=e)

(6)

不失一般性,為了簡潔,我們將y省去,即Yc,e=Y(C=c,E=e)。相似的,K的反事實符號為Kc,e=K(C=c,E=e)。

如圖2所示,存在三條路徑到Y(jié),分別為C→Y,E→Y,K→Y。因此Yc,e可以表示如式(7)所示。

Yc,e=Zc,e,k=Z(C=c,E=e,K=k)

(7)

其中,k=Kc,e。根據(jù)2.3節(jié)的因果效應(yīng),我們可以得到當C取值為c,E取值為e時,對于結(jié)果y的總效應(yīng)如式(8)所示。

TE=Yc,e-Yc*,e*=Zc,e,k-Zc*,e*,k*

(8)

其中,c*和e*表示為未干預(yù)情況下C和E的取值,k*=Kc*,e*。

為了消除聲明對結(jié)果的直接影響,我們需要先得到聲明對結(jié)果的作用。這里,我們通過阻斷E和K對結(jié)果的影響來估計C→Y的作用,自然直接效應(yīng)可表示如式(9)所示。

NDE=Zc,e*,k*-Zc*,e*,k*

(9)

因為C在K上的影響被阻隔,所以NDE能夠捕獲到聲明C對結(jié)果Y的影響。如圖2(b)所示,去偏的模型可以表示為總間接效應(yīng):

TIE=TE-NDE=Zc,e,k-Zc,e*,k*

(10)

3.2 模型實現(xiàn)

基于3.1節(jié)中的討論,我們提出了基于反事實推斷的事實驗證去偏模型CFFV,模型的整體架構(gòu)如圖3所示。

圖3 CFFV模型整體架構(gòu)圖

該模型主要包含三個部分,分別是聲明模型FC、證據(jù)模型FE以及交互模型FEC,模型的輸出分別為Zc=FC(c)、Ze=FE(e)、Zk=FEC(c,e)。

未干預(yù)條件定義為將聲明或證據(jù)的信號進行阻隔,即聲明或證據(jù)未給定。因此,我們設(shè)定未干預(yù)條件為C=c*=φ和E=e*=φ。由于模型無法處理空輸入,將每個類別賦予相同的概率作為模型當前的輸出。

受Niu等人[18]啟發(fā),我們設(shè)計了兩種非線性分數(shù)融合操作,也就是Harmonic和SUM。Harmonic操作表示如式(11)所示。

(11)

其中,ZHM=σ(Zc)*σ(Ze)(σ(Zk)。SUM操作則是將三部分的分數(shù)相加起來得到最終的融合分數(shù),即:

Zc,e,k=h(zc,ze,zk)=logσ(ZSUM)

(12)

其中,ZSUM=Zc+Ze+Zk。

3.3 模型訓練

給定一個訓練對(c,e,y),其中y是標簽,c和e是聲明-證據(jù)對。對于每個部分,我們使用交叉熵來計算損失。例如,聲明模型的損失函數(shù)如式(13)所示。

(13)

其他部分的損失函數(shù)與上述公式一致。本文中,我們使用多任務(wù)學習方式得到最終的損失函數(shù),如式(14)所示。

L=LC(c,y)+LE(e,y)+LC,E(c,e,y)

(14)

3.4 反事實推斷

如3.1節(jié)所述,在訓練完模型后,我們使用去偏的因果效應(yīng)進行推斷,如式(15)所示。

(15)

通過總間接效應(yīng)公式,利用總效應(yīng)減去代表聲明對結(jié)果影響的自然直接效應(yīng),我們就能將聲明對結(jié)果的偏差有效去除,得到一個無偏的預(yù)測結(jié)果。

4 實驗和分析

本節(jié)介紹實驗和分析。我們進行了一系列實驗來驗證本文方法的有效性。

4.1 數(shù)據(jù)集

本文在事實驗證基準數(shù)據(jù)集FEVER[7]上進行實驗。具體地,該數(shù)據(jù)集由185 455個標注的聲明和5 416 537個維基百科文檔組成。標注者將所有聲明歸類為支持(SUPPORT)、反駁(REFUTES)或信息不足(NOT ENOUGH INFO)。對于前兩類,系統(tǒng)和標注者還需要返回構(gòu)成支持或反駁該聲明的必要證據(jù)的句子組合。這些聲明是由標注者從維基百科中提取并以各種方式對其進行變異而產(chǎn)生的。每個聲明要求的驗證都是由標注者在單獨的標注過程中進行的,標注者知道該文檔,但不知道原始聲明要求的句子。因此,有31.75%的聲明需要一句以上的句子當作證據(jù)。在16.82%的數(shù)據(jù)中,聲明要求從多個句子中組合證據(jù)。此外,在12.15%的聲明中,證據(jù)取自多個維基百科文檔。該數(shù)據(jù)集的基本信息如表2所示。

表2 數(shù)據(jù)集基本信息統(tǒng)計

除此之外,我們還使用Schuster等人基于FEVER構(gòu)造的無偏數(shù)據(jù)集Fever-Symmetric[8]作為額外的測試集(1)包含兩個版本,記作Symm.V1和Symm.V2。

4.2 實驗設(shè)置

本文實驗主要基于PyTorch框架編寫代碼,并在Tesla 32GB V100 GPU上訓練。為了公平比較[14-17,33],我們使用BERT模型的Base版本作為主干模型進行實驗。我們在BERT模型的[CLS]上加了一層前向反饋層進行預(yù)測。在進行參數(shù)調(diào)整優(yōu)化后,我們將訓練輪數(shù)設(shè)置為5輪,優(yōu)化器為Adam[36],使用具有線性Warmup的指數(shù)衰減學習率,學習率為2e-5,梯度剪裁的閾值設(shè)置為5,我們將實驗數(shù)據(jù)分為32個一組的小批量進行訓練,限制最長的輸入為128。

4.3 評價指標

我們采用準確率(Accuracy)來評估各方法的性能效果,計算方法如式(16)所示。

(16)

其中,TP是預(yù)測為該類別且真實為該類別的樣本數(shù)目,TN是預(yù)測為不是該類別且真實不是該類別的樣本數(shù)目,FP是預(yù)測為該類別且真實不是該類別的樣本數(shù)目,FN是預(yù)測為不是該類別且真實為該類別的樣本數(shù)目。

4.4 對比模型

本文對比模型主要有兩類基準方法,包括基于數(shù)據(jù)增強的方法以及基于權(quán)重正則化的方法。

4.4.1 基于數(shù)據(jù)增強的方法

首先和基于數(shù)據(jù)增強的方法進行比較,這類方法主要包括:

(1)EDA[14]該方法由四個操作組成: 同義詞替換、隨機插入、隨機交換和隨機刪除,通過對原始數(shù)據(jù)進行四種操作來增加新的訓練數(shù)據(jù)。

(2)Paraphrasing[14]使用GPT-2[37]模型對回譯數(shù)據(jù)進行微調(diào),以釋義原始文本。對于每個原始聲明-證據(jù)對,通過使用該方法轉(zhuǎn)換聲明來創(chuàng)建一個保持相同關(guān)系的新樣本對,從而使擴增數(shù)據(jù)與原始數(shù)據(jù)的擴增比為1∶1。

(3)CrossAug[15]該方法設(shè)計了兩階段的增強形式,從現(xiàn)有樣本中生成新的聲明和證據(jù)。然后,將生成的樣本與原始樣本交叉配對,形成對比樣本,以幫助模型減少對偏差模式的依賴,并學習更穩(wěn)健的表示。

4.4.2 基于權(quán)重正則化的方法

我們還考慮了基于權(quán)重正則化的方法模型。這些方法包括:

(1)Re-weighting[8]是一種樣本權(quán)重加權(quán)方法,該方法針對的是來自單詞的偏差。通過重新權(quán)衡包含這些詞的聲明的重要性,迫使模型將重點放在依賴偏差導(dǎo)致錯誤預(yù)測的困難例子上。

(2)PoE[17]計算基本模型和有偏模型的集合中的訓練損失。與Re-weighting類似,它根據(jù)對每個樣本的有偏模型的預(yù)測來控制基礎(chǔ)模型的損失。

(3)MoCaD[33]提出一種校準方法來調(diào)整有偏模型中不準確的預(yù)測類分布。具體而言,本文工作使用了兩種校準器(即Temperature變化和Dirichlet校準器)。我們利用這些方法進一步優(yōu)化模型PoE,形成兩個變體,即PoETempS和PoEDirichlet。

4.5 實驗結(jié)果分析

我們的模型和對比模型的性能比較結(jié)果如表3所示。

表3 CFFV模型和對比模型的Accuracy性能對比 (單位: %)

從表中可以觀察到:

(1) 有偏模型BERT在Dev上性能表現(xiàn)較好,但是在無偏測試集上性能下降得非常厲害。這可能是因為這些有偏模型在訓練的過程中學習到數(shù)據(jù)集本身的偏差,因此無法很好地泛化到無偏測試集上。

(2) 已有去偏方法不僅能在有偏數(shù)據(jù)集Dev上達到和基礎(chǔ)模型相當?shù)男阅?還能在無偏數(shù)據(jù)集上有較大性能提升。這說明精心設(shè)計的去偏方法可以一定程度上去除模型的偏差。

(3) 整體上,基于權(quán)重正則化的方法優(yōu)于基于數(shù)據(jù)增強的方法。一方面,EDA和Paraphrasing在對稱數(shù)據(jù)集上的性能改進微不足道。這些結(jié)果表明,簡單地使用更多數(shù)據(jù)進行訓練并不一定有助于緩解數(shù)據(jù)中的偏差。另一方面,基于權(quán)重正則化的方法通過改變樣本的權(quán)重能顯著增加模型對無偏樣本的學習能力。值得注意的是,基于數(shù)據(jù)增強的方法CrossAug表現(xiàn)非常亮眼,是現(xiàn)有去偏方法中性能最好的。CrossAug的增強方法生成的對比樣本通過學習更穩(wěn)健的特征表示,增強了事實推理能力,展現(xiàn)出良好的泛化性。

(4) 我們的CFFV模型在各個測試集上都比其他模型表現(xiàn)更好。例如,在有偏數(shù)據(jù)集Dev上,本文模型進一步提高了性能,而其他的去偏方法都有不同程度的下降。這可能是因為我們在訓練階段能有效地將有偏預(yù)測和無偏預(yù)測分隔開,更好地消除偏差帶來的影響。同時,在兩個無偏數(shù)據(jù)集Symm.V1和Symm.V2上也達到了最高的性能,對比CrossAug分別提升了2.28%和3.06%。這說明從因果效應(yīng)的角度看待事實驗證偏差問題是可行的,通過構(gòu)建因果圖,利用反事實推理來消除聲明帶來的偏差,可以有效提升事實驗證的性能。

4.6 消融實驗

為了更好地分析模型中不同分數(shù)融合操作對最后性能的影響,我們首先構(gòu)建了模型的兩個變體,然后在基準數(shù)據(jù)集上對它們進行評估。構(gòu)造的變體如下:

(1)CFFV(HM): 使用Harmonic操作來融合分數(shù);

(2)CFFV(SUM): 使用Sum操作來融合分數(shù)。

性能結(jié)果如表3所示。從表中可以看出Sum操作的性能比Harmonic操作更好,這可能是因為各個部分的分數(shù)都對最后的結(jié)果有類似的影響,Sum操作由于平等對待各部分的影響,可以強化這一特性。

4.7 樣例分析

為了進一步探究各個方法對實例的影響,我們從無偏數(shù)據(jù)集Symm.1中選取了一個代表性示例,并將我們的方法與基線模型CrossAug和PoE進行比較。

如表4所示,對于表中的示例,兩個經(jīng)典去偏模型CrossAug和PoE都預(yù)測錯誤,只有我們的模型CFFV能成功地預(yù)測出正確類別。該示例中的偏差主要是由單詞“was”引起的,它與標簽“SUPPORTS”

表4 樣例分析

高度相關(guān),因此有偏模型很容易將該聲明預(yù)測成“SUPPORTS”。一方面,基于數(shù)據(jù)增強的方法CrossAug簡單對原始聲明進行詞變換,例如,將“was”轉(zhuǎn)換為“is”。這種方式無法捕獲到聲明和證據(jù)之間的真實關(guān)聯(lián)信息,很難起到有效去偏作用。另一方面,基于權(quán)重正則化的方法PoE,因為在訓練目標中僅根據(jù)聲明模型會導(dǎo)致性能下降的偏差程度將聲明對損失影響的權(quán)重值降低,因而預(yù)測錯誤。本文方法則直接捕獲了聲明-證據(jù)交互信息和聲明偏差。因此,CFFV模型中的有偏預(yù)測分布得到了糾正,讓錯誤預(yù)測概率進一步降低。

5 總結(jié)

本文提出了一種基于反事實推理的去偏事實驗證方法。具體的,我們首先針對事實驗證任務(wù)設(shè)計了因果效應(yīng)圖,從因果關(guān)系出發(fā)設(shè)計事實驗證中的因果圖,從而消除聲明對結(jié)果的偏差。訓練時,我們采用多任務(wù)學習的方式建模各個因素的影響,分別在有偏和無偏基準測試集上進行評估性能。實驗結(jié)果表明,本文模型對比基準方法在性能上取得一致的提升,驗證了本文模型的有效性。

未來的工作可以進一步探索將反事實推理運用到其他自然語言理解任務(wù)上,例如,問答系統(tǒng)、對話任務(wù)等。此外,如何進一步運用因果相關(guān)理論去偏也是一個極大的挑戰(zhàn)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡