李 希,劉喜平,李旺才,萬常選,劉德喜
1(江西財(cái)經(jīng)大學(xué) 信息管理學(xué)院,南昌 330013)2(江西科技師范大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,南昌 330036) E-mail:liuxiping@jxufe.edu.cn
當(dāng)前的人工智能熱潮很大程度上是源于機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí)技術(shù)的巨大成功.機(jī)器學(xué)習(xí)就是通過輸入海量訓(xùn)練數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,使模型掌握數(shù)據(jù)所蘊(yùn)含的潛在規(guī)律,進(jìn)而對(duì)新輸入的數(shù)據(jù)進(jìn)行準(zhǔn)確的分類或預(yù)測(cè).
在現(xiàn)有的機(jī)器學(xué)習(xí)方法中,監(jiān)督學(xué)習(xí)方法(supervised learning)占據(jù)主導(dǎo)地位.監(jiān)督學(xué)習(xí)方法的一個(gè)基本要素是帶有強(qiáng)監(jiān)督信息(如樣本所屬的類別標(biāo)簽)的訓(xùn)練數(shù)據(jù),也即標(biāo)注數(shù)據(jù).在實(shí)際應(yīng)用中,往往難以獲得高質(zhì)量標(biāo)注信息,或者人工標(biāo)注代價(jià)較高,因此,如何在缺乏監(jiān)督信息或者只有有限的監(jiān)督信息情況下進(jìn)行學(xué)習(xí)就顯得尤為重要.在這一背景下,近幾年,自監(jiān)督學(xué)習(xí)(self-supervised learning)異軍突起,引起了很多的關(guān)注.自監(jiān)督學(xué)習(xí)利用數(shù)據(jù)本身的信息來形成監(jiān)督信號(hào),利用這些監(jiān)督信號(hào)來指導(dǎo)學(xué)習(xí)數(shù)據(jù)的特征表達(dá),已經(jīng)形成了一種新的機(jī)器學(xué)習(xí)范式.
自監(jiān)督學(xué)習(xí)又可以分為對(duì)比學(xué)習(xí)(contrastive learning)和生成學(xué)習(xí)(generative learning)兩條主要的技術(shù)路線[1].生成學(xué)習(xí)以自編碼器(如生成對(duì)抗網(wǎng)絡(luò)GAN、變分自編碼器VAE等等)這類方法為代表,從原始數(shù)據(jù)出發(fā),生成新的數(shù)據(jù),使得生成數(shù)據(jù)盡可能還原原始數(shù)據(jù).而對(duì)比學(xué)習(xí)不要求能夠重新生成原始數(shù)據(jù),只是要求模型能夠區(qū)分相似樣本與不相似樣本,著重于學(xué)習(xí)相似樣本之間的共同特征,因此相對(duì)于生成學(xué)習(xí)來說,模型更加簡單,泛化能力更強(qiáng),近年來得到了越來越多的關(guān)注.
對(duì)比學(xué)習(xí)的核心思想是將正樣本和負(fù)樣本在特征空間對(duì)比,從而學(xué)習(xí)樣本的特征表示,使得樣本與正樣本的特征表示盡可能接近,而與負(fù)樣本的表示盡可能不同.與監(jiān)督學(xué)習(xí)不同的是,這里的正樣本和負(fù)樣本并不是根據(jù)樣本標(biāo)簽確定的,而是使用代理任務(wù)(pretext task)[2]來定義的.代理任務(wù)定義了樣本之間的相似性,給定一個(gè)樣本,與之相似的樣本就是正樣本,而不相似的樣本就是負(fù)樣本.數(shù)據(jù)增強(qiáng)是代理任務(wù)的實(shí)現(xiàn)常見手段.
對(duì)比學(xué)習(xí)的一個(gè)例子如圖1所示.給定一個(gè)對(duì)象的圖片(原樣本),通過數(shù)據(jù)增強(qiáng)得到該圖片的正樣本,其他對(duì)象的圖片則構(gòu)成了負(fù)樣本.通過對(duì)比學(xué)習(xí),讓原樣本靠近正樣本,遠(yuǎn)離負(fù)樣本.
圖1 對(duì)比學(xué)習(xí)應(yīng)用舉例[2]Fig.1 Example of a contrast learning application[2]
對(duì)比學(xué)習(xí)最近已成為計(jì)算機(jī)視覺(CV),自然語言處理(NLP)和其它領(lǐng)域的自監(jiān)督學(xué)習(xí)方法的主要組成部分.
本文就對(duì)比學(xué)習(xí)的發(fā)展脈絡(luò)和研究重點(diǎn)進(jìn)行梳理.首先介紹了對(duì)比學(xué)習(xí)的基本思想,以及對(duì)比學(xué)習(xí)的主要研究問題.然后圍繞對(duì)比學(xué)習(xí)的兩個(gè)核心問題:損失函數(shù)設(shè)計(jì)和正負(fù)樣本構(gòu)造,介紹了現(xiàn)有成果.最后梳理了對(duì)比學(xué)習(xí)在兩個(gè)主要應(yīng)用領(lǐng)域:計(jì)算機(jī)視覺領(lǐng)域和自然語言處理領(lǐng)域的研究進(jìn)展.最后分析了對(duì)比學(xué)習(xí)面臨的挑戰(zhàn)和可能的研究方向.
人們普遍認(rèn)為,事物存在某種通用的特征[3].對(duì)比學(xué)習(xí)就是去學(xué)習(xí)這樣一種特征,該特征有很強(qiáng)的遷移性,可以在未標(biāo)注數(shù)據(jù)的下游任務(wù)里,獲得很好的效果.
對(duì)比學(xué)習(xí)通過將數(shù)據(jù)分別與正負(fù)例樣本進(jìn)行對(duì)比,來學(xué)習(xí)樣本的特征表示,可以看作是一種表征提取方法.對(duì)比學(xué)習(xí)的一般模型如圖2所示.
圖2 對(duì)比學(xué)習(xí)的一般模型Fig.2 General model of contrast learning
通過模型可以看到,數(shù)據(jù)x經(jīng)過數(shù)據(jù)增強(qiáng),得到增強(qiáng)數(shù)據(jù)x1和x2,再分別經(jīng)過fθ映射函數(shù)(編碼器/模型)就得到了各種的特征,將這些特征用于計(jì)算對(duì)比學(xué)習(xí)的損失函數(shù),同時(shí)使得正例的損失與負(fù)例的損失都達(dá)到最小.目前,基于對(duì)比學(xué)習(xí)的模型,大部分架構(gòu)都遵循圖2的右半部,各種模型的不同之處,體現(xiàn)在對(duì)原始數(shù)據(jù)的數(shù)據(jù)增強(qiáng)方式上,不同的增強(qiáng)方法會(huì)帶來不同的特征表示,從而影響下游任務(wù)的效果.
圖3 圖像領(lǐng)域?qū)Ρ葘W(xué)習(xí)經(jīng)典框架[10]Fig.3 Classical framework for contrast learning in the image domain[10]
近兩年,對(duì)比學(xué)習(xí)涌現(xiàn)出許多模型框架,總體來看,如圖3所示,圖像領(lǐng)域?qū)Ρ葘W(xué)習(xí)經(jīng)典框架[10]有3個(gè):基于負(fù)例的對(duì)比學(xué)習(xí)、基于非對(duì)稱網(wǎng)絡(luò)的對(duì)比學(xué)習(xí)和基于特征去相關(guān)的對(duì)比學(xué)習(xí).同時(shí),對(duì)比學(xué)習(xí)也被引入自然語言處理領(lǐng)域(NLP).例如:SimCSE[11]將對(duì)比學(xué)習(xí)的思想引入sentence embedding,刷新了無監(jiān)督與有監(jiān)督語義相似度計(jì)算任務(wù)的最好成績;文獻(xiàn)[12]主要是在SimCSE上進(jìn)行優(yōu)化,通過ELECTRA模型,生成偽造樣本和RTD(Replaced Token Detection)任務(wù),來學(xué)習(xí)原始句子與偽造句子之間的差異,以提高句向量表征模型的效果.InfoNCE[3]進(jìn)一步將對(duì)比學(xué)習(xí)與互信息優(yōu)化聯(lián)系起來,激發(fā)了一系列后續(xù)工作[4,5].
對(duì)比學(xué)習(xí)的研究問題主要有3個(gè):
1)如何構(gòu)造正負(fù)例.不同的數(shù)據(jù)增強(qiáng)方式可以讓模型學(xué)習(xí)到不同的特征表示,不同的表征適用于不同的下游任務(wù).選擇合適的數(shù)據(jù)增強(qiáng)方式,構(gòu)造合理的正負(fù)例,是能否成功提取對(duì)下游任務(wù)有用表征的關(guān)鍵.
2)負(fù)例的數(shù)量.多少負(fù)例才能夠讓模型得到充分的學(xué)習(xí)?SimCLR[4]提出1∶4096,許多實(shí)驗(yàn)也驗(yàn)證了負(fù)例越多效果越好.
3)損失函數(shù).對(duì)比學(xué)習(xí)的研究目標(biāo)是要學(xué)習(xí)一個(gè)映射函數(shù)f(x),也就是encoder編碼器,滿足下式:
s(f(x),f(x+))?s(f(x),f(x-))
(1)
其中,s()是相似度計(jì)算函數(shù),x為輸入樣本,x+為正例,x-為負(fù)例.要使得輸入樣本與正例的相似度遠(yuǎn)大于負(fù)例,需要通過損失函數(shù)來達(dá)到.可以根據(jù)不同的任務(wù)來設(shè)計(jì)不同的損失函數(shù).
評(píng)價(jià)一個(gè)對(duì)比學(xué)習(xí)模型的好壞標(biāo)準(zhǔn),一方面可以通過下游任務(wù)效果的好壞來衡量,另一方面也可以通過“對(duì)齊”與“均勻”兩個(gè)指標(biāo)來衡量[13].舉個(gè)例子來說明這兩個(gè)指標(biāo):超市里面的商品都是按類別擺放,如廚房用品、清潔用品、服飾等,同類商品擺放在一起,方便用戶選購,這就是“對(duì)齊”;超市里面的貨架要分布均勻,區(qū)域之間的距離都差不多,這就是“均勻”.理想狀態(tài)是每個(gè)類別均勻分布在一個(gè)超球體上,這樣每個(gè)類別之間的距離都一樣.正例之間保持緊密性,負(fù)例之間保持分散性.
傳統(tǒng)的有監(jiān)督學(xué)習(xí)是指使用有標(biāo)簽的訓(xùn)練數(shù)據(jù)來訓(xùn)練模型.將預(yù)測(cè)值與真實(shí)值之間的誤差損失反向傳播,通過計(jì)算梯度、更新權(quán)重,反復(fù)迭代,使得誤差損失最小,以此訓(xùn)練模型,去預(yù)測(cè)未知標(biāo)簽數(shù)據(jù).傳統(tǒng)的有監(jiān)督學(xué)習(xí)方法有:概率監(jiān)督學(xué)習(xí)、支持向量機(jī)、決策樹等.傳統(tǒng)的有監(jiān)督學(xué)習(xí)在很多方面獲得了巨大成功,但訓(xùn)練集需要人工標(biāo)注,耗費(fèi)人力及資源,魯棒性較差,泛化能力不足.
對(duì)比學(xué)習(xí)是一種自監(jiān)督學(xué)習(xí)技術(shù),無需人工標(biāo)注數(shù)據(jù),是一種基于判別式的表征學(xué)習(xí)框架.將樣本與相似樣本和不相似樣本進(jìn)行比較,通過設(shè)計(jì)模型計(jì)算對(duì)比損失,使得相似樣本的特征表示更接近,不相似樣本的特征表示更疏遠(yuǎn).與傳統(tǒng)模型相比,對(duì)比學(xué)習(xí)模型構(gòu)造簡單,人工負(fù)擔(dān)小,通過自動(dòng)構(gòu)造正負(fù)例,不受標(biāo)注數(shù)據(jù)規(guī)模的限制,增強(qiáng)了模型的泛化能力和魯棒性.
損失函數(shù)是用來評(píng)估模型的預(yù)測(cè)值與真實(shí)值之間的差別.損失函數(shù)的設(shè)計(jì),直接影響到模型的性能.對(duì)比學(xué)習(xí)可以看作是一種降維學(xué)習(xí)方法,通過學(xué)習(xí)一種映射關(guān)系,將樣本通過映射函數(shù)映射到低維空間,使得同類樣本距離拉近,不同類樣本距離推遠(yuǎn).對(duì)比學(xué)習(xí)損失函數(shù)的發(fā)展脈絡(luò)如圖4所示.
圖4 對(duì)比學(xué)習(xí)損失函數(shù)發(fā)展脈絡(luò)Fig.4 Comparative learning loss function development
R.Hadsell等[19]提出了一種方法,通過學(xué)習(xí)不變映射來降維(Dimensionality Reduction by Learning an Invariant Mapping:DrLIM).學(xué)習(xí)一個(gè)非線性函數(shù),將數(shù)據(jù)均勻地映射到輸出流形.該論文提出了一種新的損失函數(shù),即成對(duì)樣本損失函數(shù)(公式(2)).不像傳統(tǒng)的機(jī)器學(xué)習(xí),損失函數(shù)是對(duì)所有樣本的損失求和,這里的損失函數(shù)是成對(duì)樣本的累加.
(2)
其中:
(3)
(4)
Pm(u;θ)表示在參數(shù)θ下的原數(shù)據(jù)的概率密度函數(shù),Pn(u;θ)表示噪聲概率密度函數(shù).最終似然函數(shù)如下:
l(θ)=∑t[CtlnP(Ct=1|u;θ)+(1-Ct)lnP(Ct=1|u;θ)]
=∑t[Ctln(h(xt;θ))+ln(1-h(y;θ))]
(5)
其中:
G(u;θ)=lnPm(u;θ)+lnPn(u)
最終公式(5)也可看作原數(shù)據(jù)模型的對(duì)數(shù)與噪聲模型對(duì)數(shù)之差,對(duì)差值進(jìn)行邏輯回歸.
A.Mnih&Y.W.Teh[21]第一次將NCE應(yīng)用于自然語言處理.作者在論文中證明了隨著噪聲樣本與觀測(cè)值的比率增加,NCE梯度接近最大似然梯度.此時(shí)NCE對(duì)于噪聲分布的依賴最小,接近于真實(shí)期望值.
使用上下文經(jīng)驗(yàn)概率P(h)作為權(quán)重,定義一個(gè)全局NCE目標(biāo)函數(shù):J(θ)=∑hP(h)Jh(θ).
(6)
該論文僅使用少量的負(fù)樣本就能達(dá)到很好的效果,所以比重要性采樣更加有效、穩(wěn)健(重要性采樣的高方差會(huì)導(dǎo)致學(xué)習(xí)的不穩(wěn)定).
A.vandenOord等[3]提出了對(duì)比預(yù)測(cè)編碼(Contrastive Predictive Coding, CPC),利用當(dāng)前輸出作為先驗(yàn)知識(shí),預(yù)測(cè)序列數(shù)據(jù)的未來輸出,提高模型的表征能力.這篇論文的觀點(diǎn)是,encoder提取的特征應(yīng)當(dāng)具有可預(yù)測(cè)性,只有能夠預(yù)測(cè)別的特征的特征才是好特征.當(dāng)然, 這是對(duì)有序(時(shí)域或者空間)數(shù)據(jù)有意義.算法的核心是通過自回歸模型來學(xué)習(xí)未來的隱變量表示.論文提出InfoNCE公式如公式(7)所示,求和部分包含一個(gè)正樣本xt+k,N-1個(gè)負(fù)樣本.
(7)
InfoNCE的公式中可以看出負(fù)例的重要性,負(fù)例的數(shù)量直接影響了最終的結(jié)果.而過多的負(fù)例也會(huì)造成batchsize的龐大,使得顯卡無法承擔(dān)巨大的計(jì)算量.C.Yeh等[22]通過分析InfoNCE損失,去除耦合項(xiàng),設(shè)計(jì)了新的解耦對(duì)比學(xué)習(xí)目標(biāo)(Decoupled Contrastive Learning,DCL),擺脫了對(duì)比學(xué)習(xí)中正樣本與負(fù)樣本之間的耦合現(xiàn)象,顯著提高了訓(xùn)練效率.
(8)
許多采用對(duì)比學(xué)習(xí)方法的模型,都采用基于交叉熵的損失函數(shù),分別計(jì)算正負(fù)樣的相似度,歸一化后,計(jì)算交叉熵.例如公式(7)[3]中的損失是正確分類為正樣本的類別交叉熵.同樣地,根據(jù)SimCLR[4]的損失函數(shù)公式:
(9)
該方法以正樣本正確分類的類別交叉熵作為損失函數(shù),以控制判別效果.
對(duì)比學(xué)習(xí)中的溫度超參數(shù)一般都默認(rèn)采用較小的溫度系數(shù).F.Wang& H.Liu[24]研究了對(duì)比損失溫度系數(shù),證明了對(duì)比損失是一個(gè)難度感知損失函數(shù)(Hardness-aware Loss Function),溫度τ控制難負(fù)樣本(Hard Negative Samples)的懲罰強(qiáng)度.溫度系數(shù)決定了對(duì)比損失對(duì)難負(fù)樣本的關(guān)注程度,溫度系數(shù)越大,則關(guān)注度越低;溫度系數(shù)越小,則關(guān)注度越高.然而難負(fù)樣本與正樣本相似程度較高,有很多難負(fù)樣本其實(shí)是潛在的正樣本.過分強(qiáng)調(diào)與難負(fù)樣本分離會(huì)破壞潛在的語義結(jié)構(gòu),不利于形成對(duì)下游任務(wù)有用的特征.
表示學(xué)習(xí)本質(zhì)上要從數(shù)據(jù)中學(xué)習(xí)到一個(gè)優(yōu)質(zhì)的語義表示空間.這個(gè)空間應(yīng)該能夠體現(xiàn)“方以類聚,物以群分”這一客觀規(guī)律.對(duì)比學(xué)習(xí)正是試圖將正例拉近,負(fù)例推遠(yuǎn),有助于得到好的語義表示空間.可解釋性是?類對(duì)模型決策/預(yù)測(cè)結(jié)果的理解程度,包括模型本質(zhì)的可解釋性(模型到底學(xué)到了什么)、模型結(jié)果的可解釋性(模型為什么產(chǎn)生某個(gè)結(jié)果)等.目前的對(duì)比學(xué)習(xí)主要還是關(guān)注模型的表現(xiàn),對(duì)于模型的可解釋性探討不多.
對(duì)比學(xué)習(xí)通過引入對(duì)照性的實(shí)例來改進(jìn)學(xué)習(xí)效果的思路對(duì)于機(jī)器學(xué)習(xí)可解釋性的研究提供了啟發(fā).M.Gardner等[25]提出了在原始測(cè)試集上構(gòu)建對(duì)比測(cè)試集(Contrast Test Set)的方法,通過以較小但有意義的方式手動(dòng)擾動(dòng)測(cè)試實(shí)例,以此來評(píng)估模型的局部決策邊界,從而能夠真實(shí)的評(píng)估模型的語言能力.最近,文獻(xiàn)[26-29]研究了如何構(gòu)造了對(duì)比性解釋(Contrastive Explanations)以更好地理解模型的結(jié)果,即試圖回答“WHY A Not B”而不僅僅是“WHY A”.
在對(duì)比學(xué)習(xí)中,假設(shè)計(jì)算目標(biāo)函數(shù)時(shí),只有正樣本,那么對(duì)比的最終目的就是讓所有相似樣本的特征盡可能的相似,模型訓(xùn)練的結(jié)果就是,無論輸入什么,它都輸出同樣的特征.用這樣的特征去計(jì)算對(duì)比學(xué)習(xí)的損失函數(shù),其值都會(huì)是零,模型什么也沒有學(xué)到.引入負(fù)樣本,實(shí)質(zhì)是引入一種約束,這樣一來,如果模型輸出的特征相似,那么它在負(fù)樣本的損失函數(shù)值就會(huì)變大,所以模型輸出的特征必須能夠同時(shí)使得正負(fù)樣本的損失函數(shù)值都下降,達(dá)到一個(gè)最優(yōu)解.負(fù)樣本是一種約束,能夠防止模型坍塌的情況出現(xiàn).
4.1.1 設(shè)計(jì)負(fù)例
SimCLR[4]強(qiáng)調(diào)了負(fù)例構(gòu)造的重要性,提出了一種構(gòu)建負(fù)樣本的方式.對(duì)一個(gè)batch中的圖片做數(shù)據(jù)增強(qiáng).對(duì)同一張圖片做顏色變換、高斯模糊、裁剪等簡單的變換.采用ResNet-50作為編碼器,從增強(qiáng)數(shù)據(jù)中提取表征向量.再由全連接層和激活層投影到對(duì)比損失空間.同一圖片的數(shù)據(jù)增強(qiáng)互為正例,而不同圖片之間互為負(fù)例.訓(xùn)練的目標(biāo)是期望同一張圖片表征向量近似,不同圖片表征向量遠(yuǎn)離.
對(duì)比學(xué)習(xí)在負(fù)樣本眾多的情況下效果顯著,擴(kuò)展負(fù)樣本數(shù)量就成為提升模型效果的方式之一.這也導(dǎo)致了batchsize過大而造成GPU內(nèi)存溢出問題.為了解決這一問題,MoCo[5]提出了一種動(dòng)量對(duì)比方法,來提高每個(gè)mini-batch的負(fù)樣本數(shù)量.通過查詢值和含有編碼鍵值對(duì)的字典之間的匹配缺失,來優(yōu)化一個(gè)編碼器.只要字典足夠大,包含的負(fù)樣本足夠多,就能夠?qū)W習(xí)到很好的特征表達(dá).
雖然batchsize增加了,但是模型的性能也不一定就能得到提高,這是因?yàn)榇罅康呢?fù)樣本很可能是容易識(shí)別的負(fù)樣本,浪費(fèi)了算力,卻得不到效果.Y.Kalantidis等[30]通過Mix-up的方式來得到模型難以識(shí)別的負(fù)樣本,提高對(duì)比學(xué)習(xí)模型的效率.
對(duì)比學(xué)習(xí)中大部分的數(shù)據(jù)增強(qiáng)方式是將同一張圖片及其增強(qiáng)副本作為正例對(duì),其余圖片視為其負(fù)例對(duì).這樣容易造成模型把相距很遠(yuǎn)的樣本分得更遠(yuǎn),而距離較近的負(fù)樣本則難以區(qū)分.J.Robinson等[31]設(shè)計(jì)難負(fù)樣本的原則是:與原始樣本標(biāo)簽不同,且與原始樣本相似.用無監(jiān)督的方法,篩選出不屬于同一個(gè)類別標(biāo)簽的樣本.這些篩選出的難負(fù)樣本能夠更好的提升模型的性能.
4.1.2 設(shè)計(jì)正例
常見的對(duì)比學(xué)習(xí)是設(shè)計(jì)一個(gè)正例與若干個(gè)負(fù)例,而負(fù)例通常是一個(gè)batch內(nèi)隨機(jī)采樣得到,在多分類任務(wù)中,容易發(fā)生錯(cuò)誤,從而導(dǎo)致學(xué)習(xí)效果變差.P.Khosla等[32]提出了監(jiān)督對(duì)比損失,使用標(biāo)注的方式,對(duì)訓(xùn)練樣本考慮多對(duì)正例比較.采用兩階段訓(xùn)練,首先標(biāo)注自監(jiān)督對(duì)比學(xué)習(xí)的正負(fù)例對(duì),然后采用監(jiān)督方式進(jìn)行對(duì)比學(xué)習(xí).
同樣選取多個(gè)正例的對(duì)比學(xué)習(xí)還有B.Kang等[33]提出的k-positive對(duì)比學(xué)習(xí).結(jié)合了監(jiān)督學(xué)習(xí)和對(duì)比學(xué)習(xí),解決類別不均勻情況下的特征表征問題.對(duì)每個(gè)batch中的一個(gè)樣本,都選取與之同一個(gè)類的k個(gè)正樣本,拉近正例之間的特征向量,來學(xué)習(xí)到具有區(qū)別性和均衡性的表征.
4.1.3 同時(shí)設(shè)計(jì)正負(fù)例
對(duì)比學(xué)習(xí)中正負(fù)例的設(shè)計(jì)是依賴于下游任務(wù)的.例如Y.Tian等[34]在探究對(duì)比學(xué)習(xí)的有效原因時(shí),使用的數(shù)據(jù)集具有數(shù)字、位置和背景3要素.表示不同視覺之間的共享信息,對(duì)下游任務(wù)的影響是不同的,例如只共享數(shù)字部分,學(xué)習(xí)到的表征就會(huì)忽略位置和背景信息,因而在有關(guān)位置和背景的下游任務(wù)中無法取得好的效果.Y.Tian等在設(shè)計(jì)時(shí),為一個(gè)視覺構(gòu)造對(duì)應(yīng)下游任務(wù)的3個(gè)正樣本(數(shù)字、位置和背景),同時(shí)構(gòu)造3個(gè)負(fù)樣本(數(shù)字、位置和背景).當(dāng)下游任務(wù)是判別數(shù)字時(shí),則正樣本共享對(duì)應(yīng)數(shù)字的信息,負(fù)樣本的各要素均是隨機(jī)選擇.
在計(jì)算機(jī)視覺領(lǐng)域使用對(duì)比學(xué)習(xí),可以很方便的構(gòu)造正負(fù)實(shí)例,比如圖像里面常用的旋轉(zhuǎn)、縮放、灰度、裁剪等操作,這些圖像增強(qiáng)技術(shù)簡單,而且不會(huì)帶來太大的噪音.然而在NLP領(lǐng)域中,正負(fù)實(shí)例的構(gòu)造就需要再三斟酌了.文獻(xiàn)[14,35,36,37]都是通過加詞、漏詞、換位、亂序等方式來添加正負(fù)樣本.文獻(xiàn)[16]是通過添加擾動(dòng)來產(chǎn)生正負(fù)樣本.文本的數(shù)據(jù)增強(qiáng),會(huì)帶來巨大的噪音.因?yàn)閷?duì)一個(gè)句子,加詞、漏詞、換序等方式,可能使得句子的語義發(fā)生巨大變化.
4.2.1 數(shù)據(jù)增強(qiáng)
構(gòu)造正負(fù)例是對(duì)比學(xué)習(xí)的研究重點(diǎn),數(shù)據(jù)增強(qiáng)技術(shù)也已經(jīng)被證明是提高模型泛化和數(shù)據(jù)效率的有效方法.數(shù)據(jù)的效率是指利用有限的數(shù)據(jù)做出最佳的效果,一方面需要有一個(gè)優(yōu)秀的模型,另一方面就需要有代表性的數(shù)據(jù).表1詳細(xì)介紹自然語言處理領(lǐng)域,應(yīng)用對(duì)比學(xué)習(xí)時(shí),采用的數(shù)據(jù)增強(qiáng)方法.
表1 數(shù)據(jù)增強(qiáng)方法Table 1 Data augmentation methods
1)傳統(tǒng)數(shù)據(jù)增強(qiáng)
a)構(gòu)造正例
NLP傳統(tǒng)數(shù)據(jù)增強(qiáng)方法有以下幾種:回譯、詞性替換、mixup、cutoff、詞頻等.回譯是指利用機(jī)器翻譯來解釋文本語義,同時(shí)重新訓(xùn)練其含義.詞性替換是指采用同義詞來替換原詞,而不改變含義.Mixup是指將同一批次的兩個(gè)樣本,按照一定的策略組合.Cutoff是指隨機(jī)遺漏.
Z.Yang等[14]采用了隨機(jī)遺漏、按詞性遺漏和按詞頻遺漏的方法構(gòu)造機(jī)器翻譯的正樣本,以最大似然估計(jì)模型為基礎(chǔ),使用對(duì)比學(xué)習(xí)對(duì)模型進(jìn)行微調(diào),減少了漏翻現(xiàn)象.Y.Qu等[38]比較了回譯、詞替換、mixup、cutoff和對(duì)抗這5種數(shù)據(jù)增強(qiáng)方法.通過實(shí)驗(yàn)發(fā)現(xiàn)回譯加對(duì)抗的效果最好,發(fā)現(xiàn)了不同數(shù)據(jù)增強(qiáng)方法的互補(bǔ)性.Y.Yan等[39]采用了對(duì)抗,token shuffling,cutoff和dropout這4種增強(qiáng)方式進(jìn)行對(duì)比,在無監(jiān)督的模式下,對(duì)BERT進(jìn)行微調(diào),消除了高頻詞對(duì)句子語義表示的干擾,解決了BERT派生語句的表示崩潰問題,使模型學(xué)習(xí)到更好的句子表示.J.Giorgi等[40]在采樣正例時(shí),允許采樣與錨點(diǎn)交疊、相鄰和從屬.
在多對(duì)多機(jī)器翻譯時(shí),兩句話如果是一個(gè)意思,那么即使它們表達(dá)的語言不同,這兩個(gè)句子在語義空間中的表征也應(yīng)該是靠近的.X.Pan等[41]使用了跨語言表示中,一對(duì)多翻譯的特性,直接進(jìn)行句子自我對(duì)比,這樣的效果比做數(shù)據(jù)增強(qiáng)要好很多(數(shù)據(jù)增強(qiáng)也會(huì)帶來噪音).
b)構(gòu)造負(fù)例
W.Zhang &K.Stratos[42]從理論和實(shí)驗(yàn)上證明了,選擇難負(fù)樣本對(duì)提升模型的有效性.M.Kachuee等[43]通過在每個(gè)訓(xùn)練批次中以洗牌的方式來產(chǎn)生噪音樣本.W.Zhou等[44]通過概念亂序、概念生成句子的方式生成負(fù)例.
H.Wu等[37]從語言質(zhì)量和語義質(zhì)量兩方面創(chuàng)建負(fù)例樣本.對(duì)于語義質(zhì)量,采用隨機(jī)移除單詞或句子;對(duì)于語言質(zhì)量,通過單詞亂序或刪除單詞來生成負(fù)例樣本.負(fù)樣本例子見圖5.
c)同時(shí)構(gòu)造正負(fù)例
同時(shí)構(gòu)造正負(fù)例,雖然增加了計(jì)算量,但也使得模型的性能得以提升.J.Huang等[35]采用傳統(tǒng)的數(shù)據(jù)增強(qiáng)方法,將一對(duì)互相匹配的query和code,改寫query構(gòu)造正例,將query與非匹配的code匹配,構(gòu)建負(fù)例.簡單地隨機(jī)構(gòu)建正負(fù)樣本,容易產(chǎn)生無意義的正負(fù)樣本,這些樣本容易被識(shí)別.
N.Rethmeier等[45]將多標(biāo)簽分類任務(wù)建模成文本匹配任務(wù),采樣不同的正負(fù)標(biāo)簽,同時(shí)采樣文本片段,構(gòu)成偽標(biāo)簽,(4種標(biāo)簽:正標(biāo)簽、負(fù)標(biāo)簽、正偽標(biāo)簽、負(fù)偽標(biāo)簽)編碼后,和句子編碼拼接,通過NCE Loss訓(xùn)練匹配模型.D.Wang等[46]構(gòu)建正例時(shí)將句子中的名詞、動(dòng)詞和形容詞替換為其同義詞;負(fù)例則是將它們替換為反義詞或隨機(jī)詞.T.Chen等[47]利用對(duì)比學(xué)習(xí)來提高遠(yuǎn)程監(jiān)督關(guān)系抽取,將同一關(guān)系下的實(shí)例當(dāng)作正例,不同關(guān)系的實(shí)例當(dāng)作負(fù)例.H.Cai等[48]將對(duì)比學(xué)習(xí)引入到對(duì)話生成中,分別就上下文和響應(yīng)進(jìn)行分組抽樣,實(shí)現(xiàn)數(shù)據(jù)增強(qiáng).
圖5 文本的數(shù)據(jù)增強(qiáng)[34]Fig.5 Text data augmentation[34]
2)模型層面的數(shù)據(jù)增強(qiáng)
許多實(shí)驗(yàn)證明了,傳統(tǒng)數(shù)據(jù)增強(qiáng)的方式,實(shí)驗(yàn)效果并不十分理想.許多基于預(yù)訓(xùn)練模型的句子表征取得了顯著效果,可以看作是模型層面的數(shù)據(jù)增強(qiáng).
BERT預(yù)訓(xùn)練模型,通過MLM任務(wù)的自監(jiān)督學(xué)習(xí),充分挖掘了模型從海量無標(biāo)注文本中學(xué)習(xí)通用知識(shí)的能力.通過有監(jiān)督的微調(diào),在許多NLP下游任務(wù)上取得了不錯(cuò)的性能.T.Kim等[49]采用了兩個(gè)BERT,利用BERT自身的信息去進(jìn)行對(duì)比,從而避免做數(shù)據(jù)增強(qiáng),挖掘內(nèi)部信息.模型中一個(gè)BERT的參數(shù)是固定的,用于計(jì)算中間層的句子表示,另一個(gè)BERT用于微調(diào),來計(jì)算句子CLS的表示.同一個(gè)句子經(jīng)過兩個(gè)BERT所獲得的表示構(gòu)成正例對(duì),不同句子的中間層的句子表示或者最后的CLS表示構(gòu)成負(fù)例對(duì).通過比對(duì),獲得更高質(zhì)量的句子表征.
R.Luo等[50]采用互補(bǔ)mask的方式構(gòu)造正例.具體做法是將一個(gè)輸入經(jīng)過多次mask,將相鄰掩碼句被mask的部分做互補(bǔ)操作.采用mask替換了token,由于它們都有著一樣的上下文,不同掩碼位置的序列也很接近,則它們語義上相似,所以互為正例.這種做法和X.Liang等[51]BERT執(zhí)行兩次dropout想法很相似?
因?yàn)锽ERT本身就有隨機(jī)dropout的功能,同一句話,執(zhí)行兩次BERT,就能得到兩個(gè)不同的表示向量,且語義一致.這樣一來,相似樣本的語義完全一致,被認(rèn)為是數(shù)據(jù)增強(qiáng)的最小形式.X.Liang等[51]和SimCSE[5]都是采用這一思想來構(gòu)造正例.也就是模型層面做了數(shù)據(jù)增強(qiáng),不容易帶來噪音.SimCSE是在標(biāo)準(zhǔn)Transformer中的全連接層和注意力求和操作上,執(zhí)行dropoutmask操作.然而SimCSE通過dropout兩次來構(gòu)造正例對(duì)也會(huì)帶來問題.因?yàn)門ransformer的Position Embedding,SimCSE會(huì)認(rèn)為相似或相同長度的句子在語義上是相似的.此外,過大的batchsize也會(huì)導(dǎo)致顯卡的崩潰.之后的ESimCSE[52]通過WordRepetition,隨機(jī)復(fù)制句子中的一些單詞,改變句子長度來解決長度問題;模仿MoCo[7]的隊(duì)列動(dòng)量編碼器,來解決batch size的問題.
3)只有正例的對(duì)比學(xué)習(xí)
S.Xu等[18]提出了一個(gè)生成式文本摘要對(duì)比學(xué)習(xí)模型SeqCo,在該模型中,將文檔、參考摘要和模型生成的摘要視為具有相同表示的不同視圖,并在訓(xùn)練過程中最大化它們之間的相似性.
該論文借鑒了BYOL[6]的思路,BYOL里面所有的圖像都是正例,通過最大化“投影”和“預(yù)測(cè)”特征的相似性,不使用負(fù)例,學(xué)習(xí)表征.首先,有一個(gè)網(wǎng)絡(luò)參數(shù)隨機(jī)初始化且固定的target network;一個(gè)網(wǎng)絡(luò)參數(shù)會(huì)變化的online network;等這個(gè)online network訓(xùn)練好之后,將target network替換為效果更好的網(wǎng)絡(luò)參數(shù)(比如此時(shí)的online network),然后再迭代一次,也就是再訓(xùn)練一輪online network,效果是基于上一次的疊加.
4.2.2 對(duì)比損失函數(shù)使用策略
常見的對(duì)比損失函數(shù)的使用策略有如下3種:
1)作為原始模型的微調(diào)技術(shù)
在原始模型的損失函數(shù)基礎(chǔ)上,加上對(duì)比學(xué)習(xí)損失函數(shù),然后微調(diào)原模型,即為兩階段訓(xùn)練.例如Z.Yang等[14]是以最大似然估計(jì)訓(xùn)練模型為基礎(chǔ),使用對(duì)比學(xué)習(xí)對(duì)模型進(jìn)行微調(diào).Z.Zeng等[53]將有監(jiān)督的對(duì)比學(xué)習(xí)用于意圖分類器預(yù)訓(xùn)練,然后對(duì)領(lǐng)域內(nèi)的數(shù)據(jù)集,使用交叉熵和LargeMargin Cosine Loss(LMCL)[54]對(duì)模型進(jìn)行微調(diào).Y.Liu等[15]將摘要生成分解為兩個(gè)階段:生成階段采用最大似然估計(jì)損失,評(píng)分階段采用對(duì)比學(xué)習(xí)損失.H.Kiyomaru &S.Kurohashi[55]利用RoBERTa作為基礎(chǔ)模型,外加一個(gè)對(duì)比學(xué)習(xí)目標(biāo)和一個(gè)生成目標(biāo).
2)與原始模型損失一起聯(lián)合訓(xùn)練
將原始模型損失與對(duì)比損失,按照一定的策略,組合在一起,進(jìn)行聯(lián)合訓(xùn)練.一些使用舉例見表2說明.
3)與預(yù)訓(xùn)練模型相結(jié)合
對(duì)比學(xué)習(xí)也可理解為是一種無監(jiān)督學(xué)習(xí).無監(jiān)督的表征學(xué)習(xí),起初在自然語言處理領(lǐng)域(NLP)取得了顯著的成果(BERT[56],GPT[57]),例如,基于BERT的預(yù)訓(xùn)練模型[58,59],首先在一個(gè)大型的未標(biāo)注數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,得到表征后,再在一個(gè)較小的標(biāo)記數(shù)據(jù)集上微調(diào),從而獲得良好的效果.
X.Qiu等[60]提出第2代預(yù)訓(xùn)練語言模型是融入了上下文信息的,能夠在更大的語料庫上訓(xùn)練,采用更深的網(wǎng)絡(luò)結(jié)構(gòu),以及新的預(yù)訓(xùn)練任務(wù)的模型.其中就提到了基于對(duì)比學(xué)習(xí)的預(yù)訓(xùn)練語言模型.代表模型有InfoWord[17],靈感來源于Deep InfoMax(DIM)[61],一個(gè)基于互信息的圖像表示學(xué)習(xí)方法,DIM旨在最大化一個(gè)圖像的局部表示向量和整體表示向量的互信息.InfoWord將這一思想引入NLP,對(duì)于一個(gè)詞序列,也可以考慮其整體表示和局部表示(比如一段文字與一句話).InfoWord將對(duì)比損失與MLM損失相結(jié)合.InfoWord模型中的MLM部分設(shè)計(jì)與SpenBert[62]是相似的,SpenBert采用幾何采樣來得到掩碼的長度,均勻采樣來選取掩碼對(duì)比tokens.未來,也可以考慮采用不同的掩碼方式,設(shè)計(jì)基于學(xué)習(xí)的預(yù)訓(xùn)練任務(wù).
表2 損失函數(shù)訓(xùn)練模型Table 2 Loss function in training models
5.1.1 圖像語義分割
圖像語義分割的目的是為圖像中的每個(gè)像素預(yù)測(cè)一個(gè)語義標(biāo)簽.傳統(tǒng)方法是將語義分割看作一個(gè)像素級(jí)的分類任務(wù),提取圖像內(nèi)部上下文信息,而忽視了像素之間的依賴關(guān)系.W.Wang等[63]提出了像素對(duì)比學(xué)習(xí),利用跨圖像的像素-像素對(duì)應(yīng)關(guān)系來學(xué)習(xí)一個(gè)特征空間.同類像素互為正例,不同類像素互為負(fù)例,在交叉熵?fù)p失的基礎(chǔ)上,疊加NCE損失.
在像素級(jí)分割預(yù)測(cè)任務(wù)中,為了獲得更好的特征表征,還須考慮局部表示和全局表示.K.Chaitanya等[64]提出了一種局部對(duì)比損失法,通過利用從未標(biāo)記圖像的偽標(biāo)簽和有限的語義標(biāo)簽信息,來學(xué)習(xí)有助于分割的像素級(jí)特征.
5.1.2 無監(jiān)督聚類
J.Li等[65]提出了原型對(duì)比學(xué)習(xí)(PCL),這是一種將對(duì)比學(xué)習(xí)和聚類相結(jié)合的無監(jiān)督表示學(xué)習(xí)方法.通過聚類發(fā)現(xiàn)“原型”的分布,PCL將一個(gè)“原型”作為相似圖像的簇的質(zhì)心,將各個(gè)圖像分配給多個(gè)“原型”,構(gòu)造ProtoNCE損失函數(shù)訓(xùn)練模型,用對(duì)比學(xué)習(xí)優(yōu)化網(wǎng)絡(luò),使得每個(gè)圖像更接近相關(guān)“原型”.PCL將聚類后發(fā)現(xiàn)的語義結(jié)構(gòu),編碼到所學(xué)習(xí)的特征空間中.
目前深度學(xué)習(xí)聚類方法常采用兩階段來構(gòu)建模型,第1階段使用預(yù)訓(xùn)練模型進(jìn)行表征學(xué)習(xí),第2階段使用聚類算法(例如EM算法)完成聚類.由于這兩個(gè)階段是獨(dú)立的,模型在預(yù)訓(xùn)練階段可能無法充分探索數(shù)據(jù)的語義結(jié)構(gòu),從而導(dǎo)致聚類的次優(yōu)解決方案.T.W.Tsai等[66]提出了混合對(duì)比專家模型(MiCE),這是一個(gè)概率聚類框架,結(jié)合了對(duì)比學(xué)習(xí)所學(xué)習(xí)到的區(qū)別性表示和潛在混合模型捕獲的語義結(jié)構(gòu).在專家混合模型的激勵(lì)下,MiCE使用門控函數(shù),根據(jù)潛在語義,將未標(biāo)記數(shù)據(jù)集劃分為子集.
5.1.3 條件圖像生成
條件圖像生成是使用類標(biāo)簽信息生成各種圖像的任務(wù).傳統(tǒng)方法是將圖像和相應(yīng)標(biāo)簽之間的成對(duì)關(guān)系(數(shù)據(jù)到類的關(guān)系)作為條件損失.ContraGAN[67]利用條件對(duì)比損失來考察同一批次中,多個(gè)圖像之間的關(guān)系(數(shù)據(jù)到數(shù)據(jù)的關(guān)系)以及數(shù)據(jù)到類的關(guān)系.ContraGAN的損失函數(shù)也是InfoNCE loss,采用類標(biāo)簽作為相似程度對(duì)比,沒有使用數(shù)據(jù)擴(kuò)展.拉近圖片與其類別距離的同時(shí),拉近相同類別圖片的距離.
5.1.4 目標(biāo)檢測(cè)和實(shí)例分割
Y.Xiong等[68]發(fā)現(xiàn)編碼器早期的感受野可能太小,以至于無法有效適用于對(duì)比學(xué)習(xí).當(dāng)InfoNCE損失被應(yīng)用于所有的局部學(xué)習(xí)時(shí),由于早期階段的解碼器感受野有限,很難得到有效表征來正確識(shí)別正樣本.Y.Xiong等增加了解碼器深度,并允許上層塊隱式地向下層塊發(fā)送反饋.在解碼器中加入卷積層來擴(kuò)大感受野,將特征用于目標(biāo)檢測(cè)和實(shí)例分割.
5.2.1 機(jī)器翻譯
雖然機(jī)器翻譯任務(wù)已經(jīng)非常成熟,但是漏翻、過翻的現(xiàn)象仍然普遍存在.Z.Yang等[14]給事實(shí)翻譯分配較高概率,錯(cuò)誤翻譯分配較低概率,訓(xùn)練模型,從而減少漏翻現(xiàn)象.在真實(shí)翻譯句子上構(gòu)建負(fù)例,即根據(jù)省略詞的數(shù)量、詞頻和詞性設(shè)計(jì)了幾種類型的錯(cuò)誤譯文,比較真實(shí)句與增強(qiáng)句.
Y.Qu等[35]通過實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過回譯加對(duì)抗生成的增強(qiáng)數(shù)據(jù)能夠在對(duì)比學(xué)習(xí)中取得顯著的效果.在多對(duì)多機(jī)器翻譯任務(wù)中,為了獲得更好的多語言翻譯效果,X.Pan等[41]提出了基于近義詞替換的數(shù)據(jù)增強(qiáng)方法.在數(shù)據(jù)增強(qiáng)技術(shù)上,直接使用單語數(shù)據(jù)和多語數(shù)據(jù)進(jìn)行對(duì)比,使得模型可以分辨不同語言句對(duì).
5.2.2 信息檢索
為了提高代碼的檢索效果,在自然語言與代碼之間的語義匹配方面,J.Huang等[35]在CodeBERT[69]的基礎(chǔ)上,通過傳統(tǒng)的增強(qiáng)方式,同時(shí)生成正負(fù)例,比較查詢與代碼的匹配程度.不同于傳統(tǒng)的信息檢索(稀疏檢索),L.Xiong等[70]預(yù)訓(xùn)練一個(gè)模型,將文本編碼成向量,根據(jù)query的相似度進(jìn)行索引.提出了近似最近鄰否定對(duì)比估計(jì),用于密集檢索的對(duì)比學(xué)習(xí).
5.2.3 摘要生成
SimCLS[15]是一個(gè)基于對(duì)比的生成式摘要框架.使用兩階段模型進(jìn)行摘要生成:首先訓(xùn)練Seq2Seq模型生成候選摘要,再采用對(duì)比的方式,對(duì)候選摘要進(jìn)行重新排序.與其它使用對(duì)比學(xué)習(xí)的模型相比,SimCLS沒有使用正負(fù)例對(duì)比,而是將原始文檔與生成候選摘要進(jìn)行對(duì)比,期望預(yù)測(cè)值與真實(shí)值接近,且每個(gè)候選值之間有差距.
SeqCo[18]是一種序列級(jí)別的對(duì)比學(xué)習(xí)模型.與上一篇論文一樣,它也沒有正負(fù)例,它把原始文檔、人工標(biāo)注的摘要及模型生成的摘要看作同一個(gè)語義表示的3個(gè)不同視角,并在訓(xùn)練過程中最大化這三者之間的相似性,提升了摘要的原文忠誠度.
5.2.4 對(duì)話
為了解決開放域?qū)υ捜蝿?wù)中,使用最大似然估計(jì)時(shí),存在低多樣性問題,H.Cai等[48]使用一個(gè)預(yù)訓(xùn)練模型作為參考模型.為了實(shí)現(xiàn)人類會(huì)話中普遍存在的多映射關(guān)系,使用分組雙抽樣來做數(shù)據(jù)增強(qiáng).分別建立問題-回應(yīng)的正負(fù)向回復(fù)、回應(yīng)-問題的正負(fù)向回復(fù),從而增加對(duì)話模式的多樣性.
為了檢測(cè)對(duì)話系統(tǒng)中,用戶查詢與任務(wù)領(lǐng)域的相關(guān)性問題,Z.Zeng等[53]利用有監(jiān)督對(duì)比學(xué)習(xí),通過將屬于同一類的領(lǐng)域內(nèi)意圖集合在一起,實(shí)現(xiàn)最小化類內(nèi)方差,并通過將不同類的樣本分開,實(shí)現(xiàn)最大化類間方差,這樣模型就可以區(qū)分語義特征.
M.Kachuee等[43]利用未標(biāo)注的數(shù)據(jù),來學(xué)習(xí)區(qū)分真實(shí)會(huì)話與非真實(shí)會(huì)話(噪音樣本).其中噪音樣本是通過在每個(gè)訓(xùn)練批次中洗牌生成.
5.2.5 多模態(tài)
UNIMO[71]同時(shí)利用單模態(tài)和多模態(tài)的數(shù)據(jù),將文本信息與視覺信息對(duì)齊到一個(gè)統(tǒng)一的語義空間,實(shí)現(xiàn)圖像-文本對(duì)齊.對(duì)多模態(tài)的圖像-文本數(shù)據(jù),采用重寫的方式生成正負(fù)樣本;對(duì)單模態(tài)數(shù)據(jù),采用檢索方式生成正樣本.將文本知識(shí)和視覺知識(shí)對(duì)齊到統(tǒng)一的語義空間,通過相互增強(qiáng)來學(xué)習(xí)更多的可概括表示.
M.Patrick等[72]的模型由兩部分構(gòu)成:跨模型判別部分和生成性交叉字幕部分.跨模型判別采用對(duì)比學(xué)習(xí),將視頻-文本嵌入統(tǒng)一語義空間,其它的即使是相似的樣本也被認(rèn)為是負(fù)樣本.這樣的操作被認(rèn)為是過于嚴(yán)格,于是作者又加上生成性交叉字幕部分,每個(gè)樣本的標(biāo)題必須重建為其它支持樣本的視覺文本的加權(quán)組合.模型在兩個(gè)互補(bǔ)的損失中學(xué)習(xí).
X.Yuan等[73]提出的對(duì)比學(xué)習(xí)模型框架里包含模態(tài)內(nèi)訓(xùn)練和模態(tài)間訓(xùn)練.模態(tài)內(nèi)訓(xùn)練是用于在預(yù)測(cè)任務(wù)中捕獲增強(qiáng)數(shù)據(jù)的內(nèi)在模式;模態(tài)間訓(xùn)練是通過跨膜態(tài)交互來增強(qiáng)視覺特征.同時(shí)利用每個(gè)模態(tài)和語義信息中的內(nèi)在數(shù)據(jù)屬性,提高所學(xué)視覺表示的質(zhì)量.
5.2.6 其它
P.Cheng等[74]將對(duì)比學(xué)習(xí)用于消除生成文本表示中的偏見因素(例如性別偏見、種族偏見等).將原句與反義詞句比對(duì),最大化這兩者互信息;原句與偏見詞比對(duì),最小化兩者互信息.生成的表示達(dá)到消除偏見的效果.
N.Rethmeier等[45]為了解決多標(biāo)簽文本分類問題中存在的長尾標(biāo)簽情況.將多標(biāo)簽分類任務(wù)建模成類似文本匹配的形式.在采樣正負(fù)標(biāo)簽時(shí),同時(shí)從句子中采樣文本片段,構(gòu)成偽標(biāo)簽,和句子編碼拼接,訓(xùn)練匹配模型.
W.Zhou等[44]利用對(duì)比學(xué)習(xí)和自監(jiān)督損失,引入常識(shí)信息.模型分為生成任務(wù)和判別任務(wù).在生成任務(wù)中通過概念亂序和使用概念生成句子的方式產(chǎn)生增強(qiáng)樣本.在判別任務(wù)(對(duì)比)中,通過判別原句與增強(qiáng)樣本來分辨真理句子,提高預(yù)訓(xùn)練語言模型的常識(shí)推理能力.
D.Zhang等[75]將對(duì)比學(xué)習(xí)用于聚類,通過聯(lián)合優(yōu)化自上而下的聚類損失和自下而上的實(shí)例對(duì)比損失來進(jìn)行對(duì)比學(xué)習(xí)聚類.
在篇章關(guān)系分析任務(wù)中,H.Kiyomaru等[55]所提出的模型框架包含一個(gè)對(duì)比學(xué)習(xí)目標(biāo)和一個(gè)生成目標(biāo).模型在訓(xùn)練過程中,最大化目標(biāo)句與掩碼句在相同上下文時(shí)的相似性,最小化掩碼句與隨機(jī)句在相同語境下的相似性.
對(duì)比學(xué)習(xí)是在沒有大量標(biāo)注數(shù)據(jù)集的情況下,采用自監(jiān)督方式,學(xué)習(xí)數(shù)據(jù)的監(jiān)督信息,以該監(jiān)督信息對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,從而能夠?qū)W習(xí)到對(duì)下游任務(wù)有幫助的特征.采用對(duì)比學(xué)習(xí)來完善表征,可避免下游任務(wù)的表征崩潰.雖然使用對(duì)比學(xué)習(xí)的方式不一,但主要目的都是為了將精心設(shè)計(jì)的正負(fù)實(shí)例與真實(shí)實(shí)例進(jìn)行對(duì)比,在對(duì)比的過程中,特征編碼器輸出的特征,具有可泛化的一般表示.編碼器學(xué)習(xí)到具有代表性、可辨識(shí)性的一般信息.雖然對(duì)比學(xué)習(xí)取得了巨大的成功,但仍然存在許多挑戰(zhàn).
由于文本數(shù)據(jù)的離散性,對(duì)比學(xué)習(xí)中的判別函數(shù)容易出現(xiàn)不穩(wěn)定的訓(xùn)練現(xiàn)象.這是因?yàn)榛バ畔?duì)數(shù)據(jù)樣本微小差異是高度敏感的,而表征上的微小差異會(huì)導(dǎo)致互信息的劇烈變化,使得學(xué)習(xí)出的表征不穩(wěn)健,很難推廣到下游任務(wù)中去[76,77].
人們已經(jīng)從理論和實(shí)驗(yàn)中證明了對(duì)比學(xué)習(xí)的有效性.特別是InfoNCE[3]把對(duì)比學(xué)習(xí)與互信息的優(yōu)化聯(lián)系在一起.互信息應(yīng)該達(dá)到一個(gè)合適的值.如果互信息比需要的還多,則可能降低模型的泛化性;如果互信息比需要的還要少,則可能達(dá)不到最優(yōu)解.所以說互信息決定了選取什么視角來進(jìn)行對(duì)比.
如果初始化不當(dāng)或是負(fù)樣本選擇不當(dāng),原始樣本與增強(qiáng)樣本的聯(lián)合分布和獨(dú)立分布之間的距離就會(huì)越來越遠(yuǎn).這樣一來,互信息就會(huì)逐漸衰弱.極端情況下,互信息和梯度都會(huì)消失變成零[78](原始數(shù)據(jù)分布與增強(qiáng)樣本分布獨(dú)立,無任何關(guān)聯(lián),互信息為零).
針對(duì)上面兩種挑戰(zhàn),可以考慮在正負(fù)樣本分布中添加約束,來增加對(duì)比學(xué)習(xí)訓(xùn)練時(shí)的穩(wěn)定性[79].也可以將KL散度換成詹森-香農(nóng)散度來提高原始樣本與增強(qiáng)樣本的相似性和一致性[38].目的都是防止互信息和梯度消失為零.
要想獲得良好的對(duì)比性能,獲取互信息的下界,就需要一個(gè)較大的負(fù)例與正例的比值,即需要大量的負(fù)例[76].這樣一來,給大型數(shù)據(jù)集帶來了潛在的計(jì)算問題.如果負(fù)樣本是容易被分辨的樣本,則對(duì)模型起不到學(xué)習(xí)的作用,同時(shí)又增加了訓(xùn)練的計(jì)算量,得不償失.
解決這一問題,可以考慮采用恰當(dāng)?shù)臄?shù)據(jù)增強(qiáng)方法,采樣或生成大量模型難以分辨的樣本,供模型學(xué)習(xí),從而得到更多可區(qū)分的特征.例如可以使用對(duì)抗生成樣本、選取與正樣本最鄰近的負(fù)樣本[79]等方法.選取高質(zhì)量的負(fù)樣本,可以使得模型學(xué)習(xí)到概括性特征,又同時(shí)降低了訓(xùn)練的計(jì)算負(fù)擔(dān).