国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向多模態(tài)自監(jiān)督特征融合的音視頻對抗對比學(xué)習(xí)

2023-02-18 06:32:56盛振濤陳雁翔齊國君
中國圖象圖形學(xué)報 2023年1期
關(guān)鍵詞:對抗性音視頻級別

盛振濤,陳雁翔*,齊國君

1.合肥工業(yè)大學(xué)計算機與信息學(xué)院,合肥 230601;2.智能互聯(lián)系統(tǒng)安徽省實驗室(合肥工業(yè)大學(xué)), 合肥 230601;3.機器感知與學(xué)習(xí)實驗室(美國中佛羅里達大學(xué)), 美國奧蘭多 32816

0 引 言

在自然界中,音頻和視覺事件往往同時發(fā)生:當說話時,嘴唇會同時動作;當飛機低空掠過時,飛機會同時發(fā)出噪聲;當切菜時,刀與案板碰撞會發(fā)出聲音。由于自然界中音視頻信息具有時間同步性,因此人類在感知自然界的過程中,聽覺系統(tǒng)和視覺系統(tǒng)往往協(xié)同工作來采集音視頻信息,然后由大腦中樞系統(tǒng)融合處理音視頻信息,最終人類形成了對外界的認知。在感知研究中,已有大量文獻(Shams 和 Kim,2010;Heffner 和 Heffner,1992;Risto,1992)提供了實驗證據(jù),表明人在理解動態(tài)事件時不僅依靠視覺系統(tǒng),還需要聽覺系統(tǒng)的輔助,如果一個人的聽覺功能受到影響,那么他對視覺事件的敏感度會降低(Myklebust,1960)。因此,相比于單從聽覺事件或者視覺事件中提取到的特征,從音視頻事件中可以提取到的特征包含更加豐富的信息。

對比學(xué)習(xí)是一種自監(jiān)督表示學(xué)習(xí),它使用對比損失(van den Oord 等,2018)衡量表示空間中樣本對之間的相似性。在計算機視覺領(lǐng)域,傳統(tǒng)的對比學(xué)習(xí)通過衡量樣本之間的互信息(Hénaff,2020;Hadsell等,2016;Hjelm等,2019;Zhuang等,2019;van den Oord等,2018)來學(xué)習(xí)數(shù)據(jù)特征。Chen等人(2020)將對比學(xué)習(xí)應(yīng)用到計算機視覺領(lǐng)域,提出可以對圖像進行增強編碼,讓同一幅圖的不同增強視圖相互靠近,不同圖像的增強視圖相互遠離。對比學(xué)習(xí)需要從負樣本空間中抽取負樣本,如何構(gòu)建負樣本空間是一個關(guān)鍵的問題。為了良好地對比學(xué)習(xí)質(zhì)量,構(gòu)建負樣本空間的原則是足夠大且具有連續(xù)性(He 等,2020)。在計算機視覺領(lǐng)域,許多工作(Hu 等,2021;He 等,2020;Li 等,2021;Ho 和 Vasconcelos,2020;Kalantidis 等,2020)專注于視覺負樣本空間的構(gòu)造。Wu 等人(2018)提出可以維護一個包含所有訓(xùn)練樣本的存儲庫;He 等人(2020)提出可以構(gòu)建一個帶有隊列和移動平均編碼器的動態(tài)負樣本字典,既保證了負樣本空間規(guī)模性和連續(xù)性,又減少了內(nèi)存占用;Li 等人(2021)、Kalantidis 等人(2020)提出可以通過聚類等手段尋找更加有效的負樣本,增強負樣本空間的有效性;Hu 等人(2021)、Ho 和 Vasconcelos(2020)提出引入對抗性負樣本的想法,可以有效地使負樣本空間覆蓋到具有挑戰(zhàn)性的訓(xùn)練樣本,提高對比學(xué)習(xí)質(zhì)量。但是上述工作提出的對負樣本空間的改進措施都聚焦于視覺單一模態(tài),沒有考慮到對比學(xué)習(xí)在音視頻多模態(tài)領(lǐng)域的應(yīng)用。相比于上述單一視覺模態(tài)下的對比學(xué)習(xí),音視頻跨模態(tài)對比學(xué)習(xí)可以使用不同的音視頻視圖進行對比學(xué)習(xí),從而學(xué)習(xí)到信息更加豐富的音視頻信息(Morgado 等,2021b;Owens 和 Efros,2018)。

本文針對音視頻多模態(tài)下的對比空間負樣本空間的構(gòu)建問題,提出了面向多模態(tài)自監(jiān)督特征融合的音視頻對抗對比學(xué)習(xí)方法,如圖1所示。在圖1左側(cè),首先將視覺片段和音頻片段進行增強編碼,分別得到視覺特征向量和聽覺特征向量。對同一片段再次進行增強編碼,可以得到對應(yīng)的正樣本。在圖1中間部分,展示了音視頻跨模態(tài)對抗對比學(xué)習(xí)的訓(xùn)練流程。

首先,如圖1中間左側(cè)下方所示,使用標準正態(tài)分布來生成視覺和聽覺對抗性負樣本集合,從而構(gòu)建了音視頻負樣本空間。定義視覺和聽覺對抗性負樣本數(shù)量均為65 536,確保了音視頻負樣本空間的規(guī)模性。其次,在圖1中間的上半部分表示了音視頻模態(tài)間的對抗對比學(xué)習(xí),以左上的視覺特征向量為例,將其和對應(yīng)的同一音頻片段的在不同增強視圖下的聽覺特征向量作為正樣本對(圖1中間的左上方的相對箭頭兩側(cè)),而聽覺對抗性負樣本構(gòu)成了負樣本空間。在模態(tài)間對比學(xué)習(xí)的過程中,視覺特征向量要靠近聽覺正樣本,同時遠離聽覺對抗性負樣本。然后,聽覺對抗性負樣本進行模態(tài)間對抗更新,使得自身更加接近視覺特征向量,增加對比學(xué)習(xí)的難度。以聽覺特征向量為核心的模態(tài)間對抗對比學(xué)習(xí)流程也是如此。

與此同時,如果僅有圖1中間的上半部分的音視頻模態(tài)間對抗對比學(xué)習(xí),那么實際上模型就退化為了單一模態(tài)的對抗對比學(xué)習(xí),這是因為視覺和聽覺對抗性負樣本初始化時為標準正態(tài)分布,不包含任何自身模態(tài)的信息。為此,如圖1中間的下半部分,增加了音視頻模態(tài)內(nèi)的對抗對比學(xué)習(xí)。以圖1右下的視覺特征向量為例,將其和對應(yīng)的同一視覺片段的在不同增強視圖下的視覺特征向量作為正樣本對,而視覺對抗性負樣本構(gòu)成了負樣本空間。在模態(tài)內(nèi)對比學(xué)習(xí)的過程中,視覺特征向量靠近視覺正樣本,同時遠離視覺對抗性負樣本。接著,視覺對抗性負樣本進行對抗更新,使得自身更加接近視覺特征向量,增加對比學(xué)習(xí)的難度。圖1左下聽覺特征向量對應(yīng)的模態(tài)內(nèi)對抗對比學(xué)習(xí)流程也是如此。

最終,視覺和聽覺特征向量既包含了模態(tài)間信息,也包含了自身模態(tài)的信息。其融合了視聽覺信息,可以更好地指導(dǎo)圖1右側(cè)的下游任務(wù),提升準確率。1.2節(jié)的數(shù)學(xué)推導(dǎo)證明了對抗性負樣本可以不斷地跟蹤音視頻訓(xùn)練樣本中難以區(qū)分的樣本,從而提高對比學(xué)習(xí)質(zhì)量。

圖1 面向多模態(tài)自監(jiān)督特征融合的音視頻對抗對比學(xué)習(xí)方法方法示意圖

本文定義了一個視聽覺對抗性負樣本集合,以此來代替原有的視覺對抗性負樣本集合和聽覺對抗性負樣本集合。這一改進簡化了框架,降低了框架的復(fù)雜度,1.3節(jié)的數(shù)學(xué)推導(dǎo)和2.3.1節(jié)的消融實驗證明了這一簡化措施的等價性和有效性。

音視頻多模態(tài)自監(jiān)督學(xué)習(xí)的目的是通過預(yù)訓(xùn)練得到融合音視頻信息的特征表示,其通過微調(diào)可以遷移到不同下游任務(wù)上。對于提出的面向多模態(tài)自監(jiān)督特征融合的音視頻對抗對比學(xué)習(xí)方法,選取Kinetics-400(Kay 等,2017)數(shù)據(jù)集進行預(yù)訓(xùn)練,選取動作識別和音頻分類下游任務(wù),分別評估了訓(xùn)練得到的包含聽覺信息的視覺特征表示和包含視覺信息的聽覺特征表示。實驗從定性和定量的角度表明,該方法可以很好地融合音視頻特征,在動作識別和音頻分類下游任務(wù)上與其他音視頻跨模態(tài)自監(jiān)督學(xué)習(xí)方法相比取得了具有競爭性的結(jié)果。

綜上所述,本文的貢獻在于:

1)提出了面向多模態(tài)自監(jiān)督特征融合的音視頻對抗對比學(xué)習(xí)方法,創(chuàng)新性地引入了視覺、聽覺對抗性負樣本集合來構(gòu)建音視頻負樣本空間;

2)構(gòu)建了音視頻模態(tài)間與模態(tài)內(nèi)對抗對比的聯(lián)合學(xué)習(xí)模式,并證明了視覺和聽覺對抗性負樣本可以有效跟蹤訓(xùn)練樣本中難以區(qū)分的樣本,從而提高了音視頻特征融合質(zhì)量;

3)進一步提出了音視頻對抗對比學(xué)習(xí)簡化框架,在減少一半視聽覺對抗性負樣本的同時保證了本文方法的精度。

1 面向多模態(tài)自監(jiān)督特征融合的音視頻對抗對比學(xué)習(xí)

面向多模態(tài)自監(jiān)督特征融合的音視頻對抗對比學(xué)習(xí)方法引入了視覺和聽覺對抗性負樣本,從而構(gòu)建了一個更加高效的音視頻跨模態(tài)負樣本空間,增強了音視頻跨模態(tài)對比學(xué)習(xí)的學(xué)習(xí)質(zhì)量。

1.1 音視頻對抗對比學(xué)習(xí)框架

圖2 音視頻對抗對比學(xué)習(xí)框架

本文采用了經(jīng)典的InfoNCE對比損失函數(shù)(van den Oord 等,2018),具體為

LInfoNCE(X,X′,R)=

(1)

綜上所述,一方面,通過音視頻編碼器將視覺片段和音頻片段投影到特征空間,得到視覺正樣本對和聽覺正樣本對;另一方面,定義視覺對抗性負樣本集合和聽覺對抗性負樣本集合。由于集合中的每個對抗性負樣本都是可梯度更新的,相當于在每個對抗性負樣本后都添加了全連接層。初始狀態(tài)下,全連接層的可梯度更新的參數(shù)矩陣為單位矩陣(矩陣行寬和列寬均為向量長度)?;谝粢曨l正樣本對和視聽覺對抗性負樣本集合,計算得到模態(tài)間與模態(tài)內(nèi)對比損失函數(shù)。

因為視覺對抗性負樣本集合Rv和聽覺對抗性負樣本集合Ra初始化為正態(tài)分布,所以其本身不包含音視頻信息。如果僅僅定義模態(tài)內(nèi)損失函數(shù)或模態(tài)間損失函數(shù),那么就僅能學(xué)習(xí)到對應(yīng)模態(tài)的特征,而無法學(xué)習(xí)到音視頻跨模態(tài)特征,從而退化為單一模態(tài)下的對抗對比學(xué)習(xí)。因此,定義了聯(lián)合對比損失函數(shù)LJoint,具體為

LJoint=LCross+LIn

(2)

LCross=LInfoNCE(Xv,X′a,Ra)+

LInfoNCE(Xa,X′v,Rv)

(3)

LIn=LInfoNCE(Xv,X′v,Rv)+

LInfoNCE(Xa,X′a,Ra)

(4)

式中,LIn為音視頻模態(tài)內(nèi)的對比損失函數(shù),LCross為音視頻模態(tài)間的對比損失函數(shù)。這一聯(lián)合損失的形式與圖2右側(cè)一致。在圖2中,對比損失函數(shù)LInfoNCE(Xv,X′a,Ra)簡寫為Lossva,其他3個損失函數(shù)亦然。在1.2節(jié)中,證明了通過對抗對比學(xué)習(xí)優(yōu)化聯(lián)合對比損失函數(shù)LJoint(式(2)),視覺對抗性負樣本集合Rv和聽覺對抗性負樣本集合Ra不僅跟蹤了模態(tài)內(nèi)難以區(qū)分的特征樣本,同時也跟蹤了模態(tài)間的難以區(qū)分的特征樣本。

1.2 音視頻對抗對比學(xué)習(xí)梯度分析

根據(jù)定義的聯(lián)合對比損失函數(shù)LJoint(式(2))可以看到,存在著兩個可訓(xùn)練的主體:音視頻查詢編碼器fvq和faq以及視覺和聽覺對抗性負樣本集合Rv和Ra。不僅沿著聯(lián)合對比損失函數(shù)LJoint最小化方向更新音視頻查詢編碼器fvq的參數(shù)θv和faq的參數(shù)θa,還沿著聯(lián)合對比損失函數(shù)LJoint最大化方向更新視覺和聽覺對抗性負樣本集合Rv和Ra。因此,聯(lián)合對比損失函數(shù)LJoint的優(yōu)化問題變成了一個最大最小化問題,即

(5)

(6)

(7)

(8)

(9)

(10)

1.3 音視頻對抗對比學(xué)習(xí)框架的簡化

(11)

(12)

2 實驗及結(jié)果分析

為了評估性能,首先進行預(yù)訓(xùn)練,然后在動作識別和音頻分類下游任務(wù)上進行遷移學(xué)習(xí),最后分別進行定性和定量評估。音視頻對應(yīng)和音視頻實例判別是音視頻跨模態(tài)自監(jiān)督學(xué)習(xí)領(lǐng)域具有代表性的方法,分別與它們進行實驗對比。對抗對比學(xué)習(xí)(adversarial contrast,AdCo)是一種視覺模態(tài)下的自監(jiān)督表示學(xué)習(xí)方法。將其作為比較方法,體現(xiàn)音視頻特征融合的有效性。音視頻對應(yīng)(audio visual corresponding,AVC)是一個二元分類任務(wù):給定一個視覺片段和一個音頻片段,判斷它們是否對應(yīng),其中正對來源于同一個視頻,負對來源于不同視頻。音視頻實例判別學(xué)習(xí)則采用對比學(xué)習(xí),將一個視覺片段與多個音頻片段進行對比,同時將一個音頻片段與多個視覺片段進行對比。其中正對來源于視頻中時間同步對應(yīng)的音視頻片段,負樣本既可能來源于同一視頻的不同時間點的片段,也有可能來源于不同視頻的片段。因此,音視頻實例判別中包含了音視頻對應(yīng)和音視頻時間同步這兩個隱含約束條件。音視頻實例判別學(xué)習(xí)存在3種變體,分別是模態(tài)間實例判別學(xué)習(xí)(self-audio visual instance discrimination)、聯(lián)合模態(tài)實例判別學(xué)習(xí)(joint-audio visual instance discrimination)和跨模態(tài)音視頻實例判別學(xué)習(xí)(cross-audio visual instance discrimination,Cross-AVID)。經(jīng)過實驗驗證,跨模態(tài)音視頻實例判別學(xué)習(xí)在3種變體中達到了最優(yōu)效果(Morgado 等,2021b),因此本文采用跨模態(tài)音視頻實例判別學(xué)習(xí)(Cross-AVID)作為比較方法。為了公平比較,采用與本文方法相同的架構(gòu)和優(yōu)化設(shè)置重新實施上述方法。

2.1 實驗設(shè)置

2.1.1 數(shù)據(jù)集選取

采用Kinetics-400K(Kay 等,2017)的子集Kinetics-100K(Morgado 等,2021b)進行音視頻對抗對比學(xué)習(xí)預(yù)訓(xùn)練。Kinetics-400數(shù)據(jù)集包括了240 K的持續(xù)時間大約為10 s的視頻,涵蓋了400類人類動作,例如演奏樂器、握手或者擁抱等。在預(yù)訓(xùn)練時,僅使用自監(jiān)督學(xué)習(xí)方法提取Kinetics-400數(shù)據(jù)集中的音視頻信息,而不使用標簽信息。

針對下游動作識別任務(wù),選取了UCF-101數(shù)據(jù)集(Soomro 等,2012)和HMDB-51(human metabolome database)數(shù)據(jù)集。UCF-101數(shù)據(jù)集包含了13 320個視頻,涵蓋了101類真實動作,具有動作多樣性。UCF-101的視頻在相機運動幅度、物體外觀和姿態(tài)、物體尺度、視角、背景和光照條件上都存在較大變化,非常具有挑戰(zhàn)性。HMDB數(shù)據(jù)集(Kuehne等,2011)包含6 849個剪輯,分為51個動作類別,每個類別至少包含101個剪輯。動作類別可以分為5種類型:面部表情動作、與對象操縱相關(guān)的嘴部動作、肢體運動、與環(huán)境交互的肢體動作以及與人類交互的肢體動作。可以看到,HMDB51數(shù)據(jù)集類別之間的相似性高,非常具有挑戰(zhàn)性。本文選取了HMDB-51數(shù)據(jù)集中的20類動作進行下游動作識別任務(wù)。針對下游音頻分類任務(wù),采用了ESC50(environmental sound classification)數(shù)據(jù)集(Piczak,2015)。ESC50數(shù)據(jù)集包含有2 000個環(huán)境錄音,每段錄音長度為5 s,分為50個類別,可以作為環(huán)境聲音分類的基準測試方法。本文選取了ESC50數(shù)據(jù)集中的25類用做基準。

2.1.2 視覺特征與聽覺特征的預(yù)處理

在視覺處理上,以16 幀/s的幀率隨機選取一段時長為0.5 s的視覺片段,其中包含了8個連續(xù)的視頻幀。然后對選取的視覺片段進行標準的視覺增強操作(Szegedy 等,2015),包括隨機裁剪、隨機水平翻轉(zhuǎn)和色彩調(diào)節(jié)。經(jīng)過視覺增強操作,得到8×224×224的視覺增強視圖對,將其送入到視覺編碼器組中。在音頻處理上,以24 KHz的音頻采樣頻率選取了與視覺片段對應(yīng)的時長為2 s的音頻片段。同樣地,對音頻片段進行增強操作,包括隨機調(diào)整音量、時間抖動,并且接著進行了短時傅里葉變換,得到了200×257(200個時間步長,257個頻率點)的音頻增強視圖對,將其送入音頻編碼器組中。

2.1.3 音視頻網(wǎng)絡(luò)架構(gòu)和優(yōu)化設(shè)置

對于視覺模態(tài),選取了2層標準3D卷積神經(jīng)網(wǎng)絡(luò),并在其后添加了3層MLP(multilayer perceptron)層,以此作為視覺編碼器架構(gòu)。對于聽覺模態(tài),選取了2層標準2D卷積神經(jīng)網(wǎng)絡(luò),同樣在其后添加了3層MLP層,以此作為音頻編碼器架構(gòu)。具體架構(gòu)如表1所示。

表1 音視頻網(wǎng)絡(luò)架構(gòu)

在表1中,Xs表示視覺片段中每一幀的空間尺寸,Xn表示視覺片段的幀數(shù),Cv表示視覺片段的通道數(shù),Xf表示音頻片段的頻率采樣點數(shù),Xt表示音頻片段的時間采樣點數(shù),Ca表示音頻片段的通道數(shù)。對于視覺片段,采用RGB格式,因此視覺片段的初始通道數(shù)為3。對于音頻片段,采用單通道,因此音頻片段的初始通道數(shù)為1。視覺與聽覺對抗性負樣本集合大小均設(shè)置為65 536。

Adam優(yōu)化器學(xué)習(xí)率分別設(shè)置為0.011和1.1來優(yōu)化音視頻編碼器網(wǎng)絡(luò)和視聽覺對抗性負樣本集合。優(yōu)化器權(quán)重衰減值均設(shè)置為0.000 01,動量值均設(shè)置為0.9。批處理大小設(shè)置為96,訓(xùn)練總批次設(shè)置為30。訓(xùn)練過程使用了2塊TITAN Xp型號的GPU。在訓(xùn)練過程中,對于同一個批次,首先沿對比損失減小的梯度方向來更新音視頻編碼器網(wǎng)絡(luò),然后沿對比損失增大的梯度方向來更新視覺和聽覺對抗性負樣本集合。

2.2 定性評估

2.2.1 預(yù)訓(xùn)練效果的定性評估

對本文方法的預(yù)訓(xùn)練效果進行定性評估。將視覺編碼器組的視覺查詢編碼器作為前端,并在其后加上了1層全連接層和1層softmax層來映射至101類,以此作為下游動作識別的監(jiān)督網(wǎng)絡(luò)。遵循之前的工作(Korbar 等,2018;Tian 等,2020;Han 等,2019)在UCF-101數(shù)據(jù)集上的評估協(xié)議,網(wǎng)絡(luò)重新整體微調(diào)訓(xùn)練來進行遷移學(xué)習(xí)。與此同時,將視覺查詢編碼器未經(jīng)預(yù)訓(xùn)練的監(jiān)督網(wǎng)絡(luò)和視覺查詢編碼器經(jīng)過Cross-AVID預(yù)訓(xùn)練后的監(jiān)督網(wǎng)絡(luò)設(shè)置為對照網(wǎng)絡(luò)。

預(yù)訓(xùn)練參數(shù)在2.1節(jié)已經(jīng)詳細說明,為了進行下游遷移學(xué)習(xí),還需要進行下游監(jiān)督網(wǎng)絡(luò)的優(yōu)化設(shè)置。仍舊使用Adam優(yōu)化器來優(yōu)化網(wǎng)絡(luò)。為了與預(yù)訓(xùn)練參數(shù)保持合理的相對關(guān)系,優(yōu)化器的學(xué)習(xí)率設(shè)置為0.000 1,動量設(shè)置為0.9,批處理大小設(shè)置為64,總訓(xùn)練批次設(shè)置為13。

在經(jīng)過上游預(yù)訓(xùn)練(可選)和下游遷移學(xué)習(xí)后,通過對101維標簽中實際類別指向的標簽誤差進行反向傳播,提取監(jiān)督網(wǎng)絡(luò)最后一層卷積層的梯度,然后將梯度可視化,并與原始圖像相疊加,最終可得監(jiān)督網(wǎng)絡(luò)最后一層卷積層的梯度類激活熱力圖(gradient-class activation map,Grad-CAM),如圖3所示。由于監(jiān)督網(wǎng)絡(luò)最后一層卷積層的尺寸為112×112,因此給出的梯度類激活熱力圖的細粒度較大。另外,由于圖像經(jīng)過了數(shù)據(jù)增強操作,與原始圖像相比,梯度類別激活熱力圖會隨機水平翻轉(zhuǎn)或者隨機局部放大。

圖3 梯度類激活熱力圖對比

圖3從左到右原始圖像的真實動作標簽分別為:棒球投擲、彈奏西塔琴、彈奏多爾鼓和乒乓球擊球。對于Grad-CAM來說,越明亮的地方表明其梯度值越大,對于類別的貢獻越大。圖3第1列,相比于視覺查詢編碼器未經(jīng)預(yù)訓(xùn)練和視覺查詢編碼器經(jīng)過Cross-AVID預(yù)訓(xùn)練后的監(jiān)督網(wǎng)絡(luò),視覺查詢編碼器經(jīng)過本文方法預(yù)訓(xùn)練后的監(jiān)督網(wǎng)絡(luò)更多地關(guān)注了棒球手的全身投擲準備動作,這些都是高層語義信息,是區(qū)分動作的重要信息源。第2列視覺查詢編碼器經(jīng)過本文方法預(yù)訓(xùn)練后的監(jiān)督網(wǎng)絡(luò)更多地關(guān)注了彈琴者的彈琴動作,而不是像Cross-AVID只是關(guān)注了一些邊緣輪廓信息。第3列視覺查詢編碼器經(jīng)過本文方法預(yù)訓(xùn)練后的監(jiān)督網(wǎng)絡(luò)更多地關(guān)注了擊鼓者的擊鼓動作。第4列視覺查詢編碼器經(jīng)過本文方法預(yù)訓(xùn)練后的監(jiān)督網(wǎng)絡(luò)更多地關(guān)注了乒乓球運動員的擊球動作。圖3表明,經(jīng)過本文方法預(yù)訓(xùn)練后,下游動作識別任務(wù)的監(jiān)督網(wǎng)絡(luò)更多地關(guān)注了高層語義信息。

2.2.2 視覺和聽覺對抗性負樣本質(zhì)量的定性評估

在1.2節(jié)的音視頻對抗對比學(xué)習(xí)梯度分析中,證明了視覺和聽覺對抗性負樣本可以跟蹤難以區(qū)分的視聽覺樣本。本節(jié)通過可視化音視頻對抗對比學(xué)習(xí)的音視頻查詢樣本與視覺和聽覺對抗性負樣本的t-SNE(t-distributed stochastic neighbor embedding)圖,定性分析了視覺和聽覺對抗性負樣本的質(zhì)量。由于本文方法既有音視頻模態(tài)間對抗對比學(xué)習(xí),又有音視頻模態(tài)內(nèi)對抗對比學(xué)習(xí),因此,將音視頻查詢樣本與視覺和聽覺對抗性負樣本(在圖4(a)中簡記為音視頻對抗樣本)組合在一起,繪制其t-SNE圖,如圖4(a)所示。

將跨模態(tài)音視頻實例判別(Cross-AVID)設(shè)置為對照方法。由于跨模態(tài)音視頻實例判別僅僅使用了模態(tài)間對比學(xué)習(xí),因此將視覺查詢樣本和從音頻存儲庫中采樣的負樣本組合在一起,繪制其t-SNE圖,如圖4(b)所示;將視覺查詢向量和從音頻存儲庫中采樣的負樣本組合在一起,繪制其t-SNE圖,如圖4(c)所示。

圖4 音視頻對抗對比學(xué)習(xí)的t-SNE圖與跨模態(tài)音視頻實例判別的t-SNE圖對比

將圖4(a)(b)進行比較,可以發(fā)現(xiàn)本文方法獲得的視覺對抗性負樣本的分布更加均勻,呈橢圓狀分布,而在Cross-AVID中,從音頻存儲庫采樣的負樣本的分布卻存在著小集群,即圖4(b)中紅框所標區(qū)域。與圖4(c)進行比較,可以發(fā)現(xiàn)在Cross-AVID中,從視覺存儲庫采樣的負樣本分布不均勻,即圖4(c)中紅框標注區(qū)域缺失了負樣本。

圖4(b)(c)中存在的小集群以及缺失會使得Cross-AVID方法的負樣本空間無法很好地覆蓋到音視頻查詢樣本。這會導(dǎo)致音視頻查詢樣本與負樣本很容易被區(qū)分。而通過本文方法獲得的視覺和聽覺對抗性負樣本分布(圖4(a))呈橢圓形,較好覆蓋到音視頻查詢樣本。因此音視頻查詢樣本與對抗性負樣本不容易區(qū)分,有利于提高對比學(xué)習(xí)的質(zhì)量。也就是說,視覺與聽覺對抗性負樣本在迭代過程中密切跟蹤了視聽覺樣本,構(gòu)建了一個更加高效的音視頻負樣本空間。

2.3 定量評估

將本文方法與音視頻對應(yīng)(AVC)和跨模態(tài)音視頻實例判別(Cross-AVID)這兩種音視頻自監(jiān)督學(xué)習(xí)方法進行比較。此外,設(shè)置了對抗對比學(xué)習(xí)(AdCo)作為視覺單模態(tài)的對照組。在相同的架構(gòu)下,相比于視覺表示對比學(xué)習(xí)(SimCLR)、動量對比學(xué)習(xí)(MoCO v2)和基于聚類對比的對比學(xué)習(xí)SWAV(swapping assignments between views)等視覺自監(jiān)督學(xué)習(xí)方法,AdCo在ImageNet數(shù)據(jù)集上的TOP1準確率更高(Hu 等,2021)。本文還對1.3節(jié)中提出的簡化(表2中最后一行)進行了消融實驗。

2.3.1 動作識別任務(wù)

表2比較了各種音視頻自監(jiān)督表征學(xué)習(xí)方法預(yù)訓(xùn)練的遷移效果。在相同實驗設(shè)置下,基于視覺單模態(tài)的自監(jiān)督表征學(xué)習(xí)方法AdCo在各項指標上均低于基于音視頻多模態(tài)的自監(jiān)督表征學(xué)習(xí)方法(AVC、Cross-AVID、本文),這說明基于音視頻多模態(tài)的方法學(xué)習(xí)到了更加高質(zhì)量的信息(Huang 等,2021),因此在下游遷移任務(wù)上的效果也更好。比較3種基于音視頻多模態(tài)的自監(jiān)督表征學(xué)習(xí)方法,本文方法在視覺片段級別的TOP1和TOP5準確率以及視頻級別的TOP1和TOP5準確率上均達到了最優(yōu)效果。與跨模態(tài)音視頻實例判別(Cross-AVID)方法相比,視覺片段級別的TOP1準確率高出了0.47%,視覺片段級別的TOP5準確率高出了2.06%;視頻級別的TOP1準確率高出了0.35%,視頻級別的TOP5準確率高出3.17%。音視頻對應(yīng)(AVC)方法除了在視頻級別的TOP5準確率上比跨模態(tài)音視頻實例判別(Cross-AVID)方法高0.68%以外,其他指標均低,這是由于跨模態(tài)音視頻實例判別(Cross-AVID)學(xué)習(xí)還包含了同一視頻的不同時間點的負樣本片段,因此隱含有音視頻時間同步這一約束條件,是一個更為困難的對比學(xué)習(xí)任務(wù),可以學(xué)習(xí)到更優(yōu)質(zhì)的特征表示。而本文方法由于構(gòu)建了更加高效的負樣本空間,因此學(xué)習(xí)到的特征表示包含了更加豐富的音視頻信息,在下游任務(wù)上的遷移效果更好。與無預(yù)訓(xùn)練直接進行動作識別的方法相比,3種音視頻多模態(tài)自監(jiān)督表征學(xué)習(xí)方法在各項指標上均有提升,這說明了其有效性。與此同時,雖然AdCo在ImageNet的TOP1準確率上效果優(yōu)于SimCLR、MoCO v2和SWAV等視覺自監(jiān)督學(xué)習(xí)方法(Hu 等,2021),但是AdCo在動作識別UCF數(shù)據(jù)集上準確率指標值卻均低于未經(jīng)預(yù)訓(xùn)練的方法的指標值,這可能是因為AdCo采用了與3種音視頻多模態(tài)自監(jiān)督表征學(xué)習(xí)方法相同的實驗設(shè)置,而它需要更多的訓(xùn)練批次。

表2 動作識別任務(wù)準確率(UCF)

此外,在HMDB動作識別數(shù)據(jù)集上進行了測試。將預(yù)訓(xùn)練得到的視覺編碼器組的視覺查詢編碼器作為前端,下游網(wǎng)絡(luò)設(shè)置了3層全連接層和1層softmax層來映射至20類,采用Adam優(yōu)化器來優(yōu)化網(wǎng)絡(luò),學(xué)習(xí)率設(shè)置為0.000 1,動量設(shè)置為0.9,批處理大小設(shè)置為64,訓(xùn)練批次設(shè)置為8。由于類別數(shù)為20,TOP5準確率意義不大,因此表3中給出視覺片段級別和視頻級別的TOP1準確率。

表3 動作識別任務(wù)準確率(HMDB)

通過表3可以看到,在相同的實驗條件下,本文方法在HMDB動作識別數(shù)據(jù)集上達到了最優(yōu)效果。相比于Cross-AVID方法,本文方法在視覺片段級別的TOP1準確率和視頻級別的TOP1準確率上分別高了0.89%和0.83%。AdCo的視覺片段級別和視頻級別的TOP1準確率比無預(yù)訓(xùn)練的準確率分別高了2.3%和2.48%,這可能是因為對動作識別HMDB數(shù)據(jù)集來說,AdCo的預(yù)訓(xùn)練是充分的。

表2和表3的最后兩行分別在UCF和HMDB動作識別數(shù)據(jù)集上進行了改進措施的消融實驗。比較表2最后兩行的數(shù)據(jù),在UCF動作識別數(shù)據(jù)集上,對比本文方法在簡化前和簡化后的表現(xiàn),視覺片段級別和視頻級別的TOP1準確率相差不超過0.25%,視覺片段級別和視頻級別的TOP5準確率相差不超過0.5%。比較表3最后兩行的數(shù)據(jù),在HMDB動作識別數(shù)據(jù)集上,對比本文方法在簡化前和簡化后的表現(xiàn),視覺片段級別的TOP1準確率差值超過0.5%。這可能是由于HMDB數(shù)據(jù)集的動作幅度大,導(dǎo)致視覺片段級別的準確率波動大。視頻級別準確率通過對視覺片段的預(yù)測值取平均后得出。可以看到,視頻級別的TOP1準確率相差不超過0.25%。在這兩個數(shù)據(jù)集上的消融實驗結(jié)果說明了簡化對抗性負樣本這一措施在減少了一半對抗性負樣本的同時保證了精度。

2.3.2 音頻分類任務(wù)

在環(huán)境聲音ESC數(shù)據(jù)集上,對本文方法得到的包含視覺信息的聽覺特征進行評估。具體來說,將預(yù)訓(xùn)練得到的音頻編碼器組的音頻查詢編碼器作為前端,下游網(wǎng)絡(luò)設(shè)置了3層全連接層和1層softmax層,映射至25類。采用了Adam優(yōu)化器對網(wǎng)絡(luò)進行優(yōu)化,學(xué)習(xí)率設(shè)置為0.000 1,動量設(shè)置為0.9,批處理大小設(shè)置為64,訓(xùn)練批次設(shè)置為8。由于AdCo是純視覺預(yù)訓(xùn)練方法,因此本文選用了音視頻對應(yīng)AVC方法和跨模態(tài)音視頻實例判別學(xué)習(xí)Cross-AVID方法作為音頻分類任務(wù)的對照組。

在表4中報告了音頻片段級別和音頻級別的TOP1準確率。通過對同一音頻的10個音頻片段的預(yù)測值(預(yù)測為各個類別的值,大小為0到1之間)求平均,計算得到音頻級別的TOP1準確率。

表4 音頻分類任務(wù)準確率(ESC)

通過表4可以看到,本文方法效果優(yōu)于無預(yù)訓(xùn)練的方法。這證明了本文方法的有效性。相比于各類音視頻自監(jiān)督表示學(xué)習(xí)方法,本文提出的方法達到了最優(yōu)效果。具體來說,相比于跨模態(tài)音視頻實例判別學(xué)習(xí)Cross-AVID,在音頻片段級別的TOP1準確率上高出了1.56%,在音頻級別的TOP1準確率上高出了2.88%。相比于音視頻對應(yīng)學(xué)習(xí)AVC,在音頻片段級別的TOP1準確率上高出了3.13%,在音頻級別的TOP1準確率上高出了3.84%。

2.4 音視頻對抗對比學(xué)習(xí)訓(xùn)練架構(gòu)分析

在本節(jié)中,通過增加音視頻對抗對比學(xué)習(xí)的網(wǎng)絡(luò)架構(gòu)的深度,測試了其在不同深度網(wǎng)絡(luò)架構(gòu)上的表現(xiàn)。

音視頻對抗對比學(xué)習(xí)的視覺架構(gòu)從2層拓展到了18層,新增加的16層使用了R(2+1)D卷積層(Tran 等,2018),最后的3層全連接層保留。音視頻架構(gòu)從2層標準2D卷積神經(jīng)網(wǎng)絡(luò)拓展到了10層2D卷積神經(jīng)網(wǎng)絡(luò),最后的3層全連接層也仍然保留。由于深層網(wǎng)絡(luò)架構(gòu)的訓(xùn)練參數(shù)遠大于淺層網(wǎng)絡(luò)架構(gòu),為了保證深層網(wǎng)絡(luò)和淺層網(wǎng)絡(luò)架構(gòu)具有可比性,深層網(wǎng)絡(luò)優(yōu)化參數(shù)中的批處理大小設(shè)置為32,下游訓(xùn)練批次設(shè)置為7,其余優(yōu)化參數(shù)與2.1.3節(jié)設(shè)置的一致。

下游動作識別任務(wù)數(shù)據(jù)集選用UCF數(shù)據(jù)集。經(jīng)過預(yù)訓(xùn)練后,在下游動作識別監(jiān)督網(wǎng)絡(luò)上進行遷移學(xué)習(xí),優(yōu)化參數(shù)與2.3.1節(jié)中設(shè)置的一致。最終得到了音視頻對抗對比學(xué)習(xí)分別在淺層網(wǎng)絡(luò)架構(gòu)和深層網(wǎng)絡(luò)架構(gòu)上的視覺片段級別的TOP1準確率、TOP5準確率和視頻級別的TOP1準確率、TOP5準確率,如圖5左側(cè)4組柱狀圖所示。在圖5右側(cè)還繪制了不同架構(gòu)的參數(shù)數(shù)目對比的柱狀圖。

如圖5第5組所示,深層網(wǎng)絡(luò)架構(gòu)參數(shù)比淺層網(wǎng)絡(luò)架構(gòu)參數(shù)多出一千萬個左右。通過圖5左側(cè)4組可以看到,深層網(wǎng)絡(luò)架構(gòu)下的學(xué)習(xí)效果均優(yōu)于淺層網(wǎng)絡(luò)架構(gòu)下的學(xué)習(xí)效果,在視覺片段級別的TOP1準確率上高出了2.59%,在視覺片段級別的TOP5準確率上高出了5.87%;在視頻級別的TOP1準確率上高出了3.48%,在視頻級別的TOP5準確率上高出了5.44%。準確率的提升說明本文方法通過加深網(wǎng)絡(luò)架構(gòu)得到了更好的效果,并且還有很大的提升空間。

圖5 不同深度網(wǎng)絡(luò)架構(gòu)下的音視頻對抗對比學(xué)習(xí)的學(xué)習(xí)效果比較

3 結(jié) 論

本文的主要研究內(nèi)容是面向多模態(tài)自監(jiān)督特征融合的音視頻對抗對比學(xué)習(xí)方法。通過創(chuàng)新性地引入視覺和聽覺對抗性負樣本和音視頻模態(tài)內(nèi)與模態(tài)間相聯(lián)合的對抗對比學(xué)習(xí)方式,使得視聽覺對抗性負樣本可以不斷跟蹤難以區(qū)分的樣本,構(gòu)建了更加高效的音視頻負樣本空間,提高了音視頻對比學(xué)習(xí)的學(xué)習(xí)質(zhì)量。在此基礎(chǔ)上,提出了采用視聽覺對抗性負樣本來代替視覺對抗性負樣本和聽覺對抗性負樣本,簡化框架的同時保持了性能。

在相同條件下與Cross-AVID等方法比較,本文提出的音視頻對抗對比學(xué)習(xí)方法在動作識別和音頻分類上的各項指標均達到了最優(yōu)效果。本文方法存在的不足有:通過增加網(wǎng)絡(luò)深度,得到了更好的性能,說明存在很大的提升空間。此外,本文采用了整個負樣本空間用做對比學(xué)習(xí),一些與正樣本互相關(guān)性高的負樣本做出的貢獻可能有限(Morgado 等,2021b)。

下一步的工作可以在本文搭建的音視頻負樣本空間的基礎(chǔ)上,探索高效的負樣本選擇策略,提高特征融合質(zhì)量。本文方法具有廣泛的應(yīng)用場景,例如音源定位、視聽語音分離等音視頻相關(guān)的下游任務(wù)。

猜你喜歡
對抗性音視頻級別
痘痘分級別,輕重不一樣
技能主導(dǎo)類隔網(wǎng)對抗性項群運動訓(xùn)練特征和實戰(zhàn)技巧研究——以網(wǎng)球為例
缺乏陽剛的男孩子要多參加對抗性運動
3KB深圳市一禾音視頻科技有限公司
關(guān)于羽毛球教學(xué)中多球訓(xùn)練的探討
東方教育(2018年19期)2018-08-23 08:58:06
WIFI音視頻信號傳輸?shù)年P(guān)鍵問題探究
電子制作(2018年12期)2018-08-01 00:48:06
邁向UHD HDR的“水晶” 十萬元級別的SIM2 CRYSTAL4 UHD
新年導(dǎo)購手冊之兩萬元以下級別好物推薦
技戰(zhàn)能主導(dǎo)類格斗對抗性項群的競技特點與訓(xùn)練要求
你是什么級別的
上犹县| 兰州市| 新龙县| 陵川县| 桐庐县| 九江县| 东安县| 衡东县| 惠东县| 肥城市| 长治市| 崇信县| 儋州市| 富裕县| 城口县| 石家庄市| 潞西市| 龙井市| 申扎县| 南皮县| 方城县| 会同县| 阳朔县| 江达县| 罗甸县| 巴中市| 营山县| 九龙县| 丹巴县| 湘潭市| 安乡县| 夏津县| 繁峙县| 吴旗县| 平塘县| 潜山县| 女性| 株洲县| 额敏县| 漳平市| 西畴县|