朱旭東,熊 贇
(1.復旦大學 計算機科學與技術(shù)學院,上海 200433;2.上海市數(shù)據(jù)科學重點實驗室,上海 200433)
圖像多標簽分類技術(shù)作為計算機視覺領(lǐng)域的經(jīng)典技術(shù),在圖像識別、檢測等場景下得到廣泛應用,具有重要研究意義。如何通過有效學習標簽之間相關(guān)性的信息,提升多標簽的分類效果,已受到越來越多研究人員的關(guān)注。目前,多標簽場景下還存在數(shù)據(jù)分布不均衡、正負樣本學習等問題?,F(xiàn)有對多標簽關(guān)系的建模多基于標簽信息統(tǒng)計,一定程度上捕捉了標簽相關(guān)信息,但僅使用標簽統(tǒng)計信息的標簽泛化性較差,容易產(chǎn)生不同樣本分布類別間的偏差,不能有效利用圖像信息學習標簽關(guān)系。
本文提出一種基于圖結(jié)構(gòu)與多層次注意力的圖像多標簽分類算法,通過建立不同尺度大小的特征層次空間,對特征層次空間注意力和通道注意力的權(quán)重進行分析與學習。此外,將不同特征層次和不同特征通道的注意力權(quán)重與圖像信息進行疊加,促進局部信息和整體信息的融合,從而獲取標簽語義空間和對應圖像特征空間之間的關(guān)系信息。另外,通過分析標簽相關(guān)性建立標簽語義空間和圖像特征空間的聯(lián)系,并對標簽語義特征和圖像特征進行融合,引入圖像特征信息和圖注意力機制進行動態(tài)圖模型更新。
多標簽分類的主要任務是建立標簽信息空間和數(shù)據(jù)特征空間的對應關(guān)系,與普通單標簽分類任務最大的區(qū)別在于多標簽分類中,同一實體的數(shù)據(jù)特征空間和標簽信息空間存在多個映射關(guān)系。
在圖像多標簽分類的相關(guān)研究中,文獻[1]在圖像特征空間進行劃分學習,文獻[2-4]注重對圖像中不同標簽對應目標的圖像特征進行學習,充分利用圖像特征與分類相關(guān)的信息,但這些文獻中所提算法忽略了標簽相關(guān)性信息和標簽語義信息,其中MRAR 算法[2]通過循環(huán)注意力模塊提取圖像特征不同區(qū)域信息,ORVA算法[3]通過引入無序循環(huán)網(wǎng)絡對圖像特征進行加權(quán)學習。文獻[5]通過概率分布計算輔助標簽分類,文獻[6-8]利用標簽語義信息融合圖像特征輔助圖像分類,但這些方法對標簽相關(guān)性信息利用不充分。其中,文獻[6]所提到的CMA 算法通過融合標簽信息和圖像進行多模態(tài)學習,而文獻[8]所提的LGS 算法利用相似性網(wǎng)絡捕捉標簽與圖像對應關(guān)系。文獻[9-11]對標簽間關(guān)系進行建模,其中CNN-RNN 算法[11]利用序列神經(jīng)網(wǎng)絡構(gòu)建標簽關(guān)系,結(jié)合卷積神經(jīng)網(wǎng)絡的圖像特征進行學習,MLGCN 算法[12]和FGCN 算法[13]等通過構(gòu)建多標簽圖模型,并利用圖模型中的邊定義標簽共現(xiàn)關(guān)系。這些方法建模的標簽關(guān)系利用了標簽相關(guān)信息進行輔助分類,但是泛化性和類別分類能力不平衡,有待改進。
針對現(xiàn)有方法存在的一些問題,如MLGCN算法[12]在構(gòu)建多標簽關(guān)系時,只考慮到標簽統(tǒng)計信息,容易造成標簽關(guān)系過擬合問題;FGCN 算法[13]在對標簽關(guān)系模型進行更新時,只使用標簽信息,沒有利用到圖像特征信息,使得構(gòu)建的標簽關(guān)系無法有效輔助圖像特征分類。本文提出基于動態(tài)圖的多層級注意力(Multi Level Attention based Dynamic Graph,MLADG)算法,通過結(jié)合基于知識先驗和標簽共現(xiàn)相關(guān)性建立的圖模型進行標簽信息和圖像特征融合,并采用圖注意力動態(tài)更新機制進行模型學習。
本節(jié)主要介紹圖像多標簽分類算法MLADG,算法的主要框架包括通過多尺度多通道圖像注意力機制學習圖像特征,標簽語義引導注意力機制融合標簽語義,通過在共現(xiàn)關(guān)系和先驗知識上的標簽圖模型結(jié)構(gòu),動態(tài)更新捕捉圖像特征和標簽之間關(guān)系。圖1 為MLADG 模型整體架構(gòu)示意圖(彩色效果見《計算機工程》官網(wǎng)HTML 版)。
多標簽分類問題中標簽間的相互關(guān)系包含多標簽分類的有效輔助信息。對于給定圖像I的標簽序列L=[l1,l2,…,ln],標簽序列中任一標簽li通過詞嵌入層的權(quán)重矩陣W獲得對應的低維表征向量ei。標簽詞語通常具有多種詞性和詞義,標簽語義嵌入重點關(guān)注標簽在詞嵌入模型中所具有的名詞詞性代表的語義。通過Glove 模型獲得圖像標簽詞語義信息。定義圖像多標簽共現(xiàn)關(guān)系圖模型Gs={Vs,Es},其中節(jié)點關(guān)系集合Vs∈{νs1,νs2,…,νsc}表示嵌入的標簽特征信息;邊集合為Es∈{es1,es2,…,esc}為圖像多標簽間共現(xiàn)關(guān)系,包含與每條邊相關(guān)非負權(quán)值。對于其中一條邊eij的值由pij=P(νi|νj)確定,即當標簽lj標記情況下標簽li同時進行標記。同理,pji表示當標簽li標記的情況下標簽lj同時標記的概率。
標簽共現(xiàn)圖通過統(tǒng)計標簽共現(xiàn)次數(shù),可以有效學習到標簽的分布情況。但標簽共現(xiàn)圖受訓練集數(shù)據(jù)分布影響很大,可能同時存在共現(xiàn)次數(shù)較多的標簽關(guān)系,造成頻率偏差,使得模型分類準確性受到數(shù)據(jù)分布不均衡的影響。為此,除共現(xiàn)關(guān)系圖外,借助知識圖譜ConceptNet[14]信息構(gòu)建知識先檢驗關(guān)系圖Gk={Vk,Ek},其中節(jié)點集合Vk∈{νk1,νk2,…,νkc}為嵌入的標簽語義特征,邊集合Ek∈{ek1,ek2,…,ekc}為知識圖譜中標簽相關(guān)性。ConceptNet 中各個標簽知識實體通過多元組形式構(gòu)成,將各個標簽在知識圖譜中同一元組的數(shù)量占該實體全部元組比重作為邊權(quán)重。
對于構(gòu)建的標簽共現(xiàn)圖Gs和標簽知識圖Gk,分別對其邊權(quán)重矩陣進行標準化后得到設(shè)定圖融合參數(shù)λ∈(0,1),最終得到的多標簽信息融合圖的計算式如式(1)所示:
多標簽圖像數(shù)據(jù)集I={i1,i2,…,in}中圖片i所包含的圖像特征空間信息與標簽信息空間存在映射關(guān)系。但在圖像中,真正對確定其標簽有幫助的特征信息只是圖像局部的關(guān)鍵特征信息,除此之外還存在對確定圖像標簽類別存在干擾的噪聲信息。通過多尺度多通道圖像特征注意力模塊在不同特征尺度和維度上對每個標簽語義對應的重點信息進行提取,標簽映射注意力模塊負責捕捉標簽語義信息和圖像特征信息相關(guān)性。
2.2.1 多通道注意力模塊
給定的多標簽圖像中不同標簽所對應的圖像區(qū)域目標大小不同,占據(jù)更大圖像區(qū)域的標簽可以提供更多的圖像特征信息。通過進行卷積神經(jīng)網(wǎng)絡學習,多標簽對應的圖像特征也分布在特征空間的各個通道。選取殘差網(wǎng)絡ResNet 作為圖像特征提取的主干神經(jīng)網(wǎng)絡,將殘差網(wǎng)絡不同層次卷積層Conv1、Conv2、Conv3 的輸出特征V1、V2、V3作為多尺度注意力的輸入,其中Conv1 為ResNet 中第1 個BottleNeck模塊最后一層卷積層,Conv2 為ResNet 中第2 個BottleNeck 最后一層卷積層,Conv3 為ResNet 中第3 個BottleNeck 最后一層卷積層。相應的V1表示較淺層特征信息,V2和V3分別表示中間層和深層特征信息。此外,對于每一層圖像特征,通過多通道分組注意力模塊得到圖像通道特征注意力A1、A2、A3,再通過softmax 函數(shù)獲得歸一化后的注意力信息A′1、,最后圖像I對應的特征表示如式(2)所示:
圖像I經(jīng)過卷積神經(jīng)網(wǎng)絡特征提取后得到的特征空間為X∈RH×W×C,其中:H和W分別表示特征尺度的高和寬;D表示特征空間的通道數(shù)。對于某個特定的類別lc通過多通道注意力機制獲得其相應注意力權(quán)重信息ac,將權(quán)重信息和特征空間進行點積運算可以獲得加權(quán)后的特征信息。對于全部類別的注意力信息空間A∈H×W,通過注意力學習后得到的圖像信息表征如式(3)所示:
通過C個1×1 卷積對特征空間X∈RH×W×D進行降維至X′∈RH×W×C,對X′中第ci個通道內(nèi)特征進行注意力加權(quán)為加權(quán)處理后 的ci通道特征,μx和σx分別為X特征空間中特征信息的均值和方差。的表達式如式(4)所示:
隨后通過設(shè)置特征恢復參數(shù)γ和β生成注意力權(quán)重,表達式如式(5)所示:
其中:aci為特征通道ci中學習到的注意力權(quán)重信息。
2.2.2 標簽引導模塊
為促進標簽語義特征和圖像特征的融合,更好地學習圖像特征的標簽意義,對于嵌入學習到的標簽lc的標簽詞語義ec,通過特征向量余弦相似度的計算捕捉標簽語義和圖像特征對應關(guān)系,可以得出標簽k在特征ν的位置i處的注意力
2.2.3 動態(tài)特征圖融合更新
標簽共現(xiàn)關(guān)系圖和知識先驗圖注重于標簽相關(guān)性和標簽語義知識的挖掘,圖模型的構(gòu)建依賴于靜態(tài)的標簽統(tǒng)計信息和知識信息。為利用圖像信息對圖模型進行更新,本文采取基于圖注意力[15]模式的動態(tài)特征融合圖更新模塊。具體實現(xiàn)方式:標簽融合圖最后一層輸出Gf和多尺度注意力模塊輸出特征Vf進行Concat 融合,得到動態(tài)圖模型的輸入信息hi。
之后,通過如式(9)所示的圖注意力公式計算得出動態(tài)特征融合圖注意力神經(jīng)網(wǎng)絡中注意力系數(shù)αij:
在模型訓練的過程中,不同批次數(shù)據(jù)的輸入提供動態(tài)的圖像信息,通過對多尺度模塊輸出特征的動態(tài)變化更新圖注意力層的輸入,使得模型在捕捉多標簽相關(guān)性的同時保持對圖像特征信息的敏感性。
為驗證本文算法的有效性,選取2 個數(shù)據(jù)集進行實驗,并和相關(guān)算法進行對比。實驗采用ResNet101[16]模型作為圖像特征提取器,在8×1 080 ti顯卡服務器訓練,使用的優(yōu)化器為SGD,動量參數(shù)設(shè)置為0.9,初始學習率為0.01,訓練周期為100,特征融合參數(shù)λ設(shè)置為0.5。
圖像多標簽分類評價指標最常用的指標為平均均值精度(mean Average Precision,mAP),同時也會采用平均每類精度(Class Precision,CP)、平均每類召回(Class Recall,CR)、平均每類(Class F1,CF1)以及整體平均精度(Overall Precision,OP)、整體平均召回(Overall Recall,OR)、整體平 均(Overall F1,OF1)。相關(guān)表達式分別如式(11)~式(16)所示。
使用VOC-2007[17]和COCO-2014[18]數(shù)據(jù)集。其中,VOC-2007 數(shù)據(jù)集包括Person、Animal、Vehicle 等20 個標簽類別,分 為train、val、test 這3 部分,共有9 963 張圖片;COCO-2014 數(shù)據(jù)集是使用最為廣泛的圖像數(shù)據(jù)集之一,包含共80 現(xiàn)實場景常見類別,82 783 張訓練圖片,40 775 張測試圖片。
為評估本文算法的有效性,選取ResNet101[16]、CNN-RNN[11]、RMIC[19]、MLGCN[12]、F-GCN[20]5 種算法進行對比實驗分析。
ResNet101 算法通過設(shè)置殘差模塊解決多層神經(jīng)網(wǎng)絡隨網(wǎng)絡深度增加帶來的梯度彌散問題,ResNet101 是其中神經(jīng)網(wǎng)絡共101 層的版本。CNNRNN 算法通過卷積神經(jīng)網(wǎng)絡特征提取器和序列神經(jīng)網(wǎng)絡的結(jié)合,建立多標簽序列捕捉多標簽相關(guān)性,為圖像分類提供輔助信息。RMIC 算法基于強化學習中原始多標簽問題框架,通過組合圖像特征和前序標簽信息作為下一輪標簽預測的新狀態(tài)。MLGCN 算法通過以標簽為節(jié)點,標簽相關(guān)性為邊構(gòu)建圖模型,邊權(quán)重為標簽共現(xiàn)概率,使用圖卷積神經(jīng)網(wǎng)絡進行圖模型更新。F-GCN 算法提出一種基于圖卷積神經(jīng)網(wǎng)絡的快速模型,利用多模態(tài)分解雙線性池化融合圖像信息和標簽嵌入信息,以端到端方式進行訓練。
不同算法在各個數(shù)據(jù)集的實驗結(jié)果如表1、表2所示。其中表1 為VOC-2007 數(shù)據(jù)集下的實驗結(jié)果,表2 為COCO-2014 數(shù)據(jù)集下的實驗結(jié)果,表中加粗數(shù)字表示該組數(shù)據(jù)最大值。
表1 不同算法在VOC-2007 數(shù)據(jù)集下的實驗結(jié)果對比Table1 Comparison of experimental results of different algorithms on VOC-2007 data set %
表2 不同算法在COCO-2014 數(shù)據(jù)集下的實驗結(jié)果對比Table2 Comparison of experimental results of different algorithms on COCO-2014 data set %
從表1、表2 中可得以下結(jié)論:
1)本文所提MLADG 算法在VOC-2007 和COCO-2014 兩個數(shù)據(jù)集中,在mAP、CP、OP 等指標上超過另外5 個對比算法。MLADG 算法在圖像多標簽分類的任務上有較好的表現(xiàn)。
2)由于MLGCN 算法相對于Resnet101 算法增加了對于標簽共現(xiàn)數(shù)據(jù)信息的學習,因此指標有明顯提升。但使用標簽共現(xiàn)關(guān)系,可能導致數(shù)量較少的標簽種類被正確分類的概率降低,而數(shù)量較多的標簽種類更易被分類。本文算法能夠增強對圖像特征和標簽相關(guān)性的關(guān)系學習。
3)F-GCN 算法相對于MLGCN 算法增加標簽語義信息和圖像特征信息的融合,有助于標簽語義指導圖像特征的學習,而MLADG 算法通過動態(tài)學習,能夠更好地利用圖像特征更新圖模型。
為驗證MLADG 算法相關(guān)模型設(shè)置的有效性,將原有模型中的各結(jié)構(gòu)通過以下設(shè)置:
1)多尺度多通道注意力驗證。移除多尺度多通道注意力模塊,直接使用ResNet101 算法提取的特征進行后續(xù)運算,其他保持不變。
2)標簽引導注意力驗證。移除標簽引導注意力模塊,其他保持不變。
3)動態(tài)圖更新驗證。移除動態(tài)特征圖更新機制,只使用圖注意力網(wǎng)絡,其他保持不變。
圖2 為MLADG 算法中各結(jié)構(gòu)有效性消融實驗的結(jié)果。由圖2 可知,有效性實驗中各結(jié)構(gòu)的移除均導致圖像多標簽分類各指標的下降,說明MLADG 中各結(jié)構(gòu)對于提高圖像多標簽分類效果均有正向作用,且各結(jié)構(gòu)能有效協(xié)同。其中多尺度多通道注意力模塊對mAP、CP、OP 的影響最大,說明該模塊對圖像中重點信息注意力的學習有效。此外,移除標簽引導注意力模塊指標下降,說明該模塊對標簽信息和圖像特征的融合有效引導了圖像信息的學 習。相 比于MLGCN[12]等算法,MLADG 算法將標簽關(guān)系圖和圖像特征信息分開學習,動態(tài)特征圖能夠?qū)D像特征學習和標簽關(guān)系建模結(jié)合,在mAP 指標上相對于靜態(tài)更新的標簽關(guān)系圖提升了1.2%。
圖2 MLADG 模塊消融實驗Fig.2 Ablation experiment of MLADG module
對MLADG 建模的多標簽信息關(guān)系圖中標簽關(guān)系進行可視化,如圖3 所示。對于兩個標簽li和lj,第i行第j列的示意圖方格表示為pi,j=P(li|lj),顏色越深表示標簽間相關(guān)性越強。
圖3 多標簽相關(guān)性可視化示意圖Fig.3 Visualization diagrammatic sketch of multi label correlation
由圖3 中可知,MLADG 算法能夠?qū)D像多標簽中標簽相關(guān)性進行清晰有效地建模。
為證明MLADG 算法中相關(guān)參數(shù)的有效性,本文在VOC-2007 數(shù)據(jù)集下進行不同參數(shù)驗證實驗。
在MLADG 算法中,參數(shù)λ為標簽共現(xiàn)圖和知識先驗圖平衡參數(shù),參數(shù)k為圖注意力神經(jīng)網(wǎng)絡層數(shù)。在參數(shù)敏感性實驗中,將λ在0~1 間進行遍歷,將圖注意力層數(shù)由1~6 進行遍歷,實驗其他參數(shù)設(shè)置和硬件環(huán)境配置與對比實驗相同。
圖4和圖5分別為參數(shù)k和參數(shù)λ驗證實驗的結(jié)果,由圖4 可知,當k=2 時,本文所提MLADG 算法達到最好的效果。這可能是當k=1 時圖注意力層過淺,無法有效建模多標簽關(guān)系,而當k過大時可能存在標簽特征嵌入過度平滑的問題,導致模型測試指標的下降。由圖5 可知,隨著參數(shù)λ增加,融合多標簽圖模型中標簽共現(xiàn)圖模型所占權(quán)重不斷增大,mAP 指標逐漸上升,直到λ 達到0.7 后開始下降。這可能是因為標簽共現(xiàn)圖模型中包含更豐富的標簽相關(guān)性信息,但由于訓練數(shù)據(jù)和測試數(shù)據(jù)的分布差異性以及數(shù)據(jù)集中不同類別圖像樣本數(shù)量不均衡分布對模型訓練的影響,導致分類器在不同類別圖像樣本中的分類能力偏差較大,整體指標降低。因此在參數(shù)λ過大時,融合多標簽圖模型中標簽相關(guān)性信息容易出現(xiàn)不平衡的現(xiàn)象。
圖4 k 參數(shù)在VOC-2007 數(shù)據(jù)集上的效果驗證Fig.4 Effect of parameter k in VOC-2007 data set
圖5 λ 參數(shù)在VOC-2007 數(shù)據(jù)集上的效果驗證Fig.5 Effect of parameter λ in VOC-2007 dataset
在圖像多標簽分類中,根據(jù)標簽關(guān)系進行建模存在標簽與圖像間學習關(guān)聯(lián)性弱的問題,且容易導致過擬合。本文提出一種基于多層次注意力和動態(tài)圖注意力機制的圖像多標簽分類算法MLADG。通過構(gòu)建多標簽信息圖模型建立標簽關(guān)系,將使用多層次注意力獲取的多層次圖像特征信息與標簽語義信息進行融合,構(gòu)建標簽語義和圖像特征相關(guān)性,并將動態(tài)圖模型引入圖像信息中以更新模型。實驗結(jié)果表明,在相同測試環(huán)境下,與MLGCN、F-GCN 等圖像多標簽分類算法相比,本文算法在mAP、CP、OP 等指標上均取得了較好效果。下一步將進行更高階維度的標簽相關(guān)性學習,如多個標簽間連續(xù)相關(guān)性的學習,并從標簽互斥角度對標簽關(guān)系的定義進行深度挖掘。