葛延良 張靜 畢洪波 張林 田鴻鵬 賀敏 李德鑫
摘 要 提出了一個基于圖像間的語義感知協(xié)同目標檢測算法,以高效的方式檢索整個圖像組的共識線索。對每個像素用語義感知協(xié)同模塊(SPCM)獲取其交叉路徑上所有像素的上下文信息。通過進一步的操作,最終可以捕獲整個圖像的共識信息。輔助分類融合模塊(ACFM)可使網絡以自上而下的方式突出協(xié)同區(qū)域。協(xié)同顯著性檢測實驗結果表明,文中的算法在3種常用的iCoseg、Cosal2015和CoSOD3k數據集中表現(xiàn)良好,4個指標性能優(yōu)異,驗證了該方法的有效性。
關鍵詞 協(xié)同顯著性檢測 圖像識別 語義感知協(xié)同模塊 輔助分類融合模塊
中圖分類號 TP391.41? ?文獻標志碼 A? ?文章編號 1000?3932(2024)01?0056?07
圖像協(xié)同顯著性檢測是通過探索多個相關圖片之間的內在關系來發(fā)現(xiàn)圖像的重要目標,其在諸多領域中已經引起了廣泛關注,包括弱監(jiān)督語義分割[1,2]、圖像檢索[3]及視頻前景檢測[4]等。傳統(tǒng)的協(xié)同顯著性檢測方法通常使用淺層特征作為常規(guī)特征,例如顏色直方圖[5]、多線索融合及SIFT描述符[6]等。然而,這些模型僅適用于檢測淺層特征,無法識別場景中的協(xié)同重要對象,限制了模型的性能。近年來,研究學者們通過基于深度學習的方法來改善協(xié)同顯著性檢測,例如基于深度學習的模型探討了圖像內和圖像間的一致性,并通過不同方法的監(jiān)督方式來強化特征,如圖卷積網絡(GCN)[7]、自學習方法[8]、具有PCA投影的圖像間共同關注或重復單元[9]、相關技術、質量測量和共同聚類[10]。還有一些方法是利用多任務學習來同時優(yōu)化共顯著性檢測、共分割或共峰值搜索[11],并幫助提取更豐富的視覺代表的協(xié)同重要信息,探索圖像間的語義相關性。雖然這些方法已經得到驗證并取得了先進結果,但是在弱光、復雜背景等困難場景下仍然無法準確提取協(xié)同信息。為此,筆者提出一種深度網絡框架來挖掘不同圖像組之間的語義相關性。擬采用的網絡由兩部分組成:語義感知協(xié)同模塊(SPCM)和輔助分類融合模塊(ACFM)。首先,使用擴張卷積從主干中提取并增強特征;隨后,將語義感知協(xié)同模塊用于公共顯著對象識別;最后,將輔助分類融合模塊應用于融合共識特征和多尺度特征。該模型主干網絡以自上而下的方式提取突出區(qū)域,以全面探索圖像組的一致性。
1 模型及算法建立
基于圖像間的語義感知協(xié)同目標檢測模型如圖1所示。該模型通過自上而下的連接方式設計了語義感知協(xié)同網絡,該網絡以VGG?16網絡為骨干。具體而言,圖像間的語義感知協(xié)同目標檢測算法通過3個階段實現(xiàn)檢測協(xié)同顯著性目標。當接收到一組圖像輸入后,首先采用擴張卷積來擴大感受野,以捕獲特定層中更豐富的特征。通過卷積及上采樣操作,將捕獲的特征與相鄰特征通過相乘及級聯(lián)方式進行信息融合,再通過卷積進行降維處理,最后將整個模塊饋送到ReLU激活函數以獲得圖像信息。此外,為了使用輕量級計算來對局部圖像共性特征進行提取,筆者提出了語義感知協(xié)同模塊。該模塊可在水平和垂直方向上收集上下文信息,以增強逐像素表示能力。使用該模塊生成與參考特征相似的特征從而突出協(xié)同顯著區(qū)域,使用輔助分類融合模塊挖掘并提高與參考特征類似的特征,作為促進協(xié)同特征學習的有力指導。最后采用高層信息反饋指導低層的方式實現(xiàn)對協(xié)同顯著性目標檢測的精準判斷。
1.1 語義感知協(xié)同模塊
語義感知協(xié)同模塊結構示意圖如圖2所示,對于協(xié)同語義信息的提取,考慮到層間信息的相關性,采用權重共享策略來加強層間信息的交互。
相鄰3層高級特征經過擴張卷積處理后表示為R、R、R,通過級聯(lián)融合為R,再將融合后的特征輸入到3個3×3卷積中進行特征提取,隨后將特征轉置為HW×C和C×HW,同時引入通道分組連接策略并進行通道混洗,其結果表示為X,將連接后的分組特征進行交互以捕獲粗糙的組協(xié)同對象特征,并使用softmax激活函數對前者進行補充和正則化,以避免它們過多地關注圖像特定的信息而忽略公共信息。經過處理后的特征Z表示為:
Z=softmax(X)(1)
運用親和矩陣來提取一組圖片的相似特征,通過一系列重組、取最大值、取平均值等操作得到特征圖,并將其與原始的特征圖相加,最后在組合空間上取均值得到語義感知協(xié)同模塊的輸出特征S為:
S=concatenate(L×L)+R(2)
1.2 輔助分類融合模塊
輔助分類融合模塊結構示意圖如圖3所示。
輔助分類融合模塊主要用于網絡的第2~5層。其中,第5層是將最高層通過擴張卷積處理得到的特征R1與語義感知協(xié)同模塊的輸出特征S作為初始特征。首先將特征分別進行平均池化和最大池化,充分提取并保留圖像的紋理及背景特征,從而有效降低背景噪聲的干擾。其次,特征信息經過標準化操作加快訓練速度后,可以減少變化帶來的不確定性。最后通過激活函數并與初始特征相乘后得到輸出J和G(i=1,2,3,4):
J=R×(SA(Sigmoid(BNReLU(GAP(R)))×S))×R(3)
G=S×(SA(Sigmoid(BNReLU(MaxP(S)))×R))×S(4)
利用空間注意力來增強協(xié)同特征和語義信息的表達能力,對關鍵線索進行細化,提高協(xié)同特征的一致性及緊湊性。最后再用初始信息填補并相加聚合,在最大程度上將信息充分融合并輸出,即:
A=J+G(5)
第4層是以第5層的輸出A以及次高層通過擴張卷積處理得到的特征R作為初始特征,重復運用輔助分類融合模塊得到相應的輸出。依此類推,利用早期的協(xié)同顯著性檢測結果來指導低層信息進行聚合,從而生成最終的協(xié)同顯著性圖像。
2 實驗及結果分析
2.1 模型訓練
筆者選取3個協(xié)同顯著性檢測數據集并進行評估從而驗證所提方法的可行性。其中,iCoseg數據集[12]包括38個不同類別的643幅圖像。每組有4~41幅圖像,每幅圖像都有手動標記的逐像素級真實值用于評估。Cosal2015[13]是一個較新的數據集,它有50組共2 015張圖像,每組包含26~52張圖像,每組都面臨著不同的挑戰(zhàn)性問題,如復雜環(huán)境、遮擋問題、目標外觀變化和背景雜波。CoSOD3k[14]是一個大型數據集,包含160組共3 316張圖像,涵蓋了廣泛的形狀、對象大小和背景類別,因此更適用于協(xié)同顯著性檢測方法的應用和性能評估。
本實驗中筆者采用4個廣泛使用的指標來定量評估算法性能,即maximum E?measure(E)[15]、S?measure(S)[16]、maximum F?measure(F)[17]和mean absolute error(MAE)[18]。其中,E用于評估全局信息和局部細節(jié)的一致性;S是推理結果和真值圖像結構相似性的評價指標;F表示諧波平均值是由自適應閾值T(T=μ+σ,μ和σ表示協(xié)同顯著性圖的平均值和標準差)中的精密度和召回率組成的,是評價前景圖空間結構相似性的可靠指標;MAE為預測協(xié)同顯著性圖和真實圖之間的平均絕對誤差。
實驗硬件設備為Intel(R)Xeon(R)Bronze 3106 CPU@1.70 GHz處理器,16 GB操作內存,具有兩個GeForce GTX 1080 TI 16 GB顯卡。本模型在PyTorch上實現(xiàn),使用VGG?16作為網絡骨干,并采用DUTS[19]數據集作為訓練集。模型由Adam優(yōu)化器訓練。所有圖像的像素均調整為256×256以便用于訓練和測試,初始學習率為0.000 1,批量大小為10,迭代次數為10,當訓練損失達到平均水平時,訓練損失可減少10%。
2.2 實驗結果
圖4為本文模型與6種代表性算法的圖像處理視覺對比結果,可以看出,本文模型可以更好地搜索和分割在具有挑戰(zhàn)性場景中同時出現(xiàn)的突出對象,同時能夠將協(xié)同對象邊緣細化,而其他方法會受到不相關的突出對象或背景的干擾,導致圖像處理結果不盡人意??梢?,本文模型可以更加準確地檢測到重要的協(xié)同目標,并生成比其他方法更精確的共顯著性圖像。
表1為本文模型與9種代表性先進方法的實驗結果對比。
可以看出,在數據集iCoseg、Cosal2015和CoSOD3k上測試后,本文模型在所有指標上都優(yōu)于其他方法。具體而言,盡管CoSOD3k數據集包含各種干擾信息,但本文模型仍然能夠很好地區(qū)分協(xié)同重要目標,并且算法性能出色。在Cosal2015和iCoseg數據集上,本文模型的4個指標均優(yōu)于其他方法,證明了本文模型在處理協(xié)同顯著性檢測任務方面的有效性。
2.3 消融實驗
在相同的實驗環(huán)境與數據集下進行消融實驗,結果見表2??梢钥闯?,當模型僅采用SPCM進行優(yōu)化時,所有指標都得到了改善。在Cosal2015數據集中,MAE從0.104降至0.100,S從0.790升高至0.799,F(xiàn)從0.765升高至0.772,增加了0.9%,
E從0.831升高至0.836??梢?,當模型采用SPCM優(yōu)化后,其能夠很好地捕獲水平和垂直相關矩陣中的公共信息,從而使得性能得到了顯著提升。當模型僅采用ACFM進行優(yōu)化時,模型的性能同樣得到了改善。以CoSOD3k數據集為例,采用ACFM優(yōu)化后,模型的MAE從0.119降低至0.115,
S從0.737升至0.749,F(xiàn)從0.680升至0.691,E從0.789升至0.797。可見,ACFM優(yōu)化后的模塊具有出色的處理協(xié)同任務的能力。最后,同時使用SPCM和ACFM進行模型優(yōu)化,4個性能指標均得到了進一步提升,達到了更好的使用效果。
3 結束語
筆者提出了一個有效的協(xié)同顯著性檢測框架。它能夠自適應地通過語義信息捕獲共識特征,包括語義感知協(xié)同模塊和輔助分類融合模塊。擴張卷積使語義感知協(xié)同模塊能夠最大程度地提取所需信息。筆者應用語義感知協(xié)同模塊來精確地提取圖像的共性特征。為了將共性特征與多尺度特征融合,引入了輔助分類融合模塊。在3個標準數據集上的實驗結果表明,筆者所提算法在多個評估指標上均優(yōu)于傳統(tǒng)方法,證明了本方法的有效性。
參 考 文 獻
[1]?? FU H Z,XU D,LIN S,et al.Object?based RGBD image co?segmentation with mutex constraint[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). IEEE, 2015.DOI:10.1109/CVPR. 2015.
7299072.
[2]?? WEI L N, ZHAO S S, BOURAHLA O E F, et al.Group?wise Deep Co?saliency Detection[C]//Proceedings of the 26th International Joint Conference on Artificial Intelligence.2017:3041-3047.
[3]?? FAN D P,LI T P,LIN Z,et al.Re?Thinking Co?Salient Object Detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2022,44(8):4339-4354.
[4]?? PASZKE A,GROSS S,MASSA F,et al.PyTorch:An imperative style,high?performance deep learning library[C]//33rd Conference on Neural Information Processing Systems.2019.DOI:10.48550/arXiv.1912.01703.
[5]?? JIANG B,JIANG X,ZHOU A,et al.A Unified Multiple Graph Learning and Convolutional Network Model for Co?saliency Estimation[C]//The 27th ACM International Conference.ACM,2019.DOI:10.1145/3343031.
3350860.
[6]?? CHANG K Y,LIU T L,LAI S H.From co?saliency to co?segmentation:An efficient and fully unsupervised energy minimization model[C]//CVPR 2011.IEEE,2011.DOI:10.1109/CVPR.2011.5995415.
[7]? GAO R J,GUO Q,XU F,et al.Can You Spot the Chameleon?Adversarially Camouflaging Images from Co?Salient Object Detection[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). IEEE, 2022.DOI:10.1109/CVPR52688.
2022.00219.
[8]?? ZHENG P, FU H Z, FAN D P,et al. GCoNet+:A Stronger Group Collaborative Co?Salient Object Detector[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2023:1-17.
[9]?? HSU K J,LIN Y Y,CHUANG Y Y.DeepCO3:Deep Instance Co?Segmentation by Co?Peak Search and Co?Saliency Detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).IEEE,2019.DOI:10.1109/CVPR.2019.00905.
[10]?? JERRIPOTHULA K R,CAI J F,YUAN J S.Quality?Guided Fusion?Based Co?Saliency Estimation for Image Co?Segmentation and Colocalization[J].IEEE Transactions on Multimedia, 2018,20(9):2466-2477.
[11]?? JIN W D,XU J,CHENG M M,et al.Icnet:Intra?saliency correlation network for cosaliency detection[J].Advances in Neural Information Processing Systems,2020,33:18749-18759.
[12]?? ZHANG D W,HAN J W,HAN J G,et al.Cosaliency Detection Based on Intrasaliency Prior Transfer and Deep Intersaliency Mining[J].IEEE Transactions on Neural Networks and Learning Systems,2016,27(6):1163-1176.
[13]?? PASZKE A,GROSS S,MASSA F,et al.PyTorch:An Imperative Style,High?Performance Deep Learning Library[J].2019.DOI:10.48550/arXiv.1912.01703.
[14]?? WEI Y C,LIANG X D,CHEN Y P,et al.STC:A Simple to Complex Framework for Weakly?Supervised Semantic Segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(11):2314-2320.
[15]?? FAN D P,CHENG M M,LIU Y,et al.Structure?measure:A new way to evaluate foreground maps[C]//2017 IEEE International Conference on Computer Vision(ICCV).IEEE,2017:4558-4567.
[16]?? ACHANTA R, HEMAMI S, ESTRADA F, et al.Frequency?tuned salient region detection[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2009.DOI:10.1109/CVPR.2009.5206596.
[17]?? CHENG M M, MITRA N J, HUANG X L, et al.SalientShape:Group saliency in image collections[J].Visual Computer,2014,30(4):443-453.
[18]?? WANG L J,LU H C,WANG Y F,et al.Learning to detect salient objects with image?level supervision[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).IEEE,2017.DOI:10.1109/CVPR.2017.404.
[19]?? BATRA D,KOWDLE A,PARIKH D,et al.iCoseg:Interactive co?segmentation with intelligent scribble guidance[C]//2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.IEEE,2010:3169-3176.
[20]?? FU H Z,CAO X C,TU Z W.Cluster?based co?saliency detection[J].TIP,2013,22(10):3766-3778.
[21]?? LI Y J,F(xiàn)U K,LIU Z,et al.Efficient saliency?model?guided visual co?saliency detection[J].IEEE Signal Processing Letters,2015,22(5):588-592.
[22]?? YE L,LIU Z,LI J,et al.Co?saliency detection via co?salient object discovery and recovery[J].IEEE Signal Processing Letters,2015,22(11):2073-2077.
[23]?? ZHANG K,LI T,LIU B,et al.Co?saliency detection via mask?guided fully convolutional networks with multi?scale label smoothing[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:3095-3104.
[24]?? LI B,SUN Z X,TANG L,et al.Detecting robust co?saliency with recurrent co?attention neural network[C]//Proceedings of the 28th International Joint Conference on Artificial Intelligence.2019:818-825.DOI:
10.24963/ijcai.2019/115.
[25]?? JIANG B,JIANG X Y,ZHOU A J,et al.A unified multiple graph learning and convolutional network model for co?saliency estimation[C]//The 27th ACM International Conference.ACM,2019.DOI:10.1145/3343031.3350860.
[26]?? WU Z,SU L,HUANG Q M.Stacked cross refinement network for edge?aware salient object detection[C]//2019 IEEE/CVF International Conference on Computer Vision(ICCV).IEEE,2020.DOI:10.1109/ICCV.2019.00736.
[27]?? ZHANG K H,CHEN J,LIU B,et al.Deep object co?segmentation via spatial?semantic network modulation[C]//Proceedings of the AAAI Conference on Artificial Intelligence.AAAI,2020:12813-12820.