李林峰 陳程立詔 王恒森
摘 要:針對目前圖像檢索領域主要依靠語義相似性檢索圖片而忽略了場景中物體重要性關系問題,提出了一種基于場景感知的物體顯著性排名算法SASR,使圖像檢索更關注場景中物體的相互關系。SASR分為兩個階段,在第一階段,提出了基于視點數(shù)據(jù)的“組合閾值”物體級顯著性排名真值標簽標注方法,該方法簡化了排名標簽的標注;在第二階段,提出了基于圖卷積網(wǎng)絡的物體級顯著性排序網(wǎng)絡,該網(wǎng)絡解決了多個在物體級排序問題中存在的特異性難點。該算法改善了目前顯著性排名標簽生成方式并進行了大量對比實驗,在現(xiàn)有SALICON數(shù)據(jù)集上的實驗結果表明,其提升了顯著性排名的性能,在NUS-WIDE數(shù)據(jù)集上的實驗結果表明在該算法的支撐下,圖像檢索性能平均提升了2%,證明了其有效性。
關鍵詞:顯著性排名;場景感知;圖卷積網(wǎng)絡;圖像檢索
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2023)10-047-3186-08
doi:10.19734/j.issn.1001-3695.2023.01.0028
Object saliency ranking awareness network for efficient image retrieval
Li Linfeng1,Chen Chenglizhao2,Wang Hengsen1
(1.College of Computer Science & Technology,Qingdao University,Qingdao Shandong 266071,China;2.College of Computer Science & Technology,China Petroleum University,Qingdao Shandong 266580,China)
Abstract:This paper introduced a novel approach for image retrieval,the scene-aware object saliency ranking algorithm(SASR),which addressed the issue of traditional image retrieval techniques relying on semantic similarity and neglecting the crucial importance of object relationships within a scene.SASR consisted of two stages.In the first stage,this paper proposed a viewpoint data-based method called the “combined threshold” to annotate true value labels for object-level saliency ranking,simplifying the annotation of ranking labels.In the second stage,this paper presented an object-level saliency ranking network based on graph convolutional networks that resolved several specific difficulties encountered in sorting objects.The proposed algorithm improved on the current saliency ranking label generation methods and was tested via a large number of comparative experiments.The experimental results on the SALICON dataset show that the SASR algorithm enhances saliency ranking perfor-mance significantly.Moreover,the results from the NUS-WIDE dataset indicate that,when supported by the proposed algorithm,image retrieval performance increases by an average of 2%,which solidifies the efficacy of the proposed algorithm.
Key words:saliency ranking;scene perception;graph convolutional network;image retrieval
0 引言
圖像檢索是計算機視覺領域的一項基本任務,旨在通過圖像間的內(nèi)容語義相似性檢索圖像?,F(xiàn)有檢索方法[1,2]主要利用圖像的空間拓撲結構、內(nèi)嵌語義分布等信息進行圖像的檢索。一般而言,現(xiàn)有檢索方法大多可以獲得較為理想的檢索結果,但其檢索得到的相似性圖像和輸入圖像并不完全一致。
如圖1(a)所示,輸入圖像中,人的重要性要比馬更高,而大多數(shù)檢索得到的圖像中的馬比人的重要性更高。盡管現(xiàn)有的這些方法可以根據(jù)輸入圖像(人和馬)檢索得到大量相似的圖像場景(人和馬),但檢索得到圖像場景中的物體重要性排名并不和輸入圖像中的物體重要性排名一致。導致這一現(xiàn)象的原因在于:現(xiàn)有圖像檢索方法大多忽略了輸入場景中的各物體間的重要性排序。
圖像檢索可以從一個大規(guī)模的圖像集合中找到與被檢索圖像最相似的圖像,而物體排名關系是指圖像中不同物體之間的重要程度區(qū)別,例如物體的相對位置、大小和姿態(tài)等。在圖像檢索中,物體關系丟失可能會導致檢索結果的誤差增加。因此,在設計檢索算法時,通常會考慮如何保留物體之間的關系信息,例如,Ji等人[3]設計了一種利用顯著特征信息來突出圖像中顯著物體位置的視覺注意力模塊,該顯著性模塊為圖文提供了視覺上的先驗知識,從而提高了圖文匹配算法的性能。
受該思想啟發(fā),本文提出了一種能夠對場景中各物體進行重要性排名的全新方法,使用顯著性方法解決圖像檢索方法
中物體關系缺失的問題。顯著性方法和圖像檢索方法在視覺注意力和圖像特征兩個方面相互關聯(lián),其中,顯著性檢測算法旨在識別圖像中最具有顯著性的物體,這些物體通常與人類視覺注意力緊密相關;而圖像檢索的目標是通過查詢圖像庫來尋找與查詢圖像相似的圖像,這需要考慮到人類對圖像的視覺注意力,因此顯著性方法可以為圖像檢索提供圖像中重要物體的先驗知識。同時,顯著性檢測算法通常使用各種視覺特征來描述物體的顯著性,例如顏色、紋理、邊緣等;而圖像檢索也需要使用視覺特征描述圖像內(nèi)容,以便于比較不同圖像之間的相似度。因此,基于這兩個方面,本文將顯著性物體排名算法和圖像檢索聯(lián)系起來,利用顯著性算法提取圖像中最具有顯著性的物體作為檢索的關鍵詞,通過物體的顯著性來優(yōu)化圖像檢索的性能。
如圖1(b)所示,新方法能夠對輸入圖像中的各物體重要性進行感知,從而能夠作為一個輔助模塊來提升現(xiàn)有的圖像檢索方法,提升現(xiàn)有圖像檢索方法的檢索粒度。如圖1所示,在本文提出的圖像物體重要性排序感知模塊的輔助下,對原輸入圖像進行檢索得到的圖像中的馬的重要性要低于人(參見重要性排序真值,即圖1(b)最后一行)。值得一提的是,目前在計算機視覺領域內(nèi),顯著性檢測方法(包括視點預測[4,5]和顯著性物體檢測[6]兩個分支)可以在一定程度上對輸入圖像進行物體級重要性感知,即顯著性檢測方法可以自動定位輸入圖像中最顯著的圖像區(qū)域。然而,圖像顯著性檢測與本文關注的圖像內(nèi)物體間重要性排序并不一致。
一方面,從輸出結果來看,顯著性檢測方法通常僅能定位場景中最顯著的物體,并不能提供其他非顯著性物體間的重要性排序,而本文期望得到的是一種能夠涵蓋所有物體的重要性排序。
另一方面,從計算原理來看,顯著性檢測通常表征場景中最吸引人類視覺注意力的圖像區(qū)域,屬于人類觀察給定場景時所展示出的第一反應;而本文所關注的重要性排序偏重于語義層面,表征人類觀察給定場景時,經(jīng)過一定的主被動思考權衡后得出的物體級排序結果,是一種視覺注意力的第二反應。
綜上,本文關注的物體級重要性排名是有別于傳統(tǒng)顯著性檢測問題的一個全新問題,是一種偏向于語義層面且粒度更細的全新任務。
為實現(xiàn)物體級重要性排名,存在兩大技術難點尚待攻關。其一,場景物體重要性排序真值數(shù)據(jù)(GT)如何獲取?如果重新以人工標注的方式進行大規(guī)模數(shù)據(jù)標注,代價太高。其二,本文定義的物體級重要性排序的問題復雜度要遠高于顯著性檢測,如何設計一種合理的網(wǎng)絡結構來實現(xiàn)這一復雜任務,非常具有挑戰(zhàn)。針對上述問題,本文在下列三個方面作出實質性貢獻:
a)基于現(xiàn)有的視點真值數(shù)據(jù),本文提出了一種能夠很好表征物體級顯著性的評價方法,從而在數(shù)據(jù)層面保障了后續(xù)的物體級顯著性排序網(wǎng)絡的訓練可行性。
b)針對本文關注的物體級顯著性排序這一全新問題,設計了一種能夠以物體語義為主要表征的邏輯推理網(wǎng)絡,達成高質量的物體級顯著性排名。
c)提出一種新的圖像檢索策略,在現(xiàn)有基于語義的圖像檢索方法的基礎上通過顯著性物體排名算法提高檢索粒度。
1 相關工作
1.1 顯著性排名
顯著性排名(SR)是顯著性檢測任務的一個分支任務,其目的是對圖像中顯著性物體進行排序。Islam等人[7]首次提出不同顯著性對象之間存在相對排名,采用全卷積結構的網(wǎng)絡預測相對排名并分階段優(yōu)化網(wǎng)絡。Siris等人[8]采用人類注意力轉移來定義對象的顯著性排名,并提出了第一個SR數(shù)據(jù)集,認為利用注意機制可以推斷觀察者的注意力轉移。Lyu等人[9]提出了一種新的偽裝目標檢測模型來對偽裝目標進行排序,他們采用計算實例上的注視點數(shù)目來標記實例的排名信息。Tian等人[10]提出了一個對象—上下文反映模塊,利用對象上下文交互信息對顯著對象進行排序。Fang等人[11]提出了端到端SR模型,并引入了位置保留注意模塊,該模塊保留了圖像中物體的位置關系。Liu等人[12]提出了一個新的圖推理模塊,以學習具有局部和全局對比度的實例關系,該方法主要預測人與人的相互關系。同時,Liu等人將該方法與人眼注意點預測方法在顯著性排名上進行比較。但本文認為文獻[12]的比較方式并不公平,因為獲取人眼注意點預測模型的顯著性排名性能需要對顯著圖進行二值化處理,然而實驗證明在不同的二值化閾值下,人眼注意點預測模型的性能也會發(fā)生改變。因此,本文認為顯著性排名方法與人眼注意點預測方法在進行比較時,應該選取人眼注意點預測方法在多個二值化閾值下的最佳性能。
1.2 人眼注意點預測
人眼注視點預測(EFP)旨在預測人們在自然場景中的興趣位置。早期的EFP模型[13]通常使用低層特征(如局部/全局對比度、顏色、方向、亮度等)來預測固定映射,這是一種自下而上的方法。近年來,深度神經(jīng)網(wǎng)絡被用于學習高層次、自頂向下的特征,并取得了顯著的性能。此外,Jiang等人[5]收集了一個大規(guī)模的EFP數(shù)據(jù)集SALICON,其包含了大量真實人眼觀測點。Pan等人[14]將生成式對抗網(wǎng)絡引入EFP領域并使用了新的評估指標。Droste等人[4]提出了域適應網(wǎng)絡,將圖像和視頻任務通過遞歸神經(jīng)網(wǎng)絡以統(tǒng)一的方式建模。Ding等人[15]提出了一種反饋遞歸卷積框架來學習豐富的上下文表示。
1.3 圖像檢索
基于內(nèi)容的圖像檢索(CBIR)近年來取得了長足的發(fā)展。它的目的是根據(jù)內(nèi)容返回與查詢相似的圖像集合。傳統(tǒng)的CBIR方法首先提取圖像特征,然后根據(jù)圖像特征向量的距離(如余弦距離和歐氏距離)返回相似圖像。然而,由于高昂的計算成本,它們對于現(xiàn)實世界的數(shù)據(jù)庫是不切實際的。另一種方法是近似最近鄰(ANN),它以速度換取檢索精度,其中,哈希方法就是一種有效的圖像檢索ANN方法。傳統(tǒng)的監(jiān)督哈希方法包括核監(jiān)督哈希、潛在因子哈希、快速監(jiān)督哈希等。除了使用手工特征的傳統(tǒng)哈希方法外,最近提出了一些深度哈希監(jiān)督方法利用深度神經(jīng)網(wǎng)絡以獲得更強大的特征表示。例如,傳統(tǒng)神經(jīng)網(wǎng)絡哈希(CNNH)[16]是獨立學習哈希函數(shù)和特征表示的,哈希函數(shù)學習不能反饋到特征學習中;為了解決這一問題,Lai等人[17]使用基于三組圖像的排序損失來聯(lián)合學習哈希碼和特征表示(NINH),使哈希函數(shù)學習可以向特征學習提供反饋。深度監(jiān)督哈希(DSH)[18]是一種基于兩兩的哈希來生成判別哈希碼。鑒別深度哈希(DDH)[19]提供了一個分割編碼模塊,以最大限度地提高哈希碼的可鑒別性。WMRDH[20]給出了一種順序感知的排序損失,并采用加權方案生成相似度保持哈希碼。Ji等人[21]提出了一種異構記憶增強圖推理網(wǎng)絡HMGR來連接視覺和語言之間的語義相關性,通過提取實例特征并利用圖卷積網(wǎng)絡生成關系增強的特征表示,挖掘圖像中實例間的拓撲依賴關系,將聯(lián)合異構記憶網(wǎng)絡集成到一個統(tǒng)一的視覺語義嵌入模型中,通過外部記憶存儲對視覺知識和文字進行讀寫操作,利用實例間的相互關系作為附加信息來學習更有區(qū)分度的特征。
雖然之前的工作取得了穩(wěn)定的性能,但這些方法都是基于內(nèi)容語義相似性檢索圖像,會使場景中的物體相互關系丟失,從而導致檢索圖像場景中物體重要性關系與被檢索圖像不同。然而,實驗證明在物體級顯著性排名算法的支撐下,通過物體重要關系相似性可以提升現(xiàn)有圖像檢索的性能。
2 研究方法
2.1 整體結構
本文所提出的SASR整體框架包括兩個主要階段。第一階段為基于視點數(shù)據(jù)的“組合閾值”物體級顯著性排名真值標簽制作方法(2.2節(jié));第二階段為基于圖卷積神經(jīng)網(wǎng)絡所開發(fā)的物體級顯著性排序網(wǎng)絡(2.3節(jié)),該網(wǎng)絡解決了多個在物體級排序問題中存在的特異性難點。
2.2 物體級顯著性排名真值數(shù)據(jù)獲取
如圖2所示,原始排名標簽制作方法主要通過計算平滑后的顯著圖中的平均像素值、最大像素值或者注視點個數(shù)作為排名先后的依據(jù)。然而,這幾種方法在某些場景中往往會與人工排序的結果不一致,這是因為使用平均值法或者其他方法計算排名會使排名更關注局部物體,忽視了物體在整張圖像的比例。針對這一問題,本文提出了一種新的標簽制定方案,該方案可以使顯著性排名標簽在接近人類視覺系統(tǒng)的基礎上簡化排名標簽的制定。如圖2所示,該圖片經(jīng)過人工排序后“母親”會被認為是最顯著的,但是通過平均值法或Fixation法計算物體框中的平均像素值或平均注視點后,“母親”的排名信息比重被稀釋了,孩子成為最顯著的物體,當通過最大值法計算物體框中的最大像素值時,圖像中最不顯著的披薩反而成為較顯著的,與人工排序不一致。本文與其他方法不同,提出了一種新的排名制定方案,利用組合閾值使排名更符合人類視覺系統(tǒng)?,F(xiàn)有SALICON數(shù)據(jù)集中提供了大量基于鼠標軌跡的注視點信息,使用該注視點信息可以降低標注數(shù)據(jù)集的成本。首先,計算物體框中的注視點數(shù)量占整張圖像總視點數(shù)的比重(局部信息);然后,計算該物體框占整張圖像的比重(全局信息);最終,設置組合閾值通過改變局部信息和全局信息的比重來定義圖片中物體的顯著性程度分數(shù)。對象的排名由顯著性程度分數(shù)決定,分數(shù)越高表示對象越顯著,具體公式可表示為
其中:fixi表示圖像中第i個物體歸一化后的注視信息分數(shù);Si表示歸一化后的尺寸信息分數(shù);Rscorei表示顯著性程度分數(shù);γ是組合閾值,目的是為了控制視點信息和尺寸信息的比重,γ對顯著性程度分數(shù)的影響將會在式(2)和3.4節(jié)用戶研究中進行說明。對尺寸信息Si做指數(shù)運算的目的是為了讓尺寸信息的變化更加平滑,并通過β控制尺寸信息的上限,使尺寸信息eβ×Si介于歸一化的注視信息分數(shù)fixi附近,防止尺寸信息過大導致顯著性程度分數(shù)完全由物體尺寸決定,此處本文將β設定為0.75,具體消融實驗可以見3.6.3節(jié)。
接下來,為了驗證組合閾值γ對顯著性排名分數(shù)的影響,本文從數(shù)據(jù)集中隨機挑選了3 000張圖片,并在不同組合閾值下對3 000張圖片中的物體按照本文方案進行排名。最終,計算在相鄰閾值下圖像中物體排名的偏移量,偏移量是通過對相鄰組合閾值下所有圖像中對象的排名變化進行求和計算得出的,該偏移量公式為
其中:OF表示偏移量;N表示圖片中物體總數(shù);γ是組合閾值,0.1≤γ≤1;Rankγi,j和Rankγ-0.1i,j表示相鄰組合閾值下物體排名。如圖3所示,在組合閾值為0.1時,物體偏移量最大,在0.2~0.6和0.7~1.0,物體排名偏移變化較小,因此,本文選擇了在這三個閾值區(qū)間的平均值{0.1,0.4,0.8}進行實驗。
2.3 物體級顯著性排序網(wǎng)絡
顯著性排序網(wǎng)絡由物體位置信息獲取、顯著性感知特征編碼和關系推理模塊三個模塊組成,如圖4所示。
2.3.1 物體位置信息獲取
現(xiàn)有顯著性排名方法都是基于多任務的,網(wǎng)絡由分割任務和排名任務構成,需要生成頗具挑戰(zhàn)性的像素級掩碼,并且顯著性排名性能與實例掩碼的質量高度相關,如果實例掩碼質量較差,排名可能不準確。同時,目前尚未確定分割任務和排名任務能否互相促進,而且分割任務比檢測任務更復雜,前者為像素級別,后者為物體級別。因此,本文沒有采用像素級實例分割,而是直接采用現(xiàn)有的目標檢測網(wǎng)絡,這可以在簡化模型的同時有效地獲取圖像中的物體。本文采用EfficientDet[22]高效目標檢測網(wǎng)絡檢測給定的圖像并且每張圖像至少需要獲得2個目標檢測框(假設一張圖片至少有2個物體)。為了使檢測的物體更加準確,需要過濾掉重疊較大的目標候選框。首先,計算任意兩個候選框之間的交并比(IoU)并設置IoU閾值為0.4,刪除IoU大于0.4的重疊目標候選框;接下來,刪除了占圖片總面積過大(目標檢測框面積大于圖像總面積的60%)和占圖片總面積過?。繕藱z測框面積不超過50)的目標候選框。
2.3.2 顯著性位置感知特征編碼
顯著性位置感知特征編碼(SPFE)的目的是為了盡可能增大特征提取感受野并實現(xiàn)多尺度特征融合,同時,將物體位置信息特征嵌入多尺度融合特征中,從而獲得一組包含豐富局部和全局信息的物體編碼特征。SPFE中的顯著性編碼器(SE)可以采用任何現(xiàn)有魯棒性強的模型,本文采用了UNISAL模型(詳細架構見文獻[4])。使用UNISAL有兩個原因:a)UNISAL網(wǎng)絡將高斯先驗圖加入網(wǎng)絡中,這會給網(wǎng)絡提供一個顯著性物體位置的先驗知識;b)UNISAL網(wǎng)絡的輸出特征維數(shù)較低,減少了網(wǎng)絡的學習參數(shù)。UNISAL模型骨干網(wǎng)絡由MobileNet編碼器與高斯先驗映射連接,解碼器網(wǎng)絡與編碼器殘差特征連接,本文只選擇解碼器us2中間層平滑后的特征fu作為物體編碼特征,輸出形狀為(192,48,36)。由于單個物體特征被送入網(wǎng)絡中,物體相對于整幅圖像的全局信息會丟失,同時物體間的空間關系也會丟失,本文采用多尺度特征融合解決全局信息丟失的問題,每個物體框的深度特征都包含兩個尺度(局部物體框和全局物體框),兩者唯一的區(qū)別是全局物體框的尺寸比局部物體框大50%。全局物體框將從圖像中帶來更多的全局信息,這會使物體特征更加豐富。如圖4所示,獲取整張圖片的特征fu后根據(jù)局部物體框坐標和全局物體框坐標使用RoI-align獲得物體的局部編碼特征ful和全局編碼特征fug,每個物體框特征的輸出形狀是(192,7,7),為了保留物體之間的位置信息,本文對物體在圖像的坐標信息進行位置編碼。首先,將物體框的中心坐標調整為ful中的位置坐標;然后,將該坐標送入1×1卷積中
獲得位置編碼fpe。最終的物體編碼特征可以通過融合兩個維度為192的物體局部—全局特征,然后將物體位置編碼和局部—全局特征進行融合,融合后的物體特征的維度是192+192+2=386,具體公式可表示為
2.3.3 關系推理
由于圖像中的物體不是孤立存在的,往往具有某些聯(lián)系,所以在獲得物體編碼特征后,需要構建關系推理學習模塊探索物體特征間的語義關系。眾所周知,圖卷積網(wǎng)絡(GCN)在描述物體之間的相互關系上具有顯著的效果,在GCN中,圖像中的每個物體對應圖網(wǎng)絡的一個圖節(jié)點,為了獲取多個物體特征編碼之間的語義關系,可以通過構造一個鄰接關系矩陣學習物體間的關系,該矩陣測量了任意兩個物體之間的相關程度。本文假設所有的物體都是相互關聯(lián)的,該鄰接矩陣可以通過一個形狀為386×N和一個形狀為N×386的1×1卷積層組成,其中N表示圖像中物體的個數(shù),全連接層構成的全連接鄰接矩陣的形狀是N×N。GCN訓練完成后,可以得到和輸入形狀相同的形狀為N×386的推理特征。本文采用堆疊多個GCN層來獲得增強的特征表示,具體公式可以表示為
Euclid Math TwoRAp(n×n)表示權重參數(shù)關系矩陣;R表示鄰接關系矩陣;l表示GCN層數(shù),共使用了三個GCN層,最終產(chǎn)生一組語義關系豐富的深度物體特征編碼節(jié)點。本文將fl送入形狀為N×1的線性層,得到預測的物體顯著性分數(shù)。
2.3.4 將SASR算法應用于圖像檢索
本文提出了一種新的檢索策略,旨在基于訓練好的SASR算法提高圖像檢索的細粒度,具體檢索流程如圖5所示,其中灰色陰影部分為現(xiàn)有圖像檢索模型流程,檢索流程的概述如算法1所示。首先,設置最小關系相似性閾值ω,并將圖像檢索測試集X輸入到現(xiàn)有訓練好的圖像檢索模型獲得原始的檢索結果,表示為O。然后,采用顯著性排名網(wǎng)絡SASR計算原始檢索圖像O與被檢索圖像X中的物體之間的重要關系相似性(SRCC)。最后,過濾掉具有低重要關系相似性(SRCC<ω)的檢索圖像,獲得最終檢索預測結果F。
2.3.5 損失函數(shù)
本文提出的顯著性排名網(wǎng)絡解決了一個排名問題,針對該問題,本文采用均方誤差和排序損失共同優(yōu)化網(wǎng)絡模型,損失函數(shù)公式如下:
對于均方誤差式(6):y是實際顯著程度分數(shù);是預測顯著程度分數(shù);N表示一張圖像中物體的數(shù)量。對于排序損失式(7):i和j是兩個圖像中預測的物體顯著性分數(shù);z是圖像中任意兩個物體的真實標簽,可以是{1,-1}中的一個,其中,標簽1表示j的真實排名高于i,標簽-1表示j的真實排名低于i;m是一張圖像中物體排名差異的最小值,此處,m被設置為0。在排序損失中,如果i和j被正確排序,且不等式-z×(j-i)+m>0成立,則排序損失被設置為0,否則,排序損失為-z×(j-i)+m,總排序損失為圖像中任意兩個物體的排序損失之和。最終,總損失由均方誤差和排名損失相加計算得出,權重α設置為0.001。
3 實驗及結果分析
3.1 實現(xiàn)細節(jié)
1)數(shù)據(jù)集 為了有效驗證所提排序算法對顯著性排名和圖像檢索性能的提升,本文同時在顯著性排名數(shù)據(jù)集和圖像檢索數(shù)據(jù)集上進行了實驗。由于所提算法是基于多物體標簽的任務,所以在顯著性排名任務上采用SALICON數(shù)據(jù)集,在圖像檢索任務上采用NUS-WIDE數(shù)據(jù)集[23]。
SALICON數(shù)據(jù)集包含20 000幅圖像,是從COCO數(shù)據(jù)集中挑選出的圖片,并使用鼠標軌跡記錄人眼看到的物體位置,總共20 000幅圖像。由于SALICON的測試集沒有人工注釋數(shù)據(jù),所以本文將SALICON的驗證集重新劃分成驗證集和測試集,最終,顯著性排名數(shù)據(jù)集按照10 000/1 200/3 800的訓練/驗證/測試集進行劃分。
NUS-WIDE包含81個類別、269 648幅圖像、多標簽、彩色圖像數(shù)據(jù)集,本文選取最常用的21個類別,每個類別均超過50幅圖像,共計195 834幅圖像。隨機選取10 000幅圖像用做測試集和驗證集,其余用做訓練集。
2)參數(shù)設置 本文算法在一臺具有GeForce RTX 2080顯卡的計算機上使用Python在PyTorch深度學習框架中實現(xiàn),其中,PyTorch版本號為1.2,CUDA版本號為9.1,選擇Adam算法優(yōu)化網(wǎng)絡,動量為0.9,權重衰減為10-4,學習率為0.000 1,在每10個迭代后以0.1倍的指數(shù)衰減。batchsize為3,UNISAL權重被凍結,模型在200個epoch左右收斂。
3.2 評價指標
為了全面評估排序網(wǎng)絡的性能,本文采用斯皮爾曼等級相關系數(shù)(SRCC,越高越好)、F1-score(F1,越高越好)評估本方法的性能。為了驗證排序網(wǎng)絡對圖像檢索方法性能的提升,本文采用平均精度均值(MAP,越高越好)指標對圖像檢索精度進行評估。SRCC是用來反映兩個隨機變量間的線性相關程度,可以定義為
其中:di表示第i個物體預測排名和真實排名的差異程度;N表示圖片中物體的個數(shù)。
3.3 實驗結果和分析
本文和其他排名方法類似,與七種最新的EFP算法進行了比較,分別是UNISAL[4]、SalGAN[14]、SalFBNet[15]、TranSalNet[24]、EML-Net[25]、ML-Net[26]和SALICON[27],為了客觀比較,所有定量評價都使用本文提供的顯著圖或由參數(shù)不變的可執(zhí)行代碼得到的顯著圖。
由于EFP方法只能生成顯著圖,為了計算EFP方法的排名性能,本文和其他顯著性排名算法一樣,將圖像中物體對應的顯著圖區(qū)域灰度化和二值化處理后,通過計算物體區(qū)域中的白色點像素點數(shù)量,進一步得到其他方法的顯著性排序。然而,在常規(guī)顯著性排名方法中,二值化閾值是通過計算整張顯著圖的灰度化平均值獲得的,這將導致其他方法的排序性能會隨著二值化閾值的改變而改變。因此,為了進行公平的比較,本文提出了一種新的評估方案可以獲得更精確的二值化閾值以讓其他顯著性方法的性能達到最佳。首先,將每個物體框對應的顯著圖進行灰度化(θ);然后,分別計算圖像中的對應物體顯著圖的灰度值的總和與物體面積的比例,得到圖像中每個物體的平均灰度值;最后,本文的二值化閾值T由該平均值和二值化權重決定,整個過程可由式(9)表示。
其中:Pi是第i個物體對應的顯著圖;N是一張圖像中的物體數(shù)量;Ai是第i個物體的面積;sum表示計算灰度圖的像素值之和;λ是0-1的二值化閾值權重,用于控制二值化閾值的變化,以確保能夠尋找其他方法的最佳性能。
本文在表1展示了不同方法在多個組合閾值(γ)下的顯著性排名性能,其他方法在當前組合閾值下的最佳性能已用黑色粗體標記出來。當組合閾值γ=0.1時,本文方法優(yōu)于其他模型的性能;當組合閾值γ=0.4時,本文方法的SRCC優(yōu)于其他模型,F(xiàn)1略低于其他模型最佳性能;當組合閾值γ=0.8時,本文方法的SRCC和F1指標略低于其他模型的最佳性能。在組合閾值固定時,其他模型的性能隨著二值化閾值權重λ的增大而降低,本文方法性能不隨著λ的改變而改變,這是因為本文生成的GT標簽沒有涉及對顯著圖的二值化操作。當λ固定,組合閾值增高時,在排名標簽中,物體尺寸因素占據(jù)的比重增大,人眼注意信息比重降低,本文模型性能下降,而其他模型的性能上升,這說明EFP模型在預測物體排名時更注重物體尺寸信息,本文方法更注重視點信息,實驗結果體現(xiàn)了所提方法的優(yōu)勢。
為了驗證所提顯著性排名網(wǎng)絡不僅僅在本文所提標簽標定方法上能夠帶來排名性能的提升,本文選擇在其他標簽制定方法上進行驗證,如表2所示。這是在平均值法標簽下排名網(wǎng)絡的性能,在多個二值化閾值權重下,本文算法性能皆超過了其他顯著性方法,證明所提算法不受標簽制定方案的制約。
本文將影響顯著性排名效果的問題分為相似物體類和物體交叉類兩類。在不同場景下,圖6比較了本文算法與其他算法的可視化顯著性排名結果,在第一和二行可視化結果中,圖片中物體形狀和尺寸都較為相似,同時存在距離鏡頭較遠的物體和靠近鏡頭的物體,本文算法仍能給出合理的排名預測結果。在第三行對比圖中,圖片中物體較為緊密,多個物體之間有一定交叉,本文算法也可以合理的預測多個交叉物體間的排名信息。由此可見,本文方法在多種復雜場景下均取得了較合理的效果,而其他算法在面對這兩類問題時排名結果不夠合理。
為了驗證SASR能夠提升圖像檢索方法的檢索粒度,本文將SASR作為一個輔助模塊對現(xiàn)有的圖像檢索方法進行驗證(在組合閾值為0.1下實驗)。參與對比方法有CNNH[16]、NINH[17]、DSH[18]、DDH[19]、LSH[28]、DSRH[29]和MLSH[30]。操作流程如圖1(b)所示。首先使用現(xiàn)有圖像檢索方法獲取檢索結果;接下來,使用排名網(wǎng)絡計算檢索圖像與被檢索圖像中物體的重要關系相似度;最后,篩除重要關系相似度較低的檢索圖片(SRCC低于ω,將會在消融實驗進行說明)。表3給出了不同方法在不同哈希碼碼長對應的MAP值,其中右上角帶星號的方法為當前圖像檢索方法在SASR的輔助下的性能。在SASR網(wǎng)絡的支撐下,場景中物體間的重要關系得以獲取,排除與被檢索圖像重要關系相似程度較低的圖像,使圖像檢索方法的性能得到提升,從而證明了所提算法能夠提升圖像檢索的檢索粒度。
為了進一步說明所提方法的優(yōu)越性,本文在NUS-WIDE數(shù)據(jù)上48 bit條件下繪制了PR曲線,如圖7所示,PR曲線與坐標軸圍成的面積越大,則表示該方法性能越好。從圖7可以看出,在顯著性排名網(wǎng)絡的輔助下,所有現(xiàn)有監(jiān)督哈希圖像檢索算法的性能得到了提升。
3.4 用戶研究與分析
由于顯著性排名本身是帶有較大主觀性的行為,本文選擇通過用戶研究來驗證提出的排名方案的合理性。首先,從SALICON數(shù)據(jù)集中挑選了500張圖片進行人工注釋,給定一張圖像,觀測者對圖像中的物體進行排名注釋,將第一眼看到的物體視做最顯著的,最后注意到的物體視為最不顯著的。本文共邀請了45位用戶(年齡層次位于20~25歲,男性占24位,女性占21位)進行研究,每位用戶需要重復三輪人工注釋,盡可能地消除注釋過程中的疲勞損失,最后對所有觀測者的排名注釋進行平均作為最終排名結果。接下來,為了證明本文基于視點數(shù)據(jù)的組合閾值物體級顯著性排名真值標簽制作方法的有效性并消除歸納偏差,將本文方法(組合閾值0.1下)與其他排名標簽制定方法做了對比,即本文方法、平均值法、最大值法和Fixation法,具體可視化對比結果如圖8所示。在多個場景下,本文方法在組合閾值的約束下,排名結果不再僅僅局限于局部區(qū)域,同時關注物體占場景的比重,使排名結果更接近人類視覺系統(tǒng)。本文計算了四種排名方案(本文方法在三個組合閾值下)產(chǎn)生的排名結果中與人工注釋的排名相同的圖像數(shù)量,定量數(shù)據(jù)如表4所示。本文方案生成的顯著性排名在多個組合閾值下與人工注釋的圖像相同排名的圖片數(shù)量都超過其他方法,說明本文排名方法更接近人類真實視覺系統(tǒng)。
3.5 算法復雜度分析
本文所提出的顯著性排序算法采用了現(xiàn)有的目標檢測模型生成物體框,而非使用像素級分割任務;在獲取顯著性編碼特征方面,采用了現(xiàn)有權重固定的顯著性模型。因此,本文算法的主要復雜度消耗在圖卷積網(wǎng)絡組的訓練上。具體的效率對比數(shù)據(jù)如表5所示,相較于其他顯著性方法,本文算法的模型參數(shù)量更低,效率更高。除了EML-Net,本文算法的運行時間和參數(shù)量均優(yōu)于其他方法,能夠保證在排名性能提高的同時,不增加算法復雜度。
3.6 消融分析
3.6.1 SPFE模塊的有效性
為了驗證所提SPFE模塊的有效性,本文比較了兩種特征編碼方法(ResNet50編碼特征、VGG16編碼特征),實驗結果如表6所示(所有消融實驗都在組合閾值為0.1下進行)。使用SPFE模塊的性能均遠遠高于另外兩種特征編碼方式。其中,在SALICON數(shù)據(jù)集上SRCC指標分別增加了3.9%和5.2%,F(xiàn)1指標分別增加了1.7%和3.0%。實驗結果表明,使用單一局部特征編碼效果有限,SPFE模塊可以更好地識別圖像中的顯著物體。
3.6.2 圖卷積網(wǎng)絡的有效性
為了驗證GCN能夠學習物體間的相互關系,本文將GCN替換成線性層。結果如表7所示,使用GCN的性能高于不使用GCN的性能,原因在于圖卷積網(wǎng)絡模塊考慮了物體編碼特征的差異性問題,允許物體之間的特征相互聯(lián)系,不重要的物體特征分配較小的權重,使得對更重要特征融合的更加充分。其中,在SALICON數(shù)據(jù)集上SRCC和F1指標分別增加了8.2%和7.2%。由于本文算法通過堆疊多個GCN層來穩(wěn)定學習過程和豐富圖關系矩陣,所以探索GCN層數(shù)對網(wǎng)絡模型的影響也十分重要。具體消融實驗如表8所示。當GCN層數(shù)改變時,顯著性排名性能會發(fā)生變化,并且,當層數(shù)等于3時,顯著性排名性能達到最高,因此,在本網(wǎng)絡中,將GCN層數(shù)設置成3以達到最佳性能。
3.6.3 超參數(shù)β對顯著性排名標簽的影響
為了驗證式(1)中超參數(shù)β對顯著性排名真值的影響,本文使用3.4節(jié)用戶研究中獲得的500張人工注釋的顯著性物體排名真值數(shù)據(jù)對β進行消融分析。具體操作流程如下:首先,為了控制變量,本文固定組合閾值γ為0.1,接下來,計算不同β下顯著性排名標簽與人工手動注釋標簽的物體排名標簽偏移量,具體結果如圖9所示。隨著β的升高,排名偏移量變化較大,位于0.6~0.9,排名偏移量幾乎不變。但隨著β的繼續(xù)升高,排名偏移量又開始增高。這是因為當β較小時,式(1)中物體顯著性排名主要由人眼注視點決定,導致物體尺寸信息對顯著性排名的貢獻相對于人眼注視信息過小,進而導致顯著性排名只關注人眼局部注視信息。當位于0.6~0.9時,排名偏移量變化較小,這是因為此時注視點信息和物體尺寸信息貢獻相當,顯著性排名更加穩(wěn)定。當β過大時,顯著性排名中注視點信息對排名標簽的貢獻相較于尺寸信息過小,使顯著性排名過分關注全局信息而忽略了局部物體,從而導致了排名偏移量增高。綜上,本文將β設定為0.6~0.9內(nèi)的平均值,以促使注視點信息和物體尺寸信息對顯著性排名貢獻相當。
3.6.4 最小關系相似性閾值ω對圖像檢索性能的影響
為了研究最小關系相似性閾值(ω)對圖像檢索性能的影響,本文計算了不同相似性閾值下的圖像檢索性能,并繪制了性能曲線,如圖10所示。隨著ω的增加,圖像檢索方法的平均精度(MAP)一開始會提高,然后會下降。MAP的初始增加歸因于現(xiàn)有圖像檢索結果與檢索到的圖像中的對象具有不同的相似關系,所提出的SASR算法可以過濾出相似度差異顯著的檢索結果,從而提高了性能。但是,當將ω提高到一定范圍時,原本正確的檢索結果也被過濾掉,導致精確率上升,召回率下降,最終導致MAP下降,因此,根據(jù)消融分析將閾值設為0.25。
4 結束語
本文提出一種新的圖像檢索策略,能夠在現(xiàn)有基于語義的圖像檢索方法的基礎上通過顯著性物體排名算法提高檢索粒度;闡述了顯著性算法和圖像檢索算法的內(nèi)在關聯(lián);提出了一種基于視點數(shù)據(jù)的組合閾值物體級顯著性排名真值標簽制作方法,簡化了排名標簽的標注;提出了一種基于圖卷積神經(jīng)網(wǎng)絡的物體級顯著性排序網(wǎng)絡,在現(xiàn)有數(shù)據(jù)集上的實驗結果表明,本文方法優(yōu)于當前其他顯著性方法,并能提升圖像檢索方法的性能,證明了其有效性。后續(xù)將對特征融合編碼方式做進一步研究,在確保不降低算法性能的前提下,盡可能降低模型的參數(shù)量;此外,會進一步研究GCN對模型性能的影響,探討如何更有效地構建鄰接矩陣來學習物體間的語義關系。
參考文獻:
[1]Li Xiaoqing,Yang Jiansheng,Ma Jinwen.Recent developments of content-based image retrieval(CBIR)[J].Neurocomputing,2021,452:675-689.
[2]趙昕昕,李陽,苗壯,等.貪心非對稱深度有監(jiān)督哈希圖像檢索方法[J].計算機應用研究,2022,39(10):3156-3160.(Zhao Xinxin,Li Yang,Miao Zhuang,et al.Greedy-asymmetric deep supervised ha-shing for image retrieval[J].Application Research of Computers,2022,39(10):3156-3160.)
[3]Ji Zhong,Wang Haoran,Han Jungong,et al.Saliency-guided attention network for image-sentence matching[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:5753-5762.
[4]Droste R,Jiao Jianbo,Noble J A.Unified image and video saliency modeling[M]//Vedaldi A,Bischof H,Brox T,et al.Computer Vision.Cham:Springer,2020:419-435.
[5]Jiang Ming,Huang Shengsheng,Duan Juanyong,et al.Salicon:saliency in context[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:1072-1080.
[6]王蕓,尹來國,宋夢柯.基于視覺信息補償?shù)亩嗔饕粢曪@著性檢測[J].計算機應用研究,2022,39(7):2230-2235.(Wang Yun,Yin Laiguo,Song Mengke.Multi-stream audio-visual saliency detection of visual information compensation[J].Application Research of Computers,2022,39(7):2230-2235.)
[7]Islam M A,Kalash M,Bruce N D B.Revisiting salient object detection:simultaneous detection,ranking,and subitizing of multiple salient objects[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:7142-7150.
[8]Siris A,Jiao Jianbo,Tam G K L,et al.Inferring attention shift ranks of objects for image saliency[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:12130-12140.
[9]Lyu Yunqiu,Zhang Jing,Dai Yuchao,et al.Simultaneously localize,segment and rank the camouflaged objects[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:11586-11596.
[10]Tian Xin,Xu Ke,Yang Xin,et al.Bi-directional object-context prioritization learning for saliency ranking[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022:5872-5881.
[11]Fang Hao,Zhang Daoxin,Zhang Yi,et al.Salient object ranking with position-preserved attention[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:16311-16321.
[12]Liu Nian,Li Long,Zhao Wangbo,et al.Instance-level relative saliency ranking with graph reasoning[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2022,44(11):8321-8337.
[13]Erdem E,Erdem A.Visual saliency estimation by nonlinearly integrating features using region covariances[J].Journal of Vision,2013,13(4):11.
[14]Pan Junting,F(xiàn)errer C C,Mcguinness K,et al.SalGAN:visual saliency prediction with generative adversarial networks[EB/OL].(2018-07-01).https://arxiv.org/abs/1701.01081.
[15]Ding G,I·mamogˇlu N,Caglayan A,et al.SalFBNet:learning pseudo-saliency distribution via feedback convolutional networks[J].Image and Vision Computing,2022,120:104395.
[16]Xia Rongkai,Pan Yan,Lai Hanjiang,et al.Supervised hashing for image retrieval via image representation learning[C]//Proc of the 28th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2014:2156-2162.
[17]Lai Hanjiang,Pan Yan,Ye Liu,et al.Simultaneous feature learning and hash coding with deep neural networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:3270-3278.
[18]Liu Haomiao,Wang Ruiping,Shan Shiguang,et al.Deep supervised hashing for fast image retrieval[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:2064-2072.
[19]Lin Jie,Li Zechao,Tang Jinhui.Discriminative deep hashing for scalable face image retrieval[C]//Proc of the 26th International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2017:2266-2272.
[20]Li Jiayong,Ng W W Y,Tian Xing,et al.Weighted multi-deep ranking supervised hashing for efficient image retrieval[J].International Journal of Machine Learning and Cybernetics,2020,11:883-897.
[21]Ji Zhong,Chen Kexin,He Yuqing,et al.Heterogeneous memory enhanced graph reasoning network for cross-modal retrieval[J].Science China Information Sciences,2022,65(7):article No.172104.
[22]Tan Mingxing,Pang Ruoming,Le Q V.EfficientDet:scalable and efficient object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:10778-10787.
[23]Chua T S,Tang Jinhui,Hong Richang,et al.NUS-WIDE:a real-world web image database from National University of Singapore[C]//Proc of ACM International Conference on Image and Video Retrieval.New York:ACM Press,2009:article No.48.
[24]Lou Jianxun,Lin Hanhe,Marshall D,et al.TranSalNet:visual saliency prediction using transformers[J].Neurocomputing,2022,494:45-467.
[25]Jia Sen,Bruce N D B.EML-Net:an expandable multi-layer network for saliency prediction[J].Image and Vision Computing,2020,95:103887.
[26]Cornia M,Baraldi L,Serra G,et al.A deep multi-level network for saliency prediction[C]//Proc of the 23rd International Conference on Pattern Recognition.Piscataway,NJ:IEEE Press,2016:3488-3493.
[27]Huang Xun,Shen Chengyao,Boix X,et al.SALICON:reducing the semantic gap in saliency prediction by adapting deep neural networks[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:262-270.
[28]Datar M,Immorlica N,Indyk P,et al.Locality-sensitive hashing scheme based on p-stable distributions[C]//Proc of the 20th Annual Symposium on Computational Geometry.New York:ACM Press,2004:253-262.
[29]Yao Ting,Long Fuchen,Mei Tao,et al.Deep semantic-preserving and ranking-based hashing for image retrieval[C]//Proc of the 25th International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2016:3931-3937.
[30]Ng W W Y,Li Jiayong,Tian Xing,et al.Multi-level supervised hashing with deep features for efficient image retrieval[J].Neurocomputing,2020,399:171-182.
收稿日期:2023-01-31;修回日期:2023-03-14 基金項目:山東省高等學校青創(chuàng)科技計劃創(chuàng)新團隊資助項目(2021KJ062);國家自然科學基金資助項目(61802215)
作者簡介:李林峰(1998-),男(通信作者),山東青島人,碩士,主要研究方向為顯著性物體排名、計算機視覺(2736093676@qq.com);陳程立詔(1988-),男,江西萍鄉(xiāng)人,教授,博導,博士,主要研究方向為顯著性物體檢測、虛擬現(xiàn)實數(shù)據(jù)挖掘、模式識別;王恒森(1996-),男,山東日照人,碩士,主要研究方向為顯著性物體檢測.