強(qiáng) 彥,何 龍,張麗敏,王繼宗,呂 軍,史國華,陳 琪
(1.太原理工大學(xué) 信息與計算機(jī)學(xué)院,太原 030024;2.國網(wǎng)山西省電力公司晉城供電公司,山西 晉城 048000;3.呂梁學(xué)院 計算機(jī)科學(xué)與技術(shù)系,山西 呂梁 033001;4.俄勒岡州立大學(xué) 工程學(xué)院,美國俄勒岡州 科瓦利斯 97331)
隨著電網(wǎng)互聯(lián)不斷深入和電力市場化的逐步實施,電網(wǎng)的運行環(huán)境更加復(fù)雜,對電網(wǎng)的穩(wěn)定性和可靠性提出了更高的要求。我國很多地區(qū)經(jīng)常因為冰雪侵?jǐn)_和覆冰災(zāi)害引起導(dǎo)線斷線、桿塔倒塌、絕緣子閃絡(luò)等事故,導(dǎo)致電能輸送的穩(wěn)定性受到影響[1]。電力公司需要花費大量的人力資源對覆冰圖像進(jìn)行檢索,從而得到圖像的實際坐標(biāo)信息,用以指引工作人員前往做好排障處理。近年隨著信息科學(xué)技術(shù)的快速發(fā)展,電力行業(yè)積累的覆冰圖像數(shù)據(jù)往往呈現(xiàn)出兩個新的特征:1) 數(shù)據(jù)量變得巨大且增長趨勢迅速;2) 常常伴隨著高維特征。海量數(shù)據(jù)和“維度災(zāi)難”兩個問題的疊加,使得精確最近鄰搜索算法效率低下,此時尋找更加高效、準(zhǔn)確的覆冰圖像檢索方法就變得越來越重要。
為了保證檢索質(zhì)量和計算效率,近似最近鄰(approximate nearest neighbor,ANN)搜索已引起越來越多的關(guān)注[2]。ANN搜索返回與其真實最近鄰半徑在c(c>1)倍誤差之內(nèi)的對象作為結(jié)果。當(dāng)面對大規(guī)模的數(shù)據(jù)時,搜索近似最近鄰樣本的計算量要小于搜索精確最近鄰樣本的計算量。哈希學(xué)習(xí)以其在存儲空間和計算時間上的優(yōu)勢受到了較多關(guān)注[3]。哈希學(xué)習(xí)旨在通過哈希函數(shù)將高維的圖像數(shù)據(jù)投影到漢明空間,從而將原始空間樣本映射為緊湊的二進(jìn)制哈希碼,同時盡量保持原數(shù)據(jù)空間中樣本點的近鄰關(guān)系,顯著減少數(shù)據(jù)的存儲和通信開銷,實現(xiàn)有效的圖像檢索,從而有效提高檢索系統(tǒng)的效率。
按照哈希函數(shù)來劃分,哈希學(xué)習(xí)可以分為無監(jiān)督方法[4-6]和有監(jiān)督方法[7-8]。無監(jiān)督哈希函數(shù)通過在從未標(biāo)記的數(shù)據(jù)中進(jìn)行訓(xùn)練將數(shù)據(jù)編碼為二進(jìn)制哈希碼。盡管無監(jiān)督方法更為通用并且可以在沒有語義標(biāo)簽或相關(guān)性的情況下進(jìn)行訓(xùn)練,但它們受到語義鴻溝困境的限制,即對象的高級語義描述通常與低級特征描述有所不同。有監(jiān)督的哈希方法可以合并語義標(biāo)簽或相關(guān)性以減輕語義差距并提高哈希質(zhì)量,即以較少的哈希碼位數(shù)實現(xiàn)準(zhǔn)確的搜索。在本文中,我們專注于建立數(shù)據(jù)依賴型的監(jiān)督哈希編碼的哈希學(xué)習(xí)方法。
近年,深度哈希學(xué)習(xí)方法[9-11]表明使用深度神經(jīng)網(wǎng)絡(luò)可以更有效地學(xué)習(xí)特征表示和編碼任何非線性哈希函數(shù)。這些深度哈希方法已在許多數(shù)據(jù)集中展示了最新的結(jié)果。但是令人滿意的性能僅來自大規(guī)模的圖像數(shù)據(jù),這些圖像提供了充足的訓(xùn)練數(shù)據(jù)標(biāo)簽或成對相似性的監(jiān)督信息。對于電網(wǎng)覆冰圖像來說,可用的監(jiān)督信息不足,而且注釋足夠的訓(xùn)練數(shù)據(jù)或收集成對相似性信息以進(jìn)行深度哈希學(xué)習(xí)極其昂貴。在缺乏相似性信息的情況下,現(xiàn)有的深度哈希學(xué)習(xí)方法可能會過度擬合訓(xùn)練圖像并嚴(yán)重影響檢索質(zhì)量。生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)以其能夠緩解圖像數(shù)據(jù)不足的問題受到廣泛關(guān)注[12]。GAN可通過極小極大博弈機(jī)制生成視覺上近似真實的圖像樣本,以緩解監(jiān)督信息圖像不足的問題。但是這種靈活的算法也伴隨著優(yōu)化的不穩(wěn)定性,會導(dǎo)致模式崩潰問題,因此更多的深度對抗哈希研究致力于穩(wěn)定GAN訓(xùn)練過程。KAMRAN et al[13]提出一種深度無監(jiān)督哈希生成對抗網(wǎng)絡(luò)(HashGAN),可以在無需任何預(yù)訓(xùn)練的情況下有效獲取單張輸入圖像的二進(jìn)制表示,并且引入了新的哈希損失和協(xié)作損失函數(shù)以穩(wěn)定模型訓(xùn)練。CAO et al[14]基于WGAN框架提出一種基于成對相似信息的條件生成對抗網(wǎng)絡(luò)(pair conditional wasserstein GAN,PC-WGAN),通過以成對相似性信息為條件來實現(xiàn)圖像合成,并且引入余弦交叉熵?fù)p失和余弦量化損失函數(shù)以優(yōu)化訓(xùn)練過程。據(jù)了解,該方法是目前圖像檢索領(lǐng)域的最新進(jìn)展。
受上述研究啟發(fā),本文提出一種基于成對相似信息的自編碼生成對抗網(wǎng)絡(luò)(PC-AEGAN),以從真實圖像和生成模型合成的各種圖像中學(xué)習(xí)緊湊的二進(jìn)制哈希碼。具體地,引入自編碼生成對抗網(wǎng)絡(luò)(auto-encoding GAN,AE-GAN)[15],通過在現(xiàn)有的生成器和鑒別器之上添加新的編碼鑒別器以解決模式崩潰和圖像模糊的問題。另外還引入了新穎的基于長尾柯西分布的損失函數(shù)以改善漢明空間檢索性能。對比已有的圖像檢索方法,本文的主要工作如下:
1) 添加新的編碼鑒別器以鼓勵生成的圖像樣本更好地表示潛在的數(shù)據(jù)分布,即將隨機(jī)可能性轉(zhuǎn)換為合成似然性,將未知后驗分布替換為隱含分布。
2) 引入一種新穎的基于長尾柯西分布的交叉熵?fù)p失代替原余弦交叉熵?fù)p失,用于優(yōu)化在漢明空間中的相似性學(xué)習(xí)過程。
3) 進(jìn)一步引入柯西量化損失代替原余弦量化損失,用于在保持相似性學(xué)習(xí)的過程中同時控制將連續(xù)表示轉(zhuǎn)換為二進(jìn)制碼的量化誤差,以優(yōu)化相似信息編碼和二進(jìn)制碼量化過程。
GAN能夠生成視覺上以假亂真的圖像樣本,但是這種靈活的算法也伴隨著優(yōu)化的不穩(wěn)定性,會導(dǎo)致模式崩潰問題。一種自然的替代方法是使用變分自動編碼器(VAE)。當(dāng)基于圖像進(jìn)行訓(xùn)練時,VAE方法不會受到模式崩潰問題的困擾,但輸出具有模糊性。為了有效地解決GAN模式崩潰和VAE圖像模糊的問題,MIHAELA et al[15]提出一種基于變分自動編碼器的生成對抗網(wǎng)絡(luò)e算法,該算法結(jié)合了GAN和VAE兩種模型,模型結(jié)構(gòu)如圖1所示。本文在現(xiàn)有研究的基礎(chǔ)上引入編碼鑒別器網(wǎng)絡(luò)以解決模式崩潰和圖像模糊的問題。
現(xiàn)有研究中通常采用廣義Sigmoid函數(shù)σ(x)=1/(1+e-αx)作為概率映射關(guān)系。但是,廣義Sigmoid函數(shù)存在一個關(guān)鍵的錯誤指定問題,如圖2所示。當(dāng)哈希碼之間的漢明距離遠(yuǎn)大于2時,廣義Sigmoid函數(shù)的概率仍然很高,并且僅當(dāng)漢明距離接近K/2時概率才開始明顯減小。這意味著,以現(xiàn)有的圖像檢索方法無法將相似數(shù)據(jù)的哈希碼之間的漢明距離映射到小于半徑2內(nèi),因為廣義Sigmoid函數(shù)對于小于K/2的漢明距離還沒有足夠的判別力。這是現(xiàn)有圖像檢索方法中未考慮到的。對于漢明半徑大于2的相似數(shù)據(jù),對漢明空間檢索指定的損失函數(shù)明顯不利。CAO et al[17]提出一種基于長尾柯西分布的新型概率映射函數(shù):
(1)
圖2 廣義Sigmoid和長尾柯西分布函數(shù)在相似數(shù)據(jù)點哈希碼之間漢明距離的概率值Fig.2 Probability value of Hamming distance between hash codes of similar data points for generalized Sigmoid and long-tail Cauchy distribution function
由圖2可以觀察到,當(dāng)漢明距離較小時,柯西分布的概率下降得非???,從而導(dǎo)致相似信息被拉至較小的漢明半徑內(nèi),而廣義Sigmoid函數(shù)不能做到這一點。在本文中,我們成功引入基于柯西分布的損失函數(shù),通過代替當(dāng)前最先進(jìn)的余弦損失函數(shù)實現(xiàn)更高效的漢明空間檢索。
如圖3所示,該深度對抗哈希方法主要包括三個學(xué)習(xí)階段:1) 近似哈希碼學(xué)習(xí)階段。給定訓(xùn)練圖像和成對相似性矩陣S,學(xué)習(xí)近似的二進(jìn)制哈希碼矩陣H;2) 近似真實圖像生成階段。通過引入編碼鑒別器C,使得隨機(jī)向量Zr能夠?qū)W習(xí)近似哈希碼H的合成似然性,以鼓勵生成的圖像樣本If更好地表示真實數(shù)據(jù)分布;3) 哈希函數(shù)學(xué)習(xí)階段。構(gòu)建哈希編碼網(wǎng)絡(luò)F,將真實圖像和生成模型合成的各種圖像作為輸入,學(xué)習(xí)生成緊湊的二進(jìn)制哈希碼hi.
圖3 基于自編碼器的深度對抗哈希方法框架Fig.3 Framework of deep adversarial hashing method based on Auto-Encode
給定n張訓(xùn)練圖像I={I1,I2,…,In}和成對相似性矩陣Sij:
(2)
該PC-AEGAN模型建立在α-GAN的基礎(chǔ)上。在生成器G和訓(xùn)練鑒別器D之上采取了編碼鑒別器的網(wǎng)絡(luò)結(jié)構(gòu)以解決模式崩潰和圖像模糊的問題,如圖3所示。生成器網(wǎng)絡(luò)G使用近似哈希編碼向量H作為條件以約束近似真實圖像生成。鑒別器D執(zhí)行兩個任務(wù),一是判別圖像的真實性,二是判斷輸入的成對圖像的相似性。
生成器G:使用了縮放卷積操作來減少參數(shù)的數(shù)量和偽影。此外,在具有3×3卷積核的卷積層之前使用了卷積近鄰上采樣操作以取代反卷積層。為了訓(xùn)練的穩(wěn)定性,歸一化層和ReLU層在每個卷積層后被應(yīng)用。在最后的卷積層之后將歸一化層移除,并且使用了Tanh激活函數(shù)。
訓(xùn)練鑒別器D:具有5個卷積層,所有層均使用4×4大小的卷積核。由于訓(xùn)練鑒別器最后一層的輸出必須是單值(Real/Fake),因此要相應(yīng)地設(shè)置輸出通道大小。在每個卷積層之后設(shè)置了歸一化層和Leaky ReLU層。值得注意的是,在首個和最后的卷積層之后,我們刪除了歸一化層以保持輸入和輸出中各元素之間的獨立性。
編碼鑒別器C:在生成器G和鑒別器D之上采取了α-GAN的編碼鑒別器網(wǎng)絡(luò)結(jié)構(gòu)以解決模式崩潰和圖像模糊的問題。編碼鑒別器C由3個全連接層組成,且Leaky ReLU層和歸一化層在每個全連接層后被放置。
2.3.1哈希編碼網(wǎng)絡(luò)
我們使用AlexNet網(wǎng)絡(luò)作為哈希編碼網(wǎng)絡(luò)F的主要架構(gòu),包括5個卷積層conv1-conv5和3個全連接層fc6-fc8.將最后的全連接層fc8替換為具有k個神經(jīng)元的哈希層,從而將fc7層的特征表示轉(zhuǎn)換為k維二進(jìn)制碼Zi.通過hi=sgn(Zi)獲得哈希碼hi.然而,由于不適當(dāng)?shù)靥荻葘?dǎo)致難以優(yōu)化該函數(shù),因此使用雙曲正切(tanh)函數(shù)將連續(xù)的二進(jìn)制碼Zi壓縮到[0,1]區(qū)間,從而減小了連續(xù)二進(jìn)制碼Zi和哈希碼hi之間的距離。為了進(jìn)一步保證用于有效漢明空間檢索的哈希碼的質(zhì)量,保留了訓(xùn)練對{(Ii,Ij,Sij);Sij∈S}之間的相似性,并控制了量化誤差。
2.3.2貝葉斯學(xué)習(xí)框架
本文使用一種貝葉斯學(xué)習(xí)框架,通過共同保存成對圖像的相似度并控制量化誤差,可以對相似數(shù)據(jù)進(jìn)行深度哈希處理。給定n張訓(xùn)練圖像I={I1,I2,…,In}和成對相似性矩陣Sij,則近似哈希碼H=[h1,h2,…,hn]的對數(shù)最大后驗估計被定義為:
(3)
(4)
其中S1和S0分別是相似和不相似訓(xùn)練對的集合。對于每個訓(xùn)練對,P(Sij|hi,hj)是給定哈希碼(hi,hj)時Sij的條件概率,這可以由伯努利分布得到:
(5)
式中:d(hi,hj)表示哈希碼hi與hj之間的漢明距離,σ(·)是基于柯西分布的概率函數(shù)。
本文提出的深度對抗哈希方法通過3個階段以實現(xiàn)從各種圖像中學(xué)習(xí)緊湊的二進(jìn)制哈希碼,在學(xué)習(xí)階段使用了多個損失函數(shù)來約束模型的訓(xùn)練過程。
2.4.1近似哈希碼學(xué)習(xí)損失
(6)
2.4.2近似真實圖像生成損失
對于訓(xùn)練鑒別器D,定義LDS表示判別輸入圖像真假性的訓(xùn)練損失:
LDS=EIf[D(If)]-EIr[D(Ir)]+λLGP-D.
(7)
類似地,定義了LDC,通過計算訓(xùn)練鑒別器D的輸出和成對相似性矩陣Sij之間的二進(jìn)制交叉熵的總和以表示判別輸入的成對圖像相似性的訓(xùn)練損失:
(8)
因此,訓(xùn)練鑒別器D的總損失為:
(9)
對于生成器G,目標(biāo)是最大程度地利用由相似信息編碼和隨機(jī)向量生成的合成圖像來欺騙訓(xùn)練鑒別器D,我們定義LGS+LGC表示訓(xùn)練損失。損失由兩部分組成:一是合成圖像的質(zhì)量與真實圖像相似,因此訓(xùn)練鑒別器輸出的概率分布約為0.5(LGS);二是引導(dǎo)訓(xùn)練鑒別器判別輸入的成對圖像的相似性(LGC).因此,生成器G的總損失LG為:
(10)
對于編碼鑒別器C,我們定義LC表示判別近似哈希編碼H和隨機(jī)向量Zr間的分布一致性的訓(xùn)練損失:
(11)
2.4.3哈希函數(shù)學(xué)習(xí)損失
由于含有二進(jìn)制約束Hi∈{0,1}q的式(3)的離散優(yōu)化非常具有挑戰(zhàn)性,因此為了簡化優(yōu)化,如大多數(shù)先前的哈希方法所采用的那樣,我們將連續(xù)松弛應(yīng)用于二進(jìn)制約束。為了控制由連續(xù)松弛引起的量化誤差‖hi-sgn(hi)‖,并學(xué)習(xí)高質(zhì)量的哈希碼,使用了一種基于長尾柯西分布的新穎損失:
(12)
為了使用連續(xù)松弛,需要使用連續(xù)編碼的最佳近似值替代漢明距離。對于成對二進(jìn)制哈希碼hi和hj,它們的漢明距離d(hi,hj)與歸一化的歐式距離之間存在以下關(guān)系:
(13)
因此,本文采用上述d(hi,hj),通過將式(5)和(12)輸入式(3)的對數(shù)最大后驗估計中,得到了下列優(yōu)化目標(biāo):
(14)
其中,β是用于權(quán)衡柯西交叉熵?fù)p失LFc和柯西量化損失LFq的超參數(shù),F(xiàn)表示要優(yōu)化的網(wǎng)絡(luò)參數(shù)集。具體而言,柯西交叉熵?fù)p失LFc為:
(15)
類似地,柯西量化損失LFq為:
(16)
本文提出的深度對抗哈希方法包括3個學(xué)習(xí)模塊:相似信息編碼模塊用于學(xué)習(xí)近似哈希碼矩陣H,PC-AEGAN模型用于生成近似真實的圖像,以及哈希編碼模塊用于為每個圖像生成緊湊的哈希碼??傮w模型訓(xùn)練目標(biāo)是式(6)、(9)、(10)、(11)和(14)的統(tǒng)一集成。由于該深度對抗哈希方法是GAN的變體,因此采用了博弈機(jī)制進(jìn)行優(yōu)化訓(xùn)練。相似信息編碼模塊,編碼鑒別器C,生成器G,訓(xùn)練鑒別器D和哈希編碼器F的優(yōu)化問題分別計算如下:
(17)
其中,η用于表示哈希編碼器F和擬議的PC-AEGAN模型的重要性。該深度對抗哈希方法通過反向傳播可以有效地優(yōu)化網(wǎng)絡(luò)參數(shù)。
最后,通過簡單的二值化hi=sgn(Zi)獲得每個圖像的哈希碼。通過式(17)中的博弈優(yōu)化,可以使用成對信息合成近乎真實的圖像,并通過從真實圖像和合成圖像中保持相似度的學(xué)習(xí)和量化誤差最小化來生成幾乎無損的哈希碼。值得注意的是,可以通過使用真實數(shù)據(jù)和合成數(shù)據(jù)進(jìn)行深度學(xué)習(xí)哈希來減輕在監(jiān)督信息不足的情況下學(xué)習(xí)的困難,這會產(chǎn)生更高質(zhì)量的哈希碼以提高搜索性能。
本文中的所有實驗均在以下工作環(huán)境中進(jìn)行:Ubuntu 18.04 LTS,2.90 GHz Intel(R) Xeon(R)W-2102 CPU和NVIDIA GTX Titan XP GPU.
通過和目前最先進(jìn)的哈希檢索方法進(jìn)行對比,我們在兩個數(shù)據(jù)集上驗證了本文提出的深度對抗哈希方法的有效性和魯棒性:
數(shù)據(jù)集1是電力公司于2013-2019年從遙感線路巡檢圖像中收集的覆冰圖像數(shù)據(jù)集,由3 000張圖像組成。我們從中隨機(jī)選擇10%的覆冰圖像用于測試集,其他圖像則用于訓(xùn)練模型。值得注意的是,測試集中的數(shù)據(jù)從未用于模型訓(xùn)練。
數(shù)據(jù)集2是ALEX et al[19]收集的可公開獲得的CIFAR-10數(shù)據(jù)集。該數(shù)據(jù)集由10類圖像、共60 000張組成。我們隨機(jī)選擇每類100張圖像作為測試集,其余500張作為訓(xùn)練集,共50 000張訓(xùn)練圖像和10 000張測試圖像。
基于TensorFlow框架實現(xiàn)本文提出的方法,同時通過對訓(xùn)練數(shù)據(jù)進(jìn)行10折交叉驗證以選擇所有比較方法的參數(shù)。在訓(xùn)練過程中,采用mini-batch Adam優(yōu)化器(learning rate=2×10-4,β1=0.9,β2=0.999,epsilon=None,decay=0,batch size=64),并將最大迭代次數(shù)設(shè)置為700.在模型訓(xùn)練的過程中,保存了在訓(xùn)練集上損失最低的模型參數(shù)以便在測試集上進(jìn)行驗證。
為了評估本文提出的PC-AEGAN模型的有效性,遵循FLEET et al[16]提出的標(biāo)準(zhǔn)評估方法,報告了三個標(biāo)準(zhǔn)評估指標(biāo):不同哈希編碼位數(shù)下漢明半徑2以內(nèi)的平均精度均值,漢明半徑2以內(nèi)的精確率曲線,漢明半徑2以內(nèi)的查全率曲線。
為了驗證本文提出的深度對抗哈希方法的檢索性能,我們與八種經(jīng)典或最新的哈希方法進(jìn)行了比較,包括:有監(jiān)督的淺層哈希方法(ITQ-CCA[20],BRE[21],KSH[7]和SDH[8]),有監(jiān)督的深層哈希方法(DNNH[22],DHN[23]和HashNet[24])和有監(jiān)督的深層對抗哈希方法(PC-WGAN[14]).
3.3.1平均精度
表1展示了所有方法在兩個數(shù)據(jù)集上的MAP結(jié)果,表明所提出的方法大大優(yōu)于所有比較方法。具體地,與最佳的淺層哈希方法SDH相比,我們的方法在CIFAR-10和電網(wǎng)覆冰圖像數(shù)據(jù)集上的平均MAP性能分別提升了22.2%和14.4%,這是因為該方法屬于深度哈希方法,能夠通過端到端框架學(xué)習(xí)深層表示和緊湊的哈希碼,而這是淺層哈希方法無法做到的。在兩個數(shù)據(jù)集上,本文方法的平均MAP性能分別比最先進(jìn)的深度哈希方法HashNet分別提高了8%和3.3%.相比于DNNH,深度哈希方法DHN和HashNet通過共同保存相似性信息并控制量化誤差來學(xué)習(xí)少損的哈希碼,結(jié)果表明量化誤差的引入對于改善模型性能有積極影響。
表1 所有哈希方法在兩個數(shù)據(jù)集上的平均精度值結(jié)果Table 1 MAP@H≤2 results of all hashing methods on two data sets
與最先進(jìn)的深度對抗哈希方法PC-WGAN相比,本文的方法在兩個數(shù)據(jù)集上的平均MAP性能分別改善了2.7%和1.5%.我們在PC-WGAN的基礎(chǔ)上進(jìn)行了兩處重要的改進(jìn):1) PC-AEGAN集成了新穎的編碼鑒別器結(jié)構(gòu),可以使得隨機(jī)向量學(xué)習(xí)真實數(shù)據(jù)的合成似然性和隱含后驗分布以解決模式崩潰和圖像模糊的問題。2) 哈希編碼模塊采用了新穎的柯西交叉熵?fù)p失和柯西量化損失代替余弦損失,可以更精確地近似漢明距離,以學(xué)習(xí)近乎無損的哈希碼。
3.3.2精確率
漢明半徑2內(nèi)精確率曲線(P@H≤2)的性能對有效的圖像檢索非常重要。如圖4所示,本文的方法在使用不同哈希編碼位數(shù)的所有兩個數(shù)據(jù)集上實現(xiàn)了最高的P@H≤2結(jié)果。這表明本文提出的深度對抗哈希方法可以比所有比較方法學(xué)習(xí)到更緊湊的哈希碼,從而建立更有效且準(zhǔn)確的漢明排名。當(dāng)使用更長的哈希碼時,漢明空間將變得更高維且更稀疏,從而更少的數(shù)據(jù)點將落在半徑為2的漢明距離中。這也解釋了為什么大多數(shù)現(xiàn)有的哈希方法在具有更長哈希碼位數(shù)的P@H≤2性能方面表現(xiàn)較差。
圖4 所有哈希方法在兩個數(shù)據(jù)集上的精確率結(jié)果Fig.4 P@H≤2 results of all hashing methods on two data sets
3.3.3查全率
漢明半徑2內(nèi)查全率曲線(R@H≤2)的結(jié)果對于漢明空間檢索至關(guān)重要,因為由于高度稀疏的漢明空間,所有數(shù)據(jù)點都可能被舍棄。如圖5所示,本文提出的方法在兩個數(shù)據(jù)集上均達(dá)到最高R@H≤2結(jié)果,這驗證了我們的方法可以比所有比較方法將更多地相關(guān)點集中在半徑為2的漢明距離內(nèi)。由于使用較長的哈希碼時漢明空間將變得更加稀疏,因此大多數(shù)哈希方法會導(dǎo)致R@H≤2性能嚴(yán)重下降。通過引入新穎的柯西交叉熵?fù)p失和柯西量化損失,隨著哈希碼變得更長,所提出的哈希編碼模塊在R@H≤2上也會產(chǎn)生非常小的性能下降。這表明即使使用更長的編碼位數(shù),本文提出的方法相比于所有比較方法也可以將更多相關(guān)點集中在漢明半徑2之內(nèi)。使用較長編碼位數(shù)的能力使得該方法可以在準(zhǔn)確率和效率之間進(jìn)行權(quán)衡,而這種可選擇性對于之前的哈希方法通常是不可能的。
圖5 所有哈希方法在兩個數(shù)據(jù)集上的R@H≤2結(jié)果Fig.5 R@H≤2 results of and all hashing methods on two data sets
圖6 PC-AEGAN模型在兩個數(shù)據(jù)集上的合成圖像可視化結(jié)果Fig.6 Visualization results of the synthetic images of PC-AEGAN model on two data sets
如圖6展示了本文提出的深度對抗哈希方法在所有數(shù)據(jù)集上的圖像樣本,包括生成的近似真實圖像(左)和從數(shù)據(jù)集中隨機(jī)選擇的真實圖像(右)。值得注意的是,合成圖像的質(zhì)量是近乎真實的,并且在語義上與真實圖像是高度相關(guān)的。合成圖像的引入能夠提升訓(xùn)練圖像的多樣性,促進(jìn)生成緊湊哈希碼的質(zhì)量以改善圖像檢索性能。
本文提出了一種基于自動編碼器的新型深度對抗哈希方法,該方法可通過合成近乎真實的圖像以改善圖像檢索性能。提出的PE-AEGAN模型通過引入編碼鑒別器解決了模式崩潰和圖像模糊的問題,并且哈希編碼模塊通過使用柯西損失代替現(xiàn)有的余弦損失以實現(xiàn)更高效的漢明空間檢索性能。該方法在電網(wǎng)覆冰圖像的私有數(shù)據(jù)集和CIFAR-10公開數(shù)據(jù)集上進(jìn)行了實驗驗證,結(jié)果表明該深度對抗哈希方法可以通過使用多樣的合成圖像提高緊湊型二進(jìn)制哈希碼的質(zhì)量。該方法具有較好的魯棒性,可以對其他圖像檢索問題有啟發(fā)作用。