王華秋,劉 倩
(重慶理工大學(xué) 兩江人工智能學(xué)院, 重慶 401135)
隨著計算機(jī)和多媒體技術(shù)發(fā)展,信息的種類、規(guī)模迅速增加。圖像為信息的重要載體,因此,如何從海量的圖片庫中快速、準(zhǔn)確檢索出與用戶查詢主觀含義一致的圖像,已成為國內(nèi)外研究者的研究熱點。圖像檢索主要分為基于文字的圖像檢索(text-based image retrieval,TBIR)和基于內(nèi)容的圖像檢索(content-basedimageretrieval,CBIR)2個方向。前者的檢索技術(shù)已發(fā)展得非常成熟,但海量圖像的產(chǎn)生將消耗大量伴隨著較強(qiáng)主觀性的人工標(biāo)注工作,并且已無法滿足人們對圖像檢索系統(tǒng)與日俱增的需求。90年代以后,基于內(nèi)容的圖像檢索技術(shù)逐漸發(fā)展起來[1-5],然而傳統(tǒng)的基于內(nèi)容的圖像檢索技術(shù)無法避免“語義鴻溝”的問題。針對此問題,不少研究者以基于距離度量學(xué)習(xí)方式[6-8]替換傳統(tǒng)單一的相似度度量方式,還提出多種特征表示方法[9-13],尤其是近年來深度學(xué)習(xí)技術(shù)廣泛應(yīng)用于CBIR任務(wù)提取圖像高層語義特征。
這些技術(shù)仍然無法很好地貼合用戶查詢的主觀含義,為此,相關(guān)反饋技術(shù)(relevance feedback,RF)被大量引入到CBIR任務(wù)中,如醫(yī)學(xué)圖像識別、衛(wèi)星影像分類等[14-15],通過用戶與系統(tǒng)多次交互,獲取用戶的偏好信息,使檢索結(jié)果更符合用戶需求。近期已有大量RF問題的方法被提出:不少研究者結(jié)合深度學(xué)習(xí)技術(shù)和相關(guān)反饋技術(shù)獲得了更好的檢索精度[16-17],但是未能很好地利用反饋信息。Wang等[18]設(shè)計了自適應(yīng)權(quán)重檢索系統(tǒng),驗證了特征權(quán)重估計的有效性;Tzelepi等[19]改進(jìn)了基于NN范式的相關(guān)反饋算法,但它們的重點工作是區(qū)分好壞特征,使好特征具有更高權(quán)重,容易陷入局部最優(yōu)。為降低用戶的操作復(fù)雜度,反饋的樣本往往較小,訓(xùn)練的樣本的正負(fù)反饋樣本通常不均衡,為了解決這幾個問題,Broilo等[20]將期望最大化參數(shù)應(yīng)用于基于SVM分類的相關(guān)反饋圖像檢索中;Arevalillo-herráez等[21]提出了一種半監(jiān)督主動學(xué)習(xí)算法,將未標(biāo)記的圖像融入學(xué)習(xí)以構(gòu)建更好的分類模型;Kanimozhi等[22]提出了一種基于特征重構(gòu)的支持向量機(jī)相關(guān)反饋算法,利用了基于協(xié)方差矩陣的核經(jīng)驗正交互補分量分析;Razavian等[23]通過卷積神經(jīng)網(wǎng)絡(luò)結(jié)合用戶反饋重新訓(xùn)練全連接層,但這些方法不能很好地利用特征空間中的未知區(qū)域,即沒能充分利用用戶反饋的信息,無法滿足用戶的檢索需求。針對上述問題,近年來不少研究者已將優(yōu)化算法結(jié)合RF技術(shù)應(yīng)用于CBIR任務(wù)中:Yandex等[24]和Gordo等[25]分別構(gòu)建粒子群與遺傳算法優(yōu)化器來跟蹤用戶的檢索偏好,但它們都易滯于局部最優(yōu)。Filip等[26]用螢火蟲算法集SVM算法于RF技術(shù),達(dá)到較好的檢索性能,但未充分利用反饋信息,且參數(shù)復(fù)雜,檢索時間長。
綜上,現(xiàn)有方法存在參數(shù)繁多,不滿足檢索實時性需求,無法充分利用反饋信息以探索特征空間等問題。為此,本文將查詢點移動建模成一個優(yōu)化問題,通過引入多尺度量子諧振子算法(MQHOA)在特征空間中探尋更優(yōu)查詢點,利用其需設(shè)參數(shù)少,不易陷入局部最優(yōu)解,能快速收斂等優(yōu)點,再將其與SVM算法結(jié)合,數(shù)輪后將圖像檢索視為圖像二分類任務(wù),同時繼續(xù)探索未知相關(guān)區(qū)域。為解決樣本不均衡等問題,采用SVM間隔帶TOP-K算法,利用前幾輪反饋的圖像信息對訓(xùn)練集進(jìn)行有效篩選,可獲得更好分類效果。實驗表明,在用戶反饋過程中,利用MQHOA能對特征空間進(jìn)行有效搜索,引入SVM后,大部分圖像已被標(biāo)記為相關(guān)時仍能對未知的特征空間進(jìn)行有效探索,該方法結(jié)合兩者的優(yōu)勢,使反饋信息與特征空間點的相關(guān)性最大化,能有效提高圖像檢索的性能,檢索到更多相關(guān)圖像。
圖像特征提取工作對于圖像檢索任務(wù)非常重要,近年來許多研究者已成功將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像特征提取工作[27-30],由卷積層和池化層可以構(gòu)成一個通用性較強(qiáng)的特征提取器,能夠提取圖像中高度抽象性的深層特征。Su等[30]研究證明,VGG16模型比其他常見模型具有更強(qiáng)的可遷移學(xué)習(xí)能力,Babenko等[31]通過實驗發(fā)現(xiàn),fc7特征相比fc8特征在不同的數(shù)據(jù)集中具有更強(qiáng)的泛化能力。因此,采用預(yù)訓(xùn)練的VGG16模型,提取其fc7層1 024維圖像特征,為了降低檢索復(fù)雜度的同時不損失圖像特征質(zhì)量,通過奇異值分解求解特征向量協(xié)方差矩陣的特征值和特征向量,選取前128個特征值對應(yīng)的特征向量為圖像特征,從而將VGG16網(wǎng)絡(luò)提取的4 096維特征降維為128維,實驗表明,此情況下的特征仍優(yōu)于傳統(tǒng)方式提取的特征[32-33]。
由于特征向量內(nèi)不同特征分量的物理意義不同,為保證各特征分量在相似度匹配加權(quán)時處于相同地位,將特征進(jìn)行z-score標(biāo)準(zhǔn)化:
(1)
式中:q=[x1,x2,x3,…,x128];xi表示第i個特征分量;σ表示圖像集特征的標(biāo)準(zhǔn)差;μ表示圖像集特征的均值。
為減小計算復(fù)雜度,圖像相似度模型以余弦距離為基礎(chǔ),計算方式如下:
(2)
式中:Q、qi分別表示檢索圖像和被檢索圖像的特征向量;F={q1,q2,q3,…,qn},表示圖像集特征集合。
將圖像檢索建模成一個優(yōu)化問題,與經(jīng)典優(yōu)化問題的一個重要區(qū)別是,需要優(yōu)化的對象是從每次用戶反饋中收集而來。若僅考慮用戶標(biāo)記的相關(guān)的圖像,如果展示給用戶的相關(guān)圖像數(shù)量較少,那么停滯的風(fēng)險就非常高,所以綜合考慮用戶反饋的相關(guān)與不相關(guān)圖像信息,將第k輪查詢向量定義為式(3)。
Qk=α*Q0+β*relfk-γ*irrfk
(3)
其中,relf與irrf計算方式如下:
(4)
(5)
其中,v計算方式如下:
(6)
(7)
其中,qi∈XREL,qj∈XIRR,NREL表示XREL大小,NIRR表示XIRR大小,Qk表示查詢向量。適應(yīng)值越小,表明該特征點更遠(yuǎn)離不相關(guān)圖像在特征空間中的區(qū)域,更靠近相關(guān)圖像在特征空間中的區(qū)域,即每輪反饋所尋特征點為:
(8)
訓(xùn)練集對于SVM分類器構(gòu)造十分重要,設(shè)計SVM間隔帶TOP-K算法,其旨在篩選靠近SVM間隔帶的圖像作為訓(xùn)練集。如果將圖像檢索視為二分類任務(wù),則圖像庫中的圖像僅分為2個集合:與圖像相關(guān)的圖像集合,與圖像無關(guān)的圖像集合,它們在數(shù)目上相差懸殊。運用相關(guān)反饋技術(shù),對檢索結(jié)果進(jìn)行標(biāo)記,檢索結(jié)果中已經(jīng)標(biāo)記為不相關(guān)的圖像,為與圖像無關(guān)的圖像集合中最靠近檢索圖像的圖像,所以它們靠近SVM間隔帶;而已經(jīng)標(biāo)記為相關(guān)的圖像,是與圖像相關(guān)的圖像集合中最靠近檢索圖像的圖像,因此這些圖像遠(yuǎn)離SVM間隔帶?;谝陨戏治?,如果用所有反饋圖像信息作為訓(xùn)練集,無法訓(xùn)練出理想的超平面,若出現(xiàn)樣本不均衡問題,分類效果將進(jìn)一步降低。本文充分利用相關(guān)反饋圖像集(相關(guān)圖像集與不相關(guān)圖像集),訓(xùn)練集選擇不相關(guān)圖像集中最靠近檢索圖像的K個圖像,以及圖像庫中除去反饋圖像集后離檢索圖像最遠(yuǎn)的K個相關(guān)圖像。
為了進(jìn)一步保障訓(xùn)練集的質(zhì)量,考慮采用多距離結(jié)合方式選擇TopK圖像。其基本思路如下:
1) 采用VGG16模型提取圖像特征,除前文提到的余弦距離模型,同時引入以下幾種相似度度量模型對圖像集合與檢索圖像進(jìn)行距離度量:
曼哈頓距離模型:
(9)
歐式距離模型:
(10)
2) 以加權(quán)思想分析以上距離模型的度量結(jié)果:針對度量結(jié)果分別按不同的距離模型以升序排序,即排列越靠前,越靠近檢索圖像。每幅圖片在所有距離模型中排序的序號之和視為該圖像的權(quán)重,最后再依據(jù)圖像權(quán)重排序,選擇排列于前K的圖像。
前幾輪反饋中,主要包括MQHOA算法優(yōu)化查詢點、用戶反饋2個過程,隨后將伴隨SVM圖像二分類過程。本文圖像檢索系統(tǒng)算法流程如圖1所示。
圖1 基于MQHOASVM的相關(guān)反饋圖像檢索系統(tǒng)算法流程框圖
為驗證算法的有效性,選擇UC Merced Land-Use遙感數(shù)據(jù)集作為測試圖像集,其中UC Merced Land-Use數(shù)據(jù)集共有21類遙感圖像,每類100幅圖。從UC Merced Land-Use數(shù)據(jù)集中每個類別隨機(jī)選取5幅圖片組成105幅圖像查詢集。
為了驗證算法的檢索效果,選取以下算法作為對比算法進(jìn)行比較:
MQHOASVM-RF與PSOSVM-RF分別表示以MQHOA與PSO算法修改查詢特征以及以反饋信息作為SVM訓(xùn)練集構(gòu)造分類器集成的檢索算法,PSO算法參數(shù)c1=c2=2,ω=0.7。
MQHOA-RF與PSO-RF[23]分別表示基于MQHOA與PSO算法修正查詢特征點的相關(guān)反饋圖像檢索算法。
SVM-RF表示結(jié)合用戶反饋信息,采用TOP-K篩選間隔帶附近的圖像作為訓(xùn)練集構(gòu)造分類器,將圖像檢索視為二分類問題,每輪將分類結(jié)果展示給用戶。
QV-RF[16]表示不使用優(yōu)化算法修正查詢特征點的相關(guān)反饋圖像檢索算法,采用固定的α、β、γ值。
為保證實驗公平性,本文算法、PSOSVM-RF、MQHOASVM-RF與MQHOA-RF,優(yōu)化算法的種群大小為30。所有算法每輪反饋圖像數(shù)目N=50,反饋次數(shù)取10,所有實驗在Intel(R)Core(TM)i5-9500CPU、16G內(nèi)存,windows10系統(tǒng)64位操作系統(tǒng)上完成,圖像檢索系統(tǒng)由MATLABR 2020a編寫。
為了評估算法有效性,選取如下評價指標(biāo):查準(zhǔn)率、查全率,其計算公式分別如下:
(11)
(12)
式中:S(i)表示第i輪反饋時展示圖像中相關(guān)圖像的數(shù)量;N表示展示給用戶的圖像數(shù);Nq表示該類圖像在圖像查詢集中所有相似圖像數(shù)量。
由于優(yōu)化算法是隨機(jī)算法,公平起見,本文算法、PSOSVM-RF、MQHOASVM-RF、PSO-RF和MQHOA-RF重復(fù)運行5次取平均值與另外2種算法進(jìn)行對比。不同方法在查詢集上的檢索精度如圖2所示。
圖2 不同方法在查詢集上10輪反饋的檢索精度曲線
由圖2(a)可知,與SVM-RF相比,MQHOASVM-RF與本文算法分別在其基礎(chǔ)上結(jié)合了MQHOA算法,所以不易滯于當(dāng)前特征區(qū)域,能對特征空間進(jìn)行有效搜索,從而不斷靠近理想查詢點,在后幾輪反饋中查準(zhǔn)率仍不斷提升,PSOSVM-RF結(jié)合了PSO算法,容易陷入局部最優(yōu),后期檢索精度略低于MQHOASVM-RF和本文算法。由圖2(b)可知,相比其他算法,MQHOASVM-RF、PSOSVM-RF與本文算法的查全率顯著高于其他算法,可見集成優(yōu)化算法與SVM算法的檢索系統(tǒng)具有較好的檢索精度。集成算法里,未篩選訓(xùn)練集的算法由于訓(xùn)練樣本小、不均勻等問題造成了分類器及特征在前期比較穩(wěn)定,在后期最高適應(yīng)度對應(yīng)最佳參數(shù)不變,導(dǎo)致在后幾次反饋里查準(zhǔn)率幾乎不再增長,分類效果差。兩輪反饋后,本文算法對訓(xùn)練集進(jìn)行了有效篩選,得到更優(yōu)的超平面,使得分類效果更顯著,查準(zhǔn)率高于MQHOASVM-RF與MQHOA-RF,查全率遠(yuǎn)高于其余算法。
由于本文算法、MQHOASVM-RF與MQHOA-RF的查準(zhǔn)率都顯著高于其余對比算法,為了進(jìn)一步驗證所提算法的有效性,圖3為在第5輪反饋時3種算法在UC Merced Land-Use查詢集上7個類別的檢索精度。這些類別在數(shù)據(jù)集中包含分別與之特征相似度較高的類別,比如高爾夫球場和棒球場特征相似度較高,河流和森林的特征相似度較高。由圖3(a)可見,3種算法用于上述類別圖像的檢索,仍能取得良好的查準(zhǔn)率,對于高、中密度住宅區(qū),本文算法表現(xiàn)更突出。由圖3(b)可知,本文算法在大部分類別中的查全率均顯著高于其余2種算法。
圖3 不同類別遙感圖像上第5輪反饋的檢索精度直方圖
大部分圖像已相關(guān)的情況下,查全率決定了其能否進(jìn)一步探索空間,為了進(jìn)一步對比上述3種算法的檢索相關(guān)圖像的能力,表1列舉了本文算法(1),MQHOASVM-RF(2)以及MQHOA-RF算法(3)在上述7個類別上的平均查全率。其中1~7類分別表示高密度住宅區(qū)、中密度住宅區(qū)、移動家庭公園、跑道、高爾夫球場、河流和網(wǎng)球場類別。由表1可知,MQHOASVM-RF與MQHOA-RF在后面幾次反饋里無法繼續(xù)對特征空間進(jìn)行有效搜索。而本文算法不容停滯于特征空間中的某一區(qū)域,能不斷探索出新的相關(guān)圖像區(qū)域,對特征空間進(jìn)行有效搜索。
高密度類別圖像上各算法的平均查全率如圖4所示。
表1 UC Merced Land-Use查詢集7類的平均查全率
圖4 高密度類別圖像上各算法的平均查全率直方圖
隨著圖像集規(guī)模逐漸增大,檢索效率也成為圖像檢索系統(tǒng)的重要評判標(biāo)準(zhǔn),圖5為上述算法分別在查詢集10輪反饋的平均時間。由于沒有優(yōu)化過程,QV-RF耗時最短,其次是MQHOA-RF。MQHOASVM-RF、PSOSVM-RF與本文算法均集成了2種算法,耗時高于其他幾種算法,由于PSO所有粒子需要不斷迭代來更新自己,所以PSOSVM-RF檢索耗時最長。由于對訓(xùn)練集的有效篩選,本文算法效率高于其余幾種集成算法。綜合考慮檢索精度與檢索效率,本文算法能有效提升系統(tǒng)的檢索性能。
圖5 不同算法平均檢索速度直方圖
針對現(xiàn)有相關(guān)反饋圖像檢索系統(tǒng)需設(shè)參數(shù)多、無法充分利用用戶反饋信息對特征空間進(jìn)行有效搜索、檢索性能低等問題,利用遷移學(xué)習(xí)提取圖像深層特征,引入SVM算法應(yīng)用于基于MQHOA算法修正查詢特征點的圖像檢索系統(tǒng)中,并依據(jù)用戶反饋信息對訓(xùn)練集進(jìn)行有效篩選,保證對特征空間的有效搜索,從而獲得更高的檢索性能。在UC Merced Land-Use遙感數(shù)據(jù)集上的實驗結(jié)果可證明本算法能有效提升檢索性能,尤其是在特征相似度較高的類別上,檢索精度顯著高于其他方法。下一步的工作就是進(jìn)一步提升系統(tǒng)的檢索效率,將提出的算法應(yīng)用到更多領(lǐng)域的大型圖像庫中。