国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

圖像檢索技術(shù)研究進(jìn)展

2017-05-30 03:39:07周文罡李厚強(qiáng)田奇
關(guān)鍵詞:圖像檢索

周文罡 李厚強(qiáng) 田奇

摘要 近年來(lái),互聯(lián)網(wǎng)上視覺(jué)數(shù)據(jù)呈現(xiàn)出爆炸式的增長(zhǎng),越來(lái)越多的研究工作圍繞圖像搜索或圖像檢索技術(shù)而展開(kāi).早期的搜索技術(shù)僅采用文本信息,忽視了視覺(jué)內(nèi)容作為排序的線索,導(dǎo)致搜索文本和視覺(jué)內(nèi)容不一致.基于內(nèi)容的圖像檢索(CBIR)技術(shù)充分利用視覺(jué)內(nèi)容識(shí)別相關(guān)圖像,在近幾年來(lái)獲得了廣泛關(guān)注.在圖像檢索中,最根本的問(wèn)題是意圖鴻溝和語(yǔ)義鴻溝,圍繞該問(wèn)題,近年涌現(xiàn)出大量的基于內(nèi)容的圖像檢索的技術(shù).本文主要對(duì)2003—2016年間提出的相關(guān)圖像檢索方法進(jìn)行總結(jié)、分類和評(píng)估,并對(duì)未來(lái)的潛在研究方向進(jìn)行討論.

關(guān)鍵詞圖像檢索;視覺(jué)表征;索引;相關(guān)性度量;空間上下文;檢索重排序

中圖分類號(hào) TP391.41

文獻(xiàn)標(biāo)志碼 A

1 背景介紹

隨著數(shù)碼設(shè)備的普及以及網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,數(shù)十億人在網(wǎng)上共享和瀏覽照片.圖像檢索(CBIR)致力于從大規(guī)模圖像數(shù)據(jù)庫(kù)中檢索出與文本查詢或視覺(jué)查詢相關(guān)的視覺(jué)內(nèi)容.自20世紀(jì)90年代以來(lái),圖像搜索引起了多媒體等領(lǐng)域研究人員的廣泛關(guān)注[1].傳統(tǒng)的圖像搜索引擎通常基于圖像周邊圍繞的元數(shù)據(jù)信息,例如標(biāo)題和標(biāo)簽,來(lái)索引多媒體視覺(jué)信息.但是由于這些文本信息可能與視覺(jué)信息不一致,其檢索結(jié)果可能不可靠.為避免這種問(wèn)題,基于內(nèi)容的圖像檢索技術(shù)被引入,并在近些年取得了很大的進(jìn)步.在基于內(nèi)容的圖像搜索中有2個(gè)基本的挑戰(zhàn),分別是意圖鴻溝和語(yǔ)義鴻溝.意圖鴻溝指的是用戶很難通過(guò)一個(gè)查詢,例如一張圖像或是一個(gè)素描圖,精確地表達(dá)他所期望的視覺(jué)內(nèi)容;語(yǔ)義鴻溝是指采用一個(gè)低階的視覺(jué)特征來(lái)描述一個(gè)高階的語(yǔ)義內(nèi)容是很困難的[2-4].為了縮小這種鴻溝,學(xué)術(shù)界和工業(yè)界做出了大量的研究工作,并取得了長(zhǎng)足進(jìn)展.

從20世紀(jì)90年代初到21世紀(jì)初,很多基于內(nèi)容的圖像搜索的相關(guān)研究被發(fā)表,已有綜述性論文討論過(guò)這些研究[5-7].在21世紀(jì)初期,隨著一些新的見(jiàn)解和方法的提出,CBIR向另一個(gè)研究趨勢(shì)發(fā)展.尤其是2項(xiàng)開(kāi)創(chuàng)性的研究工作為大規(guī)模多媒體庫(kù)中基于內(nèi)容的視覺(jué)檢索的重大進(jìn)展鋪平了道路.第1個(gè)是局部視覺(jué)特征SIFT的提出[8].SIFT被證明具有極好的描述性和區(qū)分性,以捕獲各種多媒體數(shù)據(jù)中的視覺(jué)內(nèi)容.它具有對(duì)旋轉(zhuǎn)和尺度變換的不變性,同時(shí)也對(duì)光照變化具有很好的魯棒性.第2個(gè)工作是詞袋模型(Bag-of-Visual-Words,BoW)的提出[9].當(dāng)用于信息檢索時(shí),BoW模型通過(guò)量化圖像中包含的局部視覺(jué)特征生成圖像的緊湊表達(dá).同時(shí),BoW模型可以適應(yīng)于倒排索引結(jié)構(gòu),可以更好地應(yīng)用于大規(guī)模圖像檢索.

基于上述開(kāi)創(chuàng)性的工作,最近10年中涌現(xiàn)出大量的基于多媒體內(nèi)容的圖像檢索研究工作[10-29].然而,在工業(yè)界,一些基于內(nèi)容的圖像搜索引擎各有所側(cè)重,例如Tineye(tineye.com)、Ditto(ditto.us.com)、Snap Fashion(www.snapfashion.co.uk)、ViSenze(www.visenze.com)、Cortica(www.cortica.com)等.Tineye于2008年5月推出了10億幅反向圖像搜索引擎.到了2017年1月,Tineye數(shù)據(jù)庫(kù)中索引的圖像已經(jīng)到達(dá)了170億幅.不同于Tineye,Ditto 特別關(guān)注于商標(biāo)圖像,通過(guò)Ditto可以發(fā)掘社交媒體上共享的照片中的商標(biāo)信息.

從技術(shù)上講,基于內(nèi)容的圖像檢索中存在3個(gè)關(guān)鍵問(wèn)題:圖像的表達(dá)、圖像的組織和圖像相似度度量.現(xiàn)有的方法可以基于這3個(gè)關(guān)鍵問(wèn)題進(jìn)行分類.

圖像表達(dá)是基于內(nèi)容的視覺(jué)檢索的本質(zhì)性基礎(chǔ)問(wèn)題.為了方便比較,一幅圖像可以被轉(zhuǎn)換到某種特征空間,以實(shí)現(xiàn)隱式的對(duì)齊,從而消除背景和潛在變形的影響,同時(shí)保持內(nèi)在視覺(jué)內(nèi)容的區(qū)分.事實(shí)上,如何進(jìn)行圖像表征是計(jì)算機(jī)視覺(jué)任務(wù)中的一個(gè)根本性問(wèn)題.通常,一幅圖像被表達(dá)成一個(gè)或多個(gè)視覺(jué)特征.這個(gè)表達(dá)須具有描述性和區(qū)分性,以便于區(qū)分相關(guān)與不相關(guān)的圖像.更加重要的是,人們期望圖像表達(dá)對(duì)各種變化(例如平移、旋轉(zhuǎn)、縮放、光照變換等)具有不變性.

在多媒體檢索中,視覺(jué)數(shù)據(jù)庫(kù)通常非常巨大.一個(gè)非常重要的問(wèn)題是如何組織數(shù)據(jù)庫(kù),以便于當(dāng)給定一幅查詢圖像時(shí),能夠有效地識(shí)別出相關(guān)結(jié)果.受到信息檢索的啟發(fā),許多現(xiàn)有的基于內(nèi)容的視覺(jué)檢索算法和系統(tǒng)利用經(jīng)典的倒排索引結(jié)構(gòu)索引大規(guī)模的視覺(jué)數(shù)據(jù)庫(kù).一些基于哈希的技術(shù)也以同樣的視角被引入到索引中.為了實(shí)現(xiàn)這一目標(biāo),視覺(jué)碼本學(xué)習(xí)和高維視覺(jué)特征的特征量化等技術(shù)被引入,嵌入空間上下文信息也可以進(jìn)一步提高視覺(jué)表示的辨別能力.

理想情況下,圖像間的相似度須反映語(yǔ)義上的相關(guān)性,然而因?yàn)檎Z(yǔ)義鴻溝的存在使其變得困難.在基于內(nèi)容的圖像檢索中,圖像的相似度一般被定義為視覺(jué)特征的加權(quán)匹配結(jié)果.現(xiàn)存算法中圖像相似度定義可以看成是不同的匹配核[30].

本文主要概述2003年至今的10多年間圖像檢索的研究工作.對(duì)于2003年以前的工作,建議讀者閱讀先前的綜述論文[5-7].最近,也有一些關(guān)于CBIR的綜述文章[2-3,31].文獻(xiàn)[31]從數(shù)據(jù)庫(kù)規(guī)模的角度總結(jié)了過(guò)去20年的圖像搜索工作;文獻(xiàn)[3]在社會(huì)圖像標(biāo)簽的背景下,對(duì)最新的CBIR技術(shù)進(jìn)行了回顧,重點(diǎn)論述了3個(gè)緊密聯(lián)系的問(wèn)題:圖像標(biāo)簽分配、優(yōu)化和基于標(biāo)簽的圖像檢索.本文則從不同的視角討論了CBIR,更多地強(qiáng)調(diào)通用框架方法方面的進(jìn)展.

在后續(xù)的章節(jié)中,本文首先簡(jiǎn)要回顧基于內(nèi)容的圖像檢索的通用框架,然后分別討論這個(gè)框架中的5個(gè)關(guān)鍵模塊;之后,介紹普遍使用的測(cè)試數(shù)據(jù)集和評(píng)估標(biāo)準(zhǔn);最后,討論未來(lái)潛在的發(fā)展方向并做總結(jié).

2 通用流程圖概述

基于內(nèi)容的圖像檢索是多媒體領(lǐng)域的一個(gè)熱點(diǎn)研究問(wèn)題.圖像檢索的通用流程如圖1所示.圖1所示的視覺(jué)檢索系統(tǒng)由離線和在線2個(gè)階段組成.在離線階段,通過(guò)圖像爬蟲工具構(gòu)建圖像數(shù)據(jù)庫(kù),將數(shù)據(jù)庫(kù)中的每張圖像表達(dá)成特征向量并構(gòu)建索引.在線階段包含6個(gè)模塊:用戶意圖分析、查詢構(gòu)成、圖像表達(dá)、圖像相關(guān)度評(píng)分、搜索重排序和搜索結(jié)果瀏覽.圖像表達(dá)模塊在離線和在線階段共享.本文不包含圖像數(shù)據(jù)庫(kù)爬取、用戶意圖分析[32]和檢索結(jié)果瀏覽[33].這些方面的研究可以參考前人的工作[6,34].本文的后續(xù)部分集中討論其他5個(gè)模塊,即:查詢構(gòu)成、圖像表達(dá)、數(shù)據(jù)庫(kù)索引、圖像相關(guān)度評(píng)分和檢索重排序.在后面幾節(jié),本文總結(jié)每個(gè)模塊的相關(guān)工作,討論和分析每個(gè)模塊在關(guān)鍵問(wèn)題上所采取的策略.

3 查詢構(gòu)成

進(jìn)行圖像檢索時(shí),用戶往往將自己的意圖用具體的視覺(jué)查詢表達(dá)出來(lái).查詢圖像的質(zhì)量對(duì)檢索結(jié)果有顯著的影響.一個(gè)良好的、明確的查詢可以有效地降低檢索的難度,獲得更加滿意的結(jié)果.大體上,根據(jù)圖像的不同類型,查詢構(gòu)成方式可以分為以下幾種:基于示例圖像、基于草圖、基于顏色圖、基于上下文圖等.如圖2所示,不同的方法會(huì)導(dǎo)致明顯不同的結(jié)果.在下文中,我們分別討論這些代表性的查詢構(gòu)成方式.

最直觀的查詢構(gòu)成方式是示例圖像,用戶使用一張查詢圖進(jìn)行查詢,希望檢索到更多、更好的同一張圖片或者具有相同語(yǔ)義的相似圖片.例如:一幅圖像的所有者可能需要了解他/她的圖片是否未經(jīng)允許而被某些網(wǎng)頁(yè)使用;一名網(wǎng)警可能希望通過(guò)檢查恐怖組織的logo是否出現(xiàn)在網(wǎng)絡(luò)圖片或視頻中來(lái)反恐,等等.為了降低背景的影響,在檢索時(shí),可以框選出示例圖片中的感興趣區(qū)域.由于示例圖片是客觀的,不受人的主觀影響,很容易通過(guò)對(duì)它做定量分析,從而優(yōu)化對(duì)應(yīng)的算法.因此,通過(guò)示例圖片搜索是基于內(nèi)容的圖像檢索系統(tǒng)中被研究最多的方法[9-10,35-36].

除了通過(guò)示例圖片檢索,用戶也可以通過(guò)草圖來(lái)表達(dá)意圖[37-38].在這種方式中,查詢是一張輪廓圖.輪廓比較接近語(yǔ)義表達(dá),它能夠幫助系統(tǒng)從語(yǔ)義的角度檢索到符合用戶意圖的結(jié)果[27].最初,基于草圖的檢索只能用于一些特定的圖像,比如剪切畫[39-40]和簡(jiǎn)單模式圖片[41].一個(gè)里程碑式的工作是Edgel用草圖搜索自然圖像[42].草圖也在一些搜索引擎中得到了應(yīng)用,比如Gazopa(www.gazopa.com)和Retrievr(http:∥labs.systemone.at/retrievr/).然而,基于草圖的搜索有2個(gè)不足之處.首先,除了太陽(yáng)、魚、花等可以被簡(jiǎn)單形狀表達(dá)的對(duì)象,用戶很難快速地通過(guò)輪廓表達(dá)出搜索目標(biāo);其次,由于數(shù)據(jù)庫(kù)中的圖像通常是自然圖像,需要設(shè)計(jì)專門的算法將自然圖像轉(zhuǎn)化成與用戶意圖相符的輪廓圖.

另一種查詢構(gòu)成形式是顏色圖.這類系統(tǒng)會(huì)提供給用戶一種格子狀的調(diào)色板,用戶利用它指定圖像不同區(qū)域的顏色分布,從而檢索具有相似顏色分布的圖像[43].通過(guò)嵌入粗略的形狀,顏色圖允許用戶和系統(tǒng)進(jìn)行交互來(lái)提高檢索效果.但這種方法受限于所能表達(dá)的潛在語(yǔ)義概念.另外,在圖像采集時(shí),顏色和亮度發(fā)生變化是很常見(jiàn)的,這將嚴(yán)重影響顏色特征的可靠性.

上述的查詢構(gòu)成方法便于用作輸入,但仍然難以準(zhǔn)確表達(dá)語(yǔ)義意圖.為了解決這個(gè)問(wèn)題,Xu等[44-45]提出在查詢圖像的某些位置加文字來(lái)表達(dá)語(yǔ)義概念.文獻(xiàn)[46]基于排序SVM模型,也對(duì)這種結(jié)構(gòu)化的目標(biāo)查詢進(jìn)行了研究.這類查詢要求數(shù)據(jù)庫(kù)圖像和查詢圖像中的目標(biāo)或者場(chǎng)景被提前識(shí)別出來(lái).

值得注意的是,上述幾個(gè)目前被大多數(shù)工作采用的方法中,查詢都是單張圖像,這在某些情況下可能不足以反映用戶的意圖.如果提供更多圖像作為查詢,則可以使用一些新的策略來(lái)共同表達(dá)查詢或者融合單一特征的檢索結(jié)果[47].這或許是一個(gè)有意思的課題,尤其是在視頻檢索中,此時(shí)查詢是一個(gè)時(shí)序的視頻片段.

4 圖像表達(dá)

在基于內(nèi)容的圖像檢索中,關(guān)鍵問(wèn)題是如何有效測(cè)量圖像之間的相似性.由于視覺(jué)目標(biāo)或場(chǎng)景可能經(jīng)歷不同的變換,直接在像素層面比較2幅圖像是難以實(shí)行的.通常,首先從圖像中抽取視覺(jué)特征,然后將其變換成固定長(zhǎng)度的向量作為圖像表達(dá).考慮到大規(guī)模數(shù)據(jù)集與有效查詢響應(yīng)之間的矛盾,有必要整合視覺(jué)特征以加速索引和比較的過(guò)程.為了實(shí)現(xiàn)這個(gè)目標(biāo),使用視覺(jué)碼本進(jìn)行量化常被用于特征聚合編碼過(guò)程.除此之外,作為視覺(jué)數(shù)據(jù)的一個(gè)重要特性,空間上下文信息對(duì)于提高視覺(jué)表達(dá)的區(qū)分性是至關(guān)重要的.

基于上述討論,我們可以將2幅圖像x和y之間的內(nèi)容相似性在數(shù)學(xué)上形式化如下:

上述3個(gè)問(wèn)題分別對(duì)應(yīng)于特征抽取、特征編碼與聚合和數(shù)據(jù)庫(kù)索引.特征編碼與聚合過(guò)程包括視覺(jué)碼本學(xué)習(xí)、空間上下文嵌入和量化.在本章節(jié),我們討論在圖像表達(dá),包括特征提取、視覺(jué)碼本學(xué)習(xí)、空間上下文嵌入、量化和特征聚合這些關(guān)鍵問(wèn)題上的相關(guān)工作.數(shù)據(jù)庫(kù)建立索引將在下一章節(jié)中討論.

4.1 特征提取

傳統(tǒng)上,視覺(jué)特征被啟發(fā)式地設(shè)計(jì),并分為局部特征和全局特征.除了那些手工設(shè)計(jì)特征,近年來(lái)基于數(shù)據(jù)驅(qū)動(dòng)的特征學(xué)習(xí)也獲得極大發(fā)展.下面將分別討論這2種特征.

4.1.1 手工設(shè)計(jì)的特征

在早期的基于內(nèi)容的圖像檢索算法與系統(tǒng)中,全局特征通常將顏色[43,48]、形狀[42,49-51]、紋理[52-53]和結(jié)構(gòu)[54]轉(zhuǎn)化為單一全局表達(dá)來(lái)描述圖像內(nèi)容.作為全局特征的一個(gè)重要代表,GIST特征[55]在生物學(xué)上具有合理性,其計(jì)算復(fù)雜度較低,已經(jīng)被廣泛用來(lái)評(píng)估近似最近鄰搜索算法[56-59].由于表達(dá)緊致且計(jì)算高效,全局視覺(jué)特征適用于大規(guī)模數(shù)據(jù)庫(kù)的圖像拷貝檢測(cè)[54],但對(duì)處理背景復(fù)雜的圖像可能效果不佳.典型地,全局特征能夠被用作局部視覺(jué)特征的補(bǔ)充部分以提高近復(fù)制圖像檢索的準(zhǔn)確度[24].

自從Lowe首次提出SIFT特征[8,60]以來(lái),局部特征已經(jīng)被大量的基于內(nèi)容的圖像檢索工作用作圖像表達(dá).通常,局部特征抽取包括2個(gè)重要階段,即興趣點(diǎn)檢測(cè)和局部區(qū)域描述.在興趣點(diǎn)檢測(cè)中,一些特定尺度的關(guān)鍵點(diǎn)或區(qū)域被高可重復(fù)率地檢測(cè)到.這里的重復(fù)率意味著興趣點(diǎn)在不同的變換或改變中仍能被檢測(cè)到.常用的檢測(cè)子包括差分高斯[8]、最大穩(wěn)定極值區(qū)域[61]、Hessian仿射檢測(cè)子[62]、Harris-Hessian檢測(cè)子[63]和FAST[64].在興趣點(diǎn)檢測(cè)中,可實(shí)現(xiàn)平移和尺度變化的不變性.與上述方法不同,不使用任何顯式的檢測(cè)子,僅通過(guò)均勻地、密集地采樣圖像平面獲得興趣點(diǎn)也是可能的[65].

在興趣點(diǎn)檢測(cè)之后,抽取一個(gè)或多個(gè)描述子用來(lái)描述以興趣點(diǎn)為中心的局部區(qū)域的視覺(jué)外觀[66].一般情況下,描述子被設(shè)計(jì)成具有旋轉(zhuǎn)不變性,并且對(duì)仿射變換、噪聲和光照變化等保持穩(wěn)定的形式.除此之外,描述子也應(yīng)該具有區(qū)分性,使得它可以從很多圖像特征構(gòu)成的大集合中以很高的概率獲得正確的匹配.在很多大數(shù)據(jù)集視覺(jué)應(yīng)用中,都特別強(qiáng)調(diào)這種性質(zhì).最常用的具有以上性質(zhì)的描述子是SIFT特征[8].作為SIFT的變形,SURF可以獲得與SIFT可比的性能,但計(jì)算更有效[67].

一些研究人員探索基于SIFT的提升或擴(kuò)展.在文獻(xiàn)[23]中,Arandjelovic等在原始的SIFT描述子上進(jìn)行平方根-歸一化操作獲得root-SIFT特征.盡管操作簡(jiǎn)單,root-SIFT已經(jīng)被證明可有效地提高圖像檢索的精度,并能夠穩(wěn)定地應(yīng)用于很多基于SIFT的圖像檢索算法中[68].Zhou等[36]提出使用原始描述子的2個(gè)中值作為閾值生成SIFT描述子的二值化特征,獲得的二值化SIFT產(chǎn)生一種新的圖像檢索的索引方法[69].Liu等[70]擴(kuò)展了二值化SIFT,他們首先通過(guò)維度對(duì)比生成一個(gè)二值化比較矩陣,然后靈活地劃分矩陣元素到各部分,每個(gè)部分被哈希到1 bit.在文獻(xiàn)[21]中,SIFT描述子通過(guò)主成分分析和簡(jiǎn)單的閾值化操作變換為二值碼.在文獻(xiàn)[71]中,Affine-SIFT通過(guò)調(diào)整2個(gè)照相機(jī)坐標(biāo)方向參數(shù),即緯度和經(jīng)度,模擬原始圖像的一組視角,有效覆蓋了仿射變換的6個(gè)參數(shù),實(shí)現(xiàn)了全仿射不變性.

從具有弱內(nèi)部結(jié)構(gòu)的區(qū)域抽取的SIFT特征具有很差的區(qū)分性,并可能使得圖像檢索性能下降.為了識(shí)別和移除這些特征,Dong等[72]將SIFT描述子看作是一個(gè)取值范圍0~255的離散隨機(jī)變量的128個(gè)采樣,然后采用熵作為測(cè)量標(biāo)準(zhǔn)濾除熵低的SIFT特征.

與像SIFT這樣的浮點(diǎn)型特征不同,二值化特征被廣泛探索,其可從感興趣區(qū)域中直接抽取出來(lái).近年來(lái),二值化特征BRIEF[73]和它的變體相繼被提出,例如ORB[74]、FREAK[75]和BRISK[76],并在視覺(jué)匹配應(yīng)用中吸引了極大的關(guān)注.這些二值化特征通過(guò)一些簡(jiǎn)單的強(qiáng)度差分測(cè)試得到,因此計(jì)算效率非常高.由于漢明距離的計(jì)算優(yōu)勢(shì),基于FAST檢測(cè)子[64]的二值化特征在大規(guī)模圖像檢索上具有很大潛力.Zhang等[77]利用DoG檢測(cè)子檢測(cè)到局部區(qū)域中提取了一種新穎的極短二值化描述子.這種極短二值化描述子實(shí)現(xiàn)了快速匹配和索引.除此之外,遵循二值化SIFT方法[36],它避免了BoW模型中昂貴的碼本訓(xùn)練和特征量化過(guò)程.較為全面的二值化描述子評(píng)估可參見(jiàn)文獻(xiàn)[78].

除了如SIFT特征等局部區(qū)域中的梯度信息,邊緣和顏色也能被用來(lái)表達(dá)成緊致的描述子,生成Edge-SIFT[79]和color-SIFT[80].作為一種二值化局部特征,Edge-SIFT[79]使用Canny邊緣檢測(cè)結(jié)果來(lái)描述一種局部區(qū)域.Zheng等[68]從局部區(qū)域中抽取顏色名稱特征,然后進(jìn)一步變換到二值化特征以增強(qiáng)局部SIFT特征的區(qū)分性.

4.1.2 基于學(xué)習(xí)的特征

除了上面介紹的手工設(shè)計(jì)的視覺(jué)特征,我們還可以將數(shù)據(jù)驅(qū)動(dòng)的方式學(xué)習(xí)特征用于圖像檢索.屬性特征,原來(lái)在物體分類中使用,也可用來(lái)描述圖像檢索中的語(yǔ)義特征[81-83].屬性單詞表可通過(guò)人工的[84-85]或本體論式的[86]方式定義.對(duì)于每個(gè)屬性,可使用核函數(shù)的分類器在有標(biāo)簽的訓(xùn)練圖像集的多種低級(jí)視覺(jué)特征上進(jìn)行訓(xùn)練,然后被用于預(yù)測(cè)不可見(jiàn)圖像的屬性評(píng)分[85-88].在文獻(xiàn)[89]中,屬性特征被用作一種語(yǔ)義一致的表達(dá)以輔助局部SIFT特征做圖像檢索.Karayev等[90]學(xué)習(xí)分類器以預(yù)測(cè)圖像類型,并將其應(yīng)用到檢索中,按照類型排列圖像集合.屬性特征的優(yōu)點(diǎn)在于它提供了一種優(yōu)雅的方式近似視覺(jué)語(yǔ)義,從而降低了語(yǔ)義鴻溝.但屬性特征有2個(gè)不足.首先,無(wú)論采用手動(dòng)或自動(dòng)的方式,都很難定義一個(gè)屬性單詞表的完整集合,因此,基于有限屬性單詞表的表達(dá)在一個(gè)大的語(yǔ)義變化范圍的圖像數(shù)據(jù)集中是有偏差的.其次,由于需要在幾千個(gè)屬性類別上做分類,抽取語(yǔ)義特征計(jì)算代價(jià)高[81,86].主題模型,例如概率隱語(yǔ)義分析模型[91]和隱藏Dirichlet分布模型[92],也可用于學(xué)習(xí)語(yǔ)義特征表達(dá)做圖像檢索[93-94].

伴隨著深度神經(jīng)網(wǎng)絡(luò)的突破性進(jìn)展[65,95-96],近年來(lái)已經(jīng)在很多領(lǐng)域見(jiàn)證了基于學(xué)習(xí)的特征的成功.使用深度架構(gòu),人們已經(jīng)學(xué)習(xí)出接近人類識(shí)別過(guò)程的高層抽象[97].因此,人們采用深度神經(jīng)網(wǎng)絡(luò)從網(wǎng)絡(luò)的不同層抽取特征.文獻(xiàn)[98]從深度受限Boltzmann機(jī)的局部塊中抽取出特征.作為深度神經(jīng)網(wǎng)絡(luò)的典型結(jié)構(gòu),深度卷積神經(jīng)網(wǎng)絡(luò)[99]已經(jīng)在很多圖像識(shí)別和檢索任務(wù)[100]中顯示出最優(yōu)性能.在文獻(xiàn)[101]中,針對(duì)不同的應(yīng)用,包括基于內(nèi)容的圖像檢索,作者基于深度卷積神經(jīng)網(wǎng)絡(luò)做了大量的實(shí)證分析.Razavian等[102]深入研究Alex-Net[99]和VGG-Net[95],并探索了使用最后的卷積層max pooling響應(yīng)作為圖像表達(dá)進(jìn)行圖像檢索.在文獻(xiàn)[103]中,Alex-Net[99]的第6層激勵(lì)被取出作為每幅圖像的深度特征,并被融入傳統(tǒng)的視覺(jué)特征,包括基于SIFT的BoW特征、HSV直方圖和GIST特征,用以計(jì)算圖像相似性評(píng)分.

除了作為圖像的全局表達(dá),也能夠以一種類似于局部特征的方式獲得基于學(xué)習(xí)的特征[104].首先,采用無(wú)監(jiān)督物體檢測(cè)算法生成感興趣的局部區(qū)域,例如選擇性搜索[105]、objectness[106]和二范數(shù)梯度[107].這些算法生成大量的物體候選邊界框.然后,在每個(gè)物體候選區(qū)域,抽取基于學(xué)習(xí)的特征.在文獻(xiàn)[108]中,Sun等采用CNN模型從通用物體檢測(cè)子檢測(cè)到的局部圖像區(qū)域中抽取特征[107],然后將其應(yīng)用到圖像檢索中,獲得了極好的性能.考慮到物體檢測(cè)對(duì)于旋轉(zhuǎn)變換的敏感性,Xie等[104]提出旋轉(zhuǎn)測(cè)試圖像至4個(gè)不同角度,然后構(gòu)建物體檢測(cè).具有最高物體檢測(cè)評(píng)分的物體候選被用來(lái)抽取深度CNN特征[99].Tolias等面向幾何已知的重排序過(guò)程,生成卷積的局部最大響應(yīng)特征(R-MAC)向量[109],擴(kuò)展了積分圖用于加速max-pooling操作.在文獻(xiàn)[110]中,通過(guò)基于區(qū)域候選網(wǎng)絡(luò)[111]的感興趣區(qū)域選擇器選擇區(qū)域,R-MAC描述子被擴(kuò)展進(jìn)行圖像檢索.

上面的方法均從分類任務(wù)中的深度學(xué)習(xí)模型中抽取基于學(xué)習(xí)的特征.因此,學(xué)習(xí)的特征可能不能很好地反映檢索圖像的視覺(jué)內(nèi)容特性,這可能會(huì)限制檢索的性能.因此,直接為檢索任務(wù)訓(xùn)練深度學(xué)習(xí)模型是更受歡迎的,然而,這卻很難實(shí)現(xiàn),因?yàn)闄z索中的潛在圖像類別很難定義或枚舉.為了部分解決這個(gè)難點(diǎn),Babenko等[112]關(guān)注地標(biāo)建筑物檢索,使用與地標(biāo)建筑物相關(guān)的類別調(diào)整在ImageNet上預(yù)訓(xùn)練的CNN模型.之后,在具有相似的視覺(jué)統(tǒng)計(jì)特性的檢索數(shù)據(jù)集上,例如Oxford Building數(shù)據(jù)集[11],這種方法獲得了有潛力的性能提升.為了擺脫對(duì)樣本或類別標(biāo)簽的依賴,Paulin等[113]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的無(wú)監(jiān)督生成塊級(jí)別的特征表達(dá).文獻(xiàn)[114]采用二值碼的形式利用訓(xùn)練圖像的相似性矩陣分解獲得監(jiān)督信息,最終的深度CNN模型能夠以一種端到端的方式生成二值碼.進(jìn)一步地,Lai等[115]提出利用深度神經(jīng)網(wǎng)絡(luò)把圖像哈希為短的二值碼,它的最優(yōu)化是基于一種三元組排序損失.基于獲得的短二值碼作為圖像表達(dá)可實(shí)現(xiàn)高效檢索并降低存儲(chǔ)復(fù)雜度.

4.2 視覺(jué)碼本學(xué)習(xí)

通常,單幅圖像中可抽取出成百上千的局部特征.為了實(shí)現(xiàn)緊致表達(dá),高維的局部特征被量化到一個(gè)預(yù)先訓(xùn)練好的碼本中的視覺(jué)單詞,基于量化結(jié)果,一幅圖像的局部視覺(jué)特征通過(guò)詞袋(Bag-of-Visual-Words,BoW)模型[9]、VLAD[116]或Fisher Vector[117],變換為一個(gè)定長(zhǎng)向量.為了提前生成一個(gè)視覺(jué)碼本,最直接的方式是通過(guò)k-means方法[9,12]對(duì)訓(xùn)練樣本進(jìn)行聚類,將聚類中心看作是視覺(jué)單詞.由于局部特征維度很高并且訓(xùn)練樣本集很大,訓(xùn)練百萬(wàn)甚至更大規(guī)模的大視覺(jué)碼本需要極高的計(jì)算復(fù)雜度.為了解決這個(gè)問(wèn)題,一種替換方法是采用層級(jí)k-means[10],從線性律到對(duì)數(shù)律降低大尺寸的視覺(jué)碼本生成的計(jì)算復(fù)雜度.

在標(biāo)準(zhǔn)k-means中,計(jì)算量最大的階段是將每個(gè)特征分配到最近的聚類中心,這一步需要線性地比較所有的聚類中心.用最近鄰搜索替換線性搜索可加速這個(gè)過(guò)程.基于這種觀察,Philbin等[11]提出一種近似k-means算法,使用隨機(jī)KD樹進(jìn)行快速分配.Li等[118]代替使用k-means生成視覺(jué)單詞,預(yù)先定義一個(gè)半徑隨機(jī)采樣種子點(diǎn)生成超球面,然后將種子點(diǎn)的超球面對(duì)應(yīng)于視覺(jué)單詞.在文獻(xiàn)[119]中,Chu等提出基于圖密度建立視覺(jué)單詞表,它采用圖密度測(cè)量單詞內(nèi)相似性,并通過(guò)一個(gè)標(biāo)量最大化估計(jì)方法生成視覺(jué)單詞.

在BoW模型中,視覺(jué)碼本作為一種媒介識(shí)別視覺(jué)單詞ID,這個(gè)ID可以被看作是量化或哈希的結(jié)果.換句話說(shuō),它使直接變換視覺(jué)特征到一個(gè)視覺(jué)單詞ID而不顯式定義視覺(jué)單詞成為可能.基于這個(gè)觀點(diǎn),一些圖像檢索方法不需要直接訓(xùn)練就能生成一個(gè)虛擬的視覺(jué)碼本.這些方法將一個(gè)局部特征變換到二值化特征,其中視覺(jué)單詞ID被啟發(fā)式定義.在文獻(xiàn)[21]中,Zhang等提出一個(gè)新的查詢敏感的排序算法,用以排序基于PCA的二值哈希碼,而后搜索鄰域做圖像檢索.二值化特征使用局部敏感哈希策略生成,高比特位被用作視覺(jué)單詞ID,將相同ID的特征點(diǎn)分為一組.Zhou等提出將一個(gè)SIFT描述子二值化為一個(gè)256 bit的二值化特征[36].無(wú)需訓(xùn)練碼本,這個(gè)方法從256 bit的向量中選擇32 bit作為碼本,建立索引并檢索.缺點(diǎn)是每個(gè)特征剩余的224 bit必須被存儲(chǔ)在倒排索引表中,造成較大的內(nèi)存消耗.相似地,Dong等[72]提出使用sketch embedding方法[120]將一個(gè)SIFT描述子變換為128 bit的向量.然后,128 bit向量被劃分為4個(gè)不重疊的塊,每個(gè)塊被認(rèn)為是一個(gè)鍵或后續(xù)索引的視覺(jué)單詞.在文獻(xiàn)[121]中,Zhou等提出一個(gè)基于層級(jí)哈希的無(wú)碼本訓(xùn)練的框架.為了確保特征匹配的召回率,大規(guī)模的層級(jí)哈希方法以一種層級(jí)的方式在局部特征的主成分上構(gòu)建標(biāo)量量化.

4.3 空間上下文嵌入

作為結(jié)構(gòu)化的視覺(jué)內(nèi)容的表達(dá),視覺(jué)特征在圖像平面上方向、尺度、關(guān)鍵點(diǎn)距離等空間上下文是相關(guān)的.引入上下文信息,視覺(jué)碼本的區(qū)分能力能夠被極大增強(qiáng)[26].與信息檢索中的文本短語(yǔ)類似,在視覺(jué)單詞上生成視覺(jué)短語(yǔ)是可行的.在文獻(xiàn)[27,122]中,相鄰的局部特征是相關(guān)的,可以用來(lái)生成高階的視覺(jué)短語(yǔ).視覺(jué)短語(yǔ)在內(nèi)容表達(dá)上更加具有描述力.

很多算法在局部視覺(jué)特征中建立局部空間上下文.一些空間最近鄰的弱空間一致性能夠被用來(lái)濾除錯(cuò)誤的視覺(jué)單詞匹配.文獻(xiàn)[9]通過(guò)校驗(yàn)具有15個(gè)最近鄰定義的搜索區(qū)域的匹配特征收集正確的匹配.盡管這種弱約束有效,卻對(duì)背景混亂的圖像中的噪聲很敏感.Zhang等使用組距離度量,為組中的局部特征的空間上下文信息建模,生成語(yǔ)境視覺(jué)碼本[28].Wang等提出分別在描述子域和空間域中進(jìn)行描述子上下文加權(quán)和局部特征空間上下文進(jìn)行加權(quán),以提升基于詞匯樹的方法的性能[123].描述子上下文加權(quán)通過(guò)統(tǒng)計(jì)描述子在詞匯樹中的量化路徑的出現(xiàn)頻率,降低信息量更少的描述子的權(quán)重,而空間上下文加權(quán)探索一些有效的空間上下文統(tǒng)計(jì)特性從而保留具有豐富描述力的局部特征.在文獻(xiàn)[124]中,Liu等通過(guò)在局部特征中嵌入空間上下文信息,建立了一種空間相關(guān)的單詞表用于圖像檢索.

進(jìn)一步地,多模態(tài)屬性,即在一個(gè)相同的關(guān)鍵點(diǎn)上提取多種不同特征,被用于上下文哈希[125].在文獻(xiàn)[126]中,幾何最小哈希使用稀疏的局部幾何信息構(gòu)建可重復(fù)的哈希鍵以獲得更加具有區(qū)分性的描述.在文獻(xiàn)[17]中,Wu等提出在MSER區(qū)域[61]捆綁局部特征.MSER區(qū)域由區(qū)域及其邊界中的強(qiáng)度函數(shù)的極值屬性定義,通過(guò)基于分水嶺的圖像分割定義閾值范圍可以檢測(cè)出穩(wěn)定MSER區(qū)域.捆綁特征通過(guò)共享視覺(jué)單詞數(shù)目和匹配的視覺(jué)單詞的相對(duì)排序進(jìn)行比較.文獻(xiàn)[63]在局部特征點(diǎn)的鄰域提取順序度量特征[127],然后構(gòu)建局部空間一致性校驗(yàn)用于確定對(duì)應(yīng)特征的順序度量是否低于一個(gè)預(yù)先定義的閾值.

Cao等提出了一種空間金字塔匹配方法[128]的推廣策略,通過(guò)對(duì)2組有序的視覺(jué)單詞進(jìn)行線性投影和圓投影,并加以校準(zhǔn)、均衡和分解等簡(jiǎn)單的直方圖操作,對(duì)全局空間上下文信息建模,使特征具有平移、旋轉(zhuǎn)和尺度不變性[129].

在人臉檢索的場(chǎng)景中,上述碼本生成方法可能不能抓取獨(dú)特的面部特征.為了生成具有區(qū)分性的碼本,Wu等[130]提出使用一些具有不同姿勢(shì)、表情和光照條件的訓(xùn)練人物樣本生成基于個(gè)體的視覺(jué)單詞表.一個(gè)視覺(jué)單詞被定義為一個(gè)包含2種成分(分別是任務(wù)ID和位置ID)的元組,并與多個(gè)樣本相關(guān).

4.4 特征量化

特征量化是在視覺(jué)碼本定義之后,為每一個(gè)特征分配一個(gè)視覺(jué)單詞的ID.為了設(shè)計(jì)合適的分配函數(shù),需要綜合考慮量化精度、效率以及內(nèi)存消耗.

最簡(jiǎn)單的方法是通過(guò)線性最近鄰搜索,找出與特征最接近(最相似)的視覺(jué)單詞,但是這種方法計(jì)算量較大.近似最近鄰(ANN)搜索以犧牲精度為代價(jià),提升了查找速度.文獻(xiàn)[8] 在KD樹結(jié)構(gòu)[131]中加入best-bin-first的策略,對(duì)查詢圖像的特征進(jìn)行量化.文獻(xiàn)[10]基于層級(jí)詞匯樹,從根節(jié)點(diǎn)開(kāi)始逐層查找查詢圖像特征的最近鄰.文獻(xiàn)[132]提出了KD森林的近似算法,降低了時(shí)間復(fù)雜度. Muja和Lowe使用FLANN庫(kù)(www.cs.ubc.ca/research/flann),提出了優(yōu)先查找k-means樹算法用于可擴(kuò)展的最近鄰查找[133].文獻(xiàn)[118]提出在隨機(jī)播種碼本上進(jìn)行基于范圍的查找來(lái)量化特征.盡管隨機(jī)播種方法速度快,但是在訓(xùn)練數(shù)據(jù)上的偏差大,在大數(shù)據(jù)集上的檢索精度有限[134].以上各種方法都采用硬量化,因此不可避免地引入了嚴(yán)重的量化誤差.

碼本將特征空間劃分為一些不相交的區(qū)塊,特征量化判定特征屬于哪一個(gè)區(qū)塊.當(dāng)碼本很大時(shí),此時(shí)的特征空間劃分是細(xì)粒度的,這意味著靠近區(qū)塊邊界的特征容易量化到不同的區(qū)塊.當(dāng)碼本較小時(shí),特征空間劃分是粗粒度的,因?yàn)椴幌嚓P(guān)的特征很可能被量化到相同的區(qū)塊.這2種情況都會(huì)產(chǎn)生量化誤差,并分別減低了特征匹配的召回率和準(zhǔn)確率.因此必須折中考慮召回率和準(zhǔn)確率以確定碼本大小[10],或者引入某種限制以改善量化效果.

一些方法在采用大的碼本的同時(shí)引入了軟量化的方法以降低量化誤差.一般而言,特征獨(dú)立的軟量化方法[15]將一個(gè)特征映射為多個(gè)視覺(jué)單詞的加權(quán)組合.直觀上,查詢特征和數(shù)據(jù)庫(kù)特征都可以進(jìn)行軟量化,但是,對(duì)數(shù)據(jù)庫(kù)特征進(jìn)行軟量化會(huì)增加數(shù)倍存儲(chǔ)開(kāi)銷.因此,軟量化通常只在查詢端進(jìn)行[35].文獻(xiàn)[35]基于k-means聚類得到的碼本,以自底向上的方式,再進(jìn)行k-means聚類,生成了2層的視覺(jué)詞匯樹,之后通過(guò)量化一個(gè)大的特征集合構(gòu)建2層樹節(jié)點(diǎn)之間的連接.該文提出的軟量化基于距離比準(zhǔn)則.

另一方面,其他方法采用相對(duì)較小的碼本但增加了進(jìn)一步的校驗(yàn)操作.文獻(xiàn)[12]提出的漢明嵌入方法將SIFT特征映射到更低維的空間并訓(xùn)練一個(gè)中值向量,從而為每一個(gè)SIFT特征都生成一個(gè)二值特征碼.每一個(gè)特征在量化之后都用該二值特征碼進(jìn)行匹配校驗(yàn)[54].文獻(xiàn)[135]作為其變體,提出了非對(duì)稱漢明嵌入方法以深入挖掘二值特征碼的豐富信息.文獻(xiàn)[136]也采用了類似的校驗(yàn)思想,利用單個(gè)特征的中值生成了另一種不同的二值特征碼.

上述量化方法都依賴于單個(gè)視覺(jué)碼本.為了解決量化的塊效應(yīng)并提高召回率,多視覺(jué)碼本應(yīng)運(yùn)而生[137-138].由于不同碼本之間存在相關(guān)性,Zheng等提出貝葉斯聚合方法以降低視覺(jué)碼本交集特征的權(quán)重[139].他們從概率的角度為相關(guān)性問(wèn)題建模并從圖像和特征2個(gè)層面為視覺(jué)碼本交集特征估計(jì)聯(lián)合相似度.

局部特征的向量量化類似于近似最近鄰搜索[58].已經(jīng)有很多面向最近鄰搜索問(wèn)題的哈希算法被發(fā)表,例如:LSH[140-141]、多探針LSH[142]、核化LSH[56]、半監(jiān)督哈希(SSH)[143]、譜哈希[57]、最小哈希[16]、迭代量化[144]、隨機(jī)網(wǎng)格[145]、桶距離哈希(BDH)[146]、查詢驅(qū)動(dòng)的迭代近鄰圖搜索[147]以及線性距離保持哈希[148].然而大部分哈希算法都是應(yīng)用于圖像層次的全局特征如GIST和BoW特征,或僅用于局部特征層次的特征檢索,很少有工作關(guān)注基于局部特征哈希的圖像檢索[22].主要原因是這些方法通常采用多個(gè)哈希表對(duì)每個(gè)特征進(jìn)行索引,帶來(lái)了巨大的內(nèi)存消耗.LSH [141]、多探針LSH[142]、核化LSH[56]等方法需要將原始的數(shù)據(jù)庫(kù)特征保存在內(nèi)存中以計(jì)算它們與查詢特征之間的距離,因此不適合大數(shù)據(jù)集的圖像檢索.另外,近似最近鄰搜索致力于查找k個(gè)與查詢最接近的數(shù)據(jù),這違背了視覺(jué)特征匹配的基于范圍的近鄰搜索的本質(zhì).換句話說(shuō),給定一個(gè)查詢特征,數(shù)據(jù)庫(kù)中的目標(biāo)特征個(gè)數(shù)是與查詢特征相關(guān)的,且由查詢特征的基于范圍的近鄰所確定.

文獻(xiàn)[58]提出乘積量化產(chǎn)生指數(shù)級(jí)別的大碼本而引入較小的內(nèi)存消耗和近似最近鄰搜索的時(shí)間消耗.乘積量化把特征空間分解為多個(gè)子空間的笛卡爾積,并對(duì)每個(gè)子空間進(jìn)行獨(dú)立量化.每個(gè)子空間的量化節(jié)都是一段短碼,用這些短碼建立查找表可以快速估計(jì)2個(gè)特征之間的歐式距離.然而由于乘積量化采用了窮舉搜索,仍然不適用于大數(shù)據(jù)集上的圖像檢索[58].作為這個(gè)瓶頸問(wèn)題的部分解,可以先采用k-means量化縮小搜索范圍,再運(yùn)用乘積量化[58].文獻(xiàn)[149]在特征空間分解和碼本建立2方面對(duì)乘積量化進(jìn)行了優(yōu)化,并提出了參數(shù)化和非參數(shù)化的2種方案.Zhou等將特征匹配表示為-近鄰問(wèn)題并用雙重量化方法對(duì)其近似以進(jìn)行快速索引和查詢[134].他們對(duì)數(shù)據(jù)的每一個(gè)維度分別進(jìn)行粗粒度和細(xì)粒度的量化并將各維度的量化結(jié)果串聯(lián)起來(lái).粗粒度量化結(jié)果用于構(gòu)建索引,而細(xì)粒度量化結(jié)果用于生成二值特征碼以進(jìn)行匹配校驗(yàn).文獻(xiàn)[150]將高維的SIFT特征空間劃分為規(guī)則網(wǎng)格.盡管在圖像分類上有很好的效果,但是文獻(xiàn)[15]證明了規(guī)則網(wǎng)格量化在大數(shù)據(jù)集的圖像檢索問(wèn)題上比文獻(xiàn)[10,15]的方法要糟糕得多.

4.5 特征聚合

當(dāng)一張圖像被表示為一個(gè)局部特征的集合,必須將這些局部特征聚合成一個(gè)固定長(zhǎng)度的向量以進(jìn)行圖像之間相似度的計(jì)算.一般地,有3種方法可以實(shí)現(xiàn)局部特征聚合.

第1種,BoW表達(dá).每個(gè)特征被量化到最接近的視覺(jué)單詞,其量化結(jié)果可以表示為一個(gè)高維的二值向量,非零值對(duì)應(yīng)其量化到的視覺(jué)單詞.將圖像中所有特征量化的結(jié)果合并即得到BoW表達(dá),該向量的維度是視覺(jué)碼本的大小.由于視覺(jué)碼本一般較大,因此圖像的表達(dá)矩陣很稀疏,這使得倒排索引能夠發(fā)揮很大用處.

第2種方法是VLAD(Vector of Locally Aggregated Descriptor)[116],累加視覺(jué)單詞與量化到該視覺(jué)單詞的特征之間的殘差,并將所有視覺(jué)單詞對(duì)應(yīng)的殘差和串接起來(lái),即可得到一個(gè)圖像表征向量.VLAD是一種緊湊的特征表達(dá),并且繼承了SIFT特征的特性包括平移不變性、旋轉(zhuǎn)不變性和尺度不變性.文獻(xiàn)[151]通過(guò)內(nèi)歸一化和多尺度VLAD表達(dá)提升了其性能;文獻(xiàn)[152]對(duì)VLAD進(jìn)行了深度分析;文獻(xiàn)[153]結(jié)合三角嵌入和民主聚合策略拓展了VLAD.更深入地,Tolias等圍繞VLAD提出了多種匹配方法[30].為了降低民主聚合的計(jì)算復(fù)雜度,Gao等提出一種更快速的策略同時(shí)保持了相當(dāng)?shù)臋z索精度[154].文獻(xiàn)[155]首先對(duì)局部特征進(jìn)行稀疏編碼,再通過(guò)最大池化聚合編碼結(jié)果.Liu等提出了構(gòu)建VLAD的層級(jí)方法[156],通過(guò)引入隱藏層視覺(jué)詞袋,殘差向量的分布變得更加均勻,圖像的特征表達(dá)更有區(qū)分力.

盡管對(duì)局部特征進(jìn)行全局聚合得到了緊湊而有效的特征表達(dá),然而VLAD特征對(duì)于解決圖像部分遮擋和背景雜亂問(wèn)題卻沒(méi)有很好的靈活性.為此,Liu等[157]直接在圖像層面上將關(guān)鍵點(diǎn)分組,再借助VLAD[116]方法對(duì)每個(gè)組的局部特征聚合,從而得到可觀的檢索精度.

第3種是Fisher Vector表達(dá)[117,158-159].作為一個(gè)生成模型,給定圖像的特征集合,F(xiàn)isher Vector用對(duì)數(shù)似然函數(shù)的梯度來(lái)表示該圖像[160].文獻(xiàn)[117,161]采用高斯混合模型(GMM)聚合歸一化的梯度向量.事實(shí)上,F(xiàn)isher Vector可以看成BoW和VLAD的衍生版本.一方面,如果只將關(guān)于混合高斯模型的權(quán)值的對(duì)數(shù)似然函數(shù)的梯度作為圖像特征,那么Fisher Vector退化為軟量化版本的BoW.另一方面,如果只保留混合高斯模型的均值向量的對(duì)數(shù)似然函數(shù)的梯度,就得到了VLAD表達(dá)[58].Fisher Vector和VLAD方法采用的混合高斯的數(shù)量或視覺(jué)碼本都較小,得到的圖像表達(dá)并不稀疏,以致于不適合使用倒排索引.因此,常對(duì)圖像的表達(dá)向量進(jìn)行降維和乘積量化[58]便于高效計(jì)算.

上述聚合手段基于局部手工特征,比如SIFT.直觀上,可以直接將這些方法移植到局部深度特征上.Gong等[162]在多尺度下提取圖像塊的CNN特征,用VLAD方法對(duì)每一尺度下的特征進(jìn)行聚合[37].文獻(xiàn)[163]將最后一個(gè)卷積層的輸出作為局部特征,他們證明單個(gè)局部特征已經(jīng)具備較強(qiáng)的區(qū)分力,而聚合所有的局部特征將得到最好的性能.

5 數(shù)據(jù)庫(kù)索引

索引是一種能迅速查詢到目標(biāo)圖像的結(jié)構(gòu).由于檢索的時(shí)間是非常重要的指標(biāo),隨著數(shù)據(jù)庫(kù)圖像的不斷增長(zhǎng),索引的重要性不言而喻.基于內(nèi)容的圖像檢索通常采用2種索引方法:倒排索引和基于哈希的索引.接下來(lái)將分別介紹這2種索引方法.

5.1 倒排索引

受文本檢索的啟發(fā),倒排索引[164]在大數(shù)據(jù)集圖像檢索領(lǐng)域也得到成功應(yīng)用[9-12,14,17-18,165].本質(zhì)上,倒排索引是一個(gè)稀疏矩陣的緊湊表達(dá),其行和列分別表示圖像和視覺(jué)單詞.查詢階段,與查詢圖像包含共同視覺(jué)單詞的數(shù)據(jù)庫(kù)圖像才會(huì)參與計(jì)算相似度,極大地提高了時(shí)間效率.

倒排索引中,每一個(gè)視覺(jué)單詞都指向一個(gè)鏈表,鏈表中每一個(gè)單元都包含了圖像ID等信息,甚至漢明碼[12]、尺度、位置、方位等空間信息[11-13,18]也涵蓋其中.文獻(xiàn)[17]還記錄特征在水平和垂直方向上的順序,文獻(xiàn)[123]的倒排索引包含了特征密度、平均對(duì)數(shù)尺度、平均方位差等空間統(tǒng)計(jì)量,文獻(xiàn)[166]采用多IDF方法適應(yīng)多種特征之間的相關(guān)性并將特征對(duì)應(yīng)的二值特征碼也存入倒排索引中.

倒排索引產(chǎn)生了很多變體.文獻(xiàn)[42]面向基于輪廓的檢索,分別在位置通道和方位通道量化圖像邊緣像素以建立倒排表,文獻(xiàn)[68]提出多特征下的多索引結(jié)構(gòu),文獻(xiàn)[70]在原始SIFT特征空間和二值SIFT空間交叉索引.

還有一些方法在倒排表中嵌入了語(yǔ)義信息.文獻(xiàn)[167]通過(guò)圖模型或矩陣分解把圖像的表達(dá)分解為2部分,一部分用于降維,另一部分用于殘差信息保持,而圖像之間的相似度由這2部分決定.文獻(xiàn)[89]通過(guò)語(yǔ)義屬性刪除了基于SIFT特征的倒排表中的不相關(guān)圖像,同時(shí)插入語(yǔ)義相關(guān)圖像,極大地增強(qiáng)了索引中特征的區(qū)分力.

為了提高召回率,數(shù)據(jù)庫(kù)圖像可能采用多個(gè)量化器以進(jìn)行多次索引,比如KD樹[66,168].文獻(xiàn)[137]采用協(xié)同索引結(jié)構(gòu)同時(shí)優(yōu)化多個(gè)量化器.為了加速檢索,文獻(xiàn)[169]提出了Q索引,基于預(yù)定義的特征得分,剔除查詢圖像中不重要的特征同時(shí)只檢索倒排表中較為重要的特征.針對(duì)并行檢索,文獻(xiàn)[170]在多個(gè)服務(wù)器上建立分布式索引,并將索引分布問(wèn)題定義成一個(gè)學(xué)習(xí)問(wèn)題以減少服務(wù)器之間的搜索延遲.

5.2 基于哈希的索引

當(dāng)圖像的特征表達(dá)向量不是稀疏的,如GIST特征和VLAD特征,倒排索引不再適用,而基于哈希的索引[171-175]得到廣泛應(yīng)用.最具代表性的是局部感知哈希(LSH)[176],使用多個(gè)隨機(jī)映射哈希函數(shù)劃分特征空間,當(dāng)2個(gè)特征較為相似,它們發(fā)生沖突的概率較大.給定查詢圖像,基于哈希沖突可以篩選出一個(gè)候選列表,再通過(guò)精確的距離計(jì)算進(jìn)行重排序.在文獻(xiàn)[56]中,LSH可以結(jié)合任何一種核函數(shù),其時(shí)間復(fù)雜度可以是亞線性的.然而哈希方法的缺點(diǎn)是需要將數(shù)據(jù)庫(kù)圖像原始的特征保存在內(nèi)存中.文獻(xiàn)[177]將結(jié)合了圖像外形和幾何特性的特征圖進(jìn)行哈希索引,其空間復(fù)雜度是數(shù)據(jù)庫(kù)圖像特征個(gè)數(shù)的平方量級(jí).文獻(xiàn)[178]提出特征選擇模型代替哈希方法以降低內(nèi)存消耗.

倒排索引的內(nèi)存消耗與圖像特征向量中的非零元素個(gè)數(shù)成正比.為了進(jìn)一步減少內(nèi)存消耗,文獻(xiàn)[179]將原始的BoW特征映射為多個(gè)最小BOF特征.這些最小BOF特征被進(jìn)一步量化和索引.類似地,文獻(xiàn)[16,180]用多個(gè)最小哈希函數(shù)把BoW特征映射到低維空間,每張圖像需要保存在內(nèi)存中的數(shù)據(jù)的比例是固定的.然而,盡管最小哈希[16,180]及其變體[126]能取得較高的檢索精度,其召回率卻不高,如果增加哈希表的個(gè)數(shù),又會(huì)帶來(lái)更多的內(nèi)存消耗.

6 圖像相關(guān)度評(píng)分

圖像檢索中,需要為每一個(gè)數(shù)據(jù)庫(kù)中的圖像分配一個(gè)得分并排序返回給用戶.這種相似度得分一般定義成圖像聚合特征之間的距離或者特征匹配時(shí)的投票得分.

6.1 基于距離的評(píng)分

將圖像表示為1個(gè)定長(zhǎng)向量之后,圖像的相關(guān)性可以由2個(gè)向量之間的Lp歸一化距離衡定:

Iq和Im分別表示查詢圖像和數(shù)據(jù)庫(kù)圖像的N維特征表達(dá)向量.文獻(xiàn)[10]證明了在BoW模型中,L1歸一化優(yōu)于L2歸一化.文獻(xiàn)[181]延伸了上述距離計(jì)算以測(cè)定圖像的局部相似度并給出了優(yōu)化方案.

在BoW模型中,為了區(qū)分不同視覺(jué)單詞的重要性,詞項(xiàng)頻率(TF)和倒文檔頻率(IDF)被廣泛采用[9,10,12,15,17].詞項(xiàng)頻率和倒文檔頻率加權(quán)之后,一般再進(jìn)行Lp歸一化.由于倒排索引的使用,距離的計(jì)算變得非常高效[10].

然而Lp距離并不是最優(yōu)的.文獻(xiàn)[182]揭示了近鄰關(guān)系不可逆問(wèn)題,即一張圖像不一定是它的近鄰圖像的近鄰.為了解決這個(gè)問(wèn)題,作者提出了上下文非相似性測(cè)度迭代修改圖像之間的距離.文獻(xiàn)[183]提出用概率模型來(lái)計(jì)算特征之間的相似度并引出查詢自適應(yīng)的計(jì)算方法.文獻(xiàn)[184]直接通過(guò)擴(kuò)散處理挖掘數(shù)據(jù)庫(kù)圖像的分布流形從而學(xué)得相似性測(cè)度.

文獻(xiàn)[138]研究了BoW模型中共生及共消現(xiàn)象.共消,即1個(gè)視覺(jué)單詞在2個(gè)BoW向量中對(duì)應(yīng)的值都為0,這個(gè)問(wèn)題可以通過(guò)減均值加以解決[138];視覺(jué)單詞的共生會(huì)導(dǎo)致圖像特征模式的重復(fù)計(jì)算,白化可以減弱其影響[138].這些操作還可以應(yīng)用于VLAD模型中.

6.2 基于投票的評(píng)分

在基于局部特征的圖像檢索中,圖像之間的相似度由特征的匹配程度決定,因此可以累加匹配特征的投票得到相似度得分,這種得分可直接排序而不需要?dú)w一化.

文獻(xiàn)[13]簡(jiǎn)單地將特征匹配對(duì)數(shù)作為相似度得分;文獻(xiàn)[35]將得分函數(shù)定義為查詢和數(shù)據(jù)庫(kù)圖像共享視覺(jué)單詞的TF-IDF的平方和,實(shí)際上即為BOF向量的內(nèi)積;文獻(xiàn)[17]將相似度定義為TF-IDF得分之和;文獻(xiàn)[20]通過(guò)匹配特征集在文獻(xiàn)[17]基礎(chǔ)上進(jìn)一步加權(quán),加權(quán)項(xiàng)分為隸屬度項(xiàng)和幾何項(xiàng),前者表示2組特征集共享的視覺(jué)詞匯數(shù)量,后者則懲罰特征匹配的幾何不一致性;文獻(xiàn)[185-186]提出一種新穎的Lp范數(shù)IDF以拓展現(xiàn)有的IDF.

圖像上下文空間信息對(duì)于圖像匹配非常重要.文獻(xiàn)[123]介紹了上下文加權(quán)機(jī)制結(jié)合IDF以提升視覺(jué)詞匯樹方法的性能,提出了描述子上下文加權(quán)(DCW)和空間上下文加權(quán).文獻(xiàn)[187]提出了基于某種變換的空間限制投票得分計(jì)算,變換空間被離散化并基于匹配特征的相對(duì)位置生成投票圖,從而確定最優(yōu)的變換.

文獻(xiàn)[179]中每個(gè)特征被賦予一個(gè)二值特征碼,圖像距離被定義成所有匹配特征的二值特征碼的漢明距離之和.為了保證不同變換下多個(gè)視覺(jué)對(duì)象的一致性,局部相似度由幾何一致性匹配[188-189]的直方圖的峰值決定.

在圖像的視覺(jué)單詞表達(dá)中,存在視覺(jué)單詞“突發(fā)”現(xiàn)象,某些視覺(jué)單詞在圖像中出現(xiàn)的次數(shù)遠(yuǎn)高于統(tǒng)計(jì)均值,這不利于相似度得分的計(jì)算.對(duì)此,文獻(xiàn)[190-191]提出了刪除一對(duì)多匹配、加權(quán)弱化圖像內(nèi)/外“突發(fā)”等方法.

7 搜索重排序

初始查詢結(jié)果可以通過(guò)發(fā)掘圖像上下文信息[192-193]或增強(qiáng)初始查詢等步驟得到改善.幾何空間校驗(yàn)[11,13,18,126,194]、查詢擴(kuò)展[14,195]及查詢?nèi)诤蟍24]是提升查詢精度最有效的3種后處理方案.接下來(lái)將詳細(xì)介紹這3種方案.

7.1 幾何空間校驗(yàn)

在基于局部特征的圖像檢索中,查詢圖像和數(shù)據(jù)庫(kù)圖像之間的特征對(duì)應(yīng)由特征的相近性確立.典型地,如果2個(gè)局部特征量化到同一個(gè)視覺(jué)單詞,則建立試探性對(duì)應(yīng).由于特征本身的歧義性和量化誤差,錯(cuò)誤的對(duì)應(yīng)也常出現(xiàn).基于此,特征的集合空間信息諸如空間位置、方位、尺度及特征的共生性等常被用來(lái)剔除錯(cuò)誤的對(duì)應(yīng).在對(duì)應(yīng)集合中,通常存在一個(gè)變換模型.仿射變換模型可以用來(lái)估計(jì)縮放、旋轉(zhuǎn)、平移和視角變化等單應(yīng)性變換.復(fù)雜情況可能存在多個(gè)單應(yīng)性.

一些方法通過(guò)檢驗(yàn)局部對(duì)應(yīng)而直接預(yù)測(cè)變換模型,這些方法或基于類RANSAC算法[8,11,63,196],或基于霍夫投票方法[8,197].RANSAC算法[198]的核心觀點(diǎn)是產(chǎn)生對(duì)應(yīng)集合的假設(shè)并鑒別出內(nèi)點(diǎn)最多的模型.理論上,通過(guò)足夠多的對(duì)應(yīng)抽樣和模型驗(yàn)證可以最大程度地恢復(fù)出變換模型,但是其計(jì)算量非常大.文獻(xiàn)[11]引入了局部特征的區(qū)域外形,從而單個(gè)對(duì)應(yīng)就可以產(chǎn)生一個(gè)假設(shè),極大地減少了計(jì)算量.RANSAC算法有2個(gè)缺點(diǎn):第1,RANSAC算法需要參數(shù)以進(jìn)行假設(shè)檢驗(yàn);第2,RANSAC算法的計(jì)算復(fù)雜度關(guān)于匹配的個(gè)數(shù)是平方量級(jí)的.

霍夫投票策略是在變換空間進(jìn)行的[8,199],其計(jì)算復(fù)雜度與對(duì)應(yīng)的個(gè)數(shù)成正比.文獻(xiàn)[12]的霍夫投票是在尺度空間和方位空間進(jìn)行的,基于SIFT特征下的對(duì)應(yīng),分別建立方位差和尺度差直方圖,遠(yuǎn)離直方圖峰值點(diǎn)的對(duì)應(yīng)被認(rèn)為是錯(cuò)誤的對(duì)應(yīng).文獻(xiàn)[20]基于特征對(duì)應(yīng)之間的相對(duì)位移建立了二維霍夫投票空間,從而生成幾何保持的視覺(jué)詞組(GVP).如果不考慮霍夫直方圖的內(nèi)存代價(jià),這種方法可以用來(lái)解決對(duì)尺度和方位的變化不變性.霍夫投票算法的缺點(diǎn)是對(duì)變換空間的劃分粒度的定義不太靈活.為了解決這個(gè)問(wèn)題,文獻(xiàn)[197]受金字塔匹配模式[200]的啟發(fā),提出了霍夫金字塔匹配策略,并且這個(gè)策略的計(jì)算復(fù)雜度與對(duì)應(yīng)的個(gè)數(shù)成線性關(guān)系.文獻(xiàn)[199]在霍夫金字塔匹配的基礎(chǔ)上對(duì)查詢特征進(jìn)行軟量化,文獻(xiàn)[194]提出成對(duì)幾何匹配方法隱式地進(jìn)行了空間校驗(yàn),極大地降低了計(jì)算開(kāi)銷.

另一些方法則沒(méi)有顯式地處理變換模型.文獻(xiàn)[9]利用局部特征組中的空間一致性來(lái)校驗(yàn)特征對(duì)應(yīng),文獻(xiàn)[18]提出了對(duì)匹配特征對(duì)在水平和垂直2個(gè)方向上的相對(duì)坐標(biāo)進(jìn)行空間編碼,并用該編碼迭代地去除不滿足空間一致性的匹配.文獻(xiàn)[13,201]加入SIFT特征的方位和尺度對(duì)空間編碼進(jìn)行了延伸,提出了空間方格編碼和空間扇形編碼,能有效地解決圖像平移、縮放、旋轉(zhuǎn)等變換.文獻(xiàn)[202]提出方向位置綜合(COP)一致性圖模型來(lái)度量SIFT特征對(duì)的相對(duì)空間一致性,通過(guò)檢測(cè)特征匹配對(duì)集合最大的平均COP,達(dá)到刪除空間不一致的噪聲特征的目的.

7.2 查詢擴(kuò)展

查詢擴(kuò)展亦借鑒自文本檢索,用初始查詢中排名靠前的結(jié)果生成新的查詢.某些相關(guān)特征并未出現(xiàn)在初始查詢圖像中而出現(xiàn)在查詢結(jié)果中,因此查詢擴(kuò)展可以使查詢的特征表達(dá)更為豐富,從而提高了召回率.文獻(xiàn)[14,195]討論了平均查詢擴(kuò)展、傳遞閉包擴(kuò)展、遞歸平均查詢擴(kuò)展、內(nèi)擴(kuò)展和外擴(kuò)展等策略.

文獻(xiàn)[23]將經(jīng)過(guò)空間驗(yàn)證的圖像作為正例,得分較低的圖像作為反例,在線訓(xùn)練一個(gè)分類器,根據(jù)圖像到分類決策面的距離進(jìn)行初始結(jié)果重排.文獻(xiàn)[203]在離線階段建立了一個(gè)稀疏圖結(jié)構(gòu)連接潛在的相關(guān)圖像,查詢階段采用HITS算法[204]進(jìn)行關(guān)聯(lián)性傳播得到圖像的排序結(jié)果.文獻(xiàn)[205]更進(jìn)一步地建立異構(gòu)圖模型并提出2種基于圖結(jié)構(gòu)的重排序方法,分別提高了召回率和準(zhǔn)確率.文獻(xiàn)[206]提出了空間查詢擴(kuò)展用于發(fā)掘普遍的視覺(jué)模式,這種查詢擴(kuò)展同時(shí)在視覺(jué)單詞和圖像2個(gè)層面進(jìn)行.

作為查詢擴(kuò)展的一個(gè)特例,相關(guān)反饋[1]從2000年以來(lái)就得到持續(xù)關(guān)注[207-212],其應(yīng)用也取得了極大成效.相關(guān)反饋依賴用戶的標(biāo)注區(qū)分相關(guān)和不相關(guān)圖像并學(xué)得一個(gè)相似性測(cè)度.SVM[207-208]和boosting[213]是常用的學(xué)習(xí)算法.考慮到用戶通常情況下不情愿去標(biāo)注相關(guān)或不相關(guān)信息,用戶的點(diǎn)擊記錄便成為極具價(jià)值的信息[31,214].文獻(xiàn)[215-216]對(duì)相關(guān)反饋有更詳盡的介紹.

7.3 檢索融合

圖像檢索可以采用不同的圖像特征和不同的算法[219].如果將不同的方法融合起來(lái),優(yōu)勢(shì)互補(bǔ),勢(shì)必能得到更好的檢索結(jié)果.很多融合方法都聚焦于排序階段.文獻(xiàn)[217]提出一種排序聚合算法以綜合不同檢索方法下得到的排序列表.文獻(xiàn)[24]對(duì)每種檢索方法的結(jié)果都建立無(wú)向圖結(jié)構(gòu),再把所有的圖結(jié)構(gòu)融合成一張圖,基于PageRank算法[218]或密度最大化策略得到最終的排序結(jié)果.

文獻(xiàn)[103]在評(píng)分階段進(jìn)行檢索融合.作者利用查詢得分曲線下的面積來(lái)區(qū)分不同圖像特征的表達(dá)效力,從而為每種特征分配一個(gè)權(quán)重,將不同特征下的得分加權(quán)相乘得到數(shù)據(jù)庫(kù)圖像與查詢圖像最終的相似度得分.

8 圖像檢索的評(píng)價(jià)指標(biāo)

為了定量描述不同圖像檢索算法的精度與效率,必須收集標(biāo)準(zhǔn)數(shù)據(jù)集并定義衡量指標(biāo).此部分討論圖像檢索研究中常用的有標(biāo)注數(shù)據(jù)集以及干擾數(shù)據(jù)集,并描述圖像目標(biāo)檢索中重要的衡量指標(biāo),如精確度、效率和內(nèi)存占用等.

8.1 圖像目標(biāo)檢索數(shù)據(jù)集

為了能夠較好地體現(xiàn)出圖像檢索算法的可擴(kuò)展性,標(biāo)記數(shù)據(jù)集必須足夠大.然而由于數(shù)據(jù)集收集過(guò)程中標(biāo)注數(shù)據(jù)集是一個(gè)漫長(zhǎng)的過(guò)程,因而現(xiàn)有的標(biāo)記數(shù)據(jù)集都比較小,但是可以通過(guò)將其與達(dá)到百萬(wàn)規(guī)模的干擾數(shù)據(jù)集相結(jié)合來(lái)測(cè)試其可擴(kuò)展性.現(xiàn)有的有標(biāo)記數(shù)據(jù)集的目標(biāo)都是特定的物體、場(chǎng)景以及部分重復(fù)的網(wǎng)絡(luò)圖片.一般來(lái)說(shuō),有標(biāo)注的含有特定物體或場(chǎng)景的圖片會(huì)經(jīng)歷各種變化,并且這些物體或者場(chǎng)景是在不同的光照強(qiáng)度、尺寸、角度、部分遮擋情況、壓縮等條件下取得的.常用的標(biāo)準(zhǔn)數(shù)據(jù)集有UKBench數(shù)據(jù)集[10]、Oxford建筑物數(shù)據(jù)集[11]和Holidays數(shù)據(jù)集[12].MIR Flickr-1M和Flickr-1M是2個(gè)不同的常作為干擾的數(shù)據(jù)集,各自均包含百萬(wàn)張圖片.為了便于比較,表1中列舉了圖像目標(biāo)檢索中常用的數(shù)據(jù)集的相關(guān)信息.

UKBench數(shù)據(jù)集(www.vis.uky.edu/~stewe/ukbench):該數(shù)據(jù)集包含10 200張圖片,這些圖片被分成2 550組.每組均包含四張不同視角或光照強(qiáng)度的描述同一物體的圖片.所有的10 200張圖片都作為檢索目標(biāo),最后對(duì)它們的檢索結(jié)果取平均.

Holidays數(shù)據(jù)集(lear.inrialpes.fr/people/jegou/data.php):該數(shù)據(jù)集包含1 491張圖片,這些圖片被分成500組.每組圖片均包含一個(gè)特定的物體或場(chǎng)景,并在不同的視角下拍攝.每組圖片的第1張圖片作為檢索圖片.

Oxford建筑物數(shù)據(jù)集(www.robots.ox.ac.uk/~vgg/data/oxbuildings):該數(shù)據(jù)集由從Flickr(www.flickr.com)網(wǎng)站上搜集到的5 062張牛津建筑物圖片組成.這些圖片已經(jīng)被人工標(biāo)注為11個(gè)不同的地標(biāo)中的某一類,每一個(gè)地標(biāo)都含有5個(gè)檢索目標(biāo).因此共有55個(gè)檢索目標(biāo).部分無(wú)關(guān)圖片作為干擾項(xiàng)被加入到該數(shù)據(jù)集中.

Paris數(shù)據(jù)集(www.robots.ox.ac.uk/~vgg/data/parisbuildings):該數(shù)據(jù)集由從Flickr數(shù)據(jù)集中選取的6 412張巴黎建筑物圖片組成.該數(shù)據(jù)集共有500張檢索圖片.

DupImage數(shù)據(jù)集(pan.baidu.com/s/1jGETFUm):該數(shù)據(jù)集包含1 104張圖片,被分成33組.每一組的內(nèi)容為一個(gè)圖標(biāo)或一個(gè)插畫,比如肯德基圖標(biāo)、美國(guó)哥特式繪畫、蒙娜麗莎等.從中選取108張圖片作為檢索圖片.

FlickrLogos-32數(shù)據(jù)集(www.multimedia-computing.de/flickrlogos):該數(shù)據(jù)集由從Flickr數(shù)據(jù)集中選取的32個(gè)商標(biāo)圖標(biāo)組成.該數(shù)據(jù)集被分成訓(xùn)練部分、驗(yàn)證部分和測(cè)試部分.8 240張圖片中有6 000張圖片不包含圖標(biāo),將其作為干擾項(xiàng).

INSTRE數(shù)據(jù)集(vipl.ict.ac.cn/isia/instre):該數(shù)據(jù)集包含INSTRE-S和INSTRE-m 2個(gè)部分[221].前者包含200類23 070張圖片,后者包含5 473張圖片,每張圖片包含100類目標(biāo)中的2個(gè)實(shí)例.

ZuBuD數(shù)據(jù)集(www.vision.ee.ethz.ch/showroom/zubud/index.en.html):該數(shù)據(jù)集包含蘇黎世的201個(gè)建筑物共1 005張圖片,每一建筑物有5個(gè)不同的視角[222].數(shù)據(jù)集中加入了115張無(wú)關(guān)圖片,這些圖片在數(shù)據(jù)集中找不到相關(guān)圖片.圖片的分辨率為320×240.

Stanford Mobile Visual Search數(shù)據(jù)集(purl.stanford.edu/rb470rw0983):該數(shù)據(jù)集為手機(jī)相機(jī)拍攝的照片,比如CD、書本、戶外建筑物、名片、博物館的藝術(shù)品、唱片等.數(shù)據(jù)集中共有3 300張檢索圖片.

MIR Flickr-1M數(shù)據(jù)集(medialab.liacs.nl/mirflickr/mirflickr1m):該數(shù)據(jù)集為干擾數(shù)據(jù)集,由Flickr數(shù)據(jù)集中隨機(jī)選取的100萬(wàn)張圖片組成,每張圖片經(jīng)過(guò)縮放后不大于500×500.

Flickr1M數(shù)據(jù)集(bigimbaz.inrialpes.fr/herve/siftgeo1M)是另一個(gè)干擾數(shù)據(jù)集,包含了Flickr數(shù)據(jù)集中100萬(wàn)張圖片的SIFT特征.該數(shù)據(jù)集中不包含原始圖片.

8.2 圖像目標(biāo)檢索評(píng)價(jià)指標(biāo)

多媒體圖像目標(biāo)檢索系統(tǒng)中,精確度、效率和內(nèi)存占用是3個(gè)重要的評(píng)價(jià)指標(biāo).通常檢索算法都希望在最小的犧牲其中2個(gè)指標(biāo)的情況下提升另一個(gè)指標(biāo).

1) 精確度.為了定量地描述檢索結(jié)果,根據(jù)相關(guān)程度對(duì)數(shù)據(jù)集圖片進(jìn)行分類,并依據(jù)數(shù)據(jù)庫(kù)圖片的返回順序來(lái)計(jì)算精確度得分.不同的相關(guān)水平具有不同的距離.實(shí)際中只使用2種相關(guān)水平:相關(guān)與不相關(guān).平均精確度用來(lái)衡量單張圖片的檢索結(jié)果.平均精確度結(jié)合了精確率和召回率.精確率表示檢索得到的前k張圖片中正確結(jié)果的比例.召回率表示檢索結(jié)果中的正確結(jié)果與真實(shí)正確結(jié)果的比例.一般來(lái)說(shuō),如果一個(gè)檢索系統(tǒng)的精確度降低,則其檢索結(jié)果中的正確結(jié)果以及召回率會(huì)上升.如式(6)所示,當(dāng)一張相關(guān)圖像被檢索到時(shí),將其返回序號(hào)取平均作為平均精確度.為了描述多張檢索圖片的檢索結(jié)果,將每一張檢索圖片的平均精確度取平均,得到平均精確度均值.

其中R代表當(dāng)前檢索圖片的相關(guān)圖片數(shù)量,P(k)代表前k個(gè)檢索結(jié)果的平均精確度,rel(k)代表第k個(gè)檢索結(jié)果是否為相關(guān)圖片,若為相關(guān)圖片,則為1,否則為0,n代表檢索結(jié)果的總數(shù)量.

當(dāng)使用多種相關(guān)度級(jí)別的時(shí)候,使用式(7)所示的歸一化搜索引擎質(zhì)量指標(biāo)來(lái)衡量檢索結(jié)果.

其中n代表檢索得到的圖片的數(shù)量,rk代表相關(guān)度級(jí)別,f(*)是調(diào)整不同相關(guān)性水平的函數(shù),N表示歸一化項(xiàng),以確保在檢索結(jié)果理想時(shí)該指標(biāo)的結(jié)果為100%.f(*)的常用定義包括f(x)=x和f(x)=2x-1,后者強(qiáng)調(diào)檢索高度相關(guān)的圖像.

除了以上評(píng)價(jià)指標(biāo),特定數(shù)據(jù)集還有特定的評(píng)價(jià)指標(biāo).在UKBench數(shù)據(jù)集中,由于每一個(gè)檢索目標(biāo)都有4張相關(guān)圖片,因此使用N-S得分,即用前4個(gè)返回結(jié)果中正確結(jié)果個(gè)數(shù)的均值來(lái)反映檢索精確度.

2) 計(jì)算效率.圖像目標(biāo)檢索的計(jì)算效率包括建立碼本花費(fèi)的時(shí)間、視覺(jué)特征索引花費(fèi)的時(shí)間以及檢索花費(fèi)的時(shí)間.前2項(xiàng)是離線進(jìn)行的,最后一項(xiàng)是在線進(jìn)行的,都希望花費(fèi)時(shí)間盡可能短.在線的檢索過(guò)程需要具有實(shí)時(shí)性.

3) 內(nèi)存占用.多媒體圖像目標(biāo)檢索系統(tǒng)中,內(nèi)存占用指的是在線檢索過(guò)程階段占用的內(nèi)存.一般來(lái)說(shuō),內(nèi)存主要用于聚類器及需要在檢索開(kāi)始前提前導(dǎo)入內(nèi)存的數(shù)據(jù)集索引文件.常用的聚類算法是基于樹形結(jié)構(gòu)的,比如分級(jí)單詞樹和隨機(jī)森林等,這些包含幾百萬(wàn)個(gè)視覺(jué)單詞的樹一般占用幾百兆字節(jié)空間.倒排表占用的內(nèi)存空間與數(shù)據(jù)集大小成正相關(guān).當(dāng)用局部特征表示數(shù)據(jù)集圖片且局部特征已被索引到時(shí),倒排表占用的空間與局部特征占用的內(nèi)存空間成正相關(guān).

9 未來(lái)的研究方向探討

過(guò)去幾十年來(lái),產(chǎn)生了許多新方法以改善圖像目標(biāo)檢索系統(tǒng),然而仍然有很大改善空間.接下來(lái),我們將討論未來(lái)幾十年的研究方向.

9.1 收集標(biāo)記數(shù)據(jù)集

在多媒體和計(jì)算機(jī)視覺(jué)領(lǐng)域,往往是特定的任務(wù)驅(qū)使新的標(biāo)記數(shù)據(jù)集產(chǎn)生.構(gòu)建數(shù)據(jù)集初期,研究人員不斷地提出經(jīng)典的方法刷新檢索精確度并解決研究問(wèn)題.但在此過(guò)程中,數(shù)據(jù)集的過(guò)擬合可能會(huì)阻礙算法上的突破.隨著對(duì)研究問(wèn)題有了更好的理解并對(duì)其有了更加明確的定義,現(xiàn)有數(shù)據(jù)集的不足逐漸顯現(xiàn),因此需要采集新的數(shù)據(jù)集.新數(shù)據(jù)集的標(biāo)記應(yīng)足夠準(zhǔn)確,從而消除一些圖像內(nèi)容相關(guān)性上存在的二義性問(wèn)題,比如商品圖標(biāo)數(shù)據(jù)集等.同時(shí),數(shù)據(jù)集應(yīng)足夠大從而將其與圖像分類問(wèn)題區(qū)分開(kāi).

9.2 意圖導(dǎo)向的查詢生成與選擇

意圖鴻溝是基于內(nèi)容的圖像檢索中首要也是最大的一個(gè)挑戰(zhàn).一個(gè)簡(jiǎn)單的查詢問(wèn)題,例如,彩色圖或草圖,在大部分場(chǎng)合下仍然無(wú)法反映用戶意圖,使得檢索結(jié)果不理想.除了傳統(tǒng)的查詢方式,用戶指定具體檢索意圖可大大降低后期的檢索難度.考慮到可能用戶參與檢索過(guò)程的意愿低,可以設(shè)計(jì)方便的查詢界面接口以盡可能減少用戶參與.例如,對(duì)用戶而言,在用于檢索的示例圖像中指定感興趣的區(qū)域,或指出預(yù)期的結(jié)果是部分重復(fù)的,或指示類似的空間顏色和紋理結(jié)構(gòu)等,則是很容易的.也可以預(yù)測(cè)可能的意圖并與用戶確認(rèn).總而言之,相比于被動(dòng)預(yù)測(cè)用戶的意圖,更佳的辦法是使用戶積極參與到檢索過(guò)程中.

在圖像檢索中,檢索效果會(huì)受到查詢圖像的影響.如何選擇一個(gè)最適合檢索的查詢圖像是一個(gè)非常重要的問(wèn)題.查詢圖像的質(zhì)量的相關(guān)因素包括分辨率、噪聲、仿射變換、背景的雜亂程度等.在移動(dòng)搜索的場(chǎng)合下,可以讓用戶拍攝更好的照片以獲得更好的查詢圖片.在服務(wù)器端,可以設(shè)計(jì)檢索質(zhì)量自動(dòng)評(píng)估方法[223-224]從初始檢索結(jié)果中選取高精度結(jié)果作為潛在的候選結(jié)果.

9.3 面向檢索的深度學(xué)習(xí)

盡管基于內(nèi)容的視覺(jué)檢索取得了較大進(jìn)展,但語(yǔ)義感知檢索與視覺(jué)內(nèi)容仍存在巨大的鴻溝.因?yàn)槟壳坝糜趫D像表達(dá)的特征都是手動(dòng)設(shè)計(jì)的,所以無(wú)法捕捉語(yǔ)義信息.由于多媒體視覺(jué)數(shù)據(jù)的多樣性,現(xiàn)有的方法是無(wú)監(jiān)督的.為了解決語(yǔ)義感知檢索方面的難題,可使用可擴(kuò)展監(jiān)督或半監(jiān)督學(xué)習(xí)進(jìn)行語(yǔ)義學(xué)習(xí),以提高基于內(nèi)容的視覺(jué)檢索的性能.大規(guī)模視覺(jué)識(shí)別的深度學(xué)習(xí)的成功[95-96,99,225]已經(jīng)表明其具備這樣的潛力.

將現(xiàn)有的深度學(xué)習(xí)方法運(yùn)用于基于內(nèi)容的圖像檢索,首先需要解決2個(gè)重要的問(wèn)題.第一,深度學(xué)習(xí)獲得的圖像表達(dá)應(yīng)靈活多變并且對(duì)各種常見(jiàn)的變換具有不變性,如旋轉(zhuǎn)變換和縮放變換.由于現(xiàn)有的深度學(xué)習(xí)特征是將圖像與各向異性卷積濾波器進(jìn)行卷積獲取的,所得特征圖對(duì)大幅度的旋轉(zhuǎn)變換和縮放變換不具有不變性.目前仍無(wú)法確定能否通過(guò)增加訓(xùn)練樣本來(lái)解決.第二,由于基于內(nèi)容的視覺(jué)目標(biāo)檢索中特別強(qiáng)調(diào)計(jì)算效率和內(nèi)存占用,在設(shè)計(jì)深度學(xué)習(xí)網(wǎng)絡(luò)時(shí)需考慮這些限制因素.例如,緊湊的二進(jìn)制語(yǔ)義哈希編碼[59,65]和稀疏的語(yǔ)義向量均可以用于表示圖像,但因?yàn)楹笳咴诰嚯x計(jì)算和內(nèi)存占用2方面都有較高的效率,所以更適合于倒排索引結(jié)構(gòu).

9.4 無(wú)監(jiān)督數(shù)據(jù)庫(kù)融合

傳統(tǒng)的基于內(nèi)容的圖像檢索算法和系統(tǒng)中,數(shù)據(jù)庫(kù)圖像被獨(dú)立處理,其潛在的相關(guān)性信息則沒(méi)有被考慮.主要原因是通常沒(méi)有數(shù)據(jù)庫(kù)圖像的標(biāo)簽信息而且潛在的類別數(shù)量是無(wú)限的.這些問(wèn)題限制了復(fù)雜監(jiān)督學(xué)習(xí)在圖像目標(biāo)檢索算法中的應(yīng)用.不過(guò),只要數(shù)據(jù)庫(kù)足夠大,很可能存在一些圖像子集,而每個(gè)子集中的圖像可能與其他子集中的圖像相關(guān).因此,在離線階段需要使用無(wú)監(jiān)督技術(shù)發(fā)現(xiàn)這些子集的相關(guān)關(guān)系.如果將每個(gè)數(shù)據(jù)庫(kù)圖像作為節(jié)點(diǎn),將圖像之間的相關(guān)性程度當(dāng)作連接節(jié)點(diǎn)的邊權(quán)值,則可以用圖結(jié)構(gòu)表示所有的數(shù)據(jù)庫(kù)圖像.那么,子集相關(guān)問(wèn)題可以視為子圖發(fā)現(xiàn)問(wèn)題.另一方面,在實(shí)踐中,新圖像可以增加至原圖中.離線階段的最終結(jié)果可使在線查詢獲得更好的檢索結(jié)果.

9.5 跨模態(tài)檢索

上述討論中,我們專注于圖像目標(biāo)檢索.但是,除了視覺(jué)特征,還有其他非常有用的信息,如網(wǎng)頁(yè)中圖像的文字信息、用戶在使用搜索引擎時(shí)的搜索日志、視頻中的語(yǔ)音信息等.這些多模態(tài)信息是互補(bǔ)的,有利于協(xié)同識(shí)別圖像和視頻的視覺(jué)內(nèi)容.因此,可以使用不同的模型探索跨模態(tài)信息檢索并整合這些信息.基于多模態(tài)信息表達(dá)、特征量化、建立索引、搜索重排序?qū)⒊蔀樾碌难芯空n題.

9.6 端到端的檢索框架

如上節(jié)所述,檢索框架涉及多個(gè)模塊,包括特征提取、碼本學(xué)習(xí)、特征量化、圖像索引等.這些模塊均對(duì)每一個(gè)檢索任務(wù)單獨(dú)設(shè)計(jì)和獨(dú)立優(yōu)化.此外,若研究對(duì)象為深度學(xué)習(xí)中卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),我們可以在BoW模型和CNN模型中找到一個(gè)非常密切的類比.卷積濾波器在CNN模型中的使用方式與BoW模型中的碼本視覺(jué)單詞類似.圖像塊和卷積濾波器的卷積結(jié)果本質(zhì)上是軟量化結(jié)果,它們的極大值池化操作類似于BoW模型中的聚類操作.只要學(xué)習(xí)到的特征向量是稀疏矩陣,就可以有效地采用倒排索引結(jié)構(gòu)建索引圖像數(shù)據(jù)庫(kù).與BoW模型不同的是,CNN模型中上述模塊是針對(duì)圖像分類的任務(wù)優(yōu)化.類似地,我們也可以采取端到端方案,將圖像作為框架的輸入,輸出索引的特征,并使用傳統(tǒng)的關(guān)鍵檢索相關(guān)模塊進(jìn)行協(xié)同優(yōu)化.

9.7 圖像目標(biāo)檢索與社交媒體

與傳統(tǒng)的無(wú)結(jié)構(gòu)網(wǎng)絡(luò)多媒體數(shù)據(jù)不同,近幾年,社交媒體平臺(tái)上分享了大量的社交媒體數(shù)據(jù).代表性的社交媒體平臺(tái),如Facebook、Twitter、維基百科、LinkedIn、Pinterest等.社交媒體上含有海量的多態(tài)信息,這些信息既體現(xiàn)社會(huì)文化背景和潮流趨勢(shì),也揭示個(gè)人的情感和行為特征等.基于內(nèi)容的圖像檢索技術(shù),在用戶創(chuàng)建的內(nèi)容中,視覺(jué)數(shù)據(jù)用途廣泛,即可以發(fā)掘和理解潛在的社區(qū)關(guān)系,幫助了解個(gè)體用戶的行為,提供產(chǎn)品推薦服務(wù),還可以進(jìn)行人群情緒監(jiān)督和預(yù)警.

9.8 公開(kāi)挑戰(zhàn)賽

由于數(shù)據(jù)的部署結(jié)構(gòu)和可獲得性不同,學(xué)術(shù)界的研究和工業(yè)界的應(yīng)用存在巨大的鴻溝.為了解決這個(gè)問(wèn)題,應(yīng)鼓勵(lì)科研人員參與一些工業(yè)界的項(xiàng)目,并在實(shí)際場(chǎng)景中解決遇到的關(guān)鍵問(wèn)題.過(guò)去的5年中,已經(jīng)產(chǎn)生類似的項(xiàng)目,比如微軟圖像檢索挑戰(zhàn)賽和阿里巴巴大規(guī)模圖像檢索挑戰(zhàn)賽.這些挑戰(zhàn)賽不僅會(huì)促使學(xué)術(shù)界研究的發(fā)展,還可以解決現(xiàn)實(shí)中的各種問(wèn)題,相信將來(lái)會(huì)有越來(lái)越多的挑戰(zhàn)賽或類似項(xiàng)目.

10 全文總結(jié)

本文主要總結(jié)近年來(lái)圖像目標(biāo)檢索的發(fā)展.首先,重點(diǎn)闡述檢索目標(biāo)的產(chǎn)生、圖像表示、圖像索引、檢索得分的重排序等檢索框架的關(guān)鍵模塊,然后,分別討論每一個(gè)模塊的關(guān)鍵問(wèn)題以及一些代表性研究階段和方法,最后,擴(kuò)展討論了未來(lái)8個(gè)可能的提高檢索性能的研究方向.

參考文獻(xiàn)

References

[1] Rui Y,Huang T S,Ortega M,et al.Relevance feedback:A power tool for interactive content-based image retrieval[J].IEEE Transactions on Circuits and Systems for Video Technology,1998,8(5):644-655

[2] Alzubi A,Amira A,Ramzan N.Semantic content-based image retrieval:A comprehensive study[J].Journal of Visual Communication and Image Representation,2015,32:20-54

[3] Li X R,Uricchio T,Ballan L,et al.Socializing the semantic gap:A comparative survey on image tag assignment,refinement,and retrieval[J].ACM Computing Surveys,2016,49(1):14

[4] Lin Z J,Ding G G,Hu M Q,et al.Semantics-preserving hashing for cross-view retrieval[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2015:3864-3872

[5] Smeulders A W M,Worring M,Santini S,et al.Content-based image retrieval at the end of the early years[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(12):1349-1380

[6] Lew M S,Sebe N,Djeraba C,et al.Content-based multimedia information retrieval:State of the art and challenges[J].ACM Transactions on Multimedia Computing,Communications,and Applications,2006,2(1):1-19

[7] Liu Y,Zhang D S,Lu G J,et al.A survey of content based image retrieval with high-level semantics[J].Pattern Recognition,2007,40(1):262-282

[8] Lowe D G.Distinctive image features from scale invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110

[9] Sivic J,Zisserman A.Video Google:A text retrieval approach to object matching in videos[C]∥ IEEE International Conference on Computer Vision and Pattern Recognition,2003:1470-1477

[10] Nister D,Stewenius H.Scalable recognition with a vocabulary tree[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2006:2161-2168

[11] Philbin J,Chum O,Isard M,et al.Objectret rieval with large vocabularies and fast spatial matching[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2007:1-8

[12] Jegou H,Douze M,Schmid C.Hamming embedding and weak geometric consistency for large scale image search[C]∥European Conference on Computer Vision,2008:304-317

[13] Zhou W G,Li H Q,Lu Y J,et al.Large scale image search with geometric coding[C]∥ACM International Conference on Multimedia,2011:1349-1352

[14] Chum O,Philbin J,Sivic J,et al.Total recall:Automatic query expansion with a generative feature model for object retrieval[C]∥IEEE International Conference on Computer Vision,2007:1-8

[15] Philbin J,Chum O,Isard M,et al.Lost in quantization:Improving particular object retrieval in large scale image databases[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2008:1-8

[16] Chum O,Philbin J,Zisserman A.Near duplicate imagedetection:Min-hash and TF-IDF weighting[C]∥British Machine Vision Conference,2008,3:4

[17] Wu Z,Ke Q F,Isard M,et al.Bundling features for large scale partial-duplicate web image search[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2009:25-32

[18] Zhou W G,Lu Y J,Li H Q,et al.Spatial coding for large scale partial-duplicate web image search[C]∥ACM International Conference on Multimedia,2010:511-520

[19] Chum O,Mikulik A,Perdoch M,et al.Total recall Ⅱ:Query expansion revisited[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2011:889-896

[20] Zhang Y M,Jia Z Y,Chen T.Image retrieval with geometry-preserving visual phrases[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2011:809-816

[21] Zhang X,Zhang L,Shum H-Y.QsRank:Query-sensitive hash code ranking for efficient -neighbor search[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2012:2058-2065

[22] He J F,F(xiàn)eng J Y,Liu X L,et al.Mobile product search with bag of hash bits and boundary reranking[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2012:3005-3012

[23] Arandjelovic R,Zisserman A.Three things everyone should know to improve object retrieval[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2012:911-2918

[24] Zhang S T,Yang M,Cour T,et al.Query specific fusion for image retrieval[C]∥European Conference on Computer Vision,2012:660-673

[25] Tian Q,Zhang S L,Zhou W G,et al.Building descriptive and discriminative visual codebook for large-scale image applications[J]Multimedia Tools and Applications,2011,51(2):441-477

[26] Zhou W G,Li H Q,Lu Y J,et al.Large scale partial-duplicate image retrieval with bi-space quantization and geometric consistency[C]∥IEEE International Conference Acoustics Speech and Signal Processing,2010:2394-2397

[27] Zhang S L,Tian Q,Hua G,et al.Descriptive visual words and visual phrases for image applications[C]∥ACM International Conference on Multimedia,2009:75-84

[28] Zhang S L,Huang Q M,Hua G,et al.Building contextual visual vocabulary for large-scale image applications[C]∥ACM International Conference on Multimedia,2010:501-510

[29] Zhou W G,Tian Q,Lu Y J,et al.Latent visual context learning for web image applications[J].Pattern Recognition,2011,44(10/11):2263-2273

[30] Tolias G,Avrithis Y,Jegou H.To aggregate or not to aggregate:Selective match kernels for image search[C]∥International Conference on Computer Vision,2014:1401-1408

[31] Zhang L,Rui Y.Image search from thousands to billions in 20 years[J].ACM Transactions on Multimedia Computing,Communications,and Applications,2013,9(1):36

[32] Tang X O,Liu K,Cui J Y,et al.Intent search:Capturing user intention for one-click internet image search[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(7):1342-1353

[33] Moghaddam B,Tian Q,Lesh N,et al.Visualization and user-modeling for browsing personal photo libraries[J].International Journal of Computer Vision,2004,56(1/2):109-130

[34] Datta R,Joshi D,Li J,et al.Image retrieval:Ideas,influences,and trends of the new age[J].ACM Computing Surveys,2008,40(2):5

[35] Jegou H,Douze M,Schmid C.Improving bag-of-features for large scale image search[J].International Journal of Computer Vision,2010,87(3):316-336

[36] Zhou W G,Lu Y J,Li H Q,et al.Scalar quantization forlarge scale image search[C]∥ACM International Conference on Multimedia,2012:169-178

[37] Cao Y,Wang H,Wang C H,et al.Mindf inder:Interactive sketch-based image search on millions of images[C]∥ACM International Conference on Multimedia,2010:1605-1608

[38] Xiao C C,Wang C H,Zhang L Q,et al.Sketch-based image retrieval via shape words[C]∥ACM International Conference on Multimedia Retrieval,2015:571-574

[39] Sousa P,F(xiàn)onseca M J.Sketch-based retrieval of drawings using spatial proximity[J]∥Journal of Visual Languages & Computing,2010,21(2):69-80

[40] Fonseca M J,F(xiàn)erreira A,Jorge J A.Sketch-based retrieval of complex drawings using hierarchical topology and geometry[J].Computer-Aided Design,2009,41(12):1067-1081

[41] Liang S,Sun Z X.Sketch retrieval and relevance feedback with biased SVM classification[J].Pattern Recognition Letters,2008,29(12):1733-1741

[42] Cao Y,Wang C H,Zhang L Q,et al.Edgel index for large scale sketch-based image search[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2011:761-768

[43] Wang J D,Hua X-S.Interactive image search by color map[J].ACM Transactions on Intelligent Systems and Technology,2011,3(1):1-23

[44] Xu H,Wang J D,Hua X-S,et al.Image search by concept map[C]∥International ACM SIGIR Conference on Research and Development in Information Retrieval,2010:275-282

[45] Xu H,Wang J D,Hua X-S,et al.Interactive image search by 2D semantic map[C]∥International Conference on World Wide Web,2010:1321-1324

[46] Lan T,Yang W L,Wang Y,et al.Image retrieval with structured object queries using latent ranking SVM[J].European Conference on Computer Vision,2012:129-142

[47] Kim G,Moon S,Sigal L.Ranking and retrieval of image sequences from multiple paragraph queries[C]∥IEEE Conferenceon Computer Vision and Pattern Recognition,2015:1993-2001

[48] Wengert C,Douze M,Jegou H.Bag-of-colors for improved image search[C]∥ACM International Conference on Multimedia,2011:1437-1440

[49] Xie J,F(xiàn)ang Y,Zhu F,et al.Deepshape:Deep learned shape descriptor for 3d shape matching and retrieval[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2015:1275-1283

[50] Wang F,Kang L,Li Y.Sketch-based 3D shape retrieval using convolutional neural networks[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2015:1875-1883

[51] Bai S,Bai X,Zhou Z C,et al.Gift:A real time and scalable 3d shape search engine[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2016:5023-5032

[52] Park M,Jin J S,Wilson L S.Fast content-based imageretrieval using quasi-Gabor filter and reduction of image feature dimension[C]∥IEEE Southwest Symposium on Image Analysis andInterpretation,2002:178-182

[53] Wang X Y,Zhang B B,Yang H Y.Content-based image retrieval by integrating color and texture features[J].Multimedia Tools and Applications,2014,68(3):545-569

[54] Wang B,Li Z W,Li M J,et al.Large-scale duplicate detection for web image search[C]∥IEEE International Conference on Multimedia and Expo,2006:353-356

[55] Siagian C,Itti L.Rapid biologically-inspired scene classification using features shared with visual attention[J].IEEETransactions on Pattern Analysis and Machine Intelligence,2007,29(2):300-312

[56] Kulis B,Grauman K.Kernelized locality-sensitive hashing for scalable image search[C]∥IEEE International Conference on Computer Vision,2009:2130-2137

[57] Weiss Y,Torralba A,F(xiàn)ergus R.Spectral hashing[C]∥International Conference on Neural Information Processing Systems,2008:1753-1760

[58] Jegou H,Douze M,Schmid C.Product quantization for nearest neighbor search[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(1):117-128

[59] Torralba A,F(xiàn)ergus R,Weiss Y.Small codes and large image databases for recognition[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2008:1-8

[60] Lowe D G.Object recognition from local scale-invariant features[C]∥ IEEE International Conference on Computer Vision,1999,2:1150-1157

[61] Matas J,Chum O,Urban M,et al.Robust wide baseline stereo from maximally stable extremal regions[J].Imageand Vision Computing,2004,22(10):761-767

[62] Mikolajczyk K,Schmid C.Scale & affine invariant interest point detectors[J].International Journal of Computer Vision,2004,60(1):63-86

[63] Xie H T,Gao K,Zhang Y D,et al.Efficient feature detection and effective post-verification for large scalenear-duplicate image search[J].IEEE Transactions on Multimedia,2011,13(6):1319-1332

[64] Rosten E,Porter R,Drummond T.Faster and better:A machine learning approach to corner detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(1):105-119

[65] Krizhevsky A,Hinton G E.Using very deep autoencoders for content-based image retrieval[C]∥European Symposium on Artificial Neural Networks,2012

[66] Wu Z,Ke Q F,Sun J,et al.A multi-sample,multitree approach to bag-of-words image representation for image retrieval[C]∥IEEE International Conference on Computer Vision,2009:1992-1999

[67] Bay H,Tuytelaars T,Van Gool L.SURF:Speeded up robust features[C]∥European Conference on Computer Vision,2006:404-417

[68] Zheng L,Wang S J,Liu Z Q,et al.Packing and padding:Coupled multi-index for accurate image retrieval[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2014:1947-1954

[69] Zhou W G,Li H Q,Hong R C,et al.BSIFT:Towards data-independent codebook for large scale image search[J].IEEE Transactions on Image Processing,2015,24(3):967-979

[70] Liu Z,Li H Q,Zhang L Y,et al.Cross-indexing of binary SIFT codes for large-scale image search[J].IEEE Transactions on Image Processing,2014,23(5):2047-2057

[71] Yu G S,Morel J M.ASIFT:An algorithm for fully affine invariant comparison[J].Image Processing on Line,2011,1:2105-1232

[72] Dong W,Wang Z,Charikar M,et al.High-confidence near-duplicate image detection[C]∥ACM International Conferenceon Multimedia Retrieval,2012:1

[73] Calonder M,Lepetit V,Strecha C,et al.BRIEF:Binary robust independent elementary features[C]∥European Conference on Computer Vision,2010:778-792

[74] Rublee E,Rabaud V,Konolige K,et al.ORB:An efficient alternative to SIFT or SURF[C]∥International Conference on Computer Vision,2011:2564-2571

[75] Alahi A,Ortiz R,Vandergheynst P.FREAK:Fast retina keypoint[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2012:510-517

[76] Leutenegger S,Chli M,Siegwart R Y.BRISK:Binary robust invariant scalable keypoints[C]∥International Conference on Computer Vision,2011:2548-2555

[77] Zhang S L,Tian Q,Huang Q M,et al.USB:Ultrashort binary descriptor for fast visual matching and retrieval[J].IEEE Transactions on Image Processing,2014,23(8):3671-3683

[78] Madeo S,Bober M.Fast,compact and discriminative:Evaluation of binary descriptors for mobile applications[J].IEEE Transactions on Multimedia,2016,19(2):221-235

[79] Zhang S L,Tian Q,Lu K,et al.Edge-SIFT:Discriminative binary descriptor for scalable partial-duplicate mobile search[J].IEEE Transactions on Image Processing,2013,22(7):2889-2902

[80] Van De Sande K,Gevers T,Snoek C G.Evaluating color descriptors for object and scene recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(9):1582-1596

[81] Douze M,Ramisa A,Schmid C.Combining attributes and Fisher vectors for efficient image retrieval[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2011:745-752

[82] Zhao S C,Yao H X,Yang Y,et al.Affective image retrieval via multi-graph learning[C]∥ACM International Conference on Multimedia,2014:1025-1028

[83] Tao R,Smeulders A W,Chang S F.Attributes and categories for generic instance search from one example[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2015:177-186

[84] Farhadi A,Endres I,Hoiem D,et al.Describing objects by their attributes[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2009:1778-1785

[85] Khan F S,Anwer R M,Van De Weijer J,et al.Color attributes for object detection[J].IEEE Conference on Computer Vision and Pattern Recognition,2012:3306-3313

[86] Torresani L,Szummer M,F(xiàn)itzgibbon A.Efficient object category recognition using classemes[C]∥European Conference on Computer Vision,2010:776-789

[87] Jia D,Berg A C,Li F F.Hierarchical semantic indexing for large scale image retrieval[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2011:785-792

[88] Cai J J,Zha Z J,Wang M,et al.An attribute assistedre ranking model for web image search[J].IEEE Transactions on Image Processing,2015,24(1):261-272

[89] Zhang S L,Yang M,Wang X Y,et al.Semantic-awareco-indexing for image retrieval[J].IEEE International Conferenceon Computer Vision,2013,37(12):1673-1680

[90] Karayev S,Trentacoste M,Han H,et al.Recognizing image style[J].arXiv e-print,2013,arXiv:1311.3715

[91] Hofmann T.Unsupervised learning by probabilistic latent semantic analysis[J].Machine Learning,2001,42(1/2):177-196

[92] Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022

[93] Hrster E,Lienhart R,Slaney M.Image retrieval on large scale image databases[C]∥ACM International Conference on Image and Video Retrieval,2007:17-24

[94] Lienhart R,Slaney M.PLSA on large scale image databases[C]∥IEEE International Conference on Acoustics,Speechand Signal Processing,2007:1217-1220

[95] Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[J].arXiv e-print,2014,arXiv:1409.1556

[96] Szegedy C,Liu W,Jia Y Q,et al.Going deeper with convolutions[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2014:1-9

[97] Bengio Y.Learning deep architectures for AI[J].Foundations and trends in Machine Learning,2009,2(1):1-127

[98] Hrster E,Lienhart R.Deep networks for image retrieval on large-scale databases[C]∥ACM International Conference on Multimedia,2008:643-646

[99] Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[C]∥International Conference on Neural Information Processing Systems,2012:1097-1105

[100] Razavian A S,Azizpour H,Sullivan J,et al.CNN features off-the-shelf:An astounding baseline for recognition[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2014:512-519

[101] Wan J,Wang D Y,Hoi S C H,et al.Deep learning for content-based image retrieval:A comprehensive study[C]∥ACM International Conference on Multimedia,2014:157-166

[102] Razavian A S,Sullivan J,Carlsson S,et al.Visual instance retrieval with deep convolutional networks[J].arXiv e-print,2014,arXiv:1412.6574

[103] Zheng L,Wang S J,Tian L,et al.Query-adaptive late fusion for image search and person reidentification[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2015:1741-1750

[104] Xie L X,Hong R C,Zhang B,et al.Image classification and retrieval are ONE[C]∥ACM International Conference on Multimedia Retrieval,2015:3-10

[105] Uijlings J R R,Van De Sande K E,Gevers T,et al.Selective search for object recognition[J].International Journal of Computer Vision,2013,104(2):154-171

[106] Alexe B,Deselaers T,F(xiàn)errari V.Measuring the objectness of image windows[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(11):2189-2202

[107] Cheng M M,Zhang Z,Lin W Y,et al.Bing:Binarized normed gradients for objectness estimation at 300 fps[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2014:3286-3293

[108] Sun S Y,Zhou W G,Tian Q,et al.Scalable object retrieval with compact image representation from generic object regions[J].ACM Transactions on Multimedia Computing,Communications,and Applications,2015,12(2):29

[109] Tolias G,Sicre R,Jegou H.Particular object retrieval with integral max-pooling of CNN activations[J].arXiv e-print,2015,arXiv:1511.05879

[110] Gordo A,Almazan J,Revaud J,et al.Deep image retrieval:Learning global representations for image search[C]∥European Conference on Computer Vision,2016:241-257

[111] Ren S Q,He K M,Girshick R,et al.Faster R-CNN:Towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149

[112] Babenko A,Slesarev A,Chigorin A,et al.Neural codes for image retrieval[C]∥European Conference on Computer Vision,2014:584-599

[113] Paulin M,Douze M,Harchaoui Z,et al.Local convolutional features with unsupervised training for image retrieval[C]∥IEEE International Conference on Computer Vision,2015:91-99

[114] Xia R K,Pan Y,Lai H J,et al.Supervised hashing for image retrieval via image representation learning[C]∥AAAI Conference on Artificial Intelligence,2014:2156-2162

[115] Lai H J,Pan Y,Liu Y,et al.Simultaneous feature learning and hash coding with deep neural networks[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2015:3270-3278

[116] Jegou H,Douze M,Schmid C,et al.Aggregating local descriptors into a compact image representation[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2010:3304-3311

[117] Perronnin F,Liu Y,Sanchez J,et al.Large-scale image retrieval with compressed Fisher vectors[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2010:3384-3391

[118] Li F J,Tong W,Jin R,et al.An efficient key point quantization algorithm for large scale image retrieval[C]∥ACM Workshop on Large-scale Multimedia Retrieval and Mining,2009:89-96

[119] Chu L Y,Wang S H,Zhang Y Y,et al.Graph density-based visual word vocabulary for image retrieval[C]∥IEEE International Conference on Multimedia and Expo,2014:1-6

[120] Dong W,Wang Z,Charikar M,et al.Efficiently matching sets of features with random histograms[C]∥ACM International Conference on Multimedia,2008:179-188

[121] Zhou W G,Yang M,Li H Q,et al.Towards codebook-free:Scalable cascaded hashing for mobile image search[J].IEEE Transactions on Multimedia,2014,16(3):601-611

[122] Zhang S L,Tian Q,Hua G,et al.Generating descriptive visual words and visual phrases for large-scale image applications[J].IEEE Transactions on Image Processing,2011,20(9):2664-2677

[123] Wang X Y,Yang M,Cour T,et al.Contextual weighting for vocabulary tree based image retrieval[C]∥ International Conference on Computer Vision,2011:209-216

[124] Liu Z,Li H Q,Zhou W G,et al.Embedding spatial context information into inverted file for large-scale image retrieval[C]∥ACM International Conference on Multimedia,2012:199-208

[125] Liu Z,Li H Q,Zhou W G,et al.Contextual hashing for large-scale image search[J].IEEE Transactions on Image Processing,2014,23(4):1606-1614

[126] Chum O,Perdoch M,Matas J.Geometric min-hashing:Finding a(thick) needle in a haystack[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2009:17-24

[127] Bhat D N,Nayar S K.Ordinal measures for image correspondence[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(4):415-423

[128] Lazebnik S,Schmid C,Ponce J.Beyond bags of features:Spatial pyramid matching for recognizing natural scene categories[J].IEEE Conference on Computer Vision and Pattern Recognition,2006,2:2169-2178

[129] Cao Y,Wang C H,Li Z W,et al.Spatial-bag-of-features[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2010:3352-3359

[130] Wu Z,Ke Q F,Sun J,et al.Scalable face image retrieval with identity-based quantization and multireferencereranking[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(10):1991-2001

[131] Bentley J L.K-d trees for semi dynamic point sets[C]∥Symposium on Computational Geometry,1990:187-197

[132] Silpa-Anan C,Hartley R.Localisation using an image map[C]∥Australian Conference on Robotics and Automation,2004

[133] Muja M,Lowe D G.Scalable nearest neighbor algorithms for high dimensional data[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(11):2227-2240

[134] Zhou W G,Yang M,Wang X Y,et al.Scalable feature matching by dual cascaded scalar quantization for image retrieval[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(1):159-171

[135] Jain M,Jegou H,Gros P.Asymmetric hamming embedding:Taking the best of our bits for large scale image search[C]∥ACM International Conference on Multimedia,2011:1441-1444

[136] Zhou W G,Li H Q,Lu Y J,et al.Visual word expansion and BSIFT verification for large-scale image search[J].Multimedia Systems,2013,21(3):245-254

[137] Xia Y,He K M,Wen F,et al.Joint inverted indexing[C]∥IEEE International Conference on Computer Vision,2013:3416-3423

[138] Jegou H,Chum O.Negative evidences and co-occurences in image retrieval:The benefit of PCA and whitening[C]∥European Conference on Computer Vision,2012:774-787

[139] Zheng L,Wang S J,Zhou W G,et al.Bayes merging of multiple vocabularies for scalable image retrieval[C]∥IEEE Conference on Computer Vision & Pattern Recognition,2014:1963-1970

[140] Indyk P,Motwani R.Approximate nearest neighbors:Towards removing the curse of dimensionality[C]∥Annual ACM Symposium on Theory of Computing,1998:604-613

[141] Andoni A,Indyk P.Near-optimal hashing algorithms for approximate nearest neighbor in high dimensions[C]∥IEEE Symposium Foundations of Computer Science,2006:459-468

[142] Lv Q,Josephson W,Wang Z,et al.Multiprobelsh:Efficient indexing for high-dimensional similarity search[C]∥International Conference on Very Large Data Bases,2007:950-961

[143] Wang J,Kumar S,Chang S F.Semi-supervised hashing for scalable image retrieval[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2010:3424-3431

[144] Gong Y C,Lazebnik S.Iterative quantization:A procrustean approach to learning binary codes[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2011:817-824

[145] Aiger D,Kokiopoulou E,Rivlin E.Random grids:Fast approximate nearest neighbors and range searching for image search[C]∥IEEE International Conference on Computer Vision,2013:3471-3478

[146] Iwamura M,Sato T,Kise K.What is the most efficient way to select nearest neighbor candidates for fast approximate nearest neighbor search? [C]∥IEEE International Conference on Computer Vision,2013:3532-3542

[147] Wang J D,Li S P.Query-driven iterated neighborhood graph search for large scale indexing[C]∥ACM International Conference on Multimedia,2012:179-188

[148] Wang M,Zhou W G,Tian Q,et al.Linear distance preserving pseudo-supervised and unsupervised hashing[C]∥ACM International Conference on Multimedia,2016:1257-1266

[149] Ge T Z,He K M,Ke Q F,et al.Optimized product quantization for approximate nearest neighbor search[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2013:2946-2953

[150] Tuytelaars T,Schmid C.Vector quantizing feature space with a regular lattice[C]∥International Conference on Computer Vision,2007:1-8

[151] Arandjelovic R,Zisserman A.All about VLAD[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2013:1578-1585

[152] Spyromitros-Xioufis E,Papadopoulos S,Kompatsiaris I,et al.A comprehensive study over VLAD and product quantization in for large-scale image retrieval[J].IEEE Transactions on Multimedia,2014,16(6):1713-1728

[153] Jegou H,Zisserman A.Triangulation embedding and democratic aggregation for image search[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2014:3310-3317

[154] Gao Z N,Xue J R,Zhou W G,et al.Fast democratic aggregation and query fusion for image search[C]∥ACM International Conference on Multimedia Retrieval,2016:35-42

[155] Ge T Z,Ke Q F,Sun J.Sparse-coded features for image retrieval[C]∥British Machine Vision Conference,2013:132

[156] Liu Z,Li H Q,Zhou W G,et al.Uniforming residual vector distribution for distinctive image representation [J].IEEE Transactions on Circuits & Systems for Video Technology,2015,26(2):1-1

[157] Liu Z,Li H Q,Zhou W G,et al.Uniting keypoints:Local visual information fusion for large scale image search[J].IEEE Transactions on Multimedia,2015,17(4):538-548

[158] Jaakkola T,Haussler D.Exploring generative model indiscriminative classifiers[C]∥Proceedings of the 1998 Conference in Advances in Neural Information Processing Systems,1999:487-493

[159] Frasconi P.Learning with kernels and logical representations[J].International Conference on Inductive Logic Programming,2007:1-3

[160] Sanchez J,Perronnin F,Mensink T,et al.Image classification with the Fisher vector:Theory and practice[J].International Journal of Computer Vision,2013,105(3):222-245

[161] Duan L Y,Gao F,Chen J,et al.Compact descriptors for mobile visual search and MPEG CDVS standardization[C]∥IEEE International Symposium on Circuits and Systems,2013:885-888

[162] Gong Y C,Wang L W,Guo R Q,et al.Multi-scale orderless pooling of deep convolutional activation features[C]∥European Conference on Computer Vision,2014:392-407

[163] Yandex A B,Lempitsky V.Aggregating local deep features for image retrieval[C]∥IEEE International Conference on Computer Vision,2015:1269-1277

[164] Baeza-Yates R A,Ribeiro-Neto B.Modern information retrieval[M].New York:Addison-Wesley Longman Publishing Co.,Inc,1999

[165] Cai J J,Liu Q,Chen F,et al.Scalable image search with multiple index tables[C]∥International Conference on Multimedia Retrieval,2014:407

[166] Zheng L,Wang S J,Tian Q.Coupled binary embedding for large-scale image retrieval[J].IEEE Transactions on Image Processing,2014,23(8):3368-3380

[167] Zhang X,Li Z W,Zhang L,et al.Efficient indexing for large scale visual search[C]∥IEEE International Conference on Computer Vision,2009:1103-1110

[168] Silpa-Anan C,Hartley R.Optimized KD-trees for fast image descriptor matching[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2008:1-8

[169] Zheng L,Wang S J,Liu Z Q,et al.Fast image retrieval:Query pruning and early termination[J].IEEE Transactions on Multimedia,2015,17(5):648-659

[170] Ji R R,Duan L Y,Chen J,et al.Learning to distribute vocabulary indexing for scalable visual search[J].IEEE Transactions on Multimedia,2013,15(1):153-166

[171] Heo J P,Lee Y,He J F,et al.Spherical hashing[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2012:2957-2964

[172] Tang J H,Li Z C,Wang M,et al.Neighborhood discriminant hashing for large-scale image retrieval[J].IEEE Transactions on Image Processing,2015,24(9):2827-2840

[173] Wu L,Zhao K,Lu H T,et al.Distance preserving marginal hashing for image retrieval[C]∥IEEE International Conference on Multimedia and Expo,2015:1-6

[174] Jiang K,Que Q C,Kulis B.Revisiting kernelized locality sensitive hashing for improved large-scale image retrieval[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2015:4933-4941

[175] Liu H M,Wang R P,Shan S G,et al.Deep supervised hashing for fast image retrieval[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2016:2064-2072

[176] Datar M,Immorlica N,Indyk P,et al.Locality sensitive hashing scheme based on p-stable distributions[C]∥Proceedings of the Twentieth Annual Symposium on Computational Geometry,2004:253-262

[177] Avrithis Y,Tolias G,Kalantidis Y.Feature map hashing:Sub-linear indexing of appearance and global geometry[C]∥International Conference on Multimedia,2010:231-240

[178] Tolias G,Kalantidis Y,Avrithis Y,et al.Towards large-scale geometry indexing by feature selection[J].Computer Vision and Image Understanding,2014,120(2):31-45

[179] Jegou H,Douze M,Schmid C.Packing bag-of-features[C]∥International Conference on Computer Vision,2009:2357-2364

[180] Chum O,Philbin J,Isard M,et al.Scalable near identical image and shot detection[C]∥ ACM International Conference on Image and Video Retrieval,2007:549-556

[181] Lin Z,Brandt J.A local bag-of-features model for large scale object retrieval[C]∥European Conference on Computer Vision,2010:294-308

[182] Jegou H,Schmid C,Harzalla H,et al.Accurate image search using the contextual dissimilarity measure[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(1):2-11

[183] Qin D F,Wengert C,Van Gool L.Query adaptive similarity for large scale object retrieval[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2013:1610-1617

[184] Donoser M,Bischof H.Diffusion processes for retrieval revisited[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2013:1320-1327

[185] Zheng L,Wang S J,Liu Z,et al.L(p)-norm IDF for large scale image search[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2013:1626-1633

[186] Zheng L,Wang S J,Tian Q.L(p)-norm IDF for scalable image retrieval[J].IEEE Transactions on Image Processing,2014,23(8):3604-3617

[187] Shen X H,Lin Z,Brandt J,et al.Object retrieval and localization with spatially-constrained similarity measure and k-NN re-ranking[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2012:3013-3020

[188] Xie H T,Gao K,Zhang Y D,et al.Pairwise weak geometric consistency for large scale image search[C]∥ACM International Conference on Multimedia Retrieval,2011:42

[189] Katz S M.Distribution of content words and phrases in text and language modeling[J].Natural Language Engineering,1996,2(1):15-59

[190] Jegou H,Douze M,Schmid C.On the burstiness of visual elements[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2009:1169-1176

[191] Shi M J,Avrithis Y,Jegou H.Early burst detection for memory-efficient image retrieval[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2015:605-613

[192] Bai S,Bai X.Sparse contextual activation for efficient visual re-ranking[J].IEEE Transactions on Image Processing,2016,25(3):1056-1069

[193] Yang F,Matei B,Davis L S.Re-ranking by multi-feature fusion with diffusion for image retrieval[C]∥IEEE Winter Conference on Applications of Computer Vision,2015:572-579

[194] Li X C,Larson M,Hanjalic A.Pairwise geometric matching for large-scale object retrieval[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2015:5153-5161

[195] Kuo Y H,Chen K T,Chiang C H,et al.Query expansion for hash-based image object retrieval[C]∥ACM International Conference on Multimedia,2009:65-74

[196] Chum O,Matas J.Matching with PROSAC-progressive sample consensus[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2005:220-226

[197] Avrithis Y,Tolias G.Hough pyramid matching:Speeded-up geometry re-ranking for large scale image retrieval[J].International Journal of Computer Vision,2014,107(1):1-19

[198] Fischler M A,Bolles R C.Random sample consensus:A paradigm for model fitting with applications to image analysis and automated cartography[J].Communications of the ACM,1981,24(6):381-395

[199] Jiang Y G,Jiang Y,Wang J.VCDB:A large-scale database for partial copy detection in videos[C]∥ European Conference on Computer Vision,2014:357-371

[200] Grauman K,Darrell T.The pyramid match kernel:Discriminative classification with sets of image features[C]∥IEEE International Conference on Computer Vision,2005,2:1458-1465

[201] Zhou W G,Li H Q,Lu Y J,et al.SIFT match verification by geometric coding for large-scale partial-duplicate web image search[J].ACM Transactions on Multimedia Computing,Communications,and Applications,2013,9(1):4

[202] Chu L Y,Jiang S Q,Wang S H,et al.Robust spatial consistency graph model for partial duplicate image retrieval[J].IEEE Transactions on Multimedia,2013,15(8):1982-1996

[203] Xie L X,Tian Q,Zhou W G,et al.Fast and accurate near-duplicate image search with affinity propagation on the image web[J].Computer Vision and Image Understanding,2014,124:31-41

[204] Kleinberg J M.Authoritative sources in a hyperlinked environment[J].Journal of the ACM,1999,46(5):604-632

[205] Xie L X,Tian Q,Zhou W G,et al.Heterogeneous graph propagation for large-scale web image search[J].IEEE Transactions on Image Processing,2015,24(11):4287-4298

[206] Xie H,Zhang Y,Tan J,et al.Contextual query expansion for image retrieval[J].IEEE Transactions on Multimedia,2014,16(4):1104-1114

[207] Tao D C,Tang X O.Random sampling based SVM for relevance feedback image retrieval[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2004:647-652

[208] Tao D C,Tang X O,Li X L,et al.Asymmetric bagging and random subspace for support vector machines-based relevance feedback in image retrieval[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2006,28(7):1088-1099

[209] Hoi S C H,Jin R,Zhu J K,et al.Semi-supervised SVM batch mode active learning for image retrieval[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2008:1-7

[210] Arevalillo-Herraez M,F(xiàn)erri F J.An improved distance based relevance feedback strategy for image retrieval[J].Image and Vision Computing,2013,31(10):704-713

[211] Rabinovich E,Rom O,Kurland O.Utilizing relevance feedback in fusion-based retrieval[C]∥International ACM SIGIR Conference on Research & Development in Information Retrieval,2014:313-322

[212] Wang X Y,Li Y W,Yang H Y,et al.An image retrieval scheme with relevance feedback using feature reconstruction and SVM reclassification[J].Neurocomputing,2014,127:214-230

[213] Tieu K,Viola P.Boosting image retrieval[J].International Journal of Computer Vision,2004,56(1/2):17-36

[214] Yu J,Tao D,Wang M,et al.Learning to rank using user clicks and visual features for image retrieval[J].IEEE Transactions on Cybernetics,2015,45(4):767-779

[215] Zhou X S,Huang T S.Relevance feedback in image retrieval:A comprehensive review[J].Multimedia Systems,2003,8(6):536-544

[216] Patil P B,Kokare M B.Relevance feedback in content based image retrieval:A review[J].Journal of Applied Computer Science & Mathematics,2011,5(10):41-47

[217] Fagin R,Kumar R,Sivakumar D.Efficient similarity search and classification via rank aggregation[C]∥ACM SIGMOD International Conference on Management of Data,2003:301-312

[218] Page L,Brin S,Motwani R,et al.The pagerank citation ranking:Bringing order to the web[J].Stanford Digital Libraries Working Paper,1998,9(1):1-14

[219] Ye G N,Liu D,Jhuo I H,et al.Robust late fusion with rank minimization[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2012:3021-3028

[220] Romberg S,Pueyo L G,Lienhart R,et al.Scalable logo recognition in real-world images[C]∥ACM International Conference on Multimedia Retrieval,2011:25

[221] Wang S,Jiang S Q.INSTRE:A new benchmark for instance-level object retrieval and recognition[J].ACM Transactions on Multimedia Computing,Communications,and Applications,2015,11(3),DOI:10.1145/2700292

[222] Chandrasekhar V R,Chen D M,Tsai S S,et al.The Stanford mobile visual search data set[C]∥ACM Conference on Multimedia Systems,2011:117-122

[223] Tian X M,Lu Y J,Yang L J,et al.Learning to judge image search results[C]∥ACM International Conference on Multimedia,2011:363-372

[224] Tian X M,Jia Q H,Mei T.Query difficulty estimation for image search with query reconstruction error[J].IEEE Transactions on Multimedia,2015,17(1):79-91

[225] He K M,Zhang X Y,Ren S Q,et al.Spatial pyramid pooling indeep convolutional networks for visual recognition[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015,37(9):1904-1916

猜你喜歡
圖像檢索
基于卷積神經(jīng)網(wǎng)絡(luò)的車輛檢索方法研究
圖像特征在區(qū)域范圍內(nèi)提取方法的研究
基于Hadoop平臺(tái)的圖像檢索模型
基于顏色特征的行李箱檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
基于內(nèi)容的圖像檢索算法技術(shù)研究
基于SIFT算法的二進(jìn)制圖像檢索技術(shù)研究
基于Hadoop分布式計(jì)算的圖像檢索方法
基于分塊顏色核特征的圖像檢索方法
服裝圖像檢索研究綜述
基于金字塔梯度方向圖像特征的檢索模型設(shè)計(jì)
女性| 黄大仙区| 威宁| 钟祥市| 宁明县| 湟中县| 城固县| 日喀则市| 景洪市| 郧西县| 甘泉县| 宁晋县| 越西县| 城口县| 佛山市| 于都县| 汽车| 巴南区| 开鲁县| 青州市| 沭阳县| 武冈市| 贺兰县| 牡丹江市| 遵义县| 措美县| 陈巴尔虎旗| 吕梁市| 武乡县| 廊坊市| 赤城县| 陇西县| 辉南县| 临安市| 西和县| 奉节县| 响水县| 万盛区| 历史| 游戏| 台中市|