白 娟
(北京第二外國(guó)語學(xué)院,北京 100024)
在Web2.0時(shí)代,尤其是隨著微信、釘釘、抖音等手機(jī)App的運(yùn)用,圖像、視頻、音頻、文本等異構(gòu)數(shù)據(jù)每天都以驚人的速度增長(zhǎng),各種多媒體數(shù)據(jù)以海量方式迅速增長(zhǎng)。針對(duì)這些豐富的海量圖像信息,建立快速有效的圖像檢索系統(tǒng)已經(jīng)成為重要的研究方向,從而幫助用戶有效查詢、快速檢索、高效利用圖像信息。經(jīng)過數(shù)十年的發(fā)展,基于內(nèi)容的圖像檢索技術(shù)已廣泛應(yīng)用于數(shù)字圖書館、醫(yī)學(xué)影像、衛(wèi)星遙感圖像、電子商務(wù)等社會(huì)生活的各個(gè)方面。
圖像檢索系統(tǒng)不僅有效地實(shí)現(xiàn)了用戶查詢信息的快速要求,而且能夠?qū)D像庫進(jìn)行有針對(duì)性的分類管理。從圖像檢索技術(shù)的發(fā)展過程來看,主要包括如下3類。
基于文本的圖像檢索(Text-Based Image Retrieval,TBIR)是早期的圖像檢索的主要方法,其是指利用關(guān)鍵字或關(guān)鍵短語對(duì)圖像中的內(nèi)容進(jìn)行概括及描述,以便用戶在檢索時(shí)可以根據(jù)關(guān)鍵詞進(jìn)行檢索。具體的查詢過程如下:用戶根據(jù)檢索需求提供查詢關(guān)鍵字,通過系統(tǒng)接口交互輸入后,檢索系統(tǒng)根據(jù)用戶需求進(jìn)行內(nèi)容匹配,最后將查詢結(jié)果返回給用戶[1]。
基于文本的圖像檢索技術(shù)需要人工提前對(duì)圖像進(jìn)行歸納和注釋,檢索結(jié)果也完全依賴于人工標(biāo)注信息,現(xiàn)在已較少使用,該技術(shù)存在幾個(gè)明顯的缺陷。
(1)對(duì)目前海量的圖像數(shù)據(jù)來說,完全采用人工注釋的方法需要耗費(fèi)大量的人力與財(cái)力,而且隨時(shí)不斷外來的圖像增加,人工標(biāo)注可能會(huì)遇到難以克服的困難;
(2)一幅圖像包含的信息非常豐富,如“一圖勝千言”“百聞不如一見”等表述,而人工注釋的文字很難充分表達(dá)一幅圖像的內(nèi)涵,人工操作有時(shí)很難用簡(jiǎn)短的關(guān)鍵字來描述出圖片所包含的真正內(nèi)涵;
(3)不同國(guó)家、不同民族對(duì)圖像語義理解的差異也很大,不可能形成一種統(tǒng)一的檢索方法[2]。
基于內(nèi)容的圖像檢索(Content-Based Image Retrieval,CBIR),指利用計(jì)算機(jī)對(duì)圖像進(jìn)行分析,自動(dòng)提取每幅圖像的視覺內(nèi)容特征,將視覺特征作為關(guān)鍵字進(jìn)行索引,進(jìn)而比較索引特征與查詢條件之間的距離,最終反饋給用戶查詢結(jié)果。
基于內(nèi)容的圖像檢索方式充分發(fā)揮了計(jì)算機(jī)工作效率高、善于處理大規(guī)模數(shù)據(jù)的特點(diǎn),從而較大提高了檢索的效率。目前,CBIR主要具有以下幾個(gè)特點(diǎn)。
(1)CBIR突破了傳統(tǒng)的基于表達(dá)式檢索的局限,直接對(duì)圖像進(jìn)行分析和抽取特征;
(2)CBIR本質(zhì)上是一種近似匹配的技術(shù),這一點(diǎn)與常規(guī)數(shù)據(jù)庫檢索的精確匹配方法有明顯不同;
(3)特征提取和索引建立可由計(jì)算機(jī)來實(shí)現(xiàn),避免了人工描述的主觀性;
(4)針對(duì)CBIR存在的語義鴻溝問題,可采用相關(guān)反饋、機(jī)器學(xué)習(xí)等手段,提高檢索結(jié)果與用戶滿意度的匹配程度[3-5]。
自動(dòng)圖像標(biāo)注(Automatic Image Annotation)技術(shù)是將基于文本的圖像檢索與基于內(nèi)容的圖像檢索有效結(jié)合起來,它是根據(jù)圖像低層視覺特征,計(jì)算機(jī)自動(dòng)使用語義關(guān)鍵字或標(biāo)簽來表示一幅圖像的語義內(nèi)容,進(jìn)而可以將圖像檢索轉(zhuǎn)化為基于文本的檢索。自動(dòng)圖像標(biāo)注在特征匹配時(shí),幾乎不需要用戶的參與,而主要利用圖像自身的特征(如顏色、紋理、形狀等)來完成,具有較強(qiáng)的客觀性和直觀性。利用這一特點(diǎn),可以用來抽取各類圖像庫中所有圖像文件的特征。
目前來看,圖像檢索與圖像標(biāo)注密切相關(guān)。一方面,圖像檢索的迫切需求推動(dòng)自動(dòng)圖像標(biāo)準(zhǔn)技術(shù)的發(fā)展,另一方面,自動(dòng)圖像標(biāo)準(zhǔn)性能的提高也可以更好地提高檢索效果,促使檢索效率和檢索精度不斷提高[6]。
圖像特征的提取與表達(dá)是CBIR技術(shù)的基礎(chǔ),獲取有效的圖像特征是提取圖像高層語義信息的關(guān)鍵環(huán)節(jié)。
顏色特征是圖像檢索中應(yīng)用最為廣泛的視覺特征,顏色包含著比灰度更多的信息,是彩色圖像中最突出的特征。圖像的顏色特征描述了圖像中物體的表面性質(zhì),反映出的是圖像的全局特征。人眼的色彩知覺主要包括3個(gè)要素:色調(diào)、飽和度和亮度。與其他視覺特征相比,顏色特征對(duì)圖像本身的尺寸、方向、視角的依賴性較小,從而具有較強(qiáng)的穩(wěn)定性。常用的顏色空間表示法有RGB顏色空間、HSV顏色空間、CIEL顏色空間和YCrCb顏色空間。
針對(duì)顏色特征的提取與表達(dá),首先,需要選擇合適的顏色空間來描述顏色特征;其次,采用一定的量化方法將顏色特征表達(dá)為向量的形式;最后,以一定的方式來描述顏色特征。
圖像的紋理是基于物體表面結(jié)構(gòu)和材質(zhì)的重要特征,一般來說,紋理結(jié)構(gòu)可通過圖案的不斷重復(fù),體現(xiàn)圖像的部分或全局特征。
典型的圖像紋理特征方法如下,這幾種方法特點(diǎn)不同,針對(duì)不同的自然紋理、人工紋理、混合紋理進(jìn)行處理[7]。
(1)統(tǒng)計(jì)方法是灰度共生矩陣紋理特征分析方法;
(2)幾何法是基于平面二維特征,提取圖像的紋理元素,對(duì)圖像進(jìn)行分析從而得出的特征分析方法;
(3)模型法是將圖像的參數(shù)進(jìn)行構(gòu)造,設(shè)計(jì)不同的模型,從而進(jìn)行模型分析及變換處理;
(4)信號(hào)處理法以小波變換為主、進(jìn)行相應(yīng)的編碼和解碼處理操作。
形狀特征是反映出圖像最直接的視覺特征之一,大部分物體可以通過分辨其形狀來進(jìn)行判別。常用的圖像形狀特征提取方法包括:基于輪廓的方法和基于區(qū)域的方法?;谛螤钐卣鞯氖褂迷诂F(xiàn)實(shí)中有這些問題:目前基于形狀的檢索方法還缺乏比較完善的數(shù)學(xué)模型;另外,由于受視覺主觀性的影響,許多形狀特征所反映的目標(biāo)形狀信息與人的直觀感覺不完全一致;再有就是許多形狀特征僅描述了目標(biāo)局部的性質(zhì),缺乏對(duì)全局的描述。
空間特征是指圖像內(nèi)的區(qū)域經(jīng)過分割、其內(nèi)部的對(duì)象所在的位置以及對(duì)象之間的空間關(guān)系,提取空間特征有兩種方法:一種是對(duì)圖像進(jìn)行自動(dòng)分割,根據(jù)對(duì)象或顏色區(qū)域的接近性分割后提取圖像特征,再進(jìn)一步建立索引;另一種是將圖像均勻的劃分為若干區(qū)域,對(duì)不同區(qū)域提取特征,從而建立索引。在實(shí)際應(yīng)用中,需要將空間特征與其他特征相配合,來表達(dá)場(chǎng)景信息。
圖像檢索的主要處理流程如圖1所示。
圖1 圖像檢索主要流程
大規(guī)模圖像檢索系統(tǒng)是近年來發(fā)展最為迅速的技術(shù)之一,國(guó)內(nèi)外各種機(jī)構(gòu)開展了相關(guān)研究和探索,目前已進(jìn)入應(yīng)用推廣階段。簡(jiǎn)而言之,大規(guī)模圖像檢索系統(tǒng)具有如下特點(diǎn)。
(1)圖像數(shù)據(jù)量大。相比較與20世紀(jì)90年代圖像檢索技術(shù)發(fā)展的早期階段,現(xiàn)有的圖像檢索系統(tǒng)已達(dá)到10億級(jí),其數(shù)量已經(jīng)有了成千上萬倍的增長(zhǎng),因而圖像檢索應(yīng)滿足大數(shù)據(jù)時(shí)代的要求,在檢索效率、性能等方面大幅提升。為提高響應(yīng)速度,可以使用大規(guī)模二值引擎進(jìn)行查詢和排序,建立實(shí)時(shí)穩(wěn)定的搜索引擎是非常重要的,因?yàn)槊刻於加袛?shù)以千萬計(jì)的用戶在使用視覺搜索服務(wù)。
(2)特征維度高。圖像特征是直接描述圖像視覺內(nèi)容的基石,對(duì)圖像來說,維度就是圖像中特征向量的數(shù)量,3個(gè)以上的特征向量即屬于高維空間,如果維度過高,則會(huì)增加機(jī)器的計(jì)算量,造成維數(shù)災(zāi)難。通過降維,即降低特征矩陣中特征的數(shù)量,可以讓算法運(yùn)算更快,效果更好,同時(shí)能夠?qū)崿F(xiàn)數(shù)據(jù)可視化。
(3)要求響應(yīng)速度快。對(duì)于用戶的查詢,圖像檢索系統(tǒng)應(yīng)該具備迅速響應(yīng)用戶查詢的能力,同時(shí)由于大規(guī)模圖像數(shù)據(jù)量大、特征維度高,直接采用暴力搜索的策略,難以滿足系統(tǒng)實(shí)時(shí)性的要求,因此,大規(guī)模圖像檢索需要解決系統(tǒng)實(shí)時(shí)響應(yīng)的問題。
隨著人工智能以及深度學(xué)習(xí)的快速發(fā)展,極大地推動(dòng)了圖像檢索領(lǐng)域的技術(shù)進(jìn)步。在提取特征這方面而言,深度學(xué)習(xí)及神經(jīng)網(wǎng)絡(luò)目前有著不可替代的優(yōu)勢(shì)。深度學(xué)習(xí)通過學(xué)習(xí)數(shù)據(jù)的內(nèi)在規(guī)律,從而具備像人一樣的分析能力。目前,廣泛使用的有利用深度哈希算法進(jìn)行圖片快速檢索,其原理在于針對(duì)每一張圖片都生成一個(gè)特定的數(shù)字指紋,然后采取一種相似度的度量方式得出兩張圖片的近似程度。
在圖像檢索系統(tǒng)中,查詢速度和查詢準(zhǔn)確率是一對(duì)需要權(quán)衡的指標(biāo)。查詢速度方面,可以使用深度哈希的方法來大幅度提升。具體查詢過程如下:用戶提供所需查詢的圖像到人機(jī)接口,進(jìn)而系統(tǒng)用定義好的哈希函數(shù)將查詢圖片映射成48 bit的二進(jìn)制碼,將此二進(jìn)制碼與數(shù)據(jù)庫中所有圖片的二進(jìn)制碼比較漢明距離,按漢明距離從小到大進(jìn)行排序,根據(jù)反饋可進(jìn)行多次比較及排序,最終得到本次圖像的檢索結(jié)果。基于哈希的圖像檢索技術(shù)框架結(jié)構(gòu)如圖2所示。
圖2 基于哈希的圖像檢索技術(shù)框架結(jié)構(gòu)
深度哈希(Deep Hash)將卷積神經(jīng)網(wǎng)絡(luò)與哈希圖像檢索結(jié)合,同時(shí)擁有檢索精度高,速度快的特點(diǎn)。深度哈希作為一種代表性方法,近年來受到廣泛關(guān)注。通過深度哈希,可以提升大容量圖片庫檢索精度。
深度學(xué)習(xí)極大地推動(dòng)了圖像檢索技術(shù)的發(fā)展,而且正在被快速應(yīng)用到與圖像識(shí)別相關(guān)的各個(gè)領(lǐng)域。深度學(xué)習(xí)的本質(zhì)是通過多層非線性變換,通過多層的輸入、映射、變換及輸出,從大數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征,從而替代手工設(shè)計(jì)的特征。深度學(xué)習(xí)可以從大數(shù)據(jù)中自動(dòng)學(xué)習(xí)數(shù)據(jù)特征。就圖像檢索而言,一幅圖像中,各種復(fù)雜的因素往往以非線性的方式結(jié)合在一起,圖像參數(shù)復(fù)雜交織。深度學(xué)習(xí)的關(guān)鍵就是通過多層非線性映射將這些因素成功的分開,使各個(gè)因素不再彼此干擾。
深度學(xué)習(xí)技術(shù)使得圖像檢索系統(tǒng)的各個(gè)模塊(即神經(jīng)網(wǎng)絡(luò)的各個(gè)層)可以通過聯(lián)合學(xué)習(xí),整體優(yōu)化,從而性能得到大幅提升??梢灶A(yù)見在未來的數(shù)年內(nèi),深度學(xué)習(xí)將會(huì)在理論、算法、和應(yīng)用各方面進(jìn)入高速發(fā)展的時(shí)期,從而進(jìn)一步促進(jìn)物體檢測(cè)、圖像分類、圖像檢索、視頻分析等各個(gè)領(lǐng)域的更快發(fā)展。