●王華秋,聶 珍,王 斌(重慶理工大學(xué).計(jì)算機(jī)科學(xué)與工程學(xué)院;.圖書(shū)館,重慶 400054)
數(shù)字圖書(shū)館的語(yǔ)義圖像檢索綜述
●王華秋a,聶珍b,王斌a
(重慶理工大學(xué)a.計(jì)算機(jī)科學(xué)與工程學(xué)院;b.圖書(shū)館,重慶400054)
[關(guān)鍵詞]數(shù)字圖書(shū)館;語(yǔ)義映射;圖像檢索;綜述
[摘要]結(jié)合國(guó)內(nèi)外圖像語(yǔ)義映射領(lǐng)域最新的研究成果,給出了圖像語(yǔ)義映射框架,并將現(xiàn)有的語(yǔ)義映射方法分為三大類(lèi),對(duì)各類(lèi)方法中的典型模型逐一進(jìn)行了討論,同時(shí)介紹了圖像語(yǔ)義映射的關(guān)鍵技術(shù)。最后結(jié)合目前圖像語(yǔ)義映射方法問(wèn)題提出了今后該領(lǐng)域的研究重點(diǎn)及方向。
數(shù)字圖書(shū)館的圖像作為數(shù)字信息的重要組成部分,以其內(nèi)容豐富、生動(dòng)形象、清晰明了等特點(diǎn)在人類(lèi)生活中扮演著越來(lái)越重要的角色。隨著社會(huì)數(shù)字化程度的不斷提高,數(shù)字圖書(shū)館圖像在人類(lèi)工作、生活的各個(gè)領(lǐng)域應(yīng)用和傳播也越來(lái)越廣泛,其數(shù)量正以驚人的速度增長(zhǎng)。如何從海量圖片中獲取滿足用戶需求的圖像已成為科研工作者的研究目標(biāo)。目前,存在的圖像檢索方法大致分為三個(gè)階段:基于文本的圖像檢索(TBIR)、基于內(nèi)容的圖像檢索(CBIR)以及基于語(yǔ)義的圖像檢索(SBIR)。
基于文本的圖像檢索需要人工對(duì)圖像的標(biāo)題、作者等相關(guān)信息進(jìn)行標(biāo)注,從而將視覺(jué)信息轉(zhuǎn)換成文本信息以便于檢索。目前,國(guó)內(nèi)外的主流搜索引擎如Google、Yahoo、百度等在進(jìn)行圖像檢索時(shí)主要仍采用基于文本的檢索方式。雖然這種方法簡(jiǎn)單直觀,符合人們對(duì)圖像語(yǔ)義的理解,但是,由于互聯(lián)網(wǎng)圖像數(shù)據(jù)的快速增長(zhǎng),人工標(biāo)注所帶來(lái)的費(fèi)時(shí)費(fèi)力、效率低等缺點(diǎn)已使人們無(wú)法接受,遠(yuǎn)不能滿足當(dāng)今圖像快速增長(zhǎng)的需要。同時(shí),人工標(biāo)注具有一定的主觀性,不能全面滿足人們的需求。基于內(nèi)容的圖像檢索通過(guò)自動(dòng)提取圖像的低層特征,包括圖像的顏色、紋理和形狀等低層視覺(jué)特征并將其以某種方式組合為特征向量,進(jìn)而計(jì)算出圖像對(duì)應(yīng)的特征向量之間的距離,并通過(guò)相似度比較實(shí)現(xiàn)檢索圖像的目的。國(guó)內(nèi)外典型的CBIR系統(tǒng)主要有國(guó)外的QBIC、Virage、NeTra、SIMPLIcity、Blobworld以及國(guó)內(nèi)的百度識(shí)圖。但是,圖像低層特征與人類(lèi)所理解的語(yǔ)義存在較大的距離,即存在所謂的“語(yǔ)義鴻溝”。[1]所以,采用低層特征并不能充分地表達(dá)圖像的深層語(yǔ)義,僅以低層特征為檢索依據(jù)得到的檢索結(jié)果往往不盡如人意。研究圖像語(yǔ)義映射的目的就在于提取圖像所表達(dá)的高層語(yǔ)義,并將其應(yīng)用到圖像檢索中,從而提高圖像檢索效果。但是,由于“語(yǔ)義鴻溝”的存在,圖像的低層特征和高層語(yǔ)義沒(méi)有固定的關(guān)聯(lián)性,難以直接推導(dǎo),這也使圖像語(yǔ)義映射具有巨大的研究?jī)r(jià)值。
圖像語(yǔ)義映射的核心目的是為了填補(bǔ)圖像低層特征和高層語(yǔ)義之間的“語(yǔ)義鴻溝”,首要工作就是要確定低層特征的提取方法,一個(gè)合理的低層特征提取方法是能夠有效地實(shí)現(xiàn)語(yǔ)義映射的關(guān)鍵。除此之外,由于圖像低層特征的復(fù)雜性,很難將低層特征通過(guò)直接的方式推導(dǎo)出其對(duì)應(yīng)的高層語(yǔ)義,如何處理好低層特征與高層語(yǔ)義的關(guān)系,獲取特征與語(yǔ)義之間的關(guān)聯(lián)知識(shí),同樣是解決好語(yǔ)義映射問(wèn)題的關(guān)鍵。
圖像的語(yǔ)義映射主要是通過(guò)分析訓(xùn)練集中圖像的特征,并通過(guò)機(jī)器學(xué)習(xí)的方式將訓(xùn)練集中的圖像低層特征和語(yǔ)義關(guān)鍵詞建立聯(lián)系,得到一定的知識(shí)或者規(guī)則,之后通過(guò)這些知識(shí)對(duì)新圖像進(jìn)行語(yǔ)義映射,從而獲得新圖像的高層語(yǔ)義描述。整個(gè)框架主要包括圖像預(yù)處理、圖像低層特征提取、訓(xùn)練低層特征及其對(duì)應(yīng)的語(yǔ)義以得到語(yǔ)義映射知識(shí)、新圖語(yǔ)義映射等環(huán)節(jié)。圖像預(yù)處理主要包括圖像的降噪、增強(qiáng)、分割等,合
理有效的圖像預(yù)處理能使提取出的低層特征更具針對(duì)性和代表性。其中,圖像分割對(duì)于能否對(duì)圖像主體部分特征進(jìn)行有效的提取至關(guān)重要。常見(jiàn)的圖像分割方法主要有閾值法、邊緣檢測(cè)法、區(qū)域增長(zhǎng)法、聚類(lèi)法等。特征提取是將圖像自身的內(nèi)容信息提取出來(lái),并組織成某種形式如向量、矩陣、直方圖等。特征提取作為圖像檢索的核心內(nèi)容,一直都是該領(lǐng)域研究者的研究重點(diǎn)。低層特征主要包括顏色、形狀、紋理等一些定量的特征,這些特征可以通過(guò)計(jì)算機(jī)自動(dòng)或人機(jī)交互的方法獲取。良好的特征提取方法是語(yǔ)義映射和圖像檢索的關(guān)鍵。語(yǔ)義訓(xùn)練及映射方法將在第三部分詳細(xì)介紹,圖像語(yǔ)義映射一般框架如圖1所示。
圖1 圖像語(yǔ)義映射一般框架
假設(shè)圖像數(shù)據(jù)庫(kù)I={I1,I2,…Im-1,Im}共m張圖片,語(yǔ)義集S={S1,S2,…Sn-1,Sn}共n個(gè)語(yǔ)義關(guān)鍵詞,語(yǔ)義映射的主要目的是為圖片Ii找出適合描述該圖片的語(yǔ)義集P,其中P∈S。為了實(shí)現(xiàn)該映射,需要通過(guò)訓(xùn)練集及其中各圖片對(duì)應(yīng)的目標(biāo)語(yǔ)義集的訓(xùn)練來(lái)獲取映射知識(shí),從而實(shí)現(xiàn)新圖像的語(yǔ)義映射。訓(xùn)練集可以表示為T(mén)={(I1,P1),(I2,P2),…(Ik,Pk)},其中(Ii,Pi)為一個(gè)訓(xùn)練子單元。常見(jiàn)的語(yǔ)義映射方法大致分為三類(lèi),監(jiān)督式的圖像分類(lèi)法、非監(jiān)督式的圖像聚類(lèi)以及相關(guān)反饋的語(yǔ)義學(xué)習(xí)法。
3.1圖像分類(lèi)法
有監(jiān)督的圖像分類(lèi)法是通過(guò)機(jī)器學(xué)習(xí),將事先標(biāo)注好的訓(xùn)練集進(jìn)行訓(xùn)練,獲取語(yǔ)義分類(lèi)器也就是映射知識(shí),然后利用分類(lèi)器將未映射的圖像進(jìn)行分類(lèi),從而獲取其語(yǔ)義特征。常用的有監(jiān)督圖像的分類(lèi)法有貝葉斯分類(lèi)器、支持向量機(jī)(SVM)以及神經(jīng)網(wǎng)絡(luò)。
貝葉斯分類(lèi)器是以貝葉斯定理為基礎(chǔ)的監(jiān)督式分類(lèi)器,它可以預(yù)測(cè)一個(gè)給定樣本屬于某一類(lèi)的概率。[2]使用貝葉斯分類(lèi)器需要滿足以下兩個(gè)先決條件:[3](1)要決策分類(lèi)的類(lèi)別數(shù)是已知的;(2)各類(lèi)別總體的概率分布是已知的。在條件(1)中,假設(shè)共有m個(gè)模式類(lèi),分別用wi(i=1,2,…,m)來(lái)表示。在條件(2)中,假設(shè)待識(shí)別樣本的特征值X所對(duì)應(yīng)的后驗(yàn)概率P(|wi)是已知的,或者對(duì)應(yīng)于各個(gè)類(lèi)別出現(xiàn)的先驗(yàn)概率和類(lèi)條件概率密度是已知的。
在利用貝葉斯分類(lèi)器的圖像語(yǔ)義標(biāo)注中,可以將語(yǔ)義映射看為一個(gè)簡(jiǎn)單的二分類(lèi)問(wèn)題,對(duì)于某種語(yǔ)義概念將圖像數(shù)據(jù)庫(kù)分為屬于和不屬于兩類(lèi)。然后將產(chǎn)生的分類(lèi)器應(yīng)用到圖像數(shù)據(jù)庫(kù)中所有的圖像進(jìn)行語(yǔ)義映射,判斷某圖片是否具有目標(biāo)語(yǔ)義。2012年,楊文等[4]將貝葉斯信息準(zhǔn)則應(yīng)用于自動(dòng)確定聚類(lèi)類(lèi)別數(shù)的極化干涉SAR非監(jiān)督分類(lèi)中,該方法通過(guò)貝葉斯信息準(zhǔn)則自動(dòng)確定非監(jiān)督分類(lèi)的最佳類(lèi)別數(shù),能夠有效地實(shí)現(xiàn)圖像分類(lèi)。2013年,楊棟等[5]提出了貝葉斯通用背景模型并將其應(yīng)用到圖像語(yǔ)義的標(biāo)注之中。該方法引入受限的堆成Dirichlet分布來(lái)描述GMM權(quán)重參數(shù)的先驗(yàn)分布,利用Beyes最大后驗(yàn)概率對(duì)高斯混合模型參數(shù)集進(jìn)行了估計(jì),具有良好的圖像標(biāo)注精度。在簡(jiǎn)單貝葉斯分類(lèi)器的基礎(chǔ)上,Pearl于1988年提出了貝葉斯網(wǎng)絡(luò)的概念,它可以采用圖形的形式直觀地表示變量之間的因果關(guān)系或概率關(guān)系,[6]因此也被廣泛應(yīng)用于圖像分類(lèi)。虞欣等[6]將貝葉斯網(wǎng)絡(luò)應(yīng)用于航空影像建筑物及灌木的語(yǔ)義提取之中,證明了通過(guò)貝葉斯網(wǎng)絡(luò)將圖像的低層特征映射為語(yǔ)義特征是可行的,并且能夠進(jìn)一步提高分類(lèi)精度。Cheng等[7]將貝葉斯網(wǎng)絡(luò)應(yīng)用于基于語(yǔ)義特征的圖像分類(lèi)之中,利用貝葉斯網(wǎng)絡(luò)訓(xùn)練出來(lái)的知識(shí)填補(bǔ)“語(yǔ)義鴻溝”,并成功地應(yīng)用于女裝圖片的分類(lèi)。
支持向量機(jī)同樣廣泛地應(yīng)用于圖像分類(lèi),傳統(tǒng)的支持向量機(jī)是二分類(lèi)器,對(duì)于訓(xùn)練集T={(I1,P1),(I2, P2),…(Ik,Pk)},其中,Ii表示圖像i的特征向量,Pi∈{1,-1}表示圖像所屬的類(lèi)標(biāo)號(hào)。其原理是通過(guò)計(jì)算得到一個(gè)超平面,使得超平面與各類(lèi)最接近的數(shù)據(jù)的距離最大化,從而將數(shù)據(jù)分成兩類(lèi)。由于支持向量機(jī)本身僅具有二分類(lèi)性質(zhì),所以,利用支持向量機(jī)的語(yǔ)義映射往往需要對(duì)每個(gè)語(yǔ)義進(jìn)行單獨(dú)訓(xùn)練,對(duì)于某一指
定語(yǔ)義,需要將訓(xùn)練圖像集分為包含該語(yǔ)義與不包含該語(yǔ)義兩類(lèi)并進(jìn)行訓(xùn)練,從而得到若干分類(lèi)器。雖然后期有研究者提出多分類(lèi)的支持向量機(jī),[8]但利用的還是其二分類(lèi)的性質(zhì),沒(méi)有本質(zhì)上的改變。對(duì)于多分類(lèi)的問(wèn)題,傳統(tǒng)的多分類(lèi)支持向量機(jī)會(huì)產(chǎn)生不可分區(qū)域。針對(duì)該問(wèn)題,Li等[9]將模糊支持向量機(jī)(FSVM)應(yīng)用于圖像分類(lèi)與檢索中。該方法通過(guò)模糊支持向量機(jī)計(jì)算出樣本x對(duì)i類(lèi)的歸屬程度mi(x),然后將樣本x歸屬到mi最大的一類(lèi)。實(shí)驗(yàn)結(jié)果表明,對(duì)于可分的區(qū)域,F(xiàn)SVM與傳統(tǒng)SVM具有相同的分類(lèi)效果,對(duì)于不可分區(qū)域,F(xiàn)SVM的分類(lèi)效果明顯優(yōu)于傳統(tǒng)SVM。在Li提出方法的基礎(chǔ)上,黃文宇等[10]將最小隸屬度支持向量機(jī)引入到面向語(yǔ)義的圖像檢索中,同樣有效地消除了傳統(tǒng)支持向量機(jī)由于多分類(lèi)而產(chǎn)生的不可分區(qū)域,并成功地實(shí)現(xiàn)了面向語(yǔ)義的圖像檢索,在查全率和查準(zhǔn)率方面相對(duì)于傳統(tǒng)的支持向量機(jī)方法均有所提高。
神經(jīng)網(wǎng)絡(luò)作為機(jī)器學(xué)習(xí)的重要工具,被廣泛地應(yīng)用于非線性建模、模式識(shí)別、函數(shù)逼近、數(shù)據(jù)壓縮等方面。由于神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的映射能力,很多學(xué)者將其應(yīng)用到圖像語(yǔ)義的映射中。采用神經(jīng)網(wǎng)絡(luò)分類(lèi)法的圖像語(yǔ)義映射同樣需要訓(xùn)練集的參與,訓(xùn)練集可設(shè)定為,其中,表示圖像的低層特征向量,表示對(duì)應(yīng)的目標(biāo)向量。不同的神經(jīng)網(wǎng)絡(luò)適用于不同的應(yīng)用環(huán)境。孫君頂?shù)龋?1]采用基于LBP算子的方向紋理譜描述符來(lái)描述醫(yī)學(xué)圖像的低層特征,采用二進(jìn)制數(shù)00、01、10、11作為各類(lèi)圖像的目標(biāo)輸出,并以BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,實(shí)現(xiàn)了腹部、胸部、頭部、其他四類(lèi)圖像的語(yǔ)義映射。Malay等[12]提出了交互式的圖像檢索模型。該模型使用MPEG-7邊緣直方圖描述符(EHD)作為低層特征,神經(jīng)網(wǎng)絡(luò)作為預(yù)分類(lèi)器,通過(guò)神經(jīng)網(wǎng)絡(luò)預(yù)分類(lèi)器對(duì)圖像庫(kù)進(jìn)行預(yù)分類(lèi),通過(guò)不同的編號(hào)來(lái)表示被分成的各個(gè)子集,減少了檢索時(shí)的搜索空間,提高了檢索速度。Yang等[13]通過(guò)邊緣直方圖描述符來(lái)提取圖像的低層特征,最后以16×5的向量表示圖像低層特征,并使用回聲狀態(tài)網(wǎng)絡(luò)填補(bǔ)“語(yǔ)義鴻溝”,成功實(shí)現(xiàn)語(yǔ)義映射。
圖像分類(lèi)法具有較高的語(yǔ)義映射能力,它為每個(gè)語(yǔ)義概念建立獨(dú)立的映射模型,然而,該方法也存在一定的問(wèn)題:①由于圖像分類(lèi)需要訓(xùn)練集的參與,同樣需要人工對(duì)大量訓(xùn)練集進(jìn)行標(biāo)注,仍存在人為標(biāo)注所帶來(lái)的主觀性;②圖像分類(lèi)法只能對(duì)固定的類(lèi)別進(jìn)行訓(xùn)練,這些類(lèi)事先已經(jīng)確定,當(dāng)未標(biāo)注圖像中存在確定類(lèi)以外的圖像時(shí),將不能實(shí)現(xiàn)準(zhǔn)確的語(yǔ)義映射。
3.2圖像聚類(lèi)法
圖像聚類(lèi)是典型的無(wú)監(jiān)督學(xué)習(xí)法,它沒(méi)有輸出來(lái)指導(dǎo)學(xué)習(xí)的過(guò)程,其目的主要是將圖像按照某種規(guī)則進(jìn)行聚類(lèi)和組織,使同一聚類(lèi)中的相似度最高,不同聚類(lèi)之間的相似度最低?;趫D像聚類(lèi)法的語(yǔ)義映射首先是對(duì)圖像集進(jìn)行聚類(lèi),之后采用統(tǒng)計(jì)方法或機(jī)器學(xué)習(xí)方法為每個(gè)聚類(lèi)賦予相關(guān)的類(lèi)標(biāo)簽,從而實(shí)現(xiàn)語(yǔ)義映射。
K-means算法是一種典型且應(yīng)用較為廣泛的聚類(lèi)算法,但傳統(tǒng)的K-means算法隨機(jī)選取聚類(lèi)中心使得聚類(lèi)結(jié)果不穩(wěn)定,對(duì)初始聚類(lèi)中心具有一定的依賴性,呂明磊[14]等提出了一種改進(jìn)的K-means算法,并將其應(yīng)用到Corel圖像庫(kù)的聚類(lèi)中。它首先計(jì)算圖像特征庫(kù)里面所有顏色直方圖之間的歐式距離,把距離最大的兩個(gè)特征向量作為前兩個(gè)初始類(lèi)心,之后在剩余的特征向量中查找與已有的初始類(lèi)心距離之和最大的特征向量作為下一個(gè)初始類(lèi)心,直到查找到全部初始類(lèi)心,然后依據(jù)初始類(lèi)心進(jìn)行聚類(lèi),有效地解決了隨機(jī)選取聚類(lèi)中心帶來(lái)的不穩(wěn)定問(wèn)題,提高了檢索效果的穩(wěn)定性及準(zhǔn)確性。崔君君等[15]于2014年提出了一種視覺(jué)單詞與標(biāo)注單詞共生的聚類(lèi)算法。該算法首先采用K-means算法對(duì)圖像聚類(lèi),得到聚類(lèi)中心,之后在圖像標(biāo)注字空間計(jì)算標(biāo)注單詞在各聚類(lèi)中心下的統(tǒng)計(jì)分布,從而簡(jiǎn)歷視覺(jué)單詞與標(biāo)注單詞共生矩陣,有效地實(shí)現(xiàn)了Pascal VOC 2007標(biāo)注圖像數(shù)據(jù)庫(kù)的圖像標(biāo)注,提高了聚類(lèi)算法的性能。
Frey等[16]于2007年在Science上提出近鄰傳播聚類(lèi)算法。該算法是一種基于近鄰信息傳播的無(wú)監(jiān)督聚類(lèi)算法,該算法將所有數(shù)據(jù)點(diǎn)作為候選點(diǎn),避免了K-means算法聚類(lèi)結(jié)果受初試聚類(lèi)中心影響的缺點(diǎn)。另外,該算法通過(guò)相似度信息的傳播以優(yōu)化目標(biāo)函數(shù),計(jì)算更加高效且容易實(shí)現(xiàn)。錢(qián)麗麗等[17]將圖像顏色、紋理和邊緣特征使用近鄰傳播算法進(jìn)行初次聚類(lèi),得到初次聚類(lèi)中心,將得到的初次聚類(lèi)中心作為K-means算法的初試聚類(lèi)中心進(jìn)行二次聚類(lèi),將兩種算法的優(yōu)點(diǎn)有效地結(jié)合在一起,聚類(lèi)效果優(yōu)于單純的近鄰傳播聚類(lèi)和K-means算法。
基于聚類(lèi)的語(yǔ)義映射對(duì)應(yīng)的語(yǔ)義概念具有可擴(kuò)展性,同時(shí)能夠有效地減少人工標(biāo)注所帶來(lái)的麻煩,但單純的聚類(lèi)并不能完成真正意義上的語(yǔ)義映射,往往需要與其他技術(shù)相結(jié)合,如機(jī)器學(xué)習(xí)、統(tǒng)計(jì)等才能真正實(shí)現(xiàn)語(yǔ)義映射,得到較好的映射效果。
3.3相關(guān)反饋的語(yǔ)義學(xué)習(xí)法
基于監(jiān)督式的分類(lèi)語(yǔ)義映射與非監(jiān)督的圖像聚類(lèi)都是離線式的學(xué)習(xí)技術(shù),而相關(guān)反饋語(yǔ)義學(xué)習(xí)法則是一種在線學(xué)習(xí)技術(shù)。該方法主要通過(guò)圖像檢索階段用戶對(duì)系統(tǒng)產(chǎn)生的檢索結(jié)果的評(píng)價(jià)來(lái)調(diào)整相似度度量方法或者學(xué)習(xí)策略等,從而實(shí)現(xiàn)語(yǔ)義知識(shí)的更新,優(yōu)化映射效果。
相關(guān)反饋的語(yǔ)義學(xué)習(xí)法的一般步驟為:(1)通過(guò)簡(jiǎn)單的圖像檢索算法為用戶提供初始的檢索結(jié)果;(2)用戶通過(guò)主觀判斷將系統(tǒng)反饋的結(jié)果分為正例和反例;(3)系統(tǒng)通過(guò)反饋結(jié)果調(diào)整學(xué)習(xí)策略或相似度度量方法等;(4)系統(tǒng)利用新的檢索方法重新向用戶反饋檢索結(jié)果。
相關(guān)反饋方法早期就被應(yīng)用于基于內(nèi)容的圖像檢索中?;谡Z(yǔ)義的圖像檢索出現(xiàn)后,大量研究者試圖將相關(guān)反饋技術(shù)應(yīng)用于基于語(yǔ)義的圖像檢索中,歐陽(yáng)軍林等[18]早期為了解決傳統(tǒng)語(yǔ)義映射方法在速度及準(zhǔn)確度等方面不令人滿意的問(wèn)題,將相關(guān)反饋應(yīng)用于基于語(yǔ)義的圖像檢索系統(tǒng),該系統(tǒng)將基于語(yǔ)義的圖像檢索與基于顏色的圖像檢索相結(jié)合,同時(shí)可以根據(jù)用戶的反饋從圖像中取出高層語(yǔ)義詞特征,并不斷地修正某種顏色在圖像中的重要程度。Mohammad Kazem Anvarifard等[19]提出了基于加權(quán)相關(guān)反饋的圖像模糊化方法,并將其應(yīng)用到圖像檢索中。該方法通過(guò)FCM算法將顏色特征量化到20維,然后利用KNN算法對(duì)特征向量進(jìn)行模糊化處理。在相關(guān)反饋中,用戶首先通過(guò)0、1對(duì)系統(tǒng)反饋的檢索結(jié)果進(jìn)行標(biāo)注,從而得到正例及反例圖像,然后系統(tǒng)根據(jù)用戶的反饋信息調(diào)整各圖像屬于某種語(yǔ)義的權(quán)重,之后根據(jù)不同的語(yǔ)義組建立索引,從而實(shí)現(xiàn)圖像檢索。Yang等[13]提出了一種基于回聲狀態(tài)網(wǎng)絡(luò)的相關(guān)反饋圖像檢索方法,提出了如圖2的圖像檢索框架。
該方法通過(guò)學(xué)習(xí)用戶返回的正例、反例及不相關(guān)例三種情況,重新將正例、反例及不相關(guān)例對(duì)應(yīng)的特征向量放入回聲狀態(tài)網(wǎng)絡(luò)中進(jìn)行學(xué)習(xí),從而使得到的分類(lèi)器更符合人的主觀意識(shí),使得語(yǔ)義映射效果更令人滿意。
有部分學(xué)者將傳統(tǒng)的智能算法與圖像相關(guān)反饋相結(jié)合,Chen等[20]利用蟻群算法提高了用戶相關(guān)反饋信息的利用效率,并將其應(yīng)用到基于語(yǔ)義的圖像檢索中。該方法通過(guò)蟻群算法建立語(yǔ)義網(wǎng)絡(luò),用一個(gè)信息素矩陣來(lái)存儲(chǔ)圖像間的語(yǔ)義相關(guān)程度,將用戶檢索圖像的過(guò)程視為螞蟻的一次外出覓食。通過(guò)矩陣記錄用戶的反饋信息,計(jì)算量小,運(yùn)算速度相對(duì)較快,高效地利用了用戶的反饋信息。張振花等[21]將粒子群優(yōu)化算法與相關(guān)反饋算法結(jié)合在一起,并應(yīng)用到圖像檢索中,通過(guò)學(xué)習(xí)動(dòng)態(tài)的調(diào)整各特征的權(quán)值,從而實(shí)現(xiàn)模擬人類(lèi)思維的目的,提高檢索性能。
圖2 基于回聲狀態(tài)網(wǎng)絡(luò)和相關(guān)反饋的圖像檢索框架
雖然本文將語(yǔ)義映射方法分為分類(lèi)法、聚類(lèi)法、以及相關(guān)反饋法三大類(lèi),但并不代表彼此之間沒(méi)有聯(lián)系。相反,在進(jìn)行語(yǔ)義映射時(shí)往往需要多種語(yǔ)義映射方法相互協(xié)調(diào)配合。
圖像從低層特征到高層語(yǔ)義的映射一直以來(lái)都是多媒體信息檢索領(lǐng)域研究的熱點(diǎn)與難點(diǎn),根本原因在于低層物理特征與高層語(yǔ)義之間的復(fù)雜關(guān)系到目前為止仍未很好地解決。為了提高圖像語(yǔ)義映射精度與效率,未來(lái)需要在以下幾個(gè)方面展開(kāi)更深入的研究。
(1)優(yōu)化圖像分割及特征提取方法。圖像分割往往是圖像區(qū)域特征提取的第一步。目前,許多技術(shù)只是將圖像簡(jiǎn)單地分成幾個(gè)區(qū)域,仍缺乏簡(jiǎn)單易行而又準(zhǔn)確可靠的通用辦法。所以,完善圖像分割技術(shù),準(zhǔn)確分割圖像是以后勢(shì)必要研究的內(nèi)容。圖像低層特征提取是語(yǔ)義映射的前提,合理的低層特征提取算法對(duì)能否正確地實(shí)現(xiàn)語(yǔ)義映射意義重大,目前的圖像低層特征提取算法大多普適性較差,所以,圖像低層特征的提取仍是以后數(shù)字圖書(shū)館圖像領(lǐng)域的研究重點(diǎn)。(2)完善反饋機(jī)制。充分利用用戶豐富的先驗(yàn)知識(shí),將語(yǔ)義映射融入到圖像檢索的過(guò)程中并加入人的主觀因素,根據(jù)用戶的反饋信息重新調(diào)整映射策略,從而得到更令人滿意的映射效果。目前,相關(guān)反饋技術(shù)已大量應(yīng)用在圖像語(yǔ)義的獲取中,但效率有限,如何提高用戶反饋信息的利用效率,也是今后研究者們研究的重點(diǎn)內(nèi)容。(3)提高機(jī)器學(xué)習(xí)效率。機(jī)器學(xué)習(xí)作為語(yǔ)義映射中的重要技術(shù),一直以來(lái)都是研究者的研究重點(diǎn),提出新的機(jī)器學(xué)習(xí)方法以及如何有效地將機(jī)器學(xué)習(xí)技術(shù)融入語(yǔ)義映射之中,進(jìn)而實(shí)現(xiàn)高效的語(yǔ)義映射仍會(huì)是今后一段時(shí)間的研究熱點(diǎn)。(4)目前,大多
數(shù)的語(yǔ)義理解是建立在單幅圖片上的,為了能夠?qū)Υ笠?guī)模場(chǎng)景語(yǔ)義進(jìn)行深入理解,應(yīng)在多圖聯(lián)合語(yǔ)義理解方面進(jìn)行更加深入的研究。
[參考文獻(xiàn)]
[1]孫君頂,杜娟.圖像自動(dòng)語(yǔ)義標(biāo)注技術(shù)綜述[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2012,21(7):258-261.
[2]詹總謙,等.一種利用紋理特征和樸素貝葉斯分類(lèi)器檢測(cè)近景影像植被的方法[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2013,38(6):665-668.
[3]許國(guó)根,賈瑛.模式識(shí)別與智能計(jì)算的MATLAB實(shí)現(xiàn)[M].北京:航空航天大學(xué)出版社,2012:8-11.
[4]楊文,等.基于貝葉斯信息準(zhǔn)則的極化干涉SAR圖像非監(jiān)督分類(lèi)[J].電子與信息學(xué)報(bào), 2012, 34(11):2628-2633.
[5]楊棟,等.基于貝葉斯通用背景模型的圖像標(biāo)注[J].自動(dòng)化學(xué)報(bào),2013,39(10):1674-1680.
[6]虞欣,鄭肇葆.基于語(yǔ)義特征和貝葉斯網(wǎng)絡(luò)的航空影像建筑物及灌木分類(lèi)[J].測(cè)繪學(xué)報(bào), 2010, 39(3):245-250.
[7]Cheng Hongjun,Zhang Junfeng.Classification of image based on semantic features and Bayesian networks[C]//2011 International Conference on Consumer Electronics. Communications and Networks(CECNet),2011:4858 -4861.
[8]Glenn Fung,Olvi L Mangasarian.Proximal support vector machine classifiers,proceeding[J].KKD,2001(8):77-86.
[9]LI Jian-ming,et al.Image classification based on fuzzy support vector machine[C]//Proc of International Symposium on Computational Intelligence and Design,2008: 68-71.
[10]黃文宇,等.基于模糊支持向量機(jī)的面向語(yǔ)義圖像檢索算法[J].計(jì)算機(jī)應(yīng)用研究, 2011,28 (5):1987-1990.
[11]孫君頂,李琳.基于BP神經(jīng)網(wǎng)絡(luò)的醫(yī)學(xué)圖像分類(lèi)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2012,21(3):160-162.
[12]Kundu,M K&Chowdhury,M.Image retrieval using NN based pre-classification and fuzzy relevance feedback [C]//2010 Annual IEEE India Conference(INDICON),2010:1-4.
[13]Yuan-feng Yang,etal.Imageretrievalusing ESNs and Relevance feedback[C]//2012 11th International Symposium on Distributed Computing and Applications to Bussiness,Engineering&Scinece,2012:383-387.
[14]呂明磊,等.基于改進(jìn)K-means算法的圖像檢索方法[J].計(jì)算機(jī)應(yīng)用,2013,33(S1):195-198.
[15]崔君君,等.協(xié)同視覺(jué)信息與標(biāo)注信息圖像聚類(lèi)[J].哈爾濱理工大學(xué)學(xué)報(bào),2014,19(2):57-61.
[16]Frey BJ,Dueck D.Clusteringbypassingmessagesbetweendatapoints[J].Science,2007,315(5814): 972-976.
[17]錢(qián)麗麗,施鵬飛.近鄰傳播算法在非監(jiān)督圖像聚類(lèi)中的應(yīng)用[J].微型電腦應(yīng)用,2011,27 (2):34-36.
[18]歐陽(yáng)軍林,等.基于高層語(yǔ)義及相關(guān)反饋的圖像檢索[J].計(jì)算機(jī)工程與應(yīng)用,2006(25):159-165.
[19]Mohammad Kazem Anvarifard,et al.Image Semantic Retrieval Using Image Fuzzification Based on Weighted Relevance Feedback[C]//2010 18th Iranian Conferenceon Electrical Engineering(ICEE),2010:476-482.
[20]CHEN Guangpeng,YANG Yubin.Memory-type image retrieval method based on ant colony algorithm[J]. Journal of Frontiers of Computer Science and Technology, 2011,5(1):32-37.
[21]張振花,等.基于粒子群算法的圖像相關(guān)反饋研究[J].系統(tǒng)仿真學(xué)報(bào),2012,24(1):242-244.
[收稿日期]2014-12-02 [責(zé)任編輯]菊秋芳
[作者簡(jiǎn)介]王華秋(1975-),男,重慶人,博士,重慶理工大學(xué)教授,研究方向:信息檢索與挖掘;聶珍(1980-),女,碩士,館員,研究方向:信息服務(wù);王斌(1991-),男,在讀碩士,研究方向:數(shù)據(jù)挖掘。
[基金項(xiàng)目]本文系國(guó)家社會(huì)科學(xué)基金項(xiàng)目“數(shù)字圖書(shū)館的智能圖像檢索系統(tǒng)研制”(項(xiàng)目編號(hào):14BTQ053)的研究成果之一。
[文章編號(hào)]1005-8214(2015)04-0006-05
[文獻(xiàn)標(biāo)志碼]A
[中圖分類(lèi)號(hào)]G250.76