劉 焱
(青島酒店管理職業(yè)技術(shù)學(xué)院 工商管理系,山東 青島 266100)
圖像檢索是一種通過給定查詢方法在大型數(shù)據(jù)庫中查找相似圖像的技術(shù)?;谑掷L草圖的圖像檢索是圖像檢索的一個(gè)分支。手繪草圖與自然圖像具有較大差異,沒有豐富的顏色信息和紋理信息,因此,將草圖的特征與自然圖像的特征進(jìn)行匹配是一項(xiàng)非常困難的任務(wù)。圖像檢索[1]主要有兩種方法:距離度量法和分類法。距離度量法是通過計(jì)算兩個(gè)圖像的兩個(gè)特征之間的距離來顯示最相似的圖像[2,3]。分類法則是通過分類模型對(duì)檢索目標(biāo)的類別進(jìn)行預(yù)測從而實(shí)現(xiàn)檢索,最常用的分類模型一般為支持向量機(jī)或K最近鄰模型[4]。
在手繪草圖的檢索領(lǐng)域,Peng[5]提出了一種跨模態(tài)子空間學(xué)習(xí)方法,在語義上建立了跨越兩種模態(tài)的公共低級(jí)子空間,有效實(shí)現(xiàn)了跨模態(tài)草圖檢索。Swain[6]提出了顏色直方圖方法,通過計(jì)算圖像中每個(gè)顏色像素的比例以及它們之間的相似性從而獲得顏色直方圖。Seddati[7]提出的DeepSketch,使用深度卷積神經(jīng)網(wǎng)絡(luò)來獲取ConvNets特征,并使用k最近鄰進(jìn)行草圖相似度搜索。當(dāng)前基于手繪草圖的檢索大多數(shù)針對(duì)自然圖像,而很少在紋理上進(jìn)行。
紋理檢索通常包括特征計(jì)算和圖像檢索兩個(gè)步驟。[8]紋理的計(jì)算特征可以概括為傳統(tǒng)手工特征和深度特征。傳統(tǒng)手工特征以Gabor和LBP[9]為例,在目標(biāo)識(shí)別和圖像分類領(lǐng)域取得了良好的實(shí)驗(yàn)結(jié)果。深度特征主要是指通過深度卷積網(wǎng)絡(luò)提取的特征,是數(shù)據(jù)的高級(jí)表示,常見模型包括自動(dòng)編碼器,稀疏編碼,受限玻爾茲曼機(jī)(RBM),深度置信網(wǎng)絡(luò)(DBN)和卷積神經(jīng)網(wǎng)絡(luò)(ConvNet),通過卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的深度特征在許多計(jì)算機(jī)視覺任務(wù)中表現(xiàn)出與傳統(tǒng)手工特征相當(dāng)?shù)纳踔粮叩男阅躘10]。
本文提出了一種基于手繪草圖的自然紋理圖像檢索框架。通過將手繪草圖的特征與自然紋理圖像的特征進(jìn)行拼接,獲得了具有人類感知約束的新特征向量,隨后將成對(duì)的特征送入隨機(jī)森林模型進(jìn)行訓(xùn)練,學(xué)習(xí)手繪草圖與自然紋理圖像之間的相似性,并基于感知相似性預(yù)測實(shí)現(xiàn)了手繪草圖檢索過程,實(shí)驗(yàn)結(jié)果證明了該方法的可行性。
本文中選擇的數(shù)據(jù)庫是DTD數(shù)據(jù)集[11],包含47個(gè)類別,每類120個(gè)自然紋理圖像,總共5640個(gè)自然紋理圖像。在我們的實(shí)驗(yàn)中,從每個(gè)類別中隨機(jī)選擇了10張,總共470張自然紋理圖像形成了一個(gè)名為DTD-R的新實(shí)驗(yàn)數(shù)據(jù)集,如圖1所示。這是因?yàn)樾睦砦锢韺?shí)驗(yàn)對(duì)實(shí)驗(yàn)數(shù)據(jù)量有限制,因此該實(shí)驗(yàn)無法同時(shí)處理過多的數(shù)據(jù)。在DTD-R數(shù)據(jù)集中,我們進(jìn)行了自由分組實(shí)驗(yàn)和手繪草圖收集實(shí)驗(yàn)。
圖1 DTD-R數(shù)據(jù)集中的典型自然紋理圖像
1.2.1 實(shí)驗(yàn)方案
實(shí)驗(yàn)在470張自然紋理圖像中進(jìn)行。實(shí)驗(yàn)分為自由分組實(shí)驗(yàn)和分組合并實(shí)驗(yàn)兩部分。
1)自由分組
(1)使用同一臺(tái)打印機(jī)打印470個(gè)樣本,并將其隨機(jī)分為10組,一組中有47個(gè)樣本。
(2)實(shí)驗(yàn)期間,將一組中的47個(gè)樣本散布在桌面上。被試者應(yīng)仔細(xì)觀察樣品,并根據(jù)其相似性自由分組。一組中的樣本應(yīng)該顯示出高度相似性,而不同組中的樣本應(yīng)該表現(xiàn)出無相似性。組的數(shù)量和一組中的樣本數(shù)量不受限制。被試者可以在實(shí)驗(yàn)期間自由移動(dòng)樣本。
(3)將47個(gè)樣本分組后,被試者應(yīng)再將47個(gè)樣本分組,也就是說,應(yīng)將這些樣本放入現(xiàn)有的組或新的組中。被試者可以新建、合并、刪除組。
(4)重復(fù)分組實(shí)驗(yàn),直到完成10組。應(yīng)該注意的是,一個(gè)自然紋理圖像不能作為一個(gè)組使用,并且在自由分組實(shí)驗(yàn)的過程中沒有時(shí)間限制。
2)分組合并
(1)自由分組實(shí)驗(yàn)后進(jìn)行分組合并實(shí)驗(yàn)。被試者需要對(duì)自由分組后的樣本進(jìn)行合并,合并的數(shù)量沒有限制。在實(shí)驗(yàn)過程中,被試者可以自由合并組,但不能拆開組。只有當(dāng)不同組之間存在相似性時(shí),才可以進(jìn)行組的合并,并且記錄合并組的置信度。
(2)重復(fù)合并步驟,直到被試認(rèn)為沒有組可以合并為止。
1.2.2 實(shí)驗(yàn)結(jié)果分析
根據(jù)心理實(shí)驗(yàn)的結(jié)果,計(jì)算了470種自然紋理圖像的感知相似度矩陣Stexture和47個(gè)不同類別的感知相似度矩陣Sclass。
(1)
在分組合并實(shí)驗(yàn)中,根據(jù)被試者提供的置信度,將原本的感知相似性與置信度相乘,并將它們添加到自由分組矩陣中。相似度矩陣公式為:
(2)
其中α是分組組合實(shí)驗(yàn)中的置信度,Stexture中的元素Sm,n表示樣本m和樣本n的相似系數(shù)。Sm,n越接近1,代表更多的被試者將兩個(gè)樣本分為一組,即樣本對(duì)(m,n)彼此越相似。
自由分組實(shí)驗(yàn)獲得的紋理相似度矩陣Stexture如圖2所示。橫坐標(biāo)和縱坐標(biāo)表示不同的紋理樣本,樣本的相似性用灰度深淺表示。坐標(biāo)點(diǎn)(m,n)上灰度的深淺表示樣本m和樣本n之間的相似性。顏色越深,樣本之間的相似度越高。從圖2可以看出,大多數(shù)子塊的顏色趨于白色,數(shù)據(jù)顯示不同類別的紋理樣本之間的相似度非常低,而同一類別的紋理之間的相似度很高。
圖2 通過自由分組實(shí)驗(yàn)獲得的470×470紋理感知相似度矩陣
1.3.1 實(shí)驗(yàn)方案
為被試者提供了自然紋理圖像和帶有方框的A4紙張,要求使用鉛筆進(jìn)行繪制。十名被試者分別繪制了20幅草圖,兩名具有繪畫經(jīng)驗(yàn)的被試者繪制了470幅圖像。每次計(jì)算機(jī)顯示紋理時(shí),被試者將根據(jù)紋理圖像繪制草圖,并在繪制后寫下紋理編號(hào)。被試者繪畫沒有時(shí)間限制,繪畫期間他們可以隨時(shí)休息。繪制后,收集所有被試者繪制的草圖并使用HP(M1552n)掃描儀進(jìn)行掃描,分辨率設(shè)置為300像素。
1.3.2 實(shí)驗(yàn)結(jié)果分析
實(shí)驗(yàn)中總共收集了1140張手繪草圖。使用MATLAB對(duì)掃描的圖像進(jìn)行剪切和二值化處理,可獲得手繪紋理草圖的DTD-S數(shù)據(jù)集。原始紋理圖像a和相應(yīng)的手繪草圖b如圖3所示。
圖3 自然紋理圖像和相應(yīng)的手繪草圖
被試者手繪草圖的時(shí)間略有不同,花費(fèi)時(shí)間為5 min,470個(gè)手繪草圖大約花費(fèi)40 h,這些數(shù)據(jù)非常有價(jià)值。兩名未參與草圖收集實(shí)驗(yàn)的被試者參加了驗(yàn)證實(shí)驗(yàn),用來驗(yàn)證手繪草圖是否可以代表自然紋理圖像。在驗(yàn)證實(shí)驗(yàn)中,手繪草圖和在自然紋理圖像同時(shí)顯示在計(jì)算機(jī)屏幕上,被試者使用Y/N來確定手繪草圖是否與相應(yīng)的自然紋理圖像一致。實(shí)驗(yàn)證明,手繪草圖能有效代表原自然紋理圖像。
特征提取是紋理檢索過程中非常重要的部分。合理的特征選取將大大提高檢索的準(zhǔn)確性和效率。本文測試了四個(gè)代表性的計(jì)算特征,包括Gabor,LBP,PCANet[12]和VGGNet[13]。其中,Gabor,LBP是手工設(shè)計(jì)的特征提取方法,PCANet和VGGNet是通過深度學(xué)習(xí)方法提取特征,相應(yīng)的特征可以稱為深度特征。這些特征在不同的紋理數(shù)據(jù)集上均取得了良好的分類結(jié)果。
距離測量廣泛用于紋理檢索和紋理相似度估計(jì)。為了測試上述四個(gè)計(jì)算特征是否能很好地代表手繪草圖和原始紋理圖像,我們使用距離測量來計(jì)算草圖之間的距離和相應(yīng)的自然紋理之間的距離,并使用計(jì)算得出的距離。距離度量是余弦相似度:
sim(Fimg1,F(xiàn)img2= (3) (Fskth1,F(xiàn)skth2)= (4) 其中Fimg1和Fimg2代表數(shù)據(jù)庫中紋理圖像的特征向量,F(xiàn)skth1和Fskth2表示相應(yīng)草圖的特征向量。根據(jù)該公式,可以計(jì)算出自然紋理之間的相似度和草圖之間的相似度。在上述四個(gè)特征空間上計(jì)算距離,并計(jì)算不同紋理和相應(yīng)草圖之間的相關(guān)系數(shù)。 表1 紋理和草圖之間的相關(guān)系數(shù) 從表1可以看出,原始自然紋理圖像與相應(yīng)的手繪草圖之間存在一定的相關(guān)性,不同特征計(jì)算出的相關(guān)性差異較大。我們希望找到一個(gè)有效的特征,可以描述自然紋理圖像和對(duì)應(yīng)的手繪草圖。 考慮到傳統(tǒng)手工特征和深度特征的不同屬性,將傳統(tǒng)手工特征和深度特征組合在一起,然后將它們發(fā)送到自動(dòng)編碼器進(jìn)行編碼,并重建輸入特征。實(shí)驗(yàn)參數(shù)設(shè)置為:λ(1e-11),β(0.001),并且每個(gè)層的稀疏度都設(shè)置為0.1。減小輸入要素的維數(shù),并得到與原始要素具有相同表示的低維特征。我們使用相關(guān)性分析測試了不同的特征組合和不同尺度特征的相關(guān)性,實(shí)驗(yàn)結(jié)果如表2所示。 表2 組合特征的相關(guān)系數(shù) 從表2可以看出,由自動(dòng)編碼器編碼的組合特征具有較強(qiáng)的表達(dá)能力,可以更好地表現(xiàn)自然紋理和手繪草圖。其中,Gabor特征和PCANet特征的組合獲得了最佳的實(shí)驗(yàn)結(jié)果。 為了測試基于草圖的檢索中上述不同特征的性能,我們嘗試了傳統(tǒng)的距離度量。表3顯示了選定的手繪草圖和檢索到的自然紋理圖像。表格的第一列顯示了隨機(jī)選擇的手繪草圖,第二列顯示了相應(yīng)的參考自然紋理圖像,第3列代表在不同特征空間中最接近手繪草圖的三個(gè)自然紋理圖像,分別使用LBP,Gabor,PCANet,VGGNet,LBP+PCANet,LBP+VGGNet,Gabor+PCANet,Gabor+VGGNet特征進(jìn)行檢索的結(jié)果。 表3 基于距離測量的檢索結(jié)果 從表3可以看出,在這些特征空間中,距離度量方法無法根據(jù)手繪草圖檢索出所需的自然紋理圖像,并且檢索到的結(jié)果與視覺中的真實(shí)值有很大差異,無法滿足要求。 由于手繪草圖非常抽象,簡單的距離度量方法不能有效判斷手繪草圖與自然紋理圖像之間的距離,基于距離度量的手繪草圖檢索不適用于自然紋理圖像,并且距離度量僅對(duì)手繪草圖和自然紋理圖像之間的關(guān)系約束較弱。因此,我們提出了一種基于隨機(jī)森林的手繪草圖檢索方法。 隨機(jī)森林可以用于學(xué)習(xí)手繪草圖與自然紋理圖像之間的相似性。在學(xué)習(xí)了兩個(gè)圖像之間的相似性之后,它會(huì)根據(jù)手繪草圖與所有其他自然紋理圖像之間的相似性進(jìn)行排序,輸出較高相關(guān)度的圖像,以獲得最終的檢索結(jié)果。 圖4 相似性預(yù)測和紋理檢索的過程 在感知紋理空間中,任意兩個(gè)紋理之間的心理物理相似度值從0到1變化。如果相似度值近似為1,則表示兩個(gè)紋理高度相似。如果相似度值近似為0,則表示兩個(gè)紋理彼此非常不同。根據(jù)使用不同方法從樣本中提取的心理物理相似度值和特征,可以基于隨機(jī)森林訓(xùn)練相似度預(yù)測模型。 給定查詢紋理,使用訓(xùn)練好的隨機(jī)森林模型預(yù)測的感知紋理空間中的相似度值,在檢索中使用根據(jù)距離測量在感知空間中獲得的相似度值來獲得檢索結(jié)果。由于手繪草圖與自然紋理之間沒有直接相似性數(shù)據(jù),因此我們將通過心理物理實(shí)驗(yàn)獲得的相應(yīng)成對(duì)自然紋理圖像之間的相似性值用作訓(xùn)練標(biāo)簽,使用隨機(jī)森林模型可以預(yù)測兩者之間的相似性。我們使用歐幾里得距離作為測量標(biāo)準(zhǔn)來計(jì)算距離測量。歐幾里得距離公式: (5) 其中x和y表示輸入的特征草圖和紋理,D(x,y)是向量x和向量y之間的距離,特征的維數(shù)是n。兩個(gè)特征之間的距離變小,代表兩個(gè)紋理之間的相似度逐漸增加?;陬A(yù)測的相似度值,將輸出具有最高相似度值的紋理。相似性預(yù)測和紋理檢索的過程如圖4所示。 我們使用表2中測試性能最佳的計(jì)算特征,Gabor+PCANet特征,用于在本文提出的框架下進(jìn)行檢索實(shí)驗(yàn)。在訓(xùn)練過程中,提取手繪草圖的Gabor特征和PCANet特征,然后將其與自然紋理數(shù)據(jù)集中自然紋理的計(jì)算特征相結(jié)合,并送到隨機(jī)森林中,使用從心理物理實(shí)驗(yàn)獲得的相似性矩陣作為訓(xùn)練標(biāo)簽進(jìn)行訓(xùn)練。我們隨機(jī)選擇了2820張圖像(60張圖像/類別×47個(gè)類別)和1000個(gè)草圖作為訓(xùn)練數(shù)據(jù),其余的2820張圖像(60張圖像/類別×47個(gè)類別)和140個(gè)草圖作為測試數(shù)據(jù)。實(shí)驗(yàn)過程如下: (1)提取手繪草圖的計(jì)算特征,然后與離線存儲(chǔ)的自然紋理計(jì)算特征相結(jié)合; (2)發(fā)送到經(jīng)過訓(xùn)練的隨機(jī)森林回歸模型中進(jìn)行相似性預(yù)測。 (3)在感知空間中比較相似性值,對(duì)所有紋理對(duì)的相似性進(jìn)行排序,并輸出前三個(gè)相似性最高的紋理圖像作為檢索結(jié)果。實(shí)驗(yàn)結(jié)果如表4所示。 表4 基于隨機(jī)森林的檢索結(jié)果 從結(jié)果可以清楚地看到,使用隨機(jī)森林訓(xùn)練的模型預(yù)測相似性值獲得的檢索結(jié)果符合給定紋理的外觀。實(shí)驗(yàn)結(jié)果表明,本文提出的檢索方法可以有效地完成紋理檢索,檢索結(jié)果與人類視覺感知一致。 此外我們還進(jìn)行了分類檢索實(shí)驗(yàn)。檢索實(shí)驗(yàn)完成后,我們判斷輸出TOP40的紋理是否與查詢紋理屬于同一類別。表5中顯示了10倍交叉驗(yàn)證的準(zhǔn)確性。 表5 分類準(zhǔn)確性 實(shí)驗(yàn)表明,本文的方法可以有效地利用手繪草圖進(jìn)行分類和檢索,使用Gabor+PCANet特征獲得最佳分類結(jié)果。 當(dāng)前,在基于草圖的識(shí)別和檢索中,常用的數(shù)據(jù)集大部分是物體的數(shù)據(jù)集,而沒有用于紋理圖像的手繪草圖。為此,本文設(shè)計(jì)了一個(gè)草圖收集實(shí)驗(yàn),該實(shí)驗(yàn)從經(jīng)典的紋理圖像數(shù)據(jù)集DTD中選擇了具有代表性的紋理圖像,邀請(qǐng)多個(gè)被試者參考給定的紋理進(jìn)行繪制,收集了上千幅紋理手繪草圖,創(chuàng)建了手繪的自然紋理圖像數(shù)據(jù)集。 我們將傳統(tǒng)手工特征Gabor和深度特征PCANet相結(jié)合,有效地表示手繪草圖和自然紋理圖像,構(gòu)建了基于手繪草圖的自然紋理圖像檢索框架。將手繪草圖紋理特征與自然紋理圖像特征相組合,獲得具有人類感知約束的新特征向量,并將組合后的特征向量用于訓(xùn)練隨機(jī)森林回歸模型。通過與自由分組的心理物理實(shí)驗(yàn)獲得的紋理圖像之間的感知相似性進(jìn)行對(duì)比驗(yàn)證,證明該模型可有效應(yīng)用于檢索。 基于手繪草圖的圖像檢索是圖像檢索的一個(gè)重要分支,在使用手繪草圖進(jìn)行檢索的時(shí)候,由于手繪草圖存在內(nèi)容不詳細(xì),信息量少,變形嚴(yán)重等缺點(diǎn),導(dǎo)致草圖和自然圖像之間存在巨大差異,很難實(shí)現(xiàn)匹配,因此找到可靠的特征來同時(shí)表征自然圖像和手繪草圖非常重要。針對(duì)自然紋理圖像和手繪紋理草圖,本文提出了一種基于隨機(jī)森林紋理相似度預(yù)測的紋理檢索新方法。實(shí)驗(yàn)證明,該方法能夠預(yù)測手繪草圖與自然紋理之間的感知相似度,并且得到與人類的視覺感知相一致的檢索結(jié)果。 盡管隨機(jī)森林方法取得了較好的結(jié)果,但是模型訓(xùn)練所需的時(shí)間仍然是需要改進(jìn)的主要瓶頸。由于手繪草圖中缺少大量信息,因此某些檢索實(shí)驗(yàn)無法獲得所需的結(jié)果。此外,具有心理信息的紋理的數(shù)量是有限的,為了獲得更好的檢索結(jié)果,需要在模型訓(xùn)練過程中應(yīng)用更多具有相似性的紋理。2.2 檢索框架的設(shè)計(jì)
2.3 檢索實(shí)驗(yàn)結(jié)果
3. 結(jié)語