蘇亮亮,李 惠
(1.智能建筑與建筑節(jié)能安徽省重點實驗室,安徽 合肥 230022;2.安徽省建設(shè)領(lǐng)域碳達(dá)峰碳中和戰(zhàn)略研究院,安徽 合肥 230601;3.安徽建筑大學(xué) 電子與信息工程學(xué)院,安徽 合肥 230022)
近年來,隨著觸屏技術(shù)的蓬勃發(fā)展,手機、平板電腦等可觸屏電子設(shè)備逐漸成為人們生活中不可或缺的部分,人們可以用手繪草圖的形式在移動終端便捷地繪制出物體的外觀輪廓,于是基于手繪草圖的圖像檢索技術(shù)(Sketch-Based Image Retrieval,SBIR)[1]逐漸引起了學(xué)者們的注意,成為當(dāng)前計算機視覺跨域檢索領(lǐng)域的研究熱點之一。由于自然圖像蘊含豐富的紋理信息和色彩信息,而手繪草圖僅包含簡單的線條信息,因此如何有效地縮小草圖與自然圖像之間的域間差異,是目前研究的難點問題。
早前應(yīng)用于SBIR 領(lǐng)域的方法主要是基于顏色、形狀、紋理等視覺傳統(tǒng)手工特征,如Canny 邊緣檢測[2]、尺度不變特征變換(scale invariant feature transform,SIFT)[3]、方 向 梯 度 直 方 圖(histogram of oriented gradient,HOG)[4]特征、局部二值模式(local binary pattern,LBP)[5]和顏色直方圖[6]等,這些特征雖然在不同的應(yīng)用場景下取得了不錯效果,但是受限于其反映圖像的特定方面信息,泛化性能較差。為了緩解該問題,部分學(xué)者將不同手工特征進(jìn)行了融合,以此實現(xiàn)檢索性能的提升,例如Mehmood 等人將加速魯棒特征(speeded up robust features,SURF)與HOG 特征融合,提升了檢索的準(zhǔn)確率和檢索效率[7];郭元晨等人提出了一種基于空間注意力的邊緣圖融合模型,將自然圖像和對應(yīng)的邊緣圖編碼到各自的特征空間,然后由空間注意力掩膜進(jìn)行加權(quán)融合得到圖像向量表征,從而實現(xiàn)草圖-圖像的檢索[8]。然而手工特征存在的“語義鴻溝”問題仍然沒有得到很好的解決。近年來,隨著深度神經(jīng)網(wǎng)絡(luò)技術(shù)的快速發(fā)展,不少學(xué)者開始基于深度學(xué)習(xí)方法提取草圖、圖像的特征,典型深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)有LeNet[9]、AlexNet[10]、VGG[11]等,通過端到端的學(xué)習(xí)方式,其獲得的特征能夠有效緩解語義信息的不足,使得基于深度學(xué)習(xí)的方法逐漸成為獲取圖像特征的主流方法。
綜上所述,手繪草圖線條輪廓簡單、抽象,但缺乏顏色和紋理信息,而深度特征往往能夠獲得更加接近語義層面的信息,于是本文將采用一種非線性特征融合方法來綜合傳統(tǒng)手工特征與深度特征的優(yōu)勢,選取有代表性的、適合表達(dá)邊緣信息的HOG特征與深度特征進(jìn)行融合,以此克服手繪草圖與自然圖像之間的域間差異。通過公開數(shù)據(jù)集上的實驗與對比分析,結(jié)果顯示本文提出的多特征融合方法進(jìn)行草圖-圖像檢索是有效的。
圖像特征主要分為顏色特征、紋理特征以及形狀特征。由于草圖是由簡單的線條構(gòu)成,缺乏顏色和紋理信息,因此本文提取形狀特征HOG 作為草圖特征。HOG 特征最早應(yīng)用于行人檢測,后來被廣泛應(yīng)用于人臉檢測等領(lǐng)域。它通過計算圖像的梯度方向與大小,從而獲得關(guān)于梯度的統(tǒng)計描述。該算法忽略圖像中顏色信息的影響,具有光照不變性、平移不變性和旋轉(zhuǎn)不變性,適用于無色彩信息的草圖特征提取。如圖1 所示為自然圖像與其對應(yīng)手繪草圖的HOG 特征。
圖1 自然圖像與其對應(yīng)手繪草圖的梯度直方圖
HOG 特征獲取步驟如下:
(1)圖像灰度化。
(2)圖像歸一化。通常使用gamma 校正法,可以有效降低圖像局部的陰影和光照變化所造成的影響,以及抑制噪聲的干擾,歸一化計算公式如(1)所示。
其中,gamma 通常取值為0.5。
(3)計算圖像中每個像素的梯度。對每個像素的梯度大小和方向進(jìn)行計算。計算公式如(2)和(3)所示。
其中,Gx(x,y)、Gy(x,y)分別表示水平方向梯度和垂直方向梯度。
(4)統(tǒng)計每個胞元(cell)的梯度方向直方圖。將檢測窗口(block)劃分為多個cell,每個cell 的360°梯度方向平均分成若干個方向塊(bin),對cell 內(nèi)每個像素沿著梯度方向在直方圖上加權(quán)投影,計算出每個cell 的梯度方向直方圖。
(5)生成block 特征描述符。將若干個cell 合并成一個block,并將block 內(nèi)所有cell 的梯度方向直方圖進(jìn)行歸一化串聯(lián)處理,生成該block 的特征描述符。
(6)生成HOG 特征描述符。將目標(biāo)圖像作為滑動窗在檢測窗口進(jìn)行掃描,滑動步長為一個cell,則一個cell 的特征會出現(xiàn)在若干block 中。最后將檢測窗口所有block 特征描述符串聯(lián)處理得到該圖像的HOG 特征描述符。
不同于手工特征需要層層設(shè)計,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)提取的深度特征[12]能夠根據(jù)特定的任務(wù)自動對手繪草圖與自然圖像分別進(jìn)行高、中、低多層次的深度特征學(xué)習(xí),并且網(wǎng)絡(luò)的深度和廣度可根據(jù)需要調(diào)整。典型CNN結(jié)構(gòu)主要由輸入層、卷積層、池化層、激活層、全連接層及輸出層構(gòu)成,其提取的深度特征可分為深度卷積特征和深度全局特征兩類。如圖2 所示,深度卷積特征提取自卷積層,傾向于圖像的細(xì)節(jié)與結(jié)構(gòu)信息。深度全局特征從全連接層提取,以向量化形式呈現(xiàn),便于后續(xù)相似度計算處理,同時其特征包含了更高層次的語義信息。因此,鑒于草圖-圖像檢索更傾向于語義層面對比,所以本文選取基于全連接層的深度全局特征作為草圖、圖像的特征表示。
圖2 深度特征提取示意圖
當(dāng)前,常見的特征融合方式有串聯(lián)融合和權(quán)重融合[13]。下面以兩個特征向量feature1=(x1,x2,…,xn)和feature2=(y1,y2,…,yn)為例進(jìn)行詳細(xì)描述:
(1)串聯(lián)融合,就是將兩個不同的特征向量串聯(lián)起來,得到新的特征表示。如公式(4)所示:
(2)權(quán)重融合,就是將兩個不同的特征向量按照一定的比例進(jìn)行融合,得到新的特征表示。如公式(5)所示:
其中,p1與p2分別表示兩個特征向量對應(yīng)的權(quán)重系數(shù),和為1。當(dāng)兩個權(quán)重系數(shù)相等均為0.5 時,此時為均值融合,均值融合可以看成是權(quán)重融合的特例。
傳統(tǒng)手工特征具有明確的設(shè)計目的,能夠有效刻畫圖像特定方面的信息,并且計算速度快;而基于神經(jīng)網(wǎng)絡(luò)的深度特征具有更好的語義信息,對圖像形變和旋轉(zhuǎn)不敏感。于是結(jié)合兩類特征的優(yōu)勢,同時考慮到手繪草圖線條輪廓簡單與語義較抽象的特點,采用基于AlexNet 的深度特征與傳統(tǒng)手工特征HOG 作為草圖、圖像的特征表示,提出一種基于全連接非線性特征融合的草圖-圖像檢索方法。該方法的主要思想是將兩種不同圖像特征作為輸入,經(jīng)過全連接層進(jìn)行非線性融合,得到最終的特征表示進(jìn)行草圖檢索。如圖3 所示為全連接非線性融合網(wǎng)絡(luò)模型。
根據(jù)圖3,基于全連接非線性的特征融合主要包含以下部分:
圖3 全連接非線性融合網(wǎng)絡(luò)模型
(1)自然圖像草圖化
由于手繪草圖與自然圖像之間存在巨大差異,使得檢索任務(wù)難以實現(xiàn),因此本文將數(shù)據(jù)集中自然圖像經(jīng)過Canny 邊緣提取,轉(zhuǎn)化為草圖形式,以此縮小草圖與自然圖像的域間差異。
(2)HOG 特征提取模塊
HOG 特征的提取涉及block 大小、cell 大小、bin 數(shù)目等參數(shù),而這些參數(shù)決定著HOG 的效果,所以如何調(diào)整相關(guān)參數(shù)以獲得較優(yōu)的HOG 特征是需要考慮的。于是本文利用支持向量機(Support Vector Machine,SVM)分類器,即libsvm 默認(rèn)參數(shù),對降維后的HOG 特征進(jìn)行分類。其中,降維采用經(jīng)典的主成分分析法(Principal Component Analysis,PCA)[14],通過分類結(jié)果調(diào)整HOG 參數(shù),最后經(jīng)過訓(xùn)練獲得較好的分類準(zhǔn)確率時停止,確定HOG 特征的相關(guān)參數(shù)。
(3)深度特征提取模塊
本文基于AlexNet 網(wǎng)絡(luò)提取深度特征,需要先對AlexNet 網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在草圖化的數(shù)據(jù)集上進(jìn)行多次迭代,使得網(wǎng)絡(luò)趨于收斂后,保存訓(xùn)練過程中最優(yōu)的網(wǎng)絡(luò)參數(shù)。最后獲取倒數(shù)第2 個全連接層輸出的向量作為圖像的深度特征。
(4)全連接融合模塊
全連接融合模塊融合HOG 降維特征和深度特征,該模塊由若干全連接層組成,實現(xiàn)不同類型特征的融合。
實驗數(shù)據(jù)集選用草圖檢索領(lǐng)域常用的兩個公 開 數(shù) 據(jù) 集Flickr15k[4]與TU-Berlin[1]。 其 中Flickr15k 數(shù)據(jù)集由Hu 等人構(gòu)建,是草圖檢索任務(wù)的常用數(shù)據(jù)集之一,包含33 個類別共10 244 張自然圖像。數(shù)據(jù)集中每個類別圖像的數(shù)量不一、大小不一,大部分尺寸約為1 000×1 000,并且各類別圖像的復(fù)雜程度也不盡相同。此外,該數(shù)據(jù)集的查詢草圖包含與之對應(yīng)的33 個類別,每類10 張。不同于Flickr15k 數(shù)據(jù)集,TU-Berlin 數(shù)據(jù)集為第一個大型草圖數(shù)據(jù)集,相對簡單。TU-Berlin 數(shù)據(jù)集涵蓋書桌、斑馬、手表、網(wǎng)球拍等在內(nèi)的總共250 個不同的常見物體的圖像類別,其中每類80 張尺寸均為1 111×1 111 的手繪草圖。圖4 給出了兩個數(shù)據(jù)集的部分圖像示例。
圖4 數(shù)據(jù)集部分圖像類別示例
在草圖檢索領(lǐng)域,常用的評價指標(biāo)有查準(zhǔn)率(Precision)、召回率(Recall)、平均檢索精度(mean Average Precision,mAP)等。一次檢索后,與待檢測圖像相似的圖像數(shù)量占檢測出圖像總數(shù)量的比值即為檢索準(zhǔn)確率,多次檢索準(zhǔn)確率的均值即為mAP;與待檢測圖像相似的圖像數(shù)量占該類別圖像數(shù)量的比值即為召回率。計算公式分別如(6)、(7)、(8)所示。
其中,Precision 表示檢索準(zhǔn)確率,TP 表示應(yīng)檢索的圖像數(shù)量,F(xiàn)N 表示不應(yīng)檢索的圖像數(shù)量,F(xiàn)P 表示錯檢測的圖像數(shù)量,n 表示檢索次數(shù)。
本文主要基于Flickr15k 數(shù)據(jù)集對HOG 特征、AlexNet 網(wǎng)絡(luò)模型和全連接融合模塊的參數(shù)進(jìn)行優(yōu)化,待得到優(yōu)化后的模型后,對Flickr15k 與TUBerlin 兩類數(shù)據(jù)進(jìn)行檢索實驗。整個實驗流程如下:
(1)自然圖像草圖化
采用Canny 算子對Flickr15k 數(shù)據(jù)集中的自然圖像進(jìn)行草圖化,其中本文Canny 算子參的高低閾值分別設(shè)置為150 和50。
(2)HOG 特征獲取
將Flickr15k 數(shù)據(jù)集中草圖化的自然圖像作為訓(xùn)練集,草圖作為測試集,分別提取出HOG 特征,利用PCA 降維到4096 維,通過SVM 分類器的分類結(jié)果調(diào)整HOG 參數(shù)。由于本文重點不是獲取最優(yōu)HOG 特征,因此在獲得有效的分類結(jié)果時即可停止,即在本文中,分類結(jié)果達(dá)到84.71%時停止,此時獲得HOG 參數(shù)為block(16,16)、cell(8,8)、bin 數(shù)目為9。
(3)深度特征獲取
基于原始的AlexNet 網(wǎng)絡(luò)模型,類似于流程(2),將Flickr15k 數(shù)據(jù)集中草圖化的自然圖像作為訓(xùn)練集,草圖作為測試集,訓(xùn)練和優(yōu)化AlexNet網(wǎng)絡(luò),如圖5 所示。在大約50 次迭代后網(wǎng)絡(luò)分類準(zhǔn)確率穩(wěn)定在90%以上;在大約150 次迭代后,訓(xùn)練損失穩(wěn)定在0.2 以下,網(wǎng)絡(luò)最終趨于收斂。本文將獲取倒數(shù)第2 個全連接層輸出的4096 維向量作為圖像的深度特征。
圖5 AlexNet 網(wǎng)絡(luò)訓(xùn)練過程
(4)全連接非線性融合
將HOG 降維特征和深度特征作為全連接融合模塊的輸入,該模塊由若干全連接層組成。本文為了簡化分析,全連接融合模塊分別設(shè)置為單層全連接層、兩層全連接層和三層全連接層,最后連接到分類層,以獲取分類結(jié)果,數(shù)據(jù)集類似于流程(2),優(yōu)化全連接融合模塊,將其獲得的輸出作為最終的圖像特征表示。
(5)相似性度量
利用余弦距離,計算出待檢索草圖與數(shù)據(jù)集中圖像的相似性大小,并按照從大到小的順序排序輸出,得到草圖檢索結(jié)果。
實驗一:基于不同全連接融合模塊的草圖檢索對比
首先設(shè)置不同的全連接融合模塊結(jié)構(gòu)進(jìn)行對比實驗,以mAP、recall 作為評價指標(biāo),找出最有的全連接模塊結(jié)構(gòu)。
設(shè)置單層全連接層、兩層全連接層和三層全連接層,記為FC1、FC2、FC3,作為三種不同的全連接融合模塊結(jié)構(gòu),每個全連接層的神經(jīng)元數(shù)量如表1所示,第一個全連接層輸入的神經(jīng)元數(shù)量為降維后的HOG 特征與深度特征的維度之和8192,經(jīng)過若干個全連接層最后連接到分類層。在不同的實驗數(shù)據(jù)集上全連接層神經(jīng)元數(shù)量通用。
表1 不同全連接層神經(jīng)元數(shù)量
其中,激活函數(shù)均選用ReLU 函數(shù),batch_size設(shè)置為32,epoch 為200,使用交叉熵?fù)p失函數(shù)。最后分類層神經(jīng)元數(shù)量根據(jù)數(shù)據(jù)集類別數(shù)設(shè)定,對于Flickr15k 數(shù)據(jù)集,分類層神經(jīng)元數(shù)目為33。圖6為不同全連接層融合模塊結(jié)構(gòu)圖。
圖6 不同全連接融合模塊結(jié)構(gòu)示意圖
在Flickr15k 和TU-Berlin 兩個公開數(shù)據(jù)集上來進(jìn)行草圖檢索,其中Flickr15k 數(shù)據(jù)的測試集為33 類×10 張草圖/類=330 張,如實驗流程(2)和(3)所述;TU-Berlin 數(shù)據(jù)的測試集為250 類×隨機選取10 張/類=2 500 張,首先計算基于不同全連接層融合特征得到的mAP 值,結(jié)果如表2 所示。
表2 不同全連接層融合特征的mAP 值
由表2 可知,在兩個數(shù)據(jù)集上,使用三個全連接層作為全連接融合模塊進(jìn)行特征融合,最終得到的草圖檢索的mAP 最高。
接著分別繪制出基于FC1、FC2、FC3 的召回率曲線,如圖7 所示。其中橫坐標(biāo)表示返回圖像數(shù)量number,縱坐標(biāo)表示召回率recall。由圖7 可知,F(xiàn)C3 方法進(jìn)行檢索時的曲線上升速度最快,F(xiàn)C2 次之,F(xiàn)C1 最慢。
圖7 不同全連接層融合特征的召回率曲線
結(jié)合表2 以及圖7 可知,使用三個全連接層進(jìn)行特征融合得到的結(jié)果對草圖的表征效果最好。默認(rèn)以下實驗中的全連接融合為基于三個全連接層融合特征的草圖檢索。
實驗二:基于單一特征與融合特征的草圖檢索對比
將基于HOG 特征的草圖檢索、基于AlexNet深度特征的草圖檢索與基于兩種特征全連接融合的草圖檢索作為對比實驗,分別記為HOG、AlexNet、HOG+AlexNet,在Flickr15k 和TU-Berlin數(shù)據(jù)集上的實驗結(jié)果如表3 所示。
表3 不同方法下草圖檢索的mAP 值
由表3 可知,在兩個數(shù)據(jù)集上,使用本文全連接特征融合方法進(jìn)行草圖檢索,得到的mAP 最高。
接著繪制出基于HOG、基于AlexNet、基于本文全連接融合的草圖檢索得到的召回率曲線,如圖8 所示。其中橫坐標(biāo)表示返回圖像數(shù)量,縱坐標(biāo)表示召回率。由圖8 可知,本文方法進(jìn)行檢索時的曲線上升速度最快。
圖8 單一特征與融合特征的召回率曲線
綜合表3 和圖8 可知,本文全連接特征融合的草圖檢索效果優(yōu)于單一特征提取的草圖檢索效果。
實驗三:基于不同特征融合方法的草圖檢索對比
為找出效果最好的特征融合方法,本文將HOG 特征作為傳統(tǒng)手工特征,與基于AlexNet 的深度特征分別進(jìn)行級聯(lián)融合、權(quán)重融合以及全連接融合共3 種融合方法作為對比,如圖9 所示為不同特征融合方法對比。
圖9 不同特征融合方法
在Flickr15k 和TU-Berlin 兩個公開數(shù)據(jù)集上來進(jìn)行草圖檢索,比較3 種方法得到的mAP 值,從而得出最優(yōu)的特征融合方法,結(jié)果如表4 所示。其中,通過設(shè)置不同比例進(jìn)行實驗,發(fā)現(xiàn)在HOG 特征與基于AlexNet 的深度特征以0.6 與0.4 的比例進(jìn)行融合時,得到的mAP 值最高。因此,在作為對比實驗的權(quán)重融合中,默認(rèn)選用兩者比例為0.6∶0.4。
表4 不同特征融合算法的mAP 值
由表4 可知,無論是Flickr15k 還是TUBerlin,在兩個數(shù)據(jù)集上采用基于全連接層的非線性融合方法進(jìn)行草圖檢索時,得到的mAP 均高于其他三種特征融合方法。
綜合以上實驗可知,本文基于全連接非線性融合的草圖檢索優(yōu)于單一特征的草圖檢索,優(yōu)于其他特征融合方法的草圖檢索,證實了本文方法的有效性。另外,圖10 給出了本文方法在Flickr15k 數(shù)據(jù)集上進(jìn)行草圖檢索的部分結(jié)果,其中紅色框標(biāo)記為錯誤的檢索結(jié)果,其錯誤的可能原因是數(shù)據(jù)集部分類別圖像數(shù)量過少,導(dǎo)致訓(xùn)練不充分;或是本文得到的無論是手工特征還是深度特征,均是基于草圖或草圖化的自然圖像,所以不同類型的對象其輪廓信息可能相似。
圖10 全連接融合在Flickr15k 上部分類別的檢索結(jié)果
本文嘗試一種新的特征融合方法,將傳統(tǒng)手工特征HOG 與基于AlexNet 的深度特征進(jìn)行全連接非線性融合,形成新的特征表示。該種方法綜合了傳統(tǒng)手工特征與深度特征的優(yōu)點,不僅能夠有效刻畫出圖像的邊緣輪廓信息,還能夠獲得更加接近語義層面的特征,并且通過基于全連接層的非線性融合,使得草圖檢索的性能得到了提高。與其他幾種典型特征融合方法,以及基于單一特征的草圖檢索方法進(jìn)行對比實驗,實驗結(jié)果表明本文特征融合方式得到的檢索結(jié)果最優(yōu)。
下一步工作主要分為兩部分:一是在圖像預(yù)處理階段如何將自然圖像草圖化,以縮小自然圖像與草圖的域間差異;二是進(jìn)一步考慮將不同類型特征分布信息融合到策略中,以提高不同特征互補性效果。