姬子恒,王 斌
(南京財經(jīng)大學(xué)信息工程學(xué)院,江蘇 南京210023)
基于內(nèi)容的圖像檢索技術(shù)CBIR(Content-Based Image Retrieval)[1 -3]是計算機視覺和圖像處理領(lǐng)域一個重要的研究方向,其任務(wù)是在圖像數(shù)據(jù)庫中檢索與用戶所提交樣本圖像在內(nèi)容上一致或相似的圖像,主要是通過對圖像底層特征的比較來實現(xiàn)。CBIR執(zhí)行的前提是需要用戶提供一幅自然圖像,以表達(dá)用戶的檢索意圖。但是,在實際應(yīng)用中,找到一幅準(zhǔn)確表達(dá)用戶檢索意圖的自然圖像并不容易,且在很多情況下,很難得到這樣的自然圖像,從而限制了用戶的個性語義表達(dá)。一個替代的方法是,用戶可以提供一幅自畫的草圖來表達(dá)其檢索意圖,因此基于草圖的圖像檢索技術(shù)應(yīng)運而生?;诓輬D的圖像檢索SBIR(Sketch Based Image Retrieval)是CBIR檢索形式的擴展,相較于CBIR,手繪草圖可更方便、更直接地表達(dá)用戶的檢索意圖。圖1a為使用百度CBIR識圖檢索系統(tǒng),用鴨子的自然圖像作為檢索圖像,返回的前4個圖像的檢索結(jié)果;圖1b為Pang等人[4]實現(xiàn)的SBIR檢索系統(tǒng),用鴨子草圖作為檢索圖像,返回的前4個圖像的檢索結(jié)果。從圖1可以看出,SBIR的檢索結(jié)果差強人意,對比兩者輸入圖像可獲取的信息,易看出SBIR更具有挑戰(zhàn)性。
Figure 1 Retrieval examples of CBIR retrieval system and SBIR retrieval system圖1 CBIR檢索系統(tǒng)和SBIR檢索系統(tǒng)的檢索例圖
草圖可以簡單分為專業(yè)素描與簡易草圖,在計算機中,專業(yè)素描往往以灰度圖像的形式表示,而簡易草圖為二值圖像[5],如圖2所示。在現(xiàn)實生活中,素描圖像通常由專業(yè)人員繪制而成,從應(yīng)用的角度來看,專業(yè)素描不具有普遍性,所以研究者們將研究集中于簡易草圖。草圖不同于圖像,圖像是由密集像素組成視覺對象的透視投影,而草圖是主觀和抽象的線條圖,它們包含非常少的目標(biāo)信息,但是卻有令人驚訝的直觀說明性。
Figure 2 Examples of professional sketches and simple sketches圖2 專業(yè)素描與簡易草圖示例
盡管草圖檢索取得了很大的進展,但是目前的研究仍然面臨著幾大問題:
(1)草圖-圖像的跨域差距。草圖與圖像為非同源數(shù)據(jù),處于不同的域空間,圖像是對物體的像素完美描繪,而草圖是高度抽象的線條集合。如何將兩者更好地進行特征匹配或嵌入空間映射,縮小兩者的跨域差距成為最關(guān)鍵的研究內(nèi)容。
(2)草圖多義性。由于繪畫能力和藝術(shù)表達(dá)方式因人而異,且草圖本身具有一定的模糊性,導(dǎo)致草圖會因用戶主觀意識被理解為不同的語義信息,即草圖存在大量的類間差異,如圖3所示。
(3)草圖檢索成本問題。隨著互聯(lián)網(wǎng)2.0時代的到來,用戶產(chǎn)生的內(nèi)容越來越多,數(shù)據(jù)增加為檢索系統(tǒng)帶來巨大的壓力。當(dāng)遇到大規(guī)模檢索情景時,系統(tǒng)輸入一幅手繪草圖需要與系統(tǒng)數(shù)據(jù)庫中大量的自然圖像進行特征相似性計算,如何以更高的效率獲得理想的結(jié)果也成為草圖檢索的一大問題。
(4)草圖數(shù)據(jù)集缺乏。與可以輕松訪問到百萬級數(shù)據(jù)集的照片(ImageNet、CIFAR等)相比,草圖研究可使用的公共數(shù)據(jù)集(Sketchy、TU-Berlin等)僅為亞萬級,數(shù)據(jù)缺乏成為研究進展緩慢的重要原因。
在傳統(tǒng)的草圖檢索研究[6 -13]中,草圖被看作是基于形狀輪廓的表達(dá),研究重點集中于如何利用幾何關(guān)系表達(dá)草圖特征。特征提取通常在針對草圖特別設(shè)計的特征描述符上(例如方向邊緣直方圖[14]、關(guān)鍵形狀學(xué)習(xí)[15]等二進制形狀特征描述符和梯度場[16]、尺度不變特征[17]等自然圖像特征描述符)進行邊緣提??;之后,將草圖與邊緣圖使用歐氏距離等方法進行相似度測量,通過相似度匹配對候選結(jié)果的輸出進行排序與檢索;最后完成圖像檢索,傳統(tǒng)的草圖檢索方法流程圖如圖4所示。但是,由于草圖本身具有的高度抽象性,生成的特征描述子對于草圖的內(nèi)容無法有效地擬合[18],因此不能滿足現(xiàn)實場景的使用。除此之外,使用傳統(tǒng)的草圖檢索方法無法實現(xiàn)端到端的檢索系統(tǒng),導(dǎo)致工作量大量提升。
Figure 4 Flowchart of traditional sketch retrieval method圖4 傳統(tǒng)的草圖檢索方法流程圖
Figure 5 Flowchart of sketch retrieval based on deep learning圖5 基于深度學(xué)習(xí)的草圖檢索流程
2012年在ImageNet圖像識別比賽中,Hinton課題組使用AlexNet網(wǎng)絡(luò)獲得冠軍,掀起了深度學(xué)習(xí)新浪潮。草圖檢索作為計算機視覺領(lǐng)域中的重要研究方向之一,使用卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)等深度學(xué)習(xí)技術(shù)已成為解決相關(guān)問題的主要方法。深度學(xué)習(xí)不同于傳統(tǒng)手工特征提取需要層層設(shè)計,其可以學(xué)習(xí)手繪草圖與自然圖像包括低、中、高不同層次的深度特征,并學(xué)習(xí)理解圖像中隱含的抽象語義信息,可以有效地捕捉人類感知。深度學(xué)習(xí)提取的深度特征更適合草圖的研究,彌補了傳統(tǒng)方法的不足,可實現(xiàn)端到端的檢索系統(tǒng),有效地提高了草圖檢索的性能。圖5給出了基于深度學(xué)習(xí)的草圖檢索流程。
近年來,雖然已有大量的研究工作將深度學(xué)習(xí)應(yīng)用于草圖檢索,但在國內(nèi)外還沒有發(fā)表過對該方面工作進行系統(tǒng)歸納和總結(jié)的綜述性文獻。本文聚焦于基于深度學(xué)習(xí)的草圖檢索方法,對現(xiàn)有的基于深度學(xué)習(xí)的草圖檢索方法進行綜述和評論,并對未來的相關(guān)問題的研究進行總結(jié)和展望。本文結(jié)構(gòu)安排如下:第2節(jié)介紹基于深度學(xué)習(xí)的SBIR常用模型;第3節(jié)介紹SBIR研究常用的公共數(shù)據(jù)集;第4節(jié)探討SBIR中粗粒度與細(xì)粒度檢索問題;第5節(jié)研究基于深度學(xué)習(xí)的SBIR的檢索效率;第6節(jié)討論用于SBIR的深度模型的泛化問題;第7節(jié)進行代表性方法的實驗比較研究;最后一節(jié)為結(jié)束語。
在圖像處理領(lǐng)域中,常用的深度學(xué)習(xí)特征提取模型包括單層網(wǎng)絡(luò)、孿生網(wǎng)絡(luò)(Siamese Network)、三重網(wǎng)絡(luò)(Triplet Network)和多層深度融合卷積神經(jīng)網(wǎng)絡(luò)等。SBIR研究不同于自然圖像相關(guān)研究,其數(shù)據(jù)包含自然圖像與手繪草圖2個部分,它們是處于2個不同領(lǐng)域的異質(zhì)數(shù)據(jù),致使研究重點不僅需要關(guān)注于圖像的語義、特征等內(nèi)容,還需解決跨域問題。
SBIR研究初期,孿生網(wǎng)絡(luò)為研究者們常用的網(wǎng)絡(luò)模型,其可以實現(xiàn)異質(zhì)數(shù)據(jù)在不同網(wǎng)絡(luò)同步輸入并完成數(shù)據(jù)在嵌入空間的映射。之后,Bui等人[19]通過實驗發(fā)現(xiàn),三重網(wǎng)絡(luò)可以更好地捕獲實例間的細(xì)微差異,適用于SBIR的研究,由此三重網(wǎng)絡(luò)模型成為SBIR研究中最常使用的結(jié)構(gòu)。本節(jié)選取具有代表性的孿生網(wǎng)絡(luò)與三重網(wǎng)絡(luò)進行介紹。
Figure 6 Siamese network structure 圖6 孿生網(wǎng)絡(luò)結(jié)構(gòu)圖
孿生網(wǎng)絡(luò)是由Hadsell等人[20]提出的。在SBIR研究中,孿生網(wǎng)絡(luò)作為模型框架,如圖6所示,將手繪草圖與自然圖像作為模型的輸入,通過深度網(wǎng)絡(luò)學(xué)習(xí),拉近標(biāo)記為相似的草圖-圖像對在特征向量空間中的距離,而加大標(biāo)記為不相似的草圖-圖像對在特征向量空間中的距離。使用類別標(biāo)簽Y={0,1}建立三元組(S,I,Y),其中S和I分別為輸入草圖與圖像,當(dāng)Y=1時,表示輸入草圖-圖像對類別相同;相反,當(dāng)Y=0時,表示類別不同。對比損失函數(shù)公式(Contrastive Loss)[20]如式(1)所示:
(1)
一般情況下,孿生網(wǎng)絡(luò)中2個分支使用相同的CNN模型,例如AlexNet、Sketch-A-Nett和VGGNet等。近來,也有工作將不同的CNN網(wǎng)絡(luò)相結(jié)合,實現(xiàn)描述草圖特征的不變嵌入[19,21,22]。
三重網(wǎng)絡(luò)模型曾應(yīng)用于人臉識別以及跨域問題,包括3D姿勢估計(圖像與姿勢空間的映射)和場景描述(圖像和自然語言空間的映射)。Bui等人[19]在草圖檢索問題中首次嘗試使用三重網(wǎng)絡(luò),檢索精度取得了顯著的提升。在之后的研究中,三重網(wǎng)絡(luò)成為最常用的模型框架。三重網(wǎng)絡(luò)通常使用3個相同深度網(wǎng)絡(luò)模型的分支,每個分支輸入的數(shù)據(jù)不同,第1分支又被稱為錨分支,輸入數(shù)據(jù)為手繪草圖;第2分支輸入與輸入草圖類別相同的自然圖像,稱為正圖像;第3分支則輸入與輸入草圖類別不同的自然圖像,稱為負(fù)圖像。三重?fù)p失函數(shù)負(fù)責(zé)指導(dǎo)訓(xùn)練階段。實驗表明,與孿生網(wǎng)絡(luò)相比,三重網(wǎng)絡(luò)可以更好地捕獲實例間的細(xì)微差異。圖7展示了三重網(wǎng)絡(luò)模型框架。
Figure 7 Triplet network structure 圖7 三重網(wǎng)絡(luò)模型
三重網(wǎng)絡(luò)的目的是將同一類別的草圖與正圖像之間的距離最小化,并將草圖與負(fù)圖像之間的距離最大化,通過這樣的方法增大類間距離,使輸入檢索草圖時可以在空間中獲得更好的映射。三重網(wǎng)絡(luò)給定一個三元組t(S,p+,p-),S、p+和p-分別為輸入草圖、正圖像和負(fù)圖像,其對應(yīng)的三元組損失函數(shù)[23]如式(2)所示:
Lθ(t(S,p+,p-))=
max(0,m+Fθ(S,p+)-Fθ(S,p-))
(2)
其中,m為正查詢距離和負(fù)查詢距離之間的邊距,如果草圖與正圖像之間的距離和草圖與負(fù)圖像之間的距離小于間距m,則該三元組不會受到處罰。Fθ為測量特征向量距離的方法(實值計算時常用歐氏距離,二進制編碼時常用漢明距離)。
手繪草圖公共數(shù)據(jù)集在SBIR研究中起著重要的作用。手繪草圖數(shù)據(jù)的收集不同于自然圖像,不僅有數(shù)量要求,還需要在數(shù)據(jù)集中保留草圖的抽象性、模糊性和多樣性,所以同一個實例物體需要不同的人進行繪制。本節(jié)主要介紹現(xiàn)有的常用手繪草圖公共數(shù)據(jù)集。
TU-Berlin數(shù)據(jù)集是由Eitz等人[24]建立的,覆蓋250個物體類別,每個類別80幅,一共包含20 000幅草圖。圖8為TU-Berlin數(shù)據(jù)集部分示例圖。該數(shù)據(jù)集擁有“時序”屬性,因此除了用于粗粒度檢索之外,還可用于人類使用草圖來描述物體的過程研究。使用TU-Berlin需要配合與草圖類別相對應(yīng)的自然圖像,所以往往與Liu等人[25]提供的擴展自然圖像數(shù)據(jù)集TU-Berlin Extended相結(jié)合使用。該擴展數(shù)據(jù)集與TU-Berlin中草圖類別相對應(yīng),其中包含204 489幅自然圖像。數(shù)據(jù)集來源:http:∥cybertron.cg.tuberlin.de/-eitz/projects/classifysketch/。
Figure 8 Part images in the TU-Berlin dataset圖8 TU-Berlin數(shù)據(jù)集圖像部分示例
Sketchy數(shù)據(jù)集是由Sangkloy等人[26]建立的,該數(shù)據(jù)集中所有手繪草圖通過眾包方式收集,并要求參與者通過直觀回憶參考圖像的方式進行繪畫,這樣保證了草圖本身的直觀性與抽象性。除此之外,該數(shù)據(jù)集在每一幅手繪草圖中添加Sketchablity屬性,以此完成人工標(biāo)注工作,表明該手繪草圖在繪制時的難易程度[18],為用戶提供了特定照片和草圖之間的細(xì)粒度關(guān)聯(lián)。Sketchy包含12 500件物品的自然圖像,對應(yīng)75 471幅手繪草圖,每幅圖像大約對應(yīng)6幅草圖,種類也多達(dá)125種。圖9為 Sketchy Extended數(shù)據(jù)集部分示例圖。Liu等人[25]用來自ImageNet的60 502幅圖像擴充了Sketchy數(shù)據(jù)集。對于深度學(xué)習(xí)草圖檢索研究,Sketchy Extended也是驗證模型有效性的數(shù)據(jù)集。數(shù)據(jù)集來源:http:∥sketchy.eye-gatech.edu/。
Figure 9 Part images in the Sketchy Extended dataset圖9 Sketchy Extended數(shù)據(jù)集圖像部分示例
QMUL數(shù)據(jù)集的建立是為了進行細(xì)粒度檢索的研究,其包含2個對象種類(椅子和鞋子),分為QMUL Chair-V2和QMUL Shoe-V2[27]。為了凸顯出椅子和鞋子的類內(nèi)區(qū)別,他們將2大類物品進行細(xì)致的小類別劃分,數(shù)據(jù)集中數(shù)據(jù)皆以草圖-圖像對的形式存在,其中自然圖像是從購物網(wǎng)絡(luò)平臺上獲得的。QMUL Shoe-V2數(shù)據(jù)集是最大的單類細(xì)粒度草圖檢索FG-SBIR(Fine-Grained Sketch-Based Image Retrieval)數(shù)據(jù)集含有1 800個訓(xùn)練草圖-圖像對和200個測試草圖-圖像對。QMUL Chair-V2含有200個訓(xùn)練草圖-圖像對和97個測試草圖-圖像對。圖10為QMUL Chair-V2和QMUL Shoe-V2數(shù)據(jù)集部分示例圖。數(shù)據(jù)集來源:http:∥sketchx.eecs.qmul.ac.uk/downloads/。
Figure 10 Part images in QMUL Chair-V2 and QMUL Shoe-V2 datasets圖10 QMUL Chair-V2和QMUL Shoe-V2數(shù)據(jù)集圖像部分示例
QuickDraw Extended是由Dey等人[28]建立的,他們通過從QuickDraw中篩選出合適的草圖,并根據(jù)其草圖類型與自然圖像進行了匹配,主要為了解決草圖數(shù)據(jù)集數(shù)量不足的問題。該數(shù)據(jù)集橫跨110種類別,每個類別包含3 000幅草圖,總計330 000幅草圖和204 000幅自然圖像。圖11為QuickDraw Extended數(shù)據(jù)集部分示例圖。數(shù)據(jù)集來源:https:∥githu-b.com/googlecreativelab/quickdraw-dataset。
Figure 11 Part images in the QuickDraw Extended dataset圖11 QuickDraw Extended數(shù)據(jù)集圖像部分示例
深度學(xué)習(xí)技術(shù)需要大量數(shù)據(jù)作為輸入,至今為止,手繪草圖數(shù)據(jù)集仍然缺乏,在一定程度上阻礙了SBIR技術(shù)的進一步發(fā)展。以上介紹的數(shù)據(jù)集為草圖檢索研究過程中最常用的手繪草圖數(shù)據(jù)集,根據(jù)每個數(shù)據(jù)集的特性,不同的數(shù)據(jù)集可用于不同方向的草圖檢索研究。草圖檢索技術(shù)大致可分為粗粒度檢索與細(xì)粒度檢索,需要進行細(xì)粒度檢索相關(guān)研究時,研究人員需要大量的不同類別草圖與其對應(yīng)的自然圖像,所以常常使用TU-Berlin和Sketchy這2個數(shù)據(jù)集;而在進行細(xì)粒度檢索時更加關(guān)注的是一個較大類別中的不同分類,QMUL Chair-V2、QMUL Shoe-V2和Sketchy更加合適。從深度網(wǎng)絡(luò)模型的角度來看,粗粒度數(shù)據(jù)集可以更好地反映出模型針對空間分布的高維特征映射能力,而細(xì)粒度偏向于學(xué)習(xí)數(shù)據(jù)中細(xì)節(jié)特征與語義特征,更有利于類內(nèi)目標(biāo)的檢索。表1對以上公共數(shù)據(jù)集進行了對比與總結(jié)。
粗粒度檢索與細(xì)粒度檢索是草圖檢索領(lǐng)域的2類問題。粗粒度檢索側(cè)重于類間差異,旨在檢索與查詢草圖共享相同類別標(biāo)簽的自然圖像。為了充分表達(dá)草圖的類間差異特征描述,CNN學(xué)習(xí)過程應(yīng)專注于草圖的全局特征和高級語義特征。細(xì)粒度檢索FG-SBIR又稱為實例級(instance-level)檢索,而細(xì)粒度檢索除了保留類別級的一致性外,還旨在保留類內(nèi)實例級別的一致性,即只有檢索結(jié)果為與輸入草圖唯一對應(yīng)的實例圖像才可判定為一次成功的檢索。深度學(xué)習(xí)應(yīng)用于粗粒度草圖檢索已有大量的研究工作,算法的檢索性能提升很快,而近來,有研究將深度學(xué)習(xí)應(yīng)用于更具挑戰(zhàn)性的細(xì)粒度草圖檢索問題,取得了一些進展。本節(jié)對這2類研究工作進行綜述和總結(jié)。
粗粒度檢索研究中使用的深度網(wǎng)絡(luò)模型,大多以孿生網(wǎng)絡(luò)或三重網(wǎng)絡(luò)為基礎(chǔ),根據(jù)研究重點的不同(例如域?qū)R、語義保留等問題),提出合適的變形結(jié)構(gòu)(例如孿生同構(gòu)網(wǎng)絡(luò)、三重異構(gòu)網(wǎng)絡(luò)等)。Qi等人[29 -32]首次將孿生網(wǎng)絡(luò)應(yīng)用于粗粒度SBIR問題中,提出了針對草圖特性的CNN網(wǎng)絡(luò)結(jié)構(gòu),如圖6所示。實驗中使用以類Sketch-A-Net[30]為基礎(chǔ)網(wǎng)絡(luò)的同構(gòu)孿生網(wǎng)絡(luò)。與傳統(tǒng)的手工提取特征方法相比,Qi等人[29]從全新的視角解決域移位問題,通過CNN學(xué)習(xí)對比損失函數(shù)引導(dǎo)模型訓(xùn)練。雖然實驗結(jié)果與傳統(tǒng)方法相比平均精度均值mAP(mean Average Precision)僅提升了1%,但是深度學(xué)習(xí)的引入突破了傳統(tǒng)方法的束縛。
Bui等人[19]將三重網(wǎng)絡(luò)應(yīng)用于粗粒度草圖檢索,提出并比較了幾種三重異構(gòu)CNN網(wǎng)絡(luò)。在錨分支與另外2個分支之間,通過使用不同的權(quán)重分享策略(權(quán)重?zé)o分享、權(quán)重半分享和權(quán)重全分享)進行對比實驗,結(jié)果表明使用權(quán)重半分享策略的網(wǎng)絡(luò)有更好的類別概括能力,其mAP值比Qi等人提出的孿生網(wǎng)絡(luò)mAP值提升超過18%。
Table 1 Commonly used SBIR public datasets表1 常用SBIR公共數(shù)據(jù)集
Lei等人[31]在ImageNet數(shù)據(jù)集上使用VGG-19網(wǎng)絡(luò)訓(xùn)練得到的預(yù)訓(xùn)練模型,解決了深度網(wǎng)絡(luò)需要大量數(shù)據(jù)訓(xùn)練的問題,并使用Candy算子提取自然圖像邊緣輪廓,相比于其他邊緣提取算法可以保留更多的紋理細(xì)節(jié),使網(wǎng)絡(luò)在學(xué)習(xí)過程中獲得更多的語義信息。
Yu等人[33]將多步驟草圖繪畫概念引入SBIR問題,文中結(jié)合手繪草圖的時序信息,將手繪草圖與圖像邊緣圖按繪畫順序分解為3部分視覺表示層,這些視覺表示層在同一層中彼此對應(yīng)。根據(jù)多層視覺表示層相應(yīng)地提出了多層深度融合卷積網(wǎng)絡(luò),基于多層視覺表示,將草圖和二進制邊緣圖饋入多通道多尺度的深層CNN中,以提取不同層中的唯一特征表達(dá),然后將3層特征融合為最終的精確特征以代表草圖或圖像,多層融合網(wǎng)絡(luò)結(jié)構(gòu)如圖12所示。雖然將特征表達(dá)擴展到多層可以將草圖的更多抽象和語義信息以及圖像的二進制邊緣圖用于相似度計算,但使用多步驟訓(xùn)練存在新增筆劃信息是否有效的問題,如果所增加筆劃為無效信息,則會成為噪聲,導(dǎo)致最終得到的融合特征并非最佳特征表示。
Figure 12 Multi-layer converged network structure圖12 多層融合網(wǎng)絡(luò)結(jié)構(gòu)
Song等人[21]為了更好地解決草圖域和圖像域映射到公共空間域的問題,提出一種具有形狀回歸的邊緣引導(dǎo)跨域?qū)W習(xí)方法,使用邊緣引導(dǎo)模塊融合經(jīng)過級聯(lián)操作的自然圖像和相應(yīng)的邊緣圖,有效引導(dǎo)自然圖像特征提取域?qū)R過程,并使用形狀回歸模塊探索草圖與圖像之間的形狀相似性,從而縮小不同域的特征表示差異。
Bui等人[19]的研究表明,對于具有挑戰(zhàn)性的草圖數(shù)據(jù)集(如Sketchy、Flickr15k等),用邊緣圖代替圖像將對檢測準(zhǔn)確性產(chǎn)生負(fù)面影響。雖然利用邊緣檢測算子提取出圖像邊緣圖,完成圖像域向草圖域的近似轉(zhuǎn)化,以減少域差,但是邊緣圖中存在不可避免的噪聲,而且使自然圖像只保留邊緣輪廓與空間分布信息,而丟失了大量的高維語義信息,導(dǎo)致CNN網(wǎng)絡(luò)未能發(fā)揮出其學(xué)習(xí)圖像高維特征的優(yōu)勢。使用自然圖像作為CNN輸入源更有利于語義特征的提取和域差的減少,為之后的研究提供了指導(dǎo)。表2列出了5種代表性的深度草圖粗粒度檢索方法,給出了它們所用的基礎(chǔ)網(wǎng)絡(luò)、模型結(jié)構(gòu)、使用方法、損失函數(shù)、測試數(shù)據(jù)集和檢索精度,以資對比。
從表2可以看出,使用三重網(wǎng)絡(luò)模型[19,33,21]比使用孿生網(wǎng)絡(luò)模型[29,31]的檢索精度更高。從使用的損失函數(shù)角度來看,僅使用對比損失或三元組損失引導(dǎo)模型訓(xùn)練的實驗結(jié)果不理想,這歸因于通過損失函數(shù)引導(dǎo)的訓(xùn)練結(jié)果在特征空間中不同類別所對應(yīng)的特征向量分布較為分散,共享同類標(biāo)簽的特征向量未能得到較好的內(nèi)聚性。
相較于粗粒度檢索,細(xì)粒度檢索是一項更富有挑戰(zhàn)性的任務(wù):(1)視覺特征不僅需要細(xì)粒度,而且還需要跨域執(zhí)行;(2)手繪草圖高度抽象,使得細(xì)粒度匹配更加困難;(3)更為重要的是,訓(xùn)練所需帶注釋的跨域草圖-圖像對數(shù)據(jù)集稀少,使得許多深度學(xué)習(xí)方法面臨巨大挑戰(zhàn)。因此,相關(guān)研究者將研究重點集中于如何利用高維特征與更有效的局部信息實現(xiàn)跨模態(tài)匹配。本節(jié)將對細(xì)粒度檢索研究中具有代表性的工作進行歸納總結(jié)。
Table 2 Five representative coarse-grained retrieval methods for sketches with deep learning表2 5種代表性的深度草圖粗粒度檢索方法
Yu等人[27]首次將深度學(xué)習(xí)引入細(xì)粒度檢索問題中,他們在類別級檢索模型基礎(chǔ)上構(gòu)建具有三元組排名損失的遷移模型,該模型通過分階段預(yù)訓(xùn)練策略緩解細(xì)粒度數(shù)據(jù)不足的問題。在數(shù)據(jù)處理方面,文中將邊緣圖和草圖組合成映射對,提高CNN網(wǎng)絡(luò)在特征提取過程中空間映射的有效性,但使用的網(wǎng)絡(luò)模型過于依賴數(shù)據(jù)集的信息標(biāo)注,這樣的工作將花費大量的勞動成本。Sangkloy等人[26]提供了Sketchy數(shù)據(jù)集,并在CNN網(wǎng)絡(luò)中加入嵌入損失與分類損失,新數(shù)據(jù)集的提出為細(xì)粒度檢索研究開辟了新的發(fā)展空間。
Zhang等人[22]使用異構(gòu)網(wǎng)絡(luò)(網(wǎng)絡(luò)分支的網(wǎng)絡(luò)結(jié)構(gòu)或網(wǎng)絡(luò)參數(shù)不同)的變體實現(xiàn)端到端的圖像檢索,以減少邊緣圖提取在高維特征提取過程中造成的圖像信息丟失,結(jié)合對比損失與三元組排名損失進行逐步訓(xùn)練。在他們的研究中,將Tu-Berlin、ImageNet subset、Sketchy和QMUL Chair-V2分別用于訓(xùn)練或微調(diào),這樣的做法不利于語義信息在特征空間中的保存。
Song等人[34]引入對視覺細(xì)節(jié)的空間位置敏感的注意力模塊來實現(xiàn)空間感知,并添加連接融合塊將粗粒度語義信息與細(xì)粒度語義信息進行融合。Song等人[34]提出的深層空間注意力FG-SBIR模型在CNN的每個分支中添加注意力模塊,用于表示學(xué)習(xí)的計算集中于特定的可辨別局部區(qū)域,而不是均勻分布在整體視圖表示上。雖然CNN特征輸出中包含細(xì)粒度信息,可以基于細(xì)微的細(xì)節(jié)進行區(qū)分,但是2個分支之間的特征未對齊,以及每個細(xì)粒度特征的語義感知信息較少而導(dǎo)致特征噪聲更大。常用的對比損失或三元組排名損失通常使用基于歐氏距離的能量函數(shù),該函數(shù)依賴于逐元素距離的計算,導(dǎo)致對錯位十分敏感。因此,使用這2種損失函數(shù)建立于特征向量完全按元素對齊的假設(shè)之上,這與現(xiàn)實情況不符。為了解決這些問題,文獻[34]提出了一種基于高階可學(xué)習(xí)能量函數(shù)HOLEF(Higher-Order Learnable Energy Function)的損耗,其基于一對輸入向量,通過向量之間加權(quán)外部減法形成的三重態(tài)損失的二階距離函數(shù)。使用此能量函數(shù),在比較草圖和圖像時,將計算2個特征向量之間的外部減法,從而詳盡地測量2個域之間的逐元素特征差。雖然該實驗檢索精度有所提升,但是檢索時間增加了一倍,效率大大降低。
Pang等人[4]認(rèn)為在訓(xùn)練數(shù)據(jù)有限且僅關(guān)注區(qū)分性損失的情況下,僅學(xué)習(xí)2個域嵌入共同空間模型難以捕獲所有域不變信息,無法有效地推廣到與訓(xùn)練數(shù)據(jù)不同的測試域,導(dǎo)致訓(xùn)練域與測試域之間的差異和失準(zhǔn)。為此,作者引入跨域圖像合成的生成任務(wù),提出了一種新的判別-生成混合模型,該模型將強制被學(xué)習(xí)的嵌入空間保留對跨域重構(gòu)有用的域不變信息,從而顯著減小異域間隙。Xu等人[35]探索了SBIR中的跨模式檢索方法的有效性,使用概率方法對聯(lián)合多模態(tài)數(shù)據(jù)分布進行建模,學(xué)習(xí)多模態(tài)相關(guān)性,利用子空間學(xué)習(xí)構(gòu)造公共子空間并將多模態(tài)數(shù)據(jù)映射到其中,以進行跨模態(tài)匹配。實驗表明子空間學(xué)習(xí)可以有效地對草圖-圖像域間隙進行建模。表3列出了7種代表性的深度草圖細(xì)粒度檢索方法,給出了它們所用的基礎(chǔ)網(wǎng)絡(luò)、模型結(jié)構(gòu)、使用方法、損失函數(shù)、測試數(shù)據(jù)集和檢索精度,以資對比。
草圖檢索研究除了需要解決減少草圖與圖像之間的域差,提高檢索精度之外,還需解決大規(guī)模檢索的效率問題[38-41]。隨著數(shù)據(jù)規(guī)模的不斷增大,使用距離算法計算相似度排名會花費巨大的存儲空間和檢索時間成本。哈希技術(shù)[42 -46]將圖像的高維特征映射到二值空間,用低維哈希序列來表征圖像,降低了檢索算法對計算機內(nèi)存空間的要求,提高了檢索速度。傳統(tǒng)的哈希編碼方法主要是利用手工提取的特征作為圖像表示,并通過不同的投影與量化方法(例如矢量迭代量化方法ITQ(ITerative Quantization)[39]、譜哈希方法SH(Spectral Hashing)[40]、核哈希[47]等)學(xué)習(xí)哈希碼。近年來,深度哈希技術(shù)引起了計算機視覺研究者們的關(guān)注,其通過網(wǎng)絡(luò)模型學(xué)習(xí)草圖特征向量,之后將特征向量通過完全連接層且使用Sigmoid函數(shù)作為激活函數(shù),并設(shè)定神經(jīng)元的數(shù)量,即最終想獲得的哈希碼長度。與傳統(tǒng)方法相比,跨域深度哈希(Cross Domain Deep Hashing)[48,49]編碼能夠更好地保留語義信息,同時以低計算量映射大規(guī)模異構(gòu)數(shù)據(jù),實現(xiàn)更優(yōu)質(zhì)的檢索性能。與此同時,深度哈希檢索也帶了更大的挑戰(zhàn):(1)需要更緊湊的二進制編碼實現(xiàn)有效的大規(guī)模檢索;(2)需要使特征更具區(qū)分度來緩解由于數(shù)據(jù)高度抽象帶來的劇烈變化。
Table 3 Seven representative fine-grained retrieval methods for sketches with deep learning表3 7種代表性的深度草圖細(xì)粒度檢索方法
采用深度哈希技術(shù)的模型的目標(biāo)函數(shù)主要由3部分組成:(1)跨域交叉熵?fù)p失:為了將同一類別的草圖與自然圖像的二進制編碼拉近;(2)語義分解損失:為了保持類別之間的二進制編碼語義關(guān)系;(3)量化損失。總的損失函數(shù)[25]定義如式(3)所示:
s.t.BI∈{-1,1}m×n1,BS∈{-1,1}m×n2
(3)
其中,λ、γ為超參數(shù),BI、BS分別為自然圖像與草圖的二進制編碼,W為跨域相似性矩陣,φ(TI)、φ(TS)分別為圖像與草圖的類別詞向量嵌入,D為共享的語義嵌入,ωI、ωS分別為自然圖像與草圖的特征矩陣,F(xiàn)I(ωI)、FS(ωS)分別為用于圖像與草圖的CNN網(wǎng)絡(luò)。
Liu等人[25]首次將深度哈希方法用于草圖檢索問題中,提出了新的二進制編碼方法——深度草圖哈希DSH(Deep Sketch Hashing),使用一種半異構(gòu)深度網(wǎng)絡(luò)并將其結(jié)合到端到端二進制編碼框架中。在DSH學(xué)習(xí)過程中對草圖輔助信息進行編碼,有效地減輕草圖-圖像之間的幾何失真,并捕獲到交叉視圖的相似性以及不同類別之間固有的語義相似性,但二值化過程引入的量化誤差會破壞域不變信息和跨域的語義一致性。Zhang等人[50]提出生成域遷移哈希方法,該方法使用對抗生成網(wǎng)絡(luò)GANs(Generative Adversarial Nets)[51]將草圖遷移到自然圖像中增強泛化能力。在提出的學(xué)習(xí)框架中使用對抗損失與循環(huán)一致性損失共同優(yōu)化了循環(huán)一致性遷移和哈希編碼,還在其中加入了注意力模塊,指導(dǎo)模型學(xué)習(xí)最具代表性的區(qū)域。表4列出了2種代表性的草圖檢索深度哈希方法,給出了它們所用的基礎(chǔ)網(wǎng)絡(luò)、模型結(jié)構(gòu)、使用方法、損失函數(shù)、測試數(shù)據(jù)集和檢索精度,以資對比。
Table 4 Two representative sketch retrieval deep hashing methods表4 2種代表性的草圖檢索深度哈希方法
所謂類別泛化,即通過特征提取模型,將訓(xùn)練過程中的可見數(shù)據(jù)與語義標(biāo)簽等輔助信息(例如詞向量、屬性向量)相結(jié)合,利用特征映射空間的語義信息“推理”出未見數(shù)據(jù)類別,從而完成圖像檢索任務(wù)。現(xiàn)在的大多數(shù)草圖研究方法無法將已訓(xùn)練的類別高維特征映射到未訓(xùn)練類別的特征空間中,完成未訓(xùn)練類別的草圖檢索,由此衍生出SBIR研究的新課題——SBIR類別泛化。在現(xiàn)實生活中,檢索系統(tǒng)訓(xùn)練數(shù)據(jù)無法涵蓋數(shù)據(jù)庫中潛在檢索查詢和候選對象的所有概念,所以草圖檢索的類別泛化成為亟需解決的新問題。
Bui等人[52]利用三元組損失網(wǎng)絡(luò)提出了一種SBIR的有效表示,利用孿生卷積神經(jīng)網(wǎng)絡(luò)SCNN(Siamese Convolutional Neural Network)實現(xiàn)了描述不變嵌入來提高檢索可見數(shù)據(jù)以外的能力,并且提出一種緊湊圖像描述符實現(xiàn)在資源有限的移動設(shè)備上完成對數(shù)據(jù)集的有效檢索。之后Bui等人[36]又提出一種同時具有對比損失與三元組損失的混合多級訓(xùn)練網(wǎng)絡(luò),使用該網(wǎng)絡(luò)進行多階段回歸對數(shù)百個對象類別進行泛化。階段1將訓(xùn)練網(wǎng)絡(luò)每個分支設(shè)定為共享權(quán)重層,學(xué)習(xí)對應(yīng)域中獨有的特征;階段2通過比較2個域中的低維特征來學(xué)習(xí)2個域中的共同特征;階段3使用三元組損失對整個網(wǎng)絡(luò)進行調(diào)整與完善,也進一步提高準(zhǔn)確性。但是,他們僅對未訓(xùn)練類別泛化分析進行研究,并未進行具體實驗。之后一段時間內(nèi),草圖檢索泛化問題沒有取得大的突破。
2018年由Yelamarthi等人[53]首次將零次學(xué)習(xí)ZSL(Zero-Shot Learning)[54 -62]引入草圖檢索問題中,在此之前,大多數(shù)零次學(xué)習(xí)方法應(yīng)用于自然圖像處理領(lǐng)域,該類方法建立于一個假設(shè)之上:測試數(shù)據(jù)集分為可見數(shù)據(jù)與不可見數(shù)據(jù),其共享語義空間且在語義嵌入空間中進行域?qū)R操作[56]。通過將可見數(shù)據(jù)與跨域遷移的語義知識映射到共享的語義空間中,根據(jù)可見數(shù)據(jù)訓(xùn)練學(xué)習(xí)到的嵌入屬性完成對不可見數(shù)據(jù)的檢索。零次學(xué)習(xí)的挑戰(zhàn)性在于如何通過共享空間中的語義信息完成域?qū)R,從而實現(xiàn)不可見數(shù)據(jù)分類。隨著新事物的不斷增加,使用零次學(xué)習(xí)提高泛化能力成為必然趨勢。圖13所示為零次學(xué)習(xí)示意圖。
Figure 13 Schematic diagram of zero-shot learning圖13 零次學(xué)習(xí)示意圖
Yelamarthi等人[53]提出了ZS-SBIR的新基準(zhǔn),以VGGNet為基礎(chǔ)網(wǎng)絡(luò),為草圖檢索問題設(shè)計了條件變體自動編碼器框架CVAE(Conditional Variational AutoEncode)和對抗自動編碼器框架CAAE(Conditional Adversarial AutoEncode),如圖14所示。本質(zhì)上,文中模型將草圖特征向量作為輸入,使用生成模型隨機填充缺失的信息,從而生成更多可能的圖像向量,利用這些生成的圖像特征向量從數(shù)據(jù)庫中檢索圖像。在Yelamarthi等人的實驗中,將草圖與圖像數(shù)據(jù)全部作為輸入,而在泛化問題中,圖像和草圖并非所有的區(qū)域都可為跨模態(tài)映射提供關(guān)鍵的有效信息。
Figure 14 Architecture of CVAE and CAAE 圖14 CVAE和CAAE體系結(jié)構(gòu)圖
深度哈希有效地解決了大規(guī)模的草圖檢索問題,但是如果檢索草圖為訓(xùn)練過程中未見過的類別,使用深度哈希往往會失敗。Shen等人[63]針對這個問題提出了零次草圖圖像哈希ZSIH(Zero-Shot Image Hashing)模型。模型結(jié)構(gòu)由端到端的三重網(wǎng)絡(luò)組成,其中2個分支為二進制編碼器,第3個分支分別利用Kronecker融合層和圖卷積來減輕草圖-圖像的異質(zhì)性并增強數(shù)據(jù)之間的語義關(guān)系。由于使用哈希算法的二值化過程引入的量化誤差會破壞域不變信息和跨域的語義一致性,因此文中還提出一種生成哈希算法,使零次學(xué)習(xí)知識表示得以重構(gòu)。但是,Kronecker融合層效率低下,將花費大量的檢索成本。ZSIH是第一次將ZSL和跨域哈希相結(jié)合應(yīng)用到SBIR任務(wù)中,對ZS-SBIR的研究具有重要意義。為使草圖域與圖像域能夠更好地在公共映射空間中語義對齊,往往需要使用高階的草圖-圖像對,例如Sketchy數(shù)據(jù)集。
Dutta等人[64]提出了語義對齊的配對周期一致生成SEM PCYC(SEMantically tied Paired CYcle Consistency)模型,其中每個分支通過對抗訓(xùn)練將視覺信息映射到公共語義空間。在對抗學(xué)習(xí)中將分類損失、循環(huán)一致?lián)p失和對抗損失相結(jié)合,保持每個分支的循環(huán)一致性。該模型只需要在類別級監(jiān)督下進行學(xué)習(xí),從而避免使用高階的草圖-圖像對或內(nèi)存融合層。
Dey等人[28]提出了一個新的ZS-SBIR模型,在模型中嵌入外部語義信息并使用2個新的損失函數(shù)來幫助實現(xiàn)可見類與不可見類之間的語義轉(zhuǎn)換。一種為域分離損失,通過迫使網(wǎng)絡(luò)學(xué)習(xí)與域無關(guān)的嵌入來彌合域之間的差距,其中梯度反轉(zhuǎn)層GRL(Gradient Reversal Layer)鼓勵編碼器從草圖和圖像中提取互信息。另一種為語義損失,可以確保在已獲取的嵌入中保留語義信息。在理想情況下,草圖域和圖像域可以在公共語義空間完全對齊。假設(shè)理想情況成立,為使草圖檢索得到更好的效果,則需要考慮如何在學(xué)習(xí)過程中保留更多的有效語義,從而完成擁有細(xì)節(jié)語義的檢索。
Liu等人[65]從域適應(yīng)的角度來解決以上問題,提出一種語義感知的知識保存SAKE(Semantic-Aware Knowledge prEservation)方法,通過使用師生優(yōu)化模型進行近似計算,其中ImageNet的預(yù)訓(xùn)練模型作為教師信號,結(jié)合外部語義信息指導(dǎo)語義感知知識在嵌入空間中得到更好的保存與映射,從而進一步減少兩域域差。表5列出了6種代表性的深度草圖檢索類別泛化方法,給出了它們所用的基礎(chǔ)網(wǎng)絡(luò)、模型結(jié)構(gòu)、使用方法、損失函數(shù)、測試數(shù)據(jù)集和檢索精度,以資對比。
從表5可以看出,SBIR類別泛化不僅關(guān)注域差減少問題,其對模型的推斷未知類別能力、域?qū)R、語義保留等方面也有較高的要求。從Bui等人[52,53,63]的研究重點與實驗結(jié)果中可以看出,他們提出的模型未能較好地保留語義與捕捉類內(nèi)差異性,導(dǎo)致實驗結(jié)果并不理想。而從Liu等人[65]的消融實驗可知,注意力機制、語義對齊模塊和語義知識保存模塊均可有效提升模型性能。如何更好地實現(xiàn)保存語義知識、提升域?qū)R性能將成為解決類別泛化的關(guān)鍵。
針對基于深度學(xué)習(xí)的草圖檢索,本文還進行了實驗比較研究,其主要目的有2個:(1)評估選用測試集的特點與適用場景;(2)評估測試模型性能優(yōu)劣。數(shù)據(jù)集選取方面,本文選取了TU-Berlin和Sketchy公共數(shù)據(jù)集,這2個數(shù)據(jù)集已被多篇文獻[23,25,50,53,63-65]作為研究標(biāo)準(zhǔn)。本文還將較新的QuickDraw數(shù)據(jù)集[28]作為新基準(zhǔn)納入對比實驗,此數(shù)據(jù)集雖然還未得到廣泛的使用,但相比于其他2個數(shù)據(jù)集,該數(shù)據(jù)集有效地緩解了手繪草圖研究中缺少大規(guī)模草圖數(shù)據(jù)集問題,根據(jù)其特有特性可以從實驗中獲得更加豐富的模型評估信息。模型選取方面,本文選取CVPR、ECCV、ICCV等計算機視覺頂級會議提出的3個最新SBIR模型進行驗證,分別為GRLZS模型[28]、SEM PCYC模型[64]和SAKE模型[65]。
Table 5 Six representative generalization methods for sketch retrieval categories with deep learning表5 6種代表性的深度草圖檢索類別泛化方法
Table 6 Results comparison of GRLZS,SEM-PCYC and SAKE on TU-Berlin,Sketchy,and Quickdraw datasets表6 GRLZS、SEMPCYC和SAKE在TU-Berlin、Sketchy、QuickDraw數(shù)據(jù)集上的結(jié)果對比
實驗平臺為一臺個人計算機,CPU為Intel(R)Core(TM)i9-9900K,操作系統(tǒng)為Windows 10,內(nèi)存為32 GB,GPU為NVIDIA RTX 2080。實現(xiàn)算法的編程語言為PyThon,編程工具為Pychram,深度學(xué)習(xí)框架為PyTorch。為了實現(xiàn)有效的結(jié)果比較,本文將各模型參數(shù)盡可能統(tǒng)一。起始學(xué)習(xí)率lr=1e-4,最低衰減為lr=1e-7;參數(shù)優(yōu)化器權(quán)值β1=0.9,β2=0.999,λ=5e-4。
在對比實驗中,本文采用2個標(biāo)準(zhǔn)的信息檢索性能評估準(zhǔn)則——平均精度均值和查準(zhǔn)率。
(1)平均精度均值。
在SBIR研究中,平均精度均值mAP為常用檢索性能評估準(zhǔn)則,其定義如式(4)所示:
(4)
其中,Pr(q)表示查詢草圖q的檢索精度,S表示測試集中查詢草圖的數(shù)量,Avg(·)表示平均函數(shù)。
(2)查準(zhǔn)率。
查準(zhǔn)率(Precision)是指在一次查詢過程中,檢索系統(tǒng)預(yù)測為正樣本圖像數(shù)量占所有返回圖像數(shù)量的比例。
(5)
其中,tp(true positives)表示被系統(tǒng)檢索到的正樣本圖像數(shù)量,fp(false positives)表示被系統(tǒng)檢索到的負(fù)樣本圖像數(shù)量。
在實驗中,本文將TU-Berlin、Sketchy和QuickDraw 3個數(shù)據(jù)集作為基準(zhǔn),在GRLZS、SEMPCYC和SAKE 3個訓(xùn)練模型上進行測試。通過實驗結(jié)果對比,有利于從不同角度分析模型的優(yōu)劣,表6所示為實驗測試結(jié)果。
從表6的實驗結(jié)果可以看出,3個模型在QuickDraw數(shù)據(jù)集上的測試結(jié)果均低于另外2個數(shù)據(jù)集上的測試結(jié)果。通過觀察數(shù)據(jù)集得知,雖然QuickDraw數(shù)據(jù)集相比于另外2個數(shù)據(jù)集,在手繪草圖數(shù)量上有絕對性的優(yōu)勢,但是QuickDraw圖像質(zhì)量不高、表達(dá)語義模糊等原因?qū)е伦罱K的測試結(jié)果不理想。實驗結(jié)果表明,在SBIR問題中,不僅需要草圖數(shù)量大,還需要較高質(zhì)量的草圖才能更好地進行語義提取與泛化。觀察另外2個數(shù)據(jù)集上的實驗結(jié)果,在相同的模型中,使用Sketchy數(shù)據(jù)集往往比使用TU-Berlin數(shù)據(jù)集的實驗結(jié)果更勝一籌,根據(jù)測試結(jié)果驗證出,無論是從數(shù)量上還是從Sketchy數(shù)據(jù)集中包含實例對標(biāo)簽的屬性來看,Sketchy是比TU-Berlin更優(yōu)質(zhì)的數(shù)據(jù)集。
從模型角度看,在TU-Berlin和Sketchy 2個數(shù)據(jù)集上,SAKE模型與其它2個模型相比,結(jié)果有顯著的提高。與GRLZS和SEM-PCYC不同,SAKE模型著重解決域適應(yīng)問題,該模型為微調(diào)數(shù)據(jù)中的訓(xùn)練樣本生成了偽標(biāo)簽并保留在預(yù)訓(xùn)練模型中,具有豐富視覺特征的原始域知識,使合適的候選圖像與干擾信息得到了更好的區(qū)分。網(wǎng)絡(luò)在進行前向訓(xùn)練時,將二進制編碼附加到第1層的輸出中,用來指示輸入的數(shù)據(jù)是圖像域還是草圖域,用1個帶條件的自動編碼器代替2個獨立的網(wǎng)絡(luò),幫助網(wǎng)絡(luò)學(xué)習(xí)來自不同模態(tài)輸入數(shù)據(jù)的不同特征。由于基準(zhǔn)數(shù)據(jù)集中沒有對應(yīng)標(biāo)簽,SAKE使用ImageNet預(yù)訓(xùn)練網(wǎng)絡(luò)初始化模型,作為教師信號,通過外部語義知識的約束來監(jiān)督網(wǎng)絡(luò)的學(xué)習(xí)。與SAKE模型相比,雖然SEM PCYC模型使用循環(huán)一致?lián)p失函數(shù)與外部語義信息的結(jié)合,將草圖域和圖像域在嵌入空間中更好地對齊,但是未能對預(yù)訓(xùn)練模型中的有效知識進行保存,導(dǎo)致在訓(xùn)練過程中丟失大部分知識。但是,從表6中可以清楚觀察到,SAKE模型在QuickDraw數(shù)據(jù)集上表現(xiàn)并不理想,從其使用的教師指導(dǎo)模塊可以分析其原因,QuickDraw中手繪草圖與其他2個數(shù)據(jù)集中手繪草圖相比,存在無法表達(dá)完整語義的草圖,這導(dǎo)致在教師指導(dǎo)模塊中為訓(xùn)練的模型提供較大噪聲,產(chǎn)生存在誤差的指導(dǎo)信號,被訓(xùn)練出的模型無法從源數(shù)據(jù)中學(xué)習(xí)有用的感知知識進行有效存儲,最終的檢索效果也隨之降低。
雖然草圖檢索研究已經(jīng)取得了很大的進展,但是還遠(yuǎn)遠(yuǎn)無法滿足實際應(yīng)用的需求,該領(lǐng)域仍然面臨很多具有挑戰(zhàn)性的問題,未來可主要著眼于如下研究工作:
(1)到目前為止,SBIR研究可使用的公共數(shù)據(jù)集在數(shù)量上仍然不足,一定程度上阻礙了研究的進一步發(fā)展??捎糜诩?xì)粒度檢索的數(shù)據(jù)集(與Sketchy數(shù)據(jù)集相似)更是成為SBIR研究的亟需資源。雖然遷移學(xué)習(xí)和無監(jiān)督機器學(xué)習(xí)可能有助于解決標(biāo)簽不足的草圖訓(xùn)練數(shù)據(jù)問題,但是為推動SBIR研究與發(fā)展,仍然需要收集高質(zhì)量的手繪草圖數(shù)據(jù),只有在擁有充足實驗數(shù)據(jù)的基礎(chǔ)上,模型才能廣泛地從手繪草圖中獲取抽象數(shù)據(jù)模式和高度復(fù)雜的時序邏輯信息。
(2)如何將草圖與圖像之間的公共特征進行更好的映射,減少兩域之間的差距將是一個長久的課題。本文建議參考圖像檢索領(lǐng)域中最新技術(shù)(例如動態(tài)路由、Few-Shot、MatchNet、Meta learning等),它們應(yīng)用于其它問題中取得了很好的結(jié)果,可以為SBIR相關(guān)問題的研究提供新的思路。
(3)現(xiàn)有的基于深度學(xué)習(xí)的草圖檢索方法所使用的網(wǎng)絡(luò)模型(如AlexNet、VGG16等),其網(wǎng)絡(luò)結(jié)構(gòu)大多是基于自然圖像的特性所設(shè)計的,然而自然圖像與手繪草圖之間存在較大差異,未能有針對草圖本身所具有的抽象性、時序性等特征設(shè)計的有效的深度學(xué)習(xí)網(wǎng)絡(luò),因此在之后的研究工作中,可以從草圖的固有特點有針對性地壓縮模型結(jié)構(gòu),減少網(wǎng)絡(luò)中不必要的參數(shù)等,設(shè)計專用神經(jīng)網(wǎng)絡(luò),提高檢索性能。