梁觀術(shù),曹江中,戴青云,2,黃云飛
(1.廣東工業(yè)大學(xué) 信息工程學(xué)院,廣東 廣州510006;2.廣東技術(shù)師范大學(xué) 廣東省知識產(chǎn)權(quán)大數(shù)據(jù)重點實驗室,廣東 廣州510665)
商標是一種重要的知識產(chǎn)權(quán)。隨著商品經(jīng)濟的快速發(fā)展和知識產(chǎn)權(quán)保護意識的增強,無論是商標注冊的申請量、商標注冊審查量還是有效注冊商標量的數(shù)目都在不斷增加。截至2019年上半年,我國的有效注冊商標量已達到2 274萬件,近五年來,商標申請量多達2 643萬件,而且每年以約500多萬件的速度在增長。如何從海量的商標庫中快速有效地查找感興趣的商標是開展商標應(yīng)用和保護的基礎(chǔ)和關(guān)鍵。目前,主要的商標檢索系統(tǒng)均采用關(guān)鍵字(文本)檢索,但由于商標的主要信息載體是圖像,簡單的文字難以完整地描述商標圖像,并且通過文本描述圖像的過程中極易受到主觀因素的影響,因此,基于關(guān)鍵字(文本)的商標檢索效果并不理想。近年來,隨著圖像檢索技術(shù)的發(fā)展,基于圖像內(nèi)容的商標檢索方式也得到廣泛關(guān)注。圖像內(nèi)容的特征表達是影響圖像檢索的關(guān)鍵,早期表達商標圖像的特征主要基于顏色直方圖(Color Histogram,CH)[1-2]、局部二值模式(Local Binary Patterns,LBP)[3-4]、通用搜索樹(Generalized Search Trees,GST)[5],視覺詞袋(Bag of Visual Words,BOVW)[6],尺度不變特征變換(Scale Invariant Feature Transform,SIFT)[7],形狀上下文(Shape Context,SC)[8]等。隨著深度學(xué)習技術(shù)的發(fā)展,基于深度特征的圖像檢索正在被越來越多的學(xué)者研究,并且取得了較傳統(tǒng)特征更好的效果[9]。Tursun[10]首次把深度神經(jīng)網(wǎng)絡(luò)運用于商標特征提取方法上,實驗表明其效果明顯優(yōu)于傳統(tǒng)的方法。在文獻[10]的基礎(chǔ)上,Perez等[11]通過兩個神經(jīng)網(wǎng)絡(luò)分別學(xué)習商標的視覺和語義特征,取得了顯著優(yōu)于單神經(jīng)網(wǎng)絡(luò)模型的結(jié)果,實驗也表明基于神經(jīng)網(wǎng)絡(luò)的特征提取效果優(yōu)于傳統(tǒng)的特征提取方法。
然而,目前大部分基于深度神經(jīng)網(wǎng)絡(luò)的商標特征提取方法都是使用有監(jiān)督方法[10-11]。有監(jiān)督的特征學(xué)習方法對數(shù)據(jù)要求過于嚴苛,數(shù)據(jù)必須帶有標注,對于大規(guī)模的商標數(shù)據(jù)而言,標注數(shù)據(jù)是一項非常耗時的任務(wù),甚至是一項無法完成的工作。因此,有監(jiān)督的特征提取方法并不適合大規(guī)模商標檢索。最近,Wu等[12]提出了一種無監(jiān)督特征學(xué)習算法-實例區(qū)分,它能夠自動學(xué)習類別間的視覺相似性,而不依賴數(shù)據(jù)標注信息,該方法已成功應(yīng)用于無監(jiān)督特征學(xué)習方面[12]。同時,商標圖像中包含的內(nèi)容并不一定具有同等重要性,例如以人臉為主體的商標,通常面部區(qū)域會得到更多關(guān)注;對于含有復(fù)雜背景的商標,則前景的信息更容易被關(guān)注。然而,大部分的商標特征提取方法在處理商標圖像時,無法有區(qū)分性地關(guān)注一些重要信息。Bahdanau等[13]曾在機器翻譯領(lǐng)域提出注意力機制,引起研究者的大量關(guān)注,最近,Woo等[14]以此為基礎(chǔ)提出了通道和空間混合的注意力模型-卷積塊注意力模型,并通過實驗驗證了卷積塊注意力模型不僅能夠增強訓(xùn)練網(wǎng)絡(luò)的空間特征表達能力,而且能夠區(qū)別出不同位置的重要性關(guān)系。
針對現(xiàn)有商標特征提取方法無法有效捕捉重點區(qū)域的關(guān)鍵信息和圖像標注成本過高的問題,本文提出一種基于注意力機制的無監(jiān)督商標圖像檢索方法。該方法基于實例區(qū)分算法,將注意力模塊同時運用在神經(jīng)網(wǎng)絡(luò)的特征映射層的空間維度和通道維度上,通過對各個通道進行權(quán)重的分配以及對空間變換參數(shù)的學(xué)習,增強了無監(jiān)督網(wǎng)絡(luò)的特征表達能力,同時,使用噪聲對比估計[15]逼近非參數(shù)softmax函數(shù),該方法能夠大大降低計算量,提高算法的學(xué)習速度[12]。實驗表明本文提出的商標檢索方法要優(yōu)于基于傳統(tǒng)設(shè)計特征的商標檢索方法,甚至優(yōu)于一些基于監(jiān)督學(xué)習的商標檢索方法。
本文的主要工作包括:(1)將實例區(qū)分方法運用在商標檢索,解決了商標大數(shù)據(jù)特征學(xué)習時商標數(shù)據(jù)標注難的問題,節(jié)省了標注需要的資源和時間;(2) 將注意力機制融入實例區(qū)分算法,提高商標特征無監(jiān)督學(xué)習網(wǎng)絡(luò)的特征表達能力,解決了商標特征無區(qū)分性的問題。
注意力機制是模仿人類視覺機制的一種機器學(xué)習策略。在認知科學(xué)中,由于信息處理的瓶頸,人類會選擇性地關(guān)注所見信息的一部分,同時忽略其他可見的信息。2014年,Bahdanau等[13]提出了注意力機制,并成功應(yīng)用于機器翻譯領(lǐng)域,目前注意力機制已經(jīng)廣泛地應(yīng)用在自然語言處理[16]、推薦系統(tǒng)[17]、語音[18]和計算機視覺[19-20]等領(lǐng)域。按照原理來區(qū)分,注意力機制主要分為3種模型:通道注意力模型、空間注意力模型、通道和空間混合的注意力模型。通道注意力模型關(guān)注“什么”是有意義的,它通過建模各個特征通道的重要程度,使模型能夠針對不同的任務(wù)增強或者抑制不同的通道。Hu等[21]基于此觀點提出了壓縮和激勵網(wǎng)絡(luò)(Squeeze-and-Excitation Networks,SENet),建立了特征通道之間的相互依賴關(guān)系,使得網(wǎng)絡(luò)能夠從全局特征中選擇更大價值的特征通道并屏蔽無用的通道。不同于無差別地考慮每一個圖像區(qū)域,空間注意力模型更側(cè)重于相關(guān)信息的位置,它通過學(xué)習空間變換參數(shù),使輸入信息在執(zhí)行空間變換后依舊保留著關(guān)鍵部分。Laskar等[22]提出了一種針對實例檢索任務(wù)的空間注意力模型,解決了對關(guān)鍵部分權(quán)重分配的問題,讓模型注意力更集中于重要部分的內(nèi)容。Max等[23]提出一個空間變換網(wǎng)絡(luò)(Spatial Transformer Networks,STN),該網(wǎng)絡(luò)具有空間不變性,通過對特征映射層進行空間轉(zhuǎn)換,能夠把輸入圖像轉(zhuǎn)換成理想的圖像,是一種典型的空間注意力模型。空間和通道混合的注意力模型由Woo等[14]提出,在空間和通道上同時使用了全局池化和最大池化操作提升了注意力模型的效果,實現(xiàn)了注意力模塊與卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的無縫集成。
通道注意力使每個通道擁有不同的權(quán)重,但忽略了空間層面的變換;空間注意力解決了信息的空間變換問題,但無法區(qū)分各個通道的貢獻大小。通道和空間混合的注意力模型不僅增強空間特征的表達能力,而且能夠區(qū)別出不同位置的重要性關(guān)系,告訴網(wǎng)絡(luò)關(guān)注“什么”和關(guān)注“哪里”[24],綜合了通道注意力模型和空間注意力模型的特點,本文所采用的卷積塊注意力模型正是一種最具代表性的通道和空間混合的注意力模型。該注意力模型將通道、空間兩個維度的注意力模塊以先通道域后空間域的順序進行組合,再與無監(jiān)督網(wǎng)絡(luò)融合,讓網(wǎng)絡(luò)根據(jù)損失函數(shù)自主地學(xué)習特征的權(quán)重,聚焦圖像的關(guān)鍵特征,解決了傳統(tǒng)商標特征提取方法在對圖像進行處理時,捕捉重點區(qū)域的關(guān)鍵信息能力不足的問題,同時,在不顯著增加計算量和參數(shù)量的前提下,該網(wǎng)絡(luò)能夠重點關(guān)注更有區(qū)分能力的特征,提高特征的表達能力。
通道和空間混合的注意力模型如圖1所示[14],對于通道注意力模塊Mc而言,給定一個中間特征映射層f′∈Rc×h×w作為輸入,其中,c代表每一層的通道數(shù),h代表每個通道的高,w代表每個通道的寬,即通道對應(yīng)的權(quán)重。同時使用平均和最大的并行池化操作,然后經(jīng)過多層感知器,最后對這兩個通道的特征使用sigmoid激活函數(shù),得到通道注意力特征,具體計算公式為
其中, δ(·)是sigmoid激活函數(shù),MLP(Multi-Layer Perceptron)代表多層感知器, AvgPool(f′)和 MaxPool(f′)代表對特征映射層f′進行平均池化和最大池化操作。
圖1 通道和空間混合的注意力模塊Fig.1 Channel and spatial mixed attention module
同理,對于空間注意力模塊MS而言,給定1個中間特征映射層f′′∈Rc×h×w作為輸入,同時使用平均和最大的并行池化進行壓縮操作,得到2個特征,并將其按照通道維度拼接在一起,組合成1個二維的特征,最后對二維的特征進行卷積處理,確保最后得到的特征f′′′與原來輸入的特征f′′在空間維度是一致的,具體過程見式(2)。
其中,f n×n是卷積核為n×n大小的卷積運算。中間特征映射層f′分別依次經(jīng)過通道注意力模塊和空間注意力模塊的表達式為
其中, ?代表向量元素依次相乘(element-wise multiplication)。
Woo等[14]通過實驗表明卷積塊注意力模型比單通道注意力模塊或者單空間注意力模塊體現(xiàn)出更好的捕捉關(guān)鍵特征能力,同時,也驗證了通道注意力模塊或者空間注意力模塊同時使用平均和最大的并行池化比單一平均池化操作丟失信息更少,效果更有優(yōu)越性。圖2顯示了卷積塊注意力模型的優(yōu)點[14],圖2(a)為ResNet50的熱力效果圖,圖2(b)為加入了注意力模塊的ResNet50熱力效果圖,在熱力圖中,模型越感興趣的區(qū)域,顯示的溫度越高,即紅色的比重越大,對于不關(guān)注的區(qū)域,則顯示的溫度越低,即顏色向淺藍色靠近,顯然,圖2(a)只對船槳部分進行了重點關(guān)注,圖2(b)的網(wǎng)絡(luò)則關(guān)注了物體更多的關(guān)鍵信息,如人物、河水、船只等。鑒于卷積塊注意力模型在捕捉關(guān)鍵特征能力上的優(yōu)勢,本文將這種卷積塊注意力模型運用于商標特征訓(xùn)練學(xué)習中。
圖2 注意力機制效果示意圖Fig.2 Attention mechanism schematic diagram
為了解決傳統(tǒng)無監(jiān)督商標特征提取過程中對商標圖像關(guān)鍵特征獲取能力不足的問題,本文將注意力機制引入到實例區(qū)分算法,提出了一種基于注意力機制的無監(jiān)督商標檢索方法。該方法把注意力機制同時運用在神經(jīng)網(wǎng)絡(luò)特征映射層的空間維度和通道維度上,使網(wǎng)絡(luò)學(xué)習到更多關(guān)鍵元素,聚焦于更多關(guān)鍵的特征,從而提高神經(jīng)網(wǎng)絡(luò)對商標特征的表達能力。此外,該方法不需要標注數(shù)據(jù),同時解決了商標檢索中的標注難題。實驗結(jié)果表明,該方法的特征提取效果優(yōu)于常用的商標特征提取方法,甚至優(yōu)于一些有監(jiān)督的特征提取方法。
實例區(qū)分是一種無監(jiān)督特征學(xué)習方法。它的學(xué)習任務(wù)和思想是通過在所有數(shù)據(jù)下最大化實例本身的后驗概率,間接地訓(xùn)練神經(jīng)網(wǎng)絡(luò)的特征提取能力。具體地說,實例區(qū)分算法將每個圖像的實例作為一個獨立的類來處理,并訓(xùn)練一個分類器來區(qū)分不同的實例類,這種方法不需要任何標簽信息,文獻[12]在ImageNet的分類結(jié)果上通過實驗表明了實例區(qū)分算法能夠自動學(xué)習類別間的視覺相似性,而不依賴數(shù)據(jù)標注信息,該方法在無監(jiān)督特征學(xué)習方面取得了成功應(yīng)用。
實例區(qū)分算法的目標是學(xué)習一個無監(jiān)督的嵌入函數(shù)v=fθ(x),其中圖片x來 源于圖像數(shù)據(jù),fθ(x)為神經(jīng)網(wǎng)絡(luò)學(xué)習的函數(shù),旨在將圖片X={x1,x2,···,xn}映射成特征V={v1,v2,···,vn},在視覺上將相似的圖像映射到靠近的位置。因此,實例區(qū)分的重點在于神經(jīng)網(wǎng)絡(luò)學(xué)習到較好的嵌入函數(shù),將視覺相似的圖像映射在接近的地方。
實例區(qū)分算法主要流程如圖3所示,具體步驟為:
(1) 選取n張 圖像X=[x1,x2,···,xn];
(2)對無監(jiān)督網(wǎng)絡(luò)進行向前計算,提取圖像特征V={v1,v2,···,vn},并存儲為該訓(xùn)練批次的特征;
(3)在特征內(nèi)存記憶模塊進行負樣本采樣,得到負樣本s;
(4)使用對比噪聲估計的方法對實例和負樣本進行計算近似損失值;
(5)根據(jù)步驟(4)計算的損失值進行反向傳播,更新參數(shù);
(6)當訓(xùn)練階段次數(shù)n>120時,停止訓(xùn)練網(wǎng)絡(luò),否則返回步驟(2)。
步驟(4)的損失函數(shù)是最小化數(shù)據(jù)和噪聲樣本的負對數(shù)后驗分布,具體如式(5)所示。
圖3 實例區(qū)分方法主要流程圖Fig.3 Main flow chart of Instance discrimination
其中,Pk是噪聲分布,假設(shè)噪聲分布為均勻分布時,Pk=1/K,Pd是真實樣本的采樣分布,s為采樣樣本的個數(shù)。h(i,v)和h(i,v′)為 樣本的特征為v的后驗概率以及負樣本特征v′的后驗概率,分別由式(6)、(7)計算得到。
其中,v i表示商標圖片xi經(jīng)過實例區(qū)分算法后的特征值,v j是代表負樣本的特征,來源于商標特征內(nèi)存記憶模塊,Zi是歸一化常數(shù),可采用蒙洛卡羅方法進行估計, τ是溫度參數(shù),它的作用在于使得softmax函數(shù)在歸一化后仍能處于合理的取值范圍內(nèi),同時也是訓(xùn)練過程有效優(yōu)化不可缺少的參數(shù)[25]。
實例區(qū)分算法還面臨一個巨大的挑戰(zhàn),即類別數(shù)量就是整個數(shù)據(jù)集的大小,對于本文實驗商標數(shù)據(jù)集而言,類別數(shù)量高達90多萬,顯然,簡單地將無參數(shù)分類器擴展更多類是不可取的。為了解決這個挑戰(zhàn),Wu[12]通過使用對比噪聲估計模塊[15]來近似計算在softmax分類器下的交叉熵損失大小,并采用近端正則化方法來達到一個穩(wěn)定的訓(xùn)練過程[26],避免了在計算損失時,對商標數(shù)據(jù)庫的全體數(shù)據(jù)進行遍歷。同時,實例區(qū)分算法在噪聲對比估計框架下,通過采樣恒定的負樣本的數(shù)量,避免了在大數(shù)據(jù)環(huán)境下計算量的爆炸性增長,實現(xiàn)了針對大規(guī)模數(shù)據(jù)集的快速檢索功能,而其他的非監(jiān)督方法難以解決大數(shù)據(jù)背景下的計算量問題,并且無法保證檢索的精度。噪聲對比估計在不降低表現(xiàn)的情況下將計算復(fù)雜度從O(n)降低到O(1),使實例區(qū)分算法能夠應(yīng)用在大型商標的數(shù)據(jù)集上。
實例區(qū)分方法可以實現(xiàn)商標圖像特征的無監(jiān)督學(xué)習,在不需要任何標簽信息的情況下,可學(xué)習得到圖像顯著的視覺相似性。然而實例區(qū)分方法無法有效地捕捉重點區(qū)域的關(guān)鍵信息,針對這個問題,本文提出了一種基于注意力機制的無監(jiān)督商標檢索方法。該方法在實例區(qū)分算法的基礎(chǔ)上,引入基于卷積塊的注意力模塊,通過對各個通道進行加權(quán)處理以及對空間變換參數(shù)的學(xué)習,增強了無監(jiān)督網(wǎng)絡(luò)的特征表達能力,同時解決了商標圖像關(guān)鍵信息獲取和圖像標注問題。該方法的流程如圖4所示,整個方法包含3個關(guān)鍵模塊,分別為注意力模塊、無監(jiān)督網(wǎng)絡(luò)的訓(xùn)練模塊和商標檢索模塊。注意力模塊主要用于提高網(wǎng)絡(luò)對輸入圖像關(guān)鍵信息的捕捉能力。以第1層卷積塊和第2層卷積塊為例,如圖1所示。商標圖像x經(jīng)過第1層卷積塊c onv1生成商標特征f1,作為注意力模塊A1的輸入,在注意力模塊A1中,f1先經(jīng)過一層卷積層c onv生成新的特征f1′,特征f1′然后依次經(jīng)過空間注意力模塊Mc和通道注意力模塊Ms,根據(jù)式(1)~式(4)生成特征f1′′′,f1′′′加上原來特征f1得到注意力模塊A1的特征F1,最后傳輸?shù)较乱粚泳矸e塊conv2。無監(jiān)督網(wǎng)絡(luò)的訓(xùn)練模塊的主要目的是訓(xùn)練商標特征提取器,用于提取商標特征。該模塊使用ResNet50[27]作為無監(jiān)督網(wǎng)絡(luò),并使用噪聲對比估計替代非參數(shù)分類器。如圖4所示,c onv1~conv4表示殘差網(wǎng)絡(luò)的第1層卷積塊至第4層卷積塊,A1~A3表示第1層注意力模塊至第3層注意力模塊,其中注意力模塊中 conv表示卷積層。訓(xùn)練網(wǎng)絡(luò)時,首先,利用商標數(shù)據(jù)庫M來訓(xùn)練帶有注意力模塊的ResNet50,通過反向傳播算法不斷優(yōu)化權(quán)重來提高正例樣本的概率,最后通過更新式(6)和式(7)來最小化式(5)的目標函數(shù)JN(θ)。商標檢索模塊主要是計算商標圖像的相似性并排序輸出檢索結(jié)果。首先,將商標數(shù)據(jù)集M經(jīng)過已訓(xùn)練好的商標特征提取器ResNet50進行特征提取,形成商標特征庫,同樣地,利用訓(xùn)練好的ResNet50網(wǎng)絡(luò)提取檢索圖像的特征,最后將待檢索商標的特征與商標特征庫進行距離計算,并根據(jù)距離從小到大對商標庫的商標圖像進行排序,排序商標圖像即為檢索結(jié)果。提出方法的商標檢索流程如算法1所示。
圖4 基于注意力機制的商標檢索框架圖Fig.4 Framework of trademark retrieval method based on attention mechanism
算法1基于注意力機制的無監(jiān)督商標檢索方法
輸入:檢索圖片I
輸出:商標數(shù)據(jù)庫中與I相似的圖像序列R
Step1:訓(xùn)練基于注意力的特征提取網(wǎng)絡(luò)
為了驗證本文提出方法的有效性,本文在目前最大的公開商標數(shù)據(jù)集——METU商標數(shù)據(jù)集進行對比實驗[10]。
METU商標數(shù)據(jù)集包含923 343張商標圖像,其中包含1個含有417張商標圖像的測試集,該測試集分為35組,每組包含10~15張商標。在本文實驗中,商標的訓(xùn)練集和測試集均縮小至32×32。為了比較的公平性,本文采用與文獻[10]相同的方式,用417張商標測試集來對比檢索效果。
本文使用歸一化平均排名(Normalized Average Rank,NAR)[10]作為評測指標。該指標是一種衡量檢索效果優(yōu)劣的常用指標,其計算公式為
本文使用實例區(qū)分作為無監(jiān)督特征學(xué)習的算法,選取網(wǎng)絡(luò)層數(shù)相對適中的ResNet50作為無監(jiān)督學(xué)習網(wǎng)絡(luò)[27],ResNet引入殘差結(jié)構(gòu),解決了深層網(wǎng)絡(luò)梯度消失的問題,便于研究注意力機制與不同深度的殘差網(wǎng)絡(luò)結(jié)合的檢索效果。在實驗中,為了與文獻[10]形成公平的對比,實驗參數(shù)保持與文獻[10]相同,學(xué)習率α 為0.003,從80個階段(epoch)開始,每40個階段衰減原來的0.1倍,式(8)中的溫度參數(shù)τ 設(shè)置為0.07,式(5)中的負樣本s為4 096,特征的維度為128,訓(xùn)練集批次為256,測試集批次為100。此外,算法1中的訓(xùn)練階段為120,訓(xùn)練至該階段的算法趨于收斂,滿足對檢索的需求。
為了驗證提出方法的有效性,本文將提出的檢索方法與目前常用的幾種商標檢索方法進行了對比實驗,同時也研究了注意力機制對特征提取網(wǎng)絡(luò)的影響。在對比實驗中,加入注意力模塊的實例區(qū)分方法為本文的方法,未加入注意力模塊的實例區(qū)分方法記為ResNet50(RS)。
(1)與基于傳統(tǒng)特征提取的檢索方法對比。與文獻[10]類似,本文選取了顏色直方圖(CH)[28]、局部二值模式(LBP)[4],通用搜索樹(GIST)[29]、形狀上下文(SC)[30]、尺度不變特征變換(SIFT)[7]、快速魯棒特征(Speeded Up Robust Features,SURF)[31]、梯度方向直方圖(Histogram of Oriented Gradient,HOG)[32],方向限制尺度不變特征變換(Orientation-Restricted SIFT,OR-SIFT)等常用的特征進行對比檢索[33]。這些方法在METU商標數(shù)據(jù)集上的測試結(jié)果來源于文獻[10],為了公平起見,本文方法所使用的驗證數(shù)據(jù)集和評測指標與文獻[10]保持一致。實驗結(jié)果如表1所示。表1中NAR均值和標準差是通過35組實驗中的NAR計算得來。由表1可以看出,本文所提出的方法對比傳統(tǒng)的特征設(shè)計方法體現(xiàn)出更好的優(yōu)越性,NAR均值為0.101,因為傳統(tǒng)的特征提取方法缺少了對商標圖像特性的考慮,對所有圖像提取方法均一致,沒有分配關(guān)鍵特征權(quán)重,而本文的方法在實例區(qū)分算法的基礎(chǔ)上,引入注意力模塊,能有效地捕捉商標圖像中重點區(qū)域的關(guān)鍵信息,檢索效果明顯提升。
(2)與基于深度特征的商標檢索方法對比。實驗選取文獻[10]和文獻[34]中的有監(jiān)督特征提取方法進行對比實驗,其中包括在ImagNet上的預(yù)訓(xùn)練模型AlexNet[35]、GoogLeNet[36]、VggNet16[37]和ResNet[27]等主流的深度神經(jīng)網(wǎng)絡(luò)。此外,還選取文獻[38]中VggNet16(Conv5)和ResNet50(Pool4)的有監(jiān)督特征提取方法,該方法將NPU商標數(shù)據(jù)集作為訓(xùn)練集,通過對圖像變換整體的學(xué)習,來增強網(wǎng)絡(luò)的特征不變性。實驗中,AlexNet(FC7)表示使用AlexNet的FC7進行提取特征,其他網(wǎng)絡(luò)同理。對比實驗結(jié)果如表2所示。從表2中可以看出,盡管本文的方法稍遜色于VggNet16(Pool5)、VggNet16(FC7)和ResNet50(Pool5)等有監(jiān)督檢索方法,但是本文的方法優(yōu)于AlexNet(FC7)、GoogLeNet(77S1)、VggNet16(FC8)、ResNet50(FC1000)等有監(jiān)督方法,并且優(yōu)于未加入注意力模塊的實例區(qū)分方法ResNet50(RS)。對比于AlexNet和GoogLeNet[37],表明VggNet具有更廣泛的感受野,捕獲了更多的上下文信息,因此VggNet的檢索效果比AlexNet和GoogLeNet更優(yōu),此外。本文的方法與殘差網(wǎng)絡(luò)(ResNet)的另外幾種有監(jiān)督方法對比,實驗結(jié)果表明了使用同樣的殘差網(wǎng)絡(luò),本文無監(jiān)督方法效果優(yōu)于大部分的有監(jiān)督方法。眾所周知,無監(jiān)督方法在前期工作中節(jié)省了大量人力和時間,不用標注即可訓(xùn)練網(wǎng)絡(luò)。有監(jiān)督方法對數(shù)據(jù)要求太苛刻,需要標注信息,對于具有龐大數(shù)據(jù)量的商標數(shù)據(jù)集來說,人工標注數(shù)據(jù)是一件困難的事,甚至可能是一項幾乎無法完成的工作。因此,綜合標注成本和檢索效果來看,本文提出的方法整體上仍具有明顯優(yōu)勢。
表1 與無監(jiān)督商標檢索方法對比結(jié)果Table 1 Comparison with unsupervised trademark retrieval methods
(3)注意力機制對殘差網(wǎng)絡(luò)的影響。為了研究注意力機制的有效性,本文使用了ResNet18、ResNet34和ResNet50 3種不同深度的殘差網(wǎng)絡(luò)進行實驗,如圖5所示。商標圖像的分辨率為3 2×32,從ResNet18至ResNet50,隨著殘差網(wǎng)絡(luò)的加深,NAR值逐漸降低,與之相比,當殘差網(wǎng)絡(luò)融合注意力機制模塊后,隨著網(wǎng)絡(luò)深度的增加,NAR值降低的更加顯著。說明了隨著網(wǎng)絡(luò)深度增大,注意力機制對提升殘差網(wǎng)絡(luò)的特征表達能力更加明顯。
此外,為了具體證實注意力機制對商標檢索的提升效果,本文也給出了4個待檢索樣本在METU商標數(shù)據(jù)集上檢索到的前10個結(jié)果。如圖6所示,每一行的第1張商標均為檢索圖像,第2張至第11張為商標檢索排序結(jié)果,其中,第1、3、5、7行表示無注意力機制的無監(jiān)督ResNet50模型的檢索結(jié)果,第2、4、6、8行表示有注意力機制的無監(jiān)督ResNet50模型的檢索結(jié)果,其中紅色框標識的商標圖像是在無注意力機制時沒有出現(xiàn)在前10個檢索結(jié)果中。通過圖6可以直觀地看到,注意力機制能夠有效地提升商標的檢索結(jié)果。
表2 與有監(jiān)督商標檢索方法對比結(jié)果Table 2 Comparison with supervised trademark retrieval methods
圖5 注意力機制對殘差網(wǎng)絡(luò)的影響Fig.5 Impact of attention mechanism on ResNet
圖6 部分樣本的商標檢索結(jié)果Fig.6 Retrieval results of some trademark samples
本文將注意力機制引入到實例區(qū)分算法,實現(xiàn)了利用深度神經(jīng)網(wǎng)絡(luò)進行商標特征無監(jiān)督學(xué)習,提出了一種基于注意力機制的無監(jiān)督商標檢索方法,試圖解決海量商標檢索中當前存在的數(shù)據(jù)標注成本大和商標重點區(qū)域特征信息難提取的問題。該方法通過對各個通道進行權(quán)重的分配以及對空間變換參數(shù)的學(xué)習,增強了網(wǎng)絡(luò)的特征表達能力。在公開的商標數(shù)據(jù)集上的對比實驗表明本文的方法優(yōu)于傳統(tǒng)的商標檢索方法,甚至超越一些有監(jiān)督學(xué)習的商標檢索方法,驗證了提出方法的有效性。未來,我們將會考慮通過少量標注信息提升商標檢索效果,研究注意力機制與弱監(jiān)督學(xué)習結(jié)合的商標檢索方法。