国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于三元組卷積神經(jīng)網(wǎng)絡(luò)的圖像檢索

2016-12-22 07:12:39蔡芷茵俞祝良黃金洪李宏海
西安郵電大學(xué)學(xué)報 2016年6期
關(guān)鍵詞:三元組檢索卷積

蔡芷茵,高 煒,俞祝良,黃金洪,劉 浩,李宏海

(1.華南理工大學(xué) 自動化科學(xué)與工程學(xué)院, 廣東 廣州 510641;2.北京交通信息中心, 北京 100161;3.交通運輸部公路科學(xué)研究院 智能交通研究中心, 北京 100088)

?

基于三元組卷積神經(jīng)網(wǎng)絡(luò)的圖像檢索

蔡芷茵1,高 煒1,俞祝良1,黃金洪1,劉 浩2,李宏海3

(1.華南理工大學(xué) 自動化科學(xué)與工程學(xué)院, 廣東 廣州 510641;2.北京交通信息中心, 北京 100161;3.交通運輸部公路科學(xué)研究院 智能交通研究中心, 北京 100088)

針對圖像檢索中圖像間相似度和訓(xùn)練集帶標簽樣本不足問題,提出一種改進的三元組卷積神經(jīng)網(wǎng)絡(luò)的圖像檢索算法。采用基于三元組卷積神經(jīng)網(wǎng)絡(luò),在相似數(shù)據(jù)集上進行網(wǎng)絡(luò)訓(xùn)練,為圖像檢索項目提取更好的特征。 實驗結(jié)果表明,該算法在相似數(shù)據(jù)集上進行重訓(xùn)練,有助于提高基于內(nèi)容的圖像檢索任務(wù)的性能。

基于內(nèi)容的圖像檢索;卷積神經(jīng)網(wǎng)絡(luò);相似度度量;特征表達

在基于內(nèi)容的圖像檢索(Content-Based Image Retrieval, CBIR)任務(wù)中,提取有效樣本特征的模型尤為重要[1, 2]。隨著深度學(xué)習(xí)在機器學(xué)習(xí)領(lǐng)域的逐漸流行,應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)已經(jīng)成為圖像分類和圖像檢索的一種重要方法[3]。

檢索是基于圖像內(nèi)容而非詞匯描述的,在復(fù)雜的CBIR任務(wù)中,低層次視覺特征和高層次人類感知之間存在語義鴻溝[4, 5],采用人工神經(jīng)網(wǎng)絡(luò)模型提取特征通常不能取得滿意的效果[6]。已有的CBIR方法主要基于顏色特征[7]和紋理特征[8]等低層次的特征[4, 9],不能獲得令人滿意的結(jié)果。當訓(xùn)練樣本數(shù)量不足以訓(xùn)練大規(guī)模復(fù)雜網(wǎng)絡(luò)時,便會出現(xiàn)災(zāi)難性的過擬合現(xiàn)象,即網(wǎng)絡(luò)在訓(xùn)練集上表現(xiàn)出良好的性能而在測試集中效果很糟糕。雖然有時獲取大量圖像并不困難,但是對其做標記也要花費更多的人力物力。

針對上述問題,本文擬采用三元組卷積神經(jīng)網(wǎng)絡(luò)(Triplet Convolutional Neural Network, Tri- CNN),在不同類樣本被判定為比同類樣本更相似時給予懲罰。利用幾個相似的大規(guī)模數(shù)據(jù)集進行網(wǎng)絡(luò)訓(xùn)練,并對現(xiàn)有的帶標簽數(shù)據(jù)進行數(shù)據(jù)擴充,以期提高CBIR任務(wù)的性能。

1 三元組卷積神經(jīng)網(wǎng)絡(luò)

三元組卷積神經(jīng)網(wǎng)絡(luò)(Triplet Convolutional Neural Networks, Tri- CNN)算法主要包括兩個階段:(1) 與相似度度量相結(jié)合,采用深度CNN結(jié)構(gòu)[10]及余弦相似度[11],訓(xùn)練一個深度CNN模型;(2) 利用與被檢索數(shù)據(jù)集相似的數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò),以獲取更有效的特征表達并提高檢索性能。

1.1 相似度度量

采用余弦相似度來度量樣本間的相似度,其表達式為

(1)

其中x,y代表兩個樣本特征。

在檢索任務(wù)中,計算查詢樣本與被檢索數(shù)據(jù)庫中所有樣本間的相似度,被檢索數(shù)據(jù)庫中與查詢樣本特征相似度最高的樣本即為應(yīng)返回給用戶的目標樣本。

1.2 三元組卷積神經(jīng)網(wǎng)絡(luò)

CNN由輸入層、卷積層、池化層、全連接層和輸出層等5個部分組成。每個CNN包含5個卷積層和3個全連接層。

第一層是輸入層,原圖像隨機平移和水平鏡像變換并截取227×227圖像塊,把主成分中隨機倍數(shù)的RGB像素值添加到數(shù)據(jù)集的每張圖片中。

輸入層之后是5個卷積層。第1個和第2個卷積層之后均有1個響應(yīng)歸一化層和最大池化層。第3個和第4個卷積層之后不含池化層及歸一化層。第5個卷積層之后是一個最大池化層。5個卷積層之后有3個全連接層,其中前兩個包含4 096個神經(jīng)元,最后一個包含1 000個神經(jīng)元。網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 三元組卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

在Tri-CNN中,將整流線性單元(Rectified Linear Units, ReLU)f(x)=max(0,x)作為非線性激活函數(shù)[12]。在ReLU-6層和ReLU-7層之后,分別加入drop-out操作,在訓(xùn)練階段隨機將半數(shù)神經(jīng)元連接權(quán)重置為0,使學(xué)習(xí)獲得更強魯棒性的特征[13]。在輸入層和第1個卷積層之間加入1個分割層。在每次訓(xùn)練中,將1張預(yù)先選定的圖像、1張與其同類的圖像(用“+”標記)和1張不同類的圖像(用“-”標記)作為整體輸入網(wǎng)絡(luò)。經(jīng)過分割層后,3張圖像被分別輸入到3個網(wǎng)絡(luò)中。如圖1所示,3個網(wǎng)絡(luò)在所有卷積層和全連接層上共享權(quán)值和偏置。

將式(1)定義的余弦相似度作為相似度度量,可重寫為[11]

則代價函數(shù)為

L((x,x+,x-);γ;S)=max{0,γ-S(y,y+)+

S(y,y-)}。

(2)

其中γ是閾值參數(shù),(x,x+,x-)是輸入的三元組,x+和x屬于同類別,x-屬于不同類別。(y,y+,y-)是三元組的特征。則

考慮到每次訓(xùn)練采用多個樣本,梯度計算可表示為

2 實驗結(jié)果及分析

實驗中CBIR任務(wù)的數(shù)據(jù)集是Fabric數(shù)據(jù)集, 在Fabric數(shù)據(jù)集中,每個類別只有兩張圖片,其中1張放入查詢數(shù)據(jù)庫,另1張則放入被檢索數(shù)據(jù)庫。因此,對于查詢圖片來說,被檢索數(shù)據(jù)庫中僅有1張圖片與之匹配。分別計算搜索圖片與被檢索數(shù)據(jù)庫中的每張圖片的相似度,并按照相似度從大到小的順序排列。設(shè)定按照相似度排列的前N張圖片為檢索結(jié)果,如果匹配的圖片在檢索結(jié)果中,則檢索成功(top-N為1),否則失敗(top-N為0)。實驗將采用top-1,top-5,top-10,top-100指標來衡量Tri-CNN應(yīng)用CBIR任務(wù)的效果。所有實驗均使用E5-2670 2.60GHzCPU的計算機實現(xiàn)。

2.1 數(shù)據(jù)集描述

(1)預(yù)訓(xùn)練深度模型

ImageNet數(shù)據(jù)集[14]中的圖片樣本是從網(wǎng)上采集后人工標記的。ImageNet大規(guī)模視覺識別挑戰(zhàn)賽

(ImageNetLarge-ScaleVisualRecognitionChallenge,ILSVRC)當中所用的數(shù)據(jù)集正是ImageNet數(shù)據(jù)集的子集,子集有1 000類的圖像,包含約120萬張訓(xùn)練集圖片,5萬張驗證集圖片以及15萬張測試集圖片。實驗所用的預(yù)訓(xùn)練深度模型來源于ILSVRC2012訓(xùn)練。

(2)再訓(xùn)練的數(shù)據(jù)集

為了對比不同數(shù)據(jù)集再訓(xùn)練的效果,分別用ImageNet數(shù)據(jù)集、ALOT數(shù)據(jù)集、Cloth132數(shù)據(jù)集3種類型的數(shù)據(jù)集再訓(xùn)練Tri-CNN。

ALOT數(shù)據(jù)集[15]是含有 2.5 萬張 250 類的帶標簽圖片的大規(guī)模紋理數(shù)據(jù)集。數(shù)據(jù)集中包含木質(zhì)纖維、糖、羊毛毛毯和精白米等類型的紋理圖片。因此,ALOT數(shù)據(jù)集和Fabric數(shù)據(jù)集是相似數(shù)據(jù)集。

Cloth132數(shù)據(jù)集含有132類布料圖片,而每類圖片只有2張,因此數(shù)據(jù)集含有264張圖片。雖然Cloth132數(shù)據(jù)集非常小,但它和Fabric數(shù)據(jù)集是同類數(shù)據(jù)集。

(3)CBIR任務(wù)的數(shù)據(jù)集

CBIR任務(wù)的數(shù)據(jù)集是Fabric數(shù)據(jù)集,它含有1 000類的帶標簽高分辨率圖片,每類2張,共計2 000張圖片。所有布料圖片均由布料公司采集及人工分類標記。

由于每類含有2張相似的布料圖片,把其中一張放入查詢數(shù)據(jù)庫,另一張則放入被檢索數(shù)據(jù)庫,則查詢數(shù)據(jù)庫和被檢索數(shù)據(jù)庫均含有1 000張圖片。實驗數(shù)據(jù)集圖像樣例如圖2所示。

圖2 實驗數(shù)據(jù)集圖像樣例

2.2 參數(shù)選取

將再訓(xùn)練模型的學(xué)習(xí)率η設(shè)為0.001,用ALOT數(shù)據(jù)集[15]再訓(xùn)練Tri-CNN。再訓(xùn)練過程中,從0.15到0.75范圍內(nèi)選取不同的閾值參數(shù)γ進行實驗。

實驗結(jié)果如圖3所示。

圖3 Fabric數(shù)據(jù)集上不同的閾值參數(shù)對檢索性能的影響

由于γ=0.25在top-1, top-5, top-15指標下都有較好效果,而且在top-10指標下效果也不錯,所以選取0.25為代價函數(shù)的閾值參數(shù)。運用預(yù)訓(xùn)練深度模型再訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò),迭代一次僅需90 s。

再訓(xùn)練Tri-CNN過程中,在ALOT數(shù)據(jù)集進行訓(xùn)練,在Fabric數(shù)據(jù)集進行測試。迭代0次到300次時測試集的代價函數(shù)值如圖4所示。

圖4 再訓(xùn)練模型時測試集上代價函數(shù)值

由圖4可知,再訓(xùn)練模型測試集的代價函數(shù)值在

迭代1次到50次的時候快速下降,在迭代50次到70次時下降趨于緩慢。迭代70次到100次時,代價函數(shù)值已經(jīng)基本不變。迭代超過100次以后,代價函數(shù)值在一個小幅度內(nèi)波動。因此,再訓(xùn)練Tri-CNN時選擇迭代70次,將會耗費大概105 min。

2.3 基于再訓(xùn)練Tri-CNN的CBIR任務(wù)

分別利用ImageNet數(shù)據(jù)集、Cloth132數(shù)據(jù)集、ALOT數(shù)據(jù)集3個不同的數(shù)據(jù)集再訓(xùn)練Tri-CNN。ImageNet數(shù)據(jù)集是大規(guī)模數(shù)據(jù)集,它與CBIR任務(wù)的數(shù)據(jù)集是兩種不同類型的數(shù)據(jù)集;Cloth132數(shù)據(jù)集跟Fabric數(shù)據(jù)集是同種類型的數(shù)據(jù)集,但是非常??;ALOT數(shù)據(jù)集是大規(guī)模數(shù)據(jù)集,同時它也是CBIR任務(wù)的數(shù)據(jù)集的相似數(shù)據(jù)集。實驗結(jié)果如表1所示。

與預(yù)訓(xùn)練深度模型所得的結(jié)果相比,這3種數(shù)據(jù)集再訓(xùn)練Tri-CNN均可提高CBIR任務(wù)的性能。對于圖像檢索任務(wù)來說,再訓(xùn)練Tri-CNN可獲取更有效的特征。如表1所示,用ALOT數(shù)據(jù)集再訓(xùn)練的效果最好,用Cloth132數(shù)據(jù)集次之,用ImageNet數(shù)據(jù)集結(jié)果最差。因此,用CBIR任務(wù)的數(shù)據(jù)集的同類數(shù)據(jù)集或相似數(shù)據(jù)集再訓(xùn)練Tri-CNN可以得到更好的結(jié)果。然而,與CBIR任務(wù)的數(shù)據(jù)集同類的Cloth132數(shù)據(jù)集由于太小,沒有大到足以讓再訓(xùn)練Tri-CNN時可以從中學(xué)習(xí)到有效特征,所以沒能實現(xiàn)最好的結(jié)果。反而,用大規(guī)模的相似數(shù)據(jù)集——ALOT數(shù)據(jù)集來再訓(xùn)練可以獲得最好的效果。因此,用相似數(shù)據(jù)集再訓(xùn)練Tri-CNN可以提升CBIR任務(wù)的性能。

表1 Fabric數(shù)據(jù)集上采用不同模型的檢索性能

3 結(jié)語

應(yīng)用Tri-CNN,將CNN與相似度度量結(jié)合起來用于特征提取,提高了圖像檢索的性能,說明CNN可提取到高層次的語義特征;而將相似度納入網(wǎng)路訓(xùn)練目標更符合檢索任務(wù)的要求,可獲得更佳的性能。對檢索數(shù)據(jù)集相似的大規(guī)模相似數(shù)據(jù)集進行網(wǎng)絡(luò)訓(xùn)練,并將網(wǎng)絡(luò)用于檢索任務(wù)的特征提取,在檢索性能上取得較大提升。實驗結(jié)果表明,當特定檢索任務(wù)數(shù)據(jù)集樣本數(shù)量不足以訓(xùn)練大規(guī)模網(wǎng)絡(luò)時,在預(yù)訓(xùn)練網(wǎng)絡(luò)的基礎(chǔ)上用相似大規(guī)模數(shù)據(jù)集進行再訓(xùn)練,可明顯提高檢索性能。

[1] 劉穎, 范九倫. 基于內(nèi)容的圖像檢索技術(shù)綜述[J]. 西安郵電學(xué)院學(xué)報, 2012,17(2):1-8. DOI:10.13682/j.issn.2095-6533.2012.02.022.

[2] 劉穎, 黃源, 高梓銘. 刑偵圖像檢索中的特征提取及相似性度量[J]. 西安郵電大學(xué)學(xué)報, 2014,19(6):11-16. DOI: 10.13682/j.issn.2095-6533.2014.06.003.

[3] LI D. A tutorial survey of architectures, algorithms, and applications for deep learning[J/OL]. APSIPA Transactions on Signal & Information Processing, 2014,3(e2):1-29[2016-07-20].http://www.researchgate.net/publication/270806577_A_tutorial_survey_of_architectures_algorithms_and_applications_for_deep_learning__ERRATUM. DOI: 10.1017/ATSIP.2014.4.

[4] SMEULDERS A W M, WORRING M, SANTINI S, et al. Content-based image retrieval at the end of the early years[J/OL]. IEEE Trans. Pattern Anal. Machine Intell., 2000,22(12):1349-1380[2016-07-20]. http://dx.doi.org/10.1109/34.895972.

[5] RAFIEE G, DLAY S S, WOO W L. A review of content-based image retrieval[C/OL]//2010 7th International Symposium on Communication Systems Networks and Digital Signal Processing (CSNDSP), UK:IEEE,2010, 1(4):775-779[2016-07-20]. http://ieeexplore.ieee.org/xpls/icp.jsp?arnumber=5580313.

[6] WAN J, WANG D, HOI S C H, et al. Deep learning for content-based image retrieval: a comprehensive study[C/OL]// MM '14 Proceedings of the 22nd ACM international conference on Multimedia, New York, NY, USA :ACM, 2014: 157-166[2016-07-20]. http://dx.doi.org/10.1145/2647868.2654948.

[7] MANJUNATH B S, MA W Y. Texture features for browsing and retrieval of image data[J/OL]. IEEE Trans. Pattern Anal. Machine Intell, 1996,18(8):837-842[2016-07-20]. http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=531803.

[8] LEW M S, SEBE N, DJERABA C, et al. Content-based multimedia information retrieval: State of the art and challenges[J/OL]. Acm Transactions on Multimedia Computing Communications & Applications, 2006,2(1):1-19[2016-07-28]. http://dx.doi.org/10.1145/1126004.1126005.

[9] JAIN A K, VAILAYA A. Image retrieval using color and shape[J/OL]. Pattern Recogn, 1996,29(8):1233-1244[2016-07-28]. http://www.researchgate.net/publication/222471476_Image_retrieval_using_color_and_shape. DOI: 10.1016/0031-3203(95)00160-3.

[10] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J/OL]. Advances in Neural Information Processing Systems, 2012,25(2):2012[2016-07-28]. http://www.researchgate.net/publication/267960550_ImageNet_Classification_with_Deep_Convolutional_Neural_Networks.

[11] WU P, HOI S C H, XIA H, et al. Online multimodal deep similarity learning with application to image retrieval[C/OL]// MM '13 Proceedings of the 21st ACM international conference on Multimedi , New York, NY, USA:ACM,2013:153-162[2016-07-28]. http://dx.doi.org/10.1145/2502081.2502112.

[12] HARA K, SAITO D, SHOUNO H. Analysis of function of rectified linear unit used in deep learning[C/OL]// 2015 International Joint Conference on Neural Networks (IJCNN),[s.l.]:IEEE, 2015:1-8[2016-07-28]http://dx.doi.org/10.1109/IJCNN.2015.7280578.

[13] HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J/OL]. Computer Science, 2012,3(4):212-223[2016-07-28]. http://www.oalib.com/paper/4059375.

[14] DENG J, DONG W, SOCHER R, et al. ImageNet: A large-scale hierarchical image database[C/OL]//IEEE Conference on Computer Vision and Pattern Recognition, 2009, Miami, FL, USA:IEEE,2009: 248-255[2016-07-28]. http://dx.doi.org/10.1109/CVPR.2009.5206848.

[15] BURGHOUTS, GERTJAN J, GEUSEBROEK, et al. Material-specific adaptation of color invariant features[J]. Pattern Recognition Letters., 2009,30(3):306-313[2016-07-28].http://dx.doi.org/10.1016/j.patrec.2008.10.005.

[責(zé)任編輯:祝劍]

Content-based Image retrieval based on triplet convolutional neural networks

CAI Zhiyin1, GAO Wei1, YU Zhuliang1, HUANG Jinhong1,LIU Hao2, LI Honghai3

(1.School of Automation Science and Engineering, South China University of Technology, Guangzhou 510641, China;2. Beijing Transportation Information Center, Beijing 100161, China;3. Intelligent Transportation Research Center, Research Institute of Highway Ministry of Transport, Beijing 100088, China)

Considering of the similar metric between images and the lack of labeled images in training dataset in content-based image retrieval (CBIR) tasks, Triplet Convolutional Neural Networks (Tri-CNN) are proposed to retrain the network on dataset in similar domain. Our experiments demonstrate that the improved structure of CNN which combines traditional deep convolutional neural networks and similarity metric, can improve the performance of CBIR tasks.

content-based image retrieval, convolutional neural networks, similarity metric, featurerepresentations

10.13682/j.issn.2095-6533.2016.06.012

2016-09-22

交通運輸部科技計劃資助項目(2015419223070)

蔡芷茵(1993-),女,碩士研究生,研究方向為模式識別與圖像處理。E-mail: cai.zhiyin@mail.scut.edu.cn 高煒(1993-),男,碩士研究生,研究方向為模擬識別與圖像處理。E-mail: augao@mail.scut.edu.cn

TP391.41

A

2095-6533(2016)06-0060-05

猜你喜歡
三元組檢索卷積
基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質(zhì)檢算法*
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
特征標三元組的本原誘導(dǎo)子
關(guān)于余撓三元組的periodic-模
2019年第4-6期便捷檢索目錄
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標跟蹤算法
專利檢索中“語義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
三元組輻射場的建模與仿真
桃园县| 尖扎县| 五原县| 肥乡县| 壤塘县| 江陵县| 阿城市| 奇台县| 磐石市| 察雅县| 应用必备| 南乐县| 陵水| 阳原县| 衡阳市| 洪雅县| 平安县| 保靖县| 张家口市| 将乐县| 汤阴县| 宁德市| 阿拉善左旗| 砀山县| 天镇县| 平陆县| 都兰县| 富民县| 新余市| 浪卡子县| 新宁县| 商南县| 惠安县| 广州市| 黔西县| 平谷区| 大余县| 盐亭县| 黄龙县| 察雅县| 雅安市|