国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度卷積神經(jīng)網(wǎng)絡的羽絨圖像識別

2018-04-13 02:28:54楊文柱王思樂崔振超張寧雨
鄭州大學學報(工學版) 2018年2期
關鍵詞:羽絨圖像識別網(wǎng)絡結構

楊文柱, 劉 晴, 王思樂, 崔振超, 張寧雨

(河北大學 網(wǎng)絡空間安全與計算機學院,河北 保定 071002)

0 引言

正確識別監(jiān)控圖像中的羽絨類型,是基于機器視覺[1-2]的羽絨分揀技術的關鍵.在羽絨監(jiān)控圖像中,同一類型的羽絨形態(tài)千差萬別,不同類型的羽絨形態(tài)也有相似,這使得傳統(tǒng)的圖像識別技術難以正確識別監(jiān)控圖像中的羽絨類型,其識別精度也難以達到實際生產(chǎn)的要求(正確率不小于90%).深度卷積神經(jīng)網(wǎng)絡[3](deep convolutional neural networks,DCNN)是一種基于特征學習的圖像識別方法,其泛化能力較傳統(tǒng)的圖像識別方法有了明顯提高,因此在最近幾年,基于DCNN的圖像識別方法取得了舉世矚目的成績.基于特征學習的圖像識別方法不需要事先指定應該提取的特征,而是通過迭代學習的方式尋找最適合分類的特征.將DCNN應用于圖像識別任務時,不僅可以提高識別精度,還可以避免人工提取特征造成的人力和時間浪費,同時滿足在線檢測的需要.

近年來識別效果好的DCNN結構有AlexNet[4]、VGGNet[5]、GoogleNet[6]、ResNet[7]等.DCNN在圖像識別分類[8]、目標檢測[9]、目標跟蹤[10]、文本識別[11]、語音識別[12]等方面都取得了很好的成績.這些網(wǎng)絡中權值初始化方法大部分采用隨機初始化,如小隨機數(shù)初始化[4]、Xavier初始化[13]、MSRA初始化[14]等.DCNN的訓練方式是有監(jiān)督訓練,所以訓練時需要大量有類標的數(shù)據(jù)來進行權值的更新調(diào)整.但當圖像數(shù)據(jù)集較小時容易造成網(wǎng)絡的前幾層無法得到充分訓練等問題,針對該問題的主要解決方案是對網(wǎng)絡的卷積核進行無監(jiān)督預訓練,以得到盡可能符合數(shù)據(jù)集統(tǒng)計特性的卷積核集合.文獻[15]通過訓練一個稀疏自動編碼器,對網(wǎng)絡第一層卷積核權值進行初始化,在原圖隨機切取小塊作為稀疏自動編碼器的輸入,訓練得到的權值就是對隨機切取小塊的一種稀疏表達;同時,小塊的選取極為重要,若識別目標在原圖中占比較小,隨機切取的小塊取到背景的可能性較大,這樣訓練得到的卷積核對網(wǎng)絡收斂貢獻甚微.

針對以上問題,設計實現(xiàn)了一種用于識別羽絨圖像的DCNN,并利用視覺顯著性模型和無監(jiān)督預訓練的方法對其權值進行預訓練,以提高網(wǎng)絡收斂速度和對羽絨圖像的識別精度.首先利用視覺顯著性模型從原始圖像中提取其顯著部分,將顯著部分截取指定規(guī)格的小塊輸入至稀疏自動編碼器中進行無監(jiān)督預訓練,得到DCNN第一層的卷積核,將訓練好的卷積核集合輸入到針對羽絨圖像識別的DCNN中;網(wǎng)絡結構采用了Inception模塊及其變種模塊[6,16]來提高網(wǎng)絡的效率,并通過增加網(wǎng)絡的寬度和深度來提高網(wǎng)絡識別精度;最后利用softmax分類器實現(xiàn)對羽絨類型的識別.

1 網(wǎng)絡權值初始化及其改進

1.1 常用的權值初始化方法

DCNN的權值初始化主要是對卷積層和輸出層的卷積核參數(shù)和偏置進行初始化.權值初始化關系到DCNN的訓練時長,優(yōu)秀的初始權值會使網(wǎng)絡以較快的速度達到權值最優(yōu),從而提高訓練速度.偏置項通常初始化為一個較小的常數(shù)或0,卷積核參數(shù)初始化通常采用隨機初始化方法.目前常用的隨機初始化方法有小隨機數(shù)初始化、Xavier初始化和MSRA初始化等.小隨機數(shù)初始化是將參數(shù)初始化為小的隨機數(shù),打破對稱性,使得權值服從均值為0、標準差為0.01的高斯分布,但當隨機數(shù)取值太小時,就會有明顯的弊端——反向傳播過程中梯度很小,對較深的網(wǎng)絡更是會造成梯度彌散的問題,同時參數(shù)收斂速度也會降低.針對小隨機數(shù)初始化方法存在的問題,Xavier等人提出權值服從均值為0、方差為1/n的均勻分布(n為輸入神經(jīng)元的數(shù)量),可以提高網(wǎng)絡訓練的收斂速度.為了使其更適用于ReLU激活函數(shù),MSRA初始化對Xavier初始化進行了改進,其權值服從均值為0、方差為2/n的高斯分布.

利用無監(jiān)督預訓練對DCNN的卷積核權值進行初始化也是常用的權值初始化方法之一.通過構造一個稀疏自動編碼器(sparse autoencoder,SAE)對網(wǎng)絡權值參數(shù)進行預訓練,使得輸入層和輸出層盡可能保持一致;在SAE訓練過程中參數(shù)得以更新,形成符合數(shù)據(jù)特性的初始值.自動編碼器是一種用于盡可能復現(xiàn)輸入信號的神經(jīng)網(wǎng)絡[17].稀疏自動編碼器則是在自動編碼器的基礎上加入了稀疏限制,對隱含層進行了約束,使其變得稀疏.

自動編碼器的網(wǎng)絡結構如圖1所示.L1、L2、L3層分別代表網(wǎng)絡輸入層、隱含層和輸出層.若稀疏自編碼輸入層維度為6維,隱含層節(jié)點數(shù)量設置為3,這樣迫使隱含層節(jié)點學習得到輸入數(shù)據(jù)的壓縮表示方法,即用3維數(shù)據(jù)重構出6維數(shù)據(jù).

圖1 自動編碼器的網(wǎng)絡結構Fig.1 Network structure of autoencoder

自動編碼器損失函數(shù)如下:

(1)

其中:第1項為均方差項;第2項是權重衰減項,用于減小權重以防止過擬合.

在計算過程中,上述損失函數(shù)常導致網(wǎng)絡收斂很慢,計算復雜度過高.稀疏自編碼在自動編碼器的基礎上加入L1正則化限制,使得大部分神經(jīng)元處于抑制狀態(tài),少數(shù)處于激活狀態(tài),使隱含層節(jié)點的輸出均值盡可能為0.稀疏自動編碼器的損失函數(shù)表示為:

(2)

其中,KL(Kullback-Leibler)距離表達如下

(3)

(4)

1.2 基于視覺顯著性和無監(jiān)督預訓練的權值初始化方法

首先利用視覺顯著性算法來提取圖像的顯著部分,然后隨機截取顯著部分圖像輸入至稀疏自動編碼器中進行無監(jiān)督預訓練.采用譜殘差算法

(spectral residual approach,SRA)來獲取圖像的顯著部分,其主要原理是在原圖中將背景剔除,即可得到圖像的前景,也就是圖像的顯著部分[18],如圖2所示.若CNN的第一層卷積操作需要8個5×5大小的卷積核,那么首先在顯著圖上隨機截取N個5×5的小塊作為稀疏自編碼的輸入層,隱含單元個數(shù)設置為8,經(jīng)過稀疏自編碼的預訓練得到的W大小為25×8,再將W變?yōu)?×5×5即可得到卷積神經(jīng)網(wǎng)絡第一層卷積核集合W.

圖2 基于視覺顯著性和SAE預訓練框架Fig.2 Training framework based on visual significance and SAE

圖3 Inception模塊及其變種Fig.3 Inception module and its variants

2 基于DCNN的羽絨圖像識別網(wǎng)絡結構

深度卷積神經(jīng)網(wǎng)絡的網(wǎng)絡結構對最終的識別精度有著重要的影響.本文數(shù)據(jù)集為在生產(chǎn)線上實際采集的羽絨圖像經(jīng)過剪裁后的子圖像,子圖像大小均為100×100,比MNIST和CIFAR數(shù)據(jù)集中圖像的分辨率要大很多.為提高網(wǎng)絡效率和識別精度,采用Inception及其變種模塊來構建基本網(wǎng)絡結構.

Inception模塊的主要特點是在加大了網(wǎng)絡深度和寬度的同時不增加計算量,還提高了計算資源的利用率.Inception模塊結構如圖3(a)所示,由1×1、3×3、5×5的卷積操作和3×3的池化操作組成,通過設定1×1卷積核的數(shù)量,實現(xiàn)通道數(shù)的降維或升維,同時對不同通道的特征進行融合.Inception模塊的優(yōu)勢主要體現(xiàn)在兩個方面:①使用小卷積核在減少網(wǎng)絡訓練參數(shù)的同時降低了網(wǎng)絡計算復雜度;②使用不同大小的卷積核對同一特征圖進行特征提?。S后研究者又提出將較大的卷積核分解成2個小卷積核,如圖3(b)所示,用2個3×3的卷積核代替5×5的卷積核,節(jié)約了計算時間,為增加卷積核數(shù)目提供便利條件.圖3(c)為Inception模塊的另一個變形,經(jīng)過卷積和池化操作后的特征圖大小是前一層的1/2,該方法使用了2個并行化的模塊,不僅減少了網(wǎng)絡的計算量,還有效地避免了池化所造成的信息損失.

針對羽絨圖像識別構造的DCNN結構如圖4所示.輸入層圖像大小為100×100;C1層是步長為2的卷積層,其卷積核大小為3×3,本層產(chǎn)生32個大小為50×50的特征圖;C2層為步長為1的卷積層,卷積核大小為3×3,本層產(chǎn)生64個大小為48×48的特征圖;S1為池化層,采樣窗口大小為3×3,窗口滑動步長設置為2,本層產(chǎn)生64個大小為24×24的特征圖.Inception_1層具體結構如圖3(b)所示.采用padding方式進行卷積運算,得到的特征圖大小與前一層特征圖大小相同,即得到164個大小為24×24的特征圖.Inception_2層具體結構如圖3(c)所示,得到114個大小為12×12的特征圖;C3層是步長為1的卷積層,卷積核大小為3×3,本層產(chǎn)生64個大小為10×10的特征圖;FC1層為全連接層,將C3層的64個特征圖連接成一個特征向量;FC2層由8個神經(jīng)元構成特征向量,對應8種類別輸出,F(xiàn)C2全連接層和輸出層構成一個softmax分類器.

3 試驗設計與結果分析

試驗環(huán)境采用河北大學信息技術中心的超算平臺,使用其中一個獨立的計算節(jié)點,該計算節(jié)點配置64個GPU,可大幅提升訓練速度.DCNN程序采用基于Python的Tensorflow深度學習框架,而基于視覺顯著性和無監(jiān)督預訓練的過程采用MatlabR2016a實現(xiàn).數(shù)據(jù)集為經(jīng)過剪裁的2 300張羽絨圖像,圖像像素大小均為100×100,共8類(5個單獨類和3個混合類)如圖5所示.

圖4 網(wǎng)絡結構Fig.4 Structure

圖5 羽絨圖像類別Fig.5 Categories of down image

3.1 試驗步驟

步驟1:首先利用譜殘差模型提取原圖顯著部分并切割,提取若干張圖像顯著區(qū)域,如圖6所示.

圖6 提取圖像顯著區(qū)域Fig.6 Extracting saliency area from image

步驟2:因為針對羽絨圖像識別提出的框架第一層卷積層需要32個3×3的卷積核,故將上一步中得到的若干顯著區(qū)域隨機切取N個3×3的小塊,輸入至稀疏自動編碼器中,其中,稀疏自動編碼器的隱含單元個數(shù)設置為32,訓練得到的稀疏自動編碼器的權值系數(shù)大小為6×32,將其格式轉換為32×3×3即可得到DCNN第一層卷積核集合W,圖7為訓練的卷積核集合.

圖7 卷積核集合Fig.7 Convolutional kernels

步驟3:將數(shù)據(jù)集輸入至圖4的深度卷積神經(jīng)網(wǎng)絡中訓練并測試,得到識別錯誤率.其中訓練集包含2 000張羽絨圖像,測試集包含300張羽絨圖像.

3.2 試驗結果與分析

本試驗利用支持向量機(support vector machine,SVM)作為傳統(tǒng)圖像識別分類的代表進行對比試驗.將待識別的圖像進行小波變換和圖像分割,提取變換系數(shù)的主成分以及分割得到的目標形狀特征作為特征向量,該特征表示能力強、特征維數(shù)較低,對筆者試驗數(shù)據(jù)集有較好的表示能力,且計算效率較高.但其計算錯誤率和訓練時長相較于LeNet-5卷積神經(jīng)網(wǎng)絡仍然較高,如表1所示.

表1 支持向量機與卷積神經(jīng)網(wǎng)絡對比實驗

為了驗證圖4網(wǎng)絡結構及筆者提出的基于視覺顯著性和稀疏自編碼預訓練的權值初始化方法的有效性,設計了6種不同的試驗,如表2所示.

表2 識別錯誤率對比

由表2可以看出,利用稀疏自編碼預訓練算法對LeNet-5網(wǎng)絡初始權值進行改進,較未加入LeNet-5的網(wǎng)絡降低了對羽絨圖像的識別錯誤率,說明稀疏自編碼預訓練對卷積神經(jīng)網(wǎng)絡訓練有一定的貢獻.對比加入稀疏自編碼預訓練算法的LeNet-5網(wǎng)絡與利用視覺顯著性和稀疏自編碼算法對LeNet-5網(wǎng)絡初始權值進行改進,可以看出加入了視覺顯著性和稀疏自編碼預訓練算法的LeNet-5網(wǎng)絡進一步降低了識別錯誤率,并隨著數(shù)據(jù)集迭代次數(shù)的增加而降低.

由表2還可以看出,通過對比圖4網(wǎng)絡結構和經(jīng)典LeNet-5網(wǎng)絡對羽絨圖像的識別訓練,圖4網(wǎng)絡結構對羽絨圖像的識別效果更好,對比經(jīng)過稀疏自編碼預訓練的LeNet-5網(wǎng)絡,在數(shù)據(jù)集迭代25次后,圖4網(wǎng)絡結構對羽絨圖像識別有較低的錯誤率,說明筆者提出網(wǎng)絡結構對羽絨圖像識別的有效性;同時,在圖4網(wǎng)絡結構中加入稀疏自編碼預訓練算法,識別效果也有了一定的提高;在此基礎上加入譜殘差算法和稀疏自編碼預訓練算法對網(wǎng)絡權值進行初始化,在數(shù)據(jù)集迭代25次后,該網(wǎng)絡對羽絨圖像的識別正確率達到了96.7%.

圖8為LeNet-5網(wǎng)絡與筆者提出的網(wǎng)絡結構針對羽絨圖像訓練的時間對比曲線.因羽絨圖像易混,若圖像分辨率小將更難區(qū)分,所以本數(shù)據(jù)集分辨率大小均為100×100.由圖8可以看出,在網(wǎng)絡訓練中,筆者提出的網(wǎng)絡結構較LeNet-5訓練時間更短,收斂速度更快,且與本機(Linux Ubuntu-16)訓練速度相比,在超算平臺上的訓練速度更快.

圖8 訓練時長Fig.8 Training time

4 結論

針對羽絨圖像識別構造了一個深度卷積神經(jīng)網(wǎng)絡,并對權值初始化方法進行了改進,主要貢獻如下:①利用視覺顯著性模型提取原圖顯著區(qū)域,并利用顯著區(qū)域進行無監(jiān)督預訓練,訓練得到的權值系數(shù)即為DCNN卷積核的初始權值.利用這種初始化方法,在樣本數(shù)較小的情況下,DCNN也能以較快速度達到權值最優(yōu),且識別精度有所提升;②網(wǎng)絡結構主要采用Inception模塊,適當加大了網(wǎng)絡深度和寬度,提高了網(wǎng)絡效率和識別精度.本試驗的數(shù)據(jù)集是經(jīng)過裁剪的子圖像,而實際生產(chǎn)中的圖像分辨率極高且圖像內(nèi)容更復雜,如何實現(xiàn)高分辨復雜圖像的識別,是下一步將要進行的工作.

參考文獻:

[1]陳繼華,李勇,田增國,等. 基于機器視覺的機械式表盤自動讀表技術的實現(xiàn)[J]. 鄭州大學學報(工學版), 2015, 36(3):101-105.

[2]張震,劉博,李龍. 一種多特征提取及融合的虹膜識別方法[J]. 鄭州大學學報(工學版), 2017, 38(1):63-67.

[3]LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition [J]. Neural computation, 1989, 1(4):541-551.

[4]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems (NIPS).California: MIT Press 2012:1097-1105.

[5]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [C]//International Conference on Learning Representations (ICLR). San Diego: arXiv:1409.1556v6 [cs.CV], 2015.

[6]SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston: IEEE computer society, 2015:1-9.

[7]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE computer society, 2016:770-778.

[8]IOANNOU Y, ROBERTSON D, SHOTTON J, et al. Training convolutional neural networks with low-rank filters for efficient image classification[J]. Journal of bacteriology, 2016, 167(3):774-783.

[9]QU L, HE S, ZHANG J, et al. RGBD salient object detection via deep fusion [J]. IEEE transactions on image processing, 2017, 26(5):2274-2285.

[10] WANG L, OUYANG W, WANG X, et al. STCT: sequentially training convolutional networks for visual tracking[C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE computer society, 2016:1373-1381.

[11] WU Y C, YIN F, LIU C L. Improving handwritten Chinese text recognition using neural network language models and convolutional neural network shape models [J]. Pattern recognition, 2016, 65(C):251-264.

[12] MITRA V, FRANCO H. Time-frequency convolutional networks for robust speech recognition[C]// IEEE Automatic Speech Recognition and Understanding (ASRU). Scottsdale: IEEE computer society, 2015:317-323.

[13] GLOROT X, BENGIO Y. Understanding the difficulty of training deep feedforward neural networks [J]. Journal of machine learning research, 2010, (9):249-256.

[14] HE K, ZHANG X, REN S, et al. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification [C]// IEEE International Conference on Computer Vision (ICCV). Santiago: IEEE computer society,2015:1026-1034.

[15] 王冠皓,徐軍. 基于多級金字塔卷積神經(jīng)網(wǎng)絡的快速特征表示方法[J]. 計算機應用研究, 2015, 32(8):2492-2495.

[16] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the Inception architecture for computer vision[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE computer society, 2016:2818-2826.

[17] ZENG K, YU J, WANG R, et al. Coupled deep autoencoder for single image super-resolution [J]. IEEE transactions on cybernetics, 2016, 47(1):27-37.

[18] HOU X, ZHANG L. Saliency detection: a spectral residual approach[C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Minneapolis: IEEE computer society, 2007:1-8.

猜你喜歡
羽絨圖像識別網(wǎng)絡結構
街頭羽絨也時髦
基于Resnet-50的貓狗圖像識別
電子制作(2019年16期)2019-09-27 09:34:50
高速公路圖像識別技術應用探討
圖像識別在物聯(lián)網(wǎng)上的應用
電子制作(2018年19期)2018-11-14 02:37:04
圖像識別在水質(zhì)檢測中的應用
電子制作(2018年14期)2018-08-21 01:38:16
羽絨棉沒有絨
當代工人(2017年3期)2017-03-22 23:27:24
基于互信息的貝葉斯網(wǎng)絡結構學習
知識網(wǎng)絡結構維對于創(chuàng)新績效的作用機制——遠程創(chuàng)新搜尋的中介作用
滬港通下A+ H股票網(wǎng)絡結構演化的實證分析
復雜網(wǎng)絡結構比對算法研究進展
铅山县| 南和县| 深水埗区| 启东市| 淮北市| 桃园县| 隆昌县| 常宁市| 巴塘县| 临沂市| 藁城市| 新余市| 甘肃省| 历史| 陵川县| 丰县| 资阳市| 高邑县| 双鸭山市| 兰考县| 繁昌县| 临沂市| 密山市| 宕昌县| 彭阳县| 广水市| 玉山县| 洞头县| 民和| 皮山县| 汉川市| 澳门| 沈丘县| 福州市| 成安县| 衡东县| 明星| 云和县| 浦城县| 潜山县| 双城市|