洪奇峰 施偉斌 吳迪 羅力源
摘要:隨著移動互聯(lián)網(wǎng)與硬件處理器技術(shù)的不斷發(fā)展,海量數(shù)據(jù)處理與計算能力不斷提高,深度學(xué)習(xí)備受關(guān)注。卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)模型中最重要的一種結(jié)構(gòu),可用于目標特征提取。介紹了為提高卷積神經(jīng)網(wǎng)絡(luò)性能,不斷增加卷積網(wǎng)絡(luò)深度的模型,以及因此帶來的新問題和解決方法。
關(guān)鍵詞:深度神經(jīng)網(wǎng)絡(luò):特征提?。耗繕俗R別:網(wǎng)絡(luò)結(jié)構(gòu)
DOI: 10.11907/rjdk.191659
開放科學(xué)(資源服務(wù))標識碼(OSID):
中圖分類號:TP3-0
文獻標識碼:A
文章編號:1672-7800(2020)004-0084-05
Review of the Development of Deep Convolutional Neural Network Model
HONG Qi-feng, SHI Wei-bing, WU Di, LUO Li-y uan
(School of Optical-Electrical and Co mputer Erzgineering , University of Sh angh.ai for Science and Technology,Shangh ai 200093.China )Abstract: With the continuous developmenf of' mobile Internet. hardware processor and other aspects, and the continuous improve-ment of massive data and computing power, deep learning has attracted more and more attention of the world. Especially after LeeSedol foughf against Alphago, it attracted worldwide attenfion. Convolutional neural network is the most important structure in deeplearning model. which is used to extract target features. With the continuous development of the deep learning field , this paper intro-duces the improvement of the perf'ormance of' the convolutional neural network. the convolutional network models with increasingdepth,as well as the new problems and their solutions.Key Words : deep neural network;feature extraction; object identification; network structure
O 引言
卷積神經(jīng)網(wǎng)絡(luò)( Convolution Neural Network,CNN)用于特征提取,從最早期的尺度不變特征變換…(Scale invariantfeature transform,SIFT)、Harr、方向梯度直方圖[2](Histo-gram of oriented gradients,HOG)演化發(fā)展至今。1998年LeCun[3]提出LeNet-5,將卷積與神經(jīng)網(wǎng)絡(luò)結(jié)合在一起,這是一個劃時代、影響深遠的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),卷積和池化兩個全新概念由此提出。其后隨著深度學(xué)習(xí)理論的發(fā)展,2012年Alex Krizhevshvy[4]提出AlexNet,這是一個8層深的卷積神經(jīng)網(wǎng)絡(luò),該模型一舉奪下2012年ImageNet比賽冠軍。白AlexNet之后,研究者從不同網(wǎng)絡(luò)結(jié)構(gòu)出發(fā),陸續(xù)提出了各種性能越來越好的卷積神經(jīng)網(wǎng)絡(luò)模型,其中比較著名的有計算機視覺幾何組(Visual Geometry Group,VG-GNet)、GoogLeNet、深度殘差網(wǎng)絡(luò)(Deep Residual network,ResNet)等[5-7]
1 VGG模型
CNN模型基礎(chǔ)架構(gòu)如圖l所示,從圖1可以看出,CNN模型是由一系列層不斷堆疊而成的,模型中的每一層都代表一種數(shù)學(xué)運算,如卷積、全連接是線性運算,池化、激活是非線性運算。
VGG模型于2014年由牛津大學(xué)VGG研究組提出,與AlexNet類似,也是一種卷積神經(jīng)網(wǎng)絡(luò),在AlexNet的基礎(chǔ)上,旨在通過加深網(wǎng)絡(luò)提高性能。該模型在2014年ILS-VRC定位和分類兩個比賽上分別取得了第一名和第二名。與之前的網(wǎng)絡(luò)結(jié)構(gòu)相比,VGG模型錯誤率大幅下降。同時,該模型拓展性很強,遷移到其它圖片數(shù)據(jù)上的泛化性非常好。除應(yīng)用于最常見的特征提?。‵eature Extractor)外,還被廣泛應(yīng)用于圖像協(xié)同定位(C o-localization)、物體候選框生成、細粒度圖像定位( Fine-grained Object Local-ization)等方面。
VGGNet核心思想是利用較小的卷積核不斷堆疊增加網(wǎng)絡(luò)深度,以此提升整個網(wǎng)絡(luò)架構(gòu)性能。VGG網(wǎng)絡(luò)結(jié)構(gòu)非常簡潔,整個網(wǎng)絡(luò)全都使用同樣大小的卷積核與最大池化核,利用卷積層與最大池化層不斷堆疊的方式,組合成II-19層深的卷積神經(jīng)網(wǎng)絡(luò)。
VGGNet各級別網(wǎng)絡(luò)結(jié)構(gòu)如表1所示,VGGNet有5段卷積,每段卷積包含1-4個卷積層,每段卷積后面接一個最大池化層用來縮小feature map尺寸和增強特征,后面有3個全連接層,前兩層均有4096個通道,第3層共1000個通道,對應(yīng)l000個標簽類別,最后一層為Softmax層。
2.3 Inception V3
Inception V3[12]相對Inception V2沒有顯著改進,只是對原有網(wǎng)絡(luò)模型結(jié)構(gòu)進行卷積分解,用兩個較小的卷積核l*n和n*1代替n*n,比如將7*7分解成l*7和7*l。優(yōu)點是增加了網(wǎng)絡(luò)非線性,減少過擬合與參數(shù)數(shù)量。其網(wǎng)絡(luò)模型結(jié)構(gòu)如圖5所示。 3 殘差網(wǎng)絡(luò)ResNet
白AlexNet之后,卷積神經(jīng)網(wǎng)絡(luò)不斷加深,網(wǎng)絡(luò)擬合能力越來越強,但網(wǎng)絡(luò)訓(xùn)練誤差變大卻是極不正常的。簡單地堆疊網(wǎng)絡(luò)層深度沒有實質(zhì)性作用,反而會使反向傳播產(chǎn)生多個問題。反向傳播的梯度計算是在上一層基礎(chǔ)上進行的,網(wǎng)絡(luò)深度加深會使梯度復(fù)乘,使梯度在多層反向傳播時越來越小,最終導(dǎo)致梯度消失。因此網(wǎng)絡(luò)層數(shù)越多,訓(xùn)練誤差越大。
殘差網(wǎng)絡(luò)通過在標準的前饋神經(jīng)網(wǎng)絡(luò)上增加一個跳躍從而繞過一些層,實現(xiàn)快捷連接(Shortcut Connection),解決了以上問題。
3.1 高速路神經(jīng)網(wǎng)絡(luò)
殘差網(wǎng)絡(luò)創(chuàng)新點在于引進了恒等快捷鏈接(IdentitvShortcut C onnection),其設(shè)計是受瑞士教授Schmidhuher[13]提出的高速路神經(jīng)網(wǎng)絡(luò)(HighWay Network)啟發(fā)。一般情況下認為增加網(wǎng)絡(luò)深度可在一定情況下提高網(wǎng)絡(luò)性能,但伴隨著網(wǎng)絡(luò)深度的增加,其訓(xùn)練難度也越來越大。Schmid -huber教授根據(jù)白己在1997年構(gòu)建的長短期記憶網(wǎng)絡(luò)(Long Short Term Memorv Network.LSTM)[14]中的門機制(gate)原理設(shè)計了HighWay Network。LSTM中的門結(jié)構(gòu)負責(zé)控制某一單元的信息量,HighWay Network可通過類似LSTM中的門控單元控制網(wǎng)絡(luò)中的信息流,即學(xué)習(xí)原始信息應(yīng)保留的比例。
高速路神經(jīng)網(wǎng)絡(luò)的出現(xiàn)解決了深層神經(jīng)網(wǎng)絡(luò)難以訓(xùn)練的難題。假設(shè)常規(guī)卷積神經(jīng)網(wǎng)絡(luò)有K層,其中第i層(i∈l,2,…,K)的輸入為X。卷積神經(jīng)網(wǎng)絡(luò)每層的激活函數(shù)均對輸入X進行非線性映射變換,為了表述簡單,本文忽略層數(shù)和偏置,則輸出與輸入之間的關(guān)系為:
v=H(X,WH)(1)
高速路神經(jīng)網(wǎng)絡(luò)修改了每一層的激活函數(shù),在此基礎(chǔ)上允許保留一定的原始輸入X,則式(1)變?yōu)椋?/p>
v=H(X,WH).T(X,WT)+X.C(X,Wc)(2)
其中T為變換系數(shù),C為保留系數(shù)。令C=1-T,則:
y=H(X,WH).T(X,WT)+X.(1-T(X,WT》(3)
改進后的網(wǎng)絡(luò)層比原始網(wǎng)絡(luò)層靈活了很多,針對特定變換系數(shù),式(2)變?yōu)椋?/p>
一定比例的上一層信息可不經(jīng)過矩陣乘法和非線性變換直接到達下一層,該結(jié)構(gòu)仿佛是一條信息高速公路,因此命名為高速路神經(jīng)網(wǎng)絡(luò)。可以發(fā)現(xiàn)當變換系數(shù)T=O時,輸出y與輸入X為恒等映射v=X。
3.2 ResNet模型結(jié)構(gòu)
圖6是論文中的原圖,通過圖6可以發(fā)現(xiàn),普通的卷積神經(jīng)網(wǎng)絡(luò)隨著深度的增加,準確率達到飽和后迅速下降,隨之出現(xiàn)了網(wǎng)絡(luò)越深、錯誤率越高的退化現(xiàn)象。這是由網(wǎng)絡(luò)增加過多層數(shù)造成的。
為了解決退化現(xiàn)象,殘差網(wǎng)絡(luò)引入了恒等快捷鏈接的核心思想,對于一個準確率已經(jīng)接近飽和且較淺的神經(jīng)網(wǎng)絡(luò),在后面加上幾個恒等快捷映射(v=X)時,錯誤率不會因此增加,即網(wǎng)絡(luò)深度的增加不會引起訓(xùn)練誤差上升。加入恒等快捷連接的ResNet也與HighWay Network -樣,將原始輸入信息直接傳輸?shù)胶竺妗?/p>
卷積神經(jīng)網(wǎng)絡(luò)某一層輸入為X,在經(jīng)過網(wǎng)絡(luò)傳輸處理之后,得到的期望輸出是H(X)。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)不同,殘差網(wǎng)絡(luò)引進恒等快捷連接,構(gòu)造了殘差模塊。如圖7所示,直接將輸入X傳人輸出中并作為下一層的初始結(jié)果,則此時目標函數(shù)為:
殘差模塊的引入改變了網(wǎng)絡(luò)學(xué)習(xí)目標,使其不再學(xué)習(xí)一個完整的輸出H(X),而是學(xué)習(xí)輸出與輸入之間的差別,即殘差。圖8左側(cè)是殘差函數(shù),右側(cè)為對輸入的恒等映射,這兩支路徑經(jīng)過簡單的整合(對應(yīng)元素相加)后,再經(jīng)過非線性變換(激活函數(shù)),最后形成一個完整的殘差網(wǎng)絡(luò)模塊。
殘差網(wǎng)絡(luò)有很多旁路的支線直接將上一層網(wǎng)絡(luò)的輸出連接到下一層或下面多層網(wǎng)絡(luò)中,這種連接方式被稱為快捷( Shortcut)或跳躍連接(Skip Connections)。
在一個殘差網(wǎng)絡(luò)模塊中,一般快捷連接會跳躍2-3層甚至更多,但如果僅跳躍一層則意義不大,實驗效果也不理想,因為2-3層可以提供更多的非線性,擬合更復(fù)雜的F(X)。圖8左側(cè)是兩層殘差學(xué)習(xí)模塊,由兩個輸出通道數(shù)一致(殘差網(wǎng)絡(luò)是輸出減去輸入,這要求輸出與輸入的維度由保持一致)的3*3卷積網(wǎng)絡(luò)堆疊而成。但這種殘差網(wǎng)絡(luò)模塊在實際中并不是十分有效。右側(cè)是3層學(xué)習(xí)模塊,依次由1*1、3*3、l*l這3個卷積層構(gòu)成。先用I*l的卷積降維(通道數(shù)降低)后,再作3*3卷積,最后用l*l的卷積提升特征通道數(shù)。
殘差網(wǎng)絡(luò)解決了因為卷積網(wǎng)絡(luò)深度持續(xù)加深而導(dǎo)致的退化問題,在殘差網(wǎng)絡(luò)提出不久之后,Google融合ResNet和Inception V3版本,得到Inception V4[15]和Incep -tion-ResNet-V2[16],創(chuàng)造了在ImageNet數(shù)據(jù)集上TOP-5錯誤率3.08%的新低。
4 結(jié)語
本文回顧了卷積神經(jīng)網(wǎng)絡(luò)模型在近年的發(fā)展,該模型已成為深度學(xué)習(xí)在圖像與白然語言處理等[17-20]領(lǐng)域最重要的研究對象,常用的CNN模型總結(jié)如表3所示。
CNN模型研究者致力于不斷提升模型計算效率與識別精度,面對不同數(shù)據(jù)集的泛化能力,近期還涌現(xiàn)出DenseNet[21]、DPN[22](Dual Path Network),MobileNet v2[23]等模型。隨著人T智能的不斷發(fā)展及應(yīng)用場景的不斷拓展,用戶對CNN模型的要求也會越來越高,CNN必將遇到各種新挑戰(zhàn),今后很長一段時間內(nèi)卷積神經(jīng)網(wǎng)絡(luò)依然是深度學(xué)習(xí)領(lǐng)域研究重點。
[1]LOWE D G. Distinctive image features from scale-invariant key-points [J].International Journal of Computer Vision, 2004 . 60 (2) :91-110.
[2]DALAI N , TRIGCS B. Histograms of oriented gradients for human de-tection [c] . IEEE Conference on Computer Vision and Pattern Recog-nitinn.2005.1:886-893.
[3]LECLN Y. BOTTOU L, BENClO Y, et al. Gradient-hase learning ap-plied to document recognition [Jl. Proceedings of the IEEE,1998. 86(11) : 2278-2324.
[4]KRIZHEVSKY A, SUTSKEVER I, HINTON G. Imagenet classifica-tion with deep convolutional neural networks[Cl. ProceedinCs of theAdvances in Neural Information Processing Systems, 2012: 1097-1 105.
[5]SIMONYAN K, ZISSERMAN A. Very deep comnlutional networks forlarge-scale image recognition [DB/OL]. https://arxiv.org/pdf/1409.1556.pdf
[6]SZEGEDY C,LILT W,JIA Y Q,et al. Going deeper,vith convolutions[C]. Proceedings of the IEEE Conferenc.e on Computer Visinn and Pat- tern Recognition.2015: 1-9.
[7]HE K, ZHANG X. REN S,et al. Deep residual learning for image recognition [c]. Proceedings of the IEEE conference on computer ri-sion and pattern recognition. 2016:770-778.
[8]LIhr M, CHEW Q, YAN S Network in network[C]International Con-ference on Learning Representations, 2014: 1-10
[9]黃文堅,唐源.TensorFlow實戰(zhàn)[M].北京:電子工業(yè)出版社,2017.
[10]IOFFE S, SZECEDY C.Batch norrnalization: ac:celerating deep net-work training by reducing internal cox'ariate shift[C] InternatinnalConference nn International Conference on Machine Learning. JMLR.org, 2015:1-9.
[11]BECK 0,PL RWINS H. Com-nlutional neural net works with hatchnormalization for classifying hi-hat, snare. and bass percussionsound samplesEC].Proceedings of the Audio Mosth, 2016:111-115.
[12]SZECEDY C. VANHOLiCKE V, IOFFE S,et al. Rethinking the In-ception architecture for computer rision[C]. Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition,2016:2818-2826.
[13]RLPESH K S,GREFF K. JURGEhr S. Training very deep networks[C]. Proceedings of the Conference and yrorkshop on Neural Information Processing Systems,2017: 2377-2385
[14]HOCHREITER S,SCHMIDHL: BER J. Long short-term memory [J].Neural Computation,1997,9(8):1735-1780
[15]SZEGEDY C. IOFFE S,VANHOLCKE V. et al. Inception-v4, In-ception-Resnet and the impact of residual connections on learning[C]. Processdings of AAAl Conference on Artificial Intelligence,2017:4-12.
[16]XIE S, CIRSHICK R,DOLLAR P, et al. Aggregated residu al transfor-mations for deep neural networks[C].Pmceedings of the IEEE Con-ference on Computer Vision and Pattern Recognition, 2017:5987-5995.
[17]吳漢釗基于孿生卷積神經(jīng)網(wǎng)絡(luò)的人臉追蹤[J].計算機工程與應(yīng)用,2018, 54( 14): 175-179.
[18]龐亮,蘭艷艷,徐君,等深度文本匹配綜述[j].計算機學(xué)報,2017.40(4):985-1003.
[19] 李味味,章新友,仵倚,等.基于BP神經(jīng)網(wǎng)絡(luò)中藥復(fù)方功效的預(yù)測研究[J].中醫(yī)藥導(dǎo)報,2016.22 16):38-41.
[20]高學(xué),王有旺基于CNN和隨機彈性形變的相似手寫漢字識別[J].華南理工大學(xué)學(xué)報(自然科學(xué)版),2014(1):72-76.
[21] HUANG G,LIU Z. MAATEN L V D,et al. Denselv connected convo-lutional networks[C].Proceedings of the IEEE Conference on Com-puter Vision and Pattern Recognitinn, 2017: 1-9.
[22]CHEN Y, LI J, XIAO H. et al. Dual path networks[C]. Proceedingsof the IEEE Conference on Computer Vision and Pattern Recogni-tion.2017:4470-4478
[23]SANDIER M, HOWARD A. ZHU M. et al. MobilehretV2: invertedresiduals and linear bottlenecks[C].2018 IEEE/CVF Conference onComputer Vision and Pattern Recognition, 2018: 1-14
(責(zé)任編輯:江艷)
收稿日期:2019-05-27
作者簡介:洪奇峰(1992-),男,上海理工大學(xué)光電信息與計算機工程學(xué)院碩士研究生,研究方向為深度學(xué)習(xí)、目標檢測;施偉斌(1967-),男,上海理工大學(xué)光電信息與計算機工程學(xué)院副教授,研究方向為無線傳感器網(wǎng)絡(luò)、通信協(xié)議;吳迪(1995-),男,上海理工大學(xué)光電信息與計算機工程學(xué)院碩士研究生,研究方向為抗干擾通信協(xié)議;羅力源(1996-),女,上海理工大學(xué)光電信息與計算機工程學(xué)院碩士研究生,研究方向為低功耗通信。