李炳臻 劉克 顧佼佼 姜文志
摘? 要: 回顧了卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程, 介紹了卷積神經(jīng)網(wǎng)絡(luò)的基本運(yùn)算單元。在查閱大量資料基礎(chǔ)上,重點(diǎn)介紹了有代表性的AlexNet、VGGNet、GoogLeNet、ResNet等,對他們所用到的技術(shù)進(jìn)行剖析,歸納、總結(jié)、分析其優(yōu)缺點(diǎn),并指出卷積神經(jīng)網(wǎng)絡(luò)未來的研究方向。
關(guān)鍵詞: 卷積神經(jīng)網(wǎng)絡(luò); AlexNet; VGGNet; GoogLeNet; ResNet
中圖分類號:TP399? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ?文章編號:1006-8228(2021)04-08-05
Absrtact: This paper reviews the development of convolutional neural networks, and introduces the basic operation unit of convolutional neural networks. On the basis of consulting a large amount of information, this paper focuses on the representative convolutional neural networks such as AlexNet, VGGNet, GoogLeNet and ResNet etc., analyzes the technologies they used, summarizes and analyzes their advantages and disadvantages, and points out the future research direction of convolutional neural networks.
Key words: convolutional neural networks; AlexNet; VGGNet; GoogLeNet; ResNet
0 引言
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是一類包含卷積計(jì)算并且含有深層次結(jié)構(gòu)的深度前饋神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)的代表算法之一[1-2],21世紀(jì)后,隨著深度學(xué)習(xí)理論的提出和數(shù)值計(jì)算設(shè)備的改進(jìn),卷積神經(jīng)網(wǎng)絡(luò)得到了快速發(fā)展。較之于傳統(tǒng)方法,卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)在于可自動(dòng)提取目標(biāo)特征,發(fā)現(xiàn)樣本集中特征規(guī)律,解決了手動(dòng)提取特征效率低下、分類準(zhǔn)確率低的不足,因此卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于圖像分類、目標(biāo)識別、自然語言處理等領(lǐng)域[3],取得了矚目的成就。
1 卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程
卷積神經(jīng)網(wǎng)絡(luò)最早可以追溯到1943年,心理學(xué)家Warren和數(shù)理邏輯學(xué)家Walter在文獻(xiàn)[4]第一次提出神經(jīng)元的概念,通過一個(gè)簡單的數(shù)學(xué)模型將神經(jīng)反應(yīng)簡化為信號輸入、求和、線性激活及輸出,具有開創(chuàng)性意義;1958年神經(jīng)學(xué)家Frank通過機(jī)器模擬了人類的感知能力[5],這就是最初的“感知機(jī)”,同時(shí)他在當(dāng)時(shí)的計(jì)算機(jī)IBM704上完成了感知機(jī)的仿真,能夠?qū)θ切魏退倪呅芜M(jìn)行分類,這是神經(jīng)元概念提出后第一次成功的實(shí)驗(yàn),驗(yàn)證了神經(jīng)元概念的可行性。以上是神經(jīng)元發(fā)展的第一階段。第一代神經(jīng)網(wǎng)絡(luò)由于結(jié)構(gòu)單一,僅能解決線性問題。此外,認(rèn)知的限制也使得神經(jīng)網(wǎng)絡(luò)的研究止步于此。
第二代卷積神經(jīng)網(wǎng)絡(luò)出現(xiàn)于1985年,Geoffrey Hinton在神經(jīng)網(wǎng)絡(luò)中使用多個(gè)隱含層進(jìn)行權(quán)重變換,同時(shí)提出了誤差反向傳播算法(Backpropagationalgorithm,BP算法)[6],求解各隱含層的網(wǎng)絡(luò)參數(shù),優(yōu)點(diǎn)是理論基礎(chǔ)牢固、通用性好,不足之處在于網(wǎng)絡(luò)收斂速度慢、容易出現(xiàn)局部極小的問題;1988年,Wei Zhang提出平移不變?nèi)斯ど窠?jīng)網(wǎng)絡(luò)[7](SIANN),將其應(yīng)用在醫(yī)學(xué)圖像檢測領(lǐng)域;1989年,LeCun構(gòu)建了應(yīng)用于計(jì)算機(jī)視覺問題的卷積神經(jīng)網(wǎng)絡(luò),也就是LeNet的早期版本,包含兩個(gè)卷積層、兩個(gè)全連接層共計(jì)6萬多個(gè)參數(shù),結(jié)構(gòu)上與現(xiàn)代的卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)相似,而且開創(chuàng)性的提出了“卷積”這一概念,卷積神經(jīng)網(wǎng)絡(luò)因此得名。1998年LeCun構(gòu)建了更加完備的卷積神經(jīng)網(wǎng)絡(luò)LeNet-5[8]并將其應(yīng)用于手寫字體識別,在原有LeNet的基礎(chǔ)上加入了池化層,模型在Mnist上的識別準(zhǔn)確率達(dá)到了98%以上,但由于當(dāng)時(shí)不具備大規(guī)模計(jì)算能力的硬件條件,因此卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展并沒有引起足夠的重視。
第三代卷積神經(jīng)網(wǎng)絡(luò)興起于2006年,統(tǒng)稱為深度學(xué)習(xí),分為兩個(gè)階段,2006至2012年為快速發(fā)展期,2012至今為爆發(fā)期,訓(xùn)練數(shù)據(jù)量越大,卷積神經(jīng)網(wǎng)絡(luò)準(zhǔn)確率越高,同時(shí)隨著具備大規(guī)模計(jì)算能力GPU的應(yīng)用,模型的訓(xùn)練時(shí)間大大縮短,深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展是必然的趨勢。2006年Hintont提出了包含多個(gè)隱含層的深度置信網(wǎng)絡(luò)[9](Deep BeliefNetwork,DBN),取得了十分好的訓(xùn)練效果,DBN的成功實(shí)驗(yàn)拉開了卷積神經(jīng)網(wǎng)絡(luò)百花齊放的序幕:自2012年AlexNet[10]取得ImageNet視覺挑戰(zhàn)賽的冠軍,幾乎每年都有新的卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生,諸如ZFNet[11]、VGGNet[12]、GoogLeNet[13]、ResNet[14]以及DPRSNet[15]等等,都取得了很好的效果。
2 卷積神經(jīng)網(wǎng)絡(luò)的基本運(yùn)算單元
卷積神經(jīng)網(wǎng)絡(luò)中隱含層低層中的卷積層與池化層交替連接,構(gòu)成了卷積神經(jīng)網(wǎng)絡(luò)的核心模塊,高層由全連接層構(gòu)成。
2.1 卷積層
卷積層用于提取輸入的特征信息,由若干卷積單元組成,每個(gè)卷積單元的參數(shù)都是通過反向傳播算法優(yōu)化得到的,通過感受野(filter)對輸入圖片進(jìn)行有規(guī)律的移動(dòng),并與所對應(yīng)的區(qū)域做卷積運(yùn)算提取特征;低層卷積只能提取到低級特征,如邊緣、線條等,高層卷積可以提取更深層的特征。
卷積層參數(shù)包括filter大小、步長(stride)和邊界填充(pad),三者共同決定了卷積層輸出特征圖的尺寸大小;感受野大小小于輸入圖片尺寸,感受野越大,可提取的特征越復(fù)雜;stride定義了filter掃過相鄰區(qū)域時(shí)的位置距離;pad是在特征圖周圍進(jìn)行填充避免輸出特征丟失過多邊緣信息的方法,pad值代表填充層數(shù)。
卷積層的運(yùn)算過程如圖1,輸入為一個(gè)5×5×3的圖像,pad=1,邊界填充后,尺寸為7×7×3,使用3×3×3感受野進(jìn)行卷積運(yùn)算,整個(gè)運(yùn)算過程可以看成卷積核輸入層上滑動(dòng)計(jì)算,每次滑動(dòng)的距離為2,從原圖左上角開始從左至右滑動(dòng)進(jìn)行卷積運(yùn)算,這一行處理結(jié)束后,移動(dòng)到下一行,繼續(xù)向右滑動(dòng),直至覆蓋所有區(qū)域,共得到9個(gè)運(yùn)算結(jié)果,輸出3×3的矩陣,稱為特征圖。表達(dá)式如下:
在公式⑴中,[fx]代表輸出特征,[θij]代表第i行j列的卷積核元素大小,[χij]代表第i行j列元素大小,b為偏差。卷積層具有局部感受野、權(quán)值共享的特點(diǎn),可以減少網(wǎng)絡(luò)中的參數(shù)。
2.2 激活函數(shù)層
卷積運(yùn)算提取到的圖像特征是線性的,但真正的樣本往往是非線性的,為此引入非線性函數(shù)來解決。激活函數(shù),使得每個(gè)像素點(diǎn)可以用0到1的任何數(shù)值來代表,模擬更為細(xì)微的變化。激活函數(shù)一般具有非線性、連續(xù)可微、單調(diào)性等特性。
比較常用的激活函數(shù)有Sigmod函數(shù)、tanh函數(shù),以及ReLU函數(shù)(Rectified Linear Unit,即線性整流函數(shù))。Sigmod函數(shù)的定義式是[fx=11+e-x],tanh函數(shù)的定義式為[fx=ex-e-xex+e-x],ReLU函數(shù)的定義式為[fx=max (0,x)],曲線如圖2。
sigmod函數(shù)單調(diào)易求導(dǎo),但輸出不以0為中心,且飽和時(shí)梯度非常小,網(wǎng)絡(luò)權(quán)值得不到有效的更新;tanh函數(shù)本質(zhì)上為2×sigmod(2[x)-1],仍存在飽和時(shí)梯度過小的問題;ReLU函數(shù)具有單側(cè)抑制、稀疏激活性的特點(diǎn),即在x>0時(shí),梯度恒為1,無梯度耗散問題;x<0時(shí),輸出為0,訓(xùn)練結(jié)束后神經(jīng)元為0越多,網(wǎng)絡(luò)越稀疏,提取出的特征越具有代表性,能夠緩解過擬合的問題。
缺點(diǎn)在于強(qiáng)制的稀疏處理會(huì)導(dǎo)致模型無法學(xué)習(xí)到有效的特征。最常用是ReLU函數(shù),但要注意學(xué)習(xí)率的設(shè)置,防止過多神經(jīng)元壞死。
2.3 池化層
池化層的作用為壓縮特征圖,提取主要特征,簡化網(wǎng)絡(luò)計(jì)算的復(fù)雜度。池化方式一般有兩種,均值池化與最大池化。示意如圖3。
圖3中,采用一個(gè)2×2的filter,stride為2,padding為0。最大池化即在2×2的區(qū)域中尋找最大值;均值池化則是求每一個(gè)2×2的區(qū)域中的平均值,得到主要特征。一般最常用的filter取值為2,stride為2,池化操作將特征圖縮小,有可能影響網(wǎng)絡(luò)的準(zhǔn)確度,但可以通過增加網(wǎng)絡(luò)深度來彌補(bǔ)。
2.4 全連接層
全連接層位于卷積神經(jīng)網(wǎng)絡(luò)的最后,給出最后的分類結(jié)果,在全連接層中,特征圖會(huì)失去空間結(jié)構(gòu),展開為特征向量,并把由前面層級所提取到的特征進(jìn)行非線性組合得到輸出可用公式⑵表示。
公式⑵中,x為全連接層的輸入,W為權(quán)重系數(shù),b為偏置。全連接層連接所有特征輸出至輸出層,對于圖像分類問題,輸出層使用邏輯函數(shù)或歸一化指數(shù)函數(shù)(softmax function)輸出分類標(biāo)簽[16]。在識別(object detection)問題中,輸出層輸出為物體的中心坐標(biāo)、大小和分類[16]。在語義分割中,則直接輸出每個(gè)像素的分類結(jié)果[16]。
3 幾種性能優(yōu)異的卷積神經(jīng)網(wǎng)絡(luò)
3.1 AlexNet
AlexNet贏得了2012 ILSVRC(ImageNet 大規(guī)模視覺識別挑戰(zhàn)賽)的冠軍。2012年是CNN首次實(shí)現(xiàn)Top 5誤差率15.4%的一年(Top 5誤差率是指給定一張圖像,其標(biāo)簽不在模型認(rèn)為最有可能的5個(gè)結(jié)果中的概率),第二名使用傳統(tǒng)識別方法得到的誤差率為26.2%。卷積神經(jīng)網(wǎng)絡(luò)在這次比賽的表現(xiàn)震驚了整個(gè)計(jì)算機(jī)視覺界,奠定了卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域的絕對地位。
AlexNet包含6億3千萬個(gè)連接,6000萬個(gè)參數(shù)和65萬個(gè)神經(jīng)元,網(wǎng)絡(luò)結(jié)構(gòu)如圖4。
AlexNet的成功,除了深層次的網(wǎng)絡(luò)結(jié)構(gòu),還有以下幾點(diǎn):首先,采用ReLU作為激活函數(shù),避免了梯度耗散問題,提高了網(wǎng)絡(luò)訓(xùn)練的速度;其次,通過平移、翻轉(zhuǎn)等擴(kuò)充訓(xùn)練集,避免產(chǎn)生過擬合;最后提出并采用了LRN(Local Response Normalization,局部響應(yīng)歸一化處理),利用臨近的數(shù)據(jù)做歸一化處理技術(shù),提高深度學(xué)習(xí)訓(xùn)練時(shí)的準(zhǔn)確度;除此之外,AlexNet使用GPU處理訓(xùn)練時(shí)所產(chǎn)生大量的矩陣運(yùn)算,提升了網(wǎng)絡(luò)的訓(xùn)練效率。
3.2 VGGNet
VGGNet是牛津大學(xué)與GoogleDeepMind公司的研究員一起合作開發(fā)的卷積神經(jīng)網(wǎng)絡(luò),2014年取得了ILSVRC比賽分類項(xiàng)目的亞軍和識別項(xiàng)目的冠軍。VGGNet探索了網(wǎng)絡(luò)深度與其性能的關(guān)系,通過構(gòu)筑16-19層深的卷積神經(jīng)網(wǎng)絡(luò),Top 5誤差率為7.5%,在整個(gè)卷積神經(jīng)網(wǎng)絡(luò)中,全部采用3×3的卷積核與2×2的池化核,網(wǎng)絡(luò)結(jié)構(gòu)如圖5。
VGGNet包含很多級別的網(wǎng)絡(luò),深度從11層到19層不等,最常用的是VGG-16和VGG-19。VGGNet把網(wǎng)絡(luò)分成了5段,每段都把多個(gè)3×3的網(wǎng)絡(luò)串聯(lián)在一起,每段卷積后接一個(gè)最大池化層,最后是3個(gè)全連接層和一個(gè)softmax層。
VGGNet有兩個(gè)創(chuàng)新點(diǎn)。①通過網(wǎng)絡(luò)分段增加網(wǎng)絡(luò)深度、采用多層小卷積代替一層大卷積,2個(gè)3×3的卷積核相當(dāng)于5×5的感受野,三個(gè)相當(dāng)于7×7的感受野。優(yōu)勢在于:首先包含三個(gè)ReLU層增加了非線性操作,對特征的學(xué)習(xí)能力更強(qiáng);其次減少了參數(shù),使用3×3的3個(gè)卷積層需要3×(3×3×n)=27×n個(gè)參數(shù),使用7×7的一個(gè)卷積層需要7×7×n=49×n個(gè)參數(shù)。②在訓(xùn)練過程中采用了多尺度和交替訓(xùn)練的方式,同時(shí)對一些層進(jìn)行預(yù)訓(xùn)練,使得VGGNet能夠在較少的周期內(nèi)收斂,減輕了神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)間過長的問題。不足之處在于使用三個(gè)全連接層,參數(shù)過多導(dǎo)致內(nèi)存占用過大,耗費(fèi)過多的計(jì)算資源。
VGGNet是最重要的神經(jīng)網(wǎng)絡(luò)之一,它強(qiáng)調(diào)了卷積網(wǎng)絡(luò)的深度的增加對于性能的提升有著重要的意義。
3.3 GoogLeNet
GoogLeNet是由谷歌研究院提出的卷積神經(jīng)網(wǎng)絡(luò),獲得2014年的ILSVRC比賽分類任務(wù)的冠軍,Top 5誤差率僅為為6.656%。GoogLeNet的網(wǎng)絡(luò)共有22層,但參數(shù)僅有700萬個(gè),比之前的網(wǎng)絡(luò)模型都少很多。一般來說,提升網(wǎng)絡(luò)性能最直接的辦法就是增加網(wǎng)絡(luò)深度,隨之增加的還有網(wǎng)絡(luò)中的參數(shù),但過量的參數(shù)容易產(chǎn)生過擬合,也會(huì)增大計(jì)算量。GoogLeNet采用稀疏連接解決這種問題,為此提出了inception的結(jié)構(gòu),如圖6所示。
在inception結(jié)構(gòu)中,同時(shí)采用1×1、3×3、5×5卷積核是為了將卷積后特征圖保持一致,便于融合,stride=1,padding分別為0、1、2,卷積后就可得到相同維度的特征,最后進(jìn)行拼接,將不同尺度的特征進(jìn)行融合,使得網(wǎng)絡(luò)可更好的提取特征。
在整個(gè)網(wǎng)絡(luò)中,越靠后提取到的特征也越抽象,每個(gè)特征所對應(yīng)的感受野也隨之增大,因此隨著層數(shù)的增加,3×3、5×5卷積核的比例也要隨之增加,這樣也會(huì)帶來巨大的參數(shù)計(jì)算,為此GoogLeNet也有過諸多改進(jìn)版本,GoogLeNet Inception V2、V3以及V4,通過增加Batch Normalization、在卷積之前采用1×1卷積降低緯度、將n×n的卷積核替換為1×n和n×1等方法降低網(wǎng)絡(luò)參數(shù),提升網(wǎng)絡(luò)性能。
3.4 ResNet
ResNet于2015年被提出,獲得了ILSVRC比賽的冠軍,ResNet的網(wǎng)絡(luò)結(jié)構(gòu)有152層,但Top 5錯(cuò)誤率僅為3.57%,之前的網(wǎng)絡(luò)都很少有超過25層的,這是因?yàn)殡S著神經(jīng)網(wǎng)絡(luò)深度的增加,模型準(zhǔn)確率會(huì)先上升然后達(dá)到飽和,持續(xù)增加深度時(shí),準(zhǔn)確率會(huì)下降;因?yàn)殡S著層數(shù)的增多,會(huì)出現(xiàn)梯度爆炸或衰減現(xiàn)象,梯度會(huì)隨著連乘變得不穩(wěn)定,數(shù)值會(huì)特別大或者特別小;因此網(wǎng)絡(luò)性能會(huì)變得越來越差。ResNet通過在網(wǎng)絡(luò)結(jié)構(gòu)中引入殘差網(wǎng)絡(luò)來解決此類問題,殘差網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖7所示。
很明顯,殘差網(wǎng)絡(luò)是跳躍結(jié)構(gòu),殘差項(xiàng)原本是帶權(quán)值的,但ResNet用恒等映射代替了它。在圖7中,輸入為x,期望輸出為H(x),通過捷徑連接的方式將x傳到輸出作為初始結(jié)果,輸出為H(x)=F(x)+x,當(dāng)F(x)=0時(shí),H(x)=x。于是,ResNet相當(dāng)于將學(xué)習(xí)目標(biāo)改變?yōu)槟繕?biāo)值H(X)和x的差值,也就是所謂的殘差F(x)=H(x)-x,因此,后面的訓(xùn)練目標(biāo)就是要將殘差結(jié)果逼近于0。
ResNet通過提出殘差學(xué)習(xí),將殘差網(wǎng)絡(luò)作為卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu),通過恒等映射,來解決因網(wǎng)絡(luò)模型層數(shù)過多導(dǎo)致的梯度爆炸或衰減問題,可以最大程度地加深網(wǎng),并得到非常好的分類效果。
4 結(jié)束語
本文對卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)行了梳理和分析,歸納、總結(jié)了卷積神經(jīng)網(wǎng)絡(luò)中基本的運(yùn)算單元,重點(diǎn)剖析了幾個(gè)性能優(yōu)異應(yīng)用廣泛的卷積神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)目前已得到了廣泛的應(yīng)用,但仍然存在大量值得研究的熱點(diǎn)方向:
⑴ 如何設(shè)計(jì)結(jié)構(gòu)可以使得模型具備更高程度的智能化,從而解決更加復(fù)雜的問題;
⑵ 隨著卷積神經(jīng)網(wǎng)絡(luò)層數(shù)的不斷加深,卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,勢必會(huì)消耗大量能耗、占用大量內(nèi)存,應(yīng)用在生產(chǎn)中如何降低能耗,降低生產(chǎn)成本;
⑶ 手機(jī)的大力普及對于卷積神經(jīng)網(wǎng)絡(luò)的實(shí)時(shí)性需求增加,如何設(shè)計(jì)輕量級、小巧的卷積神經(jīng)網(wǎng)絡(luò),同時(shí)保證實(shí)時(shí)性與模型性能也是值得研究的問題。
參考文獻(xiàn)(References):
[1] Goodfellow, I., Bengio, Y., Courville, A..Deep learning(Vol. 1).Cambridge:MIT press,2016:326-366
[2] Gu, J., Wang, Z., Kuen, J., Ma, L., Shahroudy, A., Shuai,B., Liu, T., Wang, X., Wang, L., Wang, G. and Cai, J., 2015. Recent advances in convolutional neural networks. arXiv preprint arXiv:1512.07108
[3] Sun B, Ju Q Q, Sang Q B. Image dehazing algorithm based on FC-DenseNet and WGAN[J]. Journal of Frontiers of Computer Science and Technology,2020.14(8):1380-1388
[4] McCulloch W S, Pitts W. A logical calculus of the ideas immanent in nervous activity[J]. The bulletin of mathematical biophysics,1943.5(4):115-133
[5] Rosenblatt, F. The perceptron: A probabilistic model for information storage andorganizationin the brain[J]. Psychological Review,65(6):386-408
[6] Rumelhart D E, Hinton G E, Williams R J. Learning Representations by Back Propagating Errors[J].Nature,1986.323(6088):533-536
[7] Zhang, W., 1988. Shift-invariant pattern recognition neural network and its optical architecture. In Proceedings of annual conference of the Japan Society of Applied Physics.
[8] LeCun, Y., Bottou, L., Bengio, Y. and Haffner, P., 1998.Gradient-based learning applied to document recognition. Proceedings of the IEEE,86(11):2278-2324
[9] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief net[J].NeuralComputxtion,2006.18(7):1527-1554
[10] Krizhevsky A,Sutskever I,Hinton G E.Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems,2012:1097-1105
[11] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]//European conference on computer vision. Springer, Cham,2014:818-833
[12] Simonyan K, Zisserman A. Very Deep Convolutional?Networks for Large Scale Image Recognition[J]. Computer ence, 2014.
[13] Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C]//Proceedings of International Conference on Computer Vision and Pattern Recognition,2015.
[14] Huang G, Liu Z, Van Der Maaten L, et al. Densely connected convolutional networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2017:4700-4708
[15] Yamada Y, Iwamura M, Kise K. Deep pyramidal residual networks with separated stochastic depth[J]. arXiv preprint arXiv:1612.01230, 2016.
[16] 芮挺,費(fèi)建超,周遊,方虎生,朱經(jīng)緯.基于深度卷積神經(jīng)網(wǎng)絡(luò)的行人檢測[J].計(jì)算機(jī)工程與應(yīng)用,2016.52(13):162-166