基于卷積核分解的深度CNN模型結(jié)構(gòu)優(yōu)化及其在小圖像識別中的應(yīng)用

2018-06-01 09:39:21羅富貴李明珍

井岡山大學學報(自然科學版) 2018年2期

羅富貴，李明珍,2

（1. 河池學院計算機與信息工程學院，廣西，宜州 546300；2. 北京郵電大學網(wǎng)絡(luò)空間安全學院，北京100876）

1 概述

小圖像識別是計算機視覺中的重要任務(wù)之一，在遙感圖像分析、小物體檢測及低質(zhì)量圖像理解等方面具有重要應(yīng)用。但小圖像具有象素少、分辨率低的特點，包含有效信息有限，其分類與識別難度較大。傳統(tǒng)基于手工特征的方法設(shè)計復(fù)雜，特征可辨別能力有限，尤其在小圖像分類與識別任務(wù)上，難以取得較高的性能，不能滿足人們的需求。深度CNN(Convolutional Neural Networks，卷積神經(jīng)網(wǎng)絡(luò))技術(shù)采用“端到端”的訓(xùn)練機制，將特征提取和模型訓(xùn)練融為一體，通過多次使用前向和反向傳播算法，對參數(shù)進行優(yōu)化，中間無需人工干涉；它將傳統(tǒng)特征設(shè)計變成模型設(shè)計，簡化了特征設(shè)計過程。深度 CNN技術(shù)已在多種視覺任務(wù)上取得了驚人的突破，在圖像分類與識別[1-4]、目標檢測[5-6]、圖像分割[7-8]及視頻人體動作識別[9-10]等領(lǐng)域均取得了當前最優(yōu)的結(jié)果，其性能遠遠高于傳統(tǒng)方法。

在小圖像識別領(lǐng)域，深度CNN技術(shù)也取得了重要進展，在多個數(shù)據(jù)集上已達到或超過人眼水平。但目前使用深度CNN技術(shù)對小圖像進行識別時，其模型深度一般較淺，特征變換層次不夠，特征抽象程度和表達能力不強；但眾多研究已經(jīng)證明，特征變換的深度是提高特征可辨別能力的關(guān)鍵因素，是提升性能的重要保證[1-4,11]；而大多數(shù)較深的模型卻是針對大圖像的視覺任務(wù)而設(shè)計，難以直接應(yīng)用到小圖像識別上，且較深的模型往往會帶來神經(jīng)元個數(shù)及參數(shù)個數(shù)較多，模型運算復(fù)雜度較高的弊端。本文應(yīng)用卷積核分解的原理，在當前流行的超深度模型VGG19的基礎(chǔ)上，對其中的大多數(shù)卷積核進行分解，調(diào)整多個階段的卷積層個數(shù)，減少多個層次的輸出通道數(shù)，設(shè)計了 KDS-DCNN（Kernel Decomposition Super Deep CNN）模型。該模型不但進一步增加了線性和非線性變換層次，同時進一步減少了模型中神經(jīng)元個數(shù)和參數(shù)規(guī)模，降低了運算復(fù)雜度。在 CIFAR-10[12]和 CIFAR-100[12]兩個數(shù)據(jù)集上均達到了當前最優(yōu)水平，在 SVHN（Street View House Number，街景數(shù)字）數(shù)據(jù)集[13]上也取得了較高的識別率。

2 相關(guān)工作

圖像的分類與識別工作，在傳統(tǒng)方法中，一般使用基于局部特征描述子的方式提取圖像特征，如HOG（Histogram of Oriented Gradients，梯度方向直方圖）[14]、SIFT（Scale Invariant Feature Transform，尺度不變特征變化）[15]等；接著使用K-means或 GMM（Gaussian Mixture Model，混合高斯模型）等聚類算法生成視覺單詞碼本；然后使用碼本對圖像特征描述子進行量化，每張圖像生成一個維度較低的特征向量并作為該圖像的最終表示；最后使用各種分類工具對特征向量進行訓(xùn)練和分類（如：SVM（Support Vector Machine，支持向量機）等）。這些方法具有堅實的理論基礎(chǔ)，能夠針對具體問題對算法進行有效調(diào)整；但這些模型所使用的特征缺少圖像整體空間結(jié)構(gòu)信息，識別性能較差。為克服此問題，此后出現(xiàn)了SPM（Spatial Pyramid Match，空間金字塔匹配）模型[16]，這種方法充分考慮了圖像中的空間信息，將不同尺度下的特征融合在一起，作為圖像的表達，顯著提高了識別性能。但這些傳統(tǒng)方法，其特征均基于手工設(shè)計，設(shè)計過程復(fù)雜，特征變換層次不夠，抽象及表達能力不強；尤其是在小圖像識別方面，由于圖像較小，圖像內(nèi)物體及場景邊界較為模糊，其能夠提取的特征描述子有限，最終生成的特征向量可辨別能力差，性能難以大幅提升。

深度CNN技術(shù)自出現(xiàn)以來，已在多個視覺任務(wù)上取得重大突破。CNN技術(shù)起源于 LeCun等人，其研究組設(shè)計的 LeNet5模型[17]通過多次卷積、降采樣和激活操作，在手寫體數(shù)字識別上獲得了較高的識別率，達到了商用級別；但限于當時的軟硬件條件限制，難以使用更多的層次對特征進行變換，在場景較為復(fù)雜的圖像識別上，難以取得很好的效果。Krizhevsky等人結(jié)合了深度學習的思想和CNN技術(shù)，設(shè)計了Alex-Net模型[1]，在Imagenet數(shù)據(jù)集上大幅提升了分類識別性能，效果達到了當時最優(yōu)。該模型深度達到了8層，特征變換層次明顯增加，并創(chuàng)造性地使用了LRN（Local Response Normalization，局部響應(yīng)歸一化）歸一化技術(shù)和 Dropout技術(shù)，防止過擬合的發(fā)生。此后，在Alex-Net模型的基礎(chǔ)上，又出現(xiàn)了 ZF-Net[18]、Chatfied-Net[19]等深度模型，對Alex-Net中的部分層次做了優(yōu)化，進一步改善了識別效果。以上幾個模型深度有限，特征抽象程度有待于進一步增強。Szegedy等人設(shè)計了Inception組件，并在其基礎(chǔ)上設(shè)計了GoogLeNet模型[2]，其卷積層個數(shù)達到了59個，性能優(yōu)越，且其比 Alex-Net模型參數(shù)更少，復(fù)雜度更低。Zisserman領(lǐng)導(dǎo)的VGG工作組設(shè)計了VGG16/19模型[3]，它的結(jié)構(gòu)較為簡單，所有下層變換均只依賴于來自于上層的特征圖，且其所有卷積層使用相同大小的卷積核，其特征圖降采樣只使用最大值池化變換；VGG模型變換層次較多，性能與GoogLeNet相近，但該模型由于在頂層池化層和全連接層對接時，池化層所生成的特征圖過大，導(dǎo)致參數(shù)及模型復(fù)雜度急劇增加，其參數(shù)規(guī)模比GoogLeNet模型高近25倍。

以上模型均為針對大圖像的識別而設(shè)計，在小圖像上無法使用。Lin等人根據(jù)小圖像的特點設(shè)計了NIN（Network In Network，網(wǎng)中網(wǎng)）模型[20]，它通過在兩個使用不同大小特征圖的卷積層之間增加更多的非線性變換，進一步增強特征的抽象能力；但NIN模型由于使用了較大的卷積核，使得參數(shù)規(guī)模和模型復(fù)雜度較高。Springenberg等人提出All-CNN模型[21]，它使用全卷積的方式以消除傳統(tǒng)CNN網(wǎng)絡(luò)中使用降采樣層和全連接層的情況，通過增大卷積步長對特征圖進行降采樣，通過多次使用大于1的步長，最終使得特征圖退化為1×1大小，將所有特征圖連接起來，形成特征向量。其他還有針對小圖像分類與識別的技術(shù)如DropConnect[22]和Maxout[23]等，兩者均為防止網(wǎng)絡(luò)過擬合而設(shè)計，功能與Dropout技術(shù)類似，其驗證模型前者只使用3個卷積變換，后者雖然變換層次稍多，但參數(shù)規(guī)模巨大，模型復(fù)雜度過高。因此以上模型也存在著或特征變換層次不夠、特征表達能力不強，或參數(shù)較多、復(fù)雜度高的缺點。為克服此問題，一方面需要進一步增加網(wǎng)絡(luò)的深度，另一方面需要對模型參數(shù)和復(fù)雜度進行限制。我們根據(jù)卷積核分解的原理，在VGG19模型的基礎(chǔ)上，設(shè)計了KDS-DCNN模型。

3 KDS-DCNN模型

3.1 模型原理

如圖1所示，(a)中使用3×3大小的卷積核對特征圖進行卷積后，得到神經(jīng)元{5}；而在(b)中，第一次使用2×2大小的卷積核對特征圖進行卷積后，得到神經(jīng)元{a,b,c,d}，再次使用2×2大小卷積核對特征圖進行卷積，同樣得到神經(jīng)元{5}。但在使用2×2卷積核時，比使用3×3卷積核多了一次非線性變換，加深了網(wǎng)絡(luò)的層次和深度。

圖1 模型原理圖Fig.1 Fundamental of the model

在加深網(wǎng)絡(luò)深度的同時，也減少了網(wǎng)絡(luò)參數(shù)的個數(shù)和模型復(fù)雜度。設(shè)表示參數(shù)個數(shù)，.表示模型運算復(fù)雜度。在深度CNN中，其參數(shù)規(guī)模主要集中于卷積層和全連階層，而模型復(fù)雜度也主要取決于卷積運算和全連接運算?？梢允褂檬?1)、式(2)對其進行計算[11]。

上式中，d表示網(wǎng)絡(luò)深度（此處指卷積層個數(shù)），和kw分別表示第l層中卷積核的高和寬（一般有：l），和分別表示本層所生成特征圖的高和寬，當l=1時，若輸入為3通道彩色圖像，則= 3 ；當l＞1時，若橫向和縱向卷積步長為和，橫向和縱向特征圖補位欄數(shù)為和，則有：

由(1)式和(2)式可知，模型參數(shù)主要與卷積核大小、上層通道數(shù)和下層通道數(shù)有關(guān)；模型復(fù)雜度除與卷積核大小、上下層通道數(shù)有關(guān)外，還與本層所生成特征圖大小有關(guān)。

考慮兩種情況，首先假設(shè)上層通道與下層通道數(shù)相同，設(shè)為；特征圖大小設(shè)置為，則對于第l層來說，其參數(shù)個數(shù)為：，模型運算復(fù)雜度為：；分解后的小卷積核大小設(shè)置為，則原卷積核可分解為=個小卷積核的疊加，此時，使用小卷積核疊加后的參數(shù)個數(shù)及模型復(fù)雜度為：==m；其卷積核大小設(shè)置為：

由于，則有：

其次，當上層通道數(shù)與下層通道數(shù)不同時，一般有，此時對于第l個卷積層，其卷積核分解后，若為奇數(shù)，可設(shè)堆疊的第一個和最后一個小卷積核輸入通道數(shù)為，輸出通道數(shù)為，其中小卷積核的輸入輸出可交替使用和，則參數(shù)規(guī)模和復(fù)雜度為：

此時，仍有(7)式成立。

為偶數(shù)，各小卷積核的輸入和輸出通道數(shù)不能交替使用，否則下層卷積輸入通道數(shù)與原未分解時的下層卷積輸入通道數(shù)不能匹配，導(dǎo)致后續(xù)輸入和輸出通道數(shù)的連鎖反應(yīng)，可能會使分解失去意義。此時為限制參數(shù)個數(shù)和復(fù)雜度，我們使用了兩種方式。其一是在模型較低層，可在輸入輸出通道數(shù)變化的層次，不對卷積核進行分解；由于較低層輸入輸出通道數(shù)較少，此時參數(shù)規(guī)模和復(fù)雜度對整個模型影響不大。其二，在模型較高層，保持輸入和輸出通道數(shù)不變，便于卷積核分解。

3.2 模型結(jié)構(gòu)

我們采用VGG19模型作為卷積核分解的基礎(chǔ)模型。VGG19模型是為較大圖像的分類與識別而設(shè)計，共包含 16個卷積層和兩個全連接層，其卷積核統(tǒng)一使用 3×3大小。VGG19模型參數(shù)達到了145M 以上，且復(fù)雜度極高；同時由于較高層降采樣之后，特征圖較小，如果輸入圖像較小，其3×3大小的卷積核可能會超出特征圖大小，使得卷積操作無法進行。我們在VGG19的基礎(chǔ)上對大部分3×3大小的卷積核進行了分解，將其卷積層分解為兩個疊加的帶2×2大小的卷積核的卷積層；同時，由于輸入圖像較小，在模型高層，其特征圖更小，更多的卷積和非線性變換對提升最終特征的表達能力作用有限。因此，我們將在模型高層中的部分卷積和非線性變換操作放入模型較低層中，以保證變換的深度。

如表1所示，為限制參數(shù)規(guī)模和模型復(fù)雜度，本文大幅減少了輸出通道的個數(shù)，在卷積層僅使用64和128。在頂層兩個全連接層，VGG19模型中每個全連接層輸出通道均為4096，而本文則使用512。由于第一個卷積層Conv1_1的輸入通道為3，輸出通道為64，不宜將其卷積核分解為兩個2×2的小卷積核，否則，分解后的卷積層輸出通道難以確定，若直接使用64，則其復(fù)雜度將會增加。因此將卷積核大小保持不變。同理，Conv2_1卷積層，由于輸入通道為64，輸出通道為128，同樣不適宜做卷積核分解。在Stage3、Stage4和Stage5中，每個階段比VGG19少用了一個卷積變換，但在Stage2中，連續(xù)使用6個帶2×2卷積核的卷積層以做補償。本文的模型共有 28個卷積層，加上三個全連接層，共有31個權(quán)重層，其深度遠大于VGG19模型。

表1 VGG19結(jié)構(gòu)和KDS-DCNN模型主要結(jié)構(gòu)Table 1 Configuration of VGG19 and the proposed KDS-DCNN model

3.3 模型復(fù)雜度分析

深度CNN模型的復(fù)雜度可從三個方面進行分析，首先是參數(shù)規(guī)模，其次是模型運算時間復(fù)雜度，最后是神經(jīng)元個數(shù)。其參數(shù)規(guī)模和模型運算復(fù)雜度可由(1)式和(2)式得出，神經(jīng)元個數(shù)可由下式計算得出：

設(shè)數(shù)據(jù)集中小圖像大小為32×32，使用圖像剪切數(shù)據(jù)擴增技術(shù)，剪切的圖像塊大小為28×28，即= 2 8；每層卷積核高和寬相同，即；所有圖像均為 3通道彩色圖，即= 3 ，則KDS-DCNN模型的復(fù)雜度如表2所示。

表2 KDS-DCNN模型復(fù)雜度Table 2 The model complexity of KDS-DCNN

4 實驗驗證

4.1 數(shù)據(jù)集

本文使用了當前流行的小圖像公開數(shù)據(jù)集CIFAR-10、CIFAR-100和SVHN來驗證模型效果。CIFAR-10和CIFAR-100數(shù)據(jù)集中各包含60000張32×32的彩色圖像，其中50000張用于訓(xùn)練，10000張用于測試；CIFAR-10中所有樣本共分為10類，CIFAR-100則分為100類。SVHN數(shù)據(jù)集共包含近99289張32×32的彩色街景數(shù)字圖像，其中73257張用于訓(xùn)練，26032張用于測試，此外，還有53萬多張額外訓(xùn)練圖像。如圖2、圖3和圖4所示，其為放大后的圖像示例?？梢钥闯?，各數(shù)據(jù)集圖像較為模糊，分辨率較低，且很多圖像背景較為復(fù)雜，干擾較多，識別困難。

圖2 CIFAR-10數(shù)據(jù)集部分圖像Fig.2 Examples from CIFAR-10 dataset

圖3 CIFAR-100數(shù)據(jù)集部分圖像Fig.3 Examples from CIFAR-100 dataset

圖4 SVHN數(shù)據(jù)集部分圖像Fig.4 Examples from SVHN dataset

按照上述數(shù)據(jù)集的一般使用規(guī)則，在CIFAR-10和 CIFAR-100數(shù)據(jù)集中，首先使用訓(xùn)練集中的40000張圖像進行訓(xùn)練，剩余的10000張圖像用于驗證，以尋找最佳迭代次數(shù)，防止過擬合；然后將驗證集中的圖像重新合并到訓(xùn)練集中再次訓(xùn)練，一直迭代到最佳迭代次數(shù)，停止訓(xùn)練。在SVHN數(shù)據(jù)集上，將訓(xùn)練集和擴展訓(xùn)練集進行合并，首先從原訓(xùn)練集中選擇4000張，并從擴展訓(xùn)練集中選擇2000張圖像作為驗證集，其余作為訓(xùn)練集，尋找最佳迭代次數(shù)；然后將驗證集和訓(xùn)練集合并重新訓(xùn)練，一直訓(xùn)練到最佳迭代次數(shù)為止。

4.2 實驗設(shè)置

首先使用了數(shù)據(jù)擴增技術(shù)，保持原圖像大小不變，按照28×scale大小截取圖像左上角、右上角、左下角、右下角和中間部分圖像塊，scale=[1.0,0.85,0.75,0.66]，然后將截取后的圖像塊進行水平翻轉(zhuǎn)，并將所有圖像塊縮放到28×28大??；因此，每張圖像共得到 40個圖像塊，整個訓(xùn)練集擴增為原來的 40倍[24]。在測試時，不對測試圖像進行縮放，直接取其左上角、右上角、左下角、右下角和中間部分28×28大小圖像塊及其水平翻轉(zhuǎn)圖像塊進行測試，然后計算所有圖像塊的概率均值，最終得到預(yù)測分數(shù)，分值最高者所對應(yīng)的類別標號即為預(yù)測標簽。我們使用 GPU加速訓(xùn)練過程，并使用最小batch_size機制和隨機梯度下降算法加快收斂速度。為保證內(nèi)存不溢出，將batch_size設(shè)置為20；初始學習率設(shè)置為0.01，使用多項式下降策略在每次迭代之后對學習率進行調(diào)整，經(jīng)過實驗發(fā)現(xiàn)，在三個數(shù)據(jù)集上，迭代 30萬次時，模型已收斂到最優(yōu)，此時學習率將下降到0.0001左右。同時為了防止模型陷入局部最優(yōu)，在參數(shù)更新時，添加了動量因子，其值設(shè)置為 0.9；為了防止過擬合，還采用了兩種機制，其一是使用了Dropout機制，將其添加在兩個全連接層之后，其值設(shè)置為 0.7；其二是添加權(quán)值衰減因子，其值設(shè)置為0.0005。模型開發(fā)配置環(huán)境為 Ubuntu14.0、Caffe[25]、LIBSVM3.17[26]和 Matlab2013a。

4.3 實驗結(jié)果

本文使用了兩種分類工具對提取的特征進行分類，首先采用SVM分類器。為降低復(fù)雜度，我們放棄了傳統(tǒng)方法中使用全連接層 FC2層特征的做法，而是只提取全連接層 FC3層的特征，對于CIFAR-10和SVHN數(shù)據(jù)集來說，其特征維度為10，對于CIFAR-100來說，其特征維度為100；我們使用了訓(xùn)練迭代 30萬次的模型分別對訓(xùn)練圖像和測試圖像提取特征，然后將其送入SVM分類器。其次使用Softmax函數(shù)直接對測試樣本的特征進行分類，省去了重新提取訓(xùn)練樣本特征的步驟。

表3 各模型在CIFAR-100上的實驗結(jié)果及性能對比Table 3 Performance comparison with the state-of-the-art methods on CIFAR-100

表4 各模型在CIFAR-10上的實驗結(jié)果及性能對比Table 4 Performance comparison with the state-of-the-art methods on CIFAR-10

表5 各模型在SVHN上的實驗結(jié)果及性能對比Table 5 Performance comparison with the state-of-the-art methods on SVHN

如表3和表4所示，無論是使用SVM，還是使用Softmax，我們的模型在CIFAR-10和CIFAR-100數(shù)據(jù)集上均超過了當前最優(yōu)的結(jié)果，尤其是使用Softmax，在 CIFAR-100數(shù)據(jù)集上其識別錯誤率比當前最優(yōu)的All-CNN模型降低4個百分點以上，在CIFAR-10數(shù)據(jù)集上識別錯誤率也比All-CNN低了1個百分點以上。在SVHN數(shù)據(jù)集上，我們的結(jié)果僅比文獻[22]高了0.23個百分點（如表5所示），但均低于其他方法。該實驗結(jié)果充分證明了KDS-DCNN模型的有效性。

4.4 模型復(fù)雜度對比

在模型運算復(fù)雜度方面，KDS-DCNN模型訓(xùn)練和測試占用內(nèi)存更少，訓(xùn)練好的模型更小，測試速度更快。如表6所示，模型在訓(xùn)練時，只需234M左右的內(nèi)存空間，絕大部分 GPU顯卡都能滿足，因此其硬件要求配置低；其訓(xùn)練好的模型大小只有12M左右，是Alex-Net模型的1/20，是VGG19原模型的1/40；在測試時，給定一副圖像，只需大概2.87 ms即可識別出圖像內(nèi)容。

表6 KDS-DCNN模型訓(xùn)練內(nèi)存需求、模型大小及每張圖像測試運行時間Table 6 The required memory, model size and comsuming time for each test image during training in KDS-DCNN model

從理論上將模型神經(jīng)元個數(shù)、參數(shù)規(guī)模和運算復(fù)雜度三個方面與其他模型進行了對比，結(jié)果如圖5所示。在神經(jīng)元個數(shù)方面，KDS-DCNN模型要高于Maxout、All-CNN等模型，但低于NIN模型；在參數(shù)規(guī)模方面，與NIN和All-CNN模型相比也相對較高，但遠低于文獻[23]中Maxout所用模型。在運算復(fù)雜度方面，我們的模型只有1.45，低于所有已列出的其他模型。

圖5 模型復(fù)雜度對比（神經(jīng)元、參數(shù)及時間復(fù)雜度）Fig.5 Comparison of model complexity (number of neuron,parameter scale and time complexity)

5 結(jié)束語

小圖像的識別在多個科研及工業(yè)領(lǐng)域具有重要研究和應(yīng)用價值，但由于其圖像中所含像素少，分辨率低，用于識別的信息有限，因此識別較為困難。傳統(tǒng)方法一般基于手工設(shè)計特征，設(shè)計過程復(fù)雜，且由于特征變換次數(shù)少，層次不深，表達能力弱，難以大幅改善識別效果。深度CNN技術(shù)通過一系列的卷積、降采樣和激活等線性及非線性變換，特征魯棒性更好，可辨別能力更強。本工作根據(jù)小圖像的特點，為克服當前用于小圖像識別的主流 CNN模型中深度不夠的缺點，依據(jù)卷積核分解原理，提出并設(shè)計了KDS-DCNN模型。該模型在VGG19模型的基礎(chǔ)上，將大部分帶 3×3卷積核的卷積層分解為兩個堆疊的帶2×2卷積核的卷積層，其權(quán)重層個數(shù)達 41個。為限制模型參數(shù)規(guī)模及運算復(fù)雜度，本工作首先在輸出通道數(shù)有變化的層次保持卷積核不變，其次在網(wǎng)絡(luò)高層降低了每層的輸出通道數(shù)，極大地降低了參數(shù)個數(shù)和模型的運算復(fù)雜度。實驗證明，該模型效果顯著，在 CIFAR-10和 CIFAR-100數(shù)據(jù)集上其識別率均超過了當前幾個主流模型。這表明，CNN模型的深度仍然是提高識別率的關(guān)鍵，模型越深，特征變換層次越多，其特征抽象越充分，表達能力越強；同時基于卷積核分解的技術(shù)能夠在增加模型深度的同時，進一步降低參數(shù)規(guī)模和運算復(fù)雜度。因此該工作對于深度CNN模型的設(shè)計和在小圖像識別上的應(yīng)用具有很大的啟發(fā)和借鑒意義。

但本文所設(shè)計的 KDS-DCNN模型只是依據(jù)VGG19模型而設(shè)計，層次仍然不夠多，且VGG19模型結(jié)構(gòu)較為單一，沒有考慮其不同尺度下的特征情況；而在GoogLeNet中，其Inception結(jié)構(gòu)充分考慮了多尺度特征圖的情況，且其卷積層數(shù)更多。因此我們下一步工作將在 GoogLeNet模型的基礎(chǔ)上對卷積核進行分解，設(shè)計出性能更優(yōu)的深度模型。同時，復(fù)雜度是限制深度CNN模型進一步走向應(yīng)用的主要障礙，KDS-DCNN模型雖然較其他模型在運算復(fù)雜度方面有所降低，但在限制參數(shù)規(guī)模方面仍沒有突破性進展。因此我們的另一項工作是繼續(xù)在卷積核分解基礎(chǔ)上，研究進一步降低模型復(fù)雜度的算法，以設(shè)計出更優(yōu)化的模型。

[1]Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[C]. Proceedings of Advances in Neural Information Processing Systems. Massachusetts: MIT Press, 2012, 25(2):2012.

[2]Szegedy C, Liu W, Jia Y, et al. Going Deeper with Convolutions[C]. Proceedings of Conference on Computer Vision and Pattern Recognition. Los Alamitos：IEEE Computer Society, 2014:1-9.

[3]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[C].Proceedings of International Conference on Learning Representations(ICLR), 2015.

[4]He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[OL]. [2016-01-19]. http://arxiv.org/pdf/1512.03385v1. pdf, 2015.

[5]Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C].Proceedings of Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society, 2014:580-587.

[6]Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[C].Proceedings of Advances in Neural Information Processing Systems. Massachusetts: MIT Press, 2015.

[7]Long J, Shelhamer E, Darrell T. Fully Convolutional Networks for Semantic Segmentation[C].Proceedings of Conference on Computer Vision and Pattern Recognition .Los Alamitos: IEEE Computer Society,2015: 3431-3440.

[8]Chen L C, Papandreou G, Kokkinos I, et al, Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs[C]. Proceedings of International Conference on Learning Representations(ICLR), 2015.

[9]Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]. Proceedings of Advances in Neural Information Processing Systems.Massachusetts: MIT Press, 2014: 568–576.

[10]Wang L, Qiao Y, Tang X. Action recognition with trajectory-pooled deep-convolutional descriptors[C].Proceedings of Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society, 2015: 4305-4314.

[11]He K, Sun J. Convolutional neural networks at constrained time cost[C]. Proceedings of Conference on Computer Vision and Pattern Recognition. Los Alamitos:IEEE Computer Society, 2015: 5353–5360.

[12]Krizhevsky A. Learning multiple layers of features from tiny images[D].Troonto: University of Toronto,Department of Computer Science, 2009.

[13]Netzer Y, Wang T, Coates A, et al. Reading digits in natural images with unsupervised feature learning[C].Proceedings of Advances in Neural Information Processing Systems: Workshop on Deep Learning and Unsupervised Feature Learning.Massachusetts: MIT Press, 2011.

[14]Dalal N, Triggs B. Histograms of Oriented Gradients for Human Detection[C]. Proceedings of Conference on Computer Vision and Pattern Recognition. Los Alamitos:IEEE Computer Society, 2005:886-893.

[15]Lowe D. Distinctive Image Features from Scale-Invariant Key points[J]. International Journal of Computer Vision,2004, 60(2):91-110.

[16]Lazebnik S, Schmid C, Ponce J. Beyond bags of features:Spatial pyramid matching for recognizing natural scene categories[C]. Proceedings of Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society, 2006: 2169-2178.

[17]Lecun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[C]. Proceedings of the IEEE. Los Alamitos: IEEE Computer Society,1998: 2278–2324.

[18]Zeiler M D, Fergus R. Visualizing and Understanding Convolutional Networks[C].Proceeings of European Conference on Computer Vision. Heidelberg: Springer,2014:818-833.

[19]Chatfield K, Simonyan K, Vedaldi A, et al. Return of the devil in the details: Delving deep into convolutional nets[C].Proceedings of British Machine Vision Conference. Durham : British Machine Vision Association, 2014.

[20]Lin M, Chen Q, Yan S C. Network In Network[C].Proceedings of International Conference on Learning Representation, 2014.

[21]Springenberg J T, Dosovitskiy A, Brox T, et al. Striving for Simplicity: The All Convolutional Net[C].Proceedings of International Conference on Learning Representation, 2015.

[22]Li W, Zeiler M D, Zhang S, et al. Regularization of neural networks using dropconnect[C].Proceedings of International Conference on Machine Learning. New York: ACM Press, 2013:1058–1066.

[23]Goodfellow I J,Warde-Farley D, Mirza M, et al.Maxout networks[C].Proceedings of International Conference on Machine Learning. New York: ACM Press,2013:1319–1327.

[24]Wang L, Xiong Y, Wang Z. Towards Good Practices for Very Deep Two-Stream ConvNets[OL]. [2016-01-19].http://arxiv.org/pdf/ 1507.02159v1.pdf, 2015.

[25]Jia Y, Donahue J. Caffe: Convolutional Architecture for Fast Feature Embedding[C]./Proceedings of ACM Multimedia. New York: ACM Press, 2014.

[26]Chang C C, Lin C J. LIBSVM: A library for support vector machines[J]. ACM Transactions on Intelligent Systems & Technology, 2011, 2(3):389-396.

[27]Zeiler M D, Fergus R. Stochastic Pooling for Regularization of Deep Convolutional Neural Networks[C].Proceedings of International Conference on Learning Representations, 2013.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡