国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

圖像理解中的卷積神經(jīng)網(wǎng)絡

2016-11-04 07:58:42常亮鄧小明周明全武仲科袁野楊碩王宏安
自動化學報 2016年9期
關鍵詞:物體卷積神經(jīng)網(wǎng)絡

常亮 鄧小明 周明全 武仲科 袁野,4 楊碩,4 王宏安

圖像理解中的卷積神經(jīng)網(wǎng)絡

常亮1,2鄧小明3周明全1,2武仲科1,2袁野3,4楊碩3,4王宏安3

近年來,卷積神經(jīng)網(wǎng)絡(Convolutional neural networks,CNN)已在圖像理解領域得到了廣泛的應用,引起了研究者的關注.特別是隨著大規(guī)模圖像數(shù)據(jù)的產(chǎn)生以及計算機硬件(特別是GPU)的飛速發(fā)展,卷積神經(jīng)網(wǎng)絡以及其改進方法在圖像理解中取得了突破性的成果,引發(fā)了研究的熱潮.本文綜述了卷積神經(jīng)網(wǎng)絡在圖像理解中的研究進展與典型應用.首先,闡述卷積神經(jīng)網(wǎng)絡的基礎理論;然后,闡述其在圖像理解的具體方面,如圖像分類與物體檢測、人臉識別和場景的語義分割等的研究進展與應用.

卷積神經(jīng)網(wǎng)絡,圖像理解,深度學習,圖像分類,物體檢測

引用格式常亮,鄧小明,周明全,武仲科,袁野,楊碩,王宏安.圖像理解中的卷積神經(jīng)網(wǎng)絡.自動化學報,2016,42(9):1300-1312

1986年,Rumelhart等[1]提出人工神經(jīng)網(wǎng)絡的反向傳播算法(Back propagation,BP),掀起了神經(jīng)網(wǎng)絡在機器學習中的研究熱潮.神經(jīng)網(wǎng)絡中存在大量的參數(shù),存在容易發(fā)生過擬合、訓練時間長的缺陷,但是與基于規(guī)則的學習相比已經(jīng)具有優(yōu)越性.基于統(tǒng)計學習理論的支持向量機[2]、Boosting、Logistic回歸方法可以被看作具有一層隱節(jié)點或者不含隱節(jié)點的學習模型,被稱為淺層機器學習模型.淺層學習模型通常需要由人工方法獲取好的樣本特征,在此基礎上進行識別和預測,因此方法的有效性很大程度上受到特征提取的制約[3].

2006年,Hinton等[4]在Science上提出了深度學習.這篇文章的兩個主要觀點是:1)多隱層的人工神經(jīng)網(wǎng)絡具有優(yōu)異的特征學習能力,學習到的數(shù)據(jù)更能反映數(shù)據(jù)的本質(zhì)特征,有利于可視化或分類;2)深度神經(jīng)網(wǎng)絡在訓練上的難度,可以通過逐層無監(jiān)督訓練有效克服.理論研究表明為了學習到可表示高層抽象特征的復雜函數(shù),需要設計深度結構.深度結構由多層非線性算子構成,典型設計是具有多層隱節(jié)點的神經(jīng)網(wǎng)絡.隨著網(wǎng)絡層數(shù)的加大,如何搜索深度結構的參數(shù)空間成為具有挑戰(zhàn)性的任務.近年來,深度學習取得成功的主要原因有:1)在訓練數(shù)據(jù)上,大規(guī)模訓練數(shù)據(jù)的出現(xiàn)(如ImageNet[5]),為深度學習提供了好的訓練資源;2)計算機硬件的飛速發(fā)展(特別是GPU的出現(xiàn))使得訓練大規(guī)模神經(jīng)網(wǎng)絡成為可能.與淺層學習模型相比,深度學習構造了具有多隱層的學習模型,設計了有效的學習算法并能夠加速計算,從而能夠?qū)Υ髷?shù)據(jù)進行處理;通過深度學習能夠得到更高層的特征,從而提高樣本的識別率或預測的準確率.

卷積神經(jīng)網(wǎng)絡(Convolutional neural networks,CNN)是一種帶有卷積結構的深度神經(jīng)網(wǎng)絡,卷積結構可以減少深層網(wǎng)絡占用的內(nèi)存量,也可以減少網(wǎng)絡的參數(shù)個數(shù),緩解模型的過擬合問題. 1989年,LeCun等[6]在手寫數(shù)字識別中采用神經(jīng)網(wǎng)絡誤差反向傳播算法,在網(wǎng)絡結構設計中加入下采樣(Undersampling)與權值共享(Weight sharing).1998年,LeCun等[7]提出用于文檔識別的卷積神經(jīng)網(wǎng)絡,為了保證一定程度的平移、尺度、畸變不變性,CNN設計了局部感受野、共享權重和空間或時間下采樣,提出用于字符識別的卷積神經(jīng)網(wǎng)絡LeNet-5.LeNet-5由卷積層、下采樣層、全連接層構成,該系統(tǒng)在小規(guī)模手寫數(shù)字識別中取得了較好的結果.2012年,Krizhevsky等[8]采用稱為AlexNet的CNN在ImageNet競賽圖像分類任務中取得了最好的成績,是CNN在大規(guī)模圖像分類中的巨大成功.AlexNet網(wǎng)絡具有更深層的結構,并設計了ReLU(Rectified linear unit)作為非線性激活函數(shù)以及Dropout來避免過擬合.在圖像分類中,一個重要的圖像數(shù)據(jù)庫是ImageNet[5].針對具有80000個同義詞的詞匯網(wǎng)絡(WordNet),ImageNet旨在分別使用500~1000個清晰的全分辨率圖像來表示其中的大部分詞匯,這樣就形成了上百萬張有標記的圖像,它們通過詞匯網(wǎng)絡的語義結構組織起來.ImageNet總共包括12個子樹、5247個同義詞集、320萬圖像,是目標檢測、圖像分類、圖像定位研究的優(yōu)越資源,ImageNet在大規(guī)模、準確度、分層結構方面為計算機視覺研究者提供了前所未有的機會.表1是ImageNet競賽歷年來圖像分類任務的部分領先結果.在AlexNet之后,研究者又進一步改善網(wǎng)絡性能,提出能有效分類檢測的RCNN(Region-based CNN)[9]、SPP(Spatial pyramid pooling)-net[10]、GoogLeNet[11]、VGG(Visual geometry group)[12]等.為了更好地改進卷積神經(jīng)網(wǎng)絡,使其在應用中發(fā)揮更大的功效,研究者不僅從應用的特殊性、網(wǎng)絡的結構等方面進一步探討卷積神經(jīng)網(wǎng)絡,而且從其中的網(wǎng)絡層設計、損失函數(shù)的設計、激活函數(shù)、正則項等多方面對現(xiàn)有網(wǎng)絡進行改進,取得了一系列成果.

計算機視覺的中心任務就是通過對圖像或圖像序列的分析,得到景物的盡可能完全正確的描述[13].圖像理解與計算機視覺緊密相關,研究內(nèi)容交叉重合,圖像理解側重在圖像分析的基礎上,理解圖像內(nèi)容的含義以及解釋原來的客觀場景,從而指導和規(guī)劃行動[14].圖像理解是深度學習應用最早的領域,也是其應用最廣的領域之一.隨著互聯(lián)網(wǎng)大數(shù)據(jù)的興起,深度學習在大規(guī)模圖像的處理中顯示了不可替代的優(yōu)越性.卷積神經(jīng)網(wǎng)絡的研究已經(jīng)在圖像理解中廣泛應用[3].本文著重闡述卷積神經(jīng)網(wǎng)絡的理論和面向圖像理解幾個不同方面的卷積神經(jīng)網(wǎng)絡的提出、進展和應用,包括:圖像分類和物體檢測、人臉識別和驗證、場景的語義分割和深度恢復、人體關節(jié)檢測,通過這些介紹希望能幫助讀者了解相關工作的方法和思路并啟發(fā)新的研究思路.

表1 ImageNet競賽歷年來圖像分類任務的部分領先結果Table 1Representative top ranked results in image classification task of“ImageNet Large Scale Visual Recognition Challenge”

1 卷積神經(jīng)網(wǎng)絡

卷積神經(jīng)網(wǎng)絡是深度學習的一種,已成為當前圖像理解領域的研究熱點[6,16-17]它的權值共享網(wǎng)絡結構使之更類似于生物神經(jīng)網(wǎng)絡,降低了網(wǎng)絡模型的復雜度,減少了權值的數(shù)量.這個優(yōu)點在網(wǎng)絡的輸入是多維圖像時表現(xiàn)得更為明顯,圖像可以直接作為網(wǎng)絡的輸入,避免了傳統(tǒng)識別算法中復雜的特征提取和數(shù)據(jù)重建過程.卷積網(wǎng)絡是為識別二維形狀而特殊設計的一個多層感知器,這種網(wǎng)絡結構對平移、比例縮放以及其他形式的變形具有一定不變性.在典型的CNN中,開始幾層通常是卷積層和下采樣層的交替,在靠近輸出層的最后幾層網(wǎng)絡通常是全連接網(wǎng)絡(如圖1所示).卷積神經(jīng)網(wǎng)絡的訓練過程主要是學習卷積層的卷積核參數(shù)和層間連接權重等網(wǎng)絡參數(shù),預測過程主要是基于輸入圖像和網(wǎng)絡參數(shù)計算類別標簽.卷積神經(jīng)網(wǎng)絡的關鍵是:網(wǎng)絡結構(含卷積層、下采樣層、全連接層等)和反向傳播算法等.

在本節(jié)中,我們先介紹典型CNN的網(wǎng)絡結構和反向傳播算法,然后概述常用的其他CNN網(wǎng)絡結構和方法.神經(jīng)網(wǎng)絡參數(shù)的中文名稱主要參考文獻[18]卷積神經(jīng)網(wǎng)絡的結構和反向傳播算法主要參考文獻[17].

圖1 卷積神經(jīng)網(wǎng)絡示例Fig.1Illustration of convolutional neural networks

1.1網(wǎng)絡結構

1.1.1卷積層

在卷積層,上一層的特征圖(Feature map)被一個可學習的卷積核進行卷積,然后通過一個激活函數(shù)(Activation function),就可以得到輸出特征圖.每個輸出特征圖可以組合卷積多個特征圖的值[17]:

1.1.2下采樣層

下采樣層將每個輸入特征圖通過下面的公式下采樣輸出特征圖[17]:

1.1.3全連接層

在全連接網(wǎng)絡中,將所有二維圖像的特征圖拼接為一維特征作為全連接網(wǎng)絡的輸入.全連接層l的輸出可通過對輸入加權求和并通過激活函數(shù)的響應得到[17]:其中,ul稱為全連接層l的凈激活,它由前一層輸出特征圖xl-1進行加權和偏置后得到的.wl是全連接網(wǎng)絡的權重系數(shù),bl是全連接層l的偏置項.

1.2反向傳播算法

神經(jīng)網(wǎng)絡有兩類基本運算模式:前向傳播和學習.前向傳播是指輸入信號通過前一節(jié)中一個或多個網(wǎng)絡層之間傳遞信號,然后在輸出層得到輸出的過程.反向傳播算法是神經(jīng)網(wǎng)絡有監(jiān)督學習中的一種常用方法,其目標是根據(jù)訓練樣本和期望輸出來估計網(wǎng)絡參數(shù).對于卷積神經(jīng)網(wǎng)絡而言,主要優(yōu)化卷積核參數(shù)k、下采樣層網(wǎng)絡權重β、全連接層網(wǎng)絡權重w和各層的偏置參數(shù)b等.反向傳播算法的本質(zhì)在于允許我們對每個網(wǎng)絡層計算有效誤差,并由此推導出一個網(wǎng)絡參數(shù)的學習規(guī)則,使得實際網(wǎng)絡輸出更加接近目標值[18].

我們以平方誤差損失函數(shù)的多分類問題為例介紹反向傳播算法的思路.考慮一個多分類問題的訓練總誤差,定義為輸出端的期望輸出值和實際輸出值的差的平方[17]:

其中,tn是第n個樣本的類別標簽真值,yn是第n個樣本通過前向傳播網(wǎng)絡預測輸出的類別標簽.對于多分類問題,輸出類別標簽常用一維向量表示,即輸入樣本對應的類別標簽維度為正數(shù),輸出類別標簽的其他維為0或負數(shù),這取決于選擇的激活函數(shù)類型,當激活函數(shù)選為sigmoid,輸出標簽為0,當激活函數(shù)為tanh,輸出標簽為-1.

反向傳播算法主要基于梯度下降方法,網(wǎng)絡參數(shù)首先被初始化為隨機值,然后通過梯度下降法向訓練誤差減小的方向調(diào)整.接下來,我們以多個“卷積層—采樣層”連接多個全連接層的卷積神經(jīng)網(wǎng)絡為例介紹反向傳播算法.

首先介紹網(wǎng)絡第l層的靈敏度(Sensitivity)[17-18]:

其中,δl描述了總誤差E怎樣隨著凈激活ul而變化.反向傳播算法實際上通過所有網(wǎng)絡層的靈敏度建立總誤差對所有網(wǎng)絡參數(shù)的偏導數(shù),從而得到使得訓練誤差減小的方向.

1.2.1卷積層

為計算卷積層l的靈敏度,需要用下一層下采樣層l+1的靈敏度表示卷積層l的靈敏度,然后計算總誤差E對卷積層參數(shù)(卷積核參數(shù)k、偏置參數(shù)b)的偏導數(shù).

由于下采樣層的靈敏度尺寸小于卷積層的靈敏度尺寸,因此需要將下采樣層l+1的靈敏度上采樣到卷積層l的靈敏度大小,然后將第l層凈激活的激活函數(shù)偏導與從第l+1層的上采樣得到的靈敏度逐項相乘.分別由式(1)和(2),通過鏈式求導可得第l層中第j個通道的靈敏度[17]:

其中,up(·)表示一個上采樣操作,符號?表示每個元素相乘.若下采樣因子為n,則up(·)將每個像素在水平和垂直方向上復制n次,于是就可以從l+1層的靈敏度上采樣成卷積層l的靈敏度大小.函數(shù)up(·)可以用Kronecker乘積up(x)≡x?1n×n來實現(xiàn).

然后,使用靈敏度對卷積層l中的參數(shù)計算偏導.對于總誤差E對偏移量的偏導,可以對卷積層l的靈敏度中所有節(jié)點進行求和來計算:

對于總誤差關于卷積核參數(shù)的偏導,由式(1),使用鏈式求導時需要用所有與該卷積核相乘的特征圖元素來求偏導:

1.2.2下采樣層

為計算下采樣層l的靈敏度,需要用下一層卷積層l+1的靈敏度表示下采樣層l的靈敏度,然后計算總誤差E對下采樣參數(shù)權重系數(shù)β、偏置參數(shù)b的偏導數(shù).

為計算我們需要下采樣層l的靈敏度,我們必須找到當前層的靈敏度與下一層的靈敏度的對應點,這樣才能對靈敏度δ進行遞推.另外,需要乘以輸入特征圖與輸出特征圖之間的連接權值,這個權值實際上就是卷積核的參數(shù).分別由式(1)和(2),通過鏈式求導可得第l層第j個通道的靈敏度[17]:

其中,對卷積核旋轉(zhuǎn)180度使用卷積函數(shù)計算互相關(在Matlab中,可用conv2函數(shù)實現(xiàn)),對卷積邊界進行補零處理.

然后,總誤差對偏移量b的偏導與前面卷積層的一樣,只要對靈敏度中所有元素的靈敏度求和即可:

這里我們假定下采樣層的下一層為卷積層,如果下一層為全連接層,也可以做類似的推導.

1.2.3全連接層

全連接層l的靈敏度可通過下式計算:

輸出層的神經(jīng)元靈敏度可由下面的公式計算:

總誤差對偏移項的偏導如下:

接下來可以對每個神經(jīng)元運用靈敏度進行權值更新.對一個給定的全連接層l,權值更新方向可用該層的輸入xl-1和靈敏度δl的內(nèi)積來表示:

1.2.4網(wǎng)絡參數(shù)更新過程

卷積層參數(shù)可用下式更新:

下采樣層參數(shù)可用下式更新:

全連接層參數(shù)可用下式更新:

其中,對于每個網(wǎng)絡參數(shù)都有一個特定的學習率η.若學習率太小,則訓練的速度慢;若學習率太大,則可導致系統(tǒng)發(fā)散.在實際問題中,如果總誤差在學習過程中發(fā)散,那么將學習率調(diào)小;反之,如果學習速度過慢,那么將學習率調(diào)大.

1.3常用的其他網(wǎng)絡結構和方法

1.3.1卷積層

傳統(tǒng)卷積神經(jīng)網(wǎng)絡的卷積層采用線性濾波器與非線性激活函數(shù),一種改進的方法在卷積層使用多層感知機模型作為微型神經(jīng)網(wǎng)絡,通過在輸入圖像中滑動微型神經(jīng)網(wǎng)絡來得到特征圖,該方法能夠增加神經(jīng)網(wǎng)絡的表示能力,被稱為Network in network[19].為了解決既能夠保證網(wǎng)絡的稀疏性,又能夠利用稠密矩陣的高性能計算,Szegedy等[11]提出Inception網(wǎng)絡.Inception網(wǎng)絡的一層含有一個池化操作和三類卷積操作:1×1、3×3、5×5卷積. 1.3.2池化

池化(Pooling)是卷積神經(jīng)網(wǎng)絡中一個重要的操作,它能夠使特征減少,同時保持特征的局部不變性.常用的池化操作有:空間金字塔池化(Spatial pyramid pooling,SPP)[10]、最大池化(Max pooling)、平均池化(Mean pooling)、隨機池化(Stochastic pooling)[20]等.本文第1.1.2節(jié)介紹的下采樣層實際上也屬于池化.

1.3.3激活函數(shù)

常用激活函數(shù)有:ReLU[8]、Leakly ReLU[21]、ParametricReLU、Randomized ReLU、ELU等.

1.3.4損失函數(shù)

損失函數(shù)的選擇在卷積神經(jīng)網(wǎng)絡中起重要作用,代表性的損失函數(shù)有:平方誤差損失、互熵損失(Cross entropy loss)、Hinge損失等.

1.3.5優(yōu)化方法和技巧

卷積神經(jīng)網(wǎng)絡常用的優(yōu)化方法包含隨機梯度下降方法(Stochastic gradient descent,SGD),常用的技巧有權值初始化[8]、權值衰減(Weight decay)[18]、Batch normalization[22]等.

1.4卷積神經(jīng)網(wǎng)絡的優(yōu)勢

卷積神經(jīng)網(wǎng)絡在下采樣層可以保持一定局部平移不變形,在卷積層通過感受野和權值共享減少了神經(jīng)網(wǎng)絡需要訓練的參數(shù)的個數(shù).每個神經(jīng)元只需要感受局部的圖像區(qū)域,在更高層將這些感受不同局部區(qū)域的神經(jīng)元綜合起來就可以得到全局的信息.因此,可以減少網(wǎng)絡連接的數(shù)目,即減少神經(jīng)網(wǎng)絡需要訓練的權值參數(shù)的個數(shù).由于同一特征通道上的神經(jīng)元權值相同,所以網(wǎng)絡可以并行學習,這也是卷積網(wǎng)絡相對于神經(jīng)元彼此相連網(wǎng)絡的一大優(yōu)勢.卷積神經(jīng)網(wǎng)絡以其權值共享的特殊結構在圖像理解領域中有著獨特的優(yōu)越性,通過權值共享降低了網(wǎng)絡的復雜性.

總之,卷積神經(jīng)網(wǎng)絡相比于一般神經(jīng)網(wǎng)絡在圖像理解中有其特殊的優(yōu)點:1)網(wǎng)絡結構能較好適應圖像的結構;2)同時進行特征提取和分類,使得特征提取有助于特征分類;3)權值共享可以減少網(wǎng)絡的訓練參數(shù),使得神經(jīng)網(wǎng)絡結構變得更簡單、適應性更強.

2 卷積神經(jīng)網(wǎng)絡在圖像理解中的進展與應用

本節(jié)將介紹卷積神經(jīng)網(wǎng)絡在圖像分類與物體檢測、人臉識別和驗證、語義圖像分割等方面的進展與應用.

2.1圖像分類和物體檢測

圖像分類和物體檢測是圖像理解中的核心問題之一.圖像分類是指給定圖像,對圖像的類別進行預測;物體檢測是指對于圖像中的同一物體或者同一類別物體進行檢測,找到可能出現(xiàn)物體的區(qū)域.

在圖像分類和物體檢測中,傳統(tǒng)的方法包含基于詞袋(Bag of words,BOW)的方法和基于變形模板模型(Deformable part models,DPM)[23]的方法等.這些方法雖然在某些特定應用(如人臉檢測、行人檢測等)中取得了很好的效果,但在準確性方面仍存在較大提升空間.隨著深度學習的興起,人們將深度學習應用于圖像分類和物體檢測問題中,并在許多應用中取得明顯好于傳統(tǒng)方法的結果.在圖像分類中,Krizhevsky等[8]提出了新型卷積神經(jīng)網(wǎng)絡結構(AlexNet),GoogLeNet[11]和VGG[12]通過加深網(wǎng)絡層數(shù)同時保證優(yōu)化性能,設計了更深層次的卷積神經(jīng)網(wǎng)絡.在物體檢測中,研究者使用區(qū)域選擇性搜索[9]等技術提升檢測的準確率,通過加入感興趣區(qū)域池化層(Region of interest(ROI)pooling layer)[24]和空間金字塔池化[10]等技術加速網(wǎng)絡計算速度.此外,也有一部分工作將卷積神經(jīng)網(wǎng)絡特征與傳統(tǒng)視覺識別模型結合起來.Girshick等[25]利用深度學習的特征代替原有人工設計的方向梯度直方圖(Histogram of oriented gradient,HOG)特征[26]建立變形模板,提升了傳統(tǒng)變形模板方法(DPM)的識別率,并且在取得了與完全使用深度學習方法可比結果的同時,提升了檢測速度.表2給出部分具有代表性的圖像分類和物體檢測模型對比.

接下來,我們分別介紹面向圖像分類和物體檢測任務的AlexNet及代表性的改進方法、其他代表性的改進方向.

2.1.1AlexNet及代表性的改進方法

Krizhevsky等[8]提出新型卷積神經(jīng)網(wǎng)絡結構(簡稱為AlexNet,其網(wǎng)絡結構如圖2所示),并在ImageNet ILSVRC-2012圖像分類問題中取得最好成績(Top-5錯誤率為15.3%),其結果明顯好于使用傳統(tǒng)方法的第二名取得的結果(Top-5錯誤率為26.2%).該方法訓練了一個端對端(End to end)的卷積神經(jīng)網(wǎng)絡實現(xiàn)圖像特征提取和分類,網(wǎng)絡結構共7層,包含5層卷積層和2層全連接層.AlexNet在訓練階段使用了Dropout技巧,并通過圖像平移、圖像水平翻轉(zhuǎn)、調(diào)整圖像灰度等方法擴充訓練數(shù)據(jù)集,后者一方面通過擴充樣本緩解了神經(jīng)網(wǎng)絡的過擬合以及對網(wǎng)絡參數(shù)優(yōu)化時陷入局部最優(yōu)的問題,也使得訓練得到的網(wǎng)絡對局部平移和光照變化具有一定的不變性.為了加快網(wǎng)絡訓練的速度,AlexNet采用ReLU代替?zhèn)鹘y(tǒng)神經(jīng)網(wǎng)絡常用的激活函數(shù)tanh/sigmod,ReLU是一種非飽和非線性(Non-saturating nonlinearity)變換.

圖2 AlexNet卷積神經(jīng)網(wǎng)絡結構示意圖[8]Fig.2Network architecture of AlexNet convolutional neural networks[8]

Overfeat[27]首次使用同一個模型完成圖像分類、定位和物體檢測三個任務,其主要觀點是通過共享部分網(wǎng)絡完成這三個任務,能相互促進每個任務的結果.Overfeat繼承了AlexNet的網(wǎng)絡結構,主要區(qū)別在于:AlexNet在提出時主要面向圖像分類任務,Overfeat可以完成圖像分類、定位和物體檢測三個任務;Overfeat在訓練時輸入固定大小的圖像,測試時用多尺度輸入,沒有使用AlexNet中的對比度歸一化,采用無重疊區(qū)域的最大池化,前兩層的特征圖更大.對于分類與檢測問題,常采用滑動窗口對每一個圖像塊進行檢測,從而確定目標物體的類別與位置,即都需要一個滑動窗口對整幅圖像進行密集采樣.為提高計算效率,Overfeat舍棄在圖像層級的滑動,轉(zhuǎn)而在特征層級進行滑動,明顯減少了滑動窗口個數(shù).為了避免特征層級采樣帶來的稀疏問題,Overfeat采用多次采樣插值的方法解決.對于圖像分類、定位和物體檢測問題的統(tǒng)一,Overfeat采用復用權重的方式,即在每一個尺度上同時運行分類網(wǎng)絡和定位回歸網(wǎng)絡.對于每一個尺度,分類網(wǎng)絡給出了圖像塊的類別概率分布,回歸網(wǎng)絡進一步為每一類給出了包圍盒和置信度.最后,綜合這些信息,給出分類與檢測結果.Overfeat雖然提出了將分類、定位、檢測任務一起解決的思想,但這三個任務在訓練階段仍是分開進行的[24].

AlexNet用于物體檢測時,需要在圖像金字塔上采用滑動窗口的方式逐個判斷,隨著圖像的增大待檢測區(qū)域的數(shù)目呈平方上升.為了解決這一問題,Girshick等將候選框(Region proposals)方法與卷積神經(jīng)網(wǎng)絡相結合(Girshick等稱之為R-CNN),采用僅對候選框逐個使用卷積神經(jīng)網(wǎng)絡判斷的方式,不僅提高了物體檢測的效率,也提高了檢測的精度,在VOC2012上取得了當時最好的檢測平均精度mAP(Mean average precision),把在該數(shù)據(jù)集上的歷史最好檢測平均精度提高了約30%[9].RCNN通過選擇性搜索方法(Selective search)[28]對圖像進行過分割(Over-segmentation)得到大量分割塊,根據(jù)分割圖像塊之間的紋理相似性和位置關系對分割圖像塊進行合并,可以得到許多連通的穩(wěn)定區(qū)域.由于這些穩(wěn)定區(qū)域通常包含待檢測物體,也稱之為候選區(qū)域.對于這些候選區(qū)域R-CNN,通過AlexNet網(wǎng)絡可以得到具有較強分辨力的特征,最后用這個特征進行分類.該方法用于物體檢測時,為了提高物體定位精度,采用了類似于DPM方法[23]中使用的包圍盒回歸方法(Bounding box regression).與基于滑動窗口的物體檢測方法相比,使用候選框?qū)@著減少判斷的窗口個數(shù),提高物體檢測效率;此外通過調(diào)整候選框方法,可以在保證召回率的同時,減少虛警(False alarm),進而提高物體檢測精度.在網(wǎng)絡優(yōu)化方面,R-CNN采用AlexNet網(wǎng)絡參數(shù)作為初值,利用訓練圖像的候選區(qū)域數(shù)據(jù)對網(wǎng)絡參數(shù)進行微調(diào)(Fine-tuning),這種方式比隨機選取網(wǎng)絡參數(shù)初值具有更快的收斂速度,所需樣本也更少.在物體檢測問題中,R-CNN比AlexNet有明顯的優(yōu)勢,但仍存在一些不足:1)全連接層(Full-connected layer)只能接受固定尺寸的輸入,R-CNN要求對候選框進行縮放或裁減填充到固定大小,這不僅會破壞物體的縱橫比和圖像大小信息,也會破壞物體的上下文信息;2)R-CNN使用包圍盒回歸有助于提高物體的定位精度,但如果待檢測物體存在遮擋或交叉時,該方法很難提高定位精度.

表2 部分具有代表性的圖像分類和物體檢測模型對比Table 2Comparison of representative image classification and object detection models

He等[10]針對之前卷積神經(jīng)網(wǎng)絡僅能接受固定尺寸的圖像輸入,提出基于空間金字塔池化(Spatial pyramid pooling,SPP)的網(wǎng)絡層,SPP層放在最后一個卷積層后,通過SPP層可得到固定長度的輸出,然后送入并重新學習全連接網(wǎng)絡層(這樣的網(wǎng)絡稱為SPP-net).使用的網(wǎng)絡結構類似于AlexNet的7層網(wǎng)絡,包含5層卷積層和2個全連接層網(wǎng)絡,主要區(qū)別是通過空間金字塔池化層連接卷積層與全連接層.在該方法中,對卷積第5層conv5輸出的特征圖分別進行1等分、4等分、9等分,然后在每個分塊進行池化操作(如Max pooling)可得到定長的特征.SPP既可保證特征包含圖像的整體信息(1等分),也保留了圖像的局部信息(4等分、9等分及更多等分),由于特征是定長的,無需關心空間金字塔池化前的上層網(wǎng)絡輸出特征圖尺寸,可以直接傳遞給全連接網(wǎng)絡層.因此,SPP可以解除對輸入圖像大小固定的限制,圖像可以保留原有大小直接進入網(wǎng)絡進行訓練與測試.由于每張圖像只需通過一次5層前向卷積,避免了R-CNN用于物體檢測時每個候選區(qū)域都需要通過5層前向卷積的耗時計算,該方法于2014年在VOC2007,Caltech101數(shù)據(jù)集上取得當時最好成績,并在速度上比R-CNN提高了24~64倍.

與SPP-net類似,F(xiàn)ast R-CNN[24]也能用于不同大小的圖像上的物體檢測,提出感興趣區(qū)域池化(RoI pooling).Fast R-CNN可以完成提取特征,分類和包圍盒回歸的端對端聯(lián)合訓練.首先,通過選擇性搜索(Selective search)得到圖像中的候選區(qū)域(文中稱為ROI),對圖像建立圖像金字塔并通過前向傳播可得到conv5特征金字塔;然后,對于特征金字塔每個尺度的每個ROI,在conv5特征中取出對應的區(qū)域,用一個稱為RoI pooling的特殊單層SPP來統(tǒng)一到同樣的大小的特征.最后,經(jīng)過全連接層輸出兩任務的優(yōu)化目標:第一個任務是分類,第二個任務是包圍盒回歸.Fast R-CNN相比SPP-net的優(yōu)勢在于:SPP-net中SPP層前的卷積層不能進行網(wǎng)絡參數(shù)更新[24],而Fast R-CNN可以;SPP-net為進行包圍盒回歸,需要使用額外的回歸模型(如線性SVM等),包圍盒回歸不能融入整個網(wǎng)絡訓練.Fast R-CNN在除了候選區(qū)域提取以外的環(huán)節(jié)接近于實時,候選區(qū)域提取是計算中的瓶頸問題.

鑒于候選區(qū)域提取是Fast R-CNN的計算瓶頸,Ren等[29]提出了用于實時目標檢測的候選框網(wǎng)絡(Region proposal network,RPN),RPN是一個全卷積網(wǎng)絡(Fully convolutional network,F(xiàn)CN),它可以從任意尺寸的圖像中得到一系列的帶有分數(shù)(Objectness score)的物體候選區(qū)域.RPN能夠生成高質(zhì)量的候選區(qū)域,并可以嵌入卷積神經(jīng)網(wǎng)絡中進行端對端的訓練.RPN與Fast R-CNN結合并共享卷積層特征的網(wǎng)絡稱為Faster R-CNN,它在PASCAL VOC 2007、2012和MS COCO數(shù)據(jù)集上取得了當時最好的檢測結果,并且整個計算過程接近于實時(使用較深的VGG模型也可達到5fps).

2.1.2其他代表性的改進方向

AlexNet網(wǎng)絡提出后,許多工作開始關注改進CNN的結構,如在最初的若干個卷積層使用更小的卷積窗口[19]與卷積步長,使用多尺度的訓練與測試數(shù)據(jù)等,但仍基于淺層網(wǎng)絡.Zeiler等[30]對網(wǎng)絡中層特征和分類器進行可視化分析,得到在ImageNet上分類效果優(yōu)于AlexNet的網(wǎng)絡結構ZF-net.ZF-net把AlexNet中第一層卷積核的大小由11×11縮小為7×7,把卷積步長由4減小2,可得到更豐富的特征.VGG模型[12]是對深層卷積神經(jīng)網(wǎng)絡的一次系統(tǒng)嘗試,在ILSVRC-2014比賽中獲得第二名的成績.相比于傳統(tǒng)淺層網(wǎng)絡問題(5~7層),網(wǎng)絡隨著層數(shù)的加深,參數(shù)呈現(xiàn)指數(shù)級增長,VGG模型采用多層小窗口卷積核代替一個大卷積核的方式減少參數(shù)的增長.如使用三層具有3×3卷積核的卷積層代替一層具有7×7卷積核的卷積層,如果通道數(shù)為C,那么一層具有7×7卷積核的卷積層共有7×7×C×C=49C×C個參數(shù),而三層具有3×3卷積核的卷積網(wǎng)絡共有3×(3×3)×C×C=27C×C個參數(shù),明顯地減少了參數(shù)數(shù)目,并且三層網(wǎng)絡比一層網(wǎng)絡更具有判別性.該方法還使用1×1的卷積核[19],可以在不影響卷積層感受野的情況下增加決策函數(shù)的非線性.

將卷積神經(jīng)網(wǎng)絡與傳統(tǒng)視覺識別模型融合. Felzenszwalb等[23]提出的變形模板模型DPM將物體分解為多個可形變的基礎語義組件,這種目標檢測方法融合物體整體信息,語義組件信息與形變信息進行目標檢測.該方法結合了整體上下文信息與局部信息,對形變、遮擋都有很好的魯棒性.該方法采用HOG特征[26],但這種人工設計的特征不能保證對物體檢測有很好的鑒別力.Girshick等[25]使用卷積神經(jīng)網(wǎng)絡的特征代替HOG這種人工設計的特征,應用于可形變的組件模型DPM,該方法被稱為DP-DPM(Deep pyramid DPM).由于可形變的組件模型本身的復雜性,不能很好嵌入卷積神經(jīng)網(wǎng)絡中,DP-DPM采用截斷訓練的方式,使用AlexNet前5層網(wǎng)絡得到具有強鑒別力的特征,然后把這些特征輸入DPM中進行訓練.DP-DPM與傳統(tǒng)DPM模型相比平均精度mAP有著大幅提升,與R-CNN相比mAP相近,速度卻明顯快于R-CNN.

已有視覺目標識別方法通常依賴于含有大量標注圖像的訓練數(shù)據(jù),基于包圍盒的圖像標注方法通常代價昂貴并且具有主觀性.近來,提出了僅依賴于圖像級類別標注的弱監(jiān)督卷積神經(jīng)網(wǎng)絡[31].該方法研究了CNN是否能夠從僅標注目標信息而不標注目標位置的混雜圖像場景中,學習得到目標的定位模型.該方法對全監(jiān)督網(wǎng)絡結構進行了改進,構造了基于圖像級別標注數(shù)據(jù)構造端對端的弱監(jiān)督卷積神經(jīng)網(wǎng)絡結構.該網(wǎng)絡的特點是:在輸出端增加全局最大池化層來搜索最高得分的目標位置;設計了對圖像中多個目標建模的損失函數(shù).基于PASCAL VOC2012和MS COCO數(shù)據(jù)的大量實驗表明該弱監(jiān)督網(wǎng)絡具有以下優(yōu)點:1)能夠輸出精確的圖像類別標記;2)能夠預測目標的近似位置;3)與基于目標包圍盒標注訓練的方法相比可得到相近的結果.

對預處理部分進行了改進,采用新的網(wǎng)絡結構[10,24,29]、訓練策略、提出有形變約束的池化層[32]等改進方法.在物體檢測問題中,R-CNN等算法依賴于額外的候選區(qū)域檢測過程.在SPP-net[10]與Fast R-CNN[24]中,雖然候選區(qū)域檢測的計算是一個瓶頸問題,通過共享整張圖像的卷積層特征圖,物體檢測時間已明顯縮減.在Fast R-CNN的基礎上,Ren等[29]提出了候選框網(wǎng)絡(Region proposal network,RPN),可以用于實時目標檢測.王曉剛等[33]研究了如何不依賴于人工設計特征和滑動窗口來提取感興趣的目標,該方法同時求解了兩個任務:在圖像中對感興趣的目標快速定位;基于定位的快速目標分割.該方法提出一種聯(lián)合學習框架,在該框架下每一個任務由一個多層卷積神經(jīng)網(wǎng)絡進行求解,兩個網(wǎng)絡合作來增強性能.此外,Yan等[34]提出了面向視覺識別的層次深度卷積神經(jīng)網(wǎng)絡.將卷積神經(jīng)網(wǎng)絡嵌入到一個兩層分類結構中:粗分類器和精細分類器.首先得到基于部件的預訓練,然后由多項式Logistic損失正則項進行全局調(diào)優(yōu).可選性精細分類器以及卷積神經(jīng)網(wǎng)絡參數(shù)的縮減使得層次深度卷積神經(jīng)網(wǎng)絡對于大規(guī)模視覺識別可伸縮.實驗設計了兩層次的深度卷積神經(jīng)網(wǎng)絡,得到了較高的識別率.Liu等[35]提出了稀疏卷積神經(jīng)網(wǎng)絡,解決了卷積神經(jīng)網(wǎng)絡中需要大量的參數(shù)計算、計算復雜度高的問題;通過使用稀疏分解,有效地縮減參數(shù)冗余.在ILSVRC2012數(shù)據(jù)進行實驗,縮減了90%參數(shù),僅僅損失1%的準確性.

隨著待處理圖像數(shù)據(jù)規(guī)模和場景復雜程度的增加,卷積神經(jīng)網(wǎng)絡可以演化出各種圖像理解模型.如面向局部對應點匹配的模型3DMatch[36](局部小規(guī)模數(shù)據(jù)),面向物體檢測的模型Deep sliding shapes[37](物體級別中等規(guī)模數(shù)據(jù)),和面向復雜場景理解的新穎計算模型DeepContext[38](場景級別大規(guī)模數(shù)據(jù))等.

此外,許多工作將卷積神經(jīng)網(wǎng)絡應用在與圖像分類和物體檢測目標相近的新問題或應用上,如細粒度識別[39]、圖像屬性檢測、實例檢索、醫(yī)學影像檢測[40],并且取得了良好的效果,卷積神經(jīng)網(wǎng)絡已成為許多視覺識別問題的首選.

已有的卷積神經(jīng)網(wǎng)絡在圖像分類和物體檢測領域取得一定的進展,但仍面臨許多的挑戰(zhàn):1)不斷加深的深層神經(jīng)網(wǎng)絡保證了圖像分類和物體檢測的精度,但也帶來了巨大的計算壓力,如何快速精確地解決問題是一個不小的挑戰(zhàn);2)在對于多物體相互交叉或相互遮擋時,大多數(shù)方法都不能很好地處理;3)運動模糊也會降低圖像分類和物體檢測的精度.

2.2人臉識別和驗證

人臉識別是指對輸入圖像的身份進行分類,人臉驗證是指區(qū)分一對圖像是否屬于同一身份(可轉(zhuǎn)化為一個二分類問題).代表性的人臉識別方法包含Eigenface、Fisherface等子空間分析法[41],通過比較人臉圖像在低維空間的投影進行識別.基于卷積神經(jīng)網(wǎng)絡的人臉識別方法使用了多層非線性特征變換進行識別,通??扇〉妹黠@優(yōu)于傳統(tǒng)方法的實驗結果[33].

DeepID是一種用于人臉辨識的深度學習提取高層特征方法[42],將深度卷積網(wǎng)絡最后隱層神經(jīng)元的輸出作為DeepID特征.在訓練中區(qū)分10000個類別的人臉并縮減特征抽取層的神經(jīng)元數(shù)量,深度卷積網(wǎng)絡將由一小部分隱層神經(jīng)元逐步形成頂層辨識相關特征.DeepID在LFW數(shù)據(jù)上可得到97.45%的識別率.傳統(tǒng)人臉識別分為4步:人臉檢測、配準、表示、分類;在DeepFace[43]中,配準和表示采用三維人臉模型用分段仿射變換得到,分類器采用了一個9層神經(jīng)網(wǎng)絡.該方法在包含4000類的人臉圖像數(shù)據(jù)庫上進行訓練,在LFW數(shù)據(jù)得到97.35%準確率,在YouTube人臉數(shù)據(jù)(YTF)上能夠縮減50%錯誤率.人臉識別的關鍵是提出有效的特征來縮減同一人的差異并增大不同人之間差異,將人臉識別和人臉驗證信號作為監(jiān)督,由設計的深度卷積網(wǎng)絡可以學習到深度識別—驗證特征(DeepID2)[44].由于學習到的DeepID2特征對于不同的身份具有差異而對同一身份一致,使得人臉識別更加容易.由學習得到的特征表示以及人臉識別模型,在LFW數(shù)據(jù)上達到了最高99.15%的人臉識別準確性.

盡管基于卷積神經(jīng)網(wǎng)絡的人臉識別方法在LFW等測試數(shù)據(jù)上得到了較高的識別率,但是與基于傳統(tǒng)方法的人臉識別方法類似,基于CNN的人臉識別方法仍存在許多挑戰(zhàn)性的問題,如面部特征點定位、人臉、姿態(tài)等對人臉識別效果的影響,都是需要深入研究的問題[45].

2.3場景的語義分割和深度恢復

場景的語義分割是指對于一幅圖像中的每一個像素給出其所屬于的場景類別[46-48],場景深度恢復是基于彩色或灰度圖像恢復每個像素對應深度值的問題,兩者實質(zhì)都是對輸入圖像的每個像素進行分類或回歸,已有方法集中在如何同時考慮單個像素的預測以及場景蘊含的上下文約束.

場景語義分割的參數(shù)化方法通常學習不同標注區(qū)域的外觀(Appearance)和結構關系(Structural relationship)[49-52],這些方法擴展性往往不夠好,對新數(shù)據(jù)需要重新訓練[53].場景語義分割的非參數(shù)化方法通常學習測試數(shù)據(jù)和訓練數(shù)據(jù)間的差異模型,將訓練數(shù)據(jù)的語義標注轉(zhuǎn)化為測試數(shù)據(jù)的預測[54-56],逐個像素(Per-pixel)或者超像素(Superpixel)分割,使得最終結果依賴于超像素分割和假設的結果.

Farabet等[46]使用多尺度的卷積神經(jīng)網(wǎng)絡對輸入圖像進行特征提取,并結合超像素劃分和條件隨機場(Conditional random fields,CRF),得到像素語義的類別.這種方法減小了對人工設計特征的需求,生成對于紋理、形狀、上下文信息的有效表示. Pinheiro等[57]將場景分割與目標檢測相結合,聯(lián)合訓練兩個目標.Mohan[58]在卷積神經(jīng)網(wǎng)絡中加入了反卷積層,從而實現(xiàn)了一種端對端的場景語義分割方法,但是需要固定大小的輸入.Long等[59]在此基礎上提出一種端對端的全卷積神經(jīng)網(wǎng)絡FCN(Fully convolutional networks),將全連接層變?yōu)楹舜笮?的全卷積層,使得FCN可以接受任意大小的輸入.該網(wǎng)絡使用了池化—反卷積結構來保證輸出圖像和輸入圖像具有相同的大小,通過融合低層特征和高層特征得到具有更多細節(jié)的分割結果. Zheng等[60]將條件隨機場轉(zhuǎn)變成為一種遞歸神經(jīng)網(wǎng)絡(Recurrent neural networks,RNN)網(wǎng)絡層,連接在FCN之后,對FCN的結果進行平滑和優(yōu)化,得到細節(jié)更具體更平滑的分割效果.

Liu等[53]研究了一種半?yún)?shù)化人體服飾分割方法.該方法不需要對數(shù)據(jù)進行預處理,而且對新的標注數(shù)據(jù)(如新類別數(shù)據(jù))具有良好的擴展性.在基于K近鄰的非參數(shù)方法框架下,參數(shù)化的匹配卷積神經(jīng)網(wǎng)絡(Matching convolutional neural network,MCNN)根據(jù)K近鄰圖像標注的語義區(qū)域,在測試圖像上能夠找到最佳匹配區(qū)域,并預測出匹配的置信度和位置偏移.具體來說,提取出輸入圖像中的人體區(qū)域,使用K近鄰方法從訓練庫里找出K個近鄰,得到K個圖像對,每個圖像對使用卷積神經(jīng)網(wǎng)絡學習兩者之間的相似性和位置偏差,融合所有的結果得到最終的劃分結果.最后采用超像素間平滑性等方法對劃分結果進行平滑處理.

Eigen等[61]提出基于單幅圖像的深度圖和法向圖恢復以及場景語義分割的CNN網(wǎng)絡.該網(wǎng)絡由三部分構成:第一部分網(wǎng)絡提取圖像特征,第二部分網(wǎng)絡得到低分辨率的預測結果,第三部分網(wǎng)絡得到高分辨率的預測結果,第一部分和第二部分網(wǎng)絡的結果經(jīng)過上采樣并結合卷積后的原始圖像輸入至第三部分網(wǎng)絡.對于深度圖和法向圖恢復任務,同時恢復深度圖和法向圖的效果優(yōu)于分別恢復這兩個任務,完成對深度圖和法向圖的預測后,輸入原始圖像、深度圖和法向圖即可進行語義分割.對于語義分割,基于多通道輸入(彩色圖像、深度圖和法向圖)的預測結果優(yōu)于基于單通道(彩色圖像)輸入得到的結果.

Liu等[62]研究了將CNN和條件隨機場CRF結合起來從單目圖像預測深度的方法.網(wǎng)絡前面幾層網(wǎng)絡用CNN提取特征,然后用條件隨機場計算網(wǎng)絡的損失并反饋至前面幾層網(wǎng)絡.將輸入圖像劃分為超像素,以每個超像素為中心的一個圖像塊作為CNN的輸入,得到預測的深度.每組相鄰的超像素對(Sp,Sq)計算K個相似度度量(Spq1,Spq2,···, Spqk),將這些相似度度量輸入一個全連接層得到相似度值Rpq;將所有超像素預測的深度值和所有的超像素對的相似度值Rpq輸入CRF損失層計算網(wǎng)絡損失,該損失函數(shù)的優(yōu)化可直接使用反向傳播方法求解.

已有的卷積神經(jīng)網(wǎng)絡已經(jīng)能在一定程度上解決圖像語義分割和深度恢復的問題,為了得到更加精細和準確的結果,需要根據(jù)特定的問題設計出能夠更好滿足上下文約束的網(wǎng)絡結構.

2.4人體關節(jié)檢測

本節(jié)主要介紹使用卷積神經(jīng)網(wǎng)絡從圖像中估計人體關節(jié)位置的方法.基于人體關節(jié)點位置,可以較為容易地恢復人體姿態(tài)信息.已有方法通常使用關節(jié)的空間位置約束、上下文約束來減少不合理的關節(jié)位置識別結果.

圖3 基于卷積神經(jīng)網(wǎng)絡的關節(jié)檢測方法[63]Fig.3Hand joint detection with convolutional neural networks[63]

Tompson等[63]直接從深度圖像學習人手關節(jié)位置進而重建模型(網(wǎng)絡結構見圖3),將卷積神經(jīng)網(wǎng)絡應用于人手關節(jié)檢測問題.該方法提出了一個針對人手等鏈狀物體的實時連續(xù)姿態(tài)估計系統(tǒng),通過可端對端訓練的卷積神經(jīng)網(wǎng)絡得到人手關節(jié)點的二維位置,然后結合原始的深度圖像重構人手姿態(tài).該方法分為三個階段:隨機森林分類器分割出人手區(qū)域;卷積神經(jīng)網(wǎng)絡學習關節(jié)點位置;使用逆向運動學(Inverse kinematic,IK)方法進行姿態(tài)恢復. Jain等[64]在Tompson等方法[63]的基礎上加入關節(jié)位置的空間約束,提出一種新的人體姿態(tài)估計方法.該方法結合了底層特征和高層弱結構模型,由卷積神經(jīng)網(wǎng)絡來找出圖像中身體關節(jié)的位置,并加上身體各個部位的位置關系約束,構成了一個對身體姿態(tài)的描述.訓練多個卷積神經(jīng)網(wǎng)絡,每個卷積神經(jīng)網(wǎng)絡輸出關節(jié)位置的空間分布概率圖.采用滑動窗口方法,將圖像輸入卷積神經(jīng)網(wǎng)絡可得到各個關節(jié)的空間概率分布,然后結合身體多個關節(jié)的位置約束優(yōu)化關節(jié)位置,該方法可減少不合理的關節(jié)位置. Oberweger等[65]對比了不同層數(shù)和結構的卷積神經(jīng)網(wǎng)絡對關節(jié)位置的識別效果,在多尺度卷積神經(jīng)網(wǎng)絡、深的卷積神經(jīng)網(wǎng)絡、淺的卷積神經(jīng)網(wǎng)絡中加上三維姿態(tài)的先驗信息,可以顯著提升關節(jié)位置識別效果.該方法還通過加入關節(jié)點的上下文信息迭代優(yōu)化關節(jié)點的位置,能使得關節(jié)估計結果更準確.這類方法的主要挑戰(zhàn)在于如何解決人體肢體自遮擋導致的關節(jié)檢測誤差以及如何提高檢測精度.

3 總結和討論

本文闡述了卷積神經(jīng)網(wǎng)絡在圖像理解,特別是圖像分類、物體檢測、人臉識別、語義圖像分割等領域的研究進展與典型應用.圖像理解也推動了卷積神經(jīng)網(wǎng)絡在網(wǎng)絡結構、訓練方法等方面的完善.卷積神經(jīng)網(wǎng)絡雖然在一些數(shù)據(jù)上,如ImageNet上取得了成功,但是如何針對實際特定問題、特定圖像訓練庫設計更有效的網(wǎng)絡結構,融合問題先驗信息、從理論和應用上評估網(wǎng)絡性能等都是需要深入研究的問題.我們覺得可能的研究方向有:

1)卷積神經(jīng)網(wǎng)絡將卷積、池化與神經(jīng)網(wǎng)絡結合,有效地利用了圖像的結構信息.進一步,如何有效利用領域知識,改進網(wǎng)絡結構來獲取視覺上的不變性值得引起關注;

2)在理論上,如何在算法中利用深度模型的選擇性、稀疏性,如何設計算法保證收斂性;

3)目前,GoogLeNet,VGG的網(wǎng)絡結構已超過20層,如何針對更大規(guī)模數(shù)據(jù)、更深結構網(wǎng)絡設計高效的數(shù)值優(yōu)化、并行計算方法和平臺.

隨著理論和應用的深入研究,卷積神經(jīng)網(wǎng)絡在圖像理解中將會得到更好的應用.

致謝

感謝張寅達博士、白延成博士、王文中博士的幫助和討論,感謝審稿人的寶貴意見以及NVIDIA提供的Hardware Grant Program.

References

1 Rumelhart D E,Hinton G E,Williams R J.Learning representations by back-propagating errors.Nature,1986,323(6088):533-536

2 Vapnik V N.Statistical Learning Theory.New York:Wiley,1998.

3 Wang Xiao-Gang.Deep learning in image recognition.Communications of the CCF,2015,11(8):15-23(王曉剛.圖像識別中的深度學習.中國計算機學會通訊,2015,11(8):15-23)

4 Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks.Science,2006,313(5786):504-507

5 Deng J,Dong W,Socher R,Li L J,Li K,Li F F.ImageNet:a large-scale hierarchical image database.In:Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami,F(xiàn)L:IEEE,2009.248-255

6 LeCun Y,Boser B,Denker J S,Henderson D,Howard R E,Hubbard W,Jackel L D.Backpropagation applied to handwritten zip code recognition.Neural Computation,1989,1(4):541-51

7 LeCun Y,Bottou L,Bengio Y,Haffner P.Gradient-based learning applied to document recognition.Proceedings of the IEEE,1998,86(11):2278-2324

8 Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks.In:Proceedings of Advances in Neural Information Processing Systems 25.Lake Tahoe,Nevada,USA:Curran Associates,Inc.,2012.1097-1105

9 Girshick R,Donahue J,Darrell T,Malik J.Rich feature hierarchies for accurate object detection and semantic segmentation.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,USA:IEEE,2014.580-587

10 He K M,Zhang X Y,Ren S Q,Sun J.Spatial pyramid pooling in deep convolutional networks for visual recognition.IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1904-1916

11 Szegedy C,Liu W,Jia Y Q,Sermanet P,Reed S,Anguelov D,Erhan D,Vanhoucke V,Rabinovich A.Going deeper with convolutions.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA:IEEE,2015.1-9

12 Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[Online],available:http://arxiv.org/abs/1409.1556,May 16,2016

13 Forsyth D A,Ponce J.Computer Vision:A Modern Approach(2nd Edition).Boston:Pearson Education,2012.

14 Zhang Yu-Jin.Image Engineering(Part 2):III-Image Understanding(3rd Edition).Beijing:Tsinghua University Press,2012.(章毓晉.圖像工程(下冊):III-圖像理解.第3版.北京:清華大學出版社,2012.)

15 He K M,Zhang X Y,Ren S Q,Sun J.Deep residuallearningforimagerecognition[Online],available:http://arxiv.org/abs/1512.03385,May 3,2016

16 LeCun Y,Bottou L,Bengio Y,Haffner P.Gradient-based learning applied to document recognition.Proceedings of the IEEE,1998,86(11):2278-324

17 Bouvrie J.Notes On Convolutional Neural Networks,MIT CBCL Tech Report,Cambridge,MA,2006.

18 Duda R O,Hart P E,Stork D G[Author],Li Hong-Dong,Yao Tian-Xiang[Translator].Pattern Classification.Beijing:China Machine Press,2003.(Duda R O,Hart P E,Stork DG[著],李宏東,姚天翔[譯].模式分類.北京:機械工業(yè)出版社,2003.)

19 Lin M,Chen Q,Yan S C.Network in network.In:Proceedings of the 2014 International Conference on Learning Representations.Banff,Canada:Computational and Biological Learning Society,2014.

20 Zeiler M D,F(xiàn)ergus R.Stochastic pooling for regularization of deep convolutional neural networks[Online],available:http://arxiv.org/abs/1301.3557,May 16,2016

21 Maas A L,Hannun A Y,Ng A Y.Rectifier nonlinearities improve neural network acoustic models.In:Proceedings of ICML Workshop on Deep Learning for Audio,Speech,and Language Processing.Atlanta,USA:IMLS,2013.

22 Ioffe S,Szegedy C.Batch normalization:accelerating deep network training by reducing internal covariate shift.In:Proceedings of the 32nd International Conference on Machine Learning.Lille,F(xiàn)rance:IMLS,2015.448-456

23 Felzenszwalb P,McAllester D,Ramanan D.A discriminatively trained,multiscale,deformable part model.In:Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition.Anchorage,USA:IEEE,2008. 1-8

24 Girshick R.Fast R-CNN.In:Proceedings of the 2015 IEEE International Conference on Computer Vision.Santiago,Chile:IEEE,2015.1440-1448

25 Girshick R,Iandola F,Darrell T,Malik J.Deformable part models are convolutional neural networks.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA:IEEE,2015.437-446

26 Dalal N,Triggs B.Histograms of oriented gradients for human detection.In:Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.San Diego,CA,USA:IEEE,2005.886-893

27 Sermanet P,Eigen D,Zhang X,Mathieu M,F(xiàn)ergus R,Le-Cun Y.Overfeat:integrated recognition,localization and detection using convolutional networks[Online],available:http://arxiv.org/abs/1312.6229,May 16,2016

28 Uijlings J R R,van de Sande K E A,Gevers T,Smeulders A W M.Selective search for object recognition.International Journal of Computer Vision,2013,104(2):154-171

29 Ren S,He K,Girshick R,Sun J.Faster R-CNN:towards real-time object detection with region proposal networks.In:Proceedings of Advances in Neural Information Processing Systems 28.Montr′eal,Canada:MIT,2015.91-99

30 Zeiler M D,F(xiàn)ergus R.Visualizing and understanding convolutional networks.In:Proceedings of the 13th European Conference on Computer Vision.Zurich,Switzerland:Springer,2014.818-833

31 Oquab M,Bottou L,Laptev I,Sivic J.Is object localization for free?-weakly-supervised learning with convolutional neural networks.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,USA:IEEE,2015.685-694

32 Ouyang W L,Wang X G,Zeng X Y,Qiu S,Luo P,Tian Y L,Li H S,Yang S,Wang Z,Loy C C,Tang X O.Deepid-net:deformable deep convolutional neural networks for object detection.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,USA:IEEE,2015.2403-2412

33 Wang Xiao-Gang,Sun Yi,Tang Xiao-Ou.From unified subspace analysis to joint deep learning:progress of face recognition in the last decade.Communications of the CCF,2015,11(4):8-14(王曉剛,孫衤韋,湯曉鷗.從統(tǒng)一子空間分析到聯(lián)合深度學習:人臉識別的十年歷程.中國計算機學會通訊,2015,11(4):8-14)

34 Yan Z C,Zhang H,Piramuthu R,Jagadeesh V,DeCoste D,Di W,Yu Y Z.HD-CNN:hierarchical deep convolutional neural networks for large scale visual recognition.In:Proceedings of the 2015 IEEE International Conference on Computer Vision.Boston,USA:IEEE,2015.2740-2748

35 Liu B Y,Wang M,F(xiàn)oroosh H,Tappen M,Pensky M.Sparse convolutional neural networks.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,USA:IEEE,2015.806-814

36 Zeng A,Song S,Nie?ner M,F(xiàn)isher M,Xiao J.3DMatch:learning the matching of local 3D geometry in range scans[Online],available:http://arxiv.org/abs/1603.08182,August 11,2016

37 Song S,Xiao J.Deep sliding shapes for amodal 3D object detection in RGB-D images.In:Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,USA:IEEE,2016.685-694

38 ZhangY,BaiM,KohliP,IzadiS,XiaoJ.Deep-Context:context-encodingneuralpathwaysfor 3Dholisticsceneunderstanding[Online],available:http://arxiv.org/abs/1603.04922,August 11,2016

39 Zhang N,Donahue J,Girshick R,Darrell T.Part-based RCNNs for fine-grained category detection.In:Proceedings of the 13th European Conference on Computer Vision.Zurich,Switzerland:Springer,2014.834-849

40 Shin H C,Roth H R,Gao M C,Lu L,Xu Z Y,Nogues I,Yao J H,Mollura D,Summers R M.Deep convolutional neural networks for computer-aided detection:CNN architectures,dataset characteristics and transfer learning.IEEE Transactions on Medical Imaging,2016,35(5):1285-1298

41 Belhumeur P N,Hespanha J P,Kriegman D J.Eigenfaces vs.fisherfaces:recognition using class specific linear projection.IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(7):711-720

42 Sun Y,Wang X G,Tang X O.Deep learning face representation from predicting 10,000 classes.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,USA:IEEE,2014.1891-1898

43 Taigman Y,Yang M,Ranzato M A,Wolf L.Deepface:closing the gap to human-level performance in face verification. In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,USA:IEEE,2014.1701-1708

44 Sun Y,Wang Y H,Wang X G,Tang X O.Deep learning face representation by joint identification-verification.In:Proceedings of Advances in Neural Information Processing Systems 27.Montreal,Canada:Curran Associates,Inc.,2014. 1988-1996

45 Shan Shi-Guang,Kan Mei-Na,Li Shao-Xin,Zhang Jie,Chen Xi-Lin.Face image analysis and recognition with deep learning.Communications of the CCF,2015,11(4):15-21(山世光,闞美娜,李紹欣,張杰,陳熙霖.深度學習在人臉分析與識別中的應用.中國計算機學會通訊,2015,11(4):15-21)

46 Farabet C,Couprie C,Najman L,LeCun Y.Learning hierarchical features for scene labeling.IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1915-29

47 Yu Miao,Hu Zhan-Yi.Higher-order Markov random fields and their applications in scene understanding.Acta Automatica Sinica,2015,41(7):1213-1234(余淼,胡占義.高階馬爾科夫隨機場及其在場景理解中的應用.自動化學報,2015,41(7):1213-1234)

48 Guo Ping,Qian Yin,Zhou Xiu-Ling.Image semantic analysis.Beijing:Science Press,2015.(郭平,尹乾,周秀玲.圖像語義分析.北京:科學出版社,2015.)

49 Yamaguchi K,Kiapour M H,Ortiz L E,Berg T L.Parsing clothing in fashion photographs.In:Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence,RI:IEEE,2012.3570-3577

50 Liu S,F(xiàn)eng J S,Domokos C,Xu H,Huang J S,Hu Z Z,Yan S C.Fashion parsing with weak color-category labels.IEEE Transactions on Multimedia,2014,16(1):253-265

51 Dong J,Chen Q,Shen X H,Yang J C,Yan S C.Towards unified human parsing and pose estimation.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH:IEEE,2014.843-850

52 Dong J,Chen Q,Xia W,Huang Z Y,Yan S C.A deformable mixture parsing model with parselets.In:Proceedings of the 2013 IEEE International Conference on Computer Vision. Sydney,Australia:IEEE,2013.3408-3415

53 Liu S,Liang X D,Liu L Q,Shen X H,Yang J C,Xu C S,Lin L,Cao X C,Yan S C.Matching-CNN meets KNN:quasi-parametric human parsing.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA:IEEE,2015.1419-1427

54 Yamaguchi K,Kiapour M H,Berg T L.Paper doll parsing:retrieving similar styles to parse clothing items.In:Proceedings of the 2013 IEEE International Conference on Computer Vision.Sydney,Australia:IEEE,2013.3519-3526

55 Liu C,Yuen J,Torralba A.Nonparametric scene parsing via label transfer.IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(12):2368-2382

56 Tung F,Little J J.CollageParsing:nonparametric scene parsing by adaptive overlapping windows.In:Proceedings of the 13th European Conference on Computer Vision.Zurich,Switzerland:Springer,2014.511-525

57 Pinheiro P O,Collobert R,Dollar P.Learning to segment object candidates.In:Proceedings of Advances in Neural Information Processing Systems 28.Montr′eal,Canada:Curran Associates,Inc.,2015.1981-1989

58 Mohan R.Deep deconvolutional networks for scene parsing[Online],available:http://arxiv.org/abs/1411.4101,May 3,2016

59 Long J,Shelhamer E,Darrell T.Fully convolutional networks for semantic segmentation.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA:IEEE,2015.3431-3440

60 Zheng S,Jayasumana S,Romera-Paredes B,Vineet V,Su Z Z,Du D L,Huang C,Torr P H S.Conditional random fields as recurrent neural networks.In:Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago,Chile:IEEE,2015.1529-1537

61 Eigen D,F(xiàn)ergus R.Predicting depth,surface normals and semantic labels with a common multi-scale convolutional architecture.In:Proceedings of the 2015 IEEE International Conference on Computer Vision.Santiago,Chile:IEEE,2015.2650-2658

62 Liu F Y,Shen C H,Lin G S.Deep convolutional neural fields for depth estimation from a single image.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA:IEEE,2015.5162-5170

63 Tompson J,Stein M,Lecun Y,Perlin K.Real-time continuous pose recovery of human hands using convolutional networks.ACM Transactions on Graphics(TOG),2014,33(5):Article No.169

64 Jain A,Tompson J,Andriluka M,Taylor G W,Bregler C. Learning human pose estimation features with convolutional networks.In:Proceedings of the 2014 International Conference on Learning Representations.Banff,Canada:Computational and Biological Learning Society,2014.1-14

65 Oberweger M,Wohlhart P,Lepetit V.Hands deep in deep learning for hand pose estimation.In:Proceedings of the 20th Computer Vision Winter Workshop(CVWW).Seggau,Austria,2015.21-30

常亮北京師范大學信息科學與技術學院副教授.主要研究方向為計算機視覺與機器學習.

E-mail:changliang@bnu.edu.cn

(CHANG LiangAssociate professor at the College of Information Science and Technology,Beijing Normal University.Her research interest covers computer vision and machine learning.)

鄧小明中國科學院軟件研究所副研究員.主要研究方向為計算機視覺.本文通信作者.E-mail:xiaoming@iscas.ac.cn

(DENG Xiao-MingAssociate professor at the Institute of Software,Chinese Academy of Sciences.His main research interest is computer vision.Corresponding author of this paper.)

周明全北京師范大學信息科學與技術學院教授.主要研究方向為計算機可視化技術,虛擬現(xiàn)實.

E-mail:mqzhou@bnu.edu.cn

(ZHOU Ming-QuanProfessor at the College of Information Science and Technology,Beijing Normal University. His research interest covers information visualization and virtual reality.)

武仲科北京師范大學信息科學與技術學院教授.主要研究方向為計算機圖形學,計算機輔助幾何設計,計算機動畫,虛擬現(xiàn)實.

E-mail:zwu@bnu.edu.cn

(WU Zhong-KeProfessor at the CollegeofInformationScienceand Technology,Beijing Normal University. His research interest covers computer graphics,computer-aided design,computer animation,and virtual reality.)

袁野中國科學院軟件研究所碩士研究生.主要研究方向為計算機視覺.

E-mail:yuanye13@mails.ucas.ac.cn

(YUAN YeMaster student at the Institute of Software,Chinese Academy of Sciences.His main research interest is computer vision.)

楊碩中國科學院軟件研究所碩士研究生.主要研究方向為計算機視覺.

E-mail:yangshuo114@mails.ucas.ac.cn

(YANG ShuoMaster student at the Institute of Software,Chinese Academy of Sciences.His main research interest is computer vision.)

王宏安中國科學院軟件研究所研究員.主要研究方向為實時智能,自然人機交互.

E-mail:hongan@iscas.ac.cn

(WANG Hong-AnProfessor at the Institute of Software,Chinese Academy of Sciences.His research interest covers real-time intelligence and natural human-computer interactions.)

Convolutional Neural Networks in Image Understanding

CHANG Liang1,2DENG Xiao-Ming3ZHOU Ming-Quan1,2WU Zhong-Ke1,2YUAN Ye3,4
YANG Shuo3,4WANG Hong-An3

Convolutional neural networks(CNN)have been widely applied to image understanding,and they have arose much attention from researchers.Specifically,with the emergence of large image sets and the rapid development of GPUs,convolutional neural networks and their improvements have made breakthroughs in image understanding,bringing about wide applications into this area.This paper summarizes the up-to-date research and typical applications for convolutional neural networks in image understanding.We firstly review the theoretical basis,and then we present the recent advances and achievements in major areas of image understanding,such as image classification,object detection,face recognition,semantic image segmentation etc.

Convolutional neural networks(CNN),image understanding,deep learning,image classification,object detection

Manuscript December 11,2015;accepted May 3,2016

10.16383/j.aas.2016.c150800

Chang Liang,Deng Xiao-Ming,Zhou Ming-Quan,Wu Zhong-Ke,Yuan Ye,Yang Shuo,Wang Hong-An. Convolutional neural networks in image understanding.Acta Automatica Sinica,2016,42(9):1300-1312

2015-12-11錄用日期2016-05-03

國家自然科學基金(61402040,61473276),中國科學院青年創(chuàng)新促進會資助

Supported by National Natural Science Foundation of China(61402040,61473276)and Youth Innovation Promotion Association,Chinese Academy of Sciences

本文責任編委柯登峰

Recommended by Associate Editor KE Deng-Feng

1.北京師范大學信息科學與技術學院北京1008752.教育部虛擬現(xiàn)實應用工程研究中心北京1008753.中國科學院軟件研究所人機交互北京市重點實驗室北京1001904.中國科學院大學計算機與控制學院北京100049

1.College of Information Science and Technology,Beijing Normal University,Beijing 1008752.Engineering Research Center of Virtual Reality and Applications,Ministry of Education,Beijing 1008753.Beijing Key Laboratory of Human-Computer Interactions,Institute of Software,Chinese Academy of Sciences,Beijing 1001904.School of Computer and Control Engineering,University of Chinese Academy of Sciences,Beijing 100049

猜你喜歡
物體卷積神經(jīng)網(wǎng)絡
基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
深刻理解物體的平衡
神經(jīng)網(wǎng)絡抑制無線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
我們是怎樣看到物體的
基于傅里葉域卷積表示的目標跟蹤算法
基于神經(jīng)網(wǎng)絡的拉矯機控制模型建立
重型機械(2016年1期)2016-03-01 03:42:04
復數(shù)神經(jīng)網(wǎng)絡在基于WiFi的室內(nèi)LBS應用
為什么同一物體在世界各地重量不一樣?
基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡的PID整定
纳雍县| 城市| 岳西县| 徐汇区| 苏尼特右旗| 平陆县| 雷波县| 昌宁县| 沧州市| 南澳县| 芒康县| 本溪| 齐齐哈尔市| 秦安县| 仙居县| 德安县| 金寨县| 云和县| 缙云县| 吉林市| 图们市| 同德县| 东乌| 固原市| 临沂市| 乌审旗| 时尚| 濮阳县| 东海县| 永靖县| 宿迁市| 林芝县| 长丰县| 吉隆县| 大兴区| 阳东县| 油尖旺区| 淮北市| 三河市| 太保市| 牙克石市|