国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于候選區(qū)域的深度學(xué)習(xí)目標(biāo)檢測(cè)算法綜述

2019-06-21 07:47詹煒長(zhǎng)江大學(xué)計(jì)算機(jī)科學(xué)學(xué)院湖北荊州434023
關(guān)鍵詞:池化層卷積神經(jīng)網(wǎng)絡(luò)

詹煒 (長(zhǎng)江大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,湖北 荊州 434023)

Inomjon Ramatov (長(zhǎng)江大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,國(guó)際學(xué)院,湖北 荊州 434023)

崔萬(wàn)新,喻晶精 (長(zhǎng)江大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,湖北 荊州 434023)

1 目標(biāo)檢測(cè)的提出

從計(jì)算機(jī)誕生之時(shí),人們就希望它可以幫助甚至代替人類(lèi)完成一些重復(fù)性工作。利用巨大的存儲(chǔ)空間和極快的運(yùn)算速度優(yōu)勢(shì),計(jì)算機(jī)可以輕易地完成一些對(duì)于人類(lèi)非常困難的問(wèn)題。如統(tǒng)計(jì)一本書(shū)中不同單詞出現(xiàn)的次數(shù),存儲(chǔ)一個(gè)圖書(shū)館中所有的藏書(shū),計(jì)算復(fù)雜的數(shù)學(xué)公式,都可以通過(guò)計(jì)算機(jī)輕松解決。然而,一些人類(lèi)可以輕松解決的問(wèn)題,目前卻難以通過(guò)計(jì)算機(jī)實(shí)現(xiàn)。如自然語(yǔ)言理解、圖像識(shí)別、語(yǔ)音識(shí)別等,而這些就是人工智能(artificial intelligence,AI)[1]需要解決的問(wèn)題。

2006年以來(lái),隨著深度學(xué)習(xí)的出現(xiàn),機(jī)器學(xué)習(xí)領(lǐng)域取得突破性進(jìn)展。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來(lái)解釋數(shù)據(jù),如圖像、聲音和文本。2006年加拿大多倫多大學(xué)教授、機(jī)器學(xué)習(xí)領(lǐng)域的泰斗Geoffrey Hinton和他的學(xué)生Ruslan Salakhutdinov在《Science》上發(fā)表了一篇文章,掀起了深度學(xué)習(xí)在學(xué)術(shù)界和工業(yè)界的研究和應(yīng)用浪潮[2]。之后一直到2016年由Google開(kāi)發(fā)的AlphaGo擊敗圍棋世界冠軍李世石,人工智能的深度學(xué)習(xí)展現(xiàn)出了極大的潛力。

雖然人工智能目前已經(jīng)可以擊敗圍棋世界冠軍,但讓人工智能實(shí)現(xiàn)汽車(chē)自動(dòng)駕駛?cè)匀皇掷щy。要實(shí)現(xiàn)汽車(chē)自動(dòng)駕駛,計(jì)算機(jī)需要判斷哪里是路,哪里是障礙,這些對(duì)人類(lèi)非常直觀的東西對(duì)計(jì)算機(jī)卻是相當(dāng)困難,這是因?yàn)槿祟?lèi)有最重要的感知系統(tǒng)——視覺(jué)。人類(lèi)大腦中幾乎一半的神經(jīng)元與視覺(jué)有關(guān),視覺(jué)系統(tǒng)主要解決的是物體識(shí)別、物體形狀和方位確認(rèn)、物體運(yùn)動(dòng)判斷這3個(gè)問(wèn)題。人類(lèi)能通過(guò)視覺(jué)從復(fù)雜結(jié)構(gòu)的圖片中找到關(guān)注重點(diǎn),在幽暗的環(huán)境中認(rèn)出熟人。但由于主觀及客觀條件的影響,導(dǎo)致許多信息無(wú)法被人類(lèi)視覺(jué)系統(tǒng)準(zhǔn)確獲取,于是便產(chǎn)生了計(jì)算機(jī)視覺(jué)(computer vision,CV)[3]。隨著信息時(shí)代的到來(lái),大量圖像和視頻數(shù)據(jù)的產(chǎn)生,計(jì)算機(jī)視覺(jué)已成為人工智能最重要和發(fā)展最快的研究領(lǐng)域之一。

計(jì)算機(jī)視覺(jué)是一個(gè)跨領(lǐng)域的交叉學(xué)科,通過(guò)計(jì)算機(jī)模擬人的視覺(jué)系統(tǒng),實(shí)現(xiàn)人的視覺(jué)功能,以適應(yīng)、理解外界環(huán)境和控制自身的運(yùn)動(dòng)。計(jì)算機(jī)視覺(jué)能夠增強(qiáng)、改善人們的生活,代替人類(lèi)完成更多的任務(wù):一方面,它為人類(lèi)自身視覺(jué)提供強(qiáng)有力的輔助和增強(qiáng),極大地改善人與世界交互的方式,如通過(guò)圖片搜索引擎找到與之相關(guān)信息;另一方面,機(jī)器可以準(zhǔn)確、客觀而穩(wěn)定地看見(jiàn),突破人類(lèi)視覺(jué)的局限,代替人類(lèi)完成更多的任務(wù),如24h不間斷、不疲倦地進(jìn)行場(chǎng)景監(jiān)控。

人工智能基礎(chǔ)架構(gòu)如圖1所示,計(jì)算機(jī)視覺(jué)賦予機(jī)器“看”和“認(rèn)知”的功能,是人工智能的一類(lèi)基礎(chǔ)應(yīng)用技術(shù),它與語(yǔ)言識(shí)別[4]、語(yǔ)音識(shí)別[5]一起構(gòu)成人工智能的感知智能,讓機(jī)器完成對(duì)外部世界的探測(cè),進(jìn)而做出判斷,采取行動(dòng),讓更復(fù)雜層面的智慧決策、自主行動(dòng)成為可能?;谏疃葘W(xué)習(xí)算法模型和CPU、GPU等關(guān)鍵硬件的支撐,計(jì)算機(jī)視覺(jué)技術(shù)應(yīng)用得以實(shí)現(xiàn),并最終集成于多類(lèi)產(chǎn)品和應(yīng)用場(chǎng)景之中,目前計(jì)算機(jī)視覺(jué)正應(yīng)用于車(chē)輛交通檢測(cè)[6]、智慧工業(yè)[7]、農(nóng)業(yè)自動(dòng)化[8]等多個(gè)領(lǐng)域。

圖1 人工智能基礎(chǔ)架構(gòu)

圖2 目標(biāo)檢測(cè)流程

作為圖像理解和計(jì)算機(jī)視覺(jué)的基石,目標(biāo)檢測(cè)(object detection)是計(jì)算機(jī)視覺(jué)中真正核心的任務(wù),也一直都是一個(gè)活躍的研究領(lǐng)域。目標(biāo)檢測(cè)流程如圖2所示,目標(biāo)檢測(cè)不是簡(jiǎn)單的將圖像分類(lèi),是將目標(biāo)定位和目標(biāo)分類(lèi)結(jié)合起來(lái),通過(guò)海量而優(yōu)質(zhì)的圖片數(shù)據(jù)訓(xùn)練算法模型,從而實(shí)現(xiàn)機(jī)器判斷出輸入圖像中具有所需特征的物體,并且確定目標(biāo)物體的位置與范圍。其準(zhǔn)確性和實(shí)時(shí)性是整個(gè)系統(tǒng)的重要指標(biāo)。然而,這其中有很多難點(diǎn),如視角、不同照明條件、可變型、遮擋、圖片背景混亂、類(lèi)內(nèi)差異,算法需要處理這些難點(diǎn),這是具有挑戰(zhàn)性的難題。

傳統(tǒng)的目標(biāo)檢測(cè)算法[9]多是通過(guò)在輸入圖像中滑動(dòng)一個(gè)固定大小的窗口,將窗口中的子圖像作為候選區(qū),使用尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)[10~12]、方向梯度直方圖(Histogram of Oriented Gradient,HOG)[13~15]、Haar[16]提取特征,再使用訓(xùn)練完成的分類(lèi)器進(jìn)行分類(lèi),如部位形變模型(Deformable Part Model,DPM)[17~20]、支持向量機(jī)(Support Vector Machine,SVM)模型[21]等。但是,由于傳統(tǒng)目標(biāo)檢測(cè)主要存在的2個(gè)缺陷(基于滑動(dòng)窗口的區(qū)域選擇策略的針對(duì)性不強(qiáng),導(dǎo)致時(shí)間復(fù)雜度提高,窗口冗余;設(shè)計(jì)的特征難以應(yīng)用于多目標(biāo)檢測(cè)),使得其目標(biāo)檢測(cè)的準(zhǔn)確性達(dá)不到實(shí)際需求。為促進(jìn)計(jì)算機(jī)視覺(jué)的發(fā)展,從2009年開(kāi)始,ImageNet團(tuán)隊(duì)組織了ImageNet大規(guī)模視覺(jué)識(shí)別大賽,其中具有7層的AlexNet卷積網(wǎng)絡(luò)[22]在2012年度的大賽中以絕對(duì)的優(yōu)勢(shì)取得冠軍,其效果遠(yuǎn)超傳統(tǒng)算法,將大眾的視野聚集到了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neuron Networks,CNN)。

從2012年到2015年,通過(guò)對(duì)深度學(xué)習(xí)算法的不斷研究,ImageNet圖像分類(lèi)的錯(cuò)誤率以4%的速度遞減,這說(shuō)明深度學(xué)習(xí)算法完全打破了傳統(tǒng)算法在圖像分類(lèi)上的瓶頸,讓圖像分類(lèi)問(wèn)題得到了更好的解決。到2015年時(shí),深度學(xué)習(xí)算法的錯(cuò)誤率為4.94%,已經(jīng)成功超越了人工標(biāo)注的錯(cuò)誤率(5.1%),實(shí)現(xiàn)了計(jì)算機(jī)視覺(jué)研究領(lǐng)域的一個(gè)突破。

2 目標(biāo)檢測(cè)算法——卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)

圖3 LeNet-5模型

一個(gè)簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò)是由各種層按照順序排列組成,主要由輸入層、卷積層、池化層、全連接層、輸出層組成。通過(guò)將這些層疊加起來(lái),就可以組成一個(gè)完整的神經(jīng)網(wǎng)絡(luò)。由加拿大多倫多大學(xué)LeCun教授提出的LeNet-5網(wǎng)絡(luò)[23]如圖3所示,該模型由8層網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)成,除輸出層外,其余每層都有訓(xùn)練參數(shù)。

卷積層是構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)的核心層,它產(chǎn)生網(wǎng)絡(luò)中大部分的計(jì)算量。卷積層越多,特征的表達(dá)能力就越強(qiáng)。卷積核是卷積層的重要組成,其作用是對(duì)輸入圖像的深層信息進(jìn)行提取。輸入圖像大小為32×32(像素),卷積核大小為5×5(像素),采用滑動(dòng)窗口的方法對(duì)圖像進(jìn)行卷積,得到的特征圖大小為28×28(像素)。特征圖之間是相互聯(lián)系的,上層特征圖會(huì)影響下一層特征圖。

(1)

常用的激活函數(shù)為sigmoid函數(shù)和tanh函數(shù):

(2)

(3)

通常,在連續(xù)的卷積層之間會(huì)周期性地插入一個(gè)池化層。池化層的作用是逐漸降低數(shù)據(jù)體的空間尺寸,減少網(wǎng)絡(luò)中參數(shù)的數(shù)量,使得計(jì)算資源耗費(fèi)變少,也能有效地控制過(guò)擬合。一般池化層可以通過(guò)以下方式計(jì)算:

(4)

圖4 卷積和池化過(guò)程

式中:d(x)為池化操作,一般是進(jìn)行最大池化操作,它是將輸入的圖像劃分為若干個(gè)局部區(qū)域,對(duì)每個(gè)局部區(qū)域輸出最大值。池化層會(huì)不重疊地選擇局部區(qū)域,再次計(jì)算出圖像重要的特征值。經(jīng)過(guò)圖像的二次特征提取,池化層降低了空間尺寸,提高了抗畸變的能力。卷積和池化操作如圖4所示。卷積過(guò)程為:利用卷積核fx卷積圖像,再加上偏移量bx,最后得到特征圖。池化過(guò)程為:最常用的降采樣操作是取最大值,這里使用的是尺寸為2×2大小(像素)的濾波器,每個(gè)取最大值操作是從4個(gè)數(shù)字中選取(即2×2的方塊區(qū)域中)。

全連接層在整個(gè)卷積神經(jīng)網(wǎng)絡(luò)中起到“分類(lèi)器”的作用,全連接層位于提取特征之后,全連接層將上一層的所有神經(jīng)元和當(dāng)前層的每個(gè)神經(jīng)元相互連接,將局部特征結(jié)合成全局特征。

全連接層的一般形式為:

xl=f(wlxl-1+bl)

(5)

式中:wl表示全連接層的權(quán)重;bl表示全連接層的偏移量;函數(shù)f(x)表示非線性激活函數(shù),即sigmoid函數(shù)或tanh函數(shù)。

3 基于候選區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展

3.1 R-CNN

由Girshick等提出的R-CNN是將卷積神經(jīng)網(wǎng)絡(luò)用于目標(biāo)檢測(cè)的開(kāi)端[24]。圖5是R-CNN進(jìn)行目標(biāo)檢測(cè)步驟。首先是利用Selective search方法[25]從輸入圖片中預(yù)測(cè)目標(biāo)可能出現(xiàn)的位置,生成若干個(gè)候選區(qū)域;然后將每個(gè)候選區(qū)域轉(zhuǎn)換為固定大小并使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)其提取特征;最后使用SVM分類(lèi)器對(duì)特征進(jìn)行分類(lèi),并通過(guò)邊界回歸得到精確的目標(biāo)區(qū)域。

圖5 R-CNN目標(biāo)檢測(cè)流程圖

圖6 空間金字塔池化層工作過(guò)程

圖7 Fast R-CNN目標(biāo)檢測(cè)流程

雖然R-CNN較傳統(tǒng)的CNN在目標(biāo)檢測(cè)方面準(zhǔn)確性更高,但實(shí)時(shí)性達(dá)不到實(shí)際需求,其原因是:①訓(xùn)練分為多個(gè)階段,微調(diào)卷積神經(jīng)網(wǎng)絡(luò),對(duì)SVM分類(lèi)器進(jìn)行訓(xùn)練,對(duì)邊界回歸器進(jìn)行訓(xùn)練,訓(xùn)練空間和時(shí)間代價(jià)很高;②多個(gè)候選區(qū)域?qū)?yīng)的圖像需要預(yù)先提取,占用較大的磁盤(pán)空間,R-CNN對(duì)每個(gè)候選區(qū)域都放入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,計(jì)算量巨大。

3.2 SPP-net

卷積神經(jīng)網(wǎng)絡(luò)需要輸入固定大小的圖像尺寸(如224×224)才能進(jìn)行特征提取和特征分類(lèi)。為了卷積神經(jīng)網(wǎng)絡(luò)能夠處理任意尺寸和比例的圖像,何愷明等[26]提出了空間金字塔池化層(Spatial Pyramid Pooling,SPP)??臻g金字塔池化層工作過(guò)程如圖6所示。通過(guò)將空間金字塔池化層替換掉全連接層之前的最后一個(gè)池化層,有效解決了R-CNN需要對(duì)每一個(gè)候選區(qū)域獨(dú)立計(jì)算的問(wèn)題,該網(wǎng)絡(luò)結(jié)構(gòu)稱(chēng)為SPP-net。

空間金字塔池化層工作過(guò)程為:輸入圖像在卷積層中進(jìn)行特征提取,得到一個(gè)隨意大小的特征圖,接著在空間金字塔池化層中把特征圖分成不同大小的空間塊,如4×4、2×2、1×1,在每個(gè)空間塊中進(jìn)行一次最大池化。池化后的特征拼接得到一個(gè)k×w維的固定維度向量(k為最后一層卷積層的卷積核數(shù)量,w代表空間塊的數(shù)目), 這個(gè)固定維度的向量就是全連接層的輸入。雖然SPP-net在檢測(cè)速度上大大提高,但是SPP-net仍然存在著同R-CNN一樣的問(wèn)題:訓(xùn)練分為多個(gè)階段,步驟繁瑣。

3.3 Fast R-CNN

由Girshick提出的Fast R-CNN[27]修正了R-CNN和SPP-net的缺點(diǎn),同時(shí)提高其速度和準(zhǔn)確性。圖7是Fast R-CNN目標(biāo)檢測(cè)流程。

Fast R-CNN目標(biāo)檢測(cè)的過(guò)程為:整個(gè)網(wǎng)絡(luò)首先會(huì)使用多個(gè)卷積層和池化層來(lái)處理輸入圖像,產(chǎn)生特征圖。對(duì)每一個(gè)候選區(qū)域,用ROI池化層從特征圖中提取出固定長(zhǎng)度的特征向量。然后特征向量將被送入一系列全連接層中,這將分支成2個(gè)同級(jí)輸出層:一個(gè)使用softmax輸出N個(gè)類(lèi)別的概率估計(jì),另一個(gè)輸出N個(gè)類(lèi)別的檢測(cè)框坐標(biāo),修正邊界位置。

ROI是卷積特征圖中的一個(gè)矩形窗口,ROI池化層是對(duì)任何有效的ROI卷積特征圖通過(guò)最大池化轉(zhuǎn)換成固定空間范圍(H×W)的小特征圖,其中H和W是層的超參數(shù),獨(dú)立于任何一個(gè)ROI。如一個(gè)尺寸大小為h×w的ROI窗口分割成H×W個(gè)網(wǎng)格,那么子窗口大小需要?jiǎng)澐譃?h/H)×(w/W),然后對(duì)每個(gè)子窗口進(jìn)行最大池化,得到相應(yīng)的輸出。ROI池化層其實(shí)只是SPP-net中使用的空間金字塔池化層的特殊情況,只有一個(gè)金字塔層。

Fast R-CNN網(wǎng)絡(luò)主要有以下優(yōu)點(diǎn):①訓(xùn)練使用多任務(wù)損失函數(shù)的單階段訓(xùn)練,實(shí)現(xiàn)端到端的訓(xùn)練過(guò)程;②訓(xùn)練可以更新所有網(wǎng)絡(luò)層參數(shù);③不需要額外的磁盤(pán)空間來(lái)緩存特征。其主要缺點(diǎn)在于,使用selective search算法提取候選區(qū)域,使得目標(biāo)檢測(cè)時(shí)間大多消耗在提取候選區(qū)域上,實(shí)時(shí)性無(wú)法滿(mǎn)足實(shí)際需求。

3.4 Faster R-CNN

圖8 RPN網(wǎng)絡(luò)結(jié)構(gòu)程

圖9 Mask R-CNN實(shí)例分割框架

R-CNN和Fast R-CNN都是使用selective search算法提取候選區(qū)域,但候選區(qū)域生成速度慢,特征層次較低,生成的候選區(qū)域質(zhì)量不高。因此,任少卿等提出了Faster R-CNN[28],主要由區(qū)域建議網(wǎng)絡(luò)(Region proposal -network,RPN)候選框提取模塊和Fast R-CNN檢測(cè)模塊2個(gè)模塊組成。

RPN網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示。對(duì)于任意大小的圖像輸入到RPN中,都可以生成高質(zhì)量的區(qū)域建議框。RPN網(wǎng)絡(luò)中使用一個(gè)3×3的卷積核,采用滑動(dòng)窗口機(jī)制,在最后一個(gè)共享卷積層參數(shù)的特征圖上滑動(dòng),以滑動(dòng)窗口的中心對(duì)應(yīng)位置映射回輸入圖像,預(yù)設(shè)3種尺度和3種長(zhǎng)寬比,這樣在特征圖的每一個(gè)位置都對(duì)應(yīng)著9個(gè)錨框。如果特征圖的大小是H×W,則一共有H×W×9個(gè)錨框,采用滑動(dòng)窗口能夠關(guān)聯(lián)特征圖的全部特征空間,使得RPN提取的候選區(qū)域更加準(zhǔn)確。之后再連接2個(gè)同級(jí)的1×1卷積層,其中一個(gè)使用softmax分類(lèi)輸出錨框目標(biāo)和背景的分?jǐn)?shù),另一個(gè)用于輸出錨框?qū)?yīng)于真實(shí)目標(biāo)邊界框的回歸偏移量。通過(guò)這2個(gè)輸出對(duì)錨框進(jìn)行初步篩選和初步偏移,最終得到候選區(qū)域。

3.5 Mask R-CNN

為了實(shí)現(xiàn)實(shí)例分割,何愷明等[29]提出了Mask R-CNN。該模型在Faster R-CNN的基礎(chǔ)上增加了第3個(gè)模塊——目標(biāo)掩碼模塊。Mask R-CNN實(shí)例分割框架如圖9所示。

ROI池化層在進(jìn)行歸一化過(guò)程中,會(huì)導(dǎo)致ROI和提取的特征之間產(chǎn)生錯(cuò)位,因此Mask R-CNN模型使用ROI Align層替代了ROI池化層。ROI Align層采用了雙線性?xún)?nèi)插法,根據(jù)ROI中的4個(gè)采樣點(diǎn)計(jì)算輸入特征的精確值并匯總結(jié)果,對(duì)提取的特征和輸入之間進(jìn)行了校準(zhǔn)。

Mask R-CNN定義了一個(gè)多任務(wù)損失函數(shù)L:

L=Lcls+Lbox+Lmask

(6)

式中:Lcls是分類(lèi)誤差;Lbox是真實(shí)目標(biāo)邊界框回歸誤差;Lmask是分割誤差。對(duì)于每一個(gè)ROI,掩碼分支都有一個(gè)Km2維的矩陣輸出,即K個(gè)類(lèi)別在分辨率為m×m上的二進(jìn)制掩碼。對(duì)于每一個(gè)像素,都是采用sigmoid函數(shù)求得平均二值交叉熵?fù)p失函數(shù),即Lmask。對(duì)于僅與第K類(lèi)相關(guān)聯(lián)的ROI,Lmask僅在第K個(gè)上定義掩碼,避免了不同類(lèi)別掩碼之間的影響,有效增強(qiáng)了實(shí)例分割的效果。

4 算法性能對(duì)比

表1 基于候選區(qū)域的深度卷積網(wǎng)絡(luò)在目標(biāo)檢測(cè)方面的性能對(duì)比

基于候選區(qū)域的深度卷積網(wǎng)絡(luò)在目標(biāo)檢測(cè)方面的性能對(duì)比如表1所示,F(xiàn)aster-RCNN在準(zhǔn)確性和實(shí)時(shí)性上遠(yuǎn)遠(yuǎn)超越其余模型,而Mask R-CNN在性能上與Faster R-CNN差別不大,因?yàn)镸ask R-CNN主要用于掩碼輸出,故表1中未標(biāo)注Mask R-CNN。

5 結(jié)語(yǔ)

傳統(tǒng)的目標(biāo)檢測(cè)任務(wù)使用滑動(dòng)窗口的框架,把一張圖分解成幾百萬(wàn)個(gè)不同位置不同尺度的子窗口,針對(duì)每一個(gè)窗口使用分類(lèi)器判斷是否包含目標(biāo)物體,這有極大的局限性。近年來(lái),基于候選區(qū)域的深度學(xué)習(xí)目標(biāo)檢測(cè)算法飛速發(fā)展,從最初的R-CNN到現(xiàn)在的Mask R-CNN,其準(zhǔn)確性和實(shí)時(shí)性比傳統(tǒng)的目標(biāo)檢測(cè)有極大的突破,同時(shí)還在實(shí)例分割方面達(dá)到了目前最高的水準(zhǔn),但是距離廣泛地實(shí)際應(yīng)用還有一段差距。除此之外,還產(chǎn)生了基于回歸的深度學(xué)習(xí)目標(biāo)檢測(cè)YOLO[30]、SSD[31]系列算法。R-CNN系列算法和YOLO、SSD系列算法為研究深度學(xué)習(xí)目標(biāo)檢測(cè)提供了2種基本框架。以下是基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)的研究熱點(diǎn):

1)多層網(wǎng)絡(luò)特征融合[32]。傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)就是把輸入圖像一層一層地進(jìn)行映射和過(guò)濾,其中最后一層的特征就是最后的結(jié)果。在此過(guò)程中,不同的卷積神經(jīng)網(wǎng)絡(luò)層提取的特征是不相同的,淺層網(wǎng)絡(luò)提取的大多是層次信息,最深層的網(wǎng)絡(luò)得到的則是更加抽象的語(yǔ)義信息,所以傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)只是利用最深層網(wǎng)絡(luò)提取出的特征信息來(lái)構(gòu)建分類(lèi)器,過(guò)濾掉淺層網(wǎng)絡(luò)的特征信息,因此需要更有效地解決多層網(wǎng)絡(luò)特征融合來(lái)增強(qiáng)模型算法對(duì)圖像的表現(xiàn)能力。

2)合理利用有效感受野。感受野是指卷積神經(jīng)網(wǎng)絡(luò)中神經(jīng)元對(duì)應(yīng)輸入圖像的區(qū)域,即特征輸出受感受野區(qū)域內(nèi)的像素點(diǎn)的影響。當(dāng)對(duì)輸入圖像中的每個(gè)像素進(jìn)行預(yù)測(cè)時(shí),每個(gè)輸出像素具有大的感受野是至關(guān)重要的,這會(huì)使重要的信息在預(yù)測(cè)時(shí)不被遺漏。有效感受野即是感受野在預(yù)測(cè)時(shí)作用較大的區(qū)域,它具有高斯分布,且僅占整個(gè)理論的感受野很小的一部分。有效感受野對(duì)卷積神經(jīng)網(wǎng)絡(luò)的深度工作非常重要,如果有效感受野在目標(biāo)中占有的面積很大,則目標(biāo)檢測(cè)中該神經(jīng)元的效果好。

3)利用上下文關(guān)聯(lián)信息。目標(biāo)檢測(cè)在實(shí)際應(yīng)用中目標(biāo)不可能是一個(gè)獨(dú)立存在的個(gè)體,它或多或少會(huì)與周?chē)渌膶?duì)象或者環(huán)境有一定關(guān)系,這就是上下文關(guān)聯(lián)信息。機(jī)器需要通過(guò)捕捉不同的對(duì)象之間的相互作用信息,依此來(lái)對(duì)新目標(biāo)進(jìn)行檢測(cè)。上下文關(guān)聯(lián)信息能提高識(shí)別的準(zhǔn)確度和精確度。但是想要將其廣泛應(yīng)用于實(shí)踐之中仍有很多問(wèn)題需要解決,因此有效利用上下文關(guān)聯(lián)信息還是如今研究的熱點(diǎn)。

總而言之,基于深度卷積網(wǎng)絡(luò)的目標(biāo)檢測(cè)依舊是一個(gè)充滿(mǎn)了挑戰(zhàn)性的課題,其研究意義和應(yīng)用價(jià)值十分重要。隨著更多更全面的數(shù)據(jù)集和各種開(kāi)源深度學(xué)習(xí)框架的出現(xiàn),該課題將會(huì)更加快速地發(fā)展。

猜你喜歡
池化層卷積神經(jīng)網(wǎng)絡(luò)
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
卷積神經(jīng)網(wǎng)絡(luò)模型研究分析*
基于卷積神經(jīng)網(wǎng)絡(luò)的紙幣分類(lèi)與點(diǎn)鈔
基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的人體行為識(shí)別研究
卷積神經(jīng)網(wǎng)絡(luò)的分析與設(shè)計(jì)
神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
從濾波器理解卷積
基于神經(jīng)網(wǎng)絡(luò)的中小學(xué)生情感分析
基于全卷積神經(jīng)網(wǎng)絡(luò)的SAR圖像目標(biāo)分類(lèi)*
基于傅里葉域卷積表示的目標(biāo)跟蹤算法