国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度學(xué)習(xí)目標(biāo)識別算法發(fā)展趨勢研究

2018-05-18 07:43
信息通信技術(shù)與政策 2018年4期
關(guān)鍵詞:卷積損失神經(jīng)網(wǎng)絡(luò)

1 引言

目標(biāo)識別技術(shù)是指基于計(jì)算機(jī)圖像技術(shù)對感興趣的目標(biāo)的屬性類別進(jìn)行判斷,即分類問題,是計(jì)算機(jī)視覺領(lǐng)域的基礎(chǔ)課題之一,同時(shí)也是一個(gè)熱點(diǎn)問題,具有非常廣闊的應(yīng)用市場,從國家視角來看,其可以應(yīng)用于智能交通、公眾安全監(jiān)控等領(lǐng)域,而民用視角來看則可以應(yīng)用于自動駕駛、智能家居、身份認(rèn)證等場景。目標(biāo)識別技術(shù)一直受到學(xué)術(shù)屆的關(guān)注,早期的目標(biāo)識別技術(shù),通?;谑终{(diào)特征與經(jīng)典分類算法進(jìn)行設(shè)計(jì),如通過方向梯度直方圖特征(Histogram of Oriented Gridients,HOG)結(jié)合 支持向量機(jī)(Support Vector Machine,SVM)實(shí)現(xiàn)行人識別,基于哈爾(HaarLike)特征結(jié)合提升算法(Boosting)實(shí)現(xiàn)人臉識別。目標(biāo)識別領(lǐng)域的傳統(tǒng)算法具有實(shí)現(xiàn)方便、計(jì)算速度快等優(yōu)點(diǎn),但往往精度不高,對于方向、尺度變化、噪聲、遮擋等干擾魯棒性不強(qiáng),同時(shí)對于數(shù)據(jù)集比較敏感。而深度學(xué)習(xí)算法在近年來發(fā)展迅速,在目標(biāo)識別算法領(lǐng)域占據(jù)了主導(dǎo)地位。深度學(xué)習(xí)算法通?;诤A坑?xùn)練樣本,依靠卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力,實(shí)現(xiàn)分類。相比于傳統(tǒng)算法雖然訓(xùn)練速度較慢,占用的計(jì)算資源較多,但能夠?qū)崿F(xiàn)高精度的識別效果。

2 深度學(xué)習(xí)目標(biāo)識別算法的發(fā)展歷程

深度學(xué)習(xí)目標(biāo)識別算法通?;诰矸e神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)進(jìn)行設(shè)計(jì)。從發(fā)展歷程來看,深度學(xué)習(xí)類目標(biāo)識別算法的發(fā)展主要經(jīng)歷了以下幾個(gè)重要的時(shí)間節(jié)點(diǎn)。1998年,Lecun等人提出的LeNet結(jié)構(gòu),是最早的CNN模型,LeNet應(yīng)用在MNIST手寫體字符識別數(shù)據(jù)上取得了非常好的分類效果。但由于數(shù)據(jù)、算力等原因,沒有得到廣泛的推廣。2006年,Hinton利用單層受限玻爾茲曼機(jī)自編碼預(yù)訓(xùn)練,使得深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練變得可能,深度學(xué)習(xí)重新引起了學(xué)術(shù)界的重視。并行計(jì)算工具GPU的發(fā)展,使深度學(xué)習(xí)算法訓(xùn)練速度慢的問題得到了改善。2012年,AlexNet獲得ImageNet大尺度視覺識別任務(wù)挑戰(zhàn)賽(ImageNetLargeScaleVisualRecognitionCompetition,ILSVRC)的冠軍,使得深度學(xué)習(xí)算法發(fā)展步入新的階段,在AlexNet之后呈現(xiàn)出爆發(fā)式的增長趨勢,相繼誕生出VGG、殘差網(wǎng)絡(luò)(Deep Residual Network,ResNet)等著名方法。這些深度學(xué)習(xí)目標(biāo)識別算法多數(shù)基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行設(shè)計(jì),同時(shí)輻射向目標(biāo)檢測、目標(biāo)分割等其他領(lǐng)域,推動了整個(gè)計(jì)算機(jī)視覺技術(shù)領(lǐng)域的進(jìn)步。圖1展示了近年深度學(xué)習(xí)算法不斷刷新ImageNet等數(shù)據(jù)集的榜單的狀態(tài)。圖2展示了近年來較為著名的深度學(xué)習(xí)算法圖譜。

3 深度學(xué)習(xí)目標(biāo)識別算法發(fā)展趨勢分析

總體來看,基于深度學(xué)習(xí)技術(shù)的目標(biāo)識別算法多數(shù)基于CNN設(shè)計(jì)不同的結(jié)構(gòu),進(jìn)而達(dá)到識別效果。這些算法在AlexNet的基礎(chǔ)上,主要沿著以下幾個(gè)趨勢發(fā)展(見圖3)。

(1)深度加深

深度是CNN結(jié)構(gòu)的核心要素之一,AlexNet是一個(gè)8層的CNN結(jié)構(gòu),包括5個(gè)卷積層和3個(gè)全連接層。VGG以AlexNet為基礎(chǔ),提出了“卷積?!钡母拍?,VGG使用3×3的卷積核取代了AlexNet中的大核,通過“卷積?!钡亩询B實(shí)現(xiàn)了多個(gè)模型,其中最為著名的是16層的VGG-16和19層的VGG-19。深度的加深使得網(wǎng)絡(luò)的性能得到改善。理論上來講,深層的CNN結(jié)構(gòu)應(yīng)該具有更強(qiáng)的表示能力,然而深度的加深產(chǎn)生了梯度消失的現(xiàn)象,阻礙了網(wǎng)絡(luò)的收斂。ResNet通過引入殘差單元使這一問題得到了解決。殘差單元的提出使CNN結(jié)構(gòu)能夠變得非常之深,目前最深的ResNet能夠達(dá)到1000多層,深度的增加賦予了ResNet更強(qiáng)的分類能力。

(2)卷積模塊功能增強(qiáng)

通過增強(qiáng)卷積模塊的功能,能夠賦予CNN更強(qiáng)的感知能力。

圖2 卷積神經(jīng)網(wǎng)絡(luò)發(fā)展圖譜

部分算法通過對改變卷積層的連接方式,組合搭建模塊,進(jìn)而增強(qiáng)卷積層功能,以GoogleNet、ResNet和DenseNet為主要代表。GoogleNet提出的Inception模塊,在每個(gè)卷積層使用不同尺寸的卷積核進(jìn)行卷積,然后再把各通道的輸出進(jìn)行串聯(lián)。殘差網(wǎng)絡(luò)ResNet提出的殘差單元模塊,通過恒等映射、空間填充或1×1卷積層連接卷積層的輸入和輸出,形成“Shortcut”,“Shortcut”為梯度的前向傳遞提供了直接路徑,從而能夠解決隨著網(wǎng)絡(luò)加深而產(chǎn)生的梯度消失現(xiàn)象。ResNet使CNN網(wǎng)絡(luò)結(jié)構(gòu)層數(shù)加深,且易于收斂,進(jìn)一步提升了深度學(xué)習(xí)算法的分類精度,同時(shí)也為CNN結(jié)構(gòu)設(shè)計(jì)提供了新的思路,在ResNet的基礎(chǔ)上形成了若干變種,其中較為著名的包括寬殘差網(wǎng)(Wide Residual Networks,WRN),WRN 在ResNet的基礎(chǔ)上調(diào)整了網(wǎng)絡(luò)寬度,以淺而寬型的網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)了更高的分類精度。DenseNet則認(rèn)為解決深度學(xué)習(xí)梯度消失的現(xiàn)象需要增添層與層之間的連接,由此提出了緊致模塊,在緊致單元內(nèi)的層與層之間實(shí)現(xiàn)緊致連接,各層輸出采用串聯(lián)形式。整個(gè)網(wǎng)絡(luò)通過若干緊致模塊連接而成,各模塊之間添加池化層、歸一化層。DenseNet的出現(xiàn)使得算法精度得到進(jìn)一步提升。

圖3 基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法發(fā)展趨勢

也有部分算法面向方向旋轉(zhuǎn)、尺度變化等干擾,通過改變卷積方式增強(qiáng)卷積功能,以方向卷積網(wǎng)絡(luò)(Oriented Response Networks,ORN)、Gabor卷積網(wǎng)絡(luò)(Gabor Convolutional Networks,GCN)、可變形卷積神經(jīng)網(wǎng)絡(luò)(Deformable Convolutional Networks,Deformable ConvNets)等為代表。其中,ORN主要面向方向魯棒問題,通過對卷積核進(jìn)行空域旋轉(zhuǎn)產(chǎn)生自適應(yīng)旋轉(zhuǎn)卷積核(Active Rotating Filter,ARF),從而賦予了CNN感知方向變化的能力。GCN將Gabor小波變換的思想引入到CNN結(jié)構(gòu),通過傳統(tǒng)卷積核與Gabor核的調(diào)制形成Gabor方向卷積核(Gabor Orientation Filters,GOFs),GOFs繼承了 Gabor變換提取不同方向、不同尺度特征的思想,通過調(diào)制的方式將Gabor濾波器與CNN進(jìn)行有機(jī)結(jié)合,實(shí)現(xiàn)了特征增強(qiáng)。DeformableConvNets打破了傳統(tǒng)CNN對于卷積核形狀的限制,使卷積核能夠進(jìn)行平移、縮放、旋轉(zhuǎn)等仿射變換,產(chǎn)生靈活、非固定的卷積核形狀,從而提升了卷積核的感知能力。

(3)設(shè)計(jì)新的功能單元、損失函數(shù)等

通過設(shè)計(jì)新的功能單元或損失函數(shù)能夠改善網(wǎng)絡(luò)性能。

空域變換網(wǎng)絡(luò)(Spatial Transformer Networks,STN)在卷積層之間增添空域仿射變換層,提升網(wǎng)絡(luò)對于仿射變換的學(xué)習(xí)能力。另一方面,經(jīng)典的CNN結(jié)構(gòu)常使用的損失函數(shù)主要包括交叉熵?fù)p失函數(shù)(Cross Entropy)、Softmax損失函數(shù)等,通過比較網(wǎng)絡(luò)輸出和真實(shí)標(biāo)簽的差異,進(jìn)而計(jì)算誤差傳遞梯度。通過此類損失函數(shù)能夠較好地反應(yīng)網(wǎng)絡(luò)誤差,但卻無法評估樣本分類后類內(nèi)、類間的離散度。一個(gè)好的分類算法不僅要求高精度,且應(yīng)該使得樣本經(jīng)過分類器后,類內(nèi)差異小,而類間差異大,這樣的分類器具有強(qiáng)的魯棒性。而在參考文獻(xiàn)[9]中,筆者提出了一種新的損失函數(shù)——中心損失(Center Loss),除了考慮Softmax損失,還將類內(nèi)的離散度也作為計(jì)算損失的指標(biāo),加入Center Loss后對CNN網(wǎng)絡(luò)提取的特征進(jìn)行可視化降維,能夠發(fā)現(xiàn)類內(nèi)距離變小,模型判別力的提升。采取類似思路的還有FisherLoss,將類間間距加入損失函數(shù)考量,進(jìn)而提升網(wǎng)絡(luò)分類性能。

(4)輻射向檢測任務(wù)

正確分類是進(jìn)行目標(biāo)檢測的基礎(chǔ),深度學(xué)習(xí)在目標(biāo)識別方面取得的發(fā)展同樣推動了目標(biāo)檢測的進(jìn)步,催生出了一系列新的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),以區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Regions with CNN Features,RCNN)、單次多框檢測器(Single Shot MultiBox Detector,SSD)等算法為代表。RCNN采用“選擇性搜索+遷移學(xué)習(xí)”的策略,通過區(qū)域提名算法生成大量候選區(qū)域,然后將這些候選區(qū)域尺寸歸一化后,通過AlexNet在ImageNet上的預(yù)訓(xùn)練模型提取特征,以微調(diào)的方式對預(yù)訓(xùn)練網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整。同時(shí),將提取的特征用于訓(xùn)練SVM分類器。當(dāng)待檢測圖像進(jìn)行測試時(shí),SVM分類器給出物體的類別屬性。RCNN再從SVM選出的正樣本中經(jīng)過非最大抑制、包圍框回歸等對物體的位置進(jìn)行精修,進(jìn)而完成檢測過程。RCNN使得目標(biāo)檢測算法的精度大幅提升,檢測速度成為技術(shù)瓶頸。為進(jìn)一步提升精度、改善速度,F(xiàn)astRCNN和FasterRCNN相繼提出。相比于RCNN,他們所做的優(yōu)化主要包括引入ROI-Pooling層解決了RCNN中冗余的特征提取、使用Softmax輸出判斷目標(biāo)類別信息取代了SVM分類器、通過區(qū)域生成網(wǎng)絡(luò)取代了區(qū)域提名算法,這些改善使得目標(biāo)檢測算法速度得到大幅提升。在RCNN系列網(wǎng)絡(luò)的基礎(chǔ)上,又相繼誕生了YoLo(You Only Look Once)、單次多框檢測器。目前,SSD已經(jīng)能夠?qū)崿F(xiàn)58FPS的檢測速度,基本能夠滿足實(shí)時(shí)性。

4 結(jié)束語

本文回顧了近年來深度學(xué)習(xí)在目標(biāo)識別領(lǐng)域的經(jīng)典算法,并對它們的發(fā)展趨勢進(jìn)行了分析和歸類。從技術(shù)層面來看,以卷積神經(jīng)網(wǎng)絡(luò)為主的深度學(xué)習(xí)目標(biāo)識別算法主要沿著以下4個(gè)方向發(fā)展:深度加深、增強(qiáng)卷積功能、設(shè)計(jì)新的功能單元或損失函數(shù)、輻射向檢測、分割等其他任務(wù),進(jìn)而推動目標(biāo)識別技術(shù)朝著更精準(zhǔn)、更快速、應(yīng)用更廣泛的方向不斷進(jìn)步。

猜你喜歡
卷積損失神經(jīng)網(wǎng)絡(luò)
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
胖胖損失了多少元
卷積神經(jīng)網(wǎng)絡(luò)的分析與設(shè)計(jì)
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
從濾波器理解卷積
基于神經(jīng)網(wǎng)絡(luò)的中小學(xué)生情感分析
玉米抽穗前倒伏怎么辦?怎么減少損失?
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
菜燒好了應(yīng)該盡量馬上吃