国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

用于大規(guī)模圖像識別的特深卷積網(wǎng)絡(luò)①

2021-10-11 06:47:52薈,王
關(guān)鍵詞:尺度架構(gòu)卷積

李 薈,王 梅

(東北石油大學(xué) 計算機(jī)與信息技術(shù)學(xué)院,大慶 163318)

1 引言

伴隨著大數(shù)據(jù)時代的到來以及各種強(qiáng)大的計算設(shè)備的發(fā)展,深度學(xué)習(xí)是可以充分利用海量數(shù)據(jù),包括標(biāo)注數(shù)據(jù)、弱標(biāo)注數(shù)據(jù)和無標(biāo)注數(shù)據(jù)類型,對抽象的知識表達(dá)進(jìn)行完全自動地學(xué)習(xí).目前,深度學(xué)習(xí)改進(jìn)了圖像處理、語音處理和文本處理等眾多領(lǐng)域的算法設(shè)計思想,逐步形成了一套基于訓(xùn)練數(shù)據(jù),通過一種端到端的模型,最后得到最終結(jié)果的思路,這是一種既簡單又高效的處理方式,并且深受認(rèn)同.隨著不斷深入的研究與應(yīng)用,也出現(xiàn)了很多精良設(shè)計的深度網(wǎng)絡(luò)結(jié)構(gòu),可以解決傳統(tǒng)機(jī)器學(xué)習(xí)并不好解決的很多復(fù)雜問題.對比傳統(tǒng)的機(jī)器學(xué)習(xí),深度學(xué)習(xí)的本質(zhì)就是一種特征學(xué)習(xí)方法,它把原始的數(shù)據(jù)經(jīng)過簡單并且非線性的模型轉(zhuǎn)換成為層次更高的、更加抽象的表達(dá).雖然深度學(xué)習(xí)能夠很好的建立起輸入和輸出之間的映射關(guān)系,可是卻不能較好地發(fā)現(xiàn)其內(nèi)在物理聯(lián)系.相比應(yīng)用研究來說,深度學(xué)習(xí)的理論研究可以做的更多.

近年來,卷積神經(jīng)網(wǎng)絡(luò)受到了廣泛關(guān)注,其在大規(guī)模圖像識別和視頻識別領(lǐng)域都獲得了較于以往非常好的效果.隨著大規(guī)模的圖像庫和高性能的GPU的發(fā)展,識別率有了顯著的提升.值得一提的是以ImageNet為代表的大規(guī)模圖像識別大賽,其在深度學(xué)習(xí)領(lǐng)域有較強(qiáng)的推動作用[1],此大賽已經(jīng)成為了最近幾年較大型實(shí)驗(yàn)平臺.

目前,ConvNets 已經(jīng)變成了圖像識別的商品之一,研究人員努力改進(jìn)Krizhevsky 等人創(chuàng)建的初始架構(gòu).目的是為了提升其在abid 中的準(zhǔn)確率[2].本文我們主要討論的是卷積神經(jīng)網(wǎng)絡(luò)設(shè)計時的一個非常重要的參數(shù),即網(wǎng)絡(luò)的架構(gòu)深度,我們還嘗試了架構(gòu)中的其他參數(shù)的閾值,試圖加入更多的卷積層,以此來保持增加網(wǎng)絡(luò)深度的穩(wěn)定,并且證明了其可行性.我們在所有的層里都采用了verysmall (3×3)的卷積濾波器,還提出了一種基于verysmall 卷積濾波器的架構(gòu)模型,通過實(shí)驗(yàn)證明,該架構(gòu)在多種圖像識別數(shù)據(jù)集中都有較好的識別率[3,4],可以為接下來的工作打下基礎(chǔ).

2 卷積網(wǎng)絡(luò)配置

為了衡量卷積網(wǎng)絡(luò)深度在公平環(huán)境中所帶來的改進(jìn),我們所有的卷積網(wǎng)絡(luò)層配置均采用與Krizhevsky等人相同的設(shè)計原則.

2.1 架構(gòu)

該卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練時的輸入是224×224 像素的RGB 圖像,并且大小固定.訓(xùn)練前的預(yù)處理過程是將訓(xùn)練數(shù)據(jù)集的RGB 算出平均值,再把每個像素都減去平均值完成預(yù)處理操作.將圖像經(jīng)過一些卷積(轉(zhuǎn)換)層,包含verysmall 接受模板的過濾器.該模板是3×3的,因?yàn)樗强梢苑殖錾舷伦笥抑行牡淖钚〉某叽?我們采用了1×1的卷積濾波器在其中的一種配置里,其作用相當(dāng)于對輸入通道做線性變換(馬上再進(jìn)行非線性變換).將卷積步長設(shè)定成1 個像素,并且將空間層的輸入設(shè)定為卷積操作后原有的分辨率,也就是對3×3 轉(zhuǎn)換,填充1 個像素層[5].用5 個最大池化層來填充空間層.最大池化層的操作在2×2 像素窗口上,設(shè)定步長為2.通過上述的卷積神經(jīng)網(wǎng)絡(luò)后,圖像信號經(jīng)過一疊三層的完全連接層,即前兩個4096 個通道,第3 個有1000 個通道,架構(gòu)的最后一層是Softmax 層.在任何神經(jīng)網(wǎng)絡(luò)中配置全連接層的方法都是相同的[6,7].

眾所周知,全部的隱藏層都具有非線性整流特征.我們的網(wǎng)絡(luò)中,無一例外都沒有局部響應(yīng)歸一化(LRN)層.第4 節(jié)中會介紹歸一化層部分[8].這樣架構(gòu)會使得內(nèi)存的消耗變多,并且運(yùn)行時間會增多,但是不會改變數(shù)據(jù)集的性能[9].

2.2 配置

本文評估的卷積網(wǎng)絡(luò)配置在表1中列出,每列一個.在下面的論述中,我們通過他們的名稱(A-E)來指代相應(yīng)的網(wǎng)絡(luò).所有配置均遵循第2.1 節(jié)中提出的通用設(shè)計,并且僅在深度上不同:從網(wǎng)絡(luò)A 中的11 個權(quán)重層—包含8 個轉(zhuǎn)換層和3 個完全連接層到網(wǎng)絡(luò)E 中的19 個權(quán)重層—包含16 個轉(zhuǎn)換層和3 個完全連接層.轉(zhuǎn)換層的寬度(通道數(shù))相當(dāng)小,從第一層中的64 開始,然后在每個最大化池層之后增加2 倍,直到達(dá)到512[10].

表1 卷積網(wǎng)絡(luò)單尺度演化性能測試

3 分類框架

3.1 訓(xùn)練

網(wǎng)絡(luò)權(quán)重的初始化很重要,因?yàn)樵愀獾某跏蓟赡軙股疃染W(wǎng)絡(luò)中梯度的不穩(wěn)定性停止學(xué)習(xí).為了避免這個問題,我們開始訓(xùn)練配置A (表1),其足夠淺以便隨機(jī)初始化進(jìn)行訓(xùn)練.然后,在處理更深層次的體系結(jié)構(gòu)時,初始化了前4 個卷積層,最后3 個完全連接層用網(wǎng)A 初始化(中間層隨機(jī)初始化).預(yù)初始化層的學(xué)習(xí)率沒有調(diào)低,并允許它們在訓(xùn)練期間改變.對于隨機(jī)初始化(如果適用),從具有零均值和102方差的正態(tài)分布中對權(quán)重進(jìn)行采樣[11].偏差初始化為零.我們發(fā)現(xiàn)使用文獻(xiàn)[12]的隨機(jī)初始化程序可以在沒有預(yù)訓(xùn)練的情況下初始化權(quán)重.

為了獲得固定大小的224×224 卷積網(wǎng)絡(luò)輸入圖像,從重新縮放的訓(xùn)練圖像中隨機(jī)裁剪它們(每個SGD 迭代每個圖像一個裁剪).為了進(jìn)一步增加訓(xùn)練集,crop經(jīng)歷了隨機(jī)水平翻轉(zhuǎn)和隨機(jī)RGB 色移操作[7].下面解釋了訓(xùn)練圖像重新縮放.

訓(xùn)練圖像尺寸:設(shè)S是各向同性重新縮放的訓(xùn)練圖像的最小邊,從中裁剪出卷積網(wǎng)絡(luò)輸入(我們也將S稱為訓(xùn)練比例).雖然作物大小固定為224×224,但原則上S可以采用不小于224的任何值:對于S=224,作物捕獲全圖像統(tǒng)計,完全跨越訓(xùn)練圖像的最小側(cè);當(dāng)S>>224 時裁剪將對應(yīng)于圖像的一小部分,包含一個小對象或一個對象部分.

我們考慮兩種設(shè)置訓(xùn)練量表S的方法.第一種是修正S,它對應(yīng)于單一規(guī)模的訓(xùn)練(注意,采樣作物中的圖像內(nèi)容仍然可以代表多尺度圖像統(tǒng)計)[12].在我們的實(shí)驗(yàn)中,我們評估了在兩個固定尺度下訓(xùn)練的模型:S=256 (已在現(xiàn)有技術(shù)中廣泛使用[7,13,14])和S在給定卷積網(wǎng)絡(luò)配置的情況下,我們首先使用S=256 訓(xùn)練網(wǎng)絡(luò).為了加速S=384 網(wǎng)絡(luò)的訓(xùn)練,使用S=256 預(yù)訓(xùn)練的權(quán)重對其進(jìn)行初始化,并且我們使用較小的初始學(xué)習(xí)率10-3.

設(shè)置S的第2 種方法是多尺度訓(xùn)練,其中通過從特定范圍[Smin,Smax](我們使用Smin=256和Smax=512)隨機(jī)采樣S來單獨(dú)地縮放每個訓(xùn)練圖像[15].由于圖像中的物體可以具有不同的尺寸,因此在訓(xùn)練期間考慮這一點(diǎn)是有益的.這也可以被視為通過尺度抖動的訓(xùn)練集增強(qiáng),其中訓(xùn)練單個模型以識別各種尺度上的對象.出于速度原因,我們通過使用相同的配置微調(diào)單尺度模型的所有層來訓(xùn)練多尺度模型,使用固定的S=384 進(jìn)行預(yù)訓(xùn)練.

3.2 測試

在測試時,給定經(jīng)過訓(xùn)練的卷積網(wǎng)絡(luò)和輸入圖像,按以下方式對其進(jìn)行分類.首先,它被各向同性地重新縮放到預(yù)定義的最小圖像側(cè),表示為Q(我們也將其稱為測試標(biāo)度).我們注意到Q不一定等于訓(xùn)練量S(正如我們將在第4 節(jié)中所示,每個S使用幾個Q值可以提高性能).然后,以類似于文獻(xiàn)[14]的方式將網(wǎng)絡(luò)密集地施加在重新縮放的測試圖像上.即,首先將完全連接的層轉(zhuǎn)換為卷積層(第一FC 層到7×7conv.層,最后兩個FC 層到1×1 轉(zhuǎn)換層).然后將得到的完全卷積網(wǎng)應(yīng)用于整個(未剪切的)圖像.結(jié)果是一個類得分圖,其中通道數(shù)等于類的數(shù)量,并且可變空間分辨率取決于inputimage 大小.最后,為了獲得圖像的類別得分的固定大小的矢量,類別得分圖被空間平均(求和).我們還通過水平翻轉(zhuǎn)圖像來增加測試集;對原始圖像和翻轉(zhuǎn)圖像的Softmax 類后驗(yàn)進(jìn)行平均以獲得圖像的最終分?jǐn)?shù)[16,17].

3.3 實(shí)現(xiàn)

我們的實(shí)現(xiàn)源自公開的C ++ Caffe 工具箱,但包含許多重要的修改,允許我們對安裝在單個系統(tǒng)中的多個GPU 進(jìn)行訓(xùn)練和評估,以及訓(xùn)練并在多個尺度上評估完整尺寸(未剪切的)圖像.多GPU 訓(xùn)練利用數(shù)據(jù)并行性,并通過將每批訓(xùn)練圖像分成幾個GPUbatches來執(zhí)行,并在每個GPU 上并行處理.在計算GPU 批量梯度之后,他們被平均獲得完整批次的梯度[18].梯度計算在GPU 之間是同步的,因此結(jié)果與在單個GPU 上訓(xùn)練時的結(jié)果完全相同.

雖然最近提出了加速卷積網(wǎng)絡(luò)培訓(xùn)的更復(fù)雜方法,采用了網(wǎng)絡(luò)不同層次的模型和數(shù)據(jù)并行性,但我們發(fā)現(xiàn)概念上更簡單的方案已經(jīng)提供了3.75倍的加速與使用單個GPU 相比,現(xiàn)成的4-GPU 系統(tǒng).在配備有4 個NVIDIA Titan Black GPU的系統(tǒng)上,根據(jù)架構(gòu)的不同,訓(xùn)練一個網(wǎng)絡(luò)需要14~21 天[19,20].

4 分類實(shí)驗(yàn)

數(shù)據(jù)集:在本節(jié)中,我們將介紹由描述的ConcevNet架構(gòu)在ILSVRC-2012 數(shù)據(jù)集上實(shí)現(xiàn)的圖像分類結(jié)果.該數(shù)據(jù)集包括1000 個類的圖像,并分為3 組:訓(xùn)練組(1.3 M 圖像數(shù)據(jù)),驗(yàn)證組(50 K 圖像數(shù)據(jù))和測試組(具有保持類標(biāo)簽的100 K 圖像數(shù)據(jù)).使用兩個度量評估分類性能:top-1和top-5 錯誤.前者是多級分類錯誤,即錯誤分類圖像的比例;后者是ILSVRC 中使用的主要評估標(biāo)準(zhǔn),并且計算為圖像的比例,使得地面實(shí)況類別在前5 個預(yù)測類別之外.

4.1 單尺度演化

我們首先使用Sect 中描述的層配置,以單一規(guī)模評估各個卷積網(wǎng)絡(luò)模型的性能[21].測試圖像尺寸設(shè)定如下:Q=S表示固定S,Q=0.5(Smin+Smax) 表示抖動S∈[Smin,Smax].結(jié)果如表1所示.

首先,我們注意到使用本地響應(yīng)規(guī)范化(A-LRN網(wǎng)絡(luò))并沒有改進(jìn)沒有任何規(guī)范化層的模型A.因此,我們不在深層結(jié)構(gòu)(B~E)中采用標(biāo)準(zhǔn)化.

其次,我們觀察到分類誤差隨著卷積網(wǎng)絡(luò)深度的增加而減小:從A 中的11 層到E 中的19 層.值得注意的是,盡管深度相同,但配置C (包含3 個1×1 轉(zhuǎn)換層)的性能更差比配置D,它在整個網(wǎng)絡(luò)中使用3×3 轉(zhuǎn)換層.這表明雖然附加的非線性確實(shí)有幫助(C 比B 更好),但使用conv 捕獲空間上下文也很重要.具有非平凡接收字段的過濾器(D 優(yōu)于C).當(dāng)深度達(dá)到19 層時,我們的架構(gòu)的錯誤率會飽和,但更深的模型可能對更大的數(shù)據(jù)集有益.我們還將凈B 與淺網(wǎng)進(jìn)行了比較,其中5 個為5×5 轉(zhuǎn)換.通過3×3 轉(zhuǎn)換的替換對來自B的層.具有單個5×5 轉(zhuǎn)換的層.層是指在2.3 節(jié)中具有相同的感受區(qū)域.在中心作物上,測量淺網(wǎng)的前1 個誤差比B的高1%,這證實(shí)了具有小過濾器的深網(wǎng)優(yōu)于具有較大過濾器的淺網(wǎng).

最后,即使在測試時使用單個尺度,在訓(xùn)練時間(S∈[256;512])的尺度抖動導(dǎo)致對具有固定最小邊(S=256 或S=384)的圖像的顯著更好的結(jié)果.這證實(shí)了通過尺度抖動的訓(xùn)練集增加確實(shí)有助于捕獲多尺度圖像統(tǒng)計.

4.2 多尺度演化

在單一規(guī)模評估卷積網(wǎng)絡(luò)模型后,評估規(guī)模抖動對時間的影響,包括在測試圖像的幾個重新縮放版本上運(yùn)行模型(對應(yīng)于不同的Q值),然后對得到的類后驗(yàn)進(jìn)行平均[22].考慮到訓(xùn)練和測試量表之間的巨大差異導(dǎo)致性能下降,在3 個測試圖像大小上評估具有固定S的模型,接近訓(xùn)練一:Q={S-32,S,S+32}.同時,在訓(xùn)練時刻度抖動允許網(wǎng)絡(luò)在測試時應(yīng)用于更寬范圍的尺度,因此模型訓(xùn)練變量S∈[Smin,Smax],結(jié)果如表2所示.

表2 卷積網(wǎng)絡(luò)多尺度演化性能測試

表2中顯示的結(jié)果表明,在測試時刻度的抖動導(dǎo)致更好的性能(與在單一規(guī)模上評估相同模型相比,如表3所示).與以前一樣,最深的配置(D和E)表現(xiàn)最佳,并且比例抖動優(yōu)于使用固定最小邊S的訓(xùn)練.我們在驗(yàn)證集上的最佳top-1/ top-5是24.8%、7.5%錯誤.在測試集上,配置E 達(dá)到7.3%的前5 個錯誤.

4.3 Multi-crop 演化

在表3中,我們將密集的卷積網(wǎng)絡(luò)評估與多作物評估進(jìn)行比較.我們還通過平均其軟最大輸出來評估兩種評估技術(shù)的互補(bǔ)性[23].可以看出,使用多種作物的表現(xiàn)略好于密集評價,這兩種方法確實(shí)是互補(bǔ)的,因?yàn)樗鼈兊慕M合優(yōu)于每一種.如上所述,我們假設(shè)這是由于對卷積邊界條件的不同處理.

表3 網(wǎng)絡(luò)演化方法比較

4.4 卷積網(wǎng)絡(luò)混合演化

到目前為止,我們評估了各個卷積網(wǎng)絡(luò)模型的性能.在這部分實(shí)驗(yàn)中,我們將幾個模型的輸出結(jié)合起來,通過平均它們的Softmax 類后驗(yàn).由于模型的互補(bǔ)性,這提高了性能,并且在2012年和2013年的頂級ILSVRCs提交中使用[24].結(jié)果顯示在表4中.

表4 不同網(wǎng)絡(luò)模型錯誤率比較(%)

到ILSVRC 提交時,我們只訓(xùn)練了單級網(wǎng)絡(luò),以及多尺度模型D (僅通過微調(diào)全連接層而不是所有層).由此產(chǎn)生的7 個網(wǎng)絡(luò)集合有7.3%的ILSVRC 測試錯誤.提交后,我們考慮了僅有兩個性能最佳的多尺度模型(配置D和E)的集合,使用密集評估將測試誤差降低到6.8%使用綜合密集和多作物評估.作為參考,我們表現(xiàn)最佳的單模具有7.1%的誤差.

實(shí)驗(yàn)發(fā)現(xiàn),從深層網(wǎng)絡(luò)的角度出發(fā),不同的隱層對學(xué)習(xí)速度的差異很大.當(dāng)靠近輸出層時,其相應(yīng)權(quán)值矩陣學(xué)習(xí)的情況很好,而靠近輸入層時,其權(quán)值矩陣學(xué)習(xí)很慢,有時訓(xùn)練了很久,前幾層的權(quán)值矩陣仍然和隨機(jī)初始化的值差不多.因此,深度學(xué)習(xí)中梯度消失問題的根源在于反向傳播算法.為了擺脫反向傳播思想的限制,有研究人員提出了CapsuleNet,充分地利用數(shù)據(jù)中組件的朝向和空間上的相對關(guān)系,并使用動態(tài)路由算法計算膠囊的輸出.但是該網(wǎng)絡(luò)并沒有完全地擺脫反向傳播算法,因?yàn)榫W(wǎng)絡(luò)中的轉(zhuǎn)換矩陣仍然用成本函數(shù)通過反向傳播進(jìn)行訓(xùn)練.近年來,關(guān)于梯度消失問題,研究人員提出了一系列改良方案,如精調(diào)結(jié)合的訓(xùn)練策略和預(yù)訓(xùn)練、梯度剪切、權(quán)重正則,使用不同的激活函數(shù)(如ReLU),使用批量歸一化技巧,使用殘差結(jié)構(gòu),使用LSTM 網(wǎng)絡(luò)等[25].為了從本質(zhì)上解決梯度消失問題,設(shè)計避免局部極值和鞍點(diǎn)的高效優(yōu)化算法成為目前深度學(xué)習(xí)研究的重點(diǎn).

5 結(jié)論

在這項(xiàng)工作中,我們評估了非常深的卷積網(wǎng)絡(luò)(最多19 個權(quán)重層),用于大規(guī)模圖像分類.已經(jīng)證明,表示深度有利于分類準(zhǔn)確性,并且使用傳統(tǒng)的卷積網(wǎng)絡(luò)架構(gòu)可以實(shí)現(xiàn)ImageNet 挑戰(zhàn)數(shù)據(jù)集上的最先進(jìn)性能.深度大幅增加.我們還展示了我們的模型很好地概括了廣泛的任務(wù)和數(shù)據(jù)集,匹配或優(yōu)于圍繞不太深的圖像表示構(gòu)建的更復(fù)雜的識別管道.我們的結(jié)果再次證實(shí)了深度視覺表征的重要性.

猜你喜歡
尺度架構(gòu)卷積
基于FPGA的RNN硬件加速架構(gòu)
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實(shí)現(xiàn)
功能架構(gòu)在電子電氣架構(gòu)開發(fā)中的應(yīng)用和實(shí)踐
汽車工程(2021年12期)2021-03-08 02:34:30
財產(chǎn)的五大尺度和五重應(yīng)對
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
LSN DCI EVPN VxLAN組網(wǎng)架構(gòu)研究及實(shí)現(xiàn)
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
一種基于FPGA+ARM架構(gòu)的μPMU實(shí)現(xiàn)
9
绵竹市| 河源市| 临沧市| 刚察县| 潞西市| 封丘县| 永宁县| 云龙县| 永康市| 崇阳县| 拉萨市| 东丰县| 南乐县| 镇康县| 日喀则市| 赤峰市| 永安市| 奎屯市| 长宁县| 兴安县| 辰溪县| 射洪县| 嵩明县| 广东省| 仙居县| 南和县| 尖扎县| 兖州市| 中牟县| 临城县| 昭觉县| 嘉兴市| 贡觉县| 阜南县| 班戈县| 瓦房店市| 托里县| 商都县| 柳林县| 兴隆县| 陈巴尔虎旗|