基于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索的目標(biāo)識(shí)別方法

2020-09-07 00:30卞偉偉邱旭陽

空軍工程大學(xué)學(xué)報(bào) 2020年4期

關(guān)鍵詞：卷積神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)

卞偉偉，邱旭陽，申研

(北京機(jī)械設(shè)備研究所，北京，100854)

城市環(huán)境中“低慢小”無人機(jī)目標(biāo)體積小，顏色與復(fù)雜的背景環(huán)境相接近，使得對(duì)其進(jìn)行探測(cè)與識(shí)別已成為一個(gè)世界性難題[1]，將計(jì)算機(jī)視覺與圖像處理技術(shù)相結(jié)合成為目標(biāo)檢測(cè)與識(shí)別的必然選擇。神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)方法[2]的成功很大程度上歸功于特征工程的自動(dòng)化，即利用分層特征提取器以端到端的方式從數(shù)據(jù)而不是手動(dòng)設(shè)計(jì)中學(xué)習(xí)，故深度學(xué)習(xí)的模型效果依賴于數(shù)據(jù)，在以某一特定數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí)，模型提取該類數(shù)據(jù)的特征，那么將該模型運(yùn)用在該類數(shù)據(jù)集上將會(huì)獲得優(yōu)異的表現(xiàn)。在影像分類中運(yùn)用深度學(xué)習(xí)模型，除了借助已經(jīng)存在的模型，也可以重新設(shè)計(jì)并訓(xùn)練新的模型。隨著數(shù)據(jù)的復(fù)雜度不斷增加，在設(shè)計(jì)相應(yīng)的神經(jīng)網(wǎng)絡(luò)時(shí)需要更多的知識(shí)，不同類型的數(shù)據(jù)需要不同的先驗(yàn)知識(shí)，如果訓(xùn)練的是大規(guī)模的網(wǎng)絡(luò)，將有百萬個(gè)參數(shù)需要設(shè)計(jì)與學(xué)習(xí)，從而帶來巨大的挑戰(zhàn)；如果訓(xùn)練小規(guī)模的網(wǎng)絡(luò)，獲得的神經(jīng)網(wǎng)絡(luò)只是面向當(dāng)前影像數(shù)據(jù)集，難以在其他種類的影像數(shù)據(jù)集上獲得優(yōu)異的表現(xiàn)。除此以外，也不能保證得到的模型優(yōu)于自然圖像集訓(xùn)練的模型以及根據(jù)自然圖像集模型微調(diào)的模型。神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)是一個(gè)長(zhǎng)耗時(shí)過程，如何在較短的時(shí)間內(nèi)自動(dòng)化設(shè)計(jì)一個(gè)高效的面向影像的神經(jīng)網(wǎng)絡(luò)成為了提升影像分類精度的關(guān)鍵，關(guān)系著目標(biāo)識(shí)別概率的高低。

本文通過網(wǎng)絡(luò)收集與實(shí)際拍攝，以多旋翼無人機(jī)、固定翼無人機(jī)、城市飛鳥為目標(biāo)，采用一種可微神經(jīng)結(jié)構(gòu)搜索的高效結(jié)構(gòu)搜索方法[3]，對(duì)目標(biāo)識(shí)別問題進(jìn)行研究。

1 問題描述

在目標(biāo)識(shí)別分類任務(wù)中，需要使用大量帶有標(biāo)簽的數(shù)據(jù)來訓(xùn)練模型，但是在實(shí)際中，訓(xùn)練影像的人工標(biāo)記需要花費(fèi)大量的人力和物力，同時(shí)需要大量的先驗(yàn)知識(shí)，導(dǎo)致影像數(shù)據(jù)集規(guī)模較小，可用于模型訓(xùn)練的數(shù)據(jù)較小，而為了讓影像分類取得優(yōu)異的效果，設(shè)計(jì)的深度學(xué)習(xí)模型包含的神經(jīng)網(wǎng)絡(luò)層數(shù)多，可能產(chǎn)生大量的參數(shù)，在訓(xùn)練時(shí)會(huì)出現(xiàn)過擬合現(xiàn)象，造成分類精度過低。模型遷移是將一個(gè)樣本數(shù)據(jù)集上學(xué)習(xí)到的模型通過特定的方式運(yùn)用到另一個(gè)具有相同或者相似學(xué)習(xí)任務(wù)的樣本數(shù)據(jù)集上[4]，這樣可以提高模型的實(shí)用性，增加深度學(xué)習(xí)模型的泛學(xué)習(xí)能力。但是由于當(dāng)前獲取影像的方式眾多，不同的儀器采集的影像具有不同的特點(diǎn)，故影像數(shù)據(jù)的成像幾何形狀和內(nèi)容不同，同時(shí)隨著空間分辨率、光譜分辨率的增加，影像包含目標(biāo)以及通道信息越來越豐富，因此當(dāng)直接使用已存在的模型對(duì)其他種類的影像數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí)，實(shí)際取得的分類果不佳，為了使該模型可以在其他數(shù)據(jù)集上取得優(yōu)異的結(jié)果，便需要對(duì)當(dāng)前模型添加特定的任務(wù)知識(shí)，使其充分提取當(dāng)前影像的特征，提高分類精度。

可微神經(jīng)結(jié)構(gòu)搜索方法將搜索空間放寬為連續(xù)的候選體系結(jié)構(gòu)，以便通過梯度下降來優(yōu)化體系結(jié)構(gòu)的驗(yàn)證集性能。與低效的黑盒搜索相比，基于梯度的優(yōu)化數(shù)據(jù)效率允許可微神經(jīng)結(jié)構(gòu)搜索使用數(shù)量級(jí)更少的計(jì)算資源來實(shí)現(xiàn)與現(xiàn)有技術(shù)的競(jìng)爭(zhēng)性能。同時(shí)可微神經(jīng)結(jié)構(gòu)搜索方法相比許多現(xiàn)有方法更簡(jiǎn)單，因?yàn)樗簧婕叭魏慰刂破骰蛐阅茴A(yù)測(cè)器，并且可通用搜索卷積和循環(huán)體系結(jié)構(gòu)。另外，可微神經(jīng)結(jié)構(gòu)搜索方法能夠在豐富的搜索空間內(nèi)發(fā)現(xiàn)具有復(fù)雜圖形拓?fù)涞母咝阅芙Y(jié)構(gòu)，而不限于任何特定的結(jié)構(gòu)系列，并且能夠發(fā)現(xiàn)卷積網(wǎng)絡(luò)和循環(huán)網(wǎng)絡(luò)。

2 深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索

對(duì)于搜索空間而言，以搜索計(jì)算單元作為最終結(jié)構(gòu)的構(gòu)建塊，學(xué)習(xí)的單元可以堆疊形成卷積網(wǎng)絡(luò)或者遞歸地連接以形成循環(huán)網(wǎng)絡(luò)[5]。每個(gè)單元是有向無環(huán)圖，由N個(gè)節(jié)點(diǎn)的有序序列組成。每個(gè)節(jié)點(diǎn)x(j)是潛在表示(例如卷積網(wǎng)絡(luò)中的特征映射)，每個(gè)有向邊(i,j)都與每個(gè)節(jié)點(diǎn)的x(j)某些o(i,j)轉(zhuǎn)換操作相關(guān)聯(lián)，假設(shè)每個(gè)單元有2個(gè)輸入節(jié)點(diǎn)和單個(gè)輸出節(jié)點(diǎn)。對(duì)于卷積單元，輸入節(jié)點(diǎn)在前2層中定義了單元輸出，通過對(duì)所有中間節(jié)點(diǎn)應(yīng)用縮小操作(例如連接)來獲得單元的輸出。每個(gè)中間節(jié)點(diǎn)的計(jì)算都是基于它的所有前導(dǎo)節(jié)點(diǎn)計(jì)算的：

(1)

為了將離散的搜索空間轉(zhuǎn)為連續(xù)的，首先定義一組候選操作O，例如卷積、最大池化，表示應(yīng)用于x(j)的一些函數(shù)o(·)，為了使搜索空間連續(xù)，將特定操作的分類選擇放寬為所有可能操作的輸出層的激勵(lì)函數(shù)(SoftMax)：

(2)

式中：一對(duì)節(jié)點(diǎn)(i,j)的操作混合權(quán)重由維度|O|的向量α(i,j)參數(shù)化，在放寬操作后，結(jié)構(gòu)搜索任務(wù)就變?yōu)榱藢W(xué)習(xí)一組連續(xù)變量：

α={α(i,j)}

(3)

(4)

式中：α為(編碼)體系結(jié)構(gòu)。

放寬之后，目標(biāo)就是在所有混合操作(例如卷積濾波器)的權(quán)重內(nèi)共同學(xué)習(xí)結(jié)構(gòu)α和權(quán)重ω，類似于使用強(qiáng)化學(xué)習(xí)或進(jìn)化方法的結(jié)構(gòu)搜索將驗(yàn)證集的性能作為獎(jiǎng)勵(lì)，可微神經(jīng)結(jié)構(gòu)搜索的目標(biāo)是優(yōu)化驗(yàn)證損失，但是需要使用基于梯度下降的方法來計(jì)算。

分別用Ltrain和Lval表示訓(xùn)練損失和驗(yàn)證損失，這2種損失不僅由結(jié)構(gòu)α確定，而且由網(wǎng)絡(luò)中的權(quán)重ω確定，結(jié)構(gòu)搜索的目標(biāo)是找到使驗(yàn)證損失Lval(ω*,α*)最小化的α*，其中通過最小化訓(xùn)練損失來獲得與結(jié)構(gòu)相關(guān)聯(lián)的權(quán)重ω*，即：

ω*=arg minωLtrain(ω,α*)

(5)

這意味著一個(gè)雙層優(yōu)化問題，α為上層變量，ω為下層變量：

(6)

s.t.ω*(α)=arg minωLtrain(ω,α)

(7)

嵌套公式也出現(xiàn)在基于梯度的超參數(shù)優(yōu)化中，盡管連續(xù)體系結(jié)構(gòu)α維數(shù)遠(yuǎn)高于標(biāo)量值超參數(shù)(如學(xué)習(xí)率)，并且更難以優(yōu)化，但是在某種意義上，連續(xù)體系結(jié)構(gòu)α也可以被視為一種特殊類型的超參數(shù)。

完全解決雙層優(yōu)化是非常困難的，因?yàn)闊o論α發(fā)生任何變化，都需要通過求解式(7)來重新計(jì)算ω*(α)。因此，可以使用近似迭代優(yōu)化的方法，其中ω和α分別通過在權(quán)重和結(jié)構(gòu)空間中的梯度下降步驟之間交替優(yōu)化。在步驟k，給定當(dāng)前結(jié)構(gòu)αk-1，通過在最小化訓(xùn)練損失Ltrain(ωk-1,αk-1)的方向上移動(dòng)ωk-1來獲得ωk，然后，在保持權(quán)重ωk不變的情況下對(duì)結(jié)構(gòu)進(jìn)行更新，在權(quán)重梯度下降一步后最小化驗(yàn)證損失：

Lval(ωk-ξωLtrain(ωk,αk-1),αk-1)

(8)

式中：ξ是該虛擬梯度步驟的學(xué)習(xí)率。

式(8)的目的是找到一個(gè)結(jié)構(gòu)，當(dāng)它的權(quán)重通過(單步)梯度下降優(yōu)化時(shí)具有低驗(yàn)證損失，其進(jìn)一步展開的權(quán)重用作ω*(α)的替代。值得注意的是，當(dāng)前動(dòng)態(tài)迭代算法定義了α的優(yōu)化器(領(lǐng)導(dǎo)者)和ω的優(yōu)化器(跟隨者)之間的斯塔克伯格(Stackelberg)博弈，這通常要求領(lǐng)導(dǎo)者預(yù)測(cè)跟隨者的下一步移動(dòng)以達(dá)到平衡，雖然目前還沒有意識(shí)到優(yōu)化算法的收斂保證，但實(shí)際上它能夠選擇合適的ξ收斂。除此以外，當(dāng)沖量被用于權(quán)重優(yōu)化時(shí)，一步前進(jìn)學(xué)習(xí)目標(biāo)(8)被相應(yīng)地修改，并且上述分析仍然適用。

通過對(duì)式(8)中的α求微分來求出體系結(jié)構(gòu)梯度(為了簡(jiǎn)便起見，省略步驟索引k)：

(9)

其中，

ω′=ω-ξωLtrain(ω,α)

(10)

式(10)表示一步正演模型的權(quán)重，梯度(9)在其第2項(xiàng)中包含矩陣向量乘積，其計(jì)算成本高，使用有限差分近似可以大大降低復(fù)雜性。假設(shè)ε是一個(gè)很小的實(shí)數(shù)的平方，有:

(11)

和

(12)

則:

(13)

評(píng)估有限差分只需要2個(gè)向前傳遞的權(quán)重和2個(gè)向后傳遞的α,并且復(fù)雜性O(shè)(|α||ω|)降低到O(|α|+|ω|)。

在獲得連續(xù)的體系結(jié)構(gòu)編碼α后,離散結(jié)構(gòu)通過以下方式生成：

1)保留每個(gè)中間節(jié)點(diǎn)的k個(gè)最強(qiáng)的前導(dǎo)，其中邊緣的強(qiáng)度定義為：

(14)

為了生成的結(jié)構(gòu)與現(xiàn)有工作中的結(jié)果相當(dāng)，對(duì)卷積網(wǎng)絡(luò)使用k=2。

2)通過采用函數(shù)argmax將每個(gè)混合操作替換為最可能的操作。

3 實(shí)驗(yàn)設(shè)計(jì)

3.1 實(shí)驗(yàn)參數(shù)設(shè)置

實(shí)驗(yàn)采用由重復(fù)單元組成的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，其中重復(fù)單元有正常單元和縮小單元，生成的神經(jīng)網(wǎng)絡(luò)的層數(shù)即為重復(fù)單元的個(gè)數(shù)，完整的實(shí)驗(yàn)包括2個(gè)階段：結(jié)構(gòu)搜索和結(jié)構(gòu)評(píng)估。在結(jié)構(gòu)搜索階段，使用可微神經(jīng)結(jié)構(gòu)搜索對(duì)多個(gè)結(jié)構(gòu)進(jìn)行研究，并根據(jù)其驗(yàn)證性能確定最佳單元；在結(jié)構(gòu)評(píng)估階段，使用這些單元構(gòu)建更大的結(jié)構(gòu)，從頭開始訓(xùn)練并在測(cè)試集上測(cè)試它們的性能。

實(shí)驗(yàn)中，上文提及的一組候選操作O中包括以下操作：3×3和5×5可分離卷積、3×3和5×5擴(kuò)張可分離卷積、3×3最大池化、3×3平均池化、Identity和Zero，所有操作的步長(zhǎng)都是1(如果適用)，并且填充卷積特征圖以保持其空間分辨率，使用ReLU-Conv-BN順序進(jìn)行卷積運(yùn)算，并且每個(gè)可分離卷積總是應(yīng)用2次。

每個(gè)卷積單元由N=7個(gè)節(jié)點(diǎn)組成，其中輸出節(jié)點(diǎn)被定義為所有中間節(jié)點(diǎn)(排除的輸入節(jié)點(diǎn))的深度級(jí)聯(lián)。其余的設(shè)置遵循Zoph等[6]、Liu等[7]和Real等[8]，然后通過將多個(gè)單元堆疊在一起形成網(wǎng)絡(luò)。

卷積單元k的第1和第2節(jié)點(diǎn)分別設(shè)置為卷積單元k-2和卷積單元k-1的輸出，并且根據(jù)需要插入1×1個(gè)卷積。位于網(wǎng)絡(luò)總深度的1/3和2/3處的小區(qū)域是縮小單元，其中與輸入節(jié)點(diǎn)相鄰的所有操作步長(zhǎng)都是2。因此，體系結(jié)構(gòu)編碼是(αnormal,αreduce)，其中αnormal由所有正常單元共享，αreduce由所有縮小單元共享。

3.2 結(jié)構(gòu)搜索

將訓(xùn)練集中40%的數(shù)據(jù)作為驗(yàn)證集，其余部分作為訓(xùn)練集。共進(jìn)行2次結(jié)構(gòu)搜索，第1次網(wǎng)絡(luò)層數(shù)為8，訓(xùn)練周期50個(gè)，第2次網(wǎng)絡(luò)層數(shù)為12。由于GPU顯存有限，而數(shù)據(jù)集原始圖像分辨率為256×256，為了保證輸入圖片可以在GPU上進(jìn)行運(yùn)算，在加載數(shù)據(jù)集時(shí)，將數(shù)據(jù)分辨率壓縮至32×32。

其他超參數(shù)設(shè)置如下：每次訓(xùn)練數(shù)據(jù)輸入批量大小為64(對(duì)于訓(xùn)練集和驗(yàn)證集)，初始通道數(shù)為16，使用動(dòng)量SGD來優(yōu)化權(quán)重ω，初始學(xué)習(xí)速率ηω=0.025(在余弦調(diào)度(cosine schedule)之后衰減到0)、動(dòng)量大小為β=0.9和權(quán)重以ω=3×10-4的大小衰減，使用Adam作為結(jié)構(gòu)變量的優(yōu)化器(即正常和縮小單元中的α)，初始學(xué)習(xí)率ηα=3×10-4，動(dòng)量β=(0.5,0.999)，權(quán)重以ω=3×10-3的大小衰減。

網(wǎng)絡(luò)層數(shù)為8的小網(wǎng)絡(luò)在單個(gè)GPU上進(jìn)行結(jié)構(gòu)搜索花費(fèi)了大約40 min，網(wǎng)絡(luò)層數(shù)為12的小網(wǎng)絡(luò)花費(fèi)了1 h。

3.3 結(jié)構(gòu)驗(yàn)證

對(duì)一個(gè)有20層的大型網(wǎng)絡(luò)進(jìn)行訓(xùn)練，訓(xùn)練時(shí)間為600個(gè)時(shí)期，批量數(shù)據(jù)輸入大小為96，圖片大小仍然為32×32，其他超參數(shù)與結(jié)構(gòu)搜索的超參數(shù)保持相同，增加其他增強(qiáng)功能包括圖片剪切、隨機(jī)失活概率為0.3和權(quán)重為0.4的輔助節(jié)點(diǎn)。由8層小網(wǎng)絡(luò)卷積單元組成的大網(wǎng)絡(luò)在單個(gè)GPU上進(jìn)行結(jié)構(gòu)驗(yàn)證花費(fèi)了1 h 24 min，由12層小網(wǎng)絡(luò)卷積單元組成的大網(wǎng)絡(luò)花費(fèi)了1 h 15 min。

4 結(jié)果與分析

訓(xùn)練數(shù)據(jù)對(duì)基于深度學(xué)習(xí)的目標(biāo)識(shí)別至關(guān)重要。針對(duì)城市中常見的飛行物類型，本文通過網(wǎng)絡(luò)收集與實(shí)際拍攝，收集了豐富的目標(biāo)影像數(shù)據(jù)，包括3類目標(biāo)：固定翼無人機(jī)、多旋翼無人機(jī)與飛鳥，各1 000張。影像分辨率固定為256×256，以jpg格式保存。數(shù)據(jù)集實(shí)例見圖1。

圖1 數(shù)據(jù)集實(shí)例

4.1 結(jié)構(gòu)搜索得到的正常單元和縮小單元

“低慢小”目標(biāo)數(shù)據(jù)集共進(jìn)行了2次實(shí)驗(yàn)，共得到4種基本單元，見圖2～5。在每個(gè)單元中c{k-1}和c{k-2}表示前2個(gè)單元的輸出作為本單元的輸入，c{k}表示本單元的輸出。從結(jié)果來看，不同層數(shù)的網(wǎng)絡(luò)，其基本的卷積單元不同，同時(shí)每個(gè)卷積單元每個(gè)節(jié)點(diǎn)處有多個(gè)輸入和輸出，構(gòu)建了一個(gè)復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)。

圖2 網(wǎng)絡(luò)層數(shù)為8的正常單元

圖3 網(wǎng)絡(luò)層數(shù)為8的縮小單元

圖4 網(wǎng)絡(luò)層數(shù)為12的正常單元

圖5 網(wǎng)絡(luò)層數(shù)為12的縮小單元

4.2 目標(biāo)數(shù)據(jù)集分類結(jié)果

通過對(duì)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，得到了當(dāng)前數(shù)據(jù)集的最優(yōu)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，在找到結(jié)構(gòu)后，通過在驗(yàn)證集上驗(yàn)證，得到相應(yīng)的測(cè)試結(jié)果，見表1。

表1 使用可微神經(jīng)結(jié)構(gòu)搜索的深度神經(jīng)網(wǎng)絡(luò)測(cè)試結(jié)果

從表1可以得知，城市飛行物數(shù)據(jù)集的2個(gè)實(shí)驗(yàn)的分類精度分別為96.50%和97.25%，滿足不小于95%的精度要求。

最優(yōu)精度與人工設(shè)計(jì)的常用網(wǎng)絡(luò)對(duì)比見表2。顯然，本文方法具有更好的測(cè)試精度，在用于“低慢小”無人機(jī)類目標(biāo)分類檢測(cè)方面具有更強(qiáng)的適用性。

表2 不同結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)在目標(biāo)數(shù)據(jù)集上的測(cè)試結(jié)果

5 結(jié)語

本文利用神經(jīng)結(jié)構(gòu)搜索可以在給定目標(biāo)數(shù)據(jù)集上得到當(dāng)前任務(wù)最優(yōu)的深度神經(jīng)網(wǎng)絡(luò)，且在“低慢小”目標(biāo)識(shí)別上取得了良好的效果，但這一方法仍然需要一定量的有標(biāo)簽數(shù)據(jù)。因此，在后續(xù)的目標(biāo)識(shí)別方法研究過程中應(yīng)結(jié)合當(dāng)前在小樣本數(shù)據(jù)進(jìn)行分類的研究，將其運(yùn)用在神經(jīng)結(jié)構(gòu)搜索中，提升樣本數(shù)據(jù)量較小時(shí)的分類精度，防止過擬合現(xiàn)象的發(fā)生；同時(shí)，在面對(duì)無標(biāo)簽影像時(shí)，考慮是否可以通過結(jié)合神經(jīng)結(jié)構(gòu)搜索獲取的高層語義特征與其他方法獲取的有關(guān)圖像的中、低層語義特征，從而提升分類精度。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡