国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于投票機制的神經(jīng)架構搜索

2022-09-17 04:42:48楊軍張景發(fā)
光學精密工程 2022年17期
關鍵詞:架構權重節(jié)點

楊軍,張景發(fā)

(1.蘭州交通大學 電子與信息工程學院,甘肅 蘭州 730070;2.蘭州交通大學 測繪與地理信息學院,甘肅 蘭州 730070)

1 引言

卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)顯著提高了各種視覺分析任務的性能,包括圖像分類、人臉識別和目標檢測等領域[1],這得益于其良好的模塊設計和復雜的網(wǎng)絡架構。VGGNet[2]提出使用小的卷積濾波器并堆疊一系列卷積層來實現(xiàn)更好的性能,RESNet[3]引入殘差塊以利于更深層次神經(jīng)網(wǎng)絡的訓練,PointNet[4]使 用 多 層 感 知 機(Multilayer Perceptron,MLP)來學習單個點的特征,并利用T-net對全局信息進行編碼,實現(xiàn)了數(shù)據(jù)及特征的有效對齊,在點云模型識別任務上做出了開創(chuàng)性的工作。盡管這些人工設計的網(wǎng)絡可以有效地完成給定數(shù)據(jù)集的模型識別和分類任務,但在網(wǎng)絡架構的設計過程中依賴專家經(jīng)驗和大量的超參數(shù)調(diào)整,且計算復雜度比較高,設計出的網(wǎng)絡架構很難達到最優(yōu)。因此,研究人員提出了神經(jīng)架構搜索(Neural Architecture Search,NAS),其目標是通過選擇和組合預定義搜索空間中的各種候選操作,自動找到最優(yōu)的網(wǎng)絡架構。

NAS方法主要包含3個基本模塊:搜索空間、搜索策略和性能評估策略。預定義一個搜索空間,并使用特定的搜索策略在搜索空間中尋找網(wǎng)絡架構,然后通過性能評估策略對搜索到的網(wǎng)絡進行測試,根據(jù)測試結(jié)果再次迭代,直到找出最優(yōu)的網(wǎng)絡架構。其中,搜索空間定義了NAS算法可以搜索到神經(jīng)網(wǎng)絡的類型,同時也定義了如何描述神經(jīng)網(wǎng)絡結(jié)構。搜索通常包括兩種類型,直接搜索整個網(wǎng)絡體系架構(宏搜索)或搜索Cell結(jié)構并以預定義的方式堆疊此Cell結(jié)構(微搜索)。搜索策略定義了如何找到最優(yōu)的網(wǎng)絡架構,主要包括強化學習、遺傳算法和基于梯度的優(yōu)化算法。性能評估策略用于度量搜索到網(wǎng)絡體系架構的性能優(yōu)劣,包括低保真度、早停、代理模型和權值共享等方法。

目前,NAS在計算機視覺和模式識別領域得到了廣泛應用,有效減少了人工干預。文獻[5]利用強化學習方法訓練一個循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)控制器,自動搜索一個可以應用于大規(guī)模圖像分類和目標檢測的神經(jīng)網(wǎng)絡架構,但該方法依賴大量的硬件資源,存在計算量較大、時間成本較高的問題。文獻[6]利用Softmax函數(shù)放縮搜索空間使目標函數(shù)可微,通過高效的梯度反向傳播算法進行架構搜索,大大提高了NAS的效率,然而由于GPU內(nèi)存消耗隨著候選搜索集的大小呈線性增長,該方法仍存在GPU內(nèi)存消耗過高的問題。文獻[7]在跳躍連接之后使用dropout策略,并在優(yōu)化過程中限制跳躍連接的數(shù)量,但此方法搜索到的架構深度在訓練過程中逐漸增長,搜索和評估場景中的架構深度之間存在巨大差異。文獻[8]提出了一個基于Gumbel-Max策略的可微采樣器,一次只對一個架構進行采樣,減少了內(nèi)存的使用,但搜索到體系結(jié)構的性能低于基于遺傳算法的方法。

為了解決現(xiàn)有NAS算法自動搜索到的網(wǎng)絡架構與評估的網(wǎng)絡架構之間存在較大差異的問題,本文提出基于投票機制的神經(jīng)架構搜索(Neural Architecture Search Based on Voting Scheme,NAS-VS)算法,以多策略融合的方法自動搜索出最優(yōu)的Cell結(jié)構;利用小批量訓練數(shù)據(jù)上測試的訓練損失作為性能估計器,只在性能表現(xiàn)良好的候選網(wǎng)絡架構中進行采樣,以解決均勻采樣會導致網(wǎng)絡訓練效率低的問題;利用組稀疏正則化策略的路徑選擇方法,解決Cell結(jié)構中各節(jié)點之間候選操作權重相近時路徑難以選擇的問題。

2 研究現(xiàn)狀

為了自動高效地搜索最優(yōu)的神經(jīng)網(wǎng)絡架構,大量架構搜索算法被提出,主要分為三類:基于強化學習的方法、基于遺傳算法的方法和基于梯度的算法。其中,基于強化學習的方法從搜索空間采樣網(wǎng)絡架構,并相應地訓練控制器。基于遺傳算法的方法首先隨機初始化若干個子網(wǎng)絡作為初始解,計算其適應度,并使用變異和交叉的遺傳操作來生成新的網(wǎng)絡架構?;谔荻鹊乃惴▽蚕頇嘀睾徒Y(jié)構參數(shù)進行優(yōu)化,大大降低了對計算資源的需求,提高了搜索效率。

2.1 基于強化學習的方法

文獻[9]首次將強化學習應用于NAS,利用一個循環(huán)神經(jīng)網(wǎng)絡作為控制器,通過強化學習的方法來搜索子網(wǎng)絡,不斷更新RNN控制器的參數(shù),直到搜索到符合要求的網(wǎng)絡架構;但由于該方法設計的搜索空間較大,因此需要訓練數(shù)以萬計的網(wǎng)絡架構,計算資源消耗巨大。為解決該問題,文獻[10]提出了搜索Cell結(jié)構或者block結(jié)構,并將其堆疊以得到最終的網(wǎng)絡架構,大大降低了搜索空間的復雜性。文獻[11]將基于強化學習方法搜索到的小模型按比例放大,沿著深度、寬度和輸入分辨率3個方向構建大模型,從而提高了搜索較大數(shù)據(jù)集網(wǎng)絡架構的準確率。文獻[12]提出了一種參數(shù)共享的高效NAS算法,通過策略梯度訓練控制器,使所有網(wǎng)絡架構共享參數(shù),進一步減少了獲得獎勵的訓練步驟。然而,基于強化學習的方法需要枚舉大量的網(wǎng)絡架構,并從頭開始訓練其相應的模型參數(shù)以獲得準確的性能估計,因此計算資源需求大。

2.2 基于遺傳算法的方法

遺傳算法為NAS提供了另一個方向,文獻[13]將遺傳算法應用于ImageNet,在相同的硬件條件下,其搜索速度快于強化學習的方法,特別是在搜索的早期階段。搜索算法迭代評估從群體中性能最佳的體系結(jié)構演化而來的少量子網(wǎng)絡架構以加速搜索,但仍需要訓練數(shù)千個單獨的體系結(jié)構。因此,雖然遺傳算法適用于NAS,但它面臨著與強化學習方法相同的問題,即訓練過程需要大量計算資源。為了解決此問題,文獻[14]提出單路徑聚合網(wǎng)絡架構搜索算法,利用自頂向下、自底向上、融合-分裂、尺度均衡、跳躍-連接和無操作6個異構信息路徑來構建搜索空間,并通過進化算法來尋找最優(yōu)候選路徑。然而,進化算法只允許變異和交叉操作,沒有考慮層間關系,導致搜索到的網(wǎng)絡架構不是最優(yōu)的。

2.3 基于梯度的方法

基于梯度的方法利用Softmax函數(shù)將搜索空間從離散松弛化為連續(xù),并通過梯度下降算法來優(yōu)化網(wǎng)絡架構,大大降低了計算資源使用,但其訓練過程需要遍歷搜索空間中的所有候選操作,難以直接在搜索空間中搜索大型網(wǎng)絡架構,因此,基于梯度的方法大多在搜索時使用淺層模型作為代理任務,并在評估時多次堆疊搜索到的Cell結(jié)構以構建更大的模型。為了改進基于梯度的方法,文獻[15]提出了一種基于采樣的方法來學習體系結(jié)構上的概率分布,不斷在搜索空間中采樣候選網(wǎng)絡,以獲得性能優(yōu)秀的網(wǎng)絡架構,然而由于不停地采樣,計算資源消耗也比較大。文獻[16]通過路徑二進制化探索沒有特定代理的搜索空間,利用one-shot方法和參數(shù)共享來加速NAS搜索過程。文獻[17]以最小化權重共享子網(wǎng)絡和獨立網(wǎng)絡之間的評估差異性為目標,引入漸進式搜索空間縮減策略,利用貪心算法的路徑過濾技術,使超網(wǎng)更加關注那些性能優(yōu)異的路徑。文獻[18]以貪婪的方式修剪搜索空間中的候選操作,隨著排名較低的候選操作被移除,搜索空間逐漸縮小,搜索專注于剩余的候選操作以進行充分地訓練和評估。

綜上所述,NAS研究目前主要存在的問題有:(1)在搜索空間中選擇候選網(wǎng)絡架構時一般使用均勻采樣,而每個候選網(wǎng)絡架構的性能存在差異,如果對性能較弱的網(wǎng)絡架構進行采樣和訓練,由于所有網(wǎng)絡權值共享,會干擾其他網(wǎng)絡架構,最終搜索到的最優(yōu)網(wǎng)絡架構性能不佳;(2)在路徑選擇過程中,由于一些候選操作的權值相近,無法準確地對其進行排名,搜索與評估時期選擇的最優(yōu)模型之間容易存在較大的差異。本文提出NAS-VS算法,使用小批量訓練數(shù)據(jù)上測試的訓練損失作為性能估計器,對訓練損失較小的候選網(wǎng)絡進行采樣,并以集成學習的思想融合多種路徑選擇算法,進一步提高網(wǎng)絡架構的性能。

3 基于投票機制的神經(jīng)架構搜索

3.1 網(wǎng)絡整體架構

本文采用了基于梯度的架構搜索策略,搜索一個Cell結(jié)構作為基本的模塊,并通過堆疊該Cell結(jié)構來構建最優(yōu)的網(wǎng)絡架構。為了驗證搜索到的最優(yōu)網(wǎng)絡架構在評估階段中是否也是最優(yōu),引入肯德爾系數(shù)[19]來評估這一過程。肯德爾系數(shù)是衡量兩個排名相關性的常用指標,計算公式如下:

式中:n表示排名中的樣本數(shù)量,Nc表示在兩個排名中順序一致的數(shù)量,Nd表示在兩個排名中順序不一致的數(shù)量??系聽栂禂?shù)τ是介于-1到1之間的數(shù)字,其中-1表示兩個排名完全負相關,1表示兩個排名完全正相關,0表示兩個排名完全獨立。

使用DARTS算法在modent40數(shù)據(jù)集上進行了10組實驗,得到了10個不同分類精度的網(wǎng)絡架構,根據(jù)分類精度對這10組實驗搜索出的最優(yōu)網(wǎng)絡進行了排名。同理,將這10個最優(yōu)網(wǎng)絡在驗證集上的精度也進行了排名,對比搜索階段的性能排名和評估階段的性能排名,理想情況下,利用NAS方法搜索到的網(wǎng)絡架構應具有較高的肯德爾系數(shù)。從圖1可以看到,肯德爾系數(shù)只有0.16,即搜索階段得到的最優(yōu)網(wǎng)絡架構在測試時并不是精度最高的網(wǎng)絡,這是由于權重共享過程中隨著網(wǎng)絡的逐漸收斂,搜索到的網(wǎng)絡會更加地契合源數(shù)據(jù)集,而不是遷移之后的目標數(shù)據(jù)集,且在搜索過程中Cell結(jié)構的路徑選擇并不是最優(yōu)的,導致自動搜索的網(wǎng)絡架構性能沒有達到最優(yōu)。為了緩解這一問題,需要改進的核心問題有:(1)搜索和評估階段的差異;(2)權重共享的負面影響。因此,本文提出了NAS-VS算法。首先,以小批量訓練數(shù)據(jù)上測試的訓練損失作為性能估計器,對訓練損失較小的候選網(wǎng)絡進行采樣,以提高訓練效率;其次,利用可微架構搜索策略、組稀疏正則化策略和噪聲策略分別對Cell結(jié)構中各節(jié)點之間的路徑選擇進行初步判定;最后,通過加權投票方法對初步判定的路徑進行再次選擇,進一步提高網(wǎng)絡架構的性能,搜索出最優(yōu)的Cell結(jié)構。整體網(wǎng)絡框架如圖2所示。

圖1 搜索與評估階段的肯德爾系數(shù)Fig.1 Maurice Kendall coefficient in search and evaluation phases

3.2 性能估計器

首先在搜索空間中對候選網(wǎng)絡進行采樣,然后通過隨機梯度下降算法對每個樣本進行優(yōu)化,以便候選網(wǎng)絡獲得更好的性能。通常來說,整個NAS過程可以分解為兩個相對獨立的階段:無約束預訓練階段和資源受限階段。在無約束預訓練階段,通過權值共享聯(lián)合優(yōu)化搜索空間中所有可能的候選網(wǎng)絡,其目標是學習權重共享網(wǎng)絡的超參數(shù),如式(2)所示:

式中:ω為網(wǎng)絡中的共享權重,ωα是由體系結(jié)構α規(guī)定的一個子網(wǎng)絡的權重,Ω為搜索空間,L(·)為損失函數(shù),Dtrn為訓練數(shù)據(jù)。期望項E通常由n個均勻采樣的網(wǎng)絡架構來近似,并用隨機梯度下降算法來求解。采樣到的較大的網(wǎng)絡架構和較小的網(wǎng)絡架構都會通過式(2)聯(lián)合優(yōu)化,從而提高網(wǎng)絡的整體性能。

在資源受限階段,在給定的資源約束下搜索出性能最好的網(wǎng)絡架構,經(jīng)過式(2)的預訓練,所有的候選網(wǎng)絡架構都得到了充分的優(yōu)化,這一步就是通過搜索算法找出最優(yōu)性能的網(wǎng)絡架構,如式(3)所示:

圖2 整體網(wǎng)絡框架Fig.2 Overall network frame

式中:是在上一階段學習到的最優(yōu)權重共享參數(shù),ψi是給定的資源約束閾值,是最優(yōu)權重參數(shù)對應的體系結(jié)構,Dval表示驗證數(shù)據(jù),F(xiàn)LOPs(αi)表示架構αi消耗的計算資源。由于不需要重新訓練或微調(diào),該階段的總體搜索成本通常較低。

盡管已經(jīng)在這兩個相對獨立的階段取得了良好的效果,但在搜索過程中采樣時將每個候選網(wǎng)絡視為同等重要,這在一定程度上會偏向于性能較差的網(wǎng)絡。為了解決此問題,本文利用小批量訓練數(shù)據(jù)上測試的訓練損失作為性能估計器,來學習搜索空間中各候選網(wǎng)絡架構的概率分布,找出符合要求的一組模型,并將采樣的重心集中在這組模型上。首先,引入操作選擇的先驗分布P(α|A),其中A表示選擇不同網(wǎng)絡架構的概率。單個網(wǎng)絡架構α可以表示為{αi}的離散選擇,并從P(α|A)中采樣。因此,網(wǎng)絡架構搜索轉(zhuǎn)化為在一定監(jiān)督下的學習分布P(α|A)。由于不同層的選擇是彼此獨立的,對網(wǎng)絡架構α進行采樣的概率如下:

在訓練過程中,使用貝葉斯蒙特卡羅法優(yōu)化連續(xù)網(wǎng)絡架構參數(shù)α,即有:

式中:X為輸入的點云數(shù)據(jù),y為類別標簽,利用采樣的K個架構和其平均最大似然估計來近似P(y|X,ω,α)的最大似然估計。對于采樣的體系結(jié)構,通過估計梯度?αlogP(y|X,ω,α)和?ωlogP(y|X,ω,α)共同優(yōu)化體系結(jié)構參數(shù)α和模型權重參數(shù)ω。

然后,按照小批量訓練數(shù)據(jù)上測量的訓練損失來決定要采樣的網(wǎng)絡架構,即在每次迭代中,從P(α|A)中采樣K個架構{α1,···,αK},用R(α)表示模型α的性能估計器,權重為ωα。性能估計器R(α)的驗證損失為:

本文將原始訓練數(shù)據(jù)集分成90%的訓練集和10%的測試集,然后對子樣本訓練集進行無約束預訓練,將訓練迭代次數(shù)設置為50,訓練完成后,隨機采樣1 024個子網(wǎng)絡,并在子樣本的測試數(shù)據(jù)集上測試它們的性能。最后,利用性能估計器R(α)對這1 024個子網(wǎng)絡進行篩選,根據(jù)測試結(jié)果選擇訓練損失較小的前256個子網(wǎng)絡作為最終需要采樣的網(wǎng)絡架構。圖3為本文利用性能估計器采樣與均勻采樣的對比圖,從圖中可以看出,本文算法可以有效地從搜索空間中采樣到性能良好的候選網(wǎng)絡,從而提高超網(wǎng)的整體性能。

圖3 采樣方式對比Fig.3 Comparison of sampling method

3.3 加權投票融合

在搜索Cell結(jié)構時,由于一些候選操作的權值相近,無法準確地對其進行選擇,搜索到的網(wǎng)絡架構達不到最優(yōu)性能。因此,本文利用組稀疏正則化策略擴大候選操作之間的差異,對所有候選操作進行篩選,進一步增加Cell結(jié)構中路徑選擇的準確性,以選擇出合適的路徑,如式(7)所示:

式中:S是候選操作得分,μ是一個可學習的超參數(shù),f(α)是驗證損失,B是Cell結(jié)構中的總層數(shù)。在搜索階段,αb,i表示第b層中第i次操作的得分,所有得分組成體系結(jié)構α。對候選操作進行排序,篩選出各節(jié)點之間候選操作得分最高的操作。

利用組稀疏正則化策略對候選操作得分進行排名,并按照該排名選擇Cell結(jié)構中各節(jié)點之間的路徑,然而在權重選擇過程中可能會出現(xiàn):(1)有些候選操作的得分排名不是最高的,但此候選操作在網(wǎng)絡架構中所起的作用無法被取代,對后續(xù)操作的影響可能強于其他操作,按照得分排名而舍棄此操作,網(wǎng)絡的整體性能會下降;(2)在搜索空間中存在跳躍連接操作,如文獻[20]中所述,由于跳躍連接與卷積結(jié)合比較好,網(wǎng)絡架構搜索過程中會出現(xiàn)不公平競爭的現(xiàn)象,隨著迭代次數(shù)的增加,跳躍連接所占的權重會逐步增大,在多次迭代搜索之后,搜索到的網(wǎng)絡架構中包含過多的跳躍連接,導致網(wǎng)絡性能下降。本文提出的NAS-VS算法,首先,通過Softmax函數(shù)放縮搜索空間使搜索空間連續(xù)化;其次,使用組稀疏正則化策略,結(jié)合DARTS算法中的路徑選擇策略和文獻[21]中的噪聲策略,對Cell結(jié)構中各節(jié)點之間的路徑選擇進行初步判定;最后,通過加權投票將各節(jié)點之間路徑的選擇加以融合,確定最終的Cell結(jié)構。這樣可避免由于路徑選擇不準確引起的搜索與評估階段的不一致,進而搜索出最優(yōu)的網(wǎng)絡架構,提高三維模型識別與分類的能力。

NAS-VS算法的具體操作如下:給出上述3種路徑選擇方法下Cell結(jié)構中各節(jié)點間的路徑預測結(jié)果,將每個預測結(jié)果看作是一個獨立的得分,以加權投票方式聚合全部的預測結(jié)果來進行路徑選擇,達到尋找最優(yōu)路徑的目的。由于搜索空間中有9種候選操作,故給出的得分為[S1,S2,…,S9],通過投票機制判斷任意節(jié)點對中第i條路徑的投票結(jié)果為Hvote(Si|Gj),路徑u的最終選擇為,其中,Si為第i條路徑的得分,Gj表示任意節(jié)點對,k為路徑選擇的數(shù)目。

將路徑i的得分Si作為該路徑選擇的投票值,令Zk(Si)表示節(jié)點對Gj中屬于各候選操作得分Si的第k條路徑,則當各節(jié)點對Gj中某條路徑Si的得分最大時,對該路徑投票,有Hvote(Si|Gj)=1;若節(jié)點之間的路徑以相近的權重屬于多個候選操作,則給這幾個候選操作都投出一票。即Hvote(Si|Gj)=1,否則Hvote(Si|Gj)=0,即:

式中:θ為閾值,取值為[0,1)。當θ=0時,各個節(jié)點之間僅可以對概率最大的候選操作投一票;當θ>0時,允許對各節(jié)點對之間更多接近最大權重值的候選操作投票。也就是說,θ取值較小時,只有一個或多個最為相似的候選操作獲得投票,這樣限定嚴格,更多相近的候選操作可能被忽略;θ取值較大時,更多的候選操作獲得投票,雖然考慮全面,但是投票結(jié)果的可信度也有所降低。

在式(8)中,θ選值不同,有些候選操作可能投了多票,有些候選操作可能只投了一票,不具有公平性。為此,加入了權重系數(shù)λ,如式(9)所示:

式中:節(jié)點對Gj之間的權重λ為其投票數(shù)量的倒數(shù),以確保各候選操作在投票中的相對平等地位。所以,最終的投票結(jié)果為Hvote(Si|Gj)=

4 實驗結(jié)果與分析

在ModelNet10和ModelNet40兩個公開的標準數(shù)據(jù)集上進行了實驗。ModelNet10包含4 899個三維模型,分為10個不同的類別。Model-Net40數(shù)據(jù)集有40個類別,包含12 311個三維模型,其中9 843個為訓練模型,2 468個為測試模型??紤]到在大規(guī)模數(shù)據(jù)集上的巨大計算成本,首先在較小的數(shù)據(jù)集ModelNet10上搜索架構,然后將網(wǎng)絡架構遷移到大數(shù)據(jù)集ModelNet40上,并在大的數(shù)據(jù)集上訓練派生架構的網(wǎng)絡權重。

4.1 搜索空間及參數(shù)設置

本文對搜索空間的設計,遵循SGAS[18]同樣的設置。Cell結(jié)構如圖4所示,它由具有6個節(jié)點的有向無環(huán)圖表示(兩個輸入節(jié)點,三個中間節(jié)點以及一個輸出節(jié)點)。節(jié)點是構成Cell結(jié)構的基本元素,每個節(jié)點Xi是特定張量,如卷積神經(jīng)網(wǎng)絡中的特征映射,每個有向邊(i,j)表示搜索空間中節(jié)點Xi到另一個節(jié)點Xj的候選操作選擇O(i,j)。輸入節(jié)點是前兩個Cell結(jié)構的輸出表示,中間節(jié)點聚集來自它所有前置節(jié)點的信息流,輸出節(jié)點被定義為固定數(shù)量的前置節(jié)點的串聯(lián)。

圖4 Cell結(jié)構Fig.4 Cell structure

實驗中,從ModelNet10中的每個三維模型中采樣1 024個點,輸入特征維度為3,分別為x,y和z坐標。對于體系結(jié)構參數(shù)α和模型權重ω,使用初始學習率為3×10-4、動量為0.5和權重衰減為10-3的Adam優(yōu)化器進行優(yōu)化。為防止架構搜索過程中出現(xiàn)梯度爆炸,在每個節(jié)點處都采用批歸一化(Batch Normalization,BN)處理,網(wǎng)絡迭代次數(shù)設置為50。所采用的硬件環(huán)境為Intel Core i9-10900k+NVIDIA RTX3090(24GB顯存),深度學習環(huán)境為Linux Ubuntu 18.04+Pytorch1.4.0。

4.2 實驗結(jié)果分析

在ModelNet10上搜索到最優(yōu)Cell結(jié)構之后,將其堆疊3次,并在網(wǎng)絡頂部使用全局平均池化,然后使用Softmax層進行輸出,以構建最終的網(wǎng)絡架構。將此網(wǎng)絡架構遷移到ModelNet40數(shù)據(jù)集中,在此過程中,會隨機初始化網(wǎng)絡的權重(丟棄在搜索過程中學習到的權重),重新訓練網(wǎng)絡架構,并在測試集上測試此網(wǎng)絡的性能。設置迭代次數(shù)為250,使網(wǎng)絡趨于收斂。

表1 不同算法在ModelNet40的分類準確率對比Tab.1 Comparison of recognition accuracy of different algorithms on ModelNet40

表2 NAS-VS在ModelNet40的分類效果Tab.2 Classification effect of NAS-VS on ModelNet40

實驗中進行了5次獨立搜索,得到了5個不同的體系結(jié)構。在ModelNet40數(shù)據(jù)集上對這5個體系結(jié)構進行了性能評估,并給出了5次評估的最高和平均分類準確率。NAS-VS算法搜索到的體系結(jié)構與主流的人工設計網(wǎng)絡結(jié)果對比如表1所示??梢钥闯?,使用NAS算法自動搜索出的網(wǎng)絡架構其三維模型分類準確率明顯高于人工設計的網(wǎng)絡,在ModelNet40數(shù)據(jù)集上達到了93.9%的分類準確率,同時優(yōu)于SGAS[18]、Noisy-DARTS[21]等自動搜 索 算法,充分驗 證 了本文算法的優(yōu)勢。原因在于:一是利用性能估計器采樣性能優(yōu)秀的網(wǎng)絡架構,避免了權重共享對超網(wǎng)造成的負面影響;二是加權投票方法融合了多種路徑選擇策略,不僅使cell結(jié)構中路徑的選擇更準確,同時還抑制了跳躍連接的不公平競爭,使搜索到的網(wǎng)絡架構更深,有利于深層次特征的提取。由于5次獨立搜索到網(wǎng)絡架構中候選操作的不同,其參數(shù)值也有所差異,其中跳躍連接操作的參數(shù)計算最少,因此包含跳躍連接越多的網(wǎng)絡架構,其參數(shù)量少于其他網(wǎng)絡。此外,本文利用小批量訓練數(shù)據(jù)上測試的訓練損失作為性能估計器,只在性能表現(xiàn)良好的候選網(wǎng)絡架構中進行采樣,相比于Noisy-DARTS[21]、DARTS[6]算法,在計算效率上也有所提高。

實驗統(tǒng)計了5次獨立搜索得到的最優(yōu)Cell結(jié)構和分類準確率,如表2所示。圖5則是在搜索階段迭代50次之后,搜索出的網(wǎng)絡架構可視化結(jié)果。從表2和圖5中可以看出,NAS-VS的分類準確率最高。這是由于NAS算法的特點是在搜索過程中傾向于選擇在搜索早期就表現(xiàn)出易收斂性質(zhì)的網(wǎng)絡,相比于其他Cell結(jié)構,它的拓撲結(jié)構明顯是淺且寬的。此外,跳躍連接的數(shù)量越多,可學習的網(wǎng)絡參數(shù)就更少,從而導致網(wǎng)絡性能不佳。圖5中,mr_conv代表搜索空間中的圖卷積神經(jīng)網(wǎng)絡(Graph Convolutional Network,GCN),gin代表圖同構網(wǎng)絡(Graph Isomorphic Network,Gin),conv_1×1代 表1×1的 卷 積 操作,skip_connect代表跳躍連接操作,edge_conv代表邊緣卷積操作,gat代表圖注意力網(wǎng)絡(Graph Attention Network,Gat),none代表空操作,sage代表圖樣本和聚合(Graph Sample and Aggregate,GraphSAGE),semi_gcn代表基于圖卷積的半監(jiān)督分類操作。

圖5 NAS-VS方法搜索得到的最優(yōu)Cell結(jié)構Fig.5 Optimal Cell structure obtained by proposed NASVS method

圖5(e)中cell結(jié)構的加權投票選擇過程如表3所示。由表可知,利用可微架構搜索策略、組稀疏正則化策略和噪聲策略初步判定出的cell結(jié)構是各不相同的,利用加權投票機制對這3個不同的cell結(jié)構進行再次的路徑選擇,可進一步提高網(wǎng)絡架構的性能,搜索出最優(yōu)的Cell結(jié)構。在ModelNet40數(shù)據(jù)集上達到了93.9%的分類準 確度。

表3 最優(yōu)Cell結(jié)構的加權投票選擇過程Tab.3 Weighted voting selection process for optimal Cell structure

圖6 肯德爾系數(shù)相關性Fig.6 Correlation of Maurice Kendall coefficient

4.3 消融實驗

4.3.1肯德爾系數(shù)對比

通過實驗來驗證本文算法能否有效地縮小搜索和評估體系結(jié)構之間的差異,使用前文提到的肯德爾系數(shù),利用3種路徑選擇策略和投票機制各進行10次實驗,得到了10個不同精度的網(wǎng)絡架構,并在驗證集上進行評估。通過搜索階段和評估階段的排名計算出肯德爾系數(shù),如圖6所示。本算法的肯德爾系數(shù)τ為0.56,相比于單獨的噪聲策略、組稀疏正則化策略和可微架構搜索策略,總體上更接近最終排名,證明本文算法可以自動搜索出更優(yōu)的網(wǎng)絡架構,降低了搜索和評估體系結(jié)構之間的差異。

4.3.2性能估計器的優(yōu)勢

為了更好地分析本文采樣方式的有效性,設置了兩種不同的采樣方式進行了實驗對比。第一組實驗使用本文基于性能估計器的采樣方式,第二組實驗使用均勻采樣,其他設置則全部相同。實驗結(jié)果如表4和圖7所示,可以看出,基于性能估計器的采樣方式可以取得更高的分類精度。這是由于在搜索空間中采樣時,所有路徑共享權值,如果對一條弱路徑進行采樣和訓練,會干擾那些優(yōu)良路徑的權重,這種干擾會破壞它們最終的性能估計,并影響搜索到的最優(yōu)體系結(jié)構。而基于性能估計器的采樣方式不用覆蓋所有路徑,性能估計器會鼓勵超網(wǎng)更多地關注那些潛在的強力候選網(wǎng)絡架構,忽略表現(xiàn)較差的網(wǎng)絡架構,以此來減輕超網(wǎng)的負擔,提高訓練效率。

圖7 不同采樣方式的分類準確率Fig.7 Classification accuracy of different sampling methods

表4 不同采樣方式的影響Tab.4 Influence of different sampling methods

4.3.3權重變化過程

為了更好地分析投票機制對各節(jié)點之間路徑選擇的影響,本文將路徑選擇過程中各節(jié)點之間的權重變化可視化,如圖8所示。圖8(a)是架構搜索時跳躍連接操作的權重變化過程,圖8(b)~8(i)是架構搜索時其他候選操作的權重變化過程。可以看出,在DARTS方法中,隨著迭代次數(shù)的增多,跳躍連接操作的權重增長迅速,在路徑選擇中逐漸占據(jù)主導地位,削弱了其他候選操作的權重,各候選操作之間出現(xiàn)了不公平競爭現(xiàn)象。這種現(xiàn)象會導致搜索到的Cell結(jié)構中存在太多的跳躍連接,使網(wǎng)絡性能下降。而本文算法使用投票機制融合3種路徑選擇策略消除了跳躍連接的不公平競爭,使跳躍連接的競爭能力同其他候選操作處于同一水準,各候選操作之間表現(xiàn)出較強的獨立性,從而搜索出一個性能穩(wěn)定的網(wǎng)絡架構。

4.3.4跳躍連接操作的影響

為了分析跳躍連接操作對網(wǎng)絡架構性能的影響,本文設置了兩個搜索空間:Ω1(包含跳躍連接操作)和Ω2(不包含跳躍連接操作),其他設置則完全一致,實驗結(jié)果如表5所示。Ω1搜索空間搜索到的網(wǎng)絡架構分類準確率高于Ω2搜索空間,這是由于雖然跳躍連接操作在神經(jīng)架構搜索過程中具有不公平競爭性,但適當數(shù)量的跳躍連接可以解決較深網(wǎng)絡中梯度爆炸和梯度消失的問題,有利于網(wǎng)絡的性能提升。因此,只能對跳躍連接的不公平競爭進行限制,不能直接舍棄跳躍連接操作。

圖8 各候選操作的權重變化Fig.8 Weight change of each candidate operation

表5 跳躍連接對搜索空間的影響Tab.5 Impact of skip connections on search space

表6 加權投票實驗對比Tab.6 Comparison of weighted voting experiments

4.3.5加權投票機制的優(yōu)勢

為了驗證本文加權投票融合方法的有效性,在ModelNet40數(shù)據(jù)集上做了4組實驗進行對比。第一組實驗對可微架構搜索策略和噪聲策略進行加權融合,第二組實驗對可微架構搜索策略和組稀疏正則化策略進行加權融合,第三組實驗對噪聲策略和組稀疏正則化策略進行加權融合,第四組實驗對這3種用于Cell結(jié)構路徑選擇的方法進行加權融合。實驗結(jié)果見表6,可以看出,第二組實驗的分類準確率明顯低于其他3組。這是由于只對可微架構搜索策略和組稀疏正則化策略進行融合,雖然在一定程度上提高了搜索和評估體系結(jié)構之間的相關性,搜索到更優(yōu)的網(wǎng)絡架構,但并沒有完全消除掉跳躍連接的不公平競爭。而相比于只對兩種路徑選擇方法進行融合,本文算法搜索到的網(wǎng)絡架構分類準確率最高,由此表明利用投票機制對3種路徑選擇方法進行融合,可以有效地提高Cell結(jié)構中路徑選擇的準確性。

5 結(jié)論

NAS已經(jīng)在模式識別領域取得了巨大突破,本文在DARTS算法的基礎上,提出了一種NAS-VS算法。相比人工設計的網(wǎng)絡以及其他NAS算法,本算法在ModelNet40數(shù)據(jù)集上取得了較高的分類準確率,達到了93.9%。該方法有效地縮小了搜索和評估階段網(wǎng)絡架構之間的差異,并解決了以往NAS方法中均勻采樣所導致的網(wǎng)絡訓練效率低的問題。本文方法的局限性在于搜索到的最優(yōu)網(wǎng)絡架構同實際最優(yōu)網(wǎng)絡架構只是部分相關的,不是完全相關,因此,還需要更進一步的研究。

猜你喜歡
架構權重節(jié)點
基于FPGA的RNN硬件加速架構
CM節(jié)點控制在船舶上的應用
Analysis of the characteristics of electronic equipment usage distance for common users
功能架構在電子電氣架構開發(fā)中的應用和實踐
汽車工程(2021年12期)2021-03-08 02:34:30
基于AutoCAD的門窗節(jié)點圖快速構建
權重常思“浮名輕”
當代陜西(2020年17期)2020-10-28 08:18:18
為黨督政勤履職 代民行權重擔當
人大建設(2018年5期)2018-08-16 07:09:00
LSN DCI EVPN VxLAN組網(wǎng)架構研究及實現(xiàn)
電信科學(2017年6期)2017-07-01 15:45:17
基于公約式權重的截短線性分組碼盲識別方法
電信科學(2017年6期)2017-07-01 15:44:57
抓住人才培養(yǎng)的關鍵節(jié)點
察哈| 苍南县| 商丘市| 上犹县| 平湖市| 黄陵县| 利津县| 华宁县| 丰台区| 瑞安市| 炎陵县| 钦州市| 通渭县| 左权县| 桐庐县| 新昌县| 奈曼旗| 平遥县| 敖汉旗| 湾仔区| 彰武县| 海淀区| 洛隆县| 天门市| 湖口县| 塔城市| 土默特右旗| 肥乡县| 封丘县| 延川县| 尤溪县| 剑川县| 陈巴尔虎旗| 云安县| 双柏县| 呼图壁县| 大洼县| 溆浦县| 汕尾市| 武穴市| 淮北市|