国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

熵啟發(fā)的分級可微分網(wǎng)絡(luò)架構(gòu)搜索

2021-08-11 01:03:30李建明孫曉飛
關(guān)鍵詞:評測結(jié)點(diǎn)層級

李建明,陳 斌,孫曉飛

(1.中國科學(xué)院 成都計(jì)算機(jī)應(yīng)用研究所,成都 610041;2.中國科學(xué)院大學(xué),北京 100049;3.哈爾濱工業(yè)大學(xué)(深圳)國際人工智能研究院,廣東 深圳 518055)

自深度學(xué)習(xí)技術(shù)興起以來,神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)一直是計(jì)算機(jī)視覺中最重要的基礎(chǔ)研究之一,人類專家手工設(shè)計(jì)了大量優(yōu)秀的神經(jīng)網(wǎng)絡(luò)架構(gòu)(如AlexNet[1]、ResNet[2]、DenseNet[3]、SENet[4]等)。手工設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)架構(gòu),往往需要專家進(jìn)行大量的試錯實(shí)驗(yàn)。因此在限定的搜索空間中,采用網(wǎng)絡(luò)架構(gòu)搜索(neural architecture search,NAS)方法模擬專家自動設(shè)計(jì)更好神經(jīng)網(wǎng)絡(luò)架構(gòu)的研究,受到了越來越多的關(guān)注[5-13]。

不同于采用強(qiáng)化學(xué)習(xí)[6](reinforcement learning,RL)和進(jìn)化算法[7](evolutional algorithm,EA)作為優(yōu)化策略的NAS方法,文獻(xiàn)[8]提出了可微分架構(gòu)搜索算法(differentiable architecture search,DARTS),創(chuàng)造性地把離散空間的架構(gòu)搜索問題轉(zhuǎn)化為連續(xù)空間的參數(shù)優(yōu)化問題[8]。在相同的搜索空間中,采用性能相近的圖形處理單元(graphics processing unit,GPU),該方法可更高效地搜索架構(gòu)。例如,后者計(jì)算資源需求僅為4 GPU·d,前兩者則分別需要2 000 GPU·d[6]和3 150 GPU·d[7]。同時,在CIFAR-10[14]和ImageNet數(shù)據(jù)集上,后者搜得架構(gòu)的性能也能達(dá)到前兩種方法相近的水平[8],且3種方法搜得的架構(gòu)都超越了先前人類專家設(shè)計(jì)的架構(gòu)。

DARTS算法高效的架構(gòu)搜索能力,吸引了眾多學(xué)者的關(guān)注,并出現(xiàn)了一系列的改進(jìn)方法[15-20]。文獻(xiàn)[15]提出了漸進(jìn)的可微分架構(gòu)搜索算法(progressive differentiable architecture search,P-DARTS),以改善搜索架構(gòu)的超網(wǎng)絡(luò)與架構(gòu)評測網(wǎng)絡(luò)在網(wǎng)絡(luò)深度上存在“鴻溝”(depth gap)的問題。文獻(xiàn)[16]提出了隨機(jī)神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索算法(stochastic neural architecture search,SNAS),通過限制架構(gòu)參數(shù)為獨(dú)熱(one-hot)編碼形式構(gòu)建超網(wǎng)絡(luò),以改善DARTS因派生cell的方法而導(dǎo)致超網(wǎng)絡(luò)與派生架構(gòu)出現(xiàn)性能“鴻溝”的問題。文獻(xiàn)[17]注意到,DARTS算法中各級cell共享架構(gòu)參數(shù)的超網(wǎng)絡(luò)本身可能存在潛在問題。本文通過跟蹤超網(wǎng)絡(luò)各級cell的skip數(shù)量變化趨勢,進(jìn)一步發(fā)現(xiàn),共享架構(gòu)參數(shù)容易造成各級cell通過架構(gòu)參數(shù)相互耦合。在超網(wǎng)絡(luò)優(yōu)化后期,耦合會導(dǎo)致各級cell的skip操作通過架構(gòu)參數(shù)疊加,并產(chǎn)生包含過多skip操作的cell,從而嚴(yán)重影響搜得架構(gòu)的性能[15,17]。

針對上述的后兩項(xiàng)問題,本文提出了改進(jìn)算法:熵啟發(fā)的分級可微分網(wǎng)絡(luò)架構(gòu)搜索。首先,針對DARTS的耦合問題,設(shè)計(jì)了新穎的分級超網(wǎng)絡(luò),對DARTS超網(wǎng)絡(luò)的耦合問題進(jìn)行解耦。其次,針對超網(wǎng)絡(luò)與派生架構(gòu)間的“鴻溝”問題,引入架構(gòu)熵作為超網(wǎng)絡(luò)目標(biāo)函數(shù)的損失項(xiàng),促使目標(biāo)函數(shù)縮小超網(wǎng)絡(luò)與派生架構(gòu)因派生引起的“鴻溝”,以啟發(fā)超網(wǎng)絡(luò)在巨大的搜索空間中搜得更好的架構(gòu)。最后,在圖像分類數(shù)據(jù)集CIFAR-10上進(jìn)行了實(shí)驗(yàn),搜索階段算法耗時僅11 h,最終構(gòu)建的評測網(wǎng)絡(luò)在該數(shù)據(jù)集上的分類錯誤率僅為2.69%,優(yōu)于DARTS[8]、高效的網(wǎng)絡(luò)架構(gòu)搜索(efficient neural architecture search,ENAS)[13]和SNAS[16]等算法。同時其參數(shù)量僅為2.95×106,比性能相近的架構(gòu)少約10%。在大規(guī)模圖像分類數(shù)據(jù)集ImageNet上,本文所得架構(gòu)的分類錯誤率僅為25.9%(對應(yīng)評測網(wǎng)絡(luò)的參數(shù)量為4.3×106),優(yōu)于MobileNets[21]等手工設(shè)計(jì)的架構(gòu),也優(yōu)于DARTS[8]、SNAS[16]等算法自動設(shè)計(jì)的架構(gòu),該結(jié)果表明本文搜得的架構(gòu)具有較好的圖像分類能力和良好的可遷移性。綜合性能與參數(shù)量兩項(xiàng)指標(biāo)來看,本文搜得的架構(gòu)達(dá)到了領(lǐng)先水平。

1 分級可微分網(wǎng)絡(luò)架構(gòu)搜索

1.1 DARTS算法簡介

DARTS算法以cell[6-7]為搜索的基本單元。cell由若干有序結(jié)點(diǎn)組成的有向無環(huán)圖(directed acyclic graph,DAG)表示[8],見圖1。DAG中的結(jié)點(diǎn)表示特征圖,連接結(jié)點(diǎn)的有向邊表示候選操作。DARTS定義的cell共包含7個結(jié)點(diǎn)。其中,前兩個結(jié)點(diǎn)為輸入結(jié)點(diǎn),分別代表最近臨的前兩個cell的輸出;中間的4個結(jié)點(diǎn),每個都通過有向邊與其所有前序結(jié)點(diǎn)相連,如式(1)所示[8];最后一個結(jié)點(diǎn)按通道合并(concatenation,concat)4個中間結(jié)點(diǎn)代表的特征圖[8],作為該cell的輸出(output)。

圖1 DARTS算法的cell圖示Fig.1 Schematic of cell in DARTS

(1)

式中:x(j)為cell的中間結(jié)點(diǎn),x(i)為輸入結(jié)點(diǎn)或中間結(jié)點(diǎn),o(i,j)為連接x(j)和x(i)的混合操作,i和j均為結(jié)點(diǎn)序號。

有向邊關(guān)聯(lián)的候選操作集合O,共包含8個操作函數(shù),分別是3×3/5×5可分離卷積(sep_conv)、3×3/5×5空洞可分離卷積(dil_conv)、3×3平均/最大池化(avg/max_pool)、跳躍連接(skip)和無連接(none)。

DARTS創(chuàng)造性地在cell中引入了架構(gòu)參數(shù)α,把離散的架構(gòu)搜索問題轉(zhuǎn)化為連續(xù)參數(shù)空間的參數(shù)優(yōu)化問題[8],并以可學(xué)習(xí)的架構(gòu)參數(shù)作為候選操作的權(quán)重,構(gòu)建了加權(quán)的混合操作,最終把架構(gòu)搜索簡化為對候選操作權(quán)重的學(xué)習(xí)。該算法還采用軟最大(softmax)函數(shù)對架構(gòu)參數(shù)進(jìn)行松弛化操作,把架構(gòu)參數(shù)的值歸一化到(0,1)區(qū)間。松弛化操作后,式(1)中的混合操作o(i,j)變形為[8]

(2)

為了高效地學(xué)習(xí)cell中的參數(shù),DARTS構(gòu)建了以cell為模塊的超網(wǎng)絡(luò)(深度記為d),見圖2。超網(wǎng)絡(luò)含有兩種類型的cell,分別是常規(guī)元胞(normal cell)和降維元胞(reduction cell)[8]。Reduction cell位于超網(wǎng)絡(luò)d/3和2d/3,步幅為2,起降維作用;normal cell特征圖維度保持不變,主要起特征提取作用。超網(wǎng)絡(luò)被reduction cell分為3個層級,每級包含M個堆疊的normal cell,后級normal cell的特征圖大小則是前一級的1/2。該超網(wǎng)絡(luò)中各級cell共享架構(gòu)參數(shù),即超網(wǎng)絡(luò)中不同層級的cell結(jié)構(gòu)完全相同[8]。超網(wǎng)絡(luò)訓(xùn)練完成后,算法根據(jù)架構(gòu)參數(shù)由完整cell保留部分候選操作得到派生的cell,再以派生的cell構(gòu)建評測網(wǎng)絡(luò)對架構(gòu)進(jìn)行性能評測。

圖2 DARTS構(gòu)建的超網(wǎng)絡(luò)Fig.2 Super network constructed by DARTS

1.2 分級cell構(gòu)建的搜索超網(wǎng)絡(luò)

1.2.1 DARTS算法的耦合問題

DARTS算法中不同層級的cell共享架構(gòu)參數(shù),意味著同一個架構(gòu)參數(shù)會出現(xiàn)在超網(wǎng)絡(luò)的不同深度。而超網(wǎng)絡(luò)目標(biāo)函數(shù)關(guān)于參數(shù)的梯度,是逐層求導(dǎo)累積得到的,那么超網(wǎng)絡(luò)中不同深度的同一架構(gòu)參數(shù)的梯度也不同。架構(gòu)參數(shù)共享的設(shè)置,導(dǎo)致超網(wǎng)絡(luò)優(yōu)化位于不同層級cell的相同架構(gòu)參數(shù)時,不同趨勢的更新要在同一套架構(gòu)參數(shù)中共享。這就造成不同層級cell學(xué)習(xí)到的架構(gòu)參數(shù)相互影響,即產(chǎn)生了耦合效應(yīng)。

架構(gòu)參數(shù)耦合容易帶來兩方面的影響:1)同一架構(gòu)參數(shù),在超網(wǎng)絡(luò)不同位置的梯度有很大差異,當(dāng)不同層級cell的架構(gòu)參數(shù)變化趨勢不同時,造成共享的架構(gòu)參數(shù)主要體現(xiàn)了梯度較大處的選擇;2)隨著超網(wǎng)絡(luò)的訓(xùn)練,混合操作中含有卷積的候選操作逐漸被優(yōu)化,超網(wǎng)絡(luò)便逐漸偏向skip和pooling這類容易優(yōu)化的無參數(shù)操作,由于架構(gòu)參數(shù)共享,這種偏好被疊加,容易造成最后學(xué)到的架構(gòu)包含大量的skip操作,導(dǎo)致其性能欠佳(文獻(xiàn)[17]也注意到了這種現(xiàn)象)。

以normal cell的skip為例,本文分別跟蹤各級cell的skip數(shù)量變化,發(fā)現(xiàn)隨著超網(wǎng)絡(luò)的優(yōu)化,其數(shù)量都有所增長,如圖3(a)所示。初始化相同情況下,共享架構(gòu)參數(shù)的normal cell在超網(wǎng)絡(luò)訓(xùn)練的后期,由于耦合效應(yīng),造成skip數(shù)量大幅增加。該cell中skip占據(jù)操作總數(shù)的4/8(如圖3(b)所示,CIFAR-10上測試錯誤率為3.10%)。這導(dǎo)致cell中含有卷積參數(shù)的候選操作數(shù)量偏少,從而影響了cell的表征能力。

圖3 相同初始化,架構(gòu)搜索過程cell包含的skip數(shù)量對比Fig.3 Comparison of skip numbers during architecture search with identical initialization

1.2.2 cell分級的超網(wǎng)絡(luò)

針對DARTS算法構(gòu)建的超網(wǎng)絡(luò)出現(xiàn)的耦合問題,本文基于DARTS的超網(wǎng)絡(luò),設(shè)計(jì)了cell分級的超網(wǎng)絡(luò),以避免不同層級間cell的相互影響。如圖4所示,該超網(wǎng)絡(luò)被reduction cell分為3個層級,分別為低層次常規(guī)(low normal)、中層次常規(guī)(mid normal)和高層次常規(guī)(high normal)層級。每級包含M個堆疊的normal cell,各級cell的搜索空間相同,但各自擁有獨(dú)立的結(jié)構(gòu)。由于reduction cell的降維作用,不同層級的normal cell對應(yīng)的特征圖維度則依次減小,更深一級cell中的候選操作提取的特征也更加抽象。本文超網(wǎng)絡(luò)的設(shè)置,既允許各層級cell搜索到相同的結(jié)構(gòu),也允許更深的cell在更抽象的特征圖上搜索到不同于低層cell的結(jié)構(gòu)。

圖4 cell分級的超網(wǎng)絡(luò)Fig.4 Super network constructed by multi-level cells

(3)

(4)

式中:w為卷積核參數(shù),Ltrain為訓(xùn)練集損失,Lval為驗(yàn)證集損失,w*為使當(dāng)前訓(xùn)練集損失最小的卷積核參數(shù)。超網(wǎng)絡(luò)訓(xùn)練完成后,按式(5)保留各級cell有向邊中權(quán)重最大的候選操作。并沿用DARTS的派生策略,保留中間結(jié)點(diǎn)含有候選操作權(quán)重top-2的邊[8],得到最終的派生架構(gòu),以構(gòu)建評測網(wǎng)絡(luò)。

(5)

本文設(shè)計(jì)的cell分級的超網(wǎng)絡(luò),從根本上改變了網(wǎng)絡(luò)架構(gòu)搜索空間的設(shè)置。按照文獻(xiàn)[8]的計(jì)算方法,本文超網(wǎng)絡(luò)的搜索空間包含約1063種形態(tài)的網(wǎng)絡(luò)架構(gòu)(文獻(xiàn)[8]為1025種);由派生cell構(gòu)建的評測網(wǎng)絡(luò)形成的空間,包含約1045種(文獻(xiàn)[8]為1018種)。從搜索空間的規(guī)模上看,本文遠(yuǎn)多于文獻(xiàn)[8]。

這種設(shè)計(jì)的優(yōu)點(diǎn)有:1)解除不同層級cell間的耦合;2)增加架構(gòu)的多樣性;3)超網(wǎng)絡(luò)在架構(gòu)搜索出現(xiàn)問題時,有利于定位來源,以便進(jìn)一步優(yōu)化。

當(dāng)然,搜索空間的指數(shù)級增漲,也為搜索算法帶來了巨大的挑戰(zhàn),這便要求更有啟發(fā)性的搜索策略以應(yīng)對該挑戰(zhàn)。

1.3 熵啟發(fā)正則項(xiàng)

DARTS算法搜索架構(gòu)時,超網(wǎng)絡(luò)中各候選操作和架構(gòu)參數(shù)以加權(quán)求和的方式對特征圖作變換計(jì)算,并在反向傳播時被更新。搜索完成后,根據(jù)該算法的派生規(guī)則[8],權(quán)重最大的架構(gòu)參數(shù)對應(yīng)的候選操作被認(rèn)為對超網(wǎng)絡(luò)的貢獻(xiàn)最大,因而在派生cell中保留下來,其他候選操作則被遺棄。文獻(xiàn)[16]指出,這種派生操作造成了超網(wǎng)絡(luò)與派生得到的架構(gòu)在驗(yàn)證集上的表現(xiàn)出現(xiàn)“鴻溝”(gap)問題,即超網(wǎng)絡(luò)在驗(yàn)證集上的準(zhǔn)確率較高,但派生得到的架構(gòu)(未重新訓(xùn)練時)在驗(yàn)證集上的準(zhǔn)確率與前者相差很大。文獻(xiàn)[16]認(rèn)為出現(xiàn)這種情況的原因是,DARTS的超網(wǎng)絡(luò)在搜索訓(xùn)練完成后,每條邊的架構(gòu)參數(shù)分布仍然擁有相對較高的熵,較高的熵意味著搜索方法對搜索到架構(gòu)的確定性偏低。從這個環(huán)節(jié)看來,以Lval優(yōu)化超網(wǎng)絡(luò)的架構(gòu)參數(shù)α的過程中,超網(wǎng)絡(luò)中結(jié)點(diǎn)對之間的架構(gòu)參數(shù)呈現(xiàn)獨(dú)熱向量形態(tài)時,熵最低,是最理想的優(yōu)化結(jié)果。

本文構(gòu)建的超網(wǎng)絡(luò),沿用了DARTS算法的派生策略[8],所以架構(gòu)派生也存在類似問題。受文獻(xiàn)[16]啟發(fā),本文將已歸一化的架構(gòu)參數(shù)向量與熵聯(lián)系起來,定義了架構(gòu)熵,見式(6)。該指標(biāo)衡量了搜索算法對搜索結(jié)果的確定性,降低架構(gòu)熵能提升超網(wǎng)絡(luò)與派生架構(gòu)在驗(yàn)證集上表現(xiàn)的相關(guān)性。

(6)

以Lentropy作為該目標(biāo)函數(shù)的損失項(xiàng),可啟發(fā)超網(wǎng)絡(luò)在逐漸更新架構(gòu)參數(shù)時,兼顧架構(gòu)參數(shù)的分布,使架構(gòu)參數(shù)在參數(shù)空間中向獨(dú)熱向量收斂。架構(gòu)搜索環(huán)節(jié),超網(wǎng)絡(luò)的目標(biāo)函數(shù)由式(3)變?yōu)槭?7)。

(7)

式中γ為平衡Lval和Lentropy的超參數(shù),其他變量與以上公式定義一致。γ值的選擇見2.2節(jié)。

2 實(shí)驗(yàn)及結(jié)果

本文搜索階段實(shí)驗(yàn)采用的操作系統(tǒng)為Windows 10,處理器為Intel i7-7800X,GPU為NVIDIA GeForce GTX 1080Ti。評測階段實(shí)驗(yàn)采用的操作系統(tǒng)為Ubuntu 16.04,處理器為Xeon E5,訓(xùn)練和測試CIFAR-10使用的顯卡為NVIDIA GeForce GTX 1080Ti,訓(xùn)練和測試ImageNet使用的顯卡為NVIDIA Titan RTX。編程語言均為Python 3.6,深度學(xué)習(xí)框架均為Pytorch。

2.1 實(shí)驗(yàn)數(shù)據(jù)集

如DARTS等算法一樣,本文采用圖像分類數(shù)據(jù)集CIFAR-10[14]和ImageNet作為實(shí)驗(yàn)數(shù)據(jù)集。算法的架構(gòu)搜索環(huán)節(jié)在CIFAR-10上完成,并分別在CIFAR-10和ImageNet對進(jìn)行架構(gòu)評測。

CIFAR-10數(shù)據(jù)集包含60 000張分辨率為32×32的圖像,共10類。其中訓(xùn)練集包含50 000張圖像,測試集包含10 000張圖像。搜索架構(gòu)時,把訓(xùn)練集均分為兩個子集(分別為Strain和Sval),Strain用于更新超網(wǎng)絡(luò)中候選操作的卷積核參數(shù)w,Sval用于更新超網(wǎng)絡(luò)中的架構(gòu)參數(shù)α[8]。搜索架構(gòu)完成后,以完整cell得到派生的cell,再以后者構(gòu)建評測網(wǎng)絡(luò)[8]。評測網(wǎng)絡(luò)在訓(xùn)練集上重新開始訓(xùn)練,結(jié)束后在測試集上進(jìn)行評測,并以該測試準(zhǔn)確率作為搜得架構(gòu)的性能評價(jià)指標(biāo)。在超網(wǎng)絡(luò)訓(xùn)練和評測網(wǎng)絡(luò)訓(xùn)練時,測試集均未使用,僅在測試評測網(wǎng)絡(luò)時,測試集才被使用。

ImageNet是圖像分類研究中最權(quán)威的常用數(shù)據(jù)集之一。其訓(xùn)練集包含約128萬張圖像,驗(yàn)證集包含50 000張圖像,共1 000類。在該數(shù)據(jù)集上,本文采用與DARTS等算法一樣的實(shí)驗(yàn)設(shè)置,通過剪切原圖像得到分辨率為224×224的樣本,并將這些樣本作為評測網(wǎng)絡(luò)的輸入,對其進(jìn)行訓(xùn)練和測試。

2.2 熵啟發(fā)損失項(xiàng)的超參數(shù)選擇

本文設(shè)計(jì)了實(shí)驗(yàn),以確定式(7)中熵啟發(fā)損失項(xiàng)的超參數(shù)如何設(shè)置。如表1所示,本文分別設(shè)置了γ=0、0.1、1、5、10,共5組實(shí)驗(yàn)。每組重復(fù)進(jìn)行4次完整的架構(gòu)搜索與評測實(shí)驗(yàn),以評測結(jié)果的平均值作為該超參數(shù)選擇的依據(jù)。由實(shí)驗(yàn)結(jié)果可知,熵啟發(fā)項(xiàng)的系數(shù)為0時,超網(wǎng)絡(luò)在1063搜索空間中,僅依靠可微分方法搜索網(wǎng)絡(luò)架構(gòu)具有一定的難度;γ=1時,搜得的架構(gòu)表現(xiàn)最好;當(dāng)熵啟發(fā)項(xiàng)的系數(shù)增大到5時,損失函數(shù)中熵啟發(fā)損失項(xiàng)所占比重過大,影響了可微分方法的搜索。因此,本文以γ=1作為熵啟發(fā)項(xiàng)的超參數(shù)值。

表1 γ不同取值在CIFAR-10平均性能Tab.1 Average performance of different values of γ on CIFAR-10

2.3 搜得的網(wǎng)絡(luò)架構(gòu)

本文的超網(wǎng)絡(luò)按不同層級分級設(shè)置cell,相應(yīng)地搜得的各級cell也可能不同。DARTS搜得的架構(gòu)僅包含一個normal cell和一個reduction cell[8],而本文算法搜得的架構(gòu)包含3個層級的cell,各級cell如圖5所示。由于高層級cell與池化層相接,所以不包含reduction cell。

由圖5所示,本文采用分級超網(wǎng)絡(luò)后,搜得的架構(gòu)解除了參數(shù)共享帶來的耦合效應(yīng),不同層級cell包含的skip操作僅影響本層級的cell結(jié)構(gòu)。如圖5(a)所示,該cell不包含skip操作,而圖5(b)、圖5(c)各cell都含有兩個skip操作。此外,DARTS搜得的normal cell包含的候選操作類別較少,分別是sep_conv_3×3、dil_conv_3×3和skip_connect。而本文搜得的cell,包含的候選操作更加多樣,能提取更豐富的特征。

圖5 分級超網(wǎng)絡(luò)搜得的各級cell(搜索采用了熵啟發(fā)損失項(xiàng))Fig.5 Cell architectures searched by proposed algorithm (search algorithm with entropy loss term)

2.4 實(shí)驗(yàn)結(jié)果

2.4.1 CIFAR-10實(shí)驗(yàn)結(jié)果

沿用DARTS算法的架構(gòu)篩選策略[8],本文也重復(fù)了4次架構(gòu)搜索實(shí)驗(yàn),并分別構(gòu)建評測網(wǎng)絡(luò)。在CIFAR-10上隨機(jī)初始化卷積參數(shù)w后,訓(xùn)練評測網(wǎng)絡(luò),以最優(yōu)測試結(jié)果的架構(gòu)作為算法的最終架構(gòu)。如表2所示,以人工設(shè)計(jì)的DenseNet[3]為基準(zhǔn),NAS算法搜得的網(wǎng)絡(luò)架構(gòu)在CIFAR-10上都超越了該基準(zhǔn)架構(gòu),這表明了網(wǎng)絡(luò)架構(gòu)搜索算法的潛力。與其他自動搜索網(wǎng)絡(luò)架構(gòu)方法相比,本文搜得的網(wǎng)絡(luò)架構(gòu)取得了具有競爭力的結(jié)果。

表2 搜得架構(gòu)在CIFAR-10上與其他NAS算法搜得架構(gòu)的性能對比Tab.2 Performannce comparison of architectures searched by proposed algorithm and other NAS methods on CIFAR-10

從測試錯誤率上看,僅采用本文分級策略構(gòu)建的超網(wǎng)絡(luò)搜得的架構(gòu),在CIFAR-10上的錯誤率為2.88%,優(yōu)于DARTS_V1[8]搜得的架構(gòu),并與SNAS[16]相近;增加熵啟發(fā)損失項(xiàng)后,本文搜得架構(gòu)的錯誤率進(jìn)一步降低到2.69%,與NASNet-A[6]相近。從參數(shù)量指標(biāo)看,與性能相近的NASNet-A[6]相比,本文架構(gòu)的參數(shù)量更低。其原因是本文分級設(shè)置cell的超網(wǎng)絡(luò)構(gòu)建方法,得到的mid normal和high normal兩級cell的參數(shù)量都較低。同時,本文采用DARTS算法的一階近似優(yōu)化策略,搜索時間遠(yuǎn)低于NASNet-A[6],且與P-DARTS[15]相近。綜上,實(shí)驗(yàn)結(jié)果證明了本文所提方法的有效性,并且本文所提方法計(jì)算資源需求低、分類表現(xiàn)好、搜得架構(gòu)的參數(shù)量少。

2.4.2 ImageNet實(shí)驗(yàn)結(jié)果

為了驗(yàn)證本文搜得架構(gòu)的可遷移性,本文進(jìn)一步在ImageNet上進(jìn)行了評測實(shí)驗(yàn)。構(gòu)建評測網(wǎng)絡(luò)的方式與DARTS算法保持一致,即網(wǎng)絡(luò)深度d=14,網(wǎng)絡(luò)初始通道數(shù)C0=48。該評測網(wǎng)絡(luò)的訓(xùn)練采用與文獻(xiàn)[15]相同的策略。沿用DARTS算法的限制條件,本文也選擇輸入樣本分辨率為224×224時,運(yùn)算乘加次數(shù)<600×106(移動設(shè)備運(yùn)算要求)的網(wǎng)絡(luò)進(jìn)行對比。本文架構(gòu)及對比算法所得架構(gòu)在ImageNet上的性能表現(xiàn)見表3。其中,“≈”表示約等于。

表3 搜得架構(gòu)在ImageNet與其他NAS算法搜得架構(gòu)的性能對比Tab.3 Performance comparison of architectures searched by proposed algorithm and other NAS methods on ImageNet

以本文搜得架構(gòu)構(gòu)建的評測網(wǎng)絡(luò),在ImageNet上取得了25.9%的分類錯誤率,不僅優(yōu)于Inception[22]、MobileNet[21]、ShuffleNet[23]等手工設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu),還優(yōu)于DARTS[8]、SNAS[16]等算法自動設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu),這表明了本文架構(gòu)的可遷移性。同時本文評測網(wǎng)絡(luò)的參數(shù)量僅為4.3×106,比參數(shù)量相同的SNAS[16]分類錯誤率低1.4%。與分類錯誤率相近的NASNet-A[6]相比,本文評測網(wǎng)絡(luò)的參數(shù)量低1.0×106。本文評測網(wǎng)絡(luò)的乘加次數(shù)也只有533×106,但比乘加次數(shù)相近的ShuffleNet[23]和SNAS[16]有更好的分類性能。結(jié)合分類錯誤率、參數(shù)量和乘加次數(shù)3項(xiàng)指標(biāo),ImageNet上的實(shí)驗(yàn)結(jié)果表明,本文搜得的架構(gòu)具有更好的特征提取和圖像分類能力。

3 結(jié) 論

設(shè)計(jì)了cell分級的超網(wǎng)絡(luò),對DARTS算法各層級cell存在耦合的現(xiàn)象進(jìn)行了解耦。實(shí)驗(yàn)結(jié)果表明,采用本文設(shè)計(jì)的超網(wǎng)絡(luò),避免了架構(gòu)參數(shù)共享引起的耦合效應(yīng),并提升了搜得架構(gòu)的性能。引入熵啟發(fā)的損失項(xiàng)后,降低了超網(wǎng)絡(luò)與派生架構(gòu)的“鴻溝”,進(jìn)一步提升了搜得架構(gòu)的表現(xiàn)。最后,本文按層級構(gòu)建超網(wǎng)絡(luò)和評測網(wǎng)絡(luò)的設(shè)計(jì),可啟發(fā)探索新的網(wǎng)絡(luò)架構(gòu)搜索范式。

猜你喜歡
評測結(jié)點(diǎn)層級
次時代主機(jī)微軟XSX全方位評測(下)
次時代主機(jī)微軟XSX全方位評測(上)
軍工企業(yè)不同層級知識管理研究實(shí)踐
基于軍事力量層級劃分的軍力對比評估
攻坡新利器,TOKEN VENTOUS評測
Ladyzhenskaya流體力學(xué)方程組的確定模與確定結(jié)點(diǎn)個數(shù)估計(jì)
Canyon Ultimate CF SLX 8.0 DI2評測
中國自行車(2017年1期)2017-04-16 02:54:06
任務(wù)期內(nèi)多層級不完全修復(fù)件的可用度評估
基于Raspberry PI為結(jié)點(diǎn)的天氣云測量網(wǎng)絡(luò)實(shí)現(xiàn)
基于DHT全分布式P2P-SIP網(wǎng)絡(luò)電話穩(wěn)定性研究與設(shè)計(jì)
汉源县| 辉南县| 汤阴县| 菏泽市| 左云县| 蓬安县| 静乐县| 崇阳县| 华池县| 依安县| 永德县| 双鸭山市| 库车县| 鄂托克旗| 泰安市| 蕉岭县| 凌云县| 子洲县| 噶尔县| 乃东县| 莱芜市| 宁德市| 桦南县| 诸暨市| 顺义区| 邢台市| 志丹县| 宜都市| 信阳市| 保定市| 陇川县| 玉山县| 通道| 常山县| 金阳县| 娱乐| 内江市| 阿合奇县| 布尔津县| 顺平县| 马龙县|