国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度神經(jīng)架構(gòu)搜索綜述

2021-01-15 08:46孟子堯梁艷春吳春國(guó)
關(guān)鍵詞:搜索算法集上神經(jīng)網(wǎng)絡(luò)

孟子堯 谷 雪 梁艷春 許 東 吳春國(guó)

1(符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室(吉林大學(xué)) 長(zhǎng)春 130012)

2(符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室珠海分實(shí)驗(yàn)室(吉林大學(xué)珠海學(xué)院) 廣東珠海 519041)

3(密蘇里大學(xué)哥倫比亞分校電子工程與計(jì)算機(jī)科學(xué)系 美國(guó)密蘇里州哥倫比亞 MO65211)(zy-meng@outlook.com)

人工神經(jīng)網(wǎng)絡(luò)通過(guò)模擬生物神經(jīng)網(wǎng)絡(luò)信號(hào)處理的過(guò)程,解決了很多具有挑戰(zhàn)性的任務(wù).以圖像分類為例,LeCun等人[1]于1998年設(shè)計(jì)了第1個(gè)用于手寫字符識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)LeNet5,該網(wǎng)絡(luò)僅有5層.直到21世紀(jì)10年代,GPU代替CPU成為了新的神經(jīng)網(wǎng)絡(luò)加速訓(xùn)練工具,這使得訓(xùn)練更大規(guī)模的網(wǎng)絡(luò)成為了可能.Krizhevsky 等人[2]于2012年設(shè)計(jì)了有一定深度的網(wǎng)絡(luò)AlexNet,并取得了ILSVRC-12(ImageNet large-scale visual recognition challenge-2012)競(jìng)賽的成功.相比于AlexNet,Szegedy等人[3]于2015年再次加深了網(wǎng)絡(luò)的深度和寬度,設(shè)計(jì)了一個(gè)超過(guò)20層的神經(jīng)網(wǎng)絡(luò)架構(gòu)GoogLeNet.He等人[5]于2016年通過(guò)引入跳躍連接的概念,設(shè)計(jì)了一個(gè)152層的殘差網(wǎng)絡(luò)ResNet,取得了ILSVRC-15分類任務(wù)的第1名.隨著研究的不斷深入,網(wǎng)絡(luò)的層數(shù)不斷加深,截至2016年,最深的神經(jīng)網(wǎng)絡(luò)已經(jīng)超越1 000層[5].為了設(shè)計(jì)性能更加優(yōu)異的網(wǎng)絡(luò),人工設(shè)計(jì)深層的網(wǎng)絡(luò)需要進(jìn)行大量重復(fù)的實(shí)驗(yàn),隨著網(wǎng)絡(luò)層數(shù)的增加,需要人工調(diào)整的超參數(shù)就越多,這消耗了大量的人力和計(jì)算資源.因此,對(duì)于神經(jīng)網(wǎng)絡(luò)架構(gòu)自動(dòng)搜索的研究顯得尤為關(guān)鍵.

神經(jīng)架構(gòu)搜索(neural architecture search, NAS)方法近年來(lái)在圖像分類[6-8]、目標(biāo)檢測(cè)[9]等任務(wù)上取得了很好的效果.但這些方法都需要評(píng)估大量的網(wǎng)絡(luò)架構(gòu),需要的計(jì)算資源過(guò)于龐大.通過(guò)代理模型、權(quán)值共享等方法可以加速網(wǎng)絡(luò)搜索過(guò)程.Liu等人[10]于2019年提出可微分的架構(gòu)搜索,借助反向傳播算法同時(shí)搜索網(wǎng)絡(luò)的架構(gòu)和權(quán)值,這極大地提升了神經(jīng)架構(gòu)搜索方法的效率.目前,如何快速得到性能優(yōu)異的網(wǎng)絡(luò)架構(gòu)也是研究的熱點(diǎn)問(wèn)題.

神經(jīng)架構(gòu)搜索的流程如圖1所示:在預(yù)先設(shè)定的搜索空間中得到一個(gè)中間網(wǎng)絡(luò)架構(gòu)作為候選架構(gòu),通過(guò)性能評(píng)估策略對(duì)此候選架構(gòu)進(jìn)行性能度量,最后將測(cè)量的結(jié)果反饋給搜索策略,不斷重復(fù)搜索—評(píng)估的過(guò)程直到發(fā)現(xiàn)最優(yōu)的網(wǎng)絡(luò)架構(gòu).

Fig. 1 The process of neural architecture search[11]

本文將按圖1的流程進(jìn)行說(shuō)明,對(duì)典型神經(jīng)架構(gòu)搜索方法的原理進(jìn)行綜述,對(duì)不同方法之間的關(guān)系進(jìn)行討論,并對(duì)高效的性能評(píng)估策略進(jìn)行總結(jié),最后對(duì)未來(lái)需要研究的問(wèn)題進(jìn)行展望.

1 搜索空間

搜索空間定義了組成網(wǎng)絡(luò)的基本操作,通過(guò)組合不同的操作會(huì)產(chǎn)生不同的網(wǎng)絡(luò)架構(gòu).為了使算法可以高效地找到性能優(yōu)異的網(wǎng)絡(luò),就必須構(gòu)建一個(gè)適合的搜索空間.Liu等人[12]于2018年指出,在構(gòu)造一個(gè)適合搜索空間的前提下,即使使用簡(jiǎn)單的隨機(jī)搜索策略也可以發(fā)現(xiàn)具有競(jìng)爭(zhēng)力的神經(jīng)網(wǎng)絡(luò)架構(gòu).通常情況下,研究者為了提高搜索效率會(huì)根據(jù)自己的經(jīng)驗(yàn)適當(dāng)?shù)乜s小搜索空間,但這不可避免地引入了人為的偏見.許多研究者通過(guò)神經(jīng)架構(gòu)搜索的方法發(fā)現(xiàn)了之前人工設(shè)計(jì)很難相信的網(wǎng)絡(luò)架構(gòu)[13],這證明了神經(jīng)架構(gòu)搜索的方法較于人工設(shè)計(jì)網(wǎng)絡(luò)的優(yōu)越性.目前,研究者涉及的搜索空間主要包括鏈?zhǔn)浇Y(jié)構(gòu)、多分支結(jié)構(gòu)和基于Cell的結(jié)構(gòu).

1.1 鏈?zhǔn)浇Y(jié)構(gòu)

早期的深度神經(jīng)網(wǎng)絡(luò)都是較為簡(jiǎn)單的鏈?zhǔn)浇Y(jié)構(gòu),如LeNet5[1],AlexNet[2]等,即網(wǎng)絡(luò)中的每一層僅與其前后相鄰的2層連接,且網(wǎng)絡(luò)中沒(méi)有跨層連接的情況,網(wǎng)絡(luò)的整個(gè)架構(gòu)呈現(xiàn)為鏈條狀.如圖2所示的LeNet5網(wǎng)絡(luò)為最典型的鏈?zhǔn)浇Y(jié)構(gòu).

Fig. 2 A typical example of chain structures (LeNet5)

神經(jīng)網(wǎng)絡(luò)搜索空間的設(shè)計(jì)需要從3個(gè)角度出發(fā):1)網(wǎng)絡(luò)的層數(shù).可以根據(jù)設(shè)計(jì)者現(xiàn)有的資源動(dòng)態(tài)調(diào)整網(wǎng)絡(luò)的最大層數(shù).2)網(wǎng)絡(luò)中各層的操作及與其相關(guān)的超參數(shù).對(duì)于卷積神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),常用的操作有卷積、池化、批歸一化(batch normalization, BN)、激活函數(shù)等.具體來(lái)說(shuō),卷積操作涉及的超參數(shù)有卷積核大小、通道數(shù)、補(bǔ)齊方式、步長(zhǎng)等.3)網(wǎng)絡(luò)中各操作的排列順序.對(duì)于神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),結(jié)構(gòu)的細(xì)微變化都會(huì)對(duì)網(wǎng)絡(luò)的性能產(chǎn)生影響.通常情況下,人工設(shè)計(jì)網(wǎng)絡(luò)時(shí)會(huì)將池化操作放置在卷積操作之后,亦有研究者對(duì)多種操作進(jìn)行組合視為一種操作使用. 例如,Ioffe等人[14]于2015年將卷積、批歸一化、激活函數(shù)組合為一個(gè)模塊,將該模塊作為構(gòu)建網(wǎng)絡(luò)的基本操作繼續(xù)進(jìn)行網(wǎng)絡(luò)架構(gòu)的生成.隨著研究的不斷深入,網(wǎng)絡(luò)的層數(shù)不斷加深,在訓(xùn)練網(wǎng)絡(luò)過(guò)程中,鏈?zhǔn)浇Y(jié)構(gòu)易出現(xiàn)梯度消失、梯度爆炸等問(wèn)題.為解決這一問(wèn)題,研究者設(shè)計(jì)了正則化、BN等方法緩解了梯度所帶來(lái)的問(wèn)題,但未從根本上解決這個(gè)問(wèn)題.

1.2 多分支結(jié)構(gòu)

為了緩解梯度消失、梯度爆炸等問(wèn)題,研究者設(shè)計(jì)了多分支結(jié)構(gòu),它允許網(wǎng)絡(luò)中的層可以與其前面的任意層進(jìn)行連接.GoogLeNet[3]是深度神經(jīng)網(wǎng)絡(luò)中第一個(gè)引入了多分支網(wǎng)絡(luò)結(jié)構(gòu)的概念,構(gòu)建了不同的Inception模塊以擴(kuò)大網(wǎng)絡(luò)的深度和寬度,Inception模塊中不同的分支由多種不同的操作組成,通過(guò)對(duì)輸入層不同維度的特征提取,提升了網(wǎng)絡(luò)的性能,圖3為一個(gè)Inception模塊的示例.ResNet[5]在2016年首次提出了跳躍連接思想,淺層網(wǎng)絡(luò)中的特征會(huì)通過(guò)跳躍連接直接傳遞到更深的功能層,從而克服了梯度消失對(duì)深層網(wǎng)絡(luò)的影響.跳躍連接的出現(xiàn)掀起了新一波的研究熱潮.例如,DenseNet于2017年[15]將網(wǎng)絡(luò)中的每一層都與其前面的層連接,形成了稠密的網(wǎng)絡(luò)結(jié)構(gòu).然而該網(wǎng)絡(luò)中的每一層都會(huì)接收其前面所有層的特征作為該層的額外輸入,也就意味著需要存儲(chǔ)大量的中間特征,因此,DenseNet需要花費(fèi)大量的內(nèi)存開銷.為了緩解內(nèi)存的使用壓力,研究者設(shè)計(jì)了共享存儲(chǔ)空間的方法[16],從而降低DenseNet模型的顯存.使用多分支結(jié)構(gòu)設(shè)計(jì)網(wǎng)絡(luò)的搜索空間時(shí),需要考慮跳躍連接的具體位置和數(shù)量.針對(duì)不同的實(shí)際問(wèn)題,最佳的跳躍連接位置和數(shù)量也不盡相同,因此也為設(shè)計(jì)深度神經(jīng)網(wǎng)絡(luò)架構(gòu)的自動(dòng)搜索方法提出了強(qiáng)烈需求.

Fig. 3 Inception module of multi-branch structure GoogleNet

1.3 基于Cell的結(jié)構(gòu)

基于人工設(shè)計(jì)網(wǎng)絡(luò)架構(gòu)會(huì)重復(fù)使用相同模塊的經(jīng)驗(yàn),研究者試圖將多個(gè)操作組合成Cell,并將Cell作為組成神經(jīng)網(wǎng)絡(luò)的基本單元,以此設(shè)計(jì)了基于Cell的網(wǎng)絡(luò)結(jié)構(gòu).具體來(lái)說(shuō),構(gòu)建基于Cell的網(wǎng)絡(luò)結(jié)構(gòu)分為兩步,首先需要構(gòu)建最優(yōu)的Cell結(jié)構(gòu),之后將得到的Cell按照預(yù)先定義的規(guī)則進(jìn)行堆疊,以得到最終的網(wǎng)絡(luò)架構(gòu).對(duì)于單個(gè)Cell來(lái)說(shuō),它既可以是簡(jiǎn)單的鏈?zhǔn)浇Y(jié)構(gòu),又可以是復(fù)雜的多分支結(jié)構(gòu).Liu等人[12]設(shè)計(jì)了深度神經(jīng)網(wǎng)絡(luò)的層次化表示方法,該方法首先在初始的基本操作上演化得到Cell結(jié)構(gòu),之后將Cell視為基本操作進(jìn)一步搜索2級(jí)Cell,最后將得到的2級(jí)Cell按照預(yù)先定義的規(guī)則進(jìn)行組合形成最終的網(wǎng)絡(luò).基于Cell的方法充分考慮了網(wǎng)絡(luò)對(duì)全局與局部的設(shè)計(jì),對(duì)搜索空間的搜索更細(xì)致,是目前最為流行的方法.

通常情況下,對(duì)基于Cell結(jié)構(gòu)的搜索空間進(jìn)行設(shè)計(jì)時(shí)需要考慮2個(gè)方面:1)演化Cell的種類.Cell結(jié)構(gòu)的不同之處在于其內(nèi)部節(jié)點(diǎn)的數(shù)量、節(jié)點(diǎn)間的連接以及連接上操作的類型.一般情況下,需要演化2種類型的Cell,分別是Normal Cell和Reduction Cell.其中,Normal Cell的輸入和輸出特征圖的維度一致,而Reduction Cell的輸出特征圖的寬、高是輸入特征圖的一半[10].2)構(gòu)建最終的網(wǎng)絡(luò)架構(gòu)時(shí),不同Cell之間的排列順序.Xie等人[17]于2017年在構(gòu)建最終網(wǎng)絡(luò)架構(gòu)時(shí),將演化得到的Cell按照定義好的方式進(jìn)行組合.Rawal等人[18]在2018年將演化得到的多種Cell按照定義好的方法進(jìn)行組合,并固定該組合重復(fù)的次數(shù),以此得到循環(huán)神經(jīng)網(wǎng)絡(luò).Liu等人[10]在2019年提出了可微架構(gòu)搜索方法DARTS,按照在網(wǎng)絡(luò)的13,23處放置Reduction Cell而在其余部分放置Normal Cell的方式,構(gòu)建了最終的網(wǎng)絡(luò)架構(gòu).

圖4為DARTS中使用的2種Cell結(jié)構(gòu).與鏈?zhǔn)浇Y(jié)構(gòu)和多分支結(jié)構(gòu)相比,基于Cell的方法更適用于遷移學(xué)習(xí)任務(wù),即使用該方法在小規(guī)模數(shù)據(jù)集上得到的Cell遷移到同類大規(guī)模數(shù)據(jù)集時(shí),僅需要重復(fù)疊加Cell,就可以得到適用于該大規(guī)模數(shù)據(jù)集上的深層神經(jīng)網(wǎng)絡(luò)[9].

Fig. 4 Two types of DARTS cells

對(duì)3種網(wǎng)絡(luò)結(jié)構(gòu)類型來(lái)說(shuō),鏈?zhǔn)浇Y(jié)構(gòu)最為簡(jiǎn)單、直觀,鏈?zhǔn)浇Y(jié)構(gòu)的網(wǎng)絡(luò)可以通過(guò)增加深度來(lái)提升網(wǎng)絡(luò)的性能.對(duì)于多分支結(jié)構(gòu)來(lái)說(shuō),分支數(shù)量的增加意味著網(wǎng)絡(luò)寬度的增加.多分支結(jié)構(gòu)通過(guò)不斷增加網(wǎng)絡(luò)的寬度,探索了多維度特征,提升了網(wǎng)絡(luò)的性能.基于Cell的結(jié)構(gòu)融合了鏈?zhǔn)浇Y(jié)構(gòu)和多分支結(jié)構(gòu)的優(yōu)勢(shì),既可以增加網(wǎng)絡(luò)的深度,又可以擴(kuò)大網(wǎng)絡(luò)的寬度.從設(shè)計(jì)搜索空間的角度來(lái)說(shuō),鏈?zhǔn)浇Y(jié)構(gòu)和多分支結(jié)構(gòu)需要考慮網(wǎng)絡(luò)的整體結(jié)構(gòu),而基于Cell的結(jié)構(gòu)只需要考慮Cell的內(nèi)部結(jié)構(gòu).從可擴(kuò)展性角度來(lái)看,鏈?zhǔn)浇Y(jié)構(gòu)和多分支結(jié)構(gòu)受限于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN),而基于Cell的結(jié)構(gòu)可以輕松地?cái)U(kuò)展到循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN).

2 搜索策略

在構(gòu)建好搜索空間后,需要設(shè)計(jì)一個(gè)快速、高效的搜索策略,以實(shí)現(xiàn)最優(yōu)網(wǎng)絡(luò)架構(gòu)的搜索.搜索策略的選擇需要根據(jù)搜索時(shí)間、計(jì)算資源等要求進(jìn)行選擇.神經(jīng)網(wǎng)絡(luò)的架構(gòu)搜索可以看作是大規(guī)模的超參數(shù)優(yōu)化問(wèn)題,是AutoML的重要組成部分.如圖5所示,目前流行的搜索策略主要有:隨機(jī)搜索、貝葉斯優(yōu)化、強(qiáng)化學(xué)習(xí)、神經(jīng)進(jìn)化和基于梯度的方法.

Fig. 5 Method of neural architecture search

2.1 貝葉斯優(yōu)化

深度神經(jīng)網(wǎng)絡(luò)中存在大量的超參數(shù),如卷積核大小、學(xué)習(xí)率等,為了找到最優(yōu)的超參數(shù)組合,最直觀的方法就是網(wǎng)格搜索.然而,網(wǎng)格搜索無(wú)法利用有效信息指導(dǎo)搜索過(guò)程,會(huì)進(jìn)行大量的無(wú)效探索.而貝葉斯優(yōu)化會(huì)充分學(xué)習(xí)上一次的評(píng)估結(jié)果,并建立概率模型,指導(dǎo)后續(xù)的參數(shù)選擇過(guò)程,最常用的概率模型是高斯模型.基于這一優(yōu)點(diǎn),研究者設(shè)計(jì)了基于貝葉斯的神經(jīng)架構(gòu)搜索算法[19-21].

Bergstra等人[22]于2013年設(shè)計(jì)了基于貝葉斯優(yōu)化的神經(jīng)網(wǎng)絡(luò)超參數(shù)搜索算法,在3個(gè)計(jì)算機(jī)視覺(jué)任務(wù)上取得了最優(yōu)的效果.此后,Swersky等人[23]于2014年對(duì)此算法進(jìn)行了改進(jìn),引入了條件參數(shù)空間的新內(nèi)核,并共享了結(jié)構(gòu)間的信息,簡(jiǎn)化了建模過(guò)程,提升了模型質(zhì)量.Hutter等人[24]于2011年提出的基于序列模型的優(yōu)化策略(sequential model-based optimization, SMBO),隨后Negrinho等人[25]于2017年設(shè)計(jì)了實(shí)驗(yàn)對(duì)SMBO和隨機(jī)搜索進(jìn)行比較,驗(yàn)證了SMBO方法優(yōu)于隨機(jī)搜索.基于此,Liu等人[26]于2018年設(shè)計(jì)了順序漸進(jìn)式神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索算法,在搜索過(guò)程中不斷增加網(wǎng)絡(luò)的復(fù)雜度.同樣地,Perez-Rua等人[27]于2019年基于SMBO設(shè)計(jì)了多模態(tài)融合的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法.此外,Jin等人[28]于2018年基于SMBO設(shè)計(jì)了一個(gè)多目標(biāo)架構(gòu)搜索框架PPP-Net,能夠自動(dòng)生成最優(yōu)網(wǎng)絡(luò)架構(gòu).該方法在CIFAR-10數(shù)據(jù)集上進(jìn)行架構(gòu)搜索時(shí),可以同時(shí)演化分類誤差率、搜索時(shí)間、參數(shù)量、每秒計(jì)算次數(shù)等目標(biāo),并在移動(dòng)設(shè)備上達(dá)到了最佳性能.Golovin等人[29]于2017年開發(fā)了基于貝葉斯優(yōu)化的網(wǎng)絡(luò)調(diào)參系統(tǒng)Google Vizier,用于Google內(nèi)部網(wǎng)絡(luò)調(diào)參.

2.2 強(qiáng)化學(xué)習(xí)

也有研究者將強(qiáng)化學(xué)習(xí)算法用于神經(jīng)架構(gòu)搜索.具體來(lái)說(shuō),神經(jīng)網(wǎng)絡(luò)架構(gòu)的生成過(guò)程可以看作Agent智能體選擇動(dòng)作的過(guò)程,神經(jīng)網(wǎng)絡(luò)的搜索空間對(duì)應(yīng)著Agent的動(dòng)作空間,最終Agent經(jīng)過(guò)一系列動(dòng)作選擇后會(huì)得到最終的網(wǎng)絡(luò)架構(gòu).針對(duì)神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索任務(wù),Agent的Reward獎(jiǎng)勵(lì)對(duì)應(yīng)為網(wǎng)絡(luò)架構(gòu)在驗(yàn)證集上的準(zhǔn)確率.目前有大量的神經(jīng)架構(gòu)搜索算法是基于強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)的,這些方法的不同點(diǎn)在于Agent選擇動(dòng)作的策略及用于優(yōu)化該策略的方法.

Zoph等人[6]于2017年首次將強(qiáng)化學(xué)習(xí)應(yīng)用在神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索,該方法達(dá)到了與人工設(shè)計(jì)的最佳網(wǎng)絡(luò)相似的性能,并使用RNN作為控制器,對(duì)設(shè)計(jì)好的搜索空間進(jìn)行采樣,以此得到最終的網(wǎng)絡(luò)架構(gòu),并在搜索過(guò)程中使用Reinforcement方法優(yōu)化RNN的參數(shù),隨后,Zoph等人[9]于2018年提出了NASNet,該方法將Reinforcement優(yōu)化方法替換為近端策略優(yōu)化(proximal policy optimization, PPO),加快了搜索速度,提高了搜索結(jié)果.同時(shí)該方法通過(guò)多次堆疊在CIFAR-10數(shù)據(jù)集上搜索到的Cell,很好地遷移到了COCO 和ImageNet兩個(gè)大數(shù)據(jù)集上.在圖像分類數(shù)據(jù)集ImageNet上達(dá)到了SENet相同的精度,且模型參數(shù)只有SENet的一半.Baker等人[7]于2017年提出了MetaQNN用于神經(jīng)網(wǎng)絡(luò)架構(gòu)的搜索,MetaQNN使用帶有ε-greedy貪婪探索策略和經(jīng)驗(yàn)回放的Q-learning搜索網(wǎng)絡(luò)的架構(gòu).同樣,Zhong等人[8]于2018年設(shè)計(jì)了基于強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法BlockQNN,在該方法中,網(wǎng)絡(luò)中的層由網(wǎng)絡(luò)結(jié)構(gòu)代碼(network structure code, NSC)表示,NSC是一個(gè)由5維向量表示的結(jié)構(gòu).為了加快算法的搜索進(jìn)程,BlockQNN使用了分布式異構(gòu)框架和早停策略.在提升基于強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索算法的搜索速度上,雖然有很多策略可以使用,但由于其搜索過(guò)程中需要評(píng)估大量的中間網(wǎng)絡(luò)架構(gòu),會(huì)消耗大量的搜索時(shí)間和計(jì)算資源.基于此,Pham等人[30]于2018年提出了高效的NAS方法ENAS,該方法試圖將搜索過(guò)程中的各個(gè)子網(wǎng)絡(luò)進(jìn)行權(quán)值共享,避免了從頭訓(xùn)練網(wǎng)絡(luò),與標(biāo)準(zhǔn)的神經(jīng)架構(gòu)搜索算法[6]相比,ENAS縮短了11000以上的GPU運(yùn)算時(shí)間.Tan等人[31]于2019年驗(yàn)證了網(wǎng)絡(luò)的深度、寬度和分辨率與網(wǎng)絡(luò)性能的關(guān)系,對(duì)模型縮放進(jìn)行了進(jìn)一步探討,其設(shè)計(jì)的EfficientNets有效地平衡了深度、寬度、分辨率之間的關(guān)系,在ImageNet上獲得了Top-1的精度(84.4%),與AmoebaNet網(wǎng)絡(luò)相比,其參數(shù)減少了18,且運(yùn)行速度提升了6.1倍.

隨著邊緣計(jì)算的普及,越來(lái)越多的任務(wù)需要在移動(dòng)設(shè)備上實(shí)現(xiàn).針對(duì)計(jì)算資源受限的移動(dòng)設(shè)備,Tan等人[32]于2019年將手機(jī)設(shè)備上實(shí)時(shí)運(yùn)行模型的延遲、精度和運(yùn)行速度作為搜索目標(biāo),提出了適用于移動(dòng)設(shè)備上的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索算法MnasNet.此外,MnasNet為了增加搜索的靈活性,設(shè)計(jì)了基于因式分解的層級(jí)搜索空間,可以將CNN分解為小的模塊.Yang等人[33]于2018年在資源預(yù)算受限的前提下提出了NetAdapt算法,通過(guò)逐層簡(jiǎn)化網(wǎng)絡(luò),實(shí)現(xiàn)了由大規(guī)模數(shù)據(jù)上的預(yù)訓(xùn)練模型到移動(dòng)設(shè)備的遷移任務(wù).Howard等人[34]于2019年將MnasNet神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索算法和NetAdapt進(jìn)行結(jié)合,提出了MobileNetV3,在圖像分類、目標(biāo)檢測(cè)、圖像分割任務(wù)上都取得了最佳的效果.Tan等人[35]于2019年在實(shí)驗(yàn)中發(fā)現(xiàn),在同一層中組合多種尺寸的卷積和會(huì)提高模型的精度和搜索效率,設(shè)計(jì)的MixNets神經(jīng)架構(gòu)搜索方法在移動(dòng)設(shè)備上取得了最佳性能.基于強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法不僅在圖像分類任務(wù)上展現(xiàn)了優(yōu)勢(shì),在圖像分割、目標(biāo)檢測(cè)等任務(wù)中也取得了優(yōu)于人工設(shè)計(jì)網(wǎng)絡(luò)的性能,目前基于強(qiáng)化學(xué)習(xí)的神經(jīng)架構(gòu)搜索算法是神經(jīng)架構(gòu)搜索領(lǐng)域不可缺少的方法[36].

2.3 神經(jīng)進(jìn)化

神經(jīng)進(jìn)化的核心思想是采用進(jìn)化算法來(lái)演化網(wǎng)絡(luò)的權(quán)值、架構(gòu)、激活函數(shù)乃至超參數(shù).隨著人工設(shè)計(jì)網(wǎng)絡(luò)架構(gòu)的不斷發(fā)展,網(wǎng)絡(luò)的層數(shù)不斷加深,網(wǎng)絡(luò)的結(jié)構(gòu)愈加復(fù)雜,網(wǎng)絡(luò)參數(shù)的數(shù)量不斷增加.對(duì)于神經(jīng)架構(gòu)搜索任務(wù)來(lái)說(shuō),需要的計(jì)算資源也在不斷增加.目前,基于神經(jīng)進(jìn)化的架構(gòu)搜索算法將網(wǎng)絡(luò)結(jié)構(gòu)與權(quán)值分開進(jìn)行優(yōu)化,具體來(lái)說(shuō),網(wǎng)絡(luò)的結(jié)構(gòu)使用進(jìn)化算法進(jìn)行優(yōu)化,而網(wǎng)絡(luò)的權(quán)值使用反向傳播進(jìn)行優(yōu)化.

針對(duì)基于進(jìn)化算法的神經(jīng)架構(gòu)搜索算法,在20世紀(jì)末,研究者們的研究重點(diǎn)是對(duì)網(wǎng)絡(luò)權(quán)值進(jìn)行優(yōu)化,其流程為: 首先選定網(wǎng)絡(luò)的架構(gòu),之后借助遺傳算法對(duì)網(wǎng)絡(luò)中的權(quán)值進(jìn)行優(yōu)化.這類方法在桿平衡任務(wù)上取得了很好的效果[37-38].Kenneth等人[39]于2002年借助遺傳算法的思想,提出了增強(qiáng)拓?fù)涞纳窠?jīng)進(jìn)化網(wǎng)絡(luò)NEAT.該方法從最基礎(chǔ)的單元結(jié)構(gòu)開始演化,演化過(guò)程中引入歷史標(biāo)記來(lái)緩解競(jìng)爭(zhēng)約定問(wèn)題[40],此外,NEAT將整個(gè)種群劃分為不同的物種,以確保演化過(guò)程中網(wǎng)絡(luò)結(jié)構(gòu)的多樣性.NEAT不僅實(shí)現(xiàn)了網(wǎng)絡(luò)架構(gòu)的演化,同時(shí)也對(duì)網(wǎng)絡(luò)的權(quán)值進(jìn)行優(yōu)化,實(shí)驗(yàn)表明,NEAT方法遠(yuǎn)好于最初固定網(wǎng)絡(luò)架構(gòu)僅演化權(quán)值的方法[37].Miikkulainen等人[13]于2019年對(duì)NEAT方法進(jìn)行了擴(kuò)展,由演化拓?fù)浣Y(jié)構(gòu)的演化擴(kuò)展到模塊及超參數(shù)的演化,提出了CoDeepNEAT.通過(guò)共同演化網(wǎng)絡(luò)的結(jié)構(gòu)和模塊,在目標(biāo)識(shí)別、語(yǔ)言建模等任務(wù)的標(biāo)準(zhǔn)數(shù)據(jù)集上達(dá)到了與人工設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)性能相近的結(jié)果.Liang等人[41]于2019年將CoDeepNEAT與分布式計(jì)算框架進(jìn)行了結(jié)合,提出了適用于演化AutoML框架的LEAT,在醫(yī)學(xué)影像分類、自然語(yǔ)言處理領(lǐng)域數(shù)據(jù)集上都取得了優(yōu)異的性能.

Fig. 6 Evolutionary algorithm[42]

隨著人工設(shè)計(jì)網(wǎng)絡(luò)架構(gòu)的發(fā)展,神經(jīng)架構(gòu)搜索算法的搜索空間也隨之變大.作為群體智能技術(shù)之一的進(jìn)化算法,可以充分有效地對(duì)搜索空間進(jìn)行遍歷,鑒于此,基于進(jìn)化算法的神經(jīng)架構(gòu)搜索算法逐漸流行起來(lái).如圖6[42]所示,基于進(jìn)化算法的神經(jīng)架構(gòu)搜索算法,將每一個(gè)網(wǎng)絡(luò)架構(gòu)看作種群中的個(gè)體,演化過(guò)程中對(duì)每一代產(chǎn)生的個(gè)體進(jìn)行選擇,并對(duì)優(yōu)異的個(gè)體執(zhí)行交叉、變異等操作以生成下一代種群,不斷重復(fù)這個(gè)過(guò)程,直到產(chǎn)生性能最優(yōu)的個(gè)體或達(dá)到最大演化代數(shù).進(jìn)化算法包括遺傳算法、進(jìn)化策略、遺傳編程和進(jìn)化規(guī)劃,這4種算法均有研究者擴(kuò)展至神經(jīng)架構(gòu)搜索.

基于進(jìn)化算法的神經(jīng)架構(gòu)搜索方法主要的研究有:Salimans等人[43]于2017年通過(guò)實(shí)驗(yàn)驗(yàn)證了強(qiáng)化學(xué)習(xí)可以被進(jìn)化策略所替代,并在多步?jīng)Q策任務(wù)上取得了優(yōu)異的效果.Real等人[44]于2017年提出了適用于大規(guī)模圖像分類的演化算法,可以在最小化人工參與的情況下,借助250多臺(tái)GPU服務(wù)器,從最簡(jiǎn)單的初始結(jié)構(gòu)開始,在CIFAR-10和CIFAR-100 兩個(gè)圖像分類基準(zhǔn)數(shù)據(jù)集上達(dá)到了與人工設(shè)計(jì)網(wǎng)絡(luò)性能相近的效果.此后,Real等人[45]于2019年在進(jìn)化算法中加入Aging對(duì)錦標(biāo)賽選擇算法進(jìn)行了改進(jìn),提出了適用于圖像分類任務(wù)的AmoebaNet.該算法通過(guò)盡可能多地保留年輕個(gè)體,在ImageNet數(shù)據(jù)集上首次超越了人工設(shè)計(jì)網(wǎng)絡(luò)的性能,此外,該算法還證明了與強(qiáng)化學(xué)習(xí)、隨機(jī)搜索方法相比,進(jìn)化算法的搜索速度更快.Xie等人[17]于2017年設(shè)計(jì)了定長(zhǎng)二進(jìn)制字符串表示網(wǎng)絡(luò)架構(gòu)的編碼方案,并以此提出了基于遺傳算法的卷積網(wǎng)絡(luò)架構(gòu)搜索算法.該算法僅僅演化卷積、池化等簡(jiǎn)單的基本操作,就能在圖像分類任務(wù)上得到了較好的效果,并且得到的架構(gòu)可以很好地遷移到大規(guī)模數(shù)據(jù)集上.David等人[46]于2019年對(duì)神經(jīng)架構(gòu)搜索的任務(wù)進(jìn)行了擴(kuò)展,將人工設(shè)計(jì)的Transformer框架引入了演化初始結(jié)構(gòu),通過(guò)錦標(biāo)賽選擇策略得到了自然語(yǔ)言處理領(lǐng)域性能優(yōu)異的網(wǎng)絡(luò)架構(gòu).

多景觀帶是由肖圈干渠延伸出來(lái)的三條沿河綠化景觀帶,一條水上游樂(lè)景觀帶、一條生活休閑景觀帶、一條工業(yè)生活景觀帶。肖圈干渠是經(jīng)過(guò)南皮的主要的東西向的河流,是城市水景主要干路。從肖圈干渠延伸出三條主要的支路,一是水上公園:所經(jīng)途徑主要有城西的水上公園;一是生活休閑,經(jīng)過(guò)的主要是居住生活區(qū),沿河兩邊有很多的休閑綠化公園,是人流匯集的一條生活綠帶;一是工業(yè)水渠,主要流經(jīng)工業(yè)園區(qū),在承擔(dān)工業(yè)排水的同時(shí)擔(dān)任少部分的生活公園的功能。城市外圍的綠化帶起到防護(hù)和隔離噪音的功能。

隨著應(yīng)用設(shè)備的擴(kuò)展,神經(jīng)架構(gòu)搜索算法從服務(wù)器端擴(kuò)展到移動(dòng)設(shè)備端.移動(dòng)設(shè)備端的神經(jīng)架構(gòu)搜索算法需要綜合考慮網(wǎng)絡(luò)的性能、搜索時(shí)間、復(fù)雜度、計(jì)算資源等多方面的問(wèn)題,神經(jīng)架構(gòu)搜索由單目標(biāo)搜索任務(wù)轉(zhuǎn)換為多目標(biāo)搜索任務(wù).Elsken等人[47]于2019年提出了拉馬克進(jìn)化算法LEMONADE用于多目標(biāo)神經(jīng)架構(gòu)搜索,此外,該算法設(shè)計(jì)了Network Morphisms[48]對(duì)神經(jīng)網(wǎng)絡(luò)空間結(jié)構(gòu)的算子進(jìn)行操作以保證網(wǎng)絡(luò)結(jié)構(gòu)的功能不變性.LEMONADE借助遺傳操作讓子代個(gè)體可以繼承其父代的信息,避免了子代從頭學(xué)習(xí),極大地減少了訓(xùn)練時(shí)間;為了減少網(wǎng)絡(luò)的規(guī)模,LEMONADE等人設(shè)計(jì)了Approximate Network Morphisms方法,在圖像分類任務(wù)上達(dá)到了與人工設(shè)計(jì)網(wǎng)絡(luò)相近的效果.Li等人[49]于2019年提出了偏序剪枝算法,在實(shí)現(xiàn)網(wǎng)絡(luò)精度優(yōu)異的前提下,搜索效率最高.此外,小米的AutoML團(tuán)隊(duì)提出了適用于移動(dòng)設(shè)備的神經(jīng)架構(gòu)搜索算法MoreMNAS[50],該算法將進(jìn)化算法和強(qiáng)化學(xué)習(xí)結(jié)合,平衡了演化過(guò)程中探索和開發(fā)的過(guò)程,充分利用了新學(xué)習(xí)的知識(shí),降低了退化現(xiàn)象.

2.4 基于梯度的方法

對(duì)于2.1~2.3節(jié)所述的神經(jīng)架構(gòu)搜索算法來(lái)說(shuō),它們的搜索空間是離散不可微的,也就意味著在搜索過(guò)程中需要評(píng)估大量的網(wǎng)絡(luò)架構(gòu),花費(fèi)大量的時(shí)間.為了降低訓(xùn)練網(wǎng)絡(luò)花費(fèi)的時(shí)間,研究者試圖將搜索空間變成連續(xù)可微的,再使用基于梯度的方法進(jìn)行優(yōu)化.具體來(lái)說(shuō),基于梯度的架構(gòu)搜索使用反向傳播算法同時(shí)對(duì)網(wǎng)絡(luò)權(quán)值和網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化,減少了大量訓(xùn)練網(wǎng)絡(luò)消耗的時(shí)間,但搜索過(guò)程中會(huì)占用大量的內(nèi)存.

基于梯度的神經(jīng)架構(gòu)搜索方法主要包含:Liu等人[10]于2019年提出了DARTS算法,首次將離散不可微的搜索空間轉(zhuǎn)換為連續(xù)可微的,借助反向傳播同時(shí)優(yōu)化網(wǎng)絡(luò)的架構(gòu)和權(quán)值.在DARTS算法中,預(yù)先設(shè)定了8種候選操作,包含卷積核為3×3和5×5的可分離卷積、3×3和5×5擴(kuò)張可分離卷積、3×3的最大池化、3×3的平均池化、保持不變和無(wú)操作.該算法在搜索過(guò)程中使用Softmax對(duì)每條邊上的候選操作進(jìn)行加權(quán),最終只保留每條邊上權(quán)值最大的操作.Hundt等人[51]于2019年對(duì)DARTS算法進(jìn)行了改進(jìn),提出了sharpDARTS,引入余弦冪次退火對(duì)學(xué)習(xí)率進(jìn)行更新,借助MaxW正則化方法糾正DARTS算法中的偏差.Cai等人[52]于2019年為了降低基于梯度的神經(jīng)架構(gòu)搜索算法的內(nèi)存過(guò)大的問(wèn)題,提出了ProxylessNAS,該算法在訓(xùn)練過(guò)程中使用路徑級(jí)二值化操作,即每次只激活邊上的1種操作.ProxylessNAS在不使用代理模型的前提下針對(duì)大規(guī)模圖像分類數(shù)據(jù)集ImageNet進(jìn)行網(wǎng)絡(luò)架構(gòu)的搜索,并將其算法從GPU擴(kuò)展到了手機(jī)上.該算法在CIFAR-10數(shù)據(jù)集上,僅用了5.7M個(gè)參數(shù)就達(dá)到了2.08%的測(cè)試誤差,與AmoebaNet-B相比減少了16的參數(shù)量.在ImageNet數(shù)據(jù)集上,ProxylessNAS比Mobilenet V2高3.1%的準(zhǔn)確率,運(yùn)行速度快了20%,且手機(jī)實(shí)測(cè)速度是Mobilenet V2的1.8倍.Zheng等人[53]于2019年將搜索空間看作一個(gè)多項(xiàng)式分布,通過(guò)多項(xiàng)式的不同取值對(duì)應(yīng)著不同的網(wǎng)絡(luò)架構(gòu),提出了MdeNAS,該算法在ImageNet數(shù)據(jù)集上搜索了4 h就達(dá)到了目前最佳分類效果.Dong等人[54]于2019年提出了可微架構(gòu)采樣方法GDAS用于神經(jīng)架構(gòu)搜索,該方法在訓(xùn)練過(guò)程中僅采樣節(jié)點(diǎn)間的1種操作,降低了內(nèi)存消耗.此外,為了縮小搜索空間,GDAS固定了Reduction Cell,僅對(duì)Normal Cell進(jìn)行搜索,在V100顯卡上搜索了4 h在CIFAR-10數(shù)據(jù)集上得到了2.5M個(gè)參數(shù)、2.82%誤差的網(wǎng)絡(luò).針對(duì)基于梯度的神經(jīng)架構(gòu)搜索算法占用大量?jī)?nèi)存的問(wèn)題,研究者們通常會(huì)在較淺的網(wǎng)絡(luò)中搜索最優(yōu)的架構(gòu),之后不斷增加層數(shù)來(lái)驗(yàn)證其性能.Chen等人[55]于2019年發(fā)現(xiàn):基于梯度的神經(jīng)架構(gòu)搜索算法由于在搜索階段和驗(yàn)證階段網(wǎng)絡(luò)層數(shù)的不同會(huì)出現(xiàn)在訓(xùn)練階段性能優(yōu)異的架構(gòu)在驗(yàn)證階段性能不好的現(xiàn)象,研究者將這種現(xiàn)象稱為深度差距.為了縮小這種差距,Chen等人提出了P-DARTS,在搜素過(guò)程中逐漸增加網(wǎng)絡(luò)的層數(shù),并通過(guò)搜索空間近似減少了內(nèi)存消耗,使用了搜索空間正則化來(lái)控制搜索的穩(wěn)定性.此外,對(duì)于降低訓(xùn)練過(guò)程中內(nèi)存消耗的問(wèn)題,Xu等人[56]于2019年提出了PC-DARTS可以在不降低網(wǎng)絡(luò)性能的前提下進(jìn)行了高效搜索,該方法通過(guò)采樣部分Cell減少網(wǎng)絡(luò)中的冗余.

表1為基于貝葉斯優(yōu)化、強(qiáng)化學(xué)習(xí)、神經(jīng)進(jìn)化、梯度的方法進(jìn)行神經(jīng)架構(gòu)搜索的算法在CIFAR-10數(shù)據(jù)集上的性能比較.從搜索架構(gòu)的性能和效率角度來(lái)看,基于梯度的神經(jīng)架構(gòu)搜索算法得到的網(wǎng)絡(luò)性能更好,且搜索速度最快.

Table 1 Performance of Different NAS Algorithms on CIFAR-10

3 性能評(píng)估策略

性能評(píng)估是神經(jīng)架構(gòu)搜索算法的必要環(huán)節(jié),通過(guò)性能評(píng)估測(cè)量得到每個(gè)網(wǎng)絡(luò)的性能并反饋給神經(jīng)架構(gòu)搜索算法,以指導(dǎo)搜索算法得到最優(yōu)的網(wǎng)絡(luò)架構(gòu).通常先得到一個(gè)在訓(xùn)練集上擬合好的網(wǎng)絡(luò),將網(wǎng)絡(luò)在驗(yàn)證集上的誤差作為網(wǎng)絡(luò)性能的度量值.然而,這種方法需要使用反向傳播對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,需要大量的計(jì)算資源,花費(fèi)大量的時(shí)間,搜索效率較低.為了加快網(wǎng)絡(luò)架構(gòu)的評(píng)估,本文總結(jié)了4種常見的性能評(píng)估策略,包括低保真度、早停、代理模型和權(quán)值共享等方法.

3.1 低保真度

一般情況下,神經(jīng)網(wǎng)絡(luò)的性能是網(wǎng)絡(luò)在訓(xùn)練集上收斂后得到的網(wǎng)絡(luò)精度,然而網(wǎng)絡(luò)訓(xùn)練到收斂需要花費(fèi)大量的時(shí)間,因此,為了加快架構(gòu)搜索過(guò)程中網(wǎng)絡(luò)的收斂過(guò)程,研究者提出了采用減少樣本數(shù)量[57]、降低圖像分辨率[58]、減少網(wǎng)絡(luò)層數(shù)[9,45]等方法.通過(guò)近似的數(shù)據(jù)集、近似的網(wǎng)絡(luò)架構(gòu)雖然加快了搜索過(guò)程,減少了計(jì)算成本,但是這不可避免地會(huì)引入偏差.Chrabaszcz等人于2017年通過(guò)實(shí)驗(yàn)指出了低保真度方法會(huì)導(dǎo)致評(píng)估結(jié)果與收斂結(jié)果之間產(chǎn)生偏差.即便如此,研究者也可以通過(guò)控制近似網(wǎng)絡(luò)與實(shí)際網(wǎng)絡(luò)之間的差距閾值來(lái)提高訓(xùn)練效率.例如減少少量的訓(xùn)練樣本、縮減部分網(wǎng)絡(luò).

3.2 早 停

除了使用低保真度的方法加快搜索速度,也有研究者使用早停機(jī)制,即在網(wǎng)絡(luò)未收斂時(shí)就停止訓(xùn)練,其采用的具體方法主要有:1)固定訓(xùn)練代數(shù).在網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,如果網(wǎng)絡(luò)達(dá)到預(yù)先設(shè)定的這個(gè)閾值就會(huì)停止訓(xùn)練,此時(shí)的精度就代表了該網(wǎng)絡(luò)的精度.Zheng等人[53]于2019年提出并驗(yàn)證了一個(gè)性能排序假設(shè):在訓(xùn)練的某個(gè)時(shí)刻,如果網(wǎng)絡(luò)A在某個(gè)數(shù)據(jù)集上的性能高于網(wǎng)絡(luò)B,那么當(dāng)網(wǎng)絡(luò)A、網(wǎng)絡(luò)B在該數(shù)據(jù)集上訓(xùn)練到收斂后,網(wǎng)絡(luò)A的性能仍高于網(wǎng)絡(luò)B.該假設(shè)的成功證明極大地提高了神經(jīng)架構(gòu)搜索的效率.2)學(xué)習(xí)曲線外延的方法[20,59].在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,根據(jù)網(wǎng)絡(luò)精度曲線的趨勢(shì)和超參數(shù),對(duì)該網(wǎng)絡(luò)的收斂精度進(jìn)行預(yù)測(cè),而不是直接運(yùn)行到收斂.Rawal等人[18]于2018年使用前10代的網(wǎng)絡(luò)精度預(yù)測(cè)第40代的精度,提出的Seq2seq模型達(dá)到了與人工設(shè)計(jì)架構(gòu)相近的結(jié)果.

3.3 代理模型

與低保真度和早停的方法不同,基于代理模型的方法采用簡(jiǎn)單的近似任務(wù)替代實(shí)際的訓(xùn)練任務(wù),代理模型得到的結(jié)果即為網(wǎng)絡(luò)的性能.基于此,Liu等人[26]于2018年設(shè)計(jì)了代理模型來(lái)評(píng)估候選Cell的性能,該方法減少了網(wǎng)絡(luò)性能評(píng)估的時(shí)間.目前的研究工作中,在對(duì)ImageNet數(shù)據(jù)集進(jìn)行架構(gòu)搜索時(shí),大多數(shù)方法都會(huì)將CIFAR-10數(shù)據(jù)集的架構(gòu)搜索作為代理任務(wù)[10,26,45,53,55-56],之后將得到的代理任務(wù)上最優(yōu)的網(wǎng)絡(luò)架構(gòu)遷移到ImageNet目標(biāo)任務(wù)上.

3.4 權(quán)值共享

除了上述提到的網(wǎng)絡(luò)性能評(píng)估策略外,有研究者使用權(quán)值共享的方式進(jìn)行性能評(píng)估.權(quán)值共享的方法主要有2類:Network Morphisms[48,60-61]和One-Shot[10,62].對(duì)于Network Morphisms方法來(lái)說(shuō),在保證網(wǎng)絡(luò)功能不變的前提下,通過(guò)不斷地?cái)U(kuò)展初始網(wǎng)絡(luò),提高訓(xùn)練效率,該方法不需要網(wǎng)絡(luò)從頭開始訓(xùn)練,但使用該方法得到的網(wǎng)絡(luò)架構(gòu)會(huì)越來(lái)越復(fù)雜.Chen等人[48]于2016年設(shè)計(jì)了Approximate Network Morphisms算法,在保證網(wǎng)絡(luò)性能不變的情況下對(duì)網(wǎng)絡(luò)的架構(gòu)進(jìn)行簡(jiǎn)化.Jin等人[63]于2019年將貝葉斯優(yōu)化與Network Morphisms結(jié)合提出了開源的自動(dòng)學(xué)習(xí)系統(tǒng)Auto-keras.

與Network Morphisms方法不斷擴(kuò)展網(wǎng)絡(luò)圖不同,One-Shot方法僅需要訓(xùn)練一個(gè)超圖,通過(guò)不斷地搜索超圖中的子圖實(shí)現(xiàn)架構(gòu)的搜索.雖然One-Shot的共享權(quán)值方法會(huì)減少搜索時(shí)間,但整個(gè)網(wǎng)絡(luò)的架構(gòu)被限制在超圖中,對(duì)于One-Shot方法來(lái)說(shuō),超圖的選擇是得到最優(yōu)網(wǎng)絡(luò)架構(gòu)的前提.此外,搜索到的子圖共享原超圖的權(quán)值是否可以達(dá)到最佳性能也是需要進(jìn)一步確認(rèn)的[49].

多數(shù)酒店知識(shí)型員工的薪資水平不高,而且相互之間差距不大。酒店的高層管理人員沒(méi)有體會(huì)到知識(shí)型員工的重要性和能夠?yàn)榫频晁鶐?lái)的附加值,或者對(duì)于其認(rèn)識(shí)不夠。將知識(shí)型員工的收入水平與一般員工的收入水平等同起來(lái)。這樣的后果就是使得知識(shí)型員工產(chǎn)生消極感和對(duì)自我價(jià)值的過(guò)低評(píng)估,覺(jué)得自己的努力沒(méi)有獲得應(yīng)該的回報(bào),自身的價(jià)值在工作中得不到認(rèn)可與體現(xiàn)。有些酒店甚至沒(méi)有為知識(shí)型員工辦理相對(duì)應(yīng)的社會(huì)保障例如:社會(huì)養(yǎng)老保險(xiǎn)、失業(yè)保險(xiǎn)和社會(huì)醫(yī)療保險(xiǎn),偏偏知識(shí)型員工的學(xué)習(xí)能力信息接收能力強(qiáng),對(duì)自身的風(fēng)險(xiǎn)規(guī)避意識(shí)較高,酒店這種對(duì)知識(shí)型員工安全心理的不作為會(huì)導(dǎo)致知識(shí)型員工對(duì)企業(yè)的信任感較低。

網(wǎng)絡(luò)性能評(píng)估策略的提出是為了加速對(duì)網(wǎng)絡(luò)性能進(jìn)行評(píng)估,進(jìn)而提高架構(gòu)搜索的效率,而這一切的根源在于網(wǎng)絡(luò)性能的獲得需要對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,如果網(wǎng)絡(luò)無(wú)需訓(xùn)練就可以得到性能,那么神經(jīng)架構(gòu)搜索的效率會(huì)更高.基于上述想法,谷歌于2019年提出了權(quán)值無(wú)關(guān)的架構(gòu)搜索算法[64],該算法將整個(gè)網(wǎng)絡(luò)共享為一個(gè)權(quán)值,在評(píng)估網(wǎng)絡(luò)性能時(shí),使用預(yù)先設(shè)定的權(quán)值進(jìn)行訓(xùn)練以得到網(wǎng)絡(luò)的性能,極大地減少了網(wǎng)絡(luò)訓(xùn)練的時(shí)間,提高了搜索效率.

4 展 望

目前,神經(jīng)架構(gòu)搜索技術(shù)在圖像分類的幾個(gè)基準(zhǔn)數(shù)據(jù)集上均取得了不錯(cuò)的成績(jī),但是缺少其他數(shù)據(jù)集和實(shí)際任務(wù)的檢驗(yàn).神經(jīng)架構(gòu)搜索的魯棒性也是算法性能的一個(gè)關(guān)鍵指標(biāo).同時(shí),在搜索網(wǎng)絡(luò)的過(guò)程中,搜索時(shí)間、計(jì)算資源等影響算法性能的變量也需要作為評(píng)估最終性能的指標(biāo).神經(jīng)架構(gòu)搜索的可解釋性也是一個(gè)需要關(guān)注的重點(diǎn)問(wèn)題,不僅搜索過(guò)程無(wú)法科學(xué)解釋,而且搜索到的網(wǎng)絡(luò)也無(wú)法清晰解釋.這些問(wèn)題都使得神經(jīng)架構(gòu)搜索方法無(wú)法得到廣泛的應(yīng)用.

最后,神經(jīng)架構(gòu)搜索的開源化和可復(fù)現(xiàn)性也是限制其發(fā)展的瓶頸.通過(guò)隨機(jī)幾次得到的結(jié)果并不能說(shuō)明算法的有效性,算法需要隨時(shí)隨地可以復(fù)現(xiàn),而且通過(guò)開源代碼可以使得更多的人加入到這個(gè)領(lǐng)域.總之這個(gè)領(lǐng)域還需要很多的努力.

猜你喜歡
搜索算法集上神經(jīng)網(wǎng)絡(luò)
基于神經(jīng)網(wǎng)絡(luò)的船舶電力系統(tǒng)故障診斷方法
改進(jìn)和聲搜索算法的船舶航行路線設(shè)計(jì)
MIV-PSO-BP神經(jīng)網(wǎng)絡(luò)用戶熱負(fù)荷預(yù)測(cè)
關(guān)于短文本匹配的泛化性和遷移性的研究分析
基于改進(jìn)Hopfield神經(jīng)網(wǎng)絡(luò)的對(duì)地攻擊型無(wú)人機(jī)自主能力評(píng)價(jià)
基于信息素決策的無(wú)人機(jī)集群協(xié)同搜索算法
基于萊維飛行的烏鴉搜索算法
三次樣條和二次刪除相輔助的WASD神經(jīng)網(wǎng)絡(luò)與日本人口預(yù)測(cè)
師如明燈,清涼溫潤(rùn)
幾道導(dǎo)數(shù)題引發(fā)的解題思考
安新县| 宝丰县| 芒康县| 内丘县| 龙泉市| 勃利县| 商都县| 和田县| 兴山县| 调兵山市| 介休市| 凭祥市| 阜宁县| 漯河市| 宜宾市| 闽侯县| 修文县| 岫岩| 交城县| 湖口县| 无锡市| 巴东县| 岑溪市| 潢川县| 柘城县| 泰顺县| 疏附县| 中西区| 元朗区| 吴堡县| 贵阳市| 庄河市| 历史| 哈密市| 克东县| 商洛市| 吴江市| 道孚县| 柞水县| 威宁| 定结县|