国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

小樣本問題下培訓(xùn)弱教師網(wǎng)絡(luò)的模型蒸餾模型

2022-09-25 08:42蔡淳豪李建良
計算機應(yīng)用 2022年9期
關(guān)鍵詞:樣本圖像算法

蔡淳豪,李建良

(南京理工大學(xué)理學(xué)院,南京 210094)

0 引言

深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的訓(xùn)練需要在豐富且大量的數(shù)據(jù)集的前提下才能給出不錯的模型,然而在實際工程中,由于內(nèi)容保密、知識產(chǎn)權(quán)等原因,很難為大量數(shù)據(jù)標注信息,因此,在小樣本問題下,如何訓(xùn)練得到高性能目標網(wǎng)絡(luò)獲得廣泛關(guān)注,其本質(zhì)上是如何在有限的數(shù)據(jù)中挖掘盡可能多的知識,以及如何將知識從外界和內(nèi)部合理地傳遞給目標模型。

集成學(xué)習(xí)(Ensemble Learning,EL)作為一種有監(jiān)督的學(xué)習(xí)算法,在處理小樣本問題時,用Bootstrap 算法對數(shù)據(jù)集進行抽樣間接解決這一問題[1];然而在組合階段的堆疊泛化(Stacking)算法及l(fā)ogistic 回歸組合策略并不能很好地挖掘多個教師模型內(nèi)部的知識。

遷移學(xué)習(xí)作為一種網(wǎng)絡(luò)訓(xùn)練算法,可以從優(yōu)質(zhì)網(wǎng)絡(luò)遷移知識到目標網(wǎng)絡(luò)中去,以此來改善結(jié)果并解決數(shù)據(jù)缺乏的問題[2]。遷移學(xué)習(xí)中最常見的做法是通過預(yù)訓(xùn)練結(jié)合微調(diào)算法得到目標模型,但是大規(guī)模細粒度蒸餾學(xué)習(xí)一文提出微調(diào)算法不能很好地解決語義相距很遠的模型轉(zhuǎn)換問題[3-4]。在此基礎(chǔ)上FitNet 算法作為模型蒸餾的代表給出了一種教師培訓(xùn)計劃以此將知識蒸餾到目標模型[5]。注意力蒸餾和Jacobian 匹配則從特征圖和Jacobian 生成的注意力特征圖著手來蒸餾源知識[6-7]。在此基礎(chǔ)上,異構(gòu)元學(xué)習(xí)模型蒸餾整合了從特征圖蒸餾知識的算法,用外部網(wǎng)絡(luò)增補數(shù)據(jù)集知識,元網(wǎng)絡(luò)需提取知識與目標網(wǎng)絡(luò)層對應(yīng)關(guān)系[8]。

事實上,集成學(xué)習(xí)中有較高準確率的Boosting 算法會耗費較多的運算時間,組合階段的Stacking 算法則依賴弱分類器的輸出結(jié)果,沒法真正學(xué)到分類器學(xué)習(xí)的知識,同時經(jīng)組合后的模型過于龐大,很難在小型機上搭載。模型蒸餾在異構(gòu)源和目標任務(wù)之間傳遞知識時會模糊原始數(shù)據(jù)包含的信息,尤其是當任務(wù)的輸入域相似但實際任務(wù)有所不同時,此時外部信息補充的數(shù)據(jù)集缺失信息可能是無關(guān)甚至是負面的,因而不能很好地指導(dǎo)目標網(wǎng)絡(luò)學(xué)習(xí)。

基于此,本文提出了一種小樣本問題下培訓(xùn)弱教師網(wǎng)絡(luò)的模型蒸餾。通過并行計算加快弱教師網(wǎng)絡(luò)訓(xùn)練,通過壓縮特征圖的手段搜集濃縮知識,通過元網(wǎng)絡(luò)以蒸餾的手段組合異構(gòu)的弱教師網(wǎng)絡(luò)。實驗對象為小規(guī)模的鳥類數(shù)據(jù)集,實驗結(jié)果在算法精度和算法速度上驗證了本文算法的有效性和可用性;同時在相同數(shù)據(jù)集中數(shù)據(jù)減少的指標下驗證了所提算法的有效性和魯棒性。

1 針對小樣本培訓(xùn)弱教師網(wǎng)絡(luò)的算法

針對小樣本問題,本文選擇參考集成學(xué)習(xí)算法中Bootstrap 采樣的思想,以此擴充數(shù)據(jù)集數(shù)量,解決數(shù)據(jù)量問題。

傳統(tǒng)的集成學(xué)習(xí)算法主要有Boosting 及其相關(guān)的一系列改進算法,例如AdaBoost、梯度提升樹等,也有可同時生成的并行式集成學(xué)習(xí)算法Bagging 算法。假定圖像數(shù)據(jù)集X由數(shù)據(jù){(xn,yn),n=1,2,…,N}構(gòu)成,其中y是圖像的分類標簽,構(gòu)成標簽集Ψ={1,2,…,K}。假設(shè)用于這個數(shù)據(jù)集的分類器φ(x,X)。此時基于原始數(shù)據(jù)集X以重采樣的方式構(gòu)造一系列用于學(xué)習(xí)的數(shù)據(jù)子集為(k=1,2,…,κ),根據(jù)數(shù)據(jù)子集得到一系列分類器組{φ(x,)},故有:

經(jīng)典集成算法在處理小樣本多分類問題時,由于選用Bootstrap 采樣,很大程度上擴增了數(shù)據(jù)集的數(shù)據(jù)量,可以作為小樣本問題的一種對策;同時在劃分數(shù)據(jù)集時隨機性的引入使得模型不易過擬合,也能較好地處理小樣本多分類導(dǎo)致的輸入數(shù)據(jù)高維度問題。集成算法中的Bagging 算法并行特性保證了模型訓(xùn)練的高效性。

在劃分數(shù)據(jù)時,取值劃分較多的屬性會對弱學(xué)習(xí)器產(chǎn)生更大的影響,故弱學(xué)習(xí)器上的特征圖不具有可信度。部分集成學(xué)習(xí)的弱學(xué)習(xí)器之間存在依賴關(guān)系,難以并行訓(xùn)練。在弱分類器選用上,選用具有低偏差高方差的線性模型或樹模型;然而這些分類器在小樣本多分類問題中,無法作出有效的判斷。實驗表明,在加利福尼亞理工學(xué)院鳥類數(shù)據(jù)庫—2011(Caltech-UCSD Birds-200-2011,CUB200)上決策森林準確率只能在15.21%左右,說明這些弱學(xué)習(xí)器的分類結(jié)果不具有可信度,在后續(xù)聚合過程中,這些弱學(xué)習(xí)器提供的知識很難有效優(yōu)化模型的訓(xùn)練。為了提高弱學(xué)習(xí)器在劃分數(shù)據(jù)集上的準確率,本文選用淺層卷積網(wǎng)絡(luò)作為弱分類器以改善集成效果。

2 多教師的模型蒸餾改進

小樣本問題下,集成學(xué)習(xí)訓(xùn)練了大量弱分類器作為教師網(wǎng)絡(luò),這也意味著搜集了大量冗余的數(shù)據(jù)信息,此時需要對這些信息合并、篩選、傳遞,同時引入外部數(shù)據(jù)信息,彌補數(shù)據(jù)集不夠豐富的缺陷。為了解決上述問題,有效控制目標網(wǎng)絡(luò)的規(guī)模,本文改進了結(jié)合元學(xué)習(xí)的模型蒸餾。

2.1 經(jīng)典模型蒸餾與元學(xué)習(xí)

傳統(tǒng)模型蒸餾針對Softmax 層輸出引入溫度參數(shù)Tem獲得新的軟標簽

來指導(dǎo)目標網(wǎng)絡(luò)學(xué)習(xí),指導(dǎo)算法是修改訓(xùn)練損失函數(shù)為:

其中:E為Softmax 層輸出通道集的序號,Tem為給定溫度,Ls為軟標簽損失,Lh為硬標簽損失。

在此基礎(chǔ)上異構(gòu)元學(xué)習(xí)的蒸餾針對圖像對象x在教師網(wǎng)絡(luò)的中間特征圖進行蒸餾學(xué)習(xí),設(shè)教師網(wǎng)絡(luò)的第m層特征圖為Sm(x),目標網(wǎng)絡(luò)第n層特征圖為(x),從而特征圖區(qū)別表示為:

其中rθ為保證(x)與Sm(x)規(guī)模一致的線性變換。在學(xué)習(xí)過程中元網(wǎng)絡(luò)φ用于自動比對層對間特征圖區(qū)別,結(jié)合原始數(shù)據(jù)集的網(wǎng)絡(luò)硬標簽損失Λorg(θ|x,y)得到,元學(xué)習(xí)蒸餾的最終損失函數(shù)為:

其中:β>0 是一個超參數(shù),Λwfm(θ|x,φ)是由元網(wǎng)絡(luò)φ測量得到的層對特征圖損失。元學(xué)習(xí)蒸餾一定程度上關(guān)注了教師網(wǎng)絡(luò)的卷積層知識,在文獻[8]中給出了基于多個教師網(wǎng)絡(luò)的實驗過程,但是通過理論研究與實驗表明,隨著教師網(wǎng)絡(luò)個數(shù)增加,元網(wǎng)絡(luò)規(guī)模急劇上升,目標網(wǎng)絡(luò)的訓(xùn)練任務(wù)量將會指數(shù)級上漲,故需要壓縮提煉教師網(wǎng)絡(luò)中的知識。

2.2 基于同構(gòu)多教師模型的知識合并

由于第一階段培訓(xùn)了大量相同結(jié)構(gòu)的教師網(wǎng)絡(luò),設(shè)教師網(wǎng)絡(luò)特征圖輸出層層數(shù)μmax,目標網(wǎng)絡(luò)學(xué)習(xí)特征層層數(shù)νmax,在不考慮同一層特征圖個數(shù)的情況下,此時元網(wǎng)絡(luò)需要3μmaxνmax個需要在訓(xùn)練中同步優(yōu)化的卷積模塊,若教師網(wǎng)絡(luò)為異構(gòu)網(wǎng)絡(luò)需要逐層特征圖規(guī)模匹配。此時在教師網(wǎng)絡(luò)特征圖輸出層數(shù)不變,只增加教師網(wǎng)絡(luò)的情況下,元網(wǎng)絡(luò)的規(guī)模會成倍增長,從而大幅增加訓(xùn)練的難度和時間損耗,設(shè)共有J個教師網(wǎng)絡(luò),則元網(wǎng)絡(luò)需要3J μmaxνmax個需要在訓(xùn)練中同步優(yōu)化的卷積模塊,這在現(xiàn)實工程中是不合理的。因此需要對特征圖進行聚合,設(shè)在具有相同體系結(jié)構(gòu)A的J個預(yù)訓(xùn)練教師網(wǎng)絡(luò)的集合中,每個教師網(wǎng)絡(luò)Aj從事Dj個不同的任務(wù),其中Dj≥1,意味著教師可以處于單個或多個任務(wù)的體系結(jié)構(gòu)中。對于有Dj個任務(wù)的教師網(wǎng)絡(luò)Aj,給定輸入圖像x,可以將Dj任務(wù)的輸出定義為=Aj(x,θstu,j)。對于每個教師網(wǎng)絡(luò),將層定義為最小單位,將該網(wǎng)絡(luò)表示為B個層的堆棧Aj=和最后幾個全連接的層。從每個層輸出的特征圖可以定義為:

其中:S1=A(x,),以原始圖像為輸入,Sk為第k層所有教師網(wǎng)絡(luò)特征圖集合,故中間特征圖集合S={S1,S2,…,SB}包含所有要為目標網(wǎng)絡(luò)合并的知識。如果只選擇一部分任務(wù),則SB不能直接用作指導(dǎo),因為未選擇任務(wù)的知識無差別地糾纏在一起,會污染原始任務(wù),而全部使用會大幅增加網(wǎng)絡(luò)訓(xùn)練的規(guī)模和時長。

此時將特征圖{S1,S2,…,SB}經(jīng)合網(wǎng)絡(luò)h合并得組合特征圖H={H1,H2,…,HB}=h(S,Θ),要求中間特征圖能很好地保留原始圖像的信息,那么損失函數(shù)可以寫成:

其中:‖Sk‖是特征圖Sk的空間大小;ek是使得原始圖像x與中間特征圖相同尺寸的糊化操作,通過最小化特征圖組合和原始圖像的區(qū)別,來確定特征圖組合過程中的權(quán)重。如圖1 所示,特征圖經(jīng)過合并后保留了較為完整的信息。從過程可以看出,此算法大幅減少了蒸餾過程中需要學(xué)習(xí)的知識量,不過需要對整合后的知識進行不同于元學(xué)習(xí)的蒸餾方式。

圖1 弱教師模型特征圖合并過程Fig.1 Merging process of weak teacher model feature maps

2.3 基于組合特征圖的元模型蒸餾改進

由2.1 節(jié)對于弱教師網(wǎng)絡(luò)的改進,對于有Dj個任務(wù)的教師網(wǎng)絡(luò)Aj,用損失更新網(wǎng)絡(luò)Aj的參數(shù),其中l(wèi)是網(wǎng)絡(luò)Aj中每個任務(wù)的交叉熵損失,而和分別保留了第i個任務(wù)的原來和預(yù)測標簽,使用該損失函數(shù)對網(wǎng)絡(luò)進行預(yù)訓(xùn)練可以獲得參數(shù)θ。

集成算法在結(jié)果結(jié)合時使用Stacking 算法對應(yīng)的訓(xùn)練集只與預(yù)測集合相關(guān),缺乏對弱分類器的知識挖掘,降低了算法的準確率與泛化性,同時作為堆疊算法大幅增加了算法的存儲空間;所以根據(jù)改進模型蒸餾得到的組合特征圖H={H1,H2,…,HB},改用模型蒸餾將組合特征圖知識蒸餾進目標網(wǎng)絡(luò)。

設(shè)Hm(x)為圖像x在組合特征圖集的第m層的中間特征圖,目標網(wǎng)絡(luò)Tθ以θ為參數(shù),設(shè)(x)為中間目標網(wǎng)絡(luò)第n層的特征圖:

其中rθ是由θ參數(shù)化的線性變換,由式(10)得到了衡量組合特征圖與目標網(wǎng)絡(luò)特征圖差距的損失函數(shù):

其中Im(x)為圖像x在高性能網(wǎng)絡(luò)的第m層的中間特征圖。線性變換rθ1可以重新定義與訓(xùn)練,考慮到作用目標都是目標網(wǎng)絡(luò)的特征圖,為了保證結(jié)果收斂,同時為了簡化運算加快知識蒸餾速度,可以取定值或與細節(jié)蒸餾一致,本文按照rθ1進行推導(dǎo)。

為量化層對間的蒸餾量,在每對(m,n)引入一個可學(xué)習(xí)的參數(shù)λm,n≥0。將每對(m,n)的λm,n=(Hm(x))設(shè)置為元網(wǎng)絡(luò)gm,n的輸出,該網(wǎng)絡(luò)會自動決定學(xué)習(xí)目標任務(wù)的重要層對。給定組合特征圖的給定通道w的權(quán)重和匹配對λ的權(quán)重的總傳輸損失為:

其中σ是一組候選對。同樣可以定義,對于高性能外部網(wǎng)絡(luò)的蒸餾損失:

其中:Λorg是原始損失;β、γ是超參數(shù),當不需要外部知識時γ=0。wm,n和λm,n分別表示特征圖知識蒸餾來源和量級。所以整體蒸餾過程思路簡化如圖2 所示,即將組合特征圖集與目標網(wǎng)絡(luò)特征圖比對設(shè)置損失函數(shù),以此訓(xùn)練網(wǎng)絡(luò),元網(wǎng)絡(luò)的作用在于協(xié)同比對特征圖尺寸,輸出影響權(quán)重。

圖2 基于組合特征圖的元網(wǎng)絡(luò)蒸餾模型架構(gòu)Fig.2 Meta-network distillation model architecture based on combined feature maps

當使用訓(xùn)練目標Λtotal(·|x,y,φ,φ1)學(xué)習(xí)目標模型時,由于元網(wǎng)絡(luò)通過正則化項Λde與Λwfm對目標模型的學(xué)習(xí)過程產(chǎn)生了微弱的影響,因此它們對Λorg的影響可能很小,從而內(nèi)部循環(huán)迭代Tc再次使用梯度?φ Λorg更新φ。此時優(yōu)化的方案變?yōu)椋?)Tc0次更新θ以使得Λde(θ|x,φ)最??;2)Tc1次更新θ以使得Λwfm(θ|x,φ1)最小;3)更新θ以最小化Λorg(θ|x,y)一次;4)計算Λorg(θ|x,y)并更新φ與φ1以將其最小化。

3 數(shù)值實驗與分析

3.1 數(shù)據(jù)集、實驗環(huán)境及訓(xùn)練細節(jié)

本文驗證了對數(shù)據(jù)重采樣再劃分,以訓(xùn)練教師網(wǎng)絡(luò)的可行性,也可用于異構(gòu)網(wǎng)絡(luò)任務(wù)的實現(xiàn)優(yōu)化。由于Stacking 步驟運用的是蒸餾思想,最初弱分類器的訓(xùn)練要求不需要很高,但速度要求相對明顯,所以選用可以并行運算的Bagging算法訓(xùn)練弱學(xué)習(xí)器。在實驗過程中使用自適應(yīng)時刻估計算法(Adaptive Moment Estimation,Adam)更新參數(shù)。

本文所有實驗基于2660ti 顯卡Intel Core i7-9750H CPU 2.60 GHz,16.0 GB 內(nèi)存,6.0 GB 顯存基礎(chǔ)上,在python3.7環(huán)境下運用pytorch 開源包實現(xiàn),加速庫為計算機統(tǒng)一設(shè)備架 構(gòu) 10.1(Computer Unified Device Architecture 10.1,CUDA10.1)。為了評估本文算法,在圖片規(guī)模為224 × 224的小樣本鳥類數(shù)據(jù)集CUB200 上進行實驗,CUB200 數(shù)據(jù)集共有11 788 幅鳥類圖像,包含200 類鳥類子類,其中訓(xùn)練數(shù)據(jù)集有5 994 幅圖像,測試集有5 794 幅圖像,可以作為小樣本的代表測試本文算法的效果。為了橫向?qū)Ρ刃颖緱l件下本文算法改進的程度,選用圖片規(guī)模為32 × 32 的CIFAR-10(Canadian Institute For Advanced Research-10)圖像數(shù)據(jù)集,共10 個類,每個類別有6 000 幅圖像數(shù)據(jù),數(shù)據(jù)集中一共有50 000 幅訓(xùn)練圖片和10 000 幅測試圖片。在此基礎(chǔ)上對CIFAR-10 每個類別進行按比例刪減訓(xùn)練集圖片,以此橫向?qū)Ρ人惴ㄐЧ?/p>

本文實驗選用的弱分類器是結(jié)合ImageNet[9]數(shù)據(jù)集訓(xùn)練出來的20個18層殘差網(wǎng)絡(luò)(Residual Network,ResNet)[10],外部網(wǎng)絡(luò)選用的是基于pytorch 的model_zoo 中的預(yù)訓(xùn)練網(wǎng)絡(luò),考慮到實驗效率,選用的目標網(wǎng)絡(luò)也是相同的ResNet18,異構(gòu)網(wǎng)絡(luò)在訓(xùn)練思路上是一致的。

訓(xùn)練時,首先將數(shù)據(jù)用Bootstrap 算法進行擴充再隨機劃分,并訓(xùn)練出弱教師網(wǎng)絡(luò);然后凍結(jié)教師網(wǎng)絡(luò)的權(quán)重,輸入圖像數(shù)據(jù),獲取教師網(wǎng)絡(luò)中間特征圖信息,訓(xùn)練合網(wǎng)絡(luò)參數(shù);再凍結(jié)合網(wǎng)絡(luò)參數(shù),根據(jù)合網(wǎng)絡(luò)輸出訓(xùn)練元網(wǎng)絡(luò)和目標網(wǎng)絡(luò)。實驗過程中,所有模型及弱教師網(wǎng)絡(luò)的參數(shù)中初始學(xué)習(xí)率lr和權(quán)重損失wd分別設(shè)為0.1 和0.000 1,動量初始化為0.9,batch size 統(tǒng)一為32。其他超參數(shù)的設(shè)置如表1 所示,其中:J為教師網(wǎng)絡(luò)個數(shù),Tc0為細節(jié)損失更新次數(shù),Tc1為外部損失更新次數(shù),β、γ為損失函數(shù)中超參數(shù)。

表1 不同模型在CUB200數(shù)據(jù)集上的超參數(shù)設(shè)置Tab.1 Hyperparameter settings of different models on CUB200 dataset

對于有元網(wǎng)絡(luò)的實驗,將元網(wǎng)絡(luò)構(gòu)建為η層的全連接網(wǎng)絡(luò),η參數(shù)參考表1,元網(wǎng)絡(luò)以教師網(wǎng)絡(luò)第m層的全局平均池化特征作為輸入,經(jīng)全連接和Softmax 層后輸出和λm,n。元網(wǎng)絡(luò)的初始學(xué)習(xí)率和權(quán)重損失都設(shè)為0.000 1,元網(wǎng)絡(luò)偏置項初始化為1,元網(wǎng)絡(luò)采用Adam 優(yōu)化器進行優(yōu)化。

3.2 目標任務(wù)的評估分析

在教師網(wǎng)絡(luò)階段,選用的ResNet 作為教師網(wǎng)絡(luò)相較于決策森林在準確率上提高了26.32%。蒸餾結(jié)果如表2 所示,在CUB200 數(shù)據(jù)集上,與第2 個最佳的元學(xué)習(xí)模型相比獲得了6.39%的相對改進,而不引入外部知識時,相對不引入外部分網(wǎng)絡(luò)的經(jīng)典蒸餾算法,能有10.22%的準確率提升,說明保留細節(jié)知識能有效改善學(xué)習(xí)準確率和泛化性,驗證了蒸餾的有效性。同時對比是否引入外部教師網(wǎng)絡(luò)的實驗,可以得出當引入外部知識時能更好地豐富原有數(shù)據(jù)集缺乏的細節(jié)知識。

表2 不同模型在CUB200數(shù)據(jù)集上的準確率及運算時間對比Tab.2 Accuracy and computing time comparison of different models on CUB200 dataset

在算法速度上,弱學(xué)習(xí)器生成算法部分選用Boosting 獲得弱學(xué)習(xí)器的算法時間長達32.72 h,而Bagging 算法平均生成時間在5.68 h 左右,對比網(wǎng)絡(luò)生成速率提升了4.76 倍,時間約等于1/J的Boosting 算法時間,極大地縮短了目標網(wǎng)絡(luò)的構(gòu)建時間。在準確率上,Boosting算法聚合蒸餾的結(jié)果準確率為69.37%,改進僅0.16個百分點,可以算作網(wǎng)絡(luò)訓(xùn)練誤差。

本文模型將知識從子模型抽取再整合蒸餾到目標模型中,由于弱分類器有較好的表現(xiàn),網(wǎng)絡(luò)在前期訓(xùn)練過程中改進速度相對較快,如圖3 所示,在前期損失函數(shù)下降速度比基線算法更快,后期改進則變緩趨于極限,驗證了本文模型模塊化分步進行的可行性。

圖3 訓(xùn)練過程中集成蒸餾模型與元學(xué)習(xí)模型損失函數(shù)下降情況Fig.3 Loss function reduction situations of ensemble distillation model and meta-learning model in training process

3.3 小樣本條件下模型效果分析

為了充分評估小樣本條件下本文集成蒸餾模型的有效性與實用性,選用相同的圖像數(shù)據(jù)集CIFAR-10,通過等比例縮減每一類訓(xùn)練數(shù)據(jù)的方式模擬小樣本問題的情形,以此對比不同算法在不同數(shù)據(jù)量時候的效果。本文分別對比每個類別{100,200,400,700,1 000}個樣本時,經(jīng)典模型、注意力模型、元學(xué)習(xí)模型以及集成蒸餾模型的準確率。

實驗結(jié)果如表3 所示,從數(shù)據(jù)可以發(fā)現(xiàn)當樣本數(shù)據(jù)量越少,模型蒸餾相對經(jīng)典模型具有越大幅度的改進,隨著樣本數(shù)據(jù)量的提升,所有模型準確率都在提升,但是模型蒸餾改進幅度逐漸減緩,這在邏輯上合理,符合當數(shù)據(jù)量足夠時模型準確率趨于模型上限的假設(shè)。實驗驗證了當數(shù)據(jù)集的規(guī)模較小時,集成蒸餾模型有更大的改進,在規(guī)模變大時依舊保留很好的適用性。這說明模型蒸餾能有效處理小樣本問題,同時面對較豐富數(shù)據(jù)量時也有比較好的表現(xiàn)。

表3 不同模型在CIFAR-10數(shù)據(jù)集的不同規(guī)模圖像上的準確率單位:%Tab.3 Accuracies of different models on CIFAR-10 dataset’s images with different scales unit:%

3.4 模型特征圖顯著性分析

比較顯著性圖[11]即源和目標模型的最后一層之間的未加權(quán)和加權(quán)匹配,以此可視化知識蒸餾中使用的注意力圖變化,這有助于了解蒸餾過程中的傳輸內(nèi)容。顯著性圖如式(15)計算:

其中x是圖像,c是圖像的某個通道,(i,j) ∈{1,2,…,H}×{1,2,…,W}是像素位置。

圖4 展示了目標網(wǎng)絡(luò)訓(xùn)練中特征圖對網(wǎng)絡(luò)訓(xùn)練的指導(dǎo)作用,可以看出組合網(wǎng)絡(luò)特征圖第4 層輸出圖像對目標網(wǎng)絡(luò)各層的訓(xùn)練都有相對顯著的影響,其他各層間影響較小。

圖4 弱分類器第4層對目標網(wǎng)絡(luò)影響權(quán)重變化Fig.4 Influence weight change of the fourth layer of weak classifier on target network

對于未加權(quán)的情況,使用統(tǒng)一的權(quán)重,對于加權(quán)情況則使用訓(xùn)練方案學(xué)習(xí)的元網(wǎng)絡(luò)的輸出wm,n=(Sm(x))。為了有效對比激活像素數(shù)目,定義顯著圖像素點絕對值大于像素圖均值的為有效像素點,有效像素點與全顯著圖像素個數(shù)比值為有效像素比,圖5 為激活像素展示圖,對比統(tǒng)計數(shù)據(jù)圖為圖6。

圖5 顯示了與元學(xué)習(xí)模型相比,本文集成蒸餾模型的顯著圖在關(guān)注重點處有更多更集中的激活像素。如圖6 所示,當使用集成蒸餾模型時,包含任務(wù)特定對象的有效像素較多,而背景無效像素較少,縱向?qū)Ρ?,總圖像87.31%的圖像,就顯著圖的有效像素比指標,集成蒸餾模型比元學(xué)習(xí)更高。這意味著權(quán)重wm,n學(xué)習(xí)到源模型特定于任務(wù)的知識,因此它可以改善蒸餾學(xué)習(xí)的效果。

圖5 CUB200數(shù)據(jù)集上不同模型的激活像素Fig.5 Active pixels of different models on CUB200 dataset

圖6 一個batch內(nèi)顯著圖有效激活像素比Fig.6 Proportion of effective active pixels in saliency map within a batch

4 結(jié)語

本文提出了一種小樣本問題下培訓(xùn)弱教師網(wǎng)絡(luò)的模型蒸餾模型,根據(jù)任務(wù)和架構(gòu)選擇性地傳輸知識。本文設(shè)計了一個有效的學(xué)習(xí)方案,包括提取細節(jié)、整合細節(jié)、細節(jié)傳輸?shù)牟襟E。通過上述步驟,借助細節(jié)特征圖和蒸餾元網(wǎng)絡(luò)實現(xiàn)目標網(wǎng)絡(luò)的高精度。在此基礎(chǔ)上,借助元網(wǎng)絡(luò)來進行數(shù)據(jù)劃分、數(shù)據(jù)合并甚至最后貫穿整個目標網(wǎng)絡(luò)訓(xùn)練過程是繼續(xù)研究的一個方向;另外,依靠元網(wǎng)絡(luò)來進行對目標網(wǎng)絡(luò)的訓(xùn)練給出可靠的邏輯解釋是未來可解釋性研究的另一思路。本文算法幾乎在每一步都給出了最優(yōu)方向,同時每一步可分割進行,這指向了模型蒸餾的一個方向,即模塊化蒸餾。

猜你喜歡
樣本圖像算法
Travellng thg World Full—time for Rree
A、B兩點漂流記
學(xué)習(xí)算法的“三種境界”
直擊高考中的用樣本估計總體
算法框圖的補全
算法初步知識盤點
隨機微分方程的樣本Lyapunov二次型估計
名人語錄的極簡圖像表達
基于支持向量機的測厚儀CS值電壓漂移故障判定及處理
七年級數(shù)學(xué)下冊期末檢測題(B)
剑川县| 新民市| 正阳县| 灵山县| 金乡县| 张家口市| 华宁县| 五台县| 五莲县| 鹤庆县| 教育| 伊通| 布尔津县| 南京市| 瑞安市| 江源县| 尤溪县| 黄浦区| 大庆市| 永嘉县| 新昌县| 高邑县| 革吉县| 辰溪县| 龙岩市| 高平市| 屏山县| 滨海县| 尉犁县| 新乡县| 文安县| 浏阳市| 若羌县| 农安县| 阳信县| 台湾省| 托克托县| 汪清县| 于都县| 东至县| 奉贤区|