跨信道注意力權(quán)重最大區(qū)域掩蓋的正則化方法

2022-03-15 03:02賈曉芬王景泰郭永存趙佰亭

西安交通大學(xué)學(xué)報 2022年3期

卷積神經(jīng)網(wǎng)絡(luò)(CNN)憑借著其豐富的表達能力以及對復(fù)雜參數(shù)的處理能力在圖像去噪

、分類

和超分辨率重建

等領(lǐng)域得到爆發(fā)式發(fā)展。研究發(fā)現(xiàn),CNN擬合情況跟訓(xùn)練集數(shù)目近似呈現(xiàn)對數(shù)比例關(guān)系。在訓(xùn)練樣本不足時,由于CNN模型中有大量參數(shù),在訓(xùn)練時會錯把一些無法泛化的詳細、繁雜的特征當(dāng)作分類特征,從而出現(xiàn)過擬合現(xiàn)象

。ResNet

、VggNet

、WRNNet

、MobileNet

、MoblieNetV3

、EfficientnetV2

、DenisNet-SE

等在訓(xùn)練時都會有不同程度的過擬合現(xiàn)象出現(xiàn)。

對于外界的聲音，比如說我太狠了等等。我不在乎這些說法，我承認(rèn)確實我很狠，但我沒有原則性的錯誤，所以我不在意他們的說法。

在實際應(yīng)用中,樣本獲取困難,多為小樣本情況。常采用數(shù)據(jù)集增強(翻轉(zhuǎn)、隨機裁剪等)、模型集成、早停、正則化

等方法來解決過擬合現(xiàn)象。其中,數(shù)據(jù)集增強對過擬合緩解有一定的限度,模型集成會使訓(xùn)練時間倍增,早停會使訓(xùn)練模型的準(zhǔn)確率降低。正則化方法中

正則化

、批歸一化(BN)

、Dropout

等的應(yīng)用較為普遍。

、BN正則化方法對緩解過擬合有一定限度,緩解過擬合效果小。Dropout雖然效果很好,但是存在很大的隨機性和流動性,不普遍適用于現(xiàn)有的模型和數(shù)據(jù)集。

為了提高Dropout的普適性,學(xué)者們基于Dropout機制提出了DropPath

、CorrDrop

、DropFilterR

、DropBlock

、AttentionDrop

和TargetDrop

等改進方法。DropPath采用隨機丟棄其中一些支路的策略,僅適用于Block支路較多的模型。DropBlock將隨機丟棄特征單元的方案改進為自適應(yīng)丟棄特征區(qū)域的策略,但隨機丟棄的特點同樣容易造成過擬合或欠擬合。CorrDrop和AttentionDrop的丟棄策略較為極端,均是屏蔽掉具有較明顯特征的單元或具有特征不夠明顯的特征的區(qū)域。TargetDrop的注意力提取方法含有降維、升維操作,效率較低且會影響預(yù)測準(zhǔn)確性,該方法僅以最大特征判別單元來確定掩蓋特征判別區(qū)域,存在特征區(qū)域注意力權(quán)重代表性較弱的問題。

為了解決這些問題和增強模型訓(xùn)練的擬合度,本文提出跨信道注意力權(quán)重最大區(qū)域掩蓋的正則化方法(MARDrop),使用一維卷積對不同通道中跨信道交互信息處理,無需降維。同時,根據(jù)注意力權(quán)重最大的特征判別單元附近注意力權(quán)重變化情況來確定注意力權(quán)重最大區(qū)域并掩蓋。MARDrop降低了注意力機制的計算復(fù)雜度,提取的注意力權(quán)重也更加符合理想的分類依據(jù),使掩蓋掉的區(qū)域更加符合網(wǎng)絡(luò)模型依據(jù)的分類特征。

1 前期工作

Dropout

通過忽略部分特征檢測器的方式減少特征檢測器間的相互作用,減小對局部特征的依賴性,從而減少過擬合。但是,Dropout的隨機丟失以及僅對全連接層有效的特點限制了其效果。TargetDrop

是根據(jù)Dropout原理提出的正則化方法,使用類似SENet

的注意力提取機制。經(jīng)注意力機制篩選后,選出部分注意力權(quán)重最大的單元作為特征判別單元,并以這些單元為中心掩蓋周圍區(qū)域。TargetDrop的注意力機制工作流程如圖1所示。

以ResNet18為基礎(chǔ)模型,在CIFAR-10和CIFAR-100數(shù)據(jù)集上測試MARDrop的分類錯誤率,并與各種改進型的Dropout正則化方法,如DropBlock、AttentionDrop、TargetDrop進行對比分析,結(jié)果見表1。

從提要的著錄情況來看，明代文學(xué)整體呈遞減趨勢，從前文的文學(xué)分期也可看出，四庫館臣對明代文學(xué)持倒退衰敝的態(tài)度。反觀開國洪武期間的文壇，短短三十余年，就有“59位作家的65部作品被收入”。[7]四庫館臣褒揚洪武期間的文學(xué)平正典雅，稱其“一掃元季纖秾之習(xí)，而開明初舂容之派”。[2]479而對于晚明文壇的代表——公安、竟陵兩派，《四庫》則將其貶為“交煽偽體，幺弦側(cè)調(diào)，無復(fù)正聲”。[2]820可以說，館臣對于明代文學(xué)的整體把握，不僅與史實不符，與當(dāng)今的學(xué)界觀點也是相悖的。

我國經(jīng)濟的快速發(fā)展大力推動了基礎(chǔ)設(shè)施建設(shè)，大跨度橋梁建設(shè)項目呈現(xiàn)出逐年增加的趨勢，其中，大部分基礎(chǔ)形式采用樁基礎(chǔ)，而且樁徑與樁長也在不斷增加。大直徑超長樁基礎(chǔ)擁有整體剛度大、承載能力強、變形小、沉降穩(wěn)定快、抗震性能好等優(yōu)勢，逐漸得到了建筑施工界的普遍認(rèn)可與應(yīng)用研究。目前，我國大多數(shù)超長樁基成孔采用的設(shè)備是反循環(huán)設(shè)備，而本項目選用大功率旋挖鉆進行成樁，成樁效果較好。通過對成樁傾斜度控制技術(shù)進行分析，對我國今后項目施工具有非常重要的借鑒作用。

=Sigmoid(

ReLU(

))

(1)

定義 3 若f為G的正常邊染色,且對任意u,v均滿足d(u)=d(v)=d,均有C(u)≠C(v),則稱f為關(guān)于G的所有d度點可區(qū)別邊染色。

(2)

式中:

、

為特征單元中最大特征點的坐標(biāo)值;

為超參數(shù),代表掩蓋的正方形區(qū)域的邊長,

;

、

和

、

分別代表掩蓋的正方形區(qū)域在

和

兩個方向的頂點坐標(biāo)值。

TargetDrop按照這一方法,選取出全部最大特征點并逐個掩蓋掉周圍的

區(qū)域,但掩蓋掉的區(qū)域并沒有包含特征最明顯的區(qū)域,從而引起某些重要特征的過度訓(xùn)練,使分類過于依賴這些特征,進而導(dǎo)致過擬合現(xiàn)象。同時,TargetDrop使用全連接層進行降維和升維,此操作會影響通道注意力權(quán)重的預(yù)測,且在捕獲通道之間依賴時也是低效的。

2 掩蓋注意力權(quán)重最大區(qū)域的正則化

為了解決TargetDrop中出現(xiàn)的問題,本文提出了MARDrop,結(jié)構(gòu)見圖2。MARDrop包括特征判別單元的提取、最大特征判別區(qū)域的選擇、掩蓋和還原共3部分。第1部分負責(zé)注意力權(quán)重的提取、注意力圖譜的構(gòu)建、注意力權(quán)重的排序以及

個權(quán)重最大特征單元的篩選;第2部分負責(zé)分析

個權(quán)重最大特征單元周圍區(qū)域的注意力權(quán)重變化情況,選擇最大特征判別區(qū)域;第3部分是對選出的最大特征判別區(qū)域的掩蓋以及非最大特征判別區(qū)域?qū)?yīng)原特征圖的還原。

2.1 特征判別單元的提取

MARDrop使用計算量更小、特征提取更準(zhǔn)確的跨通道注意力機制對特征圖

進行特征提取,得到注意力權(quán)重圖譜

,然后從中篩選出部分注意力權(quán)重大的作為特征判別單元,篩選后得到注意力二值圖

。

MARDrop的提取特征判別單元結(jié)構(gòu)見圖3。提取過程為:首先,對特征圖

進行全局平均池化操作,得到一維卷積輸入層

;然后,求出

的跨信道交互范圍

,然后對輸入層

進行一維卷積處理,求出注意力權(quán)值

;使用Sigmoid函數(shù)激活

,得到嚴(yán)格單調(diào)的注意力權(quán)重圖譜

(介于0～1之間);最后,按照

中的注意力權(quán)重大小,選出

個重要特征通道(

為掩蓋比例

與總通道數(shù)

的乘積),并將其注意力權(quán)重置為1,其余全部置為0。

求出各區(qū)域注意力權(quán)重后,選出最大特征判別區(qū)域的注意力權(quán)重

,篩選公式為

(3)

通過使用每個通道及

個鄰近信道捕獲跨通道交互信息(

個鄰近通道對應(yīng)一個通道的注意力的預(yù)測),提取更準(zhǔn)確的注意力權(quán)重?？缤ǖ佬畔⒔换プ饔玫母采w范圍

與通道數(shù)

成正比,通過自適應(yīng)函數(shù)確定,計算式為

由式(1)可知,TargetDrop利用全連接層的先降維后升維方法提取注意力權(quán)重,降維時會降低特征圖各信道之間的信息依賴,破壞原有空間結(jié)構(gòu),引起升維過程中注意力提取效率低且注意力權(quán)重提取不準(zhǔn)確的問題。為此,本文提出一維卷積提取注意力機制。使用注意力機制適當(dāng)捕獲跨信道交互信息,無需降維,不會破壞原有的空間結(jié)構(gòu)。注意力權(quán)重則通過結(jié)合前一層獲取的其他特征信息來確定。一維卷積提取注意力機制的過程如下。

出現(xiàn)HIV耐藥，表示該感染者體內(nèi)病毒可能耐藥，同時需要密切結(jié)合臨床情況，充分考慮HIV感染者的依從性，對藥物的耐受性及藥物的代謝吸收等因素進行綜合評判。改變抗病毒治療方案需要在有經(jīng)驗的醫(yī)師指導(dǎo)下才能進行。HIV耐藥結(jié)果陰性，表示該份樣品未檢出耐藥性，但不能確定該感染者不存在耐藥情況。

(4)

式中:

(

)表示關(guān)于通道

的自適應(yīng)函數(shù);|·|

表示向上取最近的奇數(shù)值操作;考慮到總通道數(shù)

不小于2、

不小于1,所以將

、

分別設(shè)置為2、1。

這符合自然規(guī)律，故鄉(xiāng)總是留不住漂亮的孩子。可至少我、胡來、胡去，我們?nèi)齻€沒有一點要走的意思。我們喜歡出海，但是前輩們再不讓我們跟著出海。在電視機普及以后，他們就說：要出海，沒出息。至于什么是有出息，他們還沒想太明白。爺爺說：他們呀，總是覺得小孩子背井離鄉(xiāng)，老頭子衣錦還鄉(xiāng)就叫有出息。成天看著太平洋，還覺得自己眼界不夠?qū)挘皇裁呆~都認(rèn)識，還覺得自己見識不夠多。

③通過響應(yīng)面試驗設(shè)計統(tǒng)計分析得到可靠性較高的二次響應(yīng)面回歸模型，并預(yù)測最佳工藝參數(shù)：對于固態(tài)發(fā)酵551H，發(fā)酵時間27 h，固態(tài)培養(yǎng)基組成/固液比值2.125，發(fā)酵溫度25℃，接種量10%；對于固態(tài)發(fā)酵552H，發(fā)酵時間48 h，固態(tài)培養(yǎng)基組成/固液比值1.5，發(fā)酵溫度30℃，接種量3%，驗證試驗證明該參數(shù)可行。

確定一維卷積中局部跨信道交互范圍

后,使用一維卷積提取每個單元對應(yīng)的注意力數(shù)據(jù),得到

。然后,使用Sigmoid函數(shù)得到連續(xù)、光滑的嚴(yán)格單調(diào)注意力權(quán)重圖譜

。計算過程為

=C1D(

)

(5)

=Sigmoid(

)

(6)

2 特征單元的篩選根據(jù)注意力權(quán)重和丟棄比率

,在注意力圖譜中選出前

個最重要特征通道。以第

個的注意力權(quán)重為篩選標(biāo)準(zhǔn)(1表示被選中,0表示未選中),將得到的相應(yīng)值放入注意力二值圖

中。計算過程為

(7)

式中

、

分別為

、

中的第

個元素。

TargetDrop通過選取特征單元中的最大特征點,并以其為中心掩蓋周圍的

區(qū)域,實現(xiàn)掩蓋區(qū)域選擇,選擇過程為

2.2 最大特征判別區(qū)域的選擇

以所占權(quán)重最大的特征單元為中心,從中心向四周延伸時,注意力權(quán)重以不同變化率隨之減小。TargetDrop使用式(2)方法,只依據(jù)特征判別單元來選擇征判別區(qū)域,未對周圍單元權(quán)重進行考究,并且如果所選特征單元代表性不足,則選擇的特征判別區(qū)域很可能不存在代表性。

為此,本文提出根據(jù)權(quán)重變化以及注意力權(quán)重特征圖來確定最大特征判別區(qū)域的方法,具體過程見圖4。根據(jù)特征判別單元圖

中各特征單元的位置,求出這些點在特征圖

上的位置坐標(biāo),以該坐標(biāo)(

)為中心,計算給定邊長為

的正方形區(qū)域的注意力權(quán)重,以及該區(qū)域外向上、下、左、右平移后區(qū)域的注意力權(quán)重之和,比較中心區(qū)域與平移后的區(qū)域注意力權(quán)重,選出注意力權(quán)重最大區(qū)域即最大特征判別區(qū)域。

為初始的

區(qū)域?qū)?yīng)的權(quán)重之和,

、

分別為

區(qū)域外向上、下、左、右平移后區(qū)域的注意力權(quán)重之和,計算公式為

(8)

(9)

(10)

(11)

(12)

式中

,…,

(1,)

;…,

(,)

]。

1 注意力權(quán)重的提取對卷積層、ReLU層處理后的特征圖

進行全局平均池化處理,將特征圖

之間的空間信息以及空間聯(lián)系聚合到相應(yīng)通道輸入層

中。計算公式為

納米藥物的應(yīng)用十分廣泛，如制備智能化藥劑，即通過機體反饋來的微環(huán)境，設(shè)計相應(yīng)的具有靶向性的納米藥物，達到特異性治療、延緩釋藥等效果，用于腫瘤、糖尿病和血管疾病等疾病的治療[3]。其次，還可以應(yīng)用于疾病診斷和某些疾病的輔助性治療，如在影像學(xué)方面的應(yīng)用。當(dāng)前，納米藥物在中藥新制劑方面的應(yīng)用也十分廣泛[4]。

=max{

}

(13)

對應(yīng)的區(qū)域就是注意力權(quán)重最大區(qū)域,即最大特征判別區(qū)域。

2.3 掩蓋和還原

確定出最大特征判別區(qū)域

后,需要將其掩蓋,并還原全部未掩蓋區(qū)域,得到特征圖

。掩蓋及還原過程見圖5,圖中最大特征判別區(qū)域

中黑色為掩蓋區(qū)域,代表著最大特征判別區(qū)域,該區(qū)域元素置為0,其他紅色區(qū)域為未掩蓋區(qū)域,該區(qū)域元素置為1。將

中每個元素與原特征圖

中對應(yīng)元素相乘,得到特征圖

。

3 實驗結(jié)果與分析

3.1 實驗設(shè)置

使用Python語言,在Pytorch環(huán)境開展相關(guān)實驗。參數(shù)設(shè)置為:batchsize為256,優(yōu)化器使用動量為0.9的SGD,初始學(xué)習(xí)率為0.1,在總時數(shù)比為0.4、0.6、0.8時衰減2e

倍。

掩蓋比率是選取的掩蓋特征所占總判別特征的比例,與模型對圖像分類依據(jù)所占比例相關(guān),與掩蓋尺寸無關(guān)。實驗固定掩蓋尺寸為5×5像素,在基礎(chǔ)模型MoblieNetV3

上分別加入掩蓋比率為0.05、0.1、0.15、0.2和0.25的MARDrop,對比其在數(shù)據(jù)集CIFAR-10上的分類準(zhǔn)確度,結(jié)果見圖6?？梢钥闯?掩蓋比率從0.05增大到0.25時,分類精度呈先增大后減小的趨勢;掩蓋比率為0.15時,分類精度為87.25%;掩蓋比率為0.2時,分類精度達到最大,為87.27%。掩蓋比率取0.15和0.2時效果相差很小,但掩蓋比率小可以減少MAPDrop的數(shù)據(jù)處理量,提高分類效率。因此,后續(xù)實驗中取掩蓋比率為0.15。

MARDrop根據(jù)特征單元周圍注意力權(quán)重的分布情況,選擇出最大特征判別區(qū)域并進行掩蓋,需要先確定掩蓋比率和掩蓋尺寸,得到MARDrop的模型結(jié)構(gòu)后,再開展對比實驗。

3.2 確定掩蓋比率

本次論壇上，專家們對清華附小主題教學(xué)的新發(fā)展給予了充分肯定。北京教科院基礎(chǔ)教育課程教材發(fā)展研究中心王凱副主任認(rèn)為主題教學(xué)試圖讓學(xué)生實現(xiàn)從“在場”到“入場”的轉(zhuǎn)變，在真實體驗中實際獲得，提出了工具作為腳手架和通道的重要意義。北京師范大學(xué)胡定榮教授認(rèn)為語文學(xué)科無邊界，主題教學(xué)用課程觀引領(lǐng)了學(xué)科教學(xué)和教師專業(yè)發(fā)展。北京教育學(xué)院劉加霞院長認(rèn)為主題教學(xué)更加關(guān)注學(xué)生的體驗與獲得，采用了“分學(xué)科、綜合用”這一最有效的學(xué)習(xí)方式來真正實現(xiàn)學(xué)習(xí)方式的變革。

3.3 確定掩蓋尺寸

掩蓋尺寸是指特征判別區(qū)域尺寸,與圖像被檢測物體尺寸以及卷積提取的特征元素有關(guān),與掩蓋比例無關(guān)。

固定掩蓋比例為0.15,在MoblieNetV3上分別使用掩蓋尺寸為3×3、5×5、7×7和9×9像素的MARDrop,對比其在數(shù)據(jù)集CIFAR-10上的分類準(zhǔn)確率,結(jié)果見圖7?？梢钥闯?隨著掩蓋尺寸的變化,分類準(zhǔn)確率先升高后降低,在掩蓋尺寸為5×5像素時準(zhǔn)確率達到最高,為87.25%。后續(xù)實驗中,MARDrop模塊的掩蓋比率和掩蓋尺寸分別設(shè)置為0.15、5×5像素。

3.4 優(yōu)越性驗證

由表5可以看出，銀行類型(bank)、營業(yè)收入(turnover)和關(guān)系年限(rela_len)三個變量顯著，且回歸權(quán)重均為負，這表明：(1)小微企業(yè)從國有商業(yè)銀行處獲得貸款的利率溢價較低；(2)小微企業(yè)的經(jīng)營規(guī)模越大，其獲得貸款的利率溢價較低；(3)銀企關(guān)系時間越長，小微企業(yè)越有可能獲得較低水平的貸款利率溢價，這與關(guān)系型貸款的研究結(jié)論一致。但三個信任變量并未對小微企業(yè)貸款利率產(chǎn)生顯著影響，表明高程度的銀行信任并不能幫助小微企業(yè)獲得更低的貸款利率。綜上，假說2不成立。

由表1可知,加入Dropout正則化比原基礎(chǔ)模型錯誤率更高,說明訓(xùn)練過程中過擬合更加嚴(yán)重,或者出現(xiàn)欠擬合現(xiàn)象。使用DropBlock、AttentionDrop、TargetDrop時的分類精度均比Dropout有所提升,MARDrop在兩個數(shù)據(jù)集上分類錯誤率均最小。相對于基礎(chǔ)模型,加入MARDrop后在CIFAR-10上分類錯誤率降低了9.96%,在CIFAR-100上錯誤率降低了5.83%。相比于2020年提出的TargetDrop

,MARDrop在CIFAR-10和CIFAR-100上分類錯誤率分別降低了3.63%和1.03%。

3.5 泛化性驗證

3.5.1 不同模型上的泛化性驗證在ResNet20、VGG16、WRN28-10、MoblieNetV3S、MoblieNetV3L、EfficientnetV2和DenisNet-SE共7個網(wǎng)絡(luò)模型上,分別加MARDrop、Dropout、TargetDrop正則化方法,并在CIFAR-10數(shù)據(jù)集上測試分類準(zhǔn)確率,結(jié)果見表2。其中,EfficientnetV2和DenisNet-SE兩個模型的參數(shù)比較復(fù)雜,使用了原文中的參數(shù),其他5個模型均采用3.1小節(jié)設(shè)置的參數(shù)。

由表2可知,加入Dropout后,VGG16、WRN2810錯誤率不降反升,ResNet20的錯誤率有所下降。加入TargetDrop后,7個網(wǎng)絡(luò)模型的分類錯誤率均有所下降。MARDrop在7個網(wǎng)絡(luò)模型均獲得了最低的分類錯誤率。對于VGG16,加入MARDrop后在CIFAR-10上分類錯誤比基礎(chǔ)模型降低了10.05%,比使用TargetDrop錯誤率降低了5.77%。在2021年提出的最新模型DenisNet-SE

上,加入MARDrop后比基礎(chǔ)模型的分類錯誤率降低了5.78%。

3.5.2 不同圖像尺寸數(shù)據(jù)集上的泛化性驗證從ImageNet數(shù)據(jù)集中選前9類制作成ImageNet_C9數(shù)據(jù)集(訓(xùn)練集和測試集按照數(shù)據(jù)量7∶3的比例劃分),分別在MoblieNetV3S、MoblieNetV3L上使用MARDrop正則化方法對ImageNet_C9數(shù)據(jù)集進行分類實驗,MARDrop參數(shù)設(shè)置以及實驗結(jié)果見表3。

由表3可知,使用MARDrop后,MoblieNetV3L錯誤率降低了14.67%。使用MobileNetV3S模型實驗時掩蓋比例調(diào)整為0.10,加入MARDrop后分類錯誤率降低了96.90%。

VE-1和世銳的推出，推動廣汽本田產(chǎn)品陣營更加多元化，更助力廣汽本田電動化戰(zhàn)略邁出堅實的一步。VE-1基于Honda成熟緊湊型SUV平臺開發(fā)，搭載永磁同步電機及53.6千瓦時三元鋰電池包，工況續(xù)航里程為340公里，等速續(xù)航里程為430公里。世銳搭載1.5升阿特金森循環(huán)發(fā)動機和國內(nèi)首創(chuàng)G-MC無級變速機電耦合系統(tǒng)組成的插電式混動系統(tǒng)，配合12千瓦時電池組，可實現(xiàn)純電驅(qū)動、增程及混合動力多種驅(qū)動模式。

臨床上應(yīng)加大對樣本采集及送檢環(huán)節(jié)的監(jiān)督與管理力度,并且應(yīng)制定出規(guī)范、科學(xué)的管理制度標(biāo)準(zhǔn);在采樣前,應(yīng)該充分做好相關(guān)的準(zhǔn)備工作,盡可能地避免人為操作意外的出現(xiàn);注意樣本采集的最佳時間,以防感染外源性細菌而影響檢驗質(zhì)量;樣本采集完畢后,應(yīng)在規(guī)定時間內(nèi)送試驗室進行檢驗,根據(jù)樣本類型的不同而采用不同的處理方法;一般試驗室溫度最好控制在19~26℃之間,濕度維持在40%~60%之間,從而確保臨床免疫檢驗結(jié)果的精準(zhǔn)性;注重檢驗方法的合理選擇,盡量應(yīng)用較常見的試劑,確保檢驗方法具有較高的重復(fù)性、特異性及敏感性,并且無交叉反應(yīng)。[3]

3.6 靈活性驗證

以文獻[25]中搭建的Model2為基礎(chǔ)模型,在CIFAR-10數(shù)據(jù)集上測試MARDrop的優(yōu)越性及其和不同優(yōu)化器或者正則化方法相結(jié)合的靈活性,每組實驗的參數(shù)設(shè)置相同,測試結(jié)果見表4。表中,SGD和Adam是Model2基礎(chǔ)模型的測試結(jié)果。

由表4可知,相對于基礎(chǔ)模型,使用正則化方法后,測試集與訓(xùn)練集的損失函數(shù)值明顯減小,訓(xùn)練準(zhǔn)確率與測試準(zhǔn)確率差值減小。采用正則化方法組合的優(yōu)化方案后,訓(xùn)練集準(zhǔn)確率小于100%,且測試集準(zhǔn)確率遠大于原模型準(zhǔn)確率,說明優(yōu)化后模型的擬合程度高于原模型擬合程度。從分類精度的角度分析,使用優(yōu)化器Adam的基礎(chǔ)模型效果較好。在此基礎(chǔ)模型上加入不同正則化方法后,除了加入

正則化后分類精度降低外,其余均有所提升。使用優(yōu)化器SGD的基礎(chǔ)模型效果較差,比使用Adam時的分類精度低了4.20%。為了更好地顯示MARDrop的優(yōu)勢,在使用SGD的基礎(chǔ)模型上分別引入MARDrop、MARDrop+BN、MARDrop+BN+ReLU6,開展3個實驗?？梢钥闯?相對于僅使用SGD時的分類精度76.49%,3個實驗的分類精度分別提高到了87.81%、90.20%和91.44%,提升率分別為14.79%、17.92%和19.55%。

4 結(jié) 論

為了解決現(xiàn)有正則化方法對過擬合現(xiàn)象處理效果不足的缺點,本文提出使用跨通道的注意力機制提取注意力權(quán)重,根據(jù)注意力權(quán)重選擇特征單元并通過比較附近區(qū)域權(quán)重大小選擇出注意力權(quán)重最大區(qū)域,最后將該區(qū)域掩蓋并還原為特征圖的正則化方法。為了證明該方法的有效性,本文將MARDrop方法用于不同CNN分類模型,在CIFAR-10、CIFAR-100數(shù)據(jù)集進行圖像分類測試。測試結(jié)論如下。

(1)確定掩蓋比率和掩蓋尺寸的實驗結(jié)果表明,可以通過調(diào)節(jié)MARDrop的掩蓋比率和掩蓋尺寸使擬合情況達到最優(yōu)。

(2)MARDrop與不同Drop機制正則化方法對比,錯誤率均最低。相比于對過擬合處理最好的TargetDrop,使用MARDrop在CIFAR-10、CIFAR-100上分類錯誤率分別降低了3.63%、1.03%。證明了該方法相對于同類方法的優(yōu)越性。

(3)DenisNet-SE等7種模型經(jīng)MARDrop優(yōu)化后在CAFIR-10上的分類錯誤率均有所降低。使用MoblieNetV3在圖像尺寸不同的ImageNet-C9數(shù)據(jù)集上分類錯誤率相對于基礎(chǔ)模型分別降低了14.67%和96.90%。這兩組實驗證明了MARDrop方法的泛化性。

(4)使用包含MARDrop的多種正則化方法優(yōu)化后,模型在CAFIR-10上的擬合程度遠高于使用其他正則化方法優(yōu)化的模型,其中使用MARDrop+BN(ReLU6+SGD)方法優(yōu)化后在CIFAR-10上的分類準(zhǔn)確率比原模型提高了19.55%,證明了MARDrop方法的靈活性。

[1]呂永標(biāo), 趙建偉, 曹飛龍. 基于復(fù)合卷積神經(jīng)網(wǎng)絡(luò)的圖像去噪算法 [J]. 模式識別與人工智能, 2017, 30(2): 97-105.

Lü Yongbiao, ZHAO Jianwei, CAO Feilong. Image denoising algorithm based on composite convolutional neural network [J]. Pattern Recognition and Artificial Intelligence, 2017, 30(2): 97-105.

[2]SONG Jia, GAO Shaohua, ZHU Yunqiang, et al. A survey of remote sensing image classification based on CNNs [J]. Big Earth Data, 2019, 3(3): 232-254.

[3]宋長明, 王赟. 融合低秩和稀疏表示的圖像超分辨率重建算法 [J]. 西安交通大學(xué)學(xué)報, 2018, 52(7): 18-24.

SONG Changming, WANG Yun. Super resolution reconstruction algorithm combined low rank with sparse representation [J]. Journal of Xi’an Jiaotong University, 2018, 52(7): 18-24.

[4]ZHANG Xiangyu, LI Jianqing, CAI Zhipeng, et al. Over-fitting suppression training strategies for deep learning-based atrial fibrillation detection [J]. Medical & Biological Engineering & Computing, 2021, 59(1): 165-173.

[5]任義麗, 羅路. 卷積神經(jīng)網(wǎng)絡(luò)過擬合問題研究 [J]. 信息系統(tǒng)工程, 2019(5): 140, 142.

REN Yili, LUO Lu. Research on over-fitting of convolutional neural networks [J]. China CIO News, 2019(5): 140, 142.

[6]謝璐陽, 夏兆君, 朱少華, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識別過擬合問題分析與研究 [J]. 軟件工程, 2019, 22(10): 27-29, 26.

XIE Luyang, XIA Zhaojun, ZHU Shaohua, et al. Analysis and research of overfitting of image recognition based on convolutional neural networks [J]. Software Engineering, 2019, 22(10): 27-29, 26.

[7]HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition [C]∥Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2016: 770-778.

[8]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale visual recognition [C/OL]∥Proceedings of the International Conference on Learning Representations. London, UK: ICLR, 2015 [2021-05-01]. https: ∥arxiv.org/pdf/1409. 1556.pdf.

[9]ZAGORUYKO S, KOMODAKIS N. Wide residual networks [C]∥Proceedings of the 2016 British Machine Vision Conference (BMVC). Guildford, UK: BMVA Press, 2016: 1-15.

[10]HOWARD A G, ZHU Menglong, CHEN Bo, et al. MobileNets: efficient convolutional neural networks for mobile vision applications [EB/OL]. [2021-05-01]. https: ∥arxiv.org/abs/1704.04861.

[11]KAVYASHREE P S P, EL-SHARKAWY M. Compressed MobileNet V3: a light weight variant for resource-constrained platforms [C]∥Proceedings of the 2021 IEEE 11th Annual Computing and Communication Workshop and Conference (CCWC). Piscataway, NJ, USA: IEEE, 2021: 0104-0107.

[12]TAN Mingxing, LE Q V. EfficientNetV2: smaller models and faster training [C]∥Proceedings of the 38th International Conference on Machine Learning. Princeton, NJ, USA: IMLS, 2021: 10096-10106.

[13]YANG Mingming, MA Tinghuai, TIAN Qing, et al. Aggregated squeeze-and-excitation transformations for densely connected convolutional networks [J/OL]. The Visual Computer, 2021 [2021-05-01]. https: ∥doi.org/10.1007/s00371-021-02144-z.

[14]WANG Haojun, LONG Haixia, WANG Ailan, et al. Deep learning and regularization algorithms for malicious code classification [J]. IEEE Access, 2021, 9: 91512-91523.

[15]LIU Ziqi. XU Yanbin, DONG Feng.

spatial adaptive regularization method for electrical tomography [C]∥Proceedings of the 2019 Chinese Control Conference (CCC). Piscataway, NJ, USA: IEEE, 2019: 3346-3351.

[16]ABBASI A N, HE Mingyi. Convolutional neural network with PCA and batch normalization for hyperspectral image classification [C]∥Proceedings of the 2019 IEEE International Geoscience and Remote Sensing Symposium. Piscataway, NJ, USA: IEEE, 2019: 959-962.

[17]SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting [J]. The Journal of Machine Learning Research, 2014, 15(1): 1929-1958.

[18]ZOPH B, VASUDEVAN V, SHLENS J, et al. Learning transferable architectures for scalable image recognition [C]∥Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2018: 8697-8710.

[19]ZENG Yuyuan, DAI Tao, XIA Shutao. Corrdrop: correlation based dropout for convolutional neural networks [C]∥Proceedings of the 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Piscataway, NJ, USA: IEEE, 2020: 3742-3746.

[20]PAN Hengyue, NIU Xin, LI Rongchun, et al. DropFilterR: a novel regularization method for learning convolutional neural networks [J]. Neural Processing Letters, 2020, 51(2): 1285-1298.

[21]GHIASI G, LIN T Y, LE Q V. DropBlock: a regularization method for convolutional networks [C]∥Proceedings of the 32nd International Conference on Neural Information Processing Systems. Vancouver, Canada: NIPS, 2018: 10750-10760.

[22]OUYANG Zhihao, FENG Yan, HE Zihao, et al. Attentiondrop for convolutional neural networks [C]∥Proceedings of the 2019 IEEE International Conference on Multimedia and Expo (ICME). Piscataway, NJ, USA: IEEE, 2019: 1342-1347.

[23]ZHU Hui, ZHAO Xiaofang. TargetDrop: a targeted regularization method for convolutional neural networks [EB/OL]. [2021-05-01]. https: ∥arxiv.org/abs/2010.10716.

[24]HU Jie, SHEN Li, SUN Gang. Squeeze-and-excitation networks [C]∥Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2018: 7132-7141.

[25]MARIN I, KUZMANIC SKELIN A, GRUJIC T, et al. Empirical evaluation of the effect of optimization and regularization techniques on the generalization performance of deep convolutional neural network [J]. Applied Sciences, 2020, 10(21): 7817.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡