卷積神經(jīng)網(wǎng)絡(luò)(CNN)憑借著其豐富的表達能力以及對復(fù)雜參數(shù)的處理能力在圖像去噪
、分類
和超分辨率重建
等領(lǐng)域得到爆發(fā)式發(fā)展。研究發(fā)現(xiàn),CNN擬合情況跟訓(xùn)練集數(shù)目近似呈現(xiàn)對數(shù)比例關(guān)系。在訓(xùn)練樣本不足時,由于CNN模型中有大量參數(shù),在訓(xùn)練時會錯把一些無法泛化的詳細、繁雜的特征當(dāng)作分類特征,從而出現(xiàn)過擬合現(xiàn)象
。ResNet
、VggNet
、WRNNet
、MobileNet
、MoblieNetV3
、EfficientnetV2
、DenisNet-SE
等在訓(xùn)練時都會有不同程度的過擬合現(xiàn)象出現(xiàn)。
對于外界的聲音,比如說我太狠了等等。我不在乎這些說法,我承認(rèn)確實我很狠,但我沒有原則性的錯誤,所以我不在意他們的說法。
在實際應(yīng)用中,樣本獲取困難,多為小樣本情況。常采用數(shù)據(jù)集增強(翻轉(zhuǎn)、隨機裁剪等)、模型集成、早停、正則化
等方法來解決過擬合現(xiàn)象。其中,數(shù)據(jù)集增強對過擬合緩解有一定的限度,模型集成會使訓(xùn)練時間倍增,早停會使訓(xùn)練模型的準(zhǔn)確率降低。正則化方法中
正則化
、批歸一化(BN)
、Dropout
等的應(yīng)用較為普遍。
、BN正則化方法對緩解過擬合有一定限度,緩解過擬合效果小。Dropout雖然效果很好,但是存在很大的隨機性和流動性,不普遍適用于現(xiàn)有的模型和數(shù)據(jù)集。
為了提高Dropout的普適性,學(xué)者們基于Dropout機制提出了DropPath
、CorrDrop
、DropFilterR
、DropBlock
、AttentionDrop
和TargetDrop
等改進方法。DropPath采用隨機丟棄其中一些支路的策略,僅適用于Block支路較多的模型。DropBlock將隨機丟棄特征單元的方案改進為自適應(yīng)丟棄特征區(qū)域的策略,但隨機丟棄的特點同樣容易造成過擬合或欠擬合。CorrDrop和AttentionDrop的丟棄策略較為極端,均是屏蔽掉具有較明顯特征的單元或具有特征不夠明顯的特征的區(qū)域。TargetDrop的注意力提取方法含有降維、升維操作,效率較低且會影響預(yù)測準(zhǔn)確性,該方法僅以最大特征判別單元來確定掩蓋特征判別區(qū)域,存在特征區(qū)域注意力權(quán)重代表性較弱的問題。
為了解決這些問題和增強模型訓(xùn)練的擬合度,本文提出跨信道注意力權(quán)重最大區(qū)域掩蓋的正則化方法(MARDrop),使用一維卷積對不同通道中跨信道交互信息處理,無需降維。同時,根據(jù)注意力權(quán)重最大的特征判別單元附近注意力權(quán)重變化情況來確定注意力權(quán)重最大區(qū)域并掩蓋。MARDrop降低了注意力機制的計算復(fù)雜度,提取的注意力權(quán)重也更加符合理想的分類依據(jù),使掩蓋掉的區(qū)域更加符合網(wǎng)絡(luò)模型依據(jù)的分類特征。
Dropout
通過忽略部分特征檢測器的方式減少特征檢測器間的相互作用,減小對局部特征的依賴性,從而減少過擬合。但是,Dropout的隨機丟失以及僅對全連接層有效的特點限制了其效果。TargetDrop
是根據(jù)Dropout原理提出的正則化方法,使用類似SENet
的注意力提取機制。經(jīng)注意力機制篩選后,選出部分注意力權(quán)重最大的單元作為特征判別單元,并以這些單元為中心掩蓋周圍區(qū)域。TargetDrop的注意力機制工作流程如圖1所示。
以ResNet18為基礎(chǔ)模型,在CIFAR-10和CIFAR-100數(shù)據(jù)集上測試MARDrop的分類錯誤率,并與各種改進型的Dropout正則化方法,如DropBlock、AttentionDrop、TargetDrop進行對比分析,結(jié)果見表1。
從提要的著錄情況來看,明代文學(xué)整體呈遞減趨勢,從前文的文學(xué)分期也可看出,四庫館臣對明代文學(xué)持倒退衰敝的態(tài)度。反觀開國洪武期間的文壇,短短三十余年,就有“59位作家的65部作品被收入”。[7]四庫館臣褒揚洪武期間的文學(xué)平正典雅,稱其“一掃元季纖秾之習(xí),而開明初舂容之派”。[2]479而對于晚明文壇的代表——公安、竟陵兩派,《四庫》則將其貶為“交煽偽體,幺弦側(cè)調(diào),無復(fù)正聲”。[2]820可以說,館臣對于明代文學(xué)的整體把握,不僅與史實不符,與當(dāng)今的學(xué)界觀點也是相悖的。
我國經(jīng)濟的快速發(fā)展大力推動了基礎(chǔ)設(shè)施建設(shè),大跨度橋梁建設(shè)項目呈現(xiàn)出逐年增加的趨勢,其中,大部分基礎(chǔ)形式采用樁基礎(chǔ),而且樁徑與樁長也在不斷增加。大直徑超長樁基礎(chǔ)擁有整體剛度大、承載能力強、變形小、沉降穩(wěn)定快、抗震性能好等優(yōu)勢,逐漸得到了建筑施工界的普遍認(rèn)可與應(yīng)用研究。目前,我國大多數(shù)超長樁基成孔采用的設(shè)備是反循環(huán)設(shè)備,而本項目選用大功率旋挖鉆進行成樁,成樁效果較好。通過對成樁傾斜度控制技術(shù)進行分析,對我國今后項目施工具有非常重要的借鑒作用。
=Sigmoid(
ReLU(
))
(1)
定義 3 若f為G的正常邊染色,且對任意u,v均滿足d(u)=d(v)=d,均有C(u)≠C(v),則稱f為關(guān)于G的所有d度點可區(qū)別邊染色。
(2)
式中:
、
為特征單元中最大特征點的坐標(biāo)值;
為超參數(shù),代表掩蓋的正方形區(qū)域的邊長,
<
,
<
;
、
和
、
分別代表掩蓋的正方形區(qū)域在
和
兩個方向的頂點坐標(biāo)值。
TargetDrop按照這一方法,選取出全部最大特征點并逐個掩蓋掉周圍的
×
區(qū)域,但掩蓋掉的區(qū)域并沒有包含特征最明顯的區(qū)域,從而引起某些重要特征的過度訓(xùn)練,使分類過于依賴這些特征,進而導(dǎo)致過擬合現(xiàn)象。同時,TargetDrop使用全連接層進行降維和升維,此操作會影響通道注意力權(quán)重的預(yù)測,且在捕獲通道之間依賴時也是低效的。
為了解決TargetDrop中出現(xiàn)的問題,本文提出了MARDrop,結(jié)構(gòu)見圖2。MARDrop包括特征判別單元的提取、最大特征判別區(qū)域的選擇、掩蓋和還原共3部分。第1部分負責(zé)注意力權(quán)重的提取、注意力圖譜的構(gòu)建、注意力權(quán)重的排序以及
個權(quán)重最大特征單元的篩選;第2部分負責(zé)分析
個權(quán)重最大特征單元周圍區(qū)域的注意力權(quán)重變化情況,選擇最大特征判別區(qū)域;第3部分是對選出的最大特征判別區(qū)域的掩蓋以及非最大特征判別區(qū)域?qū)?yīng)原特征圖的還原。
MARDrop使用計算量更小、特征提取更準(zhǔn)確的跨通道注意力機制對特征圖
進行特征提取,得到注意力權(quán)重圖譜
,然后從中篩選出部分注意力權(quán)重大的作為特征判別單元,篩選后得到注意力二值圖
。
MARDrop的提取特征判別單元結(jié)構(gòu)見圖3。提取過程為:首先,對特征圖
進行全局平均池化操作,得到一維卷積輸入層
;然后,求出
的跨信道交互范圍
,然后對輸入層
進行一維卷積處理,求出注意力權(quán)值
;使用Sigmoid函數(shù)激活
,得到嚴(yán)格單調(diào)的注意力權(quán)重圖譜
(介于0~1之間);最后,按照
中的注意力權(quán)重大小,選出
個重要特征通道(
為掩蓋比例
與總通道數(shù)
的乘積),并將其注意力權(quán)重置為1,其余全部置為0。
求出各區(qū)域注意力權(quán)重后,選出最大特征判別區(qū)域的注意力權(quán)重
,篩選公式為
(3)
通過使用每個通道及
個鄰近信道捕獲跨通道交互信息(
個鄰近通道對應(yīng)一個通道的注意力的預(yù)測),提取更準(zhǔn)確的注意力權(quán)重??缤ǖ佬畔⒔换プ饔玫母采w范圍
與通道數(shù)
成正比,通過自適應(yīng)函數(shù)確定,計算式為
由式(1)可知,TargetDrop利用全連接層的先降維后升維方法提取注意力權(quán)重,降維時會降低特征圖各信道之間的信息依賴,破壞原有空間結(jié)構(gòu),引起升維過程中注意力提取效率低且注意力權(quán)重提取不準(zhǔn)確的問題。為此,本文提出一維卷積提取注意力機制。使用注意力機制適當(dāng)捕獲跨信道交互信息,無需降維,不會破壞原有的空間結(jié)構(gòu)。注意力權(quán)重則通過結(jié)合前一層獲取的其他特征信息來確定。一維卷積提取注意力機制的過程如下。
出現(xiàn)HIV耐藥,表示該感染者體內(nèi)病毒可能耐藥,同時需要密切結(jié)合臨床情況,充分考慮HIV感染者的依從性,對藥物的耐受性及藥物的代謝吸收等因素進行綜合評判。改變抗病毒治療方案需要在有經(jīng)驗的醫(yī)師指導(dǎo)下才能進行。HIV耐藥結(jié)果陰性,表示該份樣品未檢出耐藥性,但不能確定該感染者不存在耐藥情況。
(4)
式中:
(
)表示關(guān)于通道
的自適應(yīng)函數(shù);|·|
表示向上取最近的奇數(shù)值操作;考慮到總通道數(shù)
不小于2、
不小于1,所以將
、
分別設(shè)置為2、1。
這符合自然規(guī)律,故鄉(xiāng)總是留不住漂亮的孩子。可至少我、胡來、胡去,我們?nèi)齻€沒有一點要走的意思。我們喜歡出海,但是前輩們再不讓我們跟著出海。在電視機普及以后,他們就說:要出海,沒出息。至于什么是有出息,他們還沒想太明白。爺爺說:他們呀,總是覺得小孩子背井離鄉(xiāng),老頭子衣錦還鄉(xiāng)就叫有出息。成天看著太平洋,還覺得自己眼界不夠?qū)挘皇裁呆~都認(rèn)識,還覺得自己見識不夠多。
③通過響應(yīng)面試驗設(shè)計統(tǒng)計分析得到可靠性較高的二次響應(yīng)面回歸模型,并預(yù)測最佳工藝參數(shù):對于固態(tài)發(fā)酵551H,發(fā)酵時間27 h,固態(tài)培養(yǎng)基組成/固液比值2.125,發(fā)酵溫度25℃,接種量10%;對于固態(tài)發(fā)酵552H,發(fā)酵時間48 h,固態(tài)培養(yǎng)基組成/固液比值1.5,發(fā)酵溫度30℃,接種量3%,驗證試驗證明該參數(shù)可行。
確定一維卷積中局部跨信道交互范圍
后,使用一維卷積提取每個單元對應(yīng)的注意力數(shù)據(jù),得到
。然后,使用Sigmoid函數(shù)得到連續(xù)、光滑的嚴(yán)格單調(diào)注意力權(quán)重圖譜
。計算過程為
=C1D(
,
)
(5)
=Sigmoid(
)
(6)
2
1
2 特征單元的篩選 根據(jù)注意力權(quán)重和丟棄比率
,在注意力圖譜中選出前
個最重要特征通道。以第
個的注意力權(quán)重為篩選標(biāo)準(zhǔn)(1表示被選中,0表示未選中),將得到的相應(yīng)值放入注意力二值圖
中。計算過程為
(7)
式中
、
分別為
、
中的第
個元素。
TargetDrop通過選取特征單元中的最大特征點,并以其為中心掩蓋周圍的
×
區(qū)域,實現(xiàn)掩蓋區(qū)域選擇,選擇過程為
以所占權(quán)重最大的特征單元為中心,從中心向四周延伸時,注意力權(quán)重以不同變化率隨之減小。TargetDrop使用式(2)方法,只依據(jù)特征判別單元來選擇征判別區(qū)域,未對周圍單元權(quán)重進行考究,并且如果所選特征單元代表性不足,則選擇的特征判別區(qū)域很可能不存在代表性。
為此,本文提出根據(jù)權(quán)重變化以及注意力權(quán)重特征圖來確定最大特征判別區(qū)域的方法,具體過程見圖4。根據(jù)特征判別單元圖
中各特征單元的位置,求出這些點在特征圖
上的位置坐標(biāo),以該坐標(biāo)(
,
)為中心,計算給定邊長為
的正方形區(qū)域的注意力權(quán)重,以及該區(qū)域外向上、下、左、右平移后區(qū)域的注意力權(quán)重之和,比較中心區(qū)域與平移后的區(qū)域注意力權(quán)重,選出注意力權(quán)重最大區(qū)域即最大特征判別區(qū)域。
為初始的
×
區(qū)域?qū)?yīng)的權(quán)重之和,
、
、
、
分別為
×
區(qū)域外向上、下、左、右平移后區(qū)域的注意力權(quán)重之和,計算公式為
(8)
(9)
(10)
(11)
(12)
式中
=[
,
,…,
(1,)
;…,
(,)
]。
2
1
1 注意力權(quán)重的提取 對卷積層、ReLU層處理后的特征圖
進行全局平均池化處理,將特征圖
之間的空間信息以及空間聯(lián)系聚合到相應(yīng)通道輸入層
中。計算公式為
納米藥物的應(yīng)用十分廣泛,如制備智能化藥劑,即通過機體反饋來的微環(huán)境,設(shè)計相應(yīng)的具有靶向性的納米藥物,達到特異性治療、延緩釋藥等效果,用于腫瘤、糖尿病和血管疾病等疾病的治療[3]。其次,還可以應(yīng)用于疾病診斷和某些疾病的輔助性治療,如在影像學(xué)方面的應(yīng)用。當(dāng)前,納米藥物在中藥新制劑方面的應(yīng)用也十分廣泛[4]。
=max{
,
,
,
,
}
(13)
對應(yīng)的區(qū)域就是注意力權(quán)重最大區(qū)域,即最大特征判別區(qū)域。
確定出最大特征判別區(qū)域
后,需要將其掩蓋,并還原全部未掩蓋區(qū)域,得到特征圖
。掩蓋及還原過程見圖5,圖中最大特征判別區(qū)域
中黑色為掩蓋區(qū)域,代表著最大特征判別區(qū)域,該區(qū)域元素置為0,其他紅色區(qū)域為未掩蓋區(qū)域,該區(qū)域元素置為1。將
中每個元素與原特征圖
中對應(yīng)元素相乘,得到特征圖
。
使用Python語言,在Pytorch環(huán)境開展相關(guān)實驗。參數(shù)設(shè)置為:batchsize為256,優(yōu)化器使用動量為0.9的SGD,初始學(xué)習(xí)率為0.1,在總時數(shù)比為0.4、0.6、0.8時衰減2e
倍。
掩蓋比率是選取的掩蓋特征所占總判別特征的比例,與模型對圖像分類依據(jù)所占比例相關(guān),與掩蓋尺寸無關(guān)。實驗固定掩蓋尺寸為5×5像素,在基礎(chǔ)模型MoblieNetV3
上分別加入掩蓋比率為0.05、0.1、0.15、0.2和0.25的MARDrop,對比其在數(shù)據(jù)集CIFAR-10上的分類準(zhǔn)確度,結(jié)果見圖6??梢钥闯?掩蓋比率從0.05增大到0.25時,分類精度呈先增大后減小的趨勢;掩蓋比率為0.15時,分類精度為87.25%;掩蓋比率為0.2時,分類精度達到最大,為87.27%。掩蓋比率取0.15和0.2時效果相差很小,但掩蓋比率小可以減少MAPDrop的數(shù)據(jù)處理量,提高分類效率。因此,后續(xù)實驗中取掩蓋比率為0.15。
MARDrop根據(jù)特征單元周圍注意力權(quán)重的分布情況,選擇出最大特征判別區(qū)域并進行掩蓋,需要先確定掩蓋比率和掩蓋尺寸,得到MARDrop的模型結(jié)構(gòu)后,再開展對比實驗。
本次論壇上,專家們對清華附小主題教學(xué)的新發(fā)展給予了充分肯定。北京教科院基礎(chǔ)教育課程教材發(fā)展研究中心王凱副主任認(rèn)為主題教學(xué)試圖讓學(xué)生實現(xiàn)從“在場”到“入場”的轉(zhuǎn)變,在真實體驗中實際獲得,提出了工具作為腳手架和通道的重要意義。北京師范大學(xué)胡定榮教授認(rèn)為語文學(xué)科無邊界,主題教學(xué)用課程觀引領(lǐng)了學(xué)科教學(xué)和教師專業(yè)發(fā)展。北京教育學(xué)院劉加霞院長認(rèn)為主題教學(xué)更加關(guān)注學(xué)生的體驗與獲得,采用了“分學(xué)科、綜合用”這一最有效的學(xué)習(xí)方式來真正實現(xiàn)學(xué)習(xí)方式的變革。
掩蓋尺寸是指特征判別區(qū)域尺寸,與圖像被檢測物體尺寸以及卷積提取的特征元素有關(guān),與掩蓋比例無關(guān)。
固定掩蓋比例為0.15,在MoblieNetV3上分別使用掩蓋尺寸為3×3、5×5、7×7和9×9像素的MARDrop,對比其在數(shù)據(jù)集CIFAR-10上的分類準(zhǔn)確率,結(jié)果見圖7??梢钥闯?隨著掩蓋尺寸的變化,分類準(zhǔn)確率先升高后降低,在掩蓋尺寸為5×5像素時準(zhǔn)確率達到最高,為87.25%。后續(xù)實驗中,MARDrop模塊的掩蓋比率和掩蓋尺寸分別設(shè)置為0.15、5×5像素。
由表5可以看出,銀行類型(bank)、營業(yè)收入(turnover)和關(guān)系年限(rela_len)三個變量顯著,且回歸權(quán)重均為負,這表明:(1)小微企業(yè)從國有商業(yè)銀行處獲得貸款的利率溢價較低;(2)小微企業(yè)的經(jīng)營規(guī)模越大,其獲得貸款的利率溢價較低;(3)銀企關(guān)系時間越長,小微企業(yè)越有可能獲得較低水平的貸款利率溢價,這與關(guān)系型貸款的研究結(jié)論一致。但三個信任變量并未對小微企業(yè)貸款利率產(chǎn)生顯著影響,表明高程度的銀行信任并不能幫助小微企業(yè)獲得更低的貸款利率。綜上,假說2不成立。
由表1可知,加入Dropout正則化比原基礎(chǔ)模型錯誤率更高,說明訓(xùn)練過程中過擬合更加嚴(yán)重,或者出現(xiàn)欠擬合現(xiàn)象。使用DropBlock、AttentionDrop、TargetDrop時的分類精度均比Dropout有所提升,MARDrop在兩個數(shù)據(jù)集上分類錯誤率均最小。相對于基礎(chǔ)模型,加入MARDrop后在CIFAR-10上分類錯誤率降低了9.96%,在CIFAR-100上錯誤率降低了5.83%。相比于2020年提出的TargetDrop
,MARDrop在CIFAR-10和CIFAR-100上分類錯誤率分別降低了3.63%和1.03%。
3.5.1 不同模型上的泛化性驗證 在ResNet20、VGG16、WRN28-10、MoblieNetV3S、MoblieNetV3L、EfficientnetV2和DenisNet-SE共7個網(wǎng)絡(luò)模型上,分別加MARDrop、Dropout、TargetDrop正則化方法,并在CIFAR-10數(shù)據(jù)集上測試分類準(zhǔn)確率,結(jié)果見表2。其中,EfficientnetV2和DenisNet-SE兩個模型的參數(shù)比較復(fù)雜,使用了原文中的參數(shù),其他5個模型均采用3.1小節(jié)設(shè)置的參數(shù)。
由表2可知,加入Dropout后,VGG16、WRN2810錯誤率不降反升,ResNet20的錯誤率有所下降。加入TargetDrop后,7個網(wǎng)絡(luò)模型的分類錯誤率均有所下降。MARDrop在7個網(wǎng)絡(luò)模型均獲得了最低的分類錯誤率。對于VGG16,加入MARDrop后在CIFAR-10上分類錯誤比基礎(chǔ)模型降低了10.05%,比使用TargetDrop錯誤率降低了5.77%。在2021年提出的最新模型DenisNet-SE
上,加入MARDrop后比基礎(chǔ)模型的分類錯誤率降低了5.78%。
3.5.2 不同圖像尺寸數(shù)據(jù)集上的泛化性驗證 從ImageNet數(shù)據(jù)集中選前9類制作成ImageNet_C9數(shù)據(jù)集(訓(xùn)練集和測試集按照數(shù)據(jù)量7∶3的比例劃分),分別在MoblieNetV3S、MoblieNetV3L上使用MARDrop正則化方法對ImageNet_C9數(shù)據(jù)集進行分類實驗,MARDrop參數(shù)設(shè)置以及實驗結(jié)果見表3。
由表3可知,使用MARDrop后,MoblieNetV3L錯誤率降低了14.67%。使用MobileNetV3S模型實驗時掩蓋比例調(diào)整為0.10,加入MARDrop后分類錯誤率降低了96.90%。
VE-1和世銳的推出,推動廣汽本田產(chǎn)品陣營更加多元化,更助力廣汽本田電動化戰(zhàn)略邁出堅實的一步。VE-1基于Honda成熟緊湊型SUV平臺開發(fā),搭載永磁同步電機及53.6千瓦時三元鋰電池包,工況續(xù)航里程為340公里,等速續(xù)航里程為430公里。世銳搭載1.5升阿特金森循環(huán)發(fā)動機和國內(nèi)首創(chuàng)G-MC無級變速機電耦合系統(tǒng)組成的插電式混動系統(tǒng),配合12千瓦時電池組,可實現(xiàn)純電驅(qū)動、增程及混合動力多種驅(qū)動模式。
臨床上應(yīng)加大對樣本采集及送檢環(huán)節(jié)的監(jiān)督與管理力度,并且應(yīng)制定出規(guī)范、科學(xué)的管理制度標(biāo)準(zhǔn);在采樣前,應(yīng)該充分做好相關(guān)的準(zhǔn)備工作,盡可能地避免人為操作意外的出現(xiàn);注意樣本采集的最佳時間,以防感染外源性細菌而影響檢驗質(zhì)量;樣本采集完畢后,應(yīng)在規(guī)定時間內(nèi)送試驗室進行檢驗,根據(jù)樣本類型的不同而采用不同的處理方法;一般試驗室溫度最好控制在19~26℃之間,濕度維持在40%~60%之間,從而確保臨床免疫檢驗結(jié)果的精準(zhǔn)性;注重檢驗方法的合理選擇,盡量應(yīng)用較常見的試劑,確保檢驗方法具有較高的重復(fù)性、特異性及敏感性,并且無交叉反應(yīng)。[3]
以文獻[25]中搭建的Model2為基礎(chǔ)模型,在CIFAR-10數(shù)據(jù)集上測試MARDrop的優(yōu)越性及其和不同優(yōu)化器或者正則化方法相結(jié)合的靈活性,每組實驗的參數(shù)設(shè)置相同,測試結(jié)果見表4。表中,SGD和Adam是Model2基礎(chǔ)模型的測試結(jié)果。
由表4可知,相對于基礎(chǔ)模型,使用正則化方法后,測試集與訓(xùn)練集的損失函數(shù)值明顯減小,訓(xùn)練準(zhǔn)確率與測試準(zhǔn)確率差值減小。采用正則化方法組合的優(yōu)化方案后,訓(xùn)練集準(zhǔn)確率小于100%,且測試集準(zhǔn)確率遠大于原模型準(zhǔn)確率,說明優(yōu)化后模型的擬合程度高于原模型擬合程度。從分類精度的角度分析,使用優(yōu)化器Adam的基礎(chǔ)模型效果較好。在此基礎(chǔ)模型上加入不同正則化方法后,除了加入
正則化后分類精度降低外,其余均有所提升。使用優(yōu)化器SGD的基礎(chǔ)模型效果較差,比使用Adam時的分類精度低了4.20%。為了更好地顯示MARDrop的優(yōu)勢,在使用SGD的基礎(chǔ)模型上分別引入MARDrop、MARDrop+BN、MARDrop+BN+ReLU6,開展3個實驗??梢钥闯?相對于僅使用SGD時的分類精度76.49%,3個實驗的分類精度分別提高到了87.81%、90.20%和91.44%,提升率分別為14.79%、17.92%和19.55%。
為了解決現(xiàn)有正則化方法對過擬合現(xiàn)象處理效果不足的缺點,本文提出使用跨通道的注意力機制提取注意力權(quán)重,根據(jù)注意力權(quán)重選擇特征單元并通過比較附近區(qū)域權(quán)重大小選擇出注意力權(quán)重最大區(qū)域,最后將該區(qū)域掩蓋并還原為特征圖的正則化方法。為了證明該方法的有效性,本文將MARDrop方法用于不同CNN分類模型,在CIFAR-10、CIFAR-100數(shù)據(jù)集進行圖像分類測試。測試結(jié)論如下。
(1)確定掩蓋比率和掩蓋尺寸的實驗結(jié)果表明,可以通過調(diào)節(jié)MARDrop的掩蓋比率和掩蓋尺寸使擬合情況達到最優(yōu)。
(2)MARDrop與不同Drop機制正則化方法對比,錯誤率均最低。相比于對過擬合處理最好的TargetDrop,使用MARDrop在CIFAR-10、CIFAR-100上分類錯誤率分別降低了3.63%、1.03%。證明了該方法相對于同類方法的優(yōu)越性。
(3)DenisNet-SE等7種模型經(jīng)MARDrop優(yōu)化后在CAFIR-10上的分類錯誤率均有所降低。使用MoblieNetV3在圖像尺寸不同的ImageNet-C9數(shù)據(jù)集上分類錯誤率相對于基礎(chǔ)模型分別降低了14.67%和96.90%。這兩組實驗證明了MARDrop方法的泛化性。
(4)使用包含MARDrop的多種正則化方法優(yōu)化后,模型在CAFIR-10上的擬合程度遠高于使用其他正則化方法優(yōu)化的模型,其中使用MARDrop+BN(ReLU6+SGD)方法優(yōu)化后在CIFAR-10上的分類準(zhǔn)確率比原模型提高了19.55%,證明了MARDrop方法的靈活性。
:
[1]呂永標(biāo), 趙建偉, 曹飛龍. 基于復(fù)合卷積神經(jīng)網(wǎng)絡(luò)的圖像去噪算法 [J]. 模式識別與人工智能, 2017, 30(2): 97-105.
Lü Yongbiao, ZHAO Jianwei, CAO Feilong. Image denoising algorithm based on composite convolutional neural network [J]. Pattern Recognition and Artificial Intelligence, 2017, 30(2): 97-105.
[2]SONG Jia, GAO Shaohua, ZHU Yunqiang, et al. A survey of remote sensing image classification based on CNNs [J]. Big Earth Data, 2019, 3(3): 232-254.
[3]宋長明, 王赟. 融合低秩和稀疏表示的圖像超分辨率重建算法 [J]. 西安交通大學(xué)學(xué)報, 2018, 52(7): 18-24.
SONG Changming, WANG Yun. Super resolution reconstruction algorithm combined low rank with sparse representation [J]. Journal of Xi’an Jiaotong University, 2018, 52(7): 18-24.
[4]ZHANG Xiangyu, LI Jianqing, CAI Zhipeng, et al. Over-fitting suppression training strategies for deep learning-based atrial fibrillation detection [J]. Medical & Biological Engineering & Computing, 2021, 59(1): 165-173.
[5]任義麗, 羅路. 卷積神經(jīng)網(wǎng)絡(luò)過擬合問題研究 [J]. 信息系統(tǒng)工程, 2019(5): 140, 142.
REN Yili, LUO Lu. Research on over-fitting of convolutional neural networks [J]. China CIO News, 2019(5): 140, 142.
[6]謝璐陽, 夏兆君, 朱少華, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像識別過擬合問題分析與研究 [J]. 軟件工程, 2019, 22(10): 27-29, 26.
XIE Luyang, XIA Zhaojun, ZHU Shaohua, et al. Analysis and research of overfitting of image recognition based on convolutional neural networks [J]. Software Engineering, 2019, 22(10): 27-29, 26.
[7]HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition [C]∥Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2016: 770-778.
[8]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale visual recognition [C/OL]∥Proceedings of the International Conference on Learning Representations. London, UK: ICLR, 2015 [2021-05-01]. https: ∥arxiv.org/pdf/1409. 1556.pdf.
[9]ZAGORUYKO S, KOMODAKIS N. Wide residual networks [C]∥Proceedings of the 2016 British Machine Vision Conference (BMVC). Guildford, UK: BMVA Press, 2016: 1-15.
[10]HOWARD A G, ZHU Menglong, CHEN Bo, et al. MobileNets: efficient convolutional neural networks for mobile vision applications [EB/OL]. [2021-05-01]. https: ∥arxiv.org/abs/1704.04861.
[11]KAVYASHREE P S P, EL-SHARKAWY M. Compressed MobileNet V3: a light weight variant for resource-constrained platforms [C]∥Proceedings of the 2021 IEEE 11th Annual Computing and Communication Workshop and Conference (CCWC). Piscataway, NJ, USA: IEEE, 2021: 0104-0107.
[12]TAN Mingxing, LE Q V. EfficientNetV2: smaller models and faster training [C]∥Proceedings of the 38th International Conference on Machine Learning. Princeton, NJ, USA: IMLS, 2021: 10096-10106.
[13]YANG Mingming, MA Tinghuai, TIAN Qing, et al. Aggregated squeeze-and-excitation transformations for densely connected convolutional networks [J/OL]. The Visual Computer, 2021 [2021-05-01]. https: ∥doi.org/10.1007/s00371-021-02144-z.
[14]WANG Haojun, LONG Haixia, WANG Ailan, et al. Deep learning and regularization algorithms for malicious code classification [J]. IEEE Access, 2021, 9: 91512-91523.
[15]LIU Ziqi. XU Yanbin, DONG Feng.
-
spatial adaptive regularization method for electrical tomography [C]∥Proceedings of the 2019 Chinese Control Conference (CCC). Piscataway, NJ, USA: IEEE, 2019: 3346-3351.
[16]ABBASI A N, HE Mingyi. Convolutional neural network with PCA and batch normalization for hyperspectral image classification [C]∥Proceedings of the 2019 IEEE International Geoscience and Remote Sensing Symposium. Piscataway, NJ, USA: IEEE, 2019: 959-962.
[17]SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting [J]. The Journal of Machine Learning Research, 2014, 15(1): 1929-1958.
[18]ZOPH B, VASUDEVAN V, SHLENS J, et al. Learning transferable architectures for scalable image recognition [C]∥Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2018: 8697-8710.
[19]ZENG Yuyuan, DAI Tao, XIA Shutao. Corrdrop: correlation based dropout for convolutional neural networks [C]∥Proceedings of the 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Piscataway, NJ, USA: IEEE, 2020: 3742-3746.
[20]PAN Hengyue, NIU Xin, LI Rongchun, et al. DropFilterR: a novel regularization method for learning convolutional neural networks [J]. Neural Processing Letters, 2020, 51(2): 1285-1298.
[21]GHIASI G, LIN T Y, LE Q V. DropBlock: a regularization method for convolutional networks [C]∥Proceedings of the 32nd International Conference on Neural Information Processing Systems. Vancouver, Canada: NIPS, 2018: 10750-10760.
[22]OUYANG Zhihao, FENG Yan, HE Zihao, et al. Attentiondrop for convolutional neural networks [C]∥Proceedings of the 2019 IEEE International Conference on Multimedia and Expo (ICME). Piscataway, NJ, USA: IEEE, 2019: 1342-1347.
[23]ZHU Hui, ZHAO Xiaofang. TargetDrop: a targeted regularization method for convolutional neural networks [EB/OL]. [2021-05-01]. https: ∥arxiv.org/abs/2010.10716.
[24]HU Jie, SHEN Li, SUN Gang. Squeeze-and-excitation networks [C]∥Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2018: 7132-7141.
[25]MARIN I, KUZMANIC SKELIN A, GRUJIC T, et al. Empirical evaluation of the effect of optimization and regularization techniques on the generalization performance of deep convolutional neural network [J]. Applied Sciences, 2020, 10(21): 7817.