鄧洪武,邢 凱,王志勇,李亞鳴,胡 璇
(中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230027)
(中國(guó)科學(xué)技術(shù)大學(xué) 蘇州高等研究院,江蘇 蘇州 215123)
E-mail:denghw@mail.ustc.edu.cn
近年來(lái)隨著深度學(xué)習(xí)在計(jì)算機(jī)圖像識(shí)別領(lǐng)域的快速發(fā)展,深度學(xué)習(xí)及多種預(yù)訓(xùn)練模型被廣泛應(yīng)用在多類高價(jià)值應(yīng)用場(chǎng)景,比如安防監(jiān)控,自動(dòng)駕駛與智能醫(yī)療等.對(duì)于多類指定圖像識(shí)別任務(wù),近幾年出現(xiàn)的深度學(xué)習(xí)預(yù)訓(xùn)練模型性能已大幅超過(guò)了傳統(tǒng)圖像識(shí)別模型.這主要得益于3個(gè)方面:信息化時(shí)代產(chǎn)生的大規(guī)模數(shù)據(jù)集、滿足計(jì)算要求的海量算力,以及高效的算法.
盡管深度學(xué)習(xí)預(yù)訓(xùn)練模型在圖像識(shí)別領(lǐng)域的指定任務(wù)上已取得了比傳統(tǒng)模型更加優(yōu)異的成績(jī),但它在進(jìn)一步廣泛應(yīng)用之前,仍然有很多挑戰(zhàn)需要解決.首先,如何提高模型的泛化能力是深度學(xué)習(xí)預(yù)訓(xùn)練模型能否廣泛應(yīng)用的關(guān)鍵[1].目前圖像識(shí)別領(lǐng)域的深度學(xué)習(xí)模型一般都是基于監(jiān)督學(xué)習(xí)[2],即先在已知標(biāo)簽的數(shù)據(jù)集中進(jìn)行訓(xùn)練然后再應(yīng)用.但是圖像識(shí)別的應(yīng)用場(chǎng)景與其訓(xùn)練場(chǎng)景往往并不相同,即訓(xùn)練集和測(cè)試集的數(shù)據(jù)分布不同,很多測(cè)試/應(yīng)用場(chǎng)景在訓(xùn)練集中并沒(méi)有出現(xiàn)過(guò),因此要求模型具有較好的泛化能力.其次,如何獲取并合理利用數(shù)據(jù)集是構(gòu)建有效模型的前提.深度學(xué)習(xí)模型一般需要大規(guī)模數(shù)據(jù)集進(jìn)行訓(xùn)練,但是大規(guī)模數(shù)據(jù)集往往是難以獲得的,導(dǎo)致很多本應(yīng)有效的算法在數(shù)據(jù)量不足時(shí)難以達(dá)到較好的效果.另一方面,如何利用超大規(guī)模數(shù)據(jù)集達(dá)到算法的極限性能也是應(yīng)用的重要需求,比如在自動(dòng)駕駛和智慧醫(yī)療的應(yīng)用場(chǎng)景中,數(shù)據(jù)集往往易于獲得,但是算法出錯(cuò)的成本非常高,一般需要對(duì)噪音/干擾具有良好魯棒性的模型.
針對(duì)上述研究挑戰(zhàn),學(xué)者們?cè)诋?dāng)前研究中提出了多種解決思路.考慮到深度學(xué)習(xí)模型通常是基于梯度下降算法得到,但是其優(yōu)化空間十分復(fù)雜,難以優(yōu)化且易陷入局部極小值.因此對(duì)于該類情況的針對(duì)性優(yōu)化可以緩解這種問(wèn)題,比如Adagrad[3]根據(jù)梯度動(dòng)態(tài)調(diào)整學(xué)習(xí)率,Momentum[4]借鑒動(dòng)量的思想,積累之前狀態(tài)的動(dòng)量來(lái)代替當(dāng)前梯度.Adam W[5]為了緩解過(guò)擬合現(xiàn)象,在模型中加入正則化.Demon[6]基于迭代進(jìn)度來(lái)調(diào)整momentum參數(shù)以提升優(yōu)化算法的性能.雖然這些方法在不同程度上都提升了模型的表現(xiàn),卻并沒(méi)有解決梯度下降算法的根本問(wèn)題,其模型泛化性能始終存在理論上的缺陷.
針對(duì)數(shù)據(jù)集規(guī)模問(wèn)題,當(dāng)前研究通常是對(duì)通用數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),或是利用元學(xué)習(xí)[7-9],或是對(duì)模型添加先驗(yàn)信息的方式[10],以此來(lái)從較少樣本中學(xué)習(xí)到較好的模型.這些方法都在一定程度上提升了模型的泛化性能,但仍然對(duì)數(shù)據(jù)規(guī)模/先驗(yàn)信息提出了一定要求.針對(duì)小樣本數(shù)據(jù)的問(wèn)題,基于監(jiān)督學(xué)習(xí)的訓(xùn)練方式仍然面臨較大挑戰(zhàn).該領(lǐng)域的研究仍需要進(jìn)一步從分布角度而非樣本層面來(lái)對(duì)模型和相應(yīng)的學(xué)習(xí)過(guò)程進(jìn)行處理,以做到更好的概念層次的泛化.
針對(duì)深度學(xué)習(xí)預(yù)訓(xùn)練模型的泛化能力問(wèn)題,近期研究中學(xué)者們進(jìn)一步提出對(duì)深度網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)進(jìn)行優(yōu)化的思路,以此來(lái)提高模型對(duì)不同數(shù)據(jù)分布的泛化識(shí)別能力.比如利用隨機(jī)dropout[11]來(lái)嘗試找到更好的參數(shù)和結(jié)構(gòu),或是通過(guò)改良激活函數(shù)如Swish[12]使得模型在優(yōu)化時(shí)可能跳出局部極小值,Mish[13]在此基礎(chǔ)上通過(guò)設(shè)計(jì)更平滑的激活函數(shù)使得模型泛化性能進(jìn)一步提升.何凱明提出的動(dòng)量對(duì)比(MoCo)[14]是一種通過(guò)使用對(duì)比損失將一個(gè)已編碼的查詢與一個(gè)已編碼的鍵詞典進(jìn)行匹配來(lái)訓(xùn)練一個(gè)視覺(jué)表征編碼器的無(wú)監(jiān)督學(xué)習(xí)方法.SinGAN[15]是一個(gè)可以從單張自然圖片學(xué)習(xí)的非條件性生成式模型,模型采用多個(gè)全卷積GANs組成的金字塔結(jié)構(gòu),每個(gè)層級(jí)的網(wǎng)絡(luò)學(xué)習(xí)了圖片上不同位置和尺度的分布信息.目前該方向的進(jìn)展多聚焦于特定模型的網(wǎng)絡(luò)結(jié)構(gòu)/參數(shù)優(yōu)化,亟需一種網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化的高效的通用指導(dǎo)方法.而同樣針對(duì)不同尺寸的物體,Wang等人[16]提出了FPN通過(guò)多尺度信息融合增加模型泛化性能.而SOLO[17]的核心思想是將實(shí)例分割問(wèn)題重新定義為類別感知預(yù)測(cè)問(wèn)題和實(shí)例感知掩碼生成問(wèn)題,將實(shí)例分割問(wèn)題轉(zhuǎn)化為逐像素的語(yǔ)義類別分類任務(wù).
此外,在圖像識(shí)別領(lǐng)域中,基于深度學(xué)習(xí)的特征提取通常是采用卷積神經(jīng)網(wǎng)絡(luò)[18],但不可避免的,特征圖中會(huì)存在很多與主體特征無(wú)關(guān)的信息.這些噪聲信息不僅會(huì)影響特征提取器的性能,導(dǎo)致模型性能變差,易受干擾,還會(huì)消耗過(guò)多的算力.因此如何識(shí)別有效信息并構(gòu)建高效的特征組合,也是提高深度學(xué)習(xí)網(wǎng)絡(luò)泛化性能的關(guān)鍵.
另外就當(dāng)前的深度學(xué)習(xí)模型來(lái)看,用于特征分類的網(wǎng)絡(luò)結(jié)構(gòu),如全連接層和池化層還存在可解釋性不強(qiáng),特征分類意義不明確的問(wèn)題[19].針對(duì)以上問(wèn)題,本文通過(guò)時(shí)不變穩(wěn)定性和調(diào)制干預(yù)對(duì)模型特征提取結(jié)果進(jìn)行去噪,篩選出有意義的節(jié)點(diǎn),然后利用夏普比率和注意力機(jī)制對(duì)中間數(shù)據(jù)進(jìn)行組合,生成和數(shù)據(jù)分布密切相關(guān),具有概念層次含義的具有可比較性的特征,并進(jìn)行分類.
本文從分布的角度對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行評(píng)價(jià),通過(guò)時(shí)不變特性對(duì)模型進(jìn)行去噪,同時(shí)利用夏普比率可以計(jì)算最優(yōu)投資組合的特性,設(shè)計(jì)獨(dú)特的收益函數(shù),將低維特征組合為高維特征,并結(jié)合注意力機(jī)制生成概念層次的特征.本文創(chuàng)新點(diǎn)如下:
1)基于時(shí)不變穩(wěn)定性從分布角度對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行分析并篩選具有時(shí)不變穩(wěn)定性的子結(jié)構(gòu).
2)通過(guò)與分布相關(guān)的Wasserstein度量來(lái)構(gòu)造收益函數(shù),引入夏普比率來(lái)選擇性構(gòu)建神經(jīng)元聚合子結(jié)構(gòu)實(shí)現(xiàn)特征生成.
3)基于所生成的弱/去相關(guān)性的有效特征,通過(guò)注意力機(jī)制構(gòu)建概念層次的embedding表征.
本文的內(nèi)容組織如下:第2部分主要描述本文采用的技術(shù),第3部分講述研究?jī)?nèi)容及實(shí)驗(yàn)設(shè)計(jì),第4部分是本文實(shí)驗(yàn)設(shè)計(jì)的工作原理及理論推導(dǎo),第5部分詳述實(shí)驗(yàn)結(jié)果及結(jié)論,最后第6部分進(jìn)行總結(jié)與展望.
模型的時(shí)不變穩(wěn)定性[20]是指在輸入端改變輸入時(shí)間時(shí)輸出端只會(huì)改變輸出的時(shí)間而不改變輸出值的特性,因此模型需要滿足疊加性和均勻性,并且參數(shù)不隨時(shí)間改變.Sain的研究表明[20],時(shí)不變穩(wěn)定的結(jié)構(gòu)在受到有界擾動(dòng)的時(shí)候,即使其初始偏差很大,只要后續(xù)取消其擾動(dòng),模型都能夠最大限度地恢復(fù)到初始的平衡狀態(tài).圖像識(shí)別的工作類似于對(duì)圖片去噪,獲取本質(zhì)的信息,而具備時(shí)不變穩(wěn)定結(jié)構(gòu)的圖像識(shí)別模型可以在存在噪聲的情況下經(jīng)過(guò)一定的信息處理恢復(fù)本質(zhì)特征.深度學(xué)習(xí)時(shí)不變穩(wěn)定結(jié)構(gòu)的發(fā)現(xiàn)需要借助因果干預(yù)手段.由于時(shí)序數(shù)據(jù)的獲取難度很大,本文采用基于非時(shí)序的因果關(guān)系,通過(guò)添加調(diào)制的干預(yù)生成數(shù)據(jù),進(jìn)而挖掘具有因果性的時(shí)不變穩(wěn)定子結(jié)構(gòu).
Pearl的研究[21]表明,深度學(xué)習(xí)模型在具有比較確定的因果性時(shí)泛化性能優(yōu)良,而Pearl認(rèn)為,因果性分為3個(gè)層次:相關(guān)性、干預(yù)和反事實(shí)推理,由于目前的卷積神經(jīng)網(wǎng)絡(luò)的構(gòu)建基礎(chǔ)為相關(guān)性,導(dǎo)致其性能存在理論上的上限,因此只有提高因果性的層次才可以達(dá)到更高的泛化性能.在相關(guān)性的基礎(chǔ)上,對(duì)模型提出更深層次的要求,如果模型受到干預(yù)時(shí)節(jié)點(diǎn)比較穩(wěn)定,模型結(jié)構(gòu)就滿足了第2層次的要求,而這種模型結(jié)構(gòu)就是時(shí)不變穩(wěn)定結(jié)構(gòu).
Wasserstein度量[22]可以描述兩個(gè)分布之間的距離,定義兩個(gè)概率測(cè)度之間的Wasserstein距離為:
(1)
其中X~μ,Y~γ為在概率空間Ω上的任意兩個(gè)概率測(cè)度,d(x,y)為概率空間上的一個(gè)度量.
根據(jù)上述定義,Wasserstein度量實(shí)際上刻畫(huà)了兩個(gè)概率測(cè)度或者實(shí)際情況中兩個(gè)樣本分布之間的距離表征,可以表述為從一個(gè)分布轉(zhuǎn)化到另外一個(gè)分布所需要的代價(jià).本文中之所以采用Wasserstein距離,是因?yàn)槠渥鳛橐粋€(gè)距離度量來(lái)說(shuō)是對(duì)稱的,并且在兩個(gè)分布距離較遠(yuǎn)甚至毫無(wú)重合區(qū)域時(shí)仍然可以度量?jī)煞N分布之間的差別,不會(huì)出現(xiàn)梯度消失的情況,這有助于我們計(jì)算距離并進(jìn)行優(yōu)化.
世界有一個(gè)基本規(guī)律:收益越高、風(fēng)險(xiǎn)越高,當(dāng)一個(gè)產(chǎn)品收益很高但是風(fēng)險(xiǎn)很低的時(shí)候,一定會(huì)有很多資本進(jìn)入導(dǎo)致平均收益降低.在深度學(xué)習(xí)中,模型需要確定每個(gè)特征的重要性并分配權(quán)重,從而逼近正確結(jié)果,這與構(gòu)建最優(yōu)投資組合有異曲同工之妙.夏普比率[23,24]可以通過(guò)計(jì)算收益與風(fēng)險(xiǎn)的關(guān)系,獲取單只股票的投資比重,因此可以將夏普比率應(yīng)用到神經(jīng)網(wǎng)絡(luò)權(quán)重計(jì)算上.如圖1所示,市場(chǎng)中所有的風(fēng)險(xiǎn)證券的市場(chǎng)組合會(huì)構(gòu)成一個(gè)可行區(qū)域,而投資者會(huì)從這些可行區(qū)域中選擇最優(yōu)的市場(chǎng)組合.
圖1 夏普比率Fig.1 Sharpe ratio
圖1中,曲線表示有效前沿,在未考慮無(wú)風(fēng)險(xiǎn)收益的前提下,有效前沿上半曲線上的點(diǎn)都是市場(chǎng)最優(yōu)證券組合.當(dāng)無(wú)風(fēng)險(xiǎn)收益介入時(shí),曲線中存在某個(gè)點(diǎn)能達(dá)到最大收益,此點(diǎn)的斜率為夏普比率,此點(diǎn)為夏普比率最大的點(diǎn).當(dāng)無(wú)風(fēng)險(xiǎn)收益介入的時(shí)候,可將曲線上的每個(gè)點(diǎn)與無(wú)風(fēng)險(xiǎn)收益點(diǎn)進(jìn)行連接構(gòu)成資本配置線,當(dāng)資本配置線與有效前沿相切時(shí)夏普比率最大,此時(shí)資本配置線被稱為資本市場(chǎng)線,切點(diǎn)為存在無(wú)風(fēng)險(xiǎn)收益時(shí)的最優(yōu)市場(chǎng)組合.資本市場(chǎng)線的公式為:
(2)
其中RA表示市場(chǎng)組合A的收益,σA和σP分別表示市場(chǎng)組合A和P的標(biāo)準(zhǔn)差,rf表示無(wú)風(fēng)險(xiǎn)資產(chǎn)f的收益.經(jīng)過(guò)無(wú)風(fēng)險(xiǎn)收益點(diǎn)的最大斜率資本配置線其斜率即為夏普比率:
(3)
夏普比率又稱報(bào)酬-波動(dòng)性比率,刻畫(huà)了投資組合每多承擔(dān)一單位總風(fēng)險(xiǎn)時(shí)所獲得的超額報(bào)酬,在給定標(biāo)準(zhǔn)差的情況下,夏普比率越高的投資組合其在同樣風(fēng)險(xiǎn)下?lián)碛懈叩钠谕找?
超大規(guī)模數(shù)據(jù)集和超大算力處理器的出現(xiàn)使得深度學(xué)習(xí)在新時(shí)代得以大展拳腳,各種高效的深度學(xué)習(xí)模型層出不窮.LeCun等人[25]提出了 LeNet-5 網(wǎng)絡(luò),此網(wǎng)絡(luò)包含了深度學(xué)習(xí)的基本模塊:卷積層、池化層和全連接層,通過(guò)兩次卷積和池化提取特征,再使用三層全連接層對(duì)特征進(jìn)行分類.LeNet-5網(wǎng)絡(luò)在手寫(xiě)數(shù)字識(shí)別任務(wù)中達(dá)到了99.2%的分類準(zhǔn)確率,證實(shí)了卷積神經(jīng)網(wǎng)絡(luò)在圖像分類任務(wù)中確實(shí)存在優(yōu)越性.但是LeNet-5存在訓(xùn)練數(shù)據(jù)集規(guī)模小、泛化能力弱、訓(xùn)練開(kāi)銷(xiāo)大的缺點(diǎn).為此,Krizhevsky 等[26]提出了AlexNet 網(wǎng)絡(luò),主要是使用了 ReLU 激活函數(shù)代替Sigmoid,從而解決網(wǎng)絡(luò)較深時(shí)的梯度彌散問(wèn)題,使得梯度下降的速度進(jìn)一步加快;同時(shí)引入 Dropout 技術(shù),降低網(wǎng)絡(luò)的過(guò)擬合程度,降低訓(xùn)練模型計(jì)算量.Simonyan 等[27]提出了 VGG 網(wǎng)絡(luò),通過(guò)反復(fù)堆疊 3×3 的卷積核和 2×2 的最大池化層,實(shí)現(xiàn)了16~19層的卷積神經(jīng)網(wǎng)絡(luò).網(wǎng)絡(luò)采用多尺度訓(xùn)練策略增加了數(shù)據(jù)量,證明了在一定程度上,神經(jīng)網(wǎng)絡(luò)越深,效果越好.由于更深的網(wǎng)絡(luò)和更小的卷積核帶來(lái)的隱式正則化效果,VGG只需要較少的迭代次數(shù)就可以收斂.VGG 網(wǎng)絡(luò)在圖像分類和物體定位任務(wù)上都取得了很好的效果,但網(wǎng)絡(luò)深度的增加會(huì)帶來(lái)訓(xùn)練誤差增大的網(wǎng)絡(luò)退化問(wèn)題.
He等[28]提出了ResNet 網(wǎng)絡(luò),解決了深層網(wǎng)絡(luò)訓(xùn)練的退化問(wèn)題.ResNet 通過(guò)殘差模塊,設(shè)置恒等映射增加模型的深度.ResNet的結(jié)構(gòu)可以極快地加速超深神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,并且模型能夠達(dá)到很高的準(zhǔn)確率.ResNet網(wǎng)絡(luò)的出現(xiàn),使得構(gòu)建超深層網(wǎng)絡(luò)成為現(xiàn)實(shí),網(wǎng)絡(luò)的深度目前可達(dá)到1000層以上,對(duì)卷積神經(jīng)網(wǎng)絡(luò)的后續(xù)發(fā)展有著深遠(yuǎn)的意義.
Szegedy 等[29]為了優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),降低網(wǎng)絡(luò)復(fù)雜度,提出了 GoogLeNet網(wǎng)絡(luò).網(wǎng)絡(luò)深度為22層,由若干Inception模塊級(jí)聯(lián)而成,采用全局平局池化層替代最后的全連接層,增加輔助分類節(jié)點(diǎn),最終以 93.33%的Top-5準(zhǔn)確率獲得ILSVRC 2015比賽分類任務(wù)的冠軍.Inception 模塊通過(guò)使用多種不同的卷積核提取不同層次的特征,然后綜合特征進(jìn)行預(yù)測(cè).同時(shí),1×1 的卷積可以用很小的計(jì)算量增加一層特征變換和非線性化,不僅可以改變輸入輸出的維度,并且可以將不同通道的信息進(jìn)行融合,增加特征之間的互信息.Huang等人[30]使用比ResNet更密集的短路連接,進(jìn)一步擴(kuò)展了Shortcut的思想,不僅進(jìn)一步緩解了梯度消失的問(wèn)題,促進(jìn)了特征重用,還降低了模型的參數(shù)量.
本方法由3部分組成:1)首先采用ResNet預(yù)訓(xùn)練模型作為基礎(chǔ)網(wǎng)絡(luò),通過(guò)基于時(shí)不變穩(wěn)定性的網(wǎng)絡(luò)結(jié)構(gòu)定向選擇性dropout對(duì)模型進(jìn)行去噪;2)進(jìn)而利用Wasserstein度量和夏普比率選擇性構(gòu)建神經(jīng)元聚合結(jié)構(gòu)來(lái)獲取高維抽象特征;3)在此基礎(chǔ)上,利用注意力機(jī)制和全連接層提取具有概念層次意義的embedding表征,生成泛化模型.
ResNet等預(yù)訓(xùn)練模型由卷積層和分類層構(gòu)成,其中卷積層作為圖像領(lǐng)域最常見(jiàn)的特征提取網(wǎng)絡(luò),由全連接網(wǎng)絡(luò)通過(guò)局部采樣和權(quán)值共享改良而成.工作原理是基于局部數(shù)據(jù)構(gòu)建局部特征,基于底層局部輸出進(jìn)一步構(gòu)建高維抽象特征.但是對(duì)于卷積神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),其特征提取結(jié)果是冗余的,往往存在噪聲背景特征.如果采用這些特征直接進(jìn)行圖像分類,結(jié)果顯然不是最優(yōu)的.因此,如何識(shí)別出有效的輸出并進(jìn)行處理,成為提高深度學(xué)習(xí)網(wǎng)絡(luò)泛化性能的關(guān)鍵.篩選有效中間輸出的原理是:根據(jù)Mellor J等人[31]的實(shí)驗(yàn)結(jié)果,當(dāng)數(shù)據(jù)變化的時(shí)候,其損失函數(shù)相對(duì)于輸入數(shù)據(jù)的雅可比矩陣可以看成一個(gè)長(zhǎng)向量,性能越好的結(jié)構(gòu),在不同數(shù)據(jù)之間,其雅可比矩陣越不相關(guān).
基于Pearl的理論[21],模型具有良好泛化能力的前提是其存在比較明確的因果關(guān)系,而由于卷積層的構(gòu)建基礎(chǔ)為相關(guān)性,因此其中不穩(wěn)定的節(jié)點(diǎn)會(huì)受到噪聲的影響.對(duì)于同樣的卷積核,如果具有相同本質(zhì)特征的同類圖片輸入,其輸出的分布如果較為穩(wěn)定,則不易受噪聲/干擾影響;反之,易受噪聲/干擾影響的節(jié)點(diǎn)的輸出分布是不穩(wěn)定的.同時(shí)Pearl提出,因果性分為3個(gè)層次:相關(guān)性、干預(yù)和反事實(shí)推理,因此如果模型受到干預(yù)時(shí)節(jié)點(diǎn)比較穩(wěn)定,模型結(jié)構(gòu)就滿足了第2層次的要求,也就能篩選出其中以因果性為基礎(chǔ)而實(shí)現(xiàn)的子結(jié)構(gòu),進(jìn)而實(shí)現(xiàn)泛化能力的優(yōu)化.因此本文采用干預(yù)調(diào)制的方法將原有的非時(shí)序數(shù)據(jù)生成序列數(shù)據(jù),對(duì)模型輸出結(jié)果進(jìn)行評(píng)價(jià),進(jìn)而評(píng)價(jià)網(wǎng)絡(luò)模型結(jié)構(gòu),指導(dǎo)模型生成.本文采用Wasserstein距離對(duì)數(shù)據(jù)分布進(jìn)行度量,而數(shù)據(jù)分布與調(diào)制曲線的關(guān)系采用因果關(guān)系檢驗(yàn)進(jìn)行檢測(cè).
干預(yù)調(diào)制可采用多種不同的方式,例如采用調(diào)制的高斯模糊函數(shù):
(4)
干預(yù)調(diào)制的步驟設(shè)計(jì)如下:
1)對(duì)于多個(gè)不同的樣本進(jìn)行相同的調(diào)制序列干預(yù),每個(gè)樣本生成多張不同的圖片;
2)獲取模型特征提取層的結(jié)果,其維度是[樣本數(shù),數(shù)據(jù)增強(qiáng)個(gè)數(shù)];
3)將采樣點(diǎn)輸出作為分布,找出此分布與調(diào)制曲線的關(guān)系以及采樣點(diǎn)之間的關(guān)系.
通過(guò)兩種篩選標(biāo)準(zhǔn)對(duì)模型結(jié)果進(jìn)行去噪:1)同類樣本添加背景噪聲,選擇Wasserstein距離分布穩(wěn)定的節(jié)點(diǎn);2)同類樣本添加主體調(diào)制噪聲,選擇模型輸出結(jié)果與調(diào)制曲線存在因果關(guān)系的節(jié)點(diǎn).針對(duì)時(shí)間序列上的數(shù)據(jù)分布與原始調(diào)制序列之間因果關(guān)系的檢測(cè),采用協(xié)整檢驗(yàn)[32].
Ruder等人[33]的研究顯示,在高維空間中直接采用梯度進(jìn)行數(shù)值優(yōu)化存在一定的局限性,而從分布角度[34]則比較穩(wěn)定,所以本文采用分布角度的優(yōu)化替代梯度下降.而在高維空間的高維曲面上找到合理的分布則需要借助最優(yōu)傳輸距離,通過(guò)找到最有效的傳輸路徑獲得合理且高效的優(yōu)化方法.采樣獲得的特征圖與高維空間上物體本質(zhì)的分布表達(dá)存在距離,而如何進(jìn)行有效逼近就是特征解釋函數(shù)的作用,也就是希望找到每個(gè)特征與最優(yōu)表達(dá)之間的最優(yōu)傳輸路徑[35,36],我們采用Wasserstein距離進(jìn)行衡量.確定度量方式與特征采樣分布后,就可以采用夏普比率構(gòu)建最優(yōu)資產(chǎn)組合.
通過(guò)第1節(jié)中篩選有效節(jié)點(diǎn)的步驟,我們?nèi)コ薈NN卷積結(jié)構(gòu)中易受噪聲/干擾影響的點(diǎn).然后對(duì)每個(gè)點(diǎn)選取與其負(fù)相關(guān)性高以及一部分不相關(guān)的采樣點(diǎn)并將其作為一個(gè)整體,采用協(xié)方差矩陣并借鑒夏普比率獲取整體的最優(yōu)組合.使用夏普比率從采樣點(diǎn)構(gòu)建特征時(shí),需要定義采樣點(diǎn)的收益以及風(fēng)險(xiǎn).通過(guò)篩選節(jié)點(diǎn)的標(biāo)準(zhǔn)可以得知,采樣點(diǎn)類內(nèi)的分布距離應(yīng)該盡可能小,而類外的分布距離應(yīng)該盡可能大,因此定義收益為類外距離與類內(nèi)距離的比值,這也是模型定義的優(yōu)化目標(biāo).因此單個(gè)節(jié)點(diǎn)構(gòu)建的收益函數(shù)定義為:
(5)
其中WI表示類外的分布距離,WB表示類內(nèi)分布距離,構(gòu)建數(shù)據(jù)的時(shí)候,將每個(gè)類內(nèi)數(shù)據(jù)分布作為標(biāo)準(zhǔn),然后計(jì)算其他類外數(shù)據(jù)分布與其分布的距離.選擇類外的圖片時(shí),每個(gè)類別選擇相同數(shù)量的圖片,并對(duì)分布取平均,增加類外多樣性.然后將不同圖片作為標(biāo)準(zhǔn),可以得出對(duì)應(yīng)的新節(jié)點(diǎn),最后對(duì)類內(nèi)數(shù)據(jù)取均值,增加類內(nèi)多樣性.當(dāng)獲取的數(shù)據(jù)分布有類內(nèi)多樣性和類外多樣性之后,就可以構(gòu)建類間Wasserstein距離大,類內(nèi)分布趨同的穩(wěn)定特征,這些特征可以增強(qiáng)每個(gè)類和其他類的可區(qū)分性.這樣通過(guò)夏普比率最優(yōu)組合之后的特征具備高收益低風(fēng)險(xiǎn)(即夏普比率高)的特點(diǎn).
從采樣點(diǎn)集合構(gòu)建出特征點(diǎn)之后,通過(guò)stacking最優(yōu)組合結(jié)構(gòu)構(gòu)建單分類概念層次的表示,選擇性生成具有高夏普比率的聚合結(jié)構(gòu).上一節(jié)中對(duì)于每個(gè)采樣點(diǎn),構(gòu)建了屬于特定特征的最優(yōu)結(jié)構(gòu),對(duì)于結(jié)構(gòu)生成的特征,我們從同樣的角度出發(fā),用基于夏普比率的選擇性池化與連接的思想對(duì)特征進(jìn)行組合,構(gòu)建概念層次的表示.首先選擇比當(dāng)前收益大的特征點(diǎn),然后通過(guò)協(xié)方差矩陣篩選相關(guān)性高的特征,對(duì)所有這樣的整體構(gòu)建最優(yōu)組合.通過(guò)多次堆疊這樣的結(jié)構(gòu),不斷增加收益,降低風(fēng)險(xiǎn),獲得的特征圖就是單分類概念層次的表示.
單分類概念層次的表示具有相對(duì)穩(wěn)定的偏序關(guān)系,但針對(duì)不同類別,其偏序關(guān)系并不相同.若要構(gòu)建絕對(duì)穩(wěn)定的高維分布,需要統(tǒng)一其偏序關(guān)系,而自注意力機(jī)制[37]恰好可用于溝通各類表示之間的互信息,達(dá)到多分類問(wèn)題所需的通用概念層次表征.因此從不同類中構(gòu)建相同偏序關(guān)系的表征,進(jìn)而增強(qiáng)模型的泛化性能.每個(gè)類別都通過(guò)夏普比率層構(gòu)建了屬于其自身的獨(dú)特特征向量,但是,如果將所有的特征向量直接連接,其中間結(jié)果沒(méi)有互信息的輔助,難以得到較好的結(jié)果,因此,我們加入注意力模型.通過(guò)實(shí)現(xiàn)自注意力機(jī)制進(jìn)一步增強(qiáng)模型的泛化模型生成,計(jì)算出最終的特征向量.這種做法比較類似Inception的思想,不再加深模型而是擴(kuò)展模型的寬度,通過(guò)每個(gè)類別單獨(dú)處理特征,再組合特征形成特征向量進(jìn)行分類.
通過(guò)特征組合獲得單分類概念層次的表示之后,我們采用多頭注意力模型增強(qiáng)特征向量之間的互信息.如圖2所示,自注意力機(jī)制通過(guò)計(jì)算單類別向量與整體語(yǔ)義空間的關(guān)系來(lái)調(diào)整每個(gè)類別的分布,進(jìn)而使用多頭注意力機(jī)制使得模型可以在不同的表示子空間中學(xué)到更多的互信息.對(duì)于不同類別單概念層次的表示向量,通過(guò)不同的初始參數(shù)構(gòu)建多組特征向量Query、Key以及Value,對(duì)于同組的向量,通過(guò)一系列操作計(jì)算向量自身的相關(guān)系數(shù),并通過(guò)對(duì)原向量進(jìn)行系數(shù)加權(quán)構(gòu)建更有效的特征向量.自注意力機(jī)制利用多個(gè)向量之間的語(yǔ)義空間關(guān)系對(duì)比獲得更加準(zhǔn)確的空間特征向量,借此生成多分類概念層次的表示,用于后續(xù)embedding表征的生成.
圖2 自注意力機(jī)制Fig.2 Self-attention mechanism
通過(guò)前述過(guò)程,我們構(gòu)建了每個(gè)類別的特征向量,其在高維空間分布穩(wěn)定且分類準(zhǔn)確率高,并且相當(dāng)于在分類層生成了獨(dú)熱編碼,但是獨(dú)熱編碼的缺點(diǎn)在于無(wú)法完整表述類別之間的關(guān)系,因此希望生成有意義的embedding表征.前述過(guò)程通過(guò)去相關(guān)性我們分離了類別的高維表征,現(xiàn)在通過(guò)注意力機(jī)制加強(qiáng)類別之間的互信息.所以我們需要進(jìn)行表征的轉(zhuǎn)化,將獨(dú)熱編碼轉(zhuǎn)化為embedding表征.利用夏普比率及基于注意力機(jī)制的Transformer,每個(gè)類別在特征提取結(jié)果層的輸出分布都是穩(wěn)定且去相關(guān)的,這種形成了穩(wěn)定分布的特征向量,我們稱之為概念層次的embedding表征.通過(guò)比較多種類別的表征,可以看出在經(jīng)過(guò)有效組合特征之后,利用余弦距離可以衡量類別之間的語(yǔ)義距離,也就是在同一語(yǔ)義空間形成了具有語(yǔ)義距離的特征表征.對(duì)于已生成的embedding表征,模型需要進(jìn)行分類,通過(guò)直接連接注意力機(jī)制生成的embedding表征構(gòu)成圖片的特征向量,然后采用全連接層對(duì)特征向量進(jìn)行分類.由于每個(gè)類別表征都形成了穩(wěn)定的分布,因此模型的泛化性能好.
本文采用的模型總體架構(gòu)如圖3所示,圖中4個(gè)部分分別表示串行的多個(gè)數(shù)據(jù)處理過(guò)程.圖中第1部分是原始圖像的特征提取過(guò)程,本文采用兩種特征提取網(wǎng)絡(luò),分別是ResNet34和ResNet50的卷積層.卷積神經(jīng)網(wǎng)絡(luò)通過(guò)對(duì)圖像進(jìn)行層層迭代采樣,獲取高維抽象特征的分布,而不同的特征分布為下文提供了有效的資源.
圖3 模型概圖Fig.3 Overview of model
算法的重點(diǎn)在于第2部分和第3部分,通過(guò)對(duì)模型結(jié)構(gòu)的有效篩選以及抽象特征的有效組合構(gòu)建概念層次的特征.第2部分主要是通過(guò)因果干預(yù)判斷模型中特征提取節(jié)點(diǎn)的性質(zhì),通過(guò)數(shù)據(jù)干擾構(gòu)建圖像序列,然后借助時(shí)不變穩(wěn)定性檢測(cè)和協(xié)整檢驗(yàn)從數(shù)據(jù)分布角度出發(fā),對(duì)深度學(xué)習(xí)預(yù)訓(xùn)練模型進(jìn)行結(jié)構(gòu)化分析,針對(duì)非穩(wěn)定子結(jié)構(gòu)進(jìn)行選擇性裁剪來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)修建.篩選出有效特征之后,第3部分對(duì)穩(wěn)定的特征分布進(jìn)行組合,構(gòu)建出具有概念層次信息的高維抽象特征.主要使用的理論是夏普比率和注意力機(jī)制,夏普比率衡量的是特征組合的單位風(fēng)險(xiǎn)收益,而將收益定義為高維空間類內(nèi)類外距離比值之后,最大化夏普比率就相當(dāng)于最大化高維空間類別分布的類間距離同時(shí)最大化同類數(shù)據(jù)的聚集程度.算法通過(guò)有意義的組合特征,構(gòu)建同一圖片在不同類別的框架下的表現(xiàn)結(jié)果,通過(guò)去相關(guān)性找到單類的高維穩(wěn)定分布,再借助注意力模型加強(qiáng)互信息,進(jìn)一步增強(qiáng)高維空間分布的穩(wěn)定性和同一語(yǔ)義空間的聯(lián)系.經(jīng)過(guò)上述關(guān)鍵步驟之后,模型已經(jīng)得到了有意義的特征,而后續(xù)過(guò)程就是對(duì)特征進(jìn)行線性分類,即第四部分.
通過(guò)優(yōu)化特征提取目標(biāo)函數(shù),我們需要借助目標(biāo)函數(shù)的導(dǎo)數(shù)進(jìn)行梯度下降,而通過(guò)Hessian矩陣從二階導(dǎo)數(shù)的方向?qū)δP椭苯舆M(jìn)行優(yōu)化正是目前最有效的優(yōu)化方式[38].對(duì)于符合高斯分布的節(jié)點(diǎn)取值來(lái)說(shuō),我們可以證明Hessian矩陣等于其協(xié)方差矩陣的逆,因此我們可以通過(guò)優(yōu)化協(xié)方差矩陣實(shí)現(xiàn)此目標(biāo),而夏普比率的目標(biāo)與此不謀而合.通過(guò)利用協(xié)方差矩陣構(gòu)建特征組合,最大化夏普比率近似于最優(yōu)化Hessian矩陣.因此可以通過(guò)夏普比率理論生成有效特征.
在本文中,協(xié)方差矩陣主要有兩個(gè)用途:首先通過(guò)協(xié)方差矩陣衡量節(jié)點(diǎn)之間的相關(guān)性,用于篩選節(jié)點(diǎn);其次通過(guò)協(xié)方差矩陣近似Hessian矩陣的逆,借助夏普比率近似協(xié)方差矩陣進(jìn)而實(shí)現(xiàn)最大化Hessian矩陣中每個(gè)單獨(dú)分量的最大值,即最大化有效信息同時(shí)最小化噪聲信息.
Hessian矩陣等于協(xié)方差矩陣的逆證明如下:
對(duì)于高斯隨機(jī)變量θ,其期望為θ*,協(xié)方差矩陣為Σθ,因此其聯(lián)合概率密度函數(shù)為:
(6)
因此優(yōu)化的目標(biāo)函數(shù)可以通過(guò)其負(fù)似然函數(shù)進(jìn)行定義:J(θ)=-lnp(θ)
(7)
它是θ分量的二次函數(shù),通過(guò)對(duì)θl和θl′進(jìn)行部分微分,可以得到Hessian矩陣的分量:
(8)
因此:
(9)
即hessian矩陣可以通過(guò)協(xié)方差矩陣的逆進(jìn)行近似.
深度卷積網(wǎng)絡(luò)特征提取能力優(yōu)秀,但是也會(huì)提取一些非主體特征,這些特征對(duì)目標(biāo)的預(yù)測(cè)不僅毫無(wú)作用,還會(huì)徒增計(jì)算量,同時(shí)可能會(huì)影響最終模型的預(yù)測(cè)性能,因此我們需要對(duì)網(wǎng)絡(luò)進(jìn)行去噪.利用時(shí)不變穩(wěn)定性篩選出每個(gè)類別對(duì)目標(biāo)預(yù)測(cè)無(wú)意義的節(jié)點(diǎn),將其進(jìn)行置零,這樣相當(dāng)于對(duì)模型進(jìn)行壓縮[39].如果不進(jìn)行此操作,噪聲節(jié)點(diǎn)會(huì)影響數(shù)據(jù)的分布,導(dǎo)致無(wú)法進(jìn)行有意義組合,并且后續(xù)篩選收益高的節(jié)點(diǎn)時(shí),噪聲節(jié)點(diǎn)可能收益會(huì)很高,但是對(duì)模型實(shí)際表現(xiàn)沒(méi)有提升,甚至?xí)绊懽罱K效果,因此篩選深度網(wǎng)絡(luò)時(shí)不變穩(wěn)定結(jié)構(gòu)很重要.
對(duì)于已定義的收益和風(fēng)險(xiǎn),構(gòu)建最優(yōu)組合,我們可以直接計(jì)算出權(quán)重最優(yōu)解,證明如下:
假設(shè)有N個(gè)風(fēng)險(xiǎn)資產(chǎn),它們的收益率用隨機(jī)變量r表示:
rN×1=[r1r2…rN]T
(10)
資產(chǎn)投資組合中它們的份額記為W:
wN×1=[w1w2…wN]T
(11)
設(shè)eN×1=[11…1]T,則有eTw=1,即所有投資份額的總和為1 .
則期望收益向量為:
E(r)N×1=[E(r1)E(r2)…E(rN)]T
(12)
協(xié)方差分量為:
σij=cov(ri,rj)=E[(ri-E(ri))(rj-E(rj))]
(13)
同時(shí)記協(xié)方差矩陣為V,對(duì)于某一投資組合p而言:
rp=w1r1+w2r2+…+wNrN
(14)
期望收益為:E(rp)=E(r)TW
此時(shí)我們的優(yōu)化目標(biāo)為在給定收益期望μp的情況下,最小化風(fēng)險(xiǎn)即:
(15)
在此我們假設(shè)V是正定矩陣,此時(shí)V的逆存在.構(gòu)造拉格朗日輔助函數(shù):
L(w,λ1,λ2)=wTVw-λ1(E(r)TW-μp)-λ2(eTw-1)
(16)
其中λ1、λ2均為拉格朗如乘子.使目標(biāo)函數(shù)取得極值:
(17)
(18)
(19)
得:
(20)
(21)
(22)
記:[E(r)e]V-1[E(r)e]為A
則:
(23)
將此式代回原公式得到份額向量最優(yōu)解:
(24)
根據(jù)上述的計(jì)算過(guò)程,我們可以準(zhǔn)確計(jì)算出有效前沿的數(shù)學(xué)表達(dá),同時(shí)將無(wú)風(fēng)險(xiǎn)收益定義為當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)隨機(jī)初始化時(shí)的表現(xiàn),表現(xiàn)通過(guò)收益函數(shù)定義進(jìn)行衡量,據(jù)此,將節(jié)點(diǎn)分組后可直接計(jì)算出每個(gè)節(jié)點(diǎn)所對(duì)應(yīng)的權(quán)重,并且根據(jù)上述理論,使用此權(quán)重組合特征的結(jié)果,其夏普比率最高.因此當(dāng)我們確定收益和風(fēng)險(xiǎn)的定義方式時(shí),我們就可以計(jì)算其特征合成的權(quán)重最優(yōu)解.
通過(guò)時(shí)不變穩(wěn)定結(jié)構(gòu)的篩選之后,每個(gè)類別都獲取了自身的特征圖,但是通過(guò)特征圖構(gòu)建特征向量,我們需要對(duì)特征間的分布進(jìn)行分析,通過(guò)特征相關(guān)性,構(gòu)建高層次特征.對(duì)于每個(gè)類別的特征向量,綜合進(jìn)行預(yù)測(cè).我們可以看作是目標(biāo)特征向量的獨(dú)熱編碼表示,但是如果僅僅使用這個(gè)獨(dú)熱編碼進(jìn)行分類,那么對(duì)于每個(gè)類別我們都需要實(shí)例進(jìn)行訓(xùn)練,但是實(shí)際上我們并不能獲得足夠的數(shù)據(jù)集,因此我們需要借助一定的先驗(yàn)知識(shí)將獨(dú)熱編碼向量轉(zhuǎn)化為embedding表征,從而獲得概念層次的信息表示.Embedding表征學(xué)習(xí)就是從數(shù)據(jù)空間自動(dòng)學(xué)習(xí)出輸入數(shù)據(jù)到統(tǒng)一目標(biāo)表征空間的映射函數(shù):
(25)
其中x表示獨(dú)熱編碼,y表示embedding表征,通過(guò)給定約束條件constraint,從獨(dú)熱編碼生成滿足數(shù)據(jù)分布的embedding表征.而本節(jié)中,約束條件是對(duì)于多類圖片而言,不同類別之間embedding表征應(yīng)該相距較遠(yuǎn),而同類之間則相對(duì)聚集.
我們通過(guò)Wasserstein度量衡量特征之間的相關(guān)性,在特征層次上,我們使用夏普比率組合特征,通過(guò)低維特征形成高維特征,進(jìn)而進(jìn)行預(yù)測(cè).在數(shù)據(jù)層次上,我們通過(guò)Wasserstein距離度量分布距離,計(jì)算每個(gè)特征節(jié)點(diǎn)的收益與風(fēng)險(xiǎn),并設(shè)計(jì)獨(dú)特結(jié)構(gòu)組合特征,得到單位風(fēng)險(xiǎn)收益最大化的特征.Wasserstein距離的優(yōu)點(diǎn)在于作為距離,其具有對(duì)稱性,且無(wú)論多大距離都可以有一個(gè)明確的表示,不存在優(yōu)化過(guò)程中不可度量的情況.同時(shí),由于此特性,在計(jì)算特征之間的相關(guān)性時(shí),可以通過(guò)Wasserstein距離構(gòu)建協(xié)方差矩陣和相關(guān)系數(shù)矩陣并參與計(jì)算.經(jīng)過(guò)特征構(gòu)建層后,每個(gè)類別形成了固定維度的特征向量,可以看作是每類的表示.
為驗(yàn)證模型的有效性與泛化性能,采用ImageNet 2012[40]動(dòng)物數(shù)據(jù)集作為標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),部分實(shí)驗(yàn)結(jié)果均以ResNet-50作為基礎(chǔ)網(wǎng)絡(luò),實(shí)驗(yàn)中采用100個(gè)動(dòng)物類別作為實(shí)例進(jìn)行詳細(xì)分析.實(shí)驗(yàn)從準(zhǔn)確率、召回率、訓(xùn)練數(shù)據(jù)規(guī)模以及特征泛化表現(xiàn)對(duì)模型進(jìn)行評(píng)估.實(shí)驗(yàn)采用的數(shù)據(jù)集類別如表1所示,表中每個(gè)數(shù)據(jù)為ImageNet數(shù)據(jù)集中類別編號(hào)加類別名稱.由于其數(shù)據(jù)分類很詳細(xì),為了討論其泛化性能,本文在進(jìn)行實(shí)驗(yàn)結(jié)果的展示時(shí),考慮將其中的種類進(jìn)行歸納,例如將多種不同的貓科動(dòng)物全部統(tǒng)一為cat.本文的實(shí)驗(yàn)代碼見(jiàn)(1)https://github.com/wingsyu/SRNet.
表1 數(shù)據(jù)集列表Table 1 List of data
通過(guò)調(diào)制干預(yù)獲得了原始數(shù)據(jù)特征提取之后的結(jié)果.對(duì)中間數(shù)據(jù)進(jìn)行時(shí)間尺度上的分析,采用類內(nèi)類外的Wasserstein距離進(jìn)行評(píng)價(jià),并通過(guò)方差對(duì)結(jié)果進(jìn)行篩選,篩選之后,計(jì)算特征圖中每個(gè)節(jié)點(diǎn)數(shù)據(jù)分布及信噪比提升情況,我們可以得出,平均信噪比提高3.72dB(約一倍以上).
經(jīng)過(guò)前文提到的準(zhǔn)則進(jìn)行去噪之后,我們可以得到圖4的結(jié)果.結(jié)果顯示,在剔除噪聲節(jié)點(diǎn)之后,幾乎所有類別的召回率都可以達(dá)到較大程度的提高.從召回率的圖示我們可以看出,通過(guò)數(shù)據(jù)分布穩(wěn)定性對(duì)模型進(jìn)行剪枝確實(shí)可以剔除非主體分布的無(wú)關(guān)噪聲,進(jìn)一步突出了主體特征的信號(hào)強(qiáng)度.在此階段若不加本文的其他優(yōu)化方法,直接采用預(yù)訓(xùn)練模型的全連接層,從最終結(jié)果可以看到模型召回率有明確的提升,并且每個(gè)類別的準(zhǔn)確率也有小幅度上升,如果重新訓(xùn)練模型的分類層必然可以得到更好的結(jié)果.
圖4 去噪效果示意圖Fig.4 Denoising effect
同時(shí)為了驗(yàn)證模型的泛化性能,進(jìn)行以召回率為唯一目標(biāo)的網(wǎng)絡(luò)特征節(jié)點(diǎn)的剪枝實(shí)驗(yàn),得到如圖5所示的結(jié)果,圖中橫坐標(biāo)表示類別名稱,縱坐標(biāo)表示核心節(jié)點(diǎn)重合的數(shù)量,表格上方類別表示基準(zhǔn)類別.從圖5可以看出相似類之間的核心節(jié)點(diǎn)重合比較多,例如貓和獵豹;而不相似類之間重合節(jié)點(diǎn)很少,如貓和魚(yú),表明類間偏序關(guān)系存在的可能性,這將為下一步概念層次特征的提取建立較好的基礎(chǔ).
圖5 不同類的時(shí)不變穩(wěn)定性節(jié)點(diǎn)重合度Fig.5 Coincidence degree of different types of time-invariant stability nodes
對(duì)去噪之后的有效特征進(jìn)行生成組合后,其中間輸出結(jié)果表明,基于所提取的有效特征,類間與類內(nèi)距離幾乎可以完全分開(kāi),并且多層堆棧連接之后效果可以不斷提升.圖6分別表示基于有效特征的各分類分布距離的差異情況,圖中橫軸表示網(wǎng)絡(luò)中節(jié)點(diǎn)的序號(hào),縱軸表示節(jié)點(diǎn)的類內(nèi)與類外的距離.從圖中可以看出隨著有效組合,特征逐漸呈現(xiàn)類內(nèi)外分離的趨勢(shì).
圖6 類內(nèi)類外分布距離示例Fig.6 Diagram of distribution distance inside and outside class
為了更好的說(shuō)明問(wèn)題,我們使用不同類別作為標(biāo)準(zhǔn)類進(jìn)行實(shí)驗(yàn),得到表格2所示結(jié)果.
表2中數(shù)據(jù)表示每個(gè)類的類內(nèi)類外的Wasserstein距離值,通過(guò)實(shí)驗(yàn)結(jié)果可以看出,以任意一類作為標(biāo)準(zhǔn)類時(shí),其他類別與該類的Wasserstein度量逐漸區(qū)分開(kāi)來(lái),并且使用ImageNet數(shù)據(jù)集中每類僅20張樣本圖片進(jìn)行模型訓(xùn)練之后,改良之后的模型在ImageNet2012 100類數(shù)據(jù)集中準(zhǔn)確率達(dá)到了86.72%,相對(duì)原始模型性能效果提升顯著.
表2 特征組合效果Table 2 Effection of feature combination
表3顯示了模型的性能表現(xiàn),表中N表示模型特征提取網(wǎng)絡(luò)的參數(shù)量,SR-Net表示本文所提出的模型.通過(guò)上表可以看出,我們的模型相對(duì)于傳統(tǒng)ResNet耗費(fèi)時(shí)間更少,訓(xùn)練集規(guī)模更小,但是由于刪除了原始模型中的平均池化層,模型特征向量規(guī)模大,但是加入了注意力機(jī)制同時(shí)生成embedding嵌入表征,全連接層參數(shù)數(shù)量只和嵌入向量的維度相關(guān),因此通過(guò)對(duì)每類20張圖片進(jìn)行增強(qiáng)擴(kuò)展即可滿足全連接層訓(xùn)練的數(shù)據(jù)量要求.
表3 模型性能比較Table 3 Model performance comparison
通過(guò)基于夏普比率和注意力機(jī)制的泛化模型生成步驟之后,每個(gè)類別生成了其獨(dú)特的概念層次的embedding表征,也就是特征向量.我們可以把這個(gè)特征向量看作是每個(gè)類別在統(tǒng)一目標(biāo)表征空間的一種穩(wěn)定表示,并且從數(shù)據(jù)分布角度看,類別內(nèi)部特征分布穩(wěn)定,類別之間距離較遠(yuǎn).為了檢驗(yàn)?zāi)P偷姆夯阅埽覀儾捎帽?中的數(shù)據(jù)進(jìn)行實(shí)驗(yàn).
表4 實(shí)驗(yàn)數(shù)據(jù)示例表Table 4 Sample table of experimental data
我們通過(guò)兩種方式檢驗(yàn)?zāi)P偷姆夯阅?,首先是?duì)于在訓(xùn)練集中已出現(xiàn)的類別但是未出現(xiàn)的圖片,判斷其準(zhǔn)確率,由上文實(shí)驗(yàn)可知,準(zhǔn)確率絕對(duì)值普遍提高約6%.另外,我們通過(guò)計(jì)算不同類別特征向量,對(duì)比了特征向量之間的余弦距離,得出圖9所示的結(jié)果.
圖7中圓點(diǎn)表示對(duì)比的中心類別,根據(jù)各類別的余弦相似度繪制了圖7所示的示意圖.圖示結(jié)果顯示,獵豹與同科的貓的特征向量余弦距離最小,而與同目的狗特征向量余弦相似度其次,其他的類別則距離較遠(yuǎn),由此看出,模型在生成特征向量之后,其特征向量具有較穩(wěn)定的偏序關(guān)系.
圖7 特征向量余弦距離對(duì)比示意圖Fig.7 Comparison chart of cosine distance of eigenvector
同時(shí),對(duì)于未出現(xiàn)的類別,我們的模型可能存在一定程度的感知能力.具體來(lái)說(shuō),對(duì)于某個(gè)未出現(xiàn)的類別,我們構(gòu)建其特征向量,并觀察其特征向量與已出現(xiàn)類別的余弦距離.我們采用未用的豺類和灣鱷圖片進(jìn)行訓(xùn)練,豺類屬于脊索動(dòng)物門(mén)哺乳綱食肉目犬科豺?qū)?,灣鱷屬于脊索動(dòng)物門(mén)爬行綱鱷目鱷科鱷屬.如圖8所示,對(duì)于豺類來(lái)說(shuō),其特征表征余弦距離與同為犬科的狗類最小,其次是同為食肉目的貓,再就是哺乳綱,灣鱷也存在相同的趨勢(shì).由此從一定程度上說(shuō)明模型可能生成了屬于自身概念層次的embedding表征,即在同一語(yǔ)義空間形成了穩(wěn)定的、有偏序關(guān)系的語(yǔ)義表征.
圖8 與未出現(xiàn)類別的特征向量的余弦距離示意圖Fig.8 Diagram of cosine distance from feature vector without category
本文提出了一種基于深度網(wǎng)絡(luò)時(shí)不變穩(wěn)定性的深度學(xué)習(xí)模型泛化能力優(yōu)化方法,從數(shù)據(jù)分布角度出發(fā),對(duì)深度學(xué)習(xí)預(yù)訓(xùn)練模型進(jìn)行結(jié)構(gòu)化分析,隨后針對(duì)非穩(wěn)定子結(jié)構(gòu)進(jìn)行選擇性裁剪來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)剪枝,然后基于夏普比率與自注意力機(jī)制生成具有良好泛化性能的改進(jìn)模型.理論分析及實(shí)驗(yàn)結(jié)果都表明,本方法大幅度降低了模型泛化優(yōu)化過(guò)程中對(duì)于數(shù)據(jù)規(guī)模和算力的要求,同時(shí)在ImageNet 2012動(dòng)物類數(shù)據(jù)集上準(zhǔn)確率提升了6%左右,并且對(duì)數(shù)據(jù)集外部分未知?jiǎng)游镱悇e的感知能力也有明顯提升.我們未來(lái)計(jì)劃從更多角度對(duì)特征進(jìn)行組合,以更高效地提取模型有效特征,進(jìn)一步降低模型復(fù)雜度同時(shí)增強(qiáng)模型的泛化性能,也希望本文的工作可以給后續(xù)模型改良工作者帶來(lái)一些啟示.
小型微型計(jì)算機(jī)系統(tǒng)2022年9期