陶 攀, 付忠良, 朱 鍇, 王莉莉
(1.中國(guó)科學(xué)院 成都計(jì)算機(jī)應(yīng)用研究所, 成都 610041; 2.中國(guó)科學(xué)院大學(xué), 北京 100049)
空間金字塔分解的深度可視化方法
陶 攀1,2, 付忠良1,2, 朱 鍇1,2, 王莉莉1,2
(1.中國(guó)科學(xué)院 成都計(jì)算機(jī)應(yīng)用研究所, 成都 610041; 2.中國(guó)科學(xué)院大學(xué), 北京 100049)
針對(duì)基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像分類模型的可解釋性問題,通過評(píng)估模型特征空間的潛在可表示性,提出一種用于改善理解模型特征空間的可視化方法. 給定任何已訓(xùn)練的深度卷積網(wǎng)絡(luò)模型,所提出的方法在依據(jù)原輸入圖像使得模型類別得分激活最大化時(shí),首先對(duì)反向傳播的梯度進(jìn)行歸一化操作,然后采用帶動(dòng)量的隨機(jī)梯度上升訓(xùn)練策略,反向回傳修改原輸入圖像. 引入了通過激活最大化獲得的圖像可解釋性的正則化方法,常規(guī)正則化技術(shù)不能主動(dòng)調(diào)整模型特征空間的潛在可表示性,結(jié)合現(xiàn)有正則化方法提出空間金字塔分解方法,利用構(gòu)建多層拉普拉斯金字塔主動(dòng)提升目標(biāo)圖像特征空間的低頻分量,結(jié)合多層高斯金字塔調(diào)整其特征空間的高頻分量得到較優(yōu)可視化效果. 通過限制可視化區(qū)域,提出利用類別顯著性激活圖技術(shù)加以壓制上下文無關(guān)信息,可進(jìn)一步改善可視化效果. 對(duì)模型學(xué)習(xí)到的不同類別和卷積層中單獨(dú)的神經(jīng)元進(jìn)行合成可視化實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明提出的方法在不同的深度模型和不同的可視化任務(wù)中均能取得較優(yōu)的可視化效果.
深度可視化;金字塔分解;激活最大化;卷積神經(jīng)網(wǎng)絡(luò);激活圖
以深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)為代表的深度學(xué)習(xí)對(duì)計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)領(lǐng)域產(chǎn)生了深遠(yuǎn)影響. 但是完全理解深度學(xué)習(xí)模型的內(nèi)在工作原理,設(shè)計(jì)高性能的深度網(wǎng)絡(luò)結(jié)構(gòu)還是很困難的,一直以來人們普遍將其內(nèi)部工作原理看成一個(gè)“黑箱”,這是由于深度CNN存在海量參數(shù),多次迭代更新生成輸入輸出之間相當(dāng)不連續(xù)和非線性的映射函數(shù);以及對(duì)參數(shù)的初始狀態(tài)敏感,存在很多局部最優(yōu)點(diǎn). 探究CNN的運(yùn)行機(jī)制,核心在于它究竟自動(dòng)提取什么樣的特征,經(jīng)過卷積層、池化層,特征都是分布式表達(dá)的,每個(gè)特征反映在原圖上都會(huì)有重疊,故希望建立特征圖與原圖像之間的聯(lián)系,即深度可視化. 該技術(shù)試圖尋找深度模型所提取各層特征較好的定性解釋,并在設(shè)計(jì)開發(fā)新網(wǎng)絡(luò)結(jié)構(gòu)方面扮演重要角色.
目前針對(duì)CNN可視化的研究,主要集中在如何理解CNN從海量數(shù)據(jù)中自動(dòng)學(xué)習(xí)到的,能反映圖像本質(zhì)的分層特征表達(dá),即獲得網(wǎng)絡(luò)中隱藏層神經(jīng)元與人類可解釋性概念之間的聯(lián)系. 最直接的方法是展示學(xué)習(xí)得到的卷積核和相應(yīng)的特征圖,但除了首層卷積核和特征圖有直觀的解釋外,其余各層并沒有可解釋性. 從信號(hào)處理的角度看,基于CNN高層特征的分類器在輸入域,需要較大感知野,才能對(duì)以由低頻為主的輸入圖像進(jìn)行多層非線性響應(yīng),并對(duì)小的輸入改變產(chǎn)生平滑不變輸出. 同時(shí),由于經(jīng)過非線性激活函數(shù)變換和池化,引入空間不變性獲得更好識(shí)別性能的同時(shí),也對(duì)可視化帶來新的挑戰(zhàn).
深度可視化技術(shù)可以簡(jiǎn)單分為三類:基于梯度更新的方法[1-6];基于特征重建的方法[7-10];基于相關(guān)性的方法[11-12]. 基于網(wǎng)絡(luò)梯度更新的思想是由Erhan等[1]引入,固定模型參數(shù)通過梯度更新改變輸入值,最大化激活單一神經(jīng)元或標(biāo)簽類別概率. 激活最大化生成的非自然圖像還可以是網(wǎng)絡(luò)模型的對(duì)抗樣本[13]. Simonyan等[2-3,14]通過梯度上升方法迭代尋找使得最大化激活CNN某個(gè)或某些特定的神經(jīng)元的最優(yōu)圖像,其假設(shè)神經(jīng)元對(duì)像素的梯度描述了當(dāng)前像素的改變能影響分類結(jié)果的強(qiáng)度. 文獻(xiàn)[2]引入L2正則化先驗(yàn)(或稱權(quán)重衰減),改進(jìn)可視化效果. Yosinski等[4]進(jìn)一步提出高斯模糊正則化、梯度剪切等技術(shù),其中梯度剪切指的是每次只更新對(duì)分類最有利的一部分梯度,改善生成圖像質(zhì)量. 文獻(xiàn)[3,6]考慮神經(jīng)元的多面性和利用生成網(wǎng)絡(luò)作為自然圖像的先驗(yàn)來合成更自然的圖像.
Zeiler等[7]提出利用反卷積網(wǎng)絡(luò),利用反向傳播重構(gòu)各層特征到像素空間的映射,并用于指導(dǎo)設(shè)計(jì)調(diào)優(yōu)網(wǎng)絡(luò)結(jié)構(gòu),提高分類識(shí)別精度. 在反卷積過程中利用翻轉(zhuǎn)原卷積核近似作為反卷積核,針對(duì)特定特征圖在訓(xùn)練集上重新訓(xùn)練. Dosovitskiy等[8]提出通過學(xué)習(xí)‘上’卷積網(wǎng)絡(luò)來重建CNN各層的特征,指出結(jié)合強(qiáng)先驗(yàn),即使用于分類的高層激活特征也包含顏色和輪廓信息. Mahendran等[9-10]通過對(duì)學(xué)習(xí)到的每層特征表達(dá)進(jìn)行反編碼重建,提出利用全變分正則化和自然圖像先驗(yàn),并將L2范數(shù)正則化推廣到p范數(shù)正則化,得到較優(yōu)的可視化效果.
本文主要關(guān)注前兩種方法中的正則化技術(shù),基于相關(guān)性分解方法請(qǐng)參考文獻(xiàn)[12]. 受文獻(xiàn)[15-16]啟發(fā),把用于圖像生成的拉普拉斯金字塔,進(jìn)一步擴(kuò)展成空間金字塔分解方法,并引入顯著性激活圖技術(shù)進(jìn)一步改進(jìn)深度CNN的可視化效果.
激活最大化和特征表達(dá)反編碼重建均是針對(duì)已經(jīng)訓(xùn)練好的模型,對(duì)給定輸入xi∈RC×H×W,其中C為顏色通道數(shù),H,W為圖像高和寬. CNN模型可抽象為函數(shù)φ:RC×H×W→Rd,其第i個(gè)神經(jīng)元的激活值為φi(x),對(duì)給定圖像x0的特征編碼φ0=φ(x0),定義參數(shù)θ的正則化項(xiàng)Rθ(x),尋找使得能量泛函最小化的初始輸入x*,其數(shù)學(xué)模型為
(1)
(2)
激活最大化方法是文獻(xiàn)[1]中提出針對(duì)深度架構(gòu)中任意層中的任意神經(jīng)元所提取的特征,尋找使一個(gè)給定的隱含層單元的響應(yīng)值φ0∈Rd最大的輸入模式,可由內(nèi)積形式定義損失為
(φ(x),φ0)=-〈φ(x),φ0〉.
(3)
式中φ0需人工指定,最大化激活的目標(biāo)可以是全連接層的特征向量,也可以是卷積層某一通道的某一神經(jīng)元的激活值.
特征表達(dá)的反編碼重建,通過最小化給定特征向量與重建目標(biāo)圖像特征向量間的損失,一般采用歐式距離來衡量損失誤差,定義如下:
(φ(x),φ0)=.
(4)
但也可利用其它距離度量函數(shù)來評(píng)價(jià)損失.
用于分類的深度CNN提取高層語義信息的同時(shí),丟失了大量低層結(jié)構(gòu)信息. 由于首層卷積核大都類似Gabor濾波器,導(dǎo)致梯度更新可視化生成圖像中包含許多高頻信息,雖然能產(chǎn)生大的響應(yīng)激活值,但對(duì)可視化來說導(dǎo)致生成的圖像是不自然的. 還由于網(wǎng)絡(luò)模型的線性操作(如卷積)導(dǎo)致對(duì)抗樣本[13]的存在,為得到更類似真實(shí)自然圖像的可視化結(jié)果,需在優(yōu)化目標(biāo)函數(shù)中引入正則化作為先驗(yàn).
2.1p范數(shù)正則化方法
(5)
式中:h,w表示圖像的行和列大小,c表示顏色通道數(shù),對(duì)比發(fā)現(xiàn),文獻(xiàn)[2]提出的L2正則化是忽視各顏色通道的差異的,正則化的力度可通過縮放常量p進(jìn)行控制,即使得圖像像素值大小保持在合適的范圍內(nèi).
2.2高斯模糊和TV變分
基于梯度更新可視化方法,引入高斯濾波器主動(dòng)懲罰高頻信息[4],高斯模糊核半徑大小由高斯函數(shù)的標(biāo)準(zhǔn)差控制,可隨迭代次數(shù)動(dòng)態(tài)調(diào)整模糊核大小.
全變分[10](Total Variance,TV)跟高斯模糊類似,鼓勵(lì)可視化生成分片的常量塊區(qū)域,對(duì)離散圖像全變分操作可由有限差分來近似求解為
(6)
式中β=1,但其在可視化過程中,在圖像的平坦區(qū)域并不存在邊緣,全變分操作仍沿著邊緣方向擴(kuò)散就會(huì)導(dǎo)致出現(xiàn)虛假的邊緣,會(huì)引入所謂的“階梯效應(yīng)”現(xiàn)象.β<1時(shí)結(jié)合超拉普拉斯先驗(yàn)[17]能更好匹配自然圖像的梯度統(tǒng)計(jì)分布,但對(duì)可視化來說反而使得可視化更困難. 文獻(xiàn)[10]實(shí)際實(shí)驗(yàn)表明,跟高斯模糊核一樣,需隨迭代次數(shù)動(dòng)態(tài)調(diào)整β大小.
2.3基于數(shù)據(jù)統(tǒng)計(jì)先驗(yàn)
由于常規(guī)可視化方法并沒有對(duì)顏色分布進(jìn)行建模,文獻(xiàn)[3]提出通過引入外部自然圖像數(shù)據(jù),計(jì)算圖像色塊先驗(yàn)為
(7)
式中:p為塊索引,xp表示稠密采樣的歸一化圖像塊,Dp表示自然圖像塊數(shù)據(jù)庫(kù)中距離xp最近圖像塊. 該方法跟文獻(xiàn)[15]中利用參考圖像“指導(dǎo)”人臉圖像嵌入重建類似. 并且基于數(shù)據(jù)的統(tǒng)計(jì)先驗(yàn)可進(jìn)一步擴(kuò)展,引入生成對(duì)抗網(wǎng)絡(luò),利用生成網(wǎng)絡(luò)主動(dòng)生成自然圖像先驗(yàn)[5].
正則化先驗(yàn)主動(dòng)限制圖像空間中高頻率和高振幅信息,生成的可視化圖像存在如下問題:1)彩色圖像的顏色分布仍是不自然的. 2)生成的圖像中包含可識(shí)別類別對(duì)象的多個(gè)重復(fù)成分,并且這些部件不能組合成完整的有意義整體. 3)缺乏令人可信的低頻細(xì)節(jié),存在棋盤效應(yīng),只是形似. 針對(duì)這些問題提出利用空間金字塔分解,主動(dòng)提升低頻信息和調(diào)控高頻信息以改善生成圖像的可視化效果.
3.1高斯和拉普拉斯金字塔分解
拉普拉斯金字塔(Laplacian Pyramid,LP)[18]是由一系列包含帶通濾波器在尺度可變的圖像上加低頻殘差組成的. 首先通過高斯平滑和亞采樣獲得多尺度圖像,即第K層圖像通過高斯模糊、下采樣就可獲得K+1層,反復(fù)迭代多次構(gòu)建高斯金字塔(Gaussian Pyramid,GP). 用高斯金字塔的K層圖像減去其第K+1層圖像上采樣并高斯卷積之后的預(yù)測(cè)圖像,得到一系列的差值圖像即為拉普拉斯金字塔分解圖像.
拉普拉斯金字塔分解過程(見圖1所示)包括4個(gè)步驟: 1)高斯平滑G0..n; 2)降采樣(減小尺寸); 3)上采樣并高斯卷積(圖中expand操作); 4)帶通濾波(圖像相減)L0..n. 拉普拉斯金字塔突出圖像中的低頻分量,拉普拉斯金字塔分解的目的是將源圖像分解到不同的空間頻帶上.
圖1 高斯和拉普拉斯金字塔
(8)
式中:k代表構(gòu)建k層金字塔分解,本文實(shí)驗(yàn)k選取為4.LPk(x)為第k層的拉普拉斯金字塔分量,GPk(x)為第k層的高斯金字塔分量.
3.2梯度歸一化
基于梯度更新的可視化方法,由于原輸入空間中高低頻分量混雜在一起,對(duì)原輸入圖像相應(yīng)的更新梯度進(jìn)行歸一化操作能得到較好可視化效果,即對(duì)輸入圖像每次迭代更新的梯度g=?φi(x)/?x,則提出梯度歸一化操作:
(9)
式中:δ為非負(fù)小常量,std表示梯度矩陣的方差. 該梯度中心歸一化技術(shù),可以減少產(chǎn)生重復(fù)的對(duì)象碎片的傾向,而傾向于產(chǎn)生一個(gè)相對(duì)完整對(duì)象. 梯度歸一化的引入同批歸一化(Batch Normalization)思想類似,校正CNN網(wǎng)絡(luò)非線性變換引起的“偏移”,該方法也側(cè)面驗(yàn)證最新提出的分層歸一化[20]的有效性.
3.3類別激活圖限制可視化區(qū)域
根據(jù)文獻(xiàn)[26]提出的類別激活圖技術(shù),假設(shè)fj(x,y) 表示最后的卷積層空間(x,y)位置上第j個(gè)神經(jīng)元的激活值,則對(duì)j神經(jīng)元的全局平均池化操作結(jié)果對(duì)給定類別k的得分函數(shù)Sk:
(10)
(11)
式中Mk表明在空間(x,y)位置的激活值對(duì)分類結(jié)果影響的重要性. 對(duì)類別激活映射圖直接雙線性插值得到與原輸入圖像大小相等的顯著性圖. 本文利用顯著性激活圖作為梯度更新的權(quán)重因子,即輸入變?yōu)樵驾斎雸D像與類別激活圖的加權(quán)乘積. 動(dòng)機(jī)是要求網(wǎng)絡(luò)梯度更新保持在類別顯著性區(qū)域內(nèi),壓制無關(guān)背景信息的生成. 具體詳情請(qǐng)參見第四章實(shí)驗(yàn)部分.
3.4優(yōu)化方法
深度CNN模型優(yōu)化策略的核心是隨機(jī)梯度下降法,常用方法是帶動(dòng)量的隨機(jī)梯度下降法為:
Vt=μVt-1-αf(xt),
(12)
xt+1=xt+Vt.
(13)
式中:μ為動(dòng)量因子表示保持原更新方向的大小,一般選取0.9,xt為在t時(shí)刻待更新的梯度,α為學(xué)習(xí)率;文獻(xiàn)[9-10]采用自適應(yīng)梯度(Adaptive Gradient,AdaGrad)[21]的變種算法,根據(jù)歷史梯度信息自適應(yīng)調(diào)整學(xué)習(xí)率. 同時(shí)文獻(xiàn)[22]采用的二階優(yōu)化算法針對(duì)紋理和藝術(shù)風(fēng)格重建問題,得到比用基于一階隨機(jī)梯度下降算法更優(yōu)的可視化效果. 但本文通過實(shí)驗(yàn)對(duì)比發(fā)現(xiàn)對(duì)各種優(yōu)化方法對(duì)生成圖像質(zhì)量影響不大,從簡(jiǎn)選擇帶動(dòng)量的隨機(jī)梯度優(yōu)化方法.
基于梯度更新的可視化方法主要用于激活最大化和特征重建,但文獻(xiàn)[23]指出用隨機(jī)未訓(xùn)練的CNN模型也能較好重建原圖像,表明特征編碼重建不能很好解釋訓(xùn)練得到CNN模型的內(nèi)在工作機(jī)理. 本文實(shí)驗(yàn)主要關(guān)注在對(duì)ImageNet公開數(shù)據(jù)集上預(yù)先訓(xùn)練得到的分類模型進(jìn)行激活最大化可視化實(shí)驗(yàn).
4.1不同深度模型的類別可視化
實(shí)驗(yàn)選取的深度模型來自于開源社區(qū)的Caffe model zoo,不同的CNN模型如:AlexNet模型[24],Vgg-19模型[25],Google-CAM模型[26],GoogleNet模型[27],ResNet模型[28],其分類識(shí)別性能依次從低到高,模型的復(fù)雜程度依次遞增. 本文實(shí)驗(yàn)?zāi)J(rèn)采用提出的梯度歸一化,并引入多分辨率、隨機(jī)擾動(dòng)和剪切等小技巧作為通用設(shè)置,提高可視化效果.
為比較不同深度CNN模型學(xué)習(xí)相同類別時(shí)特征圖的差異,根據(jù)式(1),給定高斯噪聲生成隨機(jī)圖像作為輸入,指定可視化物體類別向量(見圖2所示,類別為所有類別中的第13類布谷鳥),施加前文提出不同正則化項(xiàng)的組合:p范數(shù)、高斯模糊和金字塔分解正則化.
圖2結(jié)果表示5種CNN模型在相同正則化方法和相同梯度更新策略下的可視化效果,對(duì)比圖2中(a),(b),(c)發(fā)現(xiàn)隨著網(wǎng)絡(luò)模型深度的增加,可視化難度增大分類性能同可視化效果一致;Vgg-19模型由于跟ResNet模型卷積核大小類似,且比AlexNet首層卷積核小(7和3),即可視化效果傾向生成比AlexNet更大尺寸的物體. 而由圖2中a,d,e對(duì)比可知,由于GoogleNet模型中卷積層的卷積核大小不一,使得可視化結(jié)果中引入更多細(xì)節(jié). 綜合可知,基于GoogleNet模型的可視化效果最好,后面實(shí)驗(yàn)均是在其模型的基礎(chǔ)上進(jìn)行實(shí)驗(yàn)比較.
(a) AlexNet (b)Vgg-19 (c)ResNet (d)GoogleNet (e)Google-CAM
4.2不同正則化方法的類別可視化
為驗(yàn)證不同正則化方法對(duì)理解深度模型的特征達(dá)的影響,采取前文所述的不同正則化方法,可視化效果結(jié)果見圖3所示,從上到下依次可視化類別為金甲蟲,海星,蝎子,酒壺,卷筆刀.
圖3中(a)列僅施加默認(rèn)設(shè)置和不加梯度歸一化的結(jié)果,由于輸入的隨機(jī)性,并不能保證每次都生成有意義的可視化結(jié)果,但引入本文提出的梯度歸一化后,能大概率生成可視化結(jié)果見圖3(b)列所示,圖3(c)列表示只采用p范數(shù)正則化,跟文獻(xiàn)[2]一致取2,使得圖像更平滑,但仍與真實(shí)圖像相差較大. 通過前文理論分析和實(shí)驗(yàn)驗(yàn)證,全變分跟高斯模糊作用類似,本文采用根據(jù)迭代輪數(shù)動(dòng)態(tài)調(diào)整高斯模糊核大小,具體是在剛開始采用較大值希望生成物體大概輪廓,隨迭代逐漸調(diào)小模糊核使得更多細(xì)節(jié)生成,具體見圖3(d). 但是這個(gè)參數(shù)無法自適應(yīng)設(shè)置為最優(yōu),對(duì)圖像高低頻分量無法調(diào)整控制,而本文提出的利用金字塔分解正則化方法能從粗到細(xì)調(diào)整,產(chǎn)生較優(yōu)結(jié)果見圖3(e)列所示.
(a) original (b) 梯度歸一 (c)p范數(shù) (d) Blur (e) Our
圖3不同正則化方法的可視化效果
Fig.3 The visualization of different regularization
4.3金字塔分解可視化實(shí)驗(yàn)結(jié)果
為驗(yàn)證提出金字塔分解正則化方法,對(duì)中間層卷積核的可視化,采用前文提出式(8),指定深度CNN模型中不同卷積層中不同通道,利用前文提出的帶動(dòng)量的梯度更新策略,可視化結(jié)果見圖4,其中從上到下依次為GoogleNet模型低中高層不同通道的可視化結(jié)果,與文獻(xiàn)[7]一致,低層多尺度分辨率生成的紋理見圖4首行所示,中層是一些物體部件,見圖4中間行所示蜜蜂的局部結(jié)構(gòu),而高層是更完整的抽象概念見圖4下層中完整的花瓣. 對(duì)比圖4(b)、(c)列,可驗(yàn)證拉普拉斯金字塔主動(dòng)分解提升圖像部分低頻成分,而高斯金字塔分解生成的圖像中高頻細(xì)節(jié)更突出.
4.4引入類別顯著性的可視化
通過觀察之前可視化結(jié)果可知,生成的圖像中除了該類別外仍有許多額外的上下文信息(見圖2中鳥類別的樹枝),這些信息與模型的分類能力相關(guān)聯(lián),可通過引入類別激活圖可改善可視化效果. 迭代更新過程中依據(jù)采用式(11),使用類別激活圖作為加權(quán)因子限制迭代更新區(qū)域.
(a) 多尺度分辨率 (b) 拉普拉斯金字塔 (c) 高斯金字塔
實(shí)驗(yàn)結(jié)果見圖5(a)所示,具體實(shí)驗(yàn)設(shè)置和圖2采用的參數(shù)一致,使用提出的金字塔分解正則化技術(shù),圖5(b)為圖5(a)相應(yīng)的類別激活圖,圖5(a)結(jié)果表明與類別無關(guān)的上下文信息得到抑制,但仍存在兩個(gè)類別中心.
(a) 可視化結(jié)果 (b) 類別激活
本文針對(duì)理解深度CNN特征空間存在的問題,提出一種用于改善深度CNN分類模型的可視化方法. 其中通過改善激活最大化可視化技術(shù)來產(chǎn)生更具有全局結(jié)構(gòu)的細(xì)節(jié)、上下文信息和更自然的顏色分布的高質(zhì)量圖像. 該方法首先對(duì)反向傳播的梯度進(jìn)行歸一化操作,在常用正則化技術(shù)的基礎(chǔ)上,提出使用空間金字塔分解圖像不同頻譜信息;為限制可視化區(qū)域,提出利用類別顯著激活圖技術(shù),可以減少優(yōu)化產(chǎn)生重復(fù)對(duì)象碎片的傾向,而傾向于產(chǎn)生單個(gè)中心對(duì)象以改進(jìn)可視化效果. 激活最大化可顯示CNN在分類時(shí)關(guān)注什么. 這種改進(jìn)的深度可視化技術(shù)將增加我們對(duì)深層神經(jīng)網(wǎng)絡(luò)的理解,進(jìn)一步提高創(chuàng)造更強(qiáng)大的深度學(xué)習(xí)算法的能力. 該方法適用于基于梯度更新的可視化領(lǐng)域,是對(duì)網(wǎng)絡(luò)模型整體的理解,具體各層特征怎么耦合成語義信息仍需進(jìn)一步探索,深度CNN模型如何重建一個(gè)完整的類別概念,仍是一個(gè)開放性問題.
[1] ERHAN D, BENGIO Y, COURVILLE A, et al. Visualizing higher-layer features of a deep network[R]. University of Montreal(1341), 2009.
[2] KAREN S, ANDREA V, ANDREW Z. Deep inside convolutional networks visualising image classification models and saliency maps[C]// International Conference on Learning Representations. San Francisco: ICLR, 2013: 1-8.
[3] LENC K, VEDALDI A. Understanding image representations by measuring their equivariance and equivalence[C]//IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: CVPR, 2015: 991-999.
[4] YOSINSKI J, CLUNE J, NGUYEN A, et al. Understanding neural networks through deep visualization[C]//Deep Learning Workshop, International Conference on Machine Learning. Lille, ICML, 2015:1-9.
[5] NGUYEN A, DOSOVITSKIY A, YOSINSKI J, et al. Synthesizing the preferred inputs for neurons in neural networks via deep generator networks[C]//Advances in Neural Information Processing Systems.Barcelona: NIPS, 2016:1-29.
[6] NGUYEN A, YOSINSKI J, CLUNE J. Multifaceted feature visualization: uncovering the different types of features learned by each neuron in deep neural networks[C]//Proceedings of the Workshop on Visualization for Deep Learning at International Conference on Machine Learning. New York: ICML, 2016: 1-23.
[7] ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks[C]//Computer Vision-ECCV 2014.Zurich:Springer,2014:818-833.DOI: 10.1007/978-3-319-10590-1_53.
[8] DOSOVITSKIY A, BROX T. Inverting visual representations with convolutional networks[C] //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, Nevada:CVPR,2016:1063-6919.DOI:10.1109/CVPR.2016.522.
[9] MAHENDRAN A, VEDALDI A. Visualizing deep convolutional neural networks using natural pre-images[J]. International Journal of Computer Vision, 2016,120(3): 233-255. DOI:10.1007/s11263-016-0911-8.
[10]MAHENDRAN A, VEDALDI A. Understanding deep image representations by inverting them[C]//IEEE Conference on Computer Vision and Pattern Recognition. Boston:CVPR,2015:5188-5196.DOI:10.1109/CVPR.2015.7299155.
[11]CAO C, LIU X, YANG Y, et al. Look and think twice: capturing top-down visual attention with feedback convolutional neural networks[C]//IEEE International Conference on Computer Vision. Santiago, IEEE, 2015: 2956-2964. DOI: 10.1109/ICCV.2015.338.
[12]BACH S, BINDER A, MONTAVON G, et al. Analyzing classifiers: fisher vectors and deep neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, Nevada:CVPR,2016:2912-2920.DOI:10.1109/CVPR.2016.318.
[13]GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and Harnessing Adversarial Examples[C] //International Conference on Learning Representations. San Diego:ICLR, 2015: 1-11.
[14]SZEGEDY C, ZAREMBA W, SUTSKEVER I. Intriguing properties of neural networks[C]// International Conferenceon Learning Representations. Banff:ICLR,2014: 1-10.
[15]SCHROFF F,KALENICHENKO D,PHILBIN J. FaceNet: a unified embedding for face recognition and clustering[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston:CVPR,2015:815-823.DOI:10.1109/CVPR.2015.7298682.
[16]DENTON E, CHINTALA S, SZLAM A, et al. Deep generative image models using a laplacian pyramid of adversarial networks[C]//Advances in Neural Information Processing Systems 28. Montréal, Quebec:NIPS, 2015: 1486-1494.
[17]KRISHNAN D, FERGUS R. Fast image deconvolution using hyper-laplacian priors[C]//Advances in Neural Information Processing Systems. Vancouver, BC:NIPS, 2009: 1-9.
[18]BURT P, ADELSON E. The laplacian pyramid as a compact image code[J].IEEE Transactions on Communications, 1983, 31(4): 532-540. DOI: 10.1109/TCOM.1983.1095851.
[19]VANDER S A, VANHATEREN J H. Modelling the power spectra of natural images: statistics and information[J]. Vision Research, 1996, 36(17): 2759-2770. DOI: 10.1016/0042-6989(96)00002-8.
[20]IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille: 2015: 448-456.
[21]DUCHI J, HAZAN E, SINGER Y. Adaptive subgradient methods for online learning and stochastic optimization[J]. Journal of Machine Learning Research, 2011, 12: 2121-2159.
[22]GATYS L A, ECKER A S, BETHGE M. Texture synthesis using convolutional neural networks[C]//Advances in Neural Information Processing Systems. Montréal, Quebec:NIPS, 2015: 1-10.
[23]HE K, WANG Y, HOPCROFT J. A powerful generative model using random weights for the deep image representation[C]//Advances in Neural Information Processing Systems. Barcelona:NIPS, 2016:1-8.
[24]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Advances In Neural Information Processing Systems. Long Beach: NIPS, 2012: 1-9.
[25]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]//International Conference on Learning Representations. San Diego:ICLR, 2015: 1-14.
[26]ZHOU B, KHOSLA A, LAPEDRIZA A, et al. Learning deep feature for discriminative localization[C] //2015 IEEE Conference on Computer Vision and Pattern Recognition.Washington, DC:CVPR,2016:2921-2929.DOI:10.1109/CVPR.2016.319.
[27]SZEGEDY C, WEI L, YANGQING J, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Washington, DC:CVPR, 2015(2): 1-9. DOI: 10.1109/CVPR.2015.7298594.
[28]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Washington, DC:CVPR, 2016, 7(3): 171-180. DOI: 10.1109/CVPR.2016.90.
Deepvisualizationbasedonthespatialpyramiddecomposition
TAO Pan1,2, FU Zhongliang1,2, ZHU Kai1,2, WANG Lili1,2
(1. Chengdu Institute of Computer Application, Chinese Academy of Sciences, Chengdu 610041, China;2. University of Chinese Academy of Sciences, Beijing 100049, China)
Focusing on the interpretability problems of image classification models based on deep convolutional neural network, a visualization method for improving the feature space of model is proposed by evaluating the potential expressiveness of model feature space. Given any pre-trained deep model, firstly the method generates an image by the normalized operation of the gradient in the back propagation, which maximizes activation the class score, and then uses the momentum of the stochastic gradient descent training strategy for back propagation to the original input image. The conventional regularization technique cannot adjust the feature space of the model. Therefore, the spatial pyramid decomposition method is proposed on the basis of the existing regularization method. By constructing the multi-layer Laplacian spatial pyramid, the low frequency component of the target image feature space is promoted, combined with multi-layer Gaussian spatial pyramid to adjust the high-frequency components of its feature space to obtain a better visualization effect. By limiting the region of visualization, it is proposed to use the class activation map to suppress the context-free information, which can further improve the visualization effect. The visualization experiments are performed on the different classes of the model and the individual neurons of the convolution layer. Results show that the proposed method can achieve better visualization effect in different depth models and different visualization tasks.
deep visualization; pyramid decomposition; maximize activation; convolutional neural network; activation map
10.11918/j.issn.0367-6234.201612087
TP391.41
A
0367-6234(2017)11-0060-06
2016-12-15
中國(guó)科學(xué)院西部之光人才培養(yǎng)計(jì)劃項(xiàng)目
陶 攀(1988—),男,博士研究生
付忠良, Fzliang@netease.com
(編輯苗秀芝)