張 憲 史滄紅 李孝杰
1(成都信息工程大學(xué)計(jì)算機(jī)學(xué)院 成都 610103) 2(西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院 成都 611765)(zhangxian317@gmail.com)
在計(jì)算機(jī)視覺中,可視化圖像關(guān)鍵特征區(qū)域是一個(gè)重要而需要深入研究的問題.視覺特征歸因(visual feature attribution)是圖像可視化的新興問題.2018年Baumgartner等人[1]發(fā)表于CVPR(computer vision and pattern recognition)的會(huì)議論文將其定義為:檢測和可視化圖像中特定類別的特征區(qū)域.另外,視覺特征歸因問題對(duì)于弱監(jiān)督目標(biāo)定位、理解疾病效應(yīng)和數(shù)據(jù)中的重要隱藏信息起著非常重要的作用.特別在醫(yī)學(xué)臨床中,醫(yī)生需要根據(jù)病人病理圖像或影像數(shù)據(jù)人工獲取病人的疾病信息.與區(qū)分明顯的自然圖像不同,正常人與患者的圖像特征數(shù)據(jù)通常差異性較小,因此從大量的圖像數(shù)據(jù)中尋找有用的病理信息無疑單調(diào)乏味、耗時(shí)且容易出錯(cuò).本文主要解決了醫(yī)學(xué)圖像的病變特征的標(biāo)注問題,即自動(dòng)顯示病變區(qū)域.
弱監(jiān)督目標(biāo)定位與分割[2]通常采用分析訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)分類器[2],結(jié)合類激活映射(class activation mapping, CAM)[3]、導(dǎo)向反向傳播等方法獲得最終的特征圖[4],進(jìn)而確定目標(biāo)位置.但此類方法通常只提供判定圖像屬于某種類別的大概依據(jù)(范圍),而不能實(shí)現(xiàn)精準(zhǔn)定位.如在弱監(jiān)督目標(biāo)定位中[5-6]訓(xùn)練數(shù)據(jù)是弱標(biāo)記的,即標(biāo)簽僅包括圖像或視頻中是否含有特定目標(biāo),而不提供該目標(biāo)的具體位置信息.基于已有的數(shù)據(jù)標(biāo)簽信息,弱監(jiān)督目標(biāo)定位只有通過訓(xùn)練分類器結(jié)合分類特征圖達(dá)到目標(biāo)定位的目的.但是直接基于神經(jīng)網(wǎng)絡(luò)分類器完成該類任務(wù),存在一定的缺陷.因?yàn)樵擃惙诸惼髦皇轻槍?duì)某些顯著特征區(qū)域而不是整幅圖片進(jìn)行分類.在訓(xùn)練期間,如果圖像冗余信息具有更強(qiáng)的特征,則分類器可能會(huì)忽略掉具有低判別力的感興趣特征.所以,此類方法最后可能得不到我們的期望目標(biāo).因此,如果圖像包含多個(gè)目標(biāo)的類別信息,則可能存在漏檢、錯(cuò)檢的問題.
目前,基于生成式對(duì)抗網(wǎng)絡(luò)(generative adver-sarial networks, GAN)[7]的視覺特征歸因圖像生成方式已具有好的視覺效果.但是GAN網(wǎng)絡(luò)很難讓生成器網(wǎng)絡(luò)G(x)和判別器網(wǎng)絡(luò)D(x)達(dá)到負(fù)載均衡的效果,同時(shí)又存在梯度消失、難以訓(xùn)練的問題.為了解決GAN網(wǎng)絡(luò)面臨的問題和彌補(bǔ)傳統(tǒng)方式只關(guān)注局部特征的缺陷,Baumgartner等人[1]使用Wasserstein距離來更好地訓(xùn)練G(x)和D(x),獲得顯著特征區(qū)域,提出了VA-GAN(visual attribu-tion wasserstein GAN)[1]網(wǎng)絡(luò)來生成整幅圖像的特征區(qū)域.同時(shí),VA-GAN網(wǎng)絡(luò)為了加速網(wǎng)絡(luò)收斂,引入WGAN-GP的梯度懲罰[8](gradient penalty)來防止梯度消失或爆炸.雖然基于WGAN和WGAN-GP網(wǎng)絡(luò)的VA-GAN能準(zhǔn)確顯示特征區(qū)域,但仍存在較大冗余信息.此外,WGAN在真實(shí)訓(xùn)練中依舊存在訓(xùn)練困難、收斂速度慢的問題.WGAN-GP在不同數(shù)據(jù)集中的適用性較差.
為解決上述問題,本文提出了一種基于生成對(duì)抗對(duì)特征的視覺特征歸因網(wǎng)絡(luò).與VA-GAN網(wǎng)絡(luò)通過確保生成更接近正常人的圖像y0進(jìn)而得到病變區(qū)域特征信息G(x1)不同,我們直接顯式地鑒別判定生成病變區(qū)域特征.首先構(gòu)造關(guān)鍵(如病變)特征區(qū)域?qū)箤?duì),采用生成和鑒別對(duì)抗網(wǎng)絡(luò),將病人圖像數(shù)據(jù)x1送入生成網(wǎng)絡(luò)G(x1)生成正常圖像y0,把構(gòu)造的特征對(duì)抗對(duì)(adversarial pair, AP) (y0-x1,x1-x0)送入鑒別網(wǎng)絡(luò)進(jìn)行特征修正、正常與否鑒別,通過對(duì)抗學(xué)習(xí)生成關(guān)鍵特征區(qū)域.該種方式可有效去除病變區(qū)域特征的冗余信息,實(shí)現(xiàn)更精確的病變信息定位,有效解決了疾病特征可視化問題.此外,我們采用了Wasserstein距離約束具有關(guān)鍵特征的對(duì)抗對(duì)(y0-x1,x1-x0)服從相同的分布,使生成的病變特征y0-x1更接近于真實(shí)病變特征x0-x1,進(jìn)而有效過濾冗余信息.同時(shí)該距離可解決傳統(tǒng)生成對(duì)抗網(wǎng)絡(luò)難以達(dá)到負(fù)載均衡的缺陷.另外使用梯度懲罰加速收斂過程.實(shí)驗(yàn)結(jié)果證明了我們網(wǎng)絡(luò)的有效性.
目前,使圖像關(guān)鍵區(qū)域特征可視化的網(wǎng)絡(luò)有很多,其中,最具有代表性的為類激活映射圖(class activation mapping, CAM)、GAN網(wǎng)絡(luò)、WGAN網(wǎng)絡(luò)、WGAN-GP網(wǎng)絡(luò)和VA-GAN網(wǎng)絡(luò).這些網(wǎng)絡(luò)結(jié)構(gòu)在關(guān)鍵區(qū)域特征可視化取得了很好的效果.
1) 類激活映射圖(class activation mapping, CAM)[9]
(1)
醫(yī)學(xué)圖像上的大量工作都是建立在CAM基礎(chǔ)之上的.在醫(yī)學(xué)領(lǐng)域通過CAM熱力圖來做特征區(qū)域的顯示,從而判斷病變區(qū)域,便于診斷.該類方法會(huì)受到其他噪聲的干擾,導(dǎo)致病變區(qū)域定位不準(zhǔn)確,即使沒有噪聲的干擾,也存在邊緣模糊和標(biāo)注范圍不明確的問題.
2) GAN網(wǎng)絡(luò)
GAN網(wǎng)絡(luò)通常由2部分組成,生成器G(x)和判別器D(x).其中,生成器G(x)負(fù)責(zé)生成類似于真圖的假圖x1,判別器D(x)則通過學(xué)習(xí)真實(shí)圖像x0與假圖x1的特征來鑒別輸入鑒別器的圖片真假,兩者通過相互博弈,在競爭中共同進(jìn)步,直到生成器生成的圖像與真實(shí)圖像屬于相同分布.經(jīng)典GAN網(wǎng)絡(luò)損失函數(shù)為
(2)
其中,x0為真圖,x1為假圖且x1=G(z),z為隨機(jī)噪聲.
基于GAN網(wǎng)絡(luò)的生成思想,產(chǎn)生了越來越多應(yīng)用.在醫(yī)學(xué)圖像的背景下,GAN[11]已應(yīng)用于視網(wǎng)膜眼底圖像中的超分辨率,用于半監(jiān)督心臟分割,合成MR圖像的計(jì)算機(jī)斷層掃描圖像和運(yùn)動(dòng)建模.針對(duì)原始GAN網(wǎng)絡(luò)生成圖像模糊問題,SRGAN利用感知損失(perceptual loss)和對(duì)抗損失(adversarial loss);使用SPResnet作為生成網(wǎng)絡(luò),再加上2個(gè)亞像素卷積層(sub-pixel convolution layers)被用來增大特征尺寸;判別器使用VGG19提取特征信息來提升恢復(fù)圖片的真實(shí)感實(shí)現(xiàn)圖像的超分辨率.與傳統(tǒng)的GAN網(wǎng)絡(luò)相比,CGAN (conditional genera-tive adversarial nets)[12]在生成器和判別器上多了一個(gè)標(biāo)簽的輸入,使其變?yōu)闂l件概率公式,實(shí)現(xiàn)圖像到圖像的翻譯,即CGAN就是根據(jù)條件生成指定要求的圖像.為了完成從文本描述到圖像的合成,StackGAN[13]以隨機(jī)向量z和文本描述刻畫的向量作為輸入,采用標(biāo)準(zhǔn)的conditional GAN網(wǎng)絡(luò)生成物體的基本形狀和顏色;然后將生成結(jié)果和文本描述作為輸入對(duì)抗生成高質(zhì)量的圖片.
3) WGAN(Wasserstein GAN)網(wǎng)絡(luò)
WGAN網(wǎng)絡(luò)由Gulrajani等人[8]于2017年基于Wasserstein距離[14]提出的用于生成對(duì)抗網(wǎng)絡(luò)損失函數(shù)的新型方式,以解決傳統(tǒng)GAN網(wǎng)絡(luò)通過JS散度拉近2種分布(生成分布和真實(shí)分布)的不平衡問題.該方法通過近似Wasserstein距離,利用參數(shù)數(shù)值范圍受限的判別神經(jīng)網(wǎng)絡(luò)來最大化可求解的Wasserstein距離形式優(yōu)化生成器使得Wasserstein距離縮小,以有效拉近生成分布與真實(shí)分布.WGAN既解決了訓(xùn)練不穩(wěn)定的問題,也提供了可靠的訓(xùn)練進(jìn)程指標(biāo),而且該指標(biāo)與生成樣本的質(zhì)量高度相關(guān).WGAN與原始的GAN網(wǎng)絡(luò)相比做了4點(diǎn)改動(dòng):
① 判別器最后一層去掉sigmod;
② 生成器和判別器的loss不取log;
③ 每次更新判別器的參數(shù)之后把它們的絕對(duì)值截?cái)嗟讲怀^一個(gè)固定常數(shù);
④ 不用基于動(dòng)量的優(yōu)化算法.
4) WGAN-GP網(wǎng)絡(luò)
WGAN-GP網(wǎng)絡(luò)與GAN網(wǎng)絡(luò)相比較,WGAN加速了訓(xùn)練過程,但仍存在訓(xùn)練困難、收斂速度慢、效果提升不顯著的問題.2017年,Gulrajani等人[8]指出直接采用weight clipping處理Lipschitz限制條件是造成WGAN上述問題的主要原因.Gulrajani等人[8]為了加速網(wǎng)絡(luò)收斂,提出了WGAN-GP[8]的思想,使用梯度懲罰(gradient penalty, GP)來防止梯度消失或爆炸問題.WGAN-GP網(wǎng)絡(luò)針對(duì)Lipschitz限制要求判別器的梯度不超過常數(shù)k,梯度懲罰則設(shè)置一個(gè)額外的loss項(xiàng)來實(shí)現(xiàn)梯度與k之間的聯(lián)系,其目標(biāo)函數(shù)如式(3)所示.另外,WGAN-GP模型是對(duì)每個(gè)樣本獨(dú)立施加梯度懲罰,所以在判別器的模型架構(gòu)中不能使用批量歸一化(batch normaliza-tion)約束,因?yàn)樗鼤?huì)引入一批數(shù)據(jù)(batch)內(nèi)部不同樣本之間的相互依賴關(guān)系.
(3)
5) VA-GAN網(wǎng)絡(luò)
VA-GAN網(wǎng)絡(luò)是基于WGAN-GP網(wǎng)絡(luò)結(jié)構(gòu),2018年Baumgartner等人[1]提出了一種視覺特征歸因網(wǎng)絡(luò)(VA-GAN)[1],以實(shí)現(xiàn)病變區(qū)域特征圖生成功能.VA-GAN將圖像分為2類xi,其中,i∈{0,1},0代表正常人,1代表病人.該方法首先通過將病人圖像數(shù)據(jù)x1送到生成器G(x)中,生成病變MaskM(x1)特征圖;其次,將該Mask添加到類別為“1”的病理圖像上,構(gòu)造出正常人圖像y0=M(x1)+x1和真實(shí)正常人圖像x0分別送入判別器D(x)中,通過對(duì)抗訓(xùn)練確保生成的Mask受到約束,使其與類別為“1”的圖像疊加,更接近類別為“0”的圖像,使y0和x0有相同的特征分布.最后通過(y0-x1)獲得病變區(qū)域視覺歸因特征圖.圖1為Baumgartner等人[1]提出的網(wǎng)絡(luò)構(gòu)架.
基于GAN的視覺特征歸因網(wǎng)絡(luò)是研究可視化圖像的關(guān)鍵特征區(qū)域的一個(gè)重要研究問題.WGAN,VA-GAN等相關(guān)視覺特征歸因網(wǎng)絡(luò)已經(jīng)具有很好的視覺效果.雖然使用WGAN-GP結(jié)構(gòu)的VA-GAN在理論上解決了WGAN的缺陷,但我們發(fā)現(xiàn)VA-GAN在視覺特征歸因上除了針對(duì)病變區(qū)域生成特征歸因圖,還產(chǎn)生了大量的冗余特征信息.所以為了重點(diǎn)關(guān)注病變特征,去除冗余特征,本文提出了一種更高效的基于生成對(duì)抗對(duì)特征的視覺特征歸因網(wǎng)絡(luò).
Fig.1 The overall structure of VA-GAN圖1 VA-GAN網(wǎng)絡(luò)整體結(jié)構(gòu)圖
與VA-GAN網(wǎng)絡(luò)通過確保生成更接近正常人的圖像進(jìn)而得到病變區(qū)域特征信息不同,我們直接顯式地鑒別判定關(guān)鍵(病變)區(qū)域特征.該種方式可有效去除病變區(qū)域特征的冗余信息,生成更精確的病變信息.
我們的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.與生成對(duì)抗網(wǎng)絡(luò)類似,該網(wǎng)絡(luò)也由2部分組成:生成器G(x)和判別器D(x).G(x)基于傳統(tǒng)的U-net網(wǎng)絡(luò)模型[15],我們在生成器的每層卷積與反卷積之后采用batch normalization做約束,以加速網(wǎng)絡(luò)的收斂性、防止梯度的消失與爆炸.同時(shí),為了增強(qiáng)網(wǎng)絡(luò)的訓(xùn)練效果,數(shù)據(jù)輸入被規(guī)范為[-1,1]之間.實(shí)驗(yàn)采用的具體G(x)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示.而D(x)鑒別器是經(jīng)典卷積神經(jīng)網(wǎng)絡(luò),由幾層卷積加池化組成以方便提取高效特征.我們采用的D(x)網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示.
Fig.2 The framework of visual feature attribution based on adversarial feature pairs圖2 基于生成對(duì)抗特征的網(wǎng)絡(luò)框架圖
Fig.3 The generator’s network structure G(x)圖3 生成器網(wǎng)絡(luò)結(jié)構(gòu)G(x)
Fig.4 Discriminator network structure D(x)圖4 判別器網(wǎng)絡(luò)結(jié)構(gòu)D(x)
與VA-GAN網(wǎng)絡(luò)類似,將圖像xi分為2類,其中i∈{0,1},0代表正常人,1代表病人.我們首先將病人圖像數(shù)據(jù)xi送到生成器G(x)中,生成特征圖G(xi)(即圖2中的G(patient),同時(shí)結(jié)合病人圖像數(shù)據(jù)x1生成新的圖像y′(如式(4)所示).然后,將y′送入tanh函數(shù)中,生成正常人圖像y0(如式(5)所示).其次,我們構(gòu)造一種更能突出關(guān)鍵特征如病變區(qū)域的特征圖Maskm0(如式(6)所示),進(jìn)而建立病變區(qū)域特征對(duì)抗對(duì)(m0,x0-x1)作為鑒別網(wǎng)絡(luò)的D(x)的輸入做真假鑒別.通過病變區(qū)域?qū)固卣鲗?duì)互相博弈學(xué)習(xí)不斷調(diào)整訓(xùn)練G(x)和D(x)網(wǎng)絡(luò),使生成的病變區(qū)域Maskm0更接近病變區(qū)域的歸因特征圖x0-x1(或服從病變區(qū)域圖像分布).最后m0顯示的就是病人的病變區(qū)域特征信息.其中,具體的結(jié)構(gòu)展示和每個(gè)步驟的結(jié)果見附錄A.
y′=x1+G(x1),
(4)
y0=tanh(y′),
(5)
m0=y0-x1,
(6)
其中,x1為病人圖像,y0為生成的正常人圖像,m0為得到的病變區(qū)域圖像.
對(duì)抗對(duì)(adversarial pair, AP):針對(duì)Baumgartner等人[1]提出的VA-GAN視覺特征歸因網(wǎng)絡(luò)因考慮全局特征容易產(chǎn)生大量的冗余信息,我們構(gòu)造了一種更能突出病變區(qū)域的特征對(duì)抗對(duì)(m0,x0-x1),以獲得更精確的視覺定位信息.VA-GAN將整幅特征圖像的所有信息y0和x0直接送入D(x)判別器中,通過不斷學(xué)習(xí)x0的特征進(jìn)而拉近y0與x0之間的分布.該種對(duì)抗生成方式雖然能生成病變區(qū)域的視覺效果歸因特征圖,但卻產(chǎn)生了大量的冗余信息.
y0→D(x)←x0,
(7)
m0→D(x)←(x0-x1),
(8)
其中,y0為生成的正常人圖像,x0為正常人的圖像,m0為生成的病變區(qū)域,x1為病人.
因此為了重點(diǎn)關(guān)注病變特征,去除冗余特征信息,我們提出了一種更能突出病變區(qū)域的特征對(duì)抗對(duì)AP(m0,x0-x1),如式(8)所示用于鑒別器學(xué)習(xí).
從式(7)和式(8)可直觀地看出,(m0,x0-x1)包括較少的冗余信息,更能突出病人與正常人圖像的差異性,通過m0和(x0-x1)特征對(duì)抗學(xué)習(xí),使m0更接近病變區(qū)域(x0-x1)或兩者服從相同分布.從實(shí)驗(yàn)中可以證明此種方式無論在視覺效果上,還是在實(shí)驗(yàn)指標(biāo)上,此種網(wǎng)絡(luò)均要優(yōu)于VA-GAN.
與VA-GAN網(wǎng)絡(luò)損失函數(shù)類似,將原始的WGAN網(wǎng)絡(luò)損失函數(shù)改為
LGAN(M,D)=Ex~Pd(x|c=0)[D(x0-x1)]-
Ex~Pd(x|c=1)[D(m0)].
(9)
為了得到更精確的病變區(qū)域和去除冗余信息,我們采用L1范數(shù)對(duì)Maskm0進(jìn)行稀疏正則化約束,即:
(10)
(11)
(12)
在具體實(shí)驗(yàn)中,根據(jù)VA-GAN網(wǎng)絡(luò)我們設(shè)置λ=10,ε∈[0,1],ε是與m0維度相同的滿足均勻分布的隨機(jī)值.
LWGAN_GP=LWGAN+PPeanlty+λ0Lreg.
(13)
在實(shí)驗(yàn)中我們設(shè)置λ0=100.
為了驗(yàn)證所提網(wǎng)絡(luò)結(jié)構(gòu)的有效性,本文主要與相關(guān)方法CAM, WGAN,VA-GAN做對(duì)比實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果評(píng)價(jià)指標(biāo)包括定性(視覺效果圖)和定量指標(biāo):NCC(normalized cross correlation),PSNR(peak signal-to-noise ratio),SSIM(structural similarity),ED(歐氏距離)來衡量不同方法的效果差別.其中,定量指標(biāo)是通過比較ground-truth label和M(x)(即生成的mask)的相似程度來對(duì)比的,各項(xiàng)指標(biāo)介紹可參考文獻(xiàn)[16-17].
實(shí)驗(yàn)在python 3.6.7,Ubuntu 16.04,Tensorflow 1.3.1平臺(tái)下,使用型號(hào)為NVIDIA GeForce RTX 2080 TI的GPU上運(yùn)行.可用于單體梯度計(jì)算的最大批量大小為2+2.為了獲得更可靠的梯度估計(jì),我們在執(zhí)行訓(xùn)練步驟之前計(jì)算了總共6個(gè)minibatch的梯度.在實(shí)驗(yàn)中,我們以交替訓(xùn)練的方式優(yōu)化判別器和生成器網(wǎng)絡(luò)參數(shù),但與常規(guī)GAN網(wǎng)絡(luò)的訓(xùn)練方式不同,為了達(dá)到最接近優(yōu)化的判別器,我們在每訓(xùn)練判別器5次之后再訓(xùn)練更新一次生成器.另外,對(duì)于剛開始的前25次迭代和每第100次迭代,我們會(huì)在訓(xùn)練100次判別器之后訓(xùn)練一次生成器.我們使用ADAM優(yōu)化器來執(zhí)行所有實(shí)驗(yàn)的更新步驟,優(yōu)化器參數(shù)設(shè)置為β1=0,β2=0.9,學(xué)習(xí)率為10-4,優(yōu)化器的其余參數(shù)均為默認(rèn)的內(nèi)部參數(shù).最后,我們將λ值設(shè)為100作為權(quán)重映射正則化項(xiàng).
受數(shù)據(jù)集限制,本文主要采用3種不同數(shù)據(jù)集、合成數(shù)據(jù)肺部病理數(shù)據(jù)和心臟病理數(shù)據(jù)的實(shí)驗(yàn).
Fig.5 Description of synthetic data圖5 合成數(shù)據(jù)實(shí)例
首先我們構(gòu)建了合成數(shù)據(jù)集,生成了具有2個(gè)類別為10 000個(gè)112×112的合成圖像數(shù)據(jù)集.圖5為模擬健康對(duì)照組(設(shè)標(biāo)簽為0)和患者組(標(biāo)簽1)實(shí)例圖像數(shù)據(jù).在圖5中第1行為Ground_Truth,第2行為真實(shí)數(shù)據(jù).生成圖像在2個(gè)類別中均勻分布.其中,合成數(shù)據(jù)的健康對(duì)照組(標(biāo)簽0)和患者(標(biāo)簽1)都是包含具有隨機(jī)高斯噪聲與高斯模糊濾波器卷積的圖像.但是患者表現(xiàn)出2種疾病效果之一,即一種是正方形在右下方位置的病人圖像(如圖5(a))和一種在左上方的病人圖像(如圖5(b)),2種疾病都使用相同的數(shù)據(jù)標(biāo)簽(標(biāo)簽1),偏離中心點(diǎn)的位置最多為5個(gè)像素.
第2種數(shù)據(jù)集是肺部病變圖像集.令原始肺部圖像作為正常人,在正常肺部數(shù)據(jù)上添加隨機(jī)噪聲作為病理數(shù)據(jù)集,即異常圖像.由于沒有合適的病理圖片數(shù)據(jù)源,我們使用肺部切片作為數(shù)據(jù)的正常圖片.我們采用在肺部切片的隨機(jī)區(qū)域使用椒鹽噪聲來構(gòu)造病變區(qū)域,以此來達(dá)到病人與正常人切片成對(duì)出現(xiàn)的效果.為了證明VA-GAN-AP的魯棒性,病理位置與之前的合成數(shù)據(jù)相比,更加具有隨機(jī)性.肺部數(shù)據(jù)的效果圖如圖6所示:
Fig.6 Examples of lung data圖6 肺部數(shù)據(jù)實(shí)例
第3種數(shù)據(jù)集是心臟病變圖像數(shù)據(jù),用于捕捉心肌的病變區(qū)域.心臟圖像不同于肺部數(shù)據(jù),而在心臟切片中,存在血池、動(dòng)脈等其他更加豐富的冗余信息.其中,心臟切片如圖7(a)所示,而心肌的位置為標(biāo)紅的環(huán)形區(qū)域如圖7(b)所示.心肌的病變區(qū)域特征不如肺部數(shù)據(jù)和合成數(shù)據(jù)明顯,其病變區(qū)域和Ground_Truth如圖8所示.我們要做的工作就是在心肌中捕捉到病變區(qū)域.
Fig.7 Heart data圖7 心臟數(shù)據(jù)
Fig.8 Examples of heart data圖8 心臟數(shù)據(jù)實(shí)例
本次實(shí)驗(yàn)中除了我們自己的實(shí)驗(yàn)方法,對(duì)比實(shí)驗(yàn)包括CAM[4],WGAN[8],VA-GAN[1].CAM是將傳統(tǒng)的分類器的Dense層去掉,換成全局平均池化(平均池化獲得的權(quán)重值為wk),如式(1)所示,再乘以特征圖反向疊加到原圖得熱力圖,在此實(shí)驗(yàn)中,我們用Vgg16作為分類器,去掉所有Dense層.因?yàn)槲覀冏龅氖嵌诸?,所以將最后一層卷積的輸出通道數(shù)改為2,對(duì)每層特征圖做GAP,做二分類預(yù)測.最后權(quán)重乘以特征圖反向疊加到原圖得預(yù)測結(jié)果.WGAN網(wǎng)絡(luò)是用Wasserstein距離來拉近病人于正常人的分布特征,在實(shí)驗(yàn)中,我們根據(jù)VA-GAN網(wǎng)絡(luò)使用G(x)直接生成正常人的圖像,在目標(biāo)函數(shù)中,使用期望代替log項(xiàng)來近似Wasserstein距離.VA-GAN網(wǎng)絡(luò)借用WGAN-GP的思想,在WGAN的基礎(chǔ)上做了梯度懲罰,在實(shí)驗(yàn)中,G(x)生成mask,加上病人x1得到正常人y0,如式(7)所示,判別器D(x)判別正常人x0和生成的正常人y0之間的差異,最后由y0-x1得病變區(qū)域.這幾類方法的實(shí)驗(yàn)結(jié)果和對(duì)比分析將會(huì)在下面給出.
在合成數(shù)據(jù)中,CAM, WGAN,VA-GAN的視覺結(jié)果如圖9所示.因?yàn)镃AM的最大池化層較少,所以其感知區(qū)域也會(huì)很小,這就意味著該特征圖無法同時(shí)捕捉到2個(gè)正方向,所以其邊緣信息丟失的比較嚴(yán)重.從圖9中可看出,CAM對(duì)病變區(qū)域的捕捉已經(jīng)完全丟失了邊緣信息.而WGAN和VA-GAN產(chǎn)生了局部信息較清晰的效果圖,且保留了其邊緣信息的效果.
各網(wǎng)絡(luò)對(duì)合成數(shù)據(jù)的NCC等各項(xiàng)定量評(píng)價(jià)指標(biāo)值如表1~4所示.從實(shí)驗(yàn)的效果和實(shí)驗(yàn)指標(biāo)可以看出,CAM可以大體上捕捉到病變區(qū)域的位置,但是對(duì)邊緣細(xì)節(jié)信息的捕捉卻不夠明顯.WGAN和VA-GAN的效果要明顯優(yōu)于CAM.而我們基于對(duì)抗特征的方法VA-GAN-AP的不管定性還是定量結(jié)果均更加接近ground-truth的效果,且我們的方法各項(xiàng)指標(biāo)值均明顯優(yōu)于其他網(wǎng)絡(luò).
Table 1 NCC on the Synthetic Data表1 合成數(shù)據(jù)NCC評(píng)價(jià)指標(biāo)
Table 2 PSNR on the Synthetic Data表2 合成數(shù)據(jù)PSNR評(píng)價(jià)指標(biāo)
Table 3 SSIM on the Synthetic Data表3 合成數(shù)據(jù)SSIM評(píng)價(jià)指標(biāo)
Table 4 ED on the Synthetic Data表4 合成數(shù)據(jù)ED評(píng)價(jià)指標(biāo)
針對(duì)真實(shí)肺部數(shù)據(jù)集,CAM,WGAN,VA-GAN及我們網(wǎng)絡(luò)的視覺結(jié)果如圖10所示.由圖10我們可以看出,CAM的病變區(qū)域的捕捉效果針對(duì)性太差,而WGAN和VA-GAN可較準(zhǔn)確的捕捉到病變區(qū)域信息.肺部切片病理數(shù)據(jù)與合成數(shù)據(jù)相比而言,其病變區(qū)域的位置隨機(jī)性更大,病變區(qū)域的大小也不盡相同,從視覺效果圖上可以看出WGAN,VA-GAN和我們網(wǎng)絡(luò)對(duì)病變區(qū)域的捕捉并沒有受到這些因素的干擾,從而證明此種方法的魯棒性很好,而我們的方法具有更精準(zhǔn)的效果.
為了進(jìn)一步驗(yàn)證各方法在肺部真實(shí)數(shù)據(jù)集上的可行性,我們采用了4種定量指標(biāo):NCC,PSNR,SSIM和歐氏距離,其定量結(jié)果如表5~8所示.從實(shí)驗(yàn)指標(biāo)結(jié)果中可以看出,WGAN網(wǎng)絡(luò)和VA-GAN網(wǎng)絡(luò)要明顯優(yōu)于CAM網(wǎng)絡(luò).WGAN網(wǎng)絡(luò)的NCC指標(biāo)要比CAM網(wǎng)絡(luò)高了0.5,我們提出網(wǎng)絡(luò)的NCC為0.69,比CAM網(wǎng)絡(luò)高0.58,比WGAN網(wǎng)絡(luò)和VA-GAN網(wǎng)絡(luò)高出0.2和0.23;WGAN網(wǎng)絡(luò)和VA-GAN網(wǎng)絡(luò)的PSNR和SSIM也分別比CAM網(wǎng)絡(luò)高20和0.94,歐氏距離也明顯優(yōu)于CAM網(wǎng)絡(luò).
Table 5 NCC on the Lung Data表5 肺部數(shù)據(jù)NCC評(píng)價(jià)指標(biāo)
Fig.10 Examples of visual attribution on lung data obtained by different methods圖10 不同網(wǎng)絡(luò)在肺部數(shù)據(jù)集上的視覺效果圖
Fig.11 The Examples of visual attribution on heart data obtained by different methods圖11 不同網(wǎng)絡(luò)在心臟數(shù)據(jù)集上的視覺效果圖
Table 6 PSNR on the Lung Data表6 肺部數(shù)據(jù)PSNR評(píng)價(jià)指標(biāo)
Table 7 SSIM on the Lung Data表7 肺部數(shù)據(jù)SSIM評(píng)價(jià)指標(biāo)
Table 8 ED on the Lung Data表8 肺部數(shù)據(jù)ED評(píng)價(jià)指標(biāo)
心臟數(shù)據(jù)實(shí)驗(yàn)結(jié)果.針對(duì)真實(shí)肺部數(shù)據(jù)集,CAM網(wǎng)絡(luò)、WGAN網(wǎng)絡(luò)、VA-GAN網(wǎng)絡(luò)及我們網(wǎng)絡(luò)的視覺結(jié)果如圖11所示.由圖11可以看出,CAM網(wǎng)絡(luò)的病變區(qū)域的捕捉效果針對(duì)性太差,而WGAN網(wǎng)絡(luò)和VA-GAN網(wǎng)絡(luò)也對(duì)病變區(qū)域的捕捉失去了準(zhǔn)確性.心臟切片相對(duì)于肺部切片病理數(shù)據(jù)與合成數(shù)據(jù)相比而言,其病變區(qū)域的位置隨機(jī)性更大,病變區(qū)域也更小,病變特征更加不明顯,肉眼難以觀察到,且除了心肌上的病變區(qū)域外,還有存在更加豐富的血池,動(dòng)脈等冗余信息.從視覺效果圖上可以看出WGAN網(wǎng)絡(luò)和VA-GAN網(wǎng)絡(luò)已經(jīng)完全受到冗余信息的干擾,無法正確的捕捉到病變區(qū)域,而我們提出的VA-GAN-AP卻能正確的捕捉到病變區(qū)域,去除冗余特征信息.從而證明此種方法的魯棒性很好,而我們的方法具有更精準(zhǔn)的效果.
為了進(jìn)一步驗(yàn)證各方法在心臟真實(shí)數(shù)據(jù)集上的可行性,我們采用了4種定量指標(biāo):NCC,PSNR,SSIM, ED(歐氏距離),其定量結(jié)果如表9~12所示.從定量指標(biāo)結(jié)果可以看出,WGAN網(wǎng)絡(luò)和VA-GAN網(wǎng)絡(luò)要明顯優(yōu)于CAM網(wǎng)絡(luò).WGAN網(wǎng)絡(luò)的NCC指標(biāo)要比CAM網(wǎng)絡(luò)高了0.5,雖然我們網(wǎng)絡(luò)
Table 9 NCC on the Heart Data表9 心臟數(shù)據(jù)NCC評(píng)價(jià)指標(biāo)
Table 10 PSNR on the Heart Data表10 心臟數(shù)據(jù)PSNR評(píng)價(jià)指標(biāo)
Table 11 SSIM on the Heart Data表11 肺部數(shù)據(jù)SSIM評(píng)價(jià)指標(biāo)
Table 12 ED on the Heart Data表12 心臟數(shù)據(jù)ED評(píng)價(jià)指標(biāo)
在NCC指標(biāo)上值為0.058,只比VA-GAN網(wǎng)絡(luò)高了1.0×10-4,但是在PSNR,SSIM,ED(歐氏距離)3處指標(biāo)上和其他3種對(duì)比方法拉開了顯著的差距.
本文實(shí)驗(yàn)共用了合成數(shù)據(jù)、肺部病理切片和心臟切片3種數(shù)據(jù)集.合成數(shù)據(jù)的病變區(qū)域?yàn)?個(gè)正方形區(qū)域,其位置偏離中心位置最多5個(gè)像素,是為了增加測試難度,但是對(duì)結(jié)果并沒有顯著影響.而使用肺部病理數(shù)據(jù)更是增加了病變區(qū)域的隨機(jī)性,為訓(xùn)練增加了難度.從對(duì)肺部病理數(shù)據(jù)的實(shí)驗(yàn)結(jié)果來看,還是準(zhǔn)確捕捉到了病變區(qū)域的位置.心臟數(shù)據(jù)是3種數(shù)據(jù)中冗余信息最豐富,病變特征信息最不明顯,最難以捕捉心肌上病變區(qū)域的數(shù)據(jù)集,我們的網(wǎng)絡(luò)均可捕捉到了病變區(qū)域.根據(jù)以上的實(shí)驗(yàn)過程和實(shí)驗(yàn)結(jié)果,可以知道無論是在合成數(shù)據(jù)中還是在肺部病理切片數(shù)據(jù)或者是在心臟切片數(shù)據(jù)中,WGAN和VA-GAN和我們網(wǎng)絡(luò)的效果都比較客觀.
在計(jì)算機(jī)視覺中,將輸入圖像的特定特征區(qū)域可視化是一個(gè)深入研究的問題.經(jīng)過比對(duì)與分析,發(fā)現(xiàn)基于神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行特征分析的時(shí)候會(huì)產(chǎn)生冗余的特征信息.所以,為了彌補(bǔ)傳統(tǒng)方式只關(guān)注局部特征的缺陷,且容易產(chǎn)生冗余病變區(qū)域特征,我們提出了一種基于生成特征對(duì)抗對(duì)的視覺特征歸因網(wǎng)絡(luò).在合成數(shù)據(jù)和真實(shí)肺部圖像上的實(shí)驗(yàn)結(jié)果驗(yàn)證了我們所提方法的有效性.我們的算法也有一些局限性,其中最大的局限性在于要求訓(xùn)練數(shù)據(jù)集(病人、正常人)數(shù)據(jù)成對(duì)存在,用于捕捉到病變區(qū)域.這也是我們的網(wǎng)絡(luò)被稱作基于生成特征對(duì)抗對(duì)的視覺特征歸因網(wǎng)絡(luò),也是我們后續(xù)工作將要攻克的難題.