申利華,李 波
(武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢 430081)
醫(yī)學(xué)圖像是現(xiàn)代醫(yī)學(xué)診斷中應(yīng)用頻率很高的輔助工具,高分辨率(High-Resolution,HR)的醫(yī)學(xué)圖像能幫助醫(yī)生作出更準(zhǔn)確的診斷。醫(yī)學(xué)圖像超分辨率(Super-Resolution,SR)重建有兩個(gè)關(guān)鍵要求:清晰度和真實(shí)感,只有清晰且真實(shí)的SR 圖像才能有效地幫助醫(yī)生觀察如肺結(jié)節(jié)等是否病變。然而,硬件限制會(huì)影響醫(yī)學(xué)圖像的獲取。為解決因傳感器獲取的數(shù)據(jù)稀少而造成醫(yī)學(xué)圖像分辨率低的問題,以及讓患者盡可能少地暴露在成像時(shí)的輻射下[1],科研工作者提出了醫(yī)學(xué)圖像SR 重建技術(shù)。SR 重建技術(shù)作用于序列SR 圖像[2]和單幅SR 圖像,本文通過SR 重建技術(shù)提高單幅肺部電子計(jì)算機(jī)斷層掃描(Computed Tomography,CT)圖像的分辨率。如今大多數(shù)SR 重建技術(shù)都應(yīng)用于普通的彩色圖像,應(yīng)用于醫(yī)學(xué)圖像重建的還較少。醫(yī)學(xué)圖像紋理要求更復(fù)雜,并且對(duì)圖像結(jié)構(gòu)的準(zhǔn)確還原度要求更高。而低分辨率(Low-Resolution,LR)醫(yī)學(xué)圖像缺乏高頻細(xì)節(jié)信息,難以識(shí)別病變,不利于輔助醫(yī)生診斷疾病。SR 重建技術(shù)能將LR 醫(yī)學(xué)圖像重建為HR醫(yī)學(xué)圖像,輔助醫(yī)生診斷疾病。因此,醫(yī)學(xué)圖像SR 重建技術(shù)成為圖像處理中研究的熱點(diǎn),也是現(xiàn)代醫(yī)學(xué)界與人工智能技術(shù)聯(lián)系的一個(gè)重要方面。
傳統(tǒng)的圖像SR 重建方法有:1)基于插值的圖像超分法,如最鄰近元法、雙線性內(nèi)插法、三次內(nèi)插法等。這類方法算法簡單易實(shí)現(xiàn),計(jì)算速度快,但產(chǎn)生的圖像過于平滑、有偽影,高頻細(xì)節(jié)無法恢復(fù)[3],生成的SR 圖像清晰度有限、精度較低。2)基于重建的方法。該方法通常都是基于多幀圖像的,要結(jié)合其先驗(yàn)的知識(shí),如凸集投影法、迭代反投影法、貝葉斯分析法等;但是這類方法計(jì)算非常復(fù)雜,需要使用大量計(jì)算資源。3)基于機(jī)器學(xué)習(xí)的超分方法,如稀疏表示法、知識(shí)向量回歸法等。4)基于深度學(xué)習(xí)的超分法,如由Dong等[4]設(shè)計(jì)的傳統(tǒng)超分辨率卷積神經(jīng)網(wǎng)絡(luò)(Super-Resolution Convolutional Neural Network,SRCNN),通過三層卷積完成特征提取、非線性映射以及特征重建。Umehara 等[5]將卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)運(yùn)用于肺部CT 圖像SR 重建中,并獲得了優(yōu)異的結(jié)果,尤其是×2 放大。Abdel-Zaher 等[6]用CNN 對(duì)乳腺CT 圖像進(jìn)行分析,實(shí)現(xiàn)了乳腺癌的自動(dòng)檢測系統(tǒng)。Priya 等[7]提出了基于CNN 的間質(zhì)性肺病輔助診斷法,提高了分類識(shí)別多種肺病的診斷率。SRCNN 可通過訓(xùn)練集自動(dòng)優(yōu)化,在清晰度上有所進(jìn)步;但SRCNN 會(huì)對(duì)初始圖像作放大處理,所以速度較慢。為了提高訓(xùn)練速度,Dong 等[8]又提出了快速超分辨率卷積神經(jīng)網(wǎng)絡(luò)(Fast SRCNN,F(xiàn)SRCNN),以及Shi 等[9]提出的高效亞像素卷積神經(jīng)網(wǎng)絡(luò)(Efficient Sub-Pixel Convolutional Neural network,ESPCN)。以上都是單尺度前饋網(wǎng)絡(luò),為了使用LR 圖像與HR 圖像之間依賴關(guān)系,Zhang 等[10]針對(duì)醫(yī)學(xué)圖像SR 重建還提出了一種并行結(jié)構(gòu),使多分支之間交叉投影用于交換信息,這也是并行結(jié)構(gòu)應(yīng)用于單圖像超分重建任務(wù)的首次嘗試?;诜椒ǖ难芯窟M(jìn)入瓶頸后,科研工作者開始從深度上進(jìn)一步研究?;贖e 等[11]提出的殘差網(wǎng)絡(luò),Kim 等[12]提出了非常深的超分辨率(Very Deep Super-Resolution,VDSR)網(wǎng)絡(luò)和深度遞歸卷積網(wǎng)絡(luò)(Deeply-Recursive Convolutional Network,DRCN)。此類網(wǎng)絡(luò)通過加深網(wǎng)絡(luò)深度來優(yōu)化超分效果。此后科研工作者將拉普拉斯金字塔以及通道注意力機(jī)制這類網(wǎng)絡(luò)結(jié)構(gòu)用于醫(yī)學(xué)圖像SR 重建。Du 等[13]就采用迭代上采樣和下采樣,分層提取淺層和深層醫(yī)學(xué)圖像的特征,并且引入通道注意力機(jī)制,調(diào)整通道權(quán)重,抑制噪聲。這類方法都是基于像素空間優(yōu)化的方法,由于缺少高頻信息,導(dǎo)致視覺模糊。為了提高視覺感知質(zhì)量,有學(xué)者將生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)應(yīng)用到超分辨率中,提出了超分辨率生成對(duì)抗網(wǎng)絡(luò)(Super-Resolution Generative Adversarial Network,SRGAN)[14]。SRGAN 用內(nèi)容損失和對(duì)抗損失提高了重建圖像的視覺感知質(zhì)量,獲得了更自然的紋理;但該紋理細(xì)節(jié)并非全然真實(shí),因此SRGAN 不太適用于醫(yī)學(xué)應(yīng)用或監(jiān)測(所以本文實(shí)驗(yàn)與經(jīng)典算法比較時(shí)沒有選擇SRGAN)。Wang 等[15]將反饋機(jī)制用于GAN 的生成器網(wǎng)絡(luò),將殘差通道注意力機(jī)制與對(duì)抗性損失結(jié)合,使生成對(duì)抗網(wǎng)絡(luò)的優(yōu)化效果更加明顯。
普通圖片對(duì)細(xì)節(jié)的要求較低,對(duì)整體的要求較高。因此,普通圖像SR 重建是對(duì)整體圖片的分辨率重建,沒有針對(duì)性。而肺部圖像重點(diǎn)在于輔助對(duì)肺結(jié)節(jié)的判定以及肺部CT圖像內(nèi)部細(xì)節(jié)邊緣的清晰化,應(yīng)當(dāng)將注意力關(guān)注到肺結(jié)節(jié)和紋理細(xì)節(jié)這樣的小目標(biāo)。對(duì)肺部圖像的SR 重建,首先要放大圖像,從視覺上幫助醫(yī)生更好地判斷病情;其次,幫助醫(yī)療輔助系統(tǒng)更準(zhǔn)確地判定結(jié)節(jié)的位置,比如提高肺結(jié)節(jié)檢測的精度,以及提高肺結(jié)節(jié)良惡性分類的準(zhǔn)確度。醫(yī)學(xué)圖像SR重建區(qū)別于普通圖像重建的兩點(diǎn)是:1)重建圖像要求具備真實(shí)性,不能憑空產(chǎn)生;2)更關(guān)注肺結(jié)節(jié)和紋理細(xì)節(jié)這類小目標(biāo)的描述。
基于上述問題,本文提出了基于特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)和密集網(wǎng)絡(luò)的肺部圖像超分辨率重建(FPN and Dense Super-Resolution,F(xiàn)DSR)網(wǎng)絡(luò)。為了獲得更好的醫(yī)學(xué)圖像超分辨率的效果,本文的主要工作有:
1)在特征提取層引入了FPN 結(jié)構(gòu)。通過下采樣提取小物體的特征,增強(qiáng)對(duì)肺部圖像中小目標(biāo)結(jié)節(jié)及邊緣細(xì)節(jié)的關(guān)注度,繼而提高對(duì)肺結(jié)節(jié)檢測的精度,以及提高肺部圖像超分重建后的視覺效果。
2)在特征映射層引入了殘差網(wǎng)絡(luò)與特殊密集網(wǎng)絡(luò)結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu)。充分利用LR 圖像的特征,將LR 特征通過殘差學(xué)習(xí)融入特征重建的卷積層;并在殘差組合網(wǎng)絡(luò)(Residual Combined Network,RCN)內(nèi)部加入殘差網(wǎng)絡(luò),避免梯度消失等問題,從而映射出與HR 圖像更接近的特征圖像。
為了提高肺部圖像中肺結(jié)節(jié)以及紋理細(xì)節(jié)的重建效果,進(jìn)而提高肺結(jié)節(jié)的檢測精度,本文提出了一種新的網(wǎng)絡(luò)FDSR。FDSR 網(wǎng)絡(luò)基于FPN、特殊密集網(wǎng)絡(luò)以及殘差網(wǎng)絡(luò)實(shí)現(xiàn)肺部圖像的SR 重建。其中FPN 用于特征提取,特殊密集網(wǎng)絡(luò)以及殘差網(wǎng)絡(luò)的組合用于特征映射。圖1 給出了完整的FDSR 網(wǎng)絡(luò)結(jié)構(gòu),其中非線性映射由各種不同深度但長寬尺度相同的RCN 組合而成。本文的特征提取部分采用FPN提取小目標(biāo)的特征,使肺結(jié)節(jié)及紋理細(xì)節(jié)的特征重建更清晰,提高小目標(biāo)的分辨率。非線性映射部分結(jié)合5 塊長寬結(jié)構(gòu)相同、深度結(jié)構(gòu)不同的網(wǎng)絡(luò),網(wǎng)絡(luò)間用特殊密集網(wǎng)絡(luò)連接,網(wǎng)絡(luò)內(nèi)部用殘差網(wǎng)絡(luò)連接。特征重建采用CNN 作最后映射。本章將從特征提取、非線性映射以及特征重建三部分介紹FDSR 網(wǎng)絡(luò)。
圖1 FDSR網(wǎng)絡(luò)Fig.1 FDSR network
普通圖像超分重建時(shí)特征提取采用幾層卷積神經(jīng)網(wǎng)絡(luò),準(zhǔn)確度能達(dá)到大部分應(yīng)用場景的要求。但對(duì)肺部CT 圖像進(jìn)行SR 重建的目的有兩個(gè):重建出HR 圖像,幫助醫(yī)生更好地診斷病情;提高肺結(jié)節(jié)檢測輔助醫(yī)療設(shè)備的準(zhǔn)確度。
FPN 的總體架構(gòu)包括以下四個(gè)方面:自下而上網(wǎng)絡(luò)、自上而下網(wǎng)絡(luò)、橫向連接網(wǎng)絡(luò)以及卷積融合,目的是融合上采樣后的高語義特征和淺層的定位細(xì)節(jié)特征。FPN 具體的實(shí)現(xiàn)方式見圖2。
圖2 特征金字塔網(wǎng)絡(luò)Fig.2 Feature pyramid network
FPN 被應(yīng)用于許多領(lǐng)域,比較常見的有目標(biāo)檢測模型。對(duì)圖像進(jìn)行特征提取時(shí),大目標(biāo)包含的信息會(huì)越來越多,小目標(biāo)包含的信息會(huì)越來越少。而FPN 可以放大小目標(biāo)物體在整張圖片中的特征占比,提高對(duì)小目標(biāo)物體的檢測精度。FPN 本身并不是目標(biāo)檢測器,而是特征提取器,它通過卷積得到各個(gè)特征層,再逐步將其還原。在保證高級(jí)語義信息不丟失的情況下,解決小目標(biāo)信息逐步遞減的問題。
有學(xué)者將FPN 的思想用于醫(yī)學(xué)圖像SR 重建中,該網(wǎng)絡(luò)能有效減少重建圖像的視覺偽影,并且實(shí)現(xiàn)對(duì)一個(gè)模型的多尺度重建[16]。拉普拉斯金字塔超分辨率網(wǎng)絡(luò)(Laplacian pyramid Super-Resolution Network,LapSRN)[17]有兩條分支:一條為特征提取分支,專門用于特征提取;另一條為圖像重建分支,逐步將小圖像作上采樣再融合到特征提取分支。LapSRN 與FPN 不完全相同,但對(duì)原始圖像特征的重視程度一致,同樣都是在特征向下提取的同時(shí)保留原始的特征。Tang 等[18]將LapSRN 與密集網(wǎng)絡(luò)聯(lián)系,設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)將非插值操作的原始LR 圖像輸入到網(wǎng)絡(luò)中,用拉普拉斯網(wǎng)絡(luò)結(jié)構(gòu)逐步對(duì)LR 圖像上采樣,將得到×2 和×4 的圖像特征融合,以逐步重建放大的HR 圖像,該網(wǎng)絡(luò)中密集網(wǎng)絡(luò)結(jié)構(gòu)用于上采樣中的小模塊內(nèi)。本文輸入網(wǎng)絡(luò)的數(shù)據(jù)是經(jīng)過插值操作的LR 圖像,特征提取層采用的FPN 結(jié)構(gòu)用于融合由于提取特征造成長寬倍數(shù)減小的各個(gè)特征層,目的是放大肺結(jié)節(jié)及紋理細(xì)節(jié)這類小目標(biāo)的像素占比。本文提到的特殊密集網(wǎng)絡(luò)用于連接小模塊,而非小模塊內(nèi)部結(jié)構(gòu)。
將FPN 用于肺部圖像SR 重建,強(qiáng)化對(duì)肺結(jié)節(jié)及紋理細(xì)節(jié)這類小目標(biāo)的關(guān)注度,從LR 圖像塊提取不同特征,以提高重建精度[19],而非在不斷地卷積中逐漸忽略小目標(biāo)特征。因而從整體上提升圖像重建的峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和結(jié)構(gòu) 相似性(Structural SIMilarity,SSIM)值。由式(1)可知,生成最終SR 圖像,不斷訓(xùn)練權(quán)值矩陣,將傳遞信號(hào)反向傳播,小目標(biāo)的特征集合在計(jì)算中所占比例增加,能更有效地提高小目標(biāo)的訓(xùn)練質(zhì)量。
其中:w和y的上標(biāo)數(shù)字表示不同層,下標(biāo)表示該層特征不同的權(quán)值與特征值。網(wǎng)絡(luò)的目的是不斷降低loss,讓重建的SR圖像盡可能地接近真實(shí)的HR 圖像。由式(1)可知,loss最終由初始的輸入圖像像素點(diǎn)和網(wǎng)絡(luò)的各個(gè)權(quán)值矩陣計(jì)算獲得。為了避免在特征提取時(shí),大目標(biāo)包含的信息越來越多,小目標(biāo)包含的信息越來越少,加入FPN 結(jié)構(gòu),放大小目標(biāo)在特征圖中的特征占比,增大小目標(biāo)在整個(gè)訓(xùn)練過程的權(quán)值占比。這不僅僅能對(duì)整個(gè)圖像SR 重建,也能增強(qiáng)網(wǎng)絡(luò)最后對(duì)細(xì)節(jié)紋理的恢復(fù)。
FDSR 的特征提取使用了FPN的思想,用2層FPN 結(jié)構(gòu)提取更精細(xì)的特征,從而提高醫(yī)學(xué)圖像特征提取的質(zhì)量,用于肺部CT 圖像SR 重建。具體的特征提取結(jié)構(gòu)見圖3。由于SR 重建的特殊性,LR 圖片中包含大量有用的特征。因此,提取完小目標(biāo)的特征后,還融入初始時(shí)LR 特征,特征融合的結(jié)果為后續(xù)特征映射的輸入。
圖3 FDSR的特征提取結(jié)構(gòu)Fig.3 Feature extraction structure of FDSR
醫(yī)學(xué)圖像SR 重建中VDSR 巧妙運(yùn)用了殘差網(wǎng)絡(luò)[20]。較深的非線性映射網(wǎng)絡(luò)重建的最終圖像效果更好的可能性更大,但過深的網(wǎng)絡(luò)結(jié)構(gòu)可能造成梯度消失的問題。VDSR 在特征重建引入了LR 圖像的特征,解決了梯度消失的問題。很多學(xué)者將殘差網(wǎng)絡(luò)引入自己的深度模型,如Yang 等[21]以DRCN 作為延展,設(shè)計(jì)出了自己的深度模型,將每次迭代結(jié)果輸出到最終特征重建部分。因此,F(xiàn)DSR 的非線性映射部分引入了殘差網(wǎng)絡(luò)的思想,最后特征重建采用了FPN 提取的初始特征。在保證特征梯度不消失的同時(shí),還融合LR 的初始特征。
Li 等[22]構(gòu)建了多尺度殘差密集塊(Multi-scale Residual Dense Block,MRDB),在MRDB 內(nèi)部的殘差小模塊用到密集網(wǎng)絡(luò),有效地提高了重建圖像的質(zhì)量。Qiu 等[23]在局部結(jié)構(gòu)中用到密集網(wǎng)絡(luò),整體結(jié)構(gòu)用到殘差,有效提高了重建醫(yī)學(xué)圖像的精確度。因此,本文的FDSR 除了用到FPN 提取初始特征外,還用特殊密集網(wǎng)絡(luò)連接5 個(gè)RCN,具體的RCN 見圖4。5 個(gè)RCN 的網(wǎng)絡(luò)通道是對(duì)稱的,目的是先加深網(wǎng)絡(luò)的深度再降低深度,映射出更豐富的權(quán)重,提取更準(zhǔn)確的特征,從前往后的深度分別是32、64、128、64、32,該結(jié)果是由后續(xù)多次對(duì)比實(shí)驗(yàn)得出。RCN 首先用一層3×3 的CNN 加深一倍的通道數(shù),再用一層CNN 初步映射特征;然后用殘差網(wǎng)絡(luò)加深RCN 的深度;最終再融合初始特征,輸出為下一個(gè)RCN 模塊的輸入。
圖4 RCNFig.4 RCN
在SR 重建中,LR 圖像包含大量的初始特征,并且該特征對(duì)圖像影響明顯。因此,連接RCN 的過程中選擇了和密集網(wǎng)絡(luò)類似的網(wǎng)絡(luò),如式(2)所示:
其中:L的上標(biāo)數(shù)字為RCN 的層級(jí),一共有5 個(gè)RCN 結(jié)構(gòu),對(duì)應(yīng)上標(biāo)的1 到5,上標(biāo)為0 表示1 號(hào)RCN 前一級(jí)的卷積塊;L的下標(biāo)output 表示卷積列結(jié)果輸出,input 表示卷積列結(jié)果輸入。SeqConvN表示不同的網(wǎng)絡(luò)操作,除了SeqConv0 卷積列外,其他卷積列結(jié)構(gòu)類似。
醫(yī)學(xué)圖像SR 重建不是由一張空白的初始圖像訓(xùn)練而成,而是由LR 圖像不斷訓(xùn)練,無限近似HR 圖像的效果,再保存最終訓(xùn)練好的權(quán)值矩陣集。因此,LR 圖像特征尤為重要。特殊密集網(wǎng)絡(luò)為了凸顯初始特征的重要性,使每層RCN都接收到初始特征的輸入特征層。每一層RCN 都會(huì)由FPN提取的初始特征作為輸入的一部分,另一部分為上一部分網(wǎng)絡(luò)的輸出。圖5 中,虛線箭頭表示保留的密集網(wǎng)絡(luò)剩余的一部分,作用是更好地訓(xùn)練RCN 內(nèi)部結(jié)構(gòu)。圖4 將此部分的連接融入RCN 內(nèi)部結(jié)構(gòu)中。該特殊密集網(wǎng)絡(luò)不僅保留了圖像原有的特征、結(jié)合低層和高層特征提高圖像性能,還減輕了梯度消失等問題。不同深度的RCN 特殊密集連接方式見圖5。
圖5 RCN間的密集連接Fig.5 Dense connection between RCNs
特征重建常用的方法有插值、解卷積、亞像素卷積。由于在特征提取模塊采用了FPN,最終特征提取結(jié)束后圖片的大小又恢復(fù)了原狀。因此,在特征重建時(shí)僅使用基礎(chǔ)的CNN降低維數(shù),增加非線性,將特征映射后32×56×56 的結(jié)構(gòu)轉(zhuǎn)換成初始時(shí)1×56×56 的結(jié)構(gòu)。最終與初始的LR 圖像用torch.add 融合。具體圖像融合細(xì)節(jié)見式(3):
最后成像時(shí)殘差連接初始LR 圖像特征,原因是在SR 重建過程中,特征都是從LR 圖像中獲取的,LR 圖像中包含許多可有效用于HR 圖像的特征。通過殘差網(wǎng)絡(luò)引入捷徑連接,將輸入的LR 圖像直接連接到輸出的SR 圖像,實(shí)現(xiàn)身份映射。此類跳躍連接不引入額外的參數(shù),并且?guī)缀醪灰胗?jì)算復(fù)雜度,還能使網(wǎng)絡(luò)更快收斂,解決了因深度增加導(dǎo)致網(wǎng)絡(luò)退化的問題。具體特征重建細(xì)節(jié)見圖6。
圖6 特征重建Fig.6 Feature reconstruction
由于肺部CT 圖像數(shù)據(jù)的特殊性,本文實(shí)驗(yàn)首先對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理并且根據(jù)初步實(shí)驗(yàn)確定參數(shù)細(xì)節(jié),然后搭建特征提取、特征映射以及特征重建的基本網(wǎng)絡(luò),調(diào)整FDSR 中FPN 融合特征的次數(shù),以及特征映射中RCN 的個(gè)數(shù)和結(jié)構(gòu),選擇達(dá)到FDSR 對(duì)肺部CT 圖像SR 重建效果最好的結(jié)構(gòu)組合。最后對(duì)比FDSR 與其他現(xiàn)有常用網(wǎng)絡(luò)的PSNR、SSIM 和視覺效果。
2.1.1 訓(xùn)練集和測試集
本文使用的數(shù)據(jù)來源于Luna16 數(shù)據(jù)集。由于Luna16 數(shù)據(jù)集是三維的,所以需要對(duì)Luna16 中的數(shù)據(jù)進(jìn)行切片,將其轉(zhuǎn)換成醫(yī)學(xué)圖像SR 能處理的二維圖片。本實(shí)驗(yàn)用到的切片是一個(gè)樣本CT 中的一層數(shù)據(jù),該切片根據(jù)z軸切割,按照當(dāng)前z軸數(shù)據(jù)的1/2,再向下取整。做CT 掃描時(shí),可采取正臥或仰臥,所以總是會(huì)導(dǎo)致圖像出現(xiàn)翻轉(zhuǎn)。將仰臥圖像的x、y坐標(biāo)進(jìn)行倒序調(diào)整,讓所有數(shù)據(jù)集中的圖像都是正臥的。對(duì)像素值在[-1 000,400]的CT 圖像進(jìn)行預(yù)處理,將像素值截?cái)啵⑶覍瓮ǖ赖腃T 圖像轉(zhuǎn)換成RGB 格式后保存。
訓(xùn)練集采用800 張Luna16 中的肺部圖像,評(píng)估集采用480 張Luna16 中的肺部圖像,測試集中對(duì)比圖像采用3 張肺部圖像。訓(xùn)練集、評(píng)估集以及測試集的圖像均沒有交集。
2.1.2 數(shù)據(jù)預(yù)處理
FDSR 通過LR 圖像重建的SR 圖像與HR 圖像對(duì)比,不斷訓(xùn)練各個(gè)分支的權(quán)重,直到結(jié)果趨于穩(wěn)定。因此,LR 圖像就作為實(shí)驗(yàn)的輸入數(shù)據(jù)。訓(xùn)練數(shù)據(jù)預(yù)處理過程見圖7(a),評(píng)估數(shù)據(jù)預(yù)處理過程見圖7(b)。首先用雙三次插值法重構(gòu)圖像,保證數(shù)據(jù)集中圖像的像素值都為整數(shù)。然后將HR 圖片的長寬減半,再用雙三次插值法利用采樣點(diǎn)周圍16 個(gè)像素的灰度值進(jìn)行3 次插補(bǔ),用于模擬HR 圖像的退化過程。雙三次插值對(duì)HR 圖像進(jìn)行下采樣,得到相應(yīng)的LR 圖像[24]。構(gòu)建LR 的過程用式(4)表示,構(gòu)建SR 的過程用式(5)表示。
圖7 訓(xùn)練、評(píng)估數(shù)據(jù)預(yù)處理過程Fig.7 Training and evaluation data preprocessing
其中:ILR表示LR 圖像的像素值矩陣;ε代表退化比例因子,A()表示在退化比例因子為ε時(shí)對(duì)HR 圖像像素值矩陣的操作;IHR表示HR 圖像的像素值矩陣;ISR表示SR 圖像的像素矩陣;δ代表進(jìn)化比例因子,B()表示在進(jìn)化比例為δ時(shí)對(duì)LR圖像像素矩陣的操作。
初步處理后,一張RGB 圖像的像素值數(shù)量近16×104,計(jì)算量大且訓(xùn)練時(shí)間長。因此,完整的圖像不適用于該深度學(xué)習(xí)模型。例如DRCN 的輸入是以LR 圖像作插值法構(gòu)建而成,這不僅增加了計(jì)算的復(fù)雜度,還丟失了原始LR 圖像的一些細(xì)節(jié)。因此,在訓(xùn)練數(shù)據(jù)的預(yù)處理中,為了加深模型深度的同時(shí)保證訓(xùn)練速度不會(huì)太慢,將獲取的LR 圖像裁剪成56×56 的塊,最后以56×56 的規(guī)格存入dataset 中。初步預(yù)處理后的HR 圖像,與進(jìn)一步預(yù)處理后的LR 圖像實(shí)例見圖8。最終對(duì)比的肺部圖像與訓(xùn)練圖像獲取LR 圖像的過程相同,只是不將它以56×56 的格式存儲(chǔ)到dataset 中,而是直接將整個(gè)圖片存入group。因?yàn)闇y試過程不需要反復(fù)多次訓(xùn)練,所以可以將整個(gè)圖像都存入group。
圖8 HR圖像和處理后的LR圖像Fig.8 HR image and processed LR image
2.1.3 參數(shù)細(xì)節(jié)
訓(xùn)練模型時(shí),采用optim.Adam()優(yōu)化器,損失函數(shù)使用nn.MSELoss(),學(xué)習(xí)率為1×10-4,batchsize 為16。具體計(jì)算方法見式(6):
其中:xi是原始HR 圖像的第i個(gè)像素值,yi是重建后的SR 圖像的第i個(gè)像素值,兩個(gè)參數(shù)的維度相同。
FDSR 以及常用對(duì)比網(wǎng)絡(luò)的迭代次數(shù)由實(shí)驗(yàn)確定。由圖9 可看出,在訓(xùn)練迭代次數(shù)到達(dá)250~300 時(shí)PSNR 的數(shù)值趨于平穩(wěn),因此本文訓(xùn)練迭代次數(shù)為300。使用的放大因子為3,num_worker 設(shè)置為8,激活函數(shù)采用ReLU。使用PyTorch 深度學(xué)習(xí)框架建立模型,并采用NVIDIA GeForce RTX 2080 Ti對(duì)其進(jìn)行訓(xùn)練。
圖9 PSNR與迭代次數(shù)的關(guān)系Fig.9 Relationship between PSNR and epochs
2.1.4 評(píng)價(jià)指標(biāo)
為了客觀評(píng)價(jià)重建圖像的效果,采用圖像處理評(píng)價(jià)中常用的PSNR 和SSIM。PSNR 是非常普遍的一種圖像客觀評(píng)價(jià)的指標(biāo),基于像素點(diǎn)間的誤差,也就是基于敏感圖像質(zhì)量的評(píng)價(jià)[24]。PSNR 值越大,失真越少。
其中:RMSE為均方誤差(Mean Square Error,MSE),表示兩個(gè)尺寸為m×n 的原始圖像像素值和重建后圖像像素值的均方差。
SSIM 是一種廣泛使用的適應(yīng)人類視覺系統(tǒng)的圖像質(zhì)量指標(biāo)?;诹炼?、對(duì)比度和結(jié)構(gòu)來測量圖像之間的結(jié)構(gòu)相似性[25]。SSIM 的取值范圍為[0,1],值越大,重建圖像與真實(shí)圖像的結(jié)構(gòu)相似性越高,圖像失真越小。
其中:μx和μy表示圖像x、y的均值;σx和σy表示圖像x、y的標(biāo)準(zhǔn)差;C1、C2為常數(shù)。
2.2.1 特征金字塔網(wǎng)絡(luò)的比較
實(shí)驗(yàn)采用FPN 的目的是在重建SR 圖像時(shí),提高對(duì)肺結(jié)節(jié)及紋理細(xì)節(jié)這類小目標(biāo)的關(guān)注度。實(shí)驗(yàn)中,訓(xùn)練數(shù)據(jù)存儲(chǔ)的是56×56 的圖像,因此,最多可以進(jìn)行3 次特征融合。分別對(duì)1、2、3 次特征融合做對(duì)比實(shí)驗(yàn):1 次融合是將28×28 的圖像特征與56×56 的圖像特征融合;2 次融合是在一次融合的基礎(chǔ)上將14×14 的圖像特征與28×28 的圖像特征融合;3 次融合是在2 次融合的基礎(chǔ)上將7×7 的圖像特征與14×14 的圖像特征融合。
其他變量相同,比較不同融合次數(shù)下測試集中HR 圖像與超分辨率圖像的PSNR 和SSIM 值。其中RCN 使用的個(gè)數(shù)不變,為5。表1 顯示了FDSR 在不同的融合次數(shù)下測試圖像的PSNR 以及SSIM 均值的結(jié)果。由表1 可以看出在融合次數(shù)為2 時(shí),獲得的SR 圖像優(yōu)秀的概率更高。因此,在最終FDSR 中使用2 次融合的特征金字塔網(wǎng)絡(luò)。
表1 測試圖像在不同融合次數(shù)下的PSNR和SSIMTab.1 PSNR and SSIM of test images under different fusion times
測試數(shù)據(jù)集中的肺部低分辨率1 號(hào)圖像在不同的融合次數(shù)下得到的SR 圖像見圖10。由圖10 可以看出,不同融合次數(shù)的FDSR 重建出的SR 圖像的效果都要優(yōu)于BiCubic 圖像。由于不同融合次數(shù)間PSNR 和SSIM 差異并不明顯,所以從圖像的視覺感知中圖10(c)、(d)、(e)的視覺差距也不是很明顯。不過本文關(guān)注點(diǎn)在于重建肺部HR 圖像的真實(shí)清晰度,所以選擇融合次數(shù)的指標(biāo)依據(jù)表1 數(shù)據(jù)。
圖10 不同融合次數(shù)圖像比較Fig.10 Comparison of images with different fusion times
2.2.2 RCN個(gè)數(shù)比較
采用RCN 的主要目的是經(jīng)組合后完成特征映射,各個(gè)RCN 之間采用特殊的密集網(wǎng)絡(luò)連接。近來科研工作者對(duì)密集網(wǎng)絡(luò)的研究顯示,具有跳過連接和層重用的網(wǎng)絡(luò)結(jié)構(gòu)不僅有利于提高性能和速度,還能減少訓(xùn)練時(shí)間。RCN 內(nèi)部結(jié)構(gòu)是在保證梯度不消失的情況下,更準(zhǔn)確地映射出特征。不同個(gè)數(shù)的RCN 使特征映射的深度不同。RCN 中層數(shù)由先高后低,再轉(zhuǎn)換為1×56×56 的圖像。由于LR 圖像中含有大量HR圖像的特征,最終會(huì)將1×56×56 的結(jié)果圖像與原始的LR 特征融合得到最終結(jié)果。為了單獨(dú)驗(yàn)證RCN 和連接RCN 的特殊密集網(wǎng)絡(luò)的有效性,將RCN 組成的特征映射層替換VDSR的特征映射層構(gòu)建VDSR_RCN,具體網(wǎng)絡(luò)結(jié)構(gòu)見圖11。為了體現(xiàn)RCN 殘差網(wǎng)絡(luò)的有效性,引入Liu 等[26]提出的遞歸密集塊(Recursive Dense Block,RDB)結(jié)構(gòu)。RDB 是個(gè)小型的密集網(wǎng)絡(luò),也是其他將殘差組合網(wǎng)絡(luò)應(yīng)用到CT 圖像的超分辨率重建結(jié)構(gòu)。
圖11 VDSR_RCNFig.11 VDSR_RCN
VDSR_RCN 與VDSR、VDSR_RDB 的對(duì)比結(jié)果見表2,它們除網(wǎng)絡(luò)結(jié)構(gòu)外,其他條件均相同,訓(xùn)練次數(shù)都為100。由表2 可以看出,在網(wǎng)絡(luò)層數(shù)相同情況下,用RCN 重構(gòu)映射層的VDSR 網(wǎng)絡(luò)訓(xùn)練效果明顯優(yōu)于VDSR 和VDSR_RDB,并且在某些情況下VDSR 的效果優(yōu)于VDSR_RDB 的重建效果。可見殘差組合網(wǎng)絡(luò)是有效的,但也不是殘差結(jié)構(gòu)越多越好,適量地使用殘差結(jié)構(gòu)才能更好地重建圖像。
表2 VDSR、VDSR_RDB和VDSR_RCN的實(shí)驗(yàn)結(jié)果Tab.2 Experimental results of VDSR,VDSR_RDB and VDSR_RCN
由上述實(shí)驗(yàn)驗(yàn)證RCN 的有效性后,將RCN 用于本文實(shí)驗(yàn)的FDSR 中。接著對(duì)不同的RCN 個(gè)數(shù)進(jìn)行比較,以得出其中結(jié)果最好的RCN 個(gè)數(shù)和結(jié)構(gòu)。特征提取中融合特征的次數(shù)固定不變。而模型也不是越深就越好,與具有超過400 個(gè)卷積層的殘差通道注意力網(wǎng)絡(luò)(Residual Channel Attention Network,RCAN)[27]相比,雖然具有115 個(gè)卷積層的增強(qiáng)的超分辨率生成對(duì)抗網(wǎng)絡(luò)(Enhances Super-Resolution Generative Adversarial Network,ESRGAN)[28]的PSNR 值略遜一籌[29],但它有更好的重建視覺效果。
本文對(duì)比了6 種結(jié)構(gòu)個(gè)數(shù)不同的RCN:n1的結(jié)構(gòu)為(32),1 個(gè)RCN;n2的結(jié)構(gòu)為(32,16),2 個(gè)RCN;n3的結(jié)構(gòu)為(32,64,32),3 個(gè)RCN;n4的結(jié)構(gòu)為(32,64,32,16),4 個(gè)RCN;n5的結(jié)構(gòu)為(32,64,128,64,32),5 個(gè)RCN;n6的結(jié)構(gòu)為(32,64,128,64,32,16),6 個(gè)RCN。不同結(jié)構(gòu)以及不同個(gè)數(shù)RCN 獲得的PSNR 以及SSIM 見表3,可以看出,n5的PSNR 和SSIM 效果更好。可見在特征映射模塊,適當(dāng)?shù)纳疃却笮?,深度先遞增再遞減,能訓(xùn)練出更精確的權(quán)值,使重建的SR 圖像更接近于真實(shí)HR 圖像。
表3 測試圖像在不同RCN個(gè)數(shù)下的PSNR和SSIMTab.3 PSNR and SSIM of test images under different RCN numbers
2.2.3 與現(xiàn)有網(wǎng)絡(luò)的比較
根據(jù)以上實(shí)驗(yàn)結(jié)果,最終確定的FDSR 為表現(xiàn)最好的2次融合FPN 結(jié)構(gòu)和5 個(gè)對(duì)稱的RCN 結(jié)構(gòu)。為了體現(xiàn)SR 重建醫(yī)學(xué)圖像的效果,將它與BiCubic 以及近年來國內(nèi)外提出的基于深度學(xué)習(xí)的方法SRCNN、FSRCNN、VDSR 和LapSRN 進(jìn)行比較。為了提高訓(xùn)練效率,對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行裁剪,評(píng)估和測試數(shù)據(jù)集不進(jìn)行裁剪;且所有對(duì)比方法的重建結(jié)果都基于同樣的訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集、測試數(shù)據(jù)集、訓(xùn)練框架以及測試框架,區(qū)別在于采用不同的深度學(xué)習(xí)網(wǎng)絡(luò)。因?yàn)镾RGAN 是在感知的基礎(chǔ)上重建出非客觀存在的特征,基于特征空間優(yōu)化的SRGAN 生成圖像存在結(jié)構(gòu)變形和偽影,不夠逼真;而醫(yī)學(xué)圖像重視真實(shí)性,提倡重建客觀事實(shí)存在的特征。因此,SRGAN 方法不適合直接用于醫(yī)學(xué)圖像SR 重建,未作對(duì)比。
表4 展示了FDSR 與其他常用深度學(xué)習(xí)方法的PSNR 和SSIM 對(duì)比。圖12 展示了不同的深度學(xué)習(xí)模型下SR 重建圖像的感知效果和對(duì)應(yīng)的PSNR 值。由表4 可知,本文FDSR 深度學(xué)習(xí)結(jié)構(gòu)的PSNR 相較于經(jīng)典SRCNN 有0.05~1.09 dB 的提升,且與FSRCNN、VDSR 和LapSRN 結(jié)構(gòu)相比都有一定的提高。利用FPN 進(jìn)行特征提取,采用特殊密集網(wǎng)絡(luò)連接RCN進(jìn)行特征映射,以及利用CNN 進(jìn)行特征重建,這三者組成的深度學(xué)習(xí)網(wǎng)絡(luò)的PSNR 比經(jīng)典模型的PSNR 更高,圖像失真程度更小,結(jié)構(gòu)相似性有一定提升??梢姳疚姆椒ň哂幸韵绿攸c(diǎn):1)由表4 可知,整體的重建上提升了PSNR 和SSIM 值;2)由圖12 的視覺對(duì)比可知,特征映射時(shí)增加了對(duì)小目標(biāo)特征的關(guān)注度。本文針對(duì)肺部CT 圖像關(guān)注內(nèi)部紋理的特點(diǎn),設(shè)計(jì)優(yōu)化細(xì)節(jié)的網(wǎng)絡(luò)結(jié)構(gòu),為醫(yī)學(xué)圖像SR 重建提供了一種新思路。圖12 圈中部分指出,從紋理細(xì)節(jié)的感知上,F(xiàn)DSR優(yōu)于其他的對(duì)比網(wǎng)絡(luò),尤其是微小細(xì)節(jié)。這也是本文引入FPN 結(jié)構(gòu)的主要原因:提升肺結(jié)節(jié)和紋理細(xì)節(jié)的特征占比,關(guān)注小目標(biāo)的重建效果。但本文重點(diǎn)放在對(duì)SR 圖像像素相似度數(shù)值的提升,而非提升視覺感知,所以圖12 中視覺差異不是特別明顯。圖12(b)~(g)中,各個(gè)圖像PSNR 值依次為:29.78、36.08、36.28、36.81、37.02 和37.17 dB。可見,F(xiàn)DSR圖像的PSNR 數(shù)值更高,紋理細(xì)節(jié)重建效果更好。
圖12 FDSR與不同深度學(xué)習(xí)方法的視覺比較Fig.12 Visual comparison of FDSR and different deep learning methods
表4 FDSR與不同深度學(xué)習(xí)方法在PSNR和SSIM上的比較Tab.4 Comparison of FDSR and different deep learning methods on PSNR and SSIM
本文提出了一種基于FPN 和密集網(wǎng)絡(luò)的醫(yī)學(xué)圖像SR 重建的方法FDSR。該方法對(duì)LR 圖像與HR 圖像之間的殘差進(jìn)行重建,在特征提取部分引入FPN,增大肺結(jié)節(jié)及紋理細(xì)節(jié)這類小目標(biāo)的特征占比,在特征映射部分構(gòu)建RCN 結(jié)構(gòu),用特殊密集網(wǎng)絡(luò)連接RCN,最終通過CNN 特征重建。實(shí)驗(yàn)結(jié)果表明,F(xiàn)DSR 方法較Bicubic 等傳統(tǒng)方法以及SRCNN、FSRCNN 等基礎(chǔ)模型有更好的重建結(jié)果,比VDSR 和LapSRN等深度較深的模型效果也更好。作為醫(yī)學(xué)圖像SR 重建技術(shù),F(xiàn)DSR 也保證了重建基礎(chǔ)的真實(shí)性。
后續(xù)工作可以考慮從空間注意力機(jī)制來加深對(duì)某些像素點(diǎn)的關(guān)注度。由于本文并未考慮到人眼的視覺特性,主要從PSNR 和SSIM 的角度優(yōu)化模型,因此,觀察圖12 可以發(fā)現(xiàn)從視覺的角度判斷FDSR 對(duì)比其他經(jīng)典模型的優(yōu)勢比較微弱。下一步研究可以從視覺角度對(duì)FDSR 進(jìn)一步優(yōu)化:構(gòu)建雙分支網(wǎng)絡(luò),主要分支采用本文的FDSR 結(jié)構(gòu),感知分支采用肺實(shí)質(zhì)分割圖像做輸入,融合其特征到主要分支,通過肺實(shí)質(zhì)分割圖像的邊緣等細(xì)節(jié)信息增強(qiáng)特征中的高頻信息,從而提高視覺感知質(zhì)量。