左斌,朱靈梅,王海燕,楊香琴,黃艷,李亮
多參數(shù)磁共振成像(multiparametric magnetic resonance imaging,mp-MRI)是目前臨床進(jìn)行前列腺癌診斷和分期以及評估預(yù)后的重要影像學(xué)方法[1]。擴(kuò)散加權(quán)成像(diffusion weighted imaging,DWI)是前列腺mp-MRI檢查的重要組成部分。為了降低對運動的敏感性,臨床采集前列腺DWI通常采用單次激發(fā)平面回波成像方法(single-shot echo-planar imaging approach,ss-EPI)[2]。但是,這項技術(shù)會導(dǎo)致DWI圖像信噪比(signal-to-noise ratio,SNR)降低,前列腺形變加重,偽影增加,而且隨著b值的增加,上述現(xiàn)象愈發(fā)明顯。低圖像質(zhì)量DWI不僅會導(dǎo)致組織成像結(jié)構(gòu)的偏差,而且會影響ADC值的計算的準(zhǔn)確度以及可重復(fù)性[3-4]。雖然通過重復(fù)多次圖像采集,前列腺DWI圖像質(zhì)量可以得到有效地提升,但是,激勵次數(shù)過多會延長掃描時間,不僅降低了患者的舒適性,而且增加了患者不自主運動導(dǎo)致圖像質(zhì)量差的可能性[5]。如何在縮短掃描時間的同時獲得高質(zhì)量的DWI圖像一直是一個技術(shù)難題。
近年來,人工智能算法的興起給解決傳統(tǒng)醫(yī)學(xué)圖像難題提供了新的解決思路。特別是生成對抗網(wǎng)絡(luò)(generative adversarial networks,GANs)在醫(yī)學(xué)圖像的分割、識別、合成方面表現(xiàn)出了巨大的潛力[6]。GANs是一類包含了生成器和鑒別器的生成模型。生成器可以通過分析輸入圖像與參考圖像之間的映射,進(jìn)行學(xué)習(xí)模仿,生成類似于目標(biāo)圖像的合成圖像,而鑒別器則可以區(qū)分生成器生成圖像和真實圖像[7]。通過生成器與鑒別器的不斷博弈,生成器最終可以生成令鑒別器和肉眼都無法鑒別真?zhèn)蔚暮铣蓤D像[8]。既往研究利用GANs探索低質(zhì)量圖像與高質(zhì)量圖像之間的特征關(guān)聯(lián),并構(gòu)建映射,成功實現(xiàn)了不同質(zhì)量圖像的轉(zhuǎn)換。該技術(shù)在去除偽影[9]、降噪[10-12]、提高分辨率[13]等方面獲得了成功。受此啟發(fā),筆者設(shè)想利用GANs在掃描時間短、圖像質(zhì)量差DWI圖像和掃描時間長、圖像質(zhì)量好的DWI圖像之間構(gòu)建映射,通過前者生成后者,最終獲得掃描時間短但圖像質(zhì)量好的前列腺DWI圖像。
本研究旨在構(gòu)建一種基于GANs的能夠有效縮短前列腺DWI掃描時間,提升前列腺DWI圖像質(zhì)量的無監(jiān)督生成模型網(wǎng)絡(luò)框架,并評估生成的DWI和ADC圖像質(zhì)量。
1.研究對象
本研究獲得了重慶市渝北區(qū)人民醫(yī)院倫理審查委員會的批準(zhǔn)(2020A2)。所有受試者均已簽署知情同意書。本研究共招募178名2019年1月-2020年10月因臨床懷疑前列腺癌于本院進(jìn)行多參數(shù)MRI前列腺檢查和超聲介入穿刺活檢的患者。其納入標(biāo)準(zhǔn)包括:①具有完整的臨床信息和病理結(jié)果。②DWI和ADC圖像上包含至少一個直徑大于0.5 cm的,具有明確病理結(jié)果的結(jié)節(jié)。受試者排除標(biāo)準(zhǔn)包括:①未完成所有MRI檢查。②在行前列腺MRI檢查之前進(jìn)行了激素療法、手術(shù)、放化療等相關(guān)治。③MRI檢查與病理穿刺間隔時間大于2周以上。
28人因不符合納入與排除標(biāo)準(zhǔn)被剔除研究隊列(8人未完成全部檢查,12人未進(jìn)行病例穿刺,4人在MRI檢查前進(jìn)行了手術(shù)治療,4人檢查與病理穿刺間隔時間大于2周以上),本研究最終納入受試者150名,并被按照2比1隨機分為訓(xùn)練集(100人)和驗證集(50人)。
2.檢查方法
所有患者圖像采集均采用GE Signa Architect Discovery MR750w 3T MR掃描儀及8通道體部相控陣接收線圈。采集序列包括矢狀面T1WI,橫軸面T1WI、T2WI,以及一組橫軸面SS-EPI低b值DWI,兩組標(biāo)準(zhǔn)b值DWI。具體掃描序列參數(shù)設(shè)置見表1。
表1 MRI掃描序列參數(shù)
3.模型建立與算法
本研究采用生成對抗網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練[14](圖1),其中生成器(G)采用UNet結(jié)構(gòu),鑒別器(D)采用多層下采樣卷積結(jié)構(gòu)。在訓(xùn)練模型前先對已獲取的數(shù)據(jù)進(jìn)行預(yù)處理,對原始a-DWI和b-DWI數(shù)據(jù)從圖像中心裁剪出相關(guān)前列腺區(qū)域并縮放到統(tǒng)一大小,之后進(jìn)行對齊,考慮到硬件的限制,只使用分辨率為224×224的二維橫軸面圖像進(jìn)行訓(xùn)練和測試。
圖1 網(wǎng)絡(luò)框架圖。
訓(xùn)練模型時,輸入訓(xùn)練集中的a-DWI,以b-DWI為參考圖像,生成器輸出合成s-DWI。使用s-DWI和真實的b-DWI對鑒別器進(jìn)行訓(xùn)練,使鑒別器能夠區(qū)分兩者,即將s-DWI認(rèn)定為假,將真實的b-DWI認(rèn)定為真。相對地,生成器逐漸優(yōu)化的目的是使其合成的s-DWI無法被鑒別器區(qū)分出來。通過生成器與鑒別器的對抗訓(xùn)練,二者效果相互逐漸提高,生成器最終能夠利用a-DWI生成類似于DWI(b=1000 s/mm2,NEX=8)的高質(zhì)量標(biāo)準(zhǔn)b值DWI。該模型的鑒別器損失函數(shù)為:
LD=EY~PY[(D(Y)-1)2]+ES~PS[(D(S))2]
其中S表示生成器合成的s-DWI,Y表示真實的b-DWI。該模型的生成器損失函數(shù)為:
LG=ES~PS[(D(S)-1)2]
其中S表示生成器合成的s-DWI。
為驗證模型效能,筆者將驗證集中50人的a-DWI輸入模型,生成s-DWI,并采用峰值信噪比(peak signal to noise ratio,PSNR)、結(jié)構(gòu)相似性(structural similarity,SSIM)、特征相似度(feature similarity,F(xiàn)SIM)以及均方誤差(mean square error,MSE)定量評估s-DWI的圖像質(zhì)量。PSNR可以評估生成圖像的信噪比。SSIM和FSIM分別評價生成圖像s-DWI與參考圖像b-DWI的結(jié)構(gòu)和特征的相似度。MSE則反應(yīng)s-DWI與b-DWI的總體差異。
兩位分別具有4年和8年腹部影像診斷經(jīng)驗的放射科醫(yī)師生在三個時間點(每次時間間隔兩周)以隨機順序評估三組DWI(a-DWI、b-DWI、s-DWI)的圖像質(zhì)量。兩位醫(yī)師并不知曉本實驗具體實驗設(shè)計及各位患者的相關(guān)臨床資料。每個時間點,每位閱片者獨立閱讀一個DWI序列,并采用Likert scale評分法對DWI總體圖像質(zhì)量,前列腺邊緣清晰程度,噪聲抑制打分(1分圖像質(zhì)量最差,5分代表圖像質(zhì)量最好)。
為評估不同DWI序列生成ADC的不同受試者間與受試者的一致性和鑒別腫瘤的能力,本研究采用兩點法(b=50 s/mm2和b=1000 s/mm2)分別計算出基于a-DWI、b-DWI、s-DWI的ADC圖(a-ADC、b-ADC、s-ADC)。首先,有由一位具有20年以上腹部影像診斷經(jīng)驗的醫(yī)師作為協(xié)調(diào)者,參照病理結(jié)果,影像報告以及其他MRI序列圖像,在ADC圖上明確結(jié)節(jié)位置,并且選出最具代表性ADC層面(結(jié)節(jié)面積最大)。隨后由兩位具有2年腹部影像診斷經(jīng)驗的醫(yī)師在不知曉任何患者信息的情況下根據(jù)協(xié)調(diào)者的標(biāo)注,從結(jié)節(jié)中央勾畫直徑約0.5 cm圓形興趣區(qū)(ROI)。每個病灶勾畫三次,其平均值即該病灶為ADC值。1個月后,對所有ADC圖像打亂順序,兩位負(fù)責(zé)勾畫ROI的醫(yī)師再次重復(fù)上述操作。
4.統(tǒng)計學(xué)分析
采用R軟件(version 3.5.1:www.R-project.org)進(jìn)行統(tǒng)計學(xué)分析。符合正態(tài)分布的連續(xù)變量資料差異性比較采取獨立樣本t檢驗。不符合正態(tài)分布的連續(xù)變量資料差異性比較采取Mann-WhitneyU檢驗。DWI質(zhì)量評分比較采用Wilcoxon signed-rank檢驗。DWI質(zhì)量評分和ADC值的可重復(fù)性檢驗采用組內(nèi)相關(guān)系數(shù)(intraclass correlation coefficient,ICC)。
以P<0.05為差異具有統(tǒng)計學(xué)意義。
受試者的基本臨床信息見表2。本研究納入病理證實的前列腺癌患者80名以及70名良性結(jié)節(jié)患者。前列腺癌患者與非前列腺癌患者的平均年齡差異無統(tǒng)計學(xué)意義(P>0.05)。前列腺癌患者的血清PSA水平顯著高于良性結(jié)節(jié)患者(P<0.01)。
表2 患者基本臨床信息
模型生成的s-DWI的PSNR、SSIM、FSIM、MSE分別為46.47、0.855、0.932、0.002。這提示s-DWI在噪聲分布、結(jié)構(gòu)以及紋理特征與b-DWI高度相似。
s-DWI圖像質(zhì)量與b-DWI圖像質(zhì)量相仿,二者在前列腺腺體輪廓,背景噪聲,病灶對比度顯示方面均優(yōu)于a-DWI(圖2)。此外,基于s-DWI計算所得的ADC圖在前列腺病灶顯示方面也明顯優(yōu)于a-DWI。
圖2 66歲的中央?yún)^(qū)前列腺癌患者。a)基于a-DWI計算的ADC圖;b)基于b-DWI計算的ADC圖;c)基于s-DWI計算的ADC圖;d)a-DWI;e)b-DWI;f)s-DWI;g)T2WI。
兩位閱片者對三組DWI圖像(a-DWI,b-DWI,s-DWI)的主觀圖像質(zhì)量評分見表3。b-DWI和s-DWI在前列腺邊緣清晰度、噪聲抑制、總體圖像質(zhì)量得分方面均高于a-DWI,差異具有統(tǒng)計學(xué)意義(P<0.01)。而b-DWI和s-DWI在前列腺邊緣清晰度、噪聲抑制、總體圖像質(zhì)量得分方面差異無統(tǒng)計學(xué)意義(P>0.05)。
表3 不同DWI序列的圖像質(zhì)量評分
s-ADC和b-ADC不同方法間測量結(jié)果具有高度一致性(測量者1:ICC=0.96;測量者2:ICC=0.95)。ADC測量不同受試者間一致性檢驗結(jié)果見表4,s-ADC和b-ADC的ADC值不同受試者間一致性均高于a-ADC [ICC分別為a-ADC 0.52~0.66、b-ADC 0.87~0.96、s-ADC 0.88~0.95]。ADC測量相同受試者內(nèi)一致性檢驗結(jié)果見表5,s-ADC和b-ADC的ADC值相同受試者內(nèi)一致性均高于a-ADC(閱片者1的s-ADC和b-ADC不同方法間測量結(jié)果具有高度一致性(測量者1:ICC=0.96;測量者2:ICC=0.95)。ADC測量不同受試者間一致性檢驗結(jié)果見表4,s-ADC和b-ADC的ADC值不同受試者間一致性均高于a-ADC [ICC分別為a-ADC 0.52~0.66、b-ADC 0.87~0.96、s-ADC 0.88~0.95]。ADC測量相同受試者內(nèi)一致性檢驗結(jié)果見表5,s-ADC和b-ADC的ADC值相同受試者內(nèi)一致性均高于a-ADC(閱片者1的ICC分別為a-ADC 0.61~0.65、b-ADC 0.86~0.88、s-ADC 0.85~0.96,閱片者2的ICC分別為 a-ADC 0.67~0.78、b-ADC 0.87~0.88;s-ADC 0.81~0.92)。
表4 不同ADC圖所測量的各部位ADC值受試者間的組內(nèi)相關(guān)系數(shù)值(95%可信區(qū)間)
表5 不同ADC圖所測量的各部位ADC值受試者內(nèi)的ICC值(95%可信區(qū)間)
本研究主要創(chuàng)新點在于利用基于生成對抗網(wǎng)絡(luò)的深度學(xué)習(xí)算法,有效提高了低激勵次數(shù)的DWI圖像質(zhì)量,并且通過計算機視覺和臨床價值兩方面評估了該方法的可靠性。DWI是一項有著廣泛的臨床需求的MRI技術(shù),在對前列腺癌診斷、分期和監(jiān)測治療方面具有重要作用。DWI圖像質(zhì)量與其臨床評估效能以及生成的ADC值的準(zhǔn)確度密切相關(guān)。在確保DWI圖像質(zhì)量的前提下,有效縮短掃描時間,一方面可以為醫(yī)院節(jié)約時間成本,另一方面,減少了患者因為掃描時間長不自主運動概率,提高受試者圖像質(zhì)量,進(jìn)而提高前列腺DWI和ADC的診斷效能。
由于強大的模擬數(shù)據(jù)分布以及圖像轉(zhuǎn)換的能力,諸多學(xué)者嘗試?yán)肎AN和其擴(kuò)展算法在不同圖像之間構(gòu)建聯(lián)系,進(jìn)而實現(xiàn)不同圖像之間的相互轉(zhuǎn)換以解決臨床遇見的諸多難題。為解決MR掃描速度較慢的問題,Nie等[15]通過基于GAN的神經(jīng)網(wǎng)絡(luò)成功將顱腦CT圖像轉(zhuǎn)換為顱腦MR圖像。而Wolterink等[16]則與之相反,利用顱腦MR圖像生成了CT圖像,希望利用此方法有效減少患者掃描輻射。除了圖像之間相互轉(zhuǎn)換,GANs還被用于提高圖像分辨率,減少噪聲,去除偽影等方面。Jelmer等[12]利用GAN在常規(guī)劑量CT和低劑量CT之間構(gòu)建映射,有效地提高了低劑量CT的信噪比。Wang等[17]成功利用GAN去除了內(nèi)耳高分辨CT的金屬偽影。雖然GAN在解決諸多傳統(tǒng)醫(yī)學(xué)圖像問題上展現(xiàn)出巨大的潛力,但是,目前該技術(shù)尚未得到臨床的廣泛認(rèn)可。一方面,通過GAN改善圖像質(zhì)量的實質(zhì)是利用不同圖像之間的映射進(jìn)行圖像生成,而生成的圖像不同于真實掃描的圖像,沒有具體的臨床意義。另一方面,既往研究主要通過傳統(tǒng)計算機視覺評估方法對生成圖像進(jìn)行評估。因此,由GAN生成的圖像雖然到達(dá)專業(yè)影像診斷醫(yī)師肉眼難以分辨真假的程度,不少臨床醫(yī)生對其使用價值仍保有懷疑態(tài)度[6]。為此,本研究不僅采用傳統(tǒng)的視覺評估指標(biāo)評價了s-DWI與目標(biāo)圖像的噪聲分布、特征相似度、結(jié)構(gòu)相似度,還采用臨床評估方法分別評估了s-DWI的圖像質(zhì)量以及其ADC值的價值。
本研究中,s-DWI圖像和b-DWI在前列腺以及前列腺周圍組織結(jié)構(gòu)高度相似。通過定量評估,s-DWI和b-DWI在噪聲分布方面相一致,其結(jié)構(gòu)特征和紋理特征與b-DWI亦高度相似。通過基于GAN的深度學(xué)習(xí)網(wǎng)絡(luò),可以有效縮短DWI序列掃描時間而不損失其圖像質(zhì)量。不同閱片者對DWI數(shù)據(jù)集的圖像質(zhì)量評分結(jié)果顯示,s-DWI與b-DWI在總體圖像質(zhì)量、前列腺邊緣清晰程度、噪聲抑制方面得分相似,且均高于a-DWI。這表明,多次重復(fù)采集信號確實可以彌補EPI-DWI低圖像質(zhì)量的缺點,明顯改善圖像質(zhì)量。但是,由于EPI-DWI掃描時間取決于重復(fù)時間、擴(kuò)散方向以及激勵次數(shù)的乘積[3],增強激勵次數(shù)無疑延長了掃描時間,而長時間的掃描也增加了患者不舒適度以及不自主運動的概率。本研究通過低激勵次數(shù)DWI直接生成的s-DWI在總體圖像質(zhì)量、信噪比以及前列腺外形輪廓方面與高質(zhì)量多激勵次數(shù)DWI均無明顯差異。因此,在確保DWI圖像質(zhì)量的前提下,基于GAN的深度學(xué)習(xí)網(wǎng)絡(luò)可以有效縮短掃描時間。
本研究最后驗證了基于s-DWI和b-DWI生成的ADC的可重復(fù)性,其結(jié)果顯示,s-DWI和b-DWI均表現(xiàn)為非常出色的受試者間一致性以及同一受試者的可重復(fù)性,而a-DWI不同受試者和同一受試者一致性明顯低于s-DWI和b-DWI。此外,s-DWI和b-DWI計算的ADC值之間表現(xiàn)出非常高的不同方法間的一致性。ADC是評估前列腺癌分級、分期以及評估預(yù)后的另一重要指標(biāo),而ADC值的測量可重復(fù)性與DWI圖像質(zhì)量密切相關(guān),低信噪比、圖像變形等均會導(dǎo)致ADC值測量的不穩(wěn)定性。為了提高ADC值測量的可重復(fù)性,臨床采用了多次激勵的平面回波序列[18]、Hybrid掃描法[19]、小FOV技術(shù)[20]、Near-silent distortion less DWI[21]等諸多方法改良DWI圖像質(zhì)量,進(jìn)而提高ADC值可重復(fù)性。增加激勵次數(shù)無疑會掃描時間明顯增加。Hybrid掃描法雖然可以有效提高了圖像質(zhì)量,其掃描時間并沒有明顯減少。近些年興起的小FOV雖然在去除偽影,提高分辨率,縮短掃描時間方面均有較大的進(jìn)步,但由于其FOV縮小,無法評估盆腔淋巴結(jié)轉(zhuǎn)移情況,臨床價值收到限制。此外,小FOV技術(shù)和Near-silent distortion less DWI技術(shù)對于軟件及設(shè)備平臺具有較高要求。因此其臨床應(yīng)用受到限制[22]。本研究使用的模型,不需要過多依賴硬件和軟件,為改善中低端磁共振機型的掃描圖像,提供可靠ADC圖像提供了新的途徑。
本研究存在一定局限性:首先,考慮到標(biāo)準(zhǔn)b值DWI對于生成ADC和計算高b值DWI具有重要意義,本研究構(gòu)建了b=1000 mm2/s的DWI的生成模型,該模型是否適用于更多b值DWI仍然需要進(jìn)一步論證。其次,由于DWI和ADC值因不同梯度、不同廠家設(shè)備、不同人群均存在差異[23-24],本模型的泛化性仍然需要多中心大樣本實驗進(jìn)一步論證。
綜上所述,基于GAN的深度學(xué)習(xí)算法可以有效地縮短前列腺DWI掃描時間,提升圖像質(zhì)量,有望應(yīng)用于臨床幫助減輕放射科醫(yī)生的工作負(fù)擔(dān),并降低其漏診誤診率,為輔助臨床決策提供依據(jù)。