劉想,韓超,張耀峰,張大斗,張曉東,王霄英*
1.北京大學(xué)第一醫(yī)院醫(yī)學(xué)影像科,北京 100034;2.北京賽邁特銳醫(yī)學(xué)科技有限公司,北京 100011;*通信作者 王霄英wangxiaoying@bjmu.edu.cn
前列腺癌是老年男性常見腫瘤之一[1]。由于我國前列腺癌篩查和早期診斷尚未普及,大約50%的患者初診時已發(fā)生骨轉(zhuǎn)移[2-4]。前列腺癌骨轉(zhuǎn)移好發(fā)于骨盆、脊柱和股骨[5]。骨轉(zhuǎn)移會引起病理性骨折及脊髓壓迫等不良骨性事件,及時準(zhǔn)確地檢出前列腺癌骨轉(zhuǎn)移病灶對于減少骨并發(fā)癥的發(fā)生具有重要意義。
多參數(shù)磁共振成像(multiparametric MRI,mpMRI)對骨轉(zhuǎn)移的診斷有較高的敏感度和特異度,能準(zhǔn)確顯示轉(zhuǎn)移灶及周圍軟組織受侵犯情況。前列腺癌轉(zhuǎn)移報告和數(shù)據(jù)系統(tǒng)(METastasis Reporting and Data System for Prostate cancer,MET-RADS-P)推薦將擴散加權(quán)成像(DWI)+表觀擴散系數(shù)(ADC)用于評估骨轉(zhuǎn)移[6-9]。
本研究擬訓(xùn)練3D U-Net模型,自動分割前列腺mpMRI中DWI和ADC圖像中的骨質(zhì)結(jié)構(gòu),并找出分割性能最佳的輸入序列組合,以期為后續(xù)骨轉(zhuǎn)移病灶的自動檢出提供定位信息。
本研究獲得本院倫理審查委員會的批準(zhǔn)(批件號:〔2017(1382)〕),按照本單位人工智能(artificial intelligence,AI)模型訓(xùn)練規(guī)范執(zhí)行研究方案。
1.1 研究數(shù)據(jù) 從本院PACS系統(tǒng)回顧性收集2019年1月—2020年1月181例前列腺癌患者的盆腔mpMRI圖像。病例納入和排除標(biāo)準(zhǔn)見圖1,最終105例患者用于模型的訓(xùn)練。盆腔mpMRI掃描設(shè)備采用3.0T GE(Discovery HD 750),DWI采集參數(shù):b=0、800 s/mm2;TR 3 000 ms,TE 60 ms,層數(shù)25,層厚4 mm;ADC圖像由設(shè)備工作站處理生成。
圖1 病例納入流程
1.2 數(shù)據(jù)標(biāo)注 將DWI相關(guān)序列[DWI低(b=0 s/mm2)、DWI高(b=800 s/mm2)、ADC]的DICOM格式圖像轉(zhuǎn)換為Nifty格式。由1名低年資放射科醫(yī)師(閱片經(jīng)驗2年)在ITK-SNAP 3.6.0上標(biāo)注3個序列的圖像,手工調(diào)整窗寬、窗位。標(biāo)注的骨質(zhì)結(jié)構(gòu)包括腰椎、骶尾骨、雙側(cè)髂骨、雙側(cè)髖臼、雙側(cè)恥骨、雙側(cè)坐骨、雙側(cè)股骨頭、雙側(cè)股骨頸。由1名放射科專家(閱片經(jīng)驗≥15年)對標(biāo)注進(jìn)行修改確認(rèn)。
1.3 訓(xùn)練分割模型 圖像預(yù)處理參數(shù):大小=64×160×240(z、y、x軸),自動窗寬、窗位。本研究的3D U-Net輸入為1~6種序列組合,分別為DWI低+DWI高+ADC、DWI低+DWI高、DWI高+ADC、DWI低+ADC、DWI高、ADC組合,其中每一個圖像序列設(shè)為一個單獨的輸入通道。在6個模型中所有的數(shù)據(jù)均按照8∶1∶1隨機分為訓(xùn)練集83例、調(diào)優(yōu)集11例和測試集11例。模型訓(xùn)練使用的硬件為GPU NVIDIA Tesla P100 16G,軟件為Python3.6、Pytorch 0.4.1、Opencv、Numpy、SimpleITK等,Adam為訓(xùn)練優(yōu)化器,批量大小=1,學(xué)習(xí)率=0.000 1,學(xué)習(xí)周期=300。
1.4 模型評價
1.4.1 定量指標(biāo) 使用DICE系數(shù)評估U-Net的分割性能,計算公式:DICE(A,B)=2|A∩B|/|A|+|B|,其中A是手工標(biāo)注的體素數(shù),B是模型預(yù)測的體素數(shù)。首先計算每個骨質(zhì)區(qū)域的DICE值,再計算全部8個標(biāo)簽的平均DICE值。計算不同模型預(yù)測所得各骨質(zhì)區(qū)域的體積值(圖2),并與人工標(biāo)注比較。
圖2 最小體積包圍盒算法。用最小體積包圍盒算法測量骶骨體積。A~C分別為手工標(biāo)注骶骨左側(cè)面、正面和右側(cè)面,其余骨質(zhì)結(jié)構(gòu)體積測量方法與骶骨相同
1.4.2 定性指標(biāo) 主觀評分關(guān)注模型預(yù)測區(qū)域是否滿足臨床需求,在標(biāo)簽層面、序列層面、模型層面分別評價。由另一位高年資放射科醫(yī)師(15年以上閱片經(jīng)驗)對比模型預(yù)測結(jié)果和人工標(biāo)注結(jié)果對模型的分割性能打分。
模型分割情況見圖3。根據(jù)不同的分割情況,對模型的分割效能打分(表1),單個標(biāo)簽的評分為0~10分。序列層面的評分為該序列中所有標(biāo)簽的平均值,以>6分為達(dá)標(biāo)(無相應(yīng)標(biāo)簽時則不計算該標(biāo)簽)。模型層面的評價標(biāo)準(zhǔn)為計算測試集中全部序列的達(dá)標(biāo)率,>80%為符合臨床應(yīng)用需求。
表1 模型預(yù)測結(jié)果的主觀評分標(biāo)準(zhǔn)(標(biāo)簽層面)
圖3 模型分割可能情況。A~C為情況Ⅰ,模型預(yù)測標(biāo)簽與人工標(biāo)注標(biāo)簽定位一致,且模型預(yù)測范圍大于(A)或小于(B)人工標(biāo)注范圍,或與人工標(biāo)注范圍部分重合(C);D~H為情況Ⅱ,模型預(yù)測標(biāo)簽與人工標(biāo)注標(biāo)簽定位不一致,包括人工標(biāo)注標(biāo)簽未被預(yù)測(D),模型預(yù)測為未被標(biāo)注的非骨質(zhì)結(jié)構(gòu)(E),錯誤的模型預(yù)測標(biāo)簽與人工標(biāo)注標(biāo)簽部分重合(F),或大于(G)或小于(H)人工標(biāo)注范圍。白色標(biāo)簽為人工標(biāo)注標(biāo)簽,有顏色的標(biāo)簽為模型預(yù)測標(biāo)簽
1.5 統(tǒng)計學(xué)方法 應(yīng)用SPSS 23.0軟件,不同數(shù)據(jù)集的年齡以±s表示,并應(yīng)用方差分析比較訓(xùn)練集、調(diào)優(yōu)集和測試集之間的年齡差異,3組間前列腺特異抗原水平和6個模型間的DICE值、模型預(yù)測與人工標(biāo)注體積值的差異以M(Qr)表示,采用Kruskal-WallisH檢驗進(jìn)行比較。不同模型達(dá)標(biāo)率比較采用χ2檢驗(Fisher確切概率法)。P<0.05為差異有統(tǒng)計學(xué)意義。
2.1 患者基線數(shù)據(jù) 訓(xùn)練集、調(diào)優(yōu)集和測試集各組患者年齡分別為(69±8)歲、(70±6)歲、(66±7)歲,差異無統(tǒng)計學(xué)意義(F=0.961,P>0.05);前列腺特異抗原水平分別為11.83(2.66~15.6)ng/ml、7.69(4.18~17.01)ng/ml和12.41(6.18~30.07)ng/ml,差異無統(tǒng)計學(xué)意義(H=2.226,P>0.05)。
2.2 模型定量評估
2.2.1 DICE值 測試集中各模型的DICE值均在0.7以上,且各模型預(yù)測結(jié)果的平均DICE值差異無統(tǒng)計學(xué)意義(HDWI高=2.978,PDWI高>0.05;HADC=1.140,PADC>0.05)。DWI高和ADC圖像上的髂骨、骶尾骨、股骨頭、股骨頸的平均DICE值均大于其他骨質(zhì)(P<0.001),見表2。圖4為模型1中DICE值為0.85的DWI高模型預(yù)測與人工標(biāo)注重合圖。
圖4 DWI圖像上各骨質(zhì)結(jié)構(gòu)分割結(jié)果。白色標(biāo)簽為人工標(biāo)注標(biāo)簽,有顏色的標(biāo)簽為模型預(yù)測標(biāo)簽。A.腰椎、髂骨重合圖;B.髖臼、股骨頸重合圖;C.股骨頸、坐骨、恥骨重合圖。各骨質(zhì)結(jié)構(gòu)的DICE值均在0.8以上
表2 不同模型預(yù)測各標(biāo)簽的DICE 值[M(Qr)]
2.2.2 體積差值 計算測試集中不同模型預(yù)測標(biāo)簽體積與人工標(biāo)注體積差值百分比V差值=(|模型預(yù)測體積值-人工標(biāo)注體積值|/標(biāo)簽人工標(biāo)注平均體積值)×100%,模型1的體積預(yù)測值與人工標(biāo)注值差異最小,但各模型間體積差值差異無統(tǒng)計學(xué)意義(HDWI高=2.900,PDWI高>0.05;HADC=2.236,PADC>0.05),見表3。
表3 不同模型預(yù)測各標(biāo)簽體積與人工標(biāo)注體積差[M(Qr)]
2.3 模型定性評估 模型1在DWI高和ADC的圖像分割中達(dá)標(biāo)率均最高(82%,91%),且顯著高于單序列模型(DWI高:模型1比模型5,P=0.040;ADC:模型1比模型6,P=0.012)。模型1和模型3的達(dá)標(biāo)率均>80%,且在DWI高和ADC的圖像分割中差異均無統(tǒng)計學(xué)意義(DWI高:模型1比模型3,P>0.05;ADC:模型1比模型3,P>0.05),均符合臨床應(yīng)用需求,見表4。
表4 模型層面主觀評分結(jié)果
mpMRI廣泛應(yīng)用于診斷前列腺癌,其中DWI不僅可用于檢出腺體內(nèi)腫瘤,也常用于檢出盆腔淋巴結(jié)和骨轉(zhuǎn)移病灶[10-12],可進(jìn)一步用于評價全身腫瘤負(fù)荷和療效[6]。基于DWI影像表現(xiàn)既可以對轉(zhuǎn)移病灶進(jìn)行定性診斷,也可在ADC圖上進(jìn)行定量測量,ADC值的大小可以直接影響前列腺癌患者的RAC分類[13-14]。本研究中訓(xùn)練了3D U-Net模型分割盆腔DWI和ADC圖像上的正常骨質(zhì)結(jié)構(gòu),并比較不同輸入序列的組合對分割性能的影響,以期找出最佳MR序列組合用于盆腔骨質(zhì)的分割,為后續(xù)檢出骨轉(zhuǎn)移病灶打下基礎(chǔ)。
本研究結(jié)果發(fā)現(xiàn),不同模型分割性能的定量指標(biāo)(DICE值、體積差值)均無顯著差異,但在主觀評價時可見不同模型的分割效果有一定差異,模型1達(dá)標(biāo)率最高,模型3也顯示出較好的性能,與模型1相比無顯著差異,均符合臨床應(yīng)用需求。為了兼顧效率和準(zhǔn)確性,本研究推薦使用模型3的雙序列(DWI高+ADC)為3D U-Net分割盆腔骨質(zhì)結(jié)構(gòu)的最佳組合序列。
本研究使用主觀評價和客觀評價確定模型的臨床應(yīng)用價值。通??陀^評價指標(biāo)在不同技術(shù)研究之間具有橫向可比性,但在面對臨床研究提出的不同臨床問題時,針對性的主觀評價則更為重要,這也是本領(lǐng)域基礎(chǔ)研究和臨床研究的重要不同之處。以本研究中對骨質(zhì)分割的評價為例,因不同骨質(zhì)區(qū)域分別命名為不同的標(biāo)簽,屬于語義分割的范疇,因此客觀評價指標(biāo)使用單標(biāo)簽的DICE值、預(yù)測標(biāo)簽與人工標(biāo)簽的體積差以及連通域比較等。但鑒于髂骨與髖臼,髖臼與恥骨、坐骨,股骨頭與股骨頸之間無明確的分界標(biāo)志,對于放射科醫(yī)師及臨床醫(yī)師而言,這些區(qū)域模型分割出來即可達(dá)標(biāo),與相鄰區(qū)域的定位偏差可以接受,不影響這些區(qū)域骨轉(zhuǎn)移瘤的檢出,因此主觀評價結(jié)果與臨床應(yīng)用價值的一致性更強。
對于較復(fù)雜的臨床任務(wù),將其解析為不同的模型訓(xùn)練任務(wù),每個步驟均可觀察到模型輸出結(jié)果,既能提高模型的可解釋性,又能節(jié)省訓(xùn)練資源,是臨床醫(yī)師參與模型訓(xùn)練路徑設(shè)計的價值所在。本研究采用深度學(xué)習(xí)方法檢出前列腺癌骨轉(zhuǎn)移的序貫任務(wù)之一,即先完成骨盆區(qū)域的骨質(zhì)定位,后續(xù)研究中在這些區(qū)域再檢出骨轉(zhuǎn)移瘤病灶,從而實現(xiàn)對前列腺癌骨轉(zhuǎn)移的自動分割。將來進(jìn)一步可將相關(guān)前列腺mpMRI模型整合在一起,包括前列腺體積分割、前列腺癌檢測、前列腺癌周圍侵犯、前列腺癌淋巴結(jié)轉(zhuǎn)移等模型[15],在模型準(zhǔn)確率較高時,可以自動生成結(jié)構(gòu)化報告,提高臨床診斷的準(zhǔn)確性和效率[16]。
本研究的局限性:①本研究所收集的盆腔DWI圖像雖然掃描層數(shù)一致,但掃描范圍不一致,部分患者缺少含有恥骨結(jié)構(gòu)的層面,且恥骨本身所占圖像的體素小,導(dǎo)致模型所能學(xué)習(xí)到的有效的恥骨體素量少,從而使得模型對其分割難度較大,DICE值較低。②本研究不同骨質(zhì)的結(jié)構(gòu)是基于影像專家的臨床經(jīng)驗及解剖知識進(jìn)行標(biāo)注,髂骨、腰椎標(biāo)注的一致性很強,但是股骨頭與股骨頸的分界、髖臼與髂骨的分界、坐骨與恥骨的分界則有一定的主觀偏差。③本研究收集的數(shù)據(jù)均來自同一類型設(shè)備,未比較不同類型設(shè)備生成的圖像對于各模型分割性能的影響,將來應(yīng)獲取更多不同來源的數(shù)據(jù)進(jìn)行訓(xùn)練,以提高模型的適用性。
總之,多個序列的輸入對于3D U-Net網(wǎng)絡(luò)進(jìn)行盆腔范圍內(nèi)骨質(zhì)結(jié)構(gòu)的分割性能有顯著提升,DWI高+ADC可作為前列腺mpMRI檢查盆腔骨質(zhì)結(jié)構(gòu)分割的最佳組合序列。