馬明明,姜原,劉義,王祥鵬,黃嘉豪,張曉東,秦乃姍,王霄英
乳腺X線密度(mammographic density,MD)反映了乳腺中纖維腺體的相對數(shù)量,是乳腺癌的獨(dú)立危險(xiǎn)因素[1-2]。根據(jù)第5版乳腺影像報(bào)告和數(shù)據(jù)系統(tǒng)(Breast Imaging Reporting and Data System,BI-RADS)MD分為a、b、c、d四型,但在臨床應(yīng)用時(shí),讀片專家間的一致性不高(Kappa=0.57,95%CI 0.53~0.61)[3],不同級(jí)別醫(yī)師之間的一致性從較差到中等(Kappa值0.396~0.604)[4]。為了實(shí)現(xiàn)MD分類的臨床意義和評價(jià)一致性,常有研究將乳腺密度進(jìn)行二分類,即將a型和b型分為非致密組;將c型和d型分為致密組[5-6]。致密組乳腺的女性患乳腺癌風(fēng)險(xiǎn)高于非致密組,患乳腺癌風(fēng)險(xiǎn)是非致密組乳腺女性的4~6倍[7],因此在乳腺X線報(bào)告中對致密組和非致密組的分類是很重要的。近年來很多研究者使用算法測量MD,試圖對MD自動(dòng)判斷,但結(jié)果仍有提升的空間[8]。本研究旨在訓(xùn)練深度學(xué)習(xí)模型,期望能用來可靠地評估MD密度分組,并將結(jié)果自動(dòng)接入到結(jié)構(gòu)化報(bào)告系統(tǒng)中,實(shí)現(xiàn)在臨床工作中自動(dòng)報(bào)告乳腺密度分組。
圖1 模型預(yù)測結(jié)果自動(dòng)填寫入結(jié)構(gòu)化報(bào)告的工作流程。
本研究獲得了倫理審查委員會(huì)的批準(zhǔn)(批件號(hào):[2017(1382)]),按照本單位人工智能(AI)模型訓(xùn)練規(guī)范執(zhí)行研究方案。
1.用例定義
根據(jù)本單位AI訓(xùn)練管理方法,首先定義研發(fā)乳腺鉬靶X線檢查投照體位和腺體密度分類模型的用例。包括:模型的ID、臨床問題、場景描述、模型在實(shí)際工作中的調(diào)用流程、模型輸入輸出數(shù)據(jù)結(jié)構(gòu)等。AI模型返回結(jié)果定義為:腺體密度分型“BIRADS-a、b、c、d”。MD分類模型預(yù)測結(jié)果返回到結(jié)構(gòu)化報(bào)告中的“整體評估”模塊(圖1)。
2.研究隊(duì)列建立
本研究回顧性搜集本院PACS系統(tǒng)中2018年6月1日-2018年12月30日進(jìn)行乳腺X線攝影檢查的連續(xù)患者影像報(bào)告。
MD模型訓(xùn)練入組標(biāo)準(zhǔn):①常規(guī)篩查或乳腺超聲檢查異常而進(jìn)行的診斷性乳腺X線檢查;②行雙乳的MLO位及CC位的乳腺X線檢查。排除標(biāo)準(zhǔn):①乳腺癌根治切除術(shù)后;②假體植入術(shù)后;③圖像顯示腺體不完整。根據(jù)MD模型訓(xùn)練納入和排除標(biāo)準(zhǔn)篩選合格病例305例,共1220個(gè)數(shù)據(jù)(圖2),均為女性,年齡29~91歲,平均年齡53.4±11.9歲。使用Python的dicom2nii包將DICOM格式轉(zhuǎn)換為NIFTI格式。
圖2 MD模型訓(xùn)練納入研究對象的流程圖。
由兩位影像科醫(yī)師(乳腺影像診斷工作經(jīng)驗(yàn)分別為5年、27年)共同根據(jù)BI-RADS第5版的MD標(biāo)準(zhǔn)進(jìn)行分型,標(biāo)準(zhǔn)如下:① a型:乳腺內(nèi)幾乎全是脂肪組織;② b型:乳腺內(nèi)散在纖維腺體密度區(qū)域;③ c型:乳腺組織密度不均,可能使小的腫塊被遮擋;④ d型:乳腺組織極其致密,使X線檢查敏感度降低(圖3)。
圖3 女,51歲,a型乳腺,乳腺內(nèi)幾乎全部是脂肪組織。a)CC位;b)MLO位。 圖4 女,48歲,b型乳腺,乳腺內(nèi)散在纖維腺體密度。a)CC位;b)MLO位。 圖5 女,40歲,c型乳腺,乳腺組織密度不均,可能使小的腫塊被遮擋。a)CC位;b)MLO位。 圖6 女,27歲,d型乳腺,乳腺組織極其致密,降低乳腺X線攝影的敏感度。a)CC位;b)MLO位。
3.模型訓(xùn)練
硬件為GPU NVIDIA Tesla P100 16G,軟件包括Python3.6、Pytorch 0.4.1、Opencv、Numpy、SimpleITK。采用Adam作為優(yōu)化器[9]。訓(xùn)練腺體密度模型時(shí),將1220個(gè)數(shù)據(jù)隨機(jī)分訓(xùn)練集(train set,n=966個(gè)),調(diào)優(yōu)集(validation set,n=128個(gè))和測試集(test set,n=126個(gè))。輸入圖像設(shè)置為自動(dòng)窗寬窗位,圖像大小為224×224,輸出數(shù)據(jù)為模型分類預(yù)測結(jié)果。圖像擴(kuò)增方法包括:平移、旋轉(zhuǎn)、隨機(jī)噪聲等。MedNet網(wǎng)絡(luò)主要參數(shù)如下: batch_size=150,num_epochs=300,learning_rate=0.00005。
4.模型評價(jià)
得到測試集的混淆矩陣(confusion matrix)后,采用PyCM多分類混淆矩陣庫進(jìn)行多分類效能分析。
MD分類模型對測試集數(shù)據(jù)預(yù)測的混淆矩陣和統(tǒng)計(jì)效能見表1~2。測試集的126個(gè)數(shù)據(jù)的預(yù)測符合率(ACC Macro)為0.83,a、b、c、d各型預(yù)測符合率分別為0.88、0.78、0.80和0.76。將MD分為致密組和非致密組時(shí),非致密組精確度(precision)為0.90,召回率(recall)為0.74,F(xiàn)1值為0.81;致密組精確度為0.86,召回率為0.84,F(xiàn)1值為0.85。
表1 MD四分類模型預(yù)測結(jié)果(n=126)
表2 MD四分類模型預(yù)測效能指標(biāo)
臨床工作中,患者在接受乳腺X線攝影檢查后,影像醫(yī)師在書寫報(bào)告時(shí)應(yīng)提供MD評估信息,MD不僅是乳腺癌的風(fēng)險(xiǎn)因素之一,更是對MG評估的準(zhǔn)確性有影響。無論是乳腺疾病的診斷,還是乳腺癌篩查中,每年都要進(jìn)行大量的乳腺X線攝影檢查,對每次檢查進(jìn)行的乳腺密度評估是ACR影像解讀的常規(guī)要求。然而,放射科醫(yī)生對MD主觀判斷的重復(fù)性差,不同的放射科醫(yī)生對乳腺密度的評估存在很大差異[10-12]。深度學(xué)習(xí)已用于評估乳腺密度的初步工作[13-14],本研究訓(xùn)練深度學(xué)習(xí)模型來評估乳腺X線攝影MD,符合率較高。既往Mohamed等[15]基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)構(gòu)建MD分類中最常見但一致性最差的兩個(gè)類別(b型、c型)的分類模型,模型對b型和c型的判斷符合率為0.94;Ciritsis等[16]的研究表明,其構(gòu)建的CNN模型根據(jù)不同體位對MD分類,在影像專家共識(shí)決策方面,MLO模型(0.92)和CC位模型(0.87)有很好的一致性。本研究對MD四分類中,b型和c型符合率接近0.8,但二分類(致密組、非致密組)的準(zhǔn)確率較高,在0.9左右,并可將結(jié)果接入到到結(jié)構(gòu)化報(bào)告中,不僅能減輕醫(yī)師的工作強(qiáng)度、縮短報(bào)告時(shí)間,還能提高M(jìn)D評估的一致性,與既往研究結(jié)果相似[15-21]。
在MD四分類中,各類均有模型不能正常識(shí)別的病例(表1),究其原因如下:①基于第5版的BI-RADS MD分類取消了關(guān)于腺體成分占比的規(guī)定,因而同一分類中圖像的異質(zhì)性更大,以c類為例,可能圖像上僅有非常少的區(qū)域有高密度腺體足以產(chǎn)生遮蔽效應(yīng),而其他區(qū)域與b類相同。因此本研究訓(xùn)練的模型對四分類中二個(gè)相鄰分類之間的區(qū)分有一定錯(cuò)誤率,而對致密組和非致密組的分類診斷符合率較高。②本研究使用的圖像數(shù)量較少,也未對圖像質(zhì)量進(jìn)行分層,可能由于圖像質(zhì)量欠佳導(dǎo)致分類錯(cuò)誤。③訓(xùn)練時(shí)未對圖像中的病灶進(jìn)行分層,在a類(5/30)和b類圖像中腫塊較大(6/32)時(shí),標(biāo)注者是以腫塊之外的腺體部分為準(zhǔn)對圖像分類,而將圖像輸入模型訓(xùn)練時(shí),腫塊部分的圖像特征也被模型提取特征,造成對于a類和b類的預(yù)測錯(cuò)誤。上述原因分析為將來迭代模型提供了方向。首先,在做MD分類前應(yīng)對圖像質(zhì)量進(jìn)行評價(jià),可前置一個(gè)圖像甄別的模型,對投照體位、投照范圍、投照條件等做出評估,將篩選過的合格圖像輸入到本模型中。這種流程在其他研究中也應(yīng)用,前置的圖像甄別模型有利于提高診斷模型的效能[22]。另外,在預(yù)測MD分類時(shí),應(yīng)同時(shí)預(yù)測乳腺區(qū)域是否存在明顯的腫塊,將二個(gè)模型的結(jié)果集成處理,以避免大的腫塊對腺體分型預(yù)測結(jié)果的影響。
本研究的局限性是非常明顯的。首先,本研究是小樣本回顧性研究,數(shù)據(jù)來源于同一個(gè)單位、同一臺(tái)設(shè)備,常規(guī)掃描參數(shù)是相同的,所以未來需要進(jìn)行前瞻性、大樣本、多中心臨床研究,不斷迭代,才能達(dá)到較高的MD分類預(yù)測效能。其次,本研究雖然有1220個(gè)影像數(shù)據(jù),但是只有610側(cè)乳腺,而臨床實(shí)踐中我們一般都是綜合MLO和CC位進(jìn)行MD的判斷。本研究將CC和MLO作為獨(dú)立的影像數(shù)據(jù)進(jìn)行分析,經(jīng)過復(fù)審發(fā)現(xiàn)CC和MLO的分類是一致的,可能與本研究數(shù)據(jù)入組時(shí)只挑選了圖像質(zhì)量合格、且專家對分類達(dá)成一致的數(shù)據(jù)有關(guān)。在實(shí)際工作中,影像科醫(yī)生讀片時(shí)對MLO與CC的密度分類可能不一致,醫(yī)生是綜合兩個(gè)體位做出判斷的。未來在模型訓(xùn)練時(shí)應(yīng)將體位因素增加到輸入信息中,輸出結(jié)果時(shí)也要先分別輸出兩體位圖像的單獨(dú)預(yù)測結(jié)果,再加以集成。第三,本研究的模型未進(jìn)行臨床價(jià)值的評價(jià),在今后的模型研發(fā)過程中應(yīng)進(jìn)行不同性質(zhì)的臨床驗(yàn)證試驗(yàn),以了解影像醫(yī)生對模型的接受情況[23]。只有當(dāng)模型在實(shí)際報(bào)告場景中應(yīng)用,并確實(shí)提高了工作效率和準(zhǔn)確率時(shí),才能證明模型的真正價(jià)值[24]。最后,乳腺影像診斷涉及了很多診斷任務(wù),應(yīng)將MD分類、病灶檢出和分類等整合在一起,才能實(shí)現(xiàn)全流程的自動(dòng)化。
總之,本研究基于深度學(xué)習(xí)訓(xùn)練乳腺X線MD分類模型,具有較高的分類效能,在經(jīng)過更多驗(yàn)證和迭代后,有望用于臨床工作,提高工作效率。