尤 超,鄭惠中,姜婷婷,簡(jiǎn)嘉豪,范 明,厲力華,吳 炅,顧雅佳,彭衛(wèi)軍
1.復(fù)旦大學(xué)附屬腫瘤醫(yī)院放射診斷科,復(fù)旦大學(xué)上海醫(yī)學(xué)院腫瘤學(xué)系,上海 200032;
2.杭州電子科技大學(xué)生物醫(yī)學(xué)工程與儀器研究所,浙江 杭州 310018;
3.復(fù)旦大學(xué)附屬腫瘤醫(yī)院乳腺外科,復(fù)旦大學(xué)上海醫(yī)學(xué)院腫瘤學(xué)系,上海 200032
乳腺癌是女性最常見(jiàn)的惡性腫瘤,發(fā)病率逐年上升[1]。數(shù)字乳腺體層合成(digital breast tomosynthesis,DBT)技術(shù)可減少病變和正常腺體組織的重疊,提高病灶檢出率和診斷準(zhǔn)確度,目前已逐步推廣應(yīng)用于乳腺癌的篩查及診斷體系[2-3]。
近年來(lái),越來(lái)越多學(xué)者對(duì)DBT的診斷價(jià)值展開(kāi)研究并取得一定進(jìn)展,但研究大多數(shù)基于傳統(tǒng)形態(tài)學(xué)特征[4]。隨著影像組學(xué)和人工智能在醫(yī)學(xué)影像領(lǐng)域的廣泛應(yīng)用,基于全數(shù)字化乳腺X線攝影(full-field digital mammography,F(xiàn)FDM)建立的乳腺癌診斷模型,相比于傳統(tǒng)模型表現(xiàn)出更高的預(yù)測(cè)準(zhǔn)確度[2,5-6]。DBT多角度攝片成像,能為乳腺癌診斷模型提供更多的影像學(xué)特征,因而進(jìn)一步探索DBT的臨床應(yīng)用價(jià)值亦成為研究的關(guān)注點(diǎn)[7-8]。本研究以乳腺腫塊病變?yōu)檠芯恐黧w,旨在探索DBT的影像組學(xué)在腫塊病變鑒別診斷中的價(jià)值,為其提供更多的特征,使其在乳腺癌鑒別診斷中發(fā)揮更大作用。
回顧并分析2019年4月—2020年8月復(fù)旦大學(xué)附屬腫瘤醫(yī)院符合以下標(biāo)準(zhǔn)的患者。納入標(biāo)準(zhǔn):①經(jīng)臨床檢查乳腺發(fā)現(xiàn)可疑病灶;② 行DBT檢查證實(shí)為腫塊病變;③經(jīng)手術(shù)后病理學(xué)檢查證實(shí)。排除標(biāo)準(zhǔn):①有單側(cè)或雙側(cè)乳房植入物;② 有單側(cè)或雙側(cè)乳房切除術(shù)病史或有乳腺切開(kāi)手術(shù)史;③DBT檢查前行穿刺活檢后確診為乳腺癌。
143例患者符合上述標(biāo)準(zhǔn)納入本研究,其中1例患者為雙側(cè)乳房各1個(gè)良性病灶,選用雙側(cè)乳房圖像分析,其余均為單側(cè)單發(fā)病變,選用單側(cè)乳房圖像分析。最終本研究數(shù)據(jù)集共計(jì)144個(gè)病灶,其中良性65個(gè),惡性79個(gè)。
1.2.1 圖像采集
采用美國(guó)Dimensions公司的乳腺斷層X(jué)線攝影系統(tǒng)。所有受檢者均行頭尾(cranio-caudal,CC)位和內(nèi)外斜(medio-lateral oblique,MLO)位雙體位投照?;颊咴诿總€(gè)體位的同一壓迫條件下由設(shè)備自動(dòng)同時(shí)完成FFDM和DBT掃描。DBT成像中,X線管在乳腺周?chē)?5°掃描角度進(jìn)行一系列低劑量曝光,以生成乳腺組織3D容積重組圖像。重組DBT圖像數(shù)據(jù)集包括厚層(1 cm)、薄層(1 mm間距切面)的圖像。
1.2.2 病灶標(biāo)注
使用開(kāi)源軟件VGG Image Annotator(VIA)圖像標(biāo)注工具(Visual Geometry Group),由1名從事乳腺影像診斷的放射科醫(yī)師(工作年限為10年)獨(dú)立閱片對(duì)腫塊的輪廓進(jìn)行勾畫(huà),標(biāo)記如圖1所示,包括起始層面,表示腫塊的頂部(圖1A);中間層面,即腫塊最大徑所在層面圖像(圖1B),終止層面,表示腫塊的底部(圖1C)。腫塊的具體位置坐標(biāo)將由程序通過(guò)計(jì)算輪廓的外接矩取得,從而獲得腫塊的標(biāo)注信息。
圖1 腫塊輪廓勾畫(huà)Fig.1 Mass delineation
1.2.3 構(gòu)建病灶三維掩膜(mask)矩陣
首先創(chuàng)建與原影像相同寬度、高度的全零矩陣,將原影像數(shù)據(jù)按順序疊加,構(gòu)建三維原始影像數(shù)據(jù)矩陣。其次,從標(biāo)注文件中提取病灶輪廓的坐標(biāo)點(diǎn)數(shù)據(jù),根據(jù)坐標(biāo)數(shù)據(jù),在三維原始影像矩陣中將輪廓內(nèi)坐標(biāo)數(shù)據(jù)置一,得到原影像的掩膜文件。最后,將掩膜信息同樣按順序疊加,根據(jù)標(biāo)注文件病灶數(shù)據(jù),構(gòu)建病灶的三維掩膜數(shù)據(jù)矩陣,用于后續(xù)特征提取。
影像組學(xué)分析主要包括3個(gè)部分,提取影像組學(xué)特征、構(gòu)建算法模型及模型檢驗(yàn)。
將預(yù)處理后的原始影像按順序排列組合成三維矩陣,使用pyradiomics包在CC位、MLO位提取病灶影像特征,單個(gè)體位獲得特征109個(gè),包括病灶的形態(tài)學(xué)特征、統(tǒng)計(jì)特征以及紋理特征。其中形態(tài)學(xué)特征18個(gè),統(tǒng)計(jì)特征16個(gè),紋理特征75個(gè)。本研究融合不同體位提取的特征作為特征集合,進(jìn)行良惡性鑒別的研究。按照8∶2的比例劃分?jǐn)?shù)據(jù)集為訓(xùn)練集與測(cè)試集。訓(xùn)練集通過(guò)特征遞歸消除(recursive feature elimination,RFE)的特征選擇方法,篩選獲得特征數(shù)目從20~40的不同的特征集合。采用五折交叉驗(yàn)證的方式進(jìn)行參數(shù)調(diào)整,采用邏輯回歸(logistic regression,LR)、支持向量機(jī)(support vector machine,SVM)以及梯度提升決策樹(shù)(gradient boosting decision tree,GBDT)3種算法建立良惡性診斷模型,比較并分析幾種算法模型在測(cè)試集上的效果。
由1名病理科從事乳腺疾病診斷的主任醫(yī)師對(duì)所有病理切片進(jìn)行診斷,病理學(xué)診斷參照第5版世界衛(wèi)生組織(World Health Organization,WHO)乳腺腫瘤病理分類(lèi)診斷標(biāo)準(zhǔn)[9]。
采用SPSS 22.0及R 3.6.1進(jìn)行統(tǒng)計(jì)學(xué)分析。采用χ2檢驗(yàn)比較訓(xùn)練集與測(cè)試集臨床及病理學(xué)特征的差異。采用預(yù)測(cè)模型的受試者工作特征(receiver operating characteristic,ROC)曲線的曲線下面積(area under curve,AUC)及準(zhǔn)確度作為主要的預(yù)測(cè)模型效能評(píng)價(jià)方法。P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
經(jīng)病理學(xué)檢查證實(shí)的144例病灶中,良性病灶65個(gè)(纖維腺瘤26個(gè)、分葉狀腫瘤5個(gè)、乳腺病16個(gè)、硬化性腺病3個(gè)、導(dǎo)管內(nèi)乳頭狀瘤12個(gè)、炎性病變3個(gè));惡性病灶79個(gè)(浸潤(rùn)性導(dǎo)管癌54個(gè)、浸潤(rùn)性導(dǎo)管癌伴導(dǎo)管原位癌成分11個(gè)、純導(dǎo)管原位癌8個(gè)、浸潤(rùn)性小葉癌2個(gè)、乳頭狀癌4個(gè))。按8∶2比例劃分為訓(xùn)練集112例與測(cè)試集32例(表1)。
表1 研究人群臨床病理學(xué)基本資料Tab.1 clinical data of study population
其中所選取腫塊數(shù)據(jù)集中,病例年齡分布在36~71歲之間。最大直徑為113 mm,平均最大直徑為30.77 mm,經(jīng)年齡段分層、腺體密度、腫瘤最大徑χ2檢驗(yàn),計(jì)算得到P>0.05,表明隨機(jī)劃分的訓(xùn)練集與測(cè)試集數(shù)據(jù)分布差異無(wú)統(tǒng)計(jì)學(xué)意義。
在腫塊良惡性分類(lèi)上,使用特征遞歸消除得到不同特征數(shù)目的特征子集,在訓(xùn)練集上得到對(duì)應(yīng)的平均AUC值見(jiàn)表2。基于不同數(shù)目特征的分類(lèi)器算法,LR、SVM和GBDT的最佳特征數(shù)目分別為20、24和32(圖2),相應(yīng)的最佳特征子集分布見(jiàn)表3。
表3 不同分類(lèi)器最佳子集特征數(shù)目分布Tab.3 Distribution of optimal subset numbers in different classifiers
圖2 特征篩選依據(jù)圖Fig.2 Feature selection basis diagram
表2 不同特征數(shù)量在訓(xùn)練集上準(zhǔn)確率及AUC值Tab.2 Accuracy and AUC values of different feature numbers
結(jié)合網(wǎng)格搜索與交叉驗(yàn)證方法,得到LR、SVM與GBDT這3種分類(lèi)器模型最佳參數(shù)。在相同的訓(xùn)練集上利用對(duì)應(yīng)的超參數(shù)重新訓(xùn)練機(jī)器學(xué)習(xí)模型,并在測(cè)試集上對(duì)各個(gè)分類(lèi)器進(jìn)行測(cè)試,計(jì)算評(píng)價(jià)指標(biāo)見(jiàn)表4。繪制其對(duì)應(yīng)的ROC曲線。在3種分類(lèi)器模型中,GBDT模型表現(xiàn)最佳,其準(zhǔn)確度為0.81,AUC為0.91(圖3)。圖4、5為2例影像科醫(yī)師診斷錯(cuò)誤,影像組學(xué)模型診斷正確的病例。
表4 不同分類(lèi)器測(cè)試集評(píng)價(jià)指標(biāo)Tab.4 Test and evaluation indexes of different classifiers
圖3 三種分類(lèi)器在測(cè)試集的ROC曲線Fig.3 ROC curves of the three classifiers in the test set
圖4 女性57歲,左乳浸潤(rùn)性導(dǎo)管癌Fig.4 A 57-year-old female patient with left breast IDC
圖5 女性37歲,左乳腺病Fig.5 A 37-year old female patient with left breast adenosis
DBT通過(guò)X線球管從不同角度對(duì)壓迫乳腺組織進(jìn)行多次低劑量快速曝光,重建獲取與探測(cè)器平面平行的乳腺三維影像。這一技術(shù)突破了傳統(tǒng)乳腺X線攝影的二維圖像重疊的局限,提高了致密性乳腺中病灶的檢出,尤其是表現(xiàn)為腫塊或結(jié)構(gòu)扭曲征象的病灶。影像組學(xué)通過(guò)高通量地提取病灶的定量信息,實(shí)現(xiàn)病灶分割、特征提取與模型建立,憑借對(duì)海量影像數(shù)據(jù)信息的挖掘、預(yù)測(cè)和分析,是對(duì)腫瘤內(nèi)部特征進(jìn)行深層次的剖析。目前,影像組學(xué)在乳腺磁共振成像(magnetic resonance imaging,MRI)、超聲的研究中已有較多報(bào)道,針對(duì)乳腺X線的影像組學(xué)報(bào)道相對(duì)較少[3-4,10-12]。
本研究基于影像組學(xué)針對(duì)DBT的三維圖像對(duì)乳腺腫塊病變的輔助診斷展開(kāi)。在乳腺X線攝影的影像組學(xué)對(duì)乳腺癌的輔助診斷方面,早期學(xué)者[13]大多使用機(jī)器學(xué)習(xí)方法,針對(duì)二維影像進(jìn)行診斷。由于DBT影像數(shù)量較大,且在各個(gè)斷層上所呈現(xiàn)的病灶形狀、大小存在一定差異。針對(duì)同一病灶,使用二維影像可能會(huì)在不同層面上得到不同的診斷信息。再者,DBT影像的特點(diǎn)是其從不同角度對(duì)乳房進(jìn)行拍攝,所獲影像除了包含斷層內(nèi)的信息,還具備斷層間信息,對(duì)于腫塊診斷具有一定價(jià)值。因此,理想的腫塊分析方法應(yīng)包括每一層存在的腫塊區(qū)域,對(duì)腫塊整體進(jìn)行組學(xué)特征的提取及分析。Fan等[14]基于DBT影像病灶三維紋理特征,研究良惡性診斷,相比二維診斷AUC更高,因此研究DBT影像的三維特征有一定意義。Samala等[15]使用深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network,DCNN)結(jié)合遷移學(xué)習(xí)策略,DBT腫塊診斷結(jié)果的AUC值達(dá)到0.81。然而,其研究仍然是針對(duì)DBT中的二維影像進(jìn)行,未探究DBT三維影像信息在診斷方面的價(jià)值。Li等[16]比較三維DBT影像與二維FFDM影像在DCNN對(duì)乳腺腫塊的良惡性分類(lèi)效能,發(fā)現(xiàn)具有遷移學(xué)習(xí)DCNN在鑒別惡性、良性和正常組織上更優(yōu),且DBT上訓(xùn)練的DCNN精度優(yōu)于FFDM。本研究在方法上,利用圖像標(biāo)準(zhǔn)化構(gòu)建三維原始影像數(shù)據(jù)矩陣,再通過(guò)標(biāo)準(zhǔn)輪廓坐標(biāo)得到原圖像的掩膜文件,最終利用掩膜信息疊加獲取病灶的三維掩膜數(shù)據(jù)矩陣。這種針對(duì)三維醫(yī)學(xué)影像數(shù)據(jù)獲取層間和層內(nèi)信息,構(gòu)建三維掩膜矩陣的方式,整合更多特征信息可能會(huì)對(duì)更加準(zhǔn)確的檢測(cè)提供幫助[17]。
本研究采用LR、SVM與GBDT 3種分類(lèi)器研究基于影像組學(xué)對(duì)DBT三維腫塊良惡性鑒別的診斷價(jià)值,發(fā)現(xiàn)在3種分類(lèi)器模型中,GBDT模型表現(xiàn)最佳,在測(cè)試集中準(zhǔn)確度為0.81,AUC值達(dá)到0.91。由于DBT三維腫塊提取影像組學(xué)特征較多,屬于線性模型的邏輯回歸方法不容易處理。GBDT算法與SVM與LR算法相比較,具有以下三點(diǎn)優(yōu)勢(shì)[18]。第一,GBDT算法使用串行化的策略,繼續(xù)學(xué)習(xí)上一個(gè)學(xué)習(xí)器擬合的殘差,對(duì)數(shù)據(jù)的擬合能力大大增強(qiáng),偏差減小,準(zhǔn)確性提高。第二,GBDT能夠較靈活地處理連續(xù)數(shù)據(jù)與離散數(shù)據(jù),能從中篩選出為合適的特征子集。第三,在相對(duì)少的調(diào)參時(shí)間情況下,使用一些健壯的損失函數(shù),對(duì)異常值的魯棒性也很好。因此,與SVM及LR相比,GBDT能達(dá)到更好的準(zhǔn)確度與AUC,模型更加穩(wěn)定。
本研究存在若干方面的局限性,亟待后續(xù)研究的深入和改進(jìn)。首先,本研究中共納入乳腺腫塊數(shù)據(jù)144個(gè),數(shù)據(jù)量偏少,模型泛化能力較弱。今后將通過(guò)樣本量擴(kuò)充、納入不同機(jī)型樣本,以提高模型的泛化能力。同時(shí)在算法選擇中納入一些其他臨床及病理學(xué)特性,以便判斷結(jié)合ROC曲線能否更全面地反映模型效能。其次,本研究針對(duì)DBT影像腫塊的良惡性診斷開(kāi)展,可提供給醫(yī)師的診斷信息仍顯不足。后續(xù)在此基礎(chǔ)上,擬基于DBT對(duì)分子亞型預(yù)測(cè)等臨床問(wèn)題進(jìn)行探索。第三,在后續(xù)研究中,將考慮補(bǔ)充DBT數(shù)據(jù)中影像醫(yī)師的診斷評(píng)估結(jié)果,并且進(jìn)一步納入人工智能的深度學(xué)習(xí)方法,將影像醫(yī)師診斷、影像組學(xué)診斷、人工智能診斷三者進(jìn)行比較。此外,本研究采用了提取DBT影像組學(xué)特征的研究方法,而基于DBT深度學(xué)習(xí)算法可以更好地消除諸如感興趣區(qū)勾畫(huà)等人為因素干擾,未來(lái)應(yīng)通過(guò)深度學(xué)習(xí)路徑進(jìn)一步開(kāi)展DBT的診斷價(jià)值研究。
綜上所述,基于影像組學(xué)的DBT圖像特征對(duì)乳腺腫塊病變的鑒別診斷具有較好的臨床價(jià)值。其中GBDT模型由于其集成學(xué)習(xí)的優(yōu)勢(shì),表現(xiàn)效果最佳。