劉家玲 何子龍 陳衛(wèi)國(guó)
國(guó)際癌癥研究機(jī)構(gòu)2020年的最新研究表明,乳腺癌已取代肺癌成為全球發(fā)病率第一大癌癥[1]。在常見(jiàn)乳腺X線攝影篩查中,結(jié)構(gòu)扭曲(architectural distortion,AD)是繼腫塊和鈣化之后與乳腺癌相關(guān)的第3種異常特征,其在乳腺癌X線征象中是最早被發(fā)現(xiàn)的,但是有較高的漏診率及假陽(yáng)性率[2-3]。AD常表現(xiàn)為邊緣模糊的腺體結(jié)構(gòu)異常改變,因與背景密度差異細(xì)微,易與纖維腺體組織重疊而表現(xiàn)隱匿,特別在致密型乳腺中更容易被漏診。對(duì)于無(wú)手術(shù)史及外傷史的AD,放射科醫(yī)生多建議進(jìn)行活檢以除外乳腺癌。因此,如何有效提高乳腺AD檢出的敏感性及準(zhǔn)確性,避免不必要的手術(shù)活檢尤為重要。近20年來(lái),隨著人工智能(artificial intelligence,AI)技術(shù)的發(fā)展,研究人員借助AI不斷改進(jìn)傳統(tǒng)計(jì)算機(jī)輔助診斷(computer aided diagnosis,CAD)模型泛化能力差的缺點(diǎn)來(lái)提高AD檢出率。本文就機(jī)器學(xué)習(xí)(machine learning,ML)及深度學(xué)習(xí)(deep learning,DL)在乳腺X線攝影中AD檢出方面的研究進(jìn)展予以綜述。
在第5版美國(guó)放射學(xué)會(huì)乳腺影像報(bào)告和數(shù)據(jù)系統(tǒng)(Breast Imaging Reporting and Data System,BIRADS)中將AD定義為:腺體正常結(jié)構(gòu)被扭曲,但未見(jiàn)明顯的腫塊影,包括從一點(diǎn)發(fā)出的放射狀影或毛刺影,以及乳腺實(shí)質(zhì)局灶性邊緣的收縮或扭曲[4]。美國(guó)放射學(xué)會(huì)推薦對(duì)非術(shù)后變化或脂肪壞死的疑似AD病灶進(jìn)行活檢,以排除惡性腫瘤的可能,但活檢陽(yáng)性預(yù)測(cè)值總體較低[5]。為了避免不必要的活檢,有研究者[6-9]提出基于CAD技術(shù)、ML及DL的AI方法來(lái)提高AD檢出率。
CAD通過(guò)綜合運(yùn)用計(jì)算機(jī)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)、圖像處理與分析等方法,進(jìn)行圖像預(yù)處理、分割/異常檢測(cè)、特征提取與選擇以及良惡性分類(lèi)。為了更好地幫助放射科醫(yī)生解決AD檢出率低、假陽(yáng)性率高的問(wèn)題,研究者們將CAD技術(shù)應(yīng)用于AD檢出,根據(jù)AD的灰度、紋理及形態(tài)學(xué)特征,提出利用統(tǒng)計(jì)分析、頻率域分析、模型分析及形態(tài)學(xué)分析方法,實(shí)現(xiàn)對(duì)疑似AD的興趣區(qū)(ROI)進(jìn)行特征選擇與提取。如Rangayyan等[6]使用Gabor濾波獲得圖像方向場(chǎng)后提取曲線結(jié)構(gòu),并利用相圖分析上述結(jié)果。該研究對(duì)19例含有AD的乳腺X線影像進(jìn)行了測(cè)試,敏感度達(dá)84%,每幅影像的假陽(yáng)性病灶為7.8個(gè)。Tourassi等[10]通過(guò)計(jì)算分形維數(shù)進(jìn)行分形分析,在乳腺X線影像數(shù)字化數(shù)據(jù)庫(kù)(digital database for screening mammography,DDSM)中的112個(gè)含AD的ROI和1 388個(gè)正常乳腺組織的ROI上測(cè)試,結(jié)果顯示受試者操作特征曲線下面積(AUC)為0.89±0.02。綜上,傳統(tǒng)CAD技術(shù)能在一定程度上降低AD漏診率及提高檢出率,有助于放射科醫(yī)生提高檢測(cè)乳腺癌的敏感度。但傳統(tǒng)CAD技術(shù)需參照預(yù)先手動(dòng)定義的計(jì)算公式提取某一特征,難以有效解釋變化多樣的AD特征??梢?jiàn),在實(shí)際應(yīng)用中基于傳統(tǒng)CAD技術(shù)檢測(cè)模型的泛化能力較差,亟需提出更為切合臨床需要的乳腺AD檢測(cè)技術(shù)。
3.1 ML盡管研究者一直在優(yōu)化CAD技術(shù),但現(xiàn)有的算法對(duì)乳腺AD的檢出性能并沒(méi)有達(dá)到令人滿意的水平,因此國(guó)內(nèi)外研究者提出基于ML的CAD算法以提高AD檢出率。龔等[7]對(duì)19個(gè)含AD的ROI和19個(gè)正常乳腺組織的ROI進(jìn)行頻域小波變換,以支持向量機(jī)(support vector machines,SVM)建立分類(lèi)模型,獲得的準(zhǔn)確度為92.1%,敏感度為89.5%,特異度為94.7%。Biswas等[11]構(gòu)建基于高斯混合模型的乳腺影像紋理概率模型,利用SVM區(qū)分19個(gè)含AD的ROI和21個(gè)正常乳腺組織的ROI,結(jié)果顯示敏感度為81.3%,每幅影像有3.6個(gè)假陽(yáng)性病灶。Guo等[12]通過(guò)計(jì)算空隙度和分形布朗運(yùn)動(dòng)模型來(lái)表征乳腺的紋理特征,利用SVM區(qū)分正常乳腺和含AD的ROI,對(duì) 來(lái) 自 乳 腺 影 像 分 析 協(xié) 會(huì)(mammographic image analysis society,MIAS)數(shù)據(jù)庫(kù)中的19個(gè)含AD的ROI和41個(gè)正常乳腺組織的ROI進(jìn)行檢測(cè),結(jié)果顯示AUC值為0.875。Narváez等[13]提出基于圖形理論和線性顯著性域的方法,通過(guò)提取ROI區(qū)域內(nèi)和邊緣的線性結(jié)構(gòu)信息,按照不同的權(quán)重組成新的特征向量,最后以SVM建立分類(lèi)模型,對(duì)來(lái)自DDSM中的123個(gè)含AD的ROI和123個(gè)正常乳腺組織的ROI以及19個(gè)來(lái)自MIAS數(shù)據(jù)庫(kù)的含AD的ROI和19個(gè)正常乳腺組織的ROI進(jìn)行檢測(cè),結(jié)果準(zhǔn)確度分別為89%和87%,敏感度分別為85%和95%,特異度分別為93%和84%,AUC值均為0.93。Zyout等[14]采用基于二維經(jīng)驗(yàn) 模 式 分 解(bidimensional empirical mode decomposition,BEMD)算法的多尺度分形分析,從MIAS數(shù)據(jù)庫(kù)中提取19個(gè)含AD的ROI和207個(gè)正常乳腺組織的ROI,以SVM建立分類(lèi)模型,得到的準(zhǔn)確度為91.7%。Banik等[15]通過(guò)Gabor濾波器和相圖分析自動(dòng)提取出4 224個(gè)ROI,其中301個(gè)ROI含AD,對(duì)每個(gè)ROI計(jì)算分形維數(shù)、功率角擴(kuò)散熵、Law’s紋理能量以及Haralick紋理特征,結(jié)果顯示貝葉斯分類(lèi)器、Fisher線性判別分析以及單層前饋神經(jīng)網(wǎng)絡(luò)的AUC值分別為0.76、0.75和0.78;使用貝葉斯分類(lèi)器和留一法時(shí)的敏感度分別為0.80和0.90,每幅影像假陽(yáng)性病灶分別為5.8和8.1個(gè)。Kamra等[16]使用空間灰度共生矩陣、基于分形特征和傅里葉功率譜的組合來(lái)表征AD紋理特征,分別在θ=0°、45°、90°及135°4個(gè)方向進(jìn)行量化;以SVM建立分類(lèi)模型,對(duì)DDSM數(shù)據(jù)庫(kù)中的146個(gè)含AD的ROI和75個(gè)非AD的ROI進(jìn)行評(píng)估,準(zhǔn)確度達(dá)92.94%,敏感度達(dá)93.33%;對(duì)MIAS數(shù)據(jù)庫(kù)中的58個(gè)含AD的ROI和108非AD的ROI進(jìn)行評(píng)估,準(zhǔn)確度達(dá)95.34%,敏感度達(dá)92.30%。
3.2 DL隨著計(jì)算資源和大規(guī)模標(biāo)記數(shù)據(jù)的快速增長(zhǎng),DL技術(shù)用于乳腺X線影像的研究不斷豐富?;贒L算法的CAD系統(tǒng)直接運(yùn)用影像訓(xùn)練和構(gòu)建模型,從原始輸入數(shù)據(jù)中自動(dòng)學(xué)習(xí)數(shù)據(jù)特征來(lái)替代手工提取的傳統(tǒng)方法,實(shí)現(xiàn)端到端的自主學(xué)習(xí),使CAD系統(tǒng)水平提升了一個(gè)層次。de Oliveira等[17]設(shè)計(jì)了一種基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的自動(dòng)編碼器,作為CAD的特征描述符來(lái)檢測(cè)AD。該模型使用從175例含AD和175例不含AD的乳腺X線影像中提取的140 000個(gè)ROI進(jìn)行訓(xùn)練,分別使用所提出的自動(dòng)編碼器和其他常見(jiàn)的特征描述符對(duì)分類(lèi)器的性能進(jìn)行驗(yàn)證,結(jié)果顯示,該自動(dòng)編碼器的性能略高于其他描述符,其準(zhǔn)確度為75.3%,AUC值為0.83。Oyelade等[18]提出了一種具有卷積層-卷積層-池化層結(jié)構(gòu)的CNN模型,通過(guò)使用數(shù)據(jù)增強(qiáng)技術(shù)提高其性能來(lái)檢測(cè)AD。該方法對(duì)MIA數(shù)據(jù)庫(kù)中的5 136個(gè)ROI、INbreast數(shù)據(jù)庫(kù)中的410個(gè)全圖像、MIA數(shù)據(jù)庫(kù)中的322個(gè)全圖像和CBS-DDSM數(shù)據(jù)庫(kù)中的55 890個(gè)ROI進(jìn)行訓(xùn)練,結(jié)果顯示準(zhǔn)確度為93.75%。Rehman等[19]為了克服傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)只對(duì)特征圖像使用單通道處理的缺點(diǎn),基于計(jì)算機(jī)視覺(jué)算法進(jìn)行AD檢測(cè)及深度二維V-net64 CNN進(jìn)行AD分類(lèi)。分別對(duì)PINUM、CBIS-DDSM和DDSM數(shù)據(jù)庫(kù)中的3 462例、3 568例和5 500例的乳腺X線影像進(jìn)行評(píng)估,結(jié)果顯示模型準(zhǔn)確度分別為0.95、0.97和0.98。Lakshmanan等[20]提出使用邊緣結(jié)構(gòu)的幾何特性檢測(cè)乳腺AD;該方法使用各向同性SUSAN濾波器來(lái)確定包含AD的ROI,利用相位一致性計(jì)算這些區(qū)域的邊緣特征,采用反向傳播神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)對(duì)可疑區(qū)域進(jìn)行分類(lèi);該研究分別對(duì)MIAS、DDSM及Lakeshore醫(yī)院中的60例、100例及100例乳腺X線影像進(jìn)行測(cè)試,結(jié)果顯示敏感度分別為89%、89.8%和97.6%,特異度分別為90.9%、85%和96.7%。Du等[21]采用頂?shù)酌弊儞Q和指數(shù)變換對(duì)圖像進(jìn)行增強(qiáng),并利用非下采樣輪廓波變換來(lái)增加影像對(duì)比度并降低噪聲,其次采用改進(jìn)的脈沖耦合神經(jīng)網(wǎng)絡(luò)對(duì)AD進(jìn)行檢測(cè)。對(duì)DDSM中的2 500例乳腺X線影像進(jìn)行測(cè)試,結(jié)果顯示其特異度為98.73%,準(zhǔn)確度為93.16%,AUC值為0.93。
綜上所述,相比于傳統(tǒng)CAD、ML等AD檢測(cè)方法,基于DL方法通過(guò)模擬人腦的思維方式,對(duì)圖像進(jìn)行復(fù)雜的卷積操作,可以提取并學(xué)習(xí)到比傳統(tǒng)算法更深層次的特征。深度神經(jīng)網(wǎng)絡(luò)可以從輸入的原始像素中學(xué)習(xí)得到乳腺AD局部的紋理、形狀和邊緣等低層特征,結(jié)合各種濾波器組合的中間層特征,得到不斷抽象的高層語(yǔ)義特征,從而描述ROI的全局特征信息。這樣既降低人工設(shè)計(jì)特征的負(fù)擔(dān),又可以得到從原始輸入到高層語(yǔ)義的有效特征表達(dá),從而提升檢測(cè)效果。但通過(guò)增加網(wǎng)絡(luò)深度和復(fù)雜度來(lái)提高神經(jīng)網(wǎng)絡(luò)的非線性表達(dá)能力的同時(shí),也增加了對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度。目前已發(fā)表的相關(guān)文獻(xiàn)[17-19]表明,基于CNN的乳腺AD檢測(cè)方法是最為廣泛的DL目標(biāo)檢測(cè)方法,在保證檢測(cè)算法敏感性的同時(shí),又大幅度降低了假陽(yáng)性率,一定程度上可以為放射科醫(yī)生提供更準(zhǔn)確的參考意見(jiàn)。
基于CAD及AI技術(shù)的乳腺AD檢測(cè)可以分為圖像預(yù)處理、分割與病變檢測(cè)、特征提取、選擇、分類(lèi)5個(gè)步驟。由于圖像往往存在噪聲且缺乏銳度,故需要通過(guò)圖像增強(qiáng)和增加對(duì)比度進(jìn)行圖像預(yù)處理,如利用小波變換和Gabor變換等方式對(duì)圖像進(jìn)行增強(qiáng),以提升和改進(jìn)乳腺AD檢測(cè)的效果。為了減少周?chē)M織或背景對(duì)ROI檢測(cè)的干擾,大多研究者利用閾值法將ROI從背景或周?chē)M織中分離出來(lái),其中Otsu閾值分割算法是應(yīng)用最普遍的。圖像特征提取中使用較多的圖像特征,包括紋理特征、邊緣特征、形態(tài)學(xué)特征及幾何特征等,統(tǒng)計(jì)分析、頻率域分析、模型分析、形態(tài)學(xué)分析以及DL模型等方法得到了廣泛應(yīng)用,其中絕大多數(shù)的相關(guān)研究采用了Gabor過(guò)濾器和相圖分析。圖像分類(lèi)方法中使用最多的是SVM方法;另外,Softmax、貝葉斯分類(lèi)、線性判別分析、人工神經(jīng)網(wǎng)絡(luò)等分類(lèi)方法使用也比較頻繁。目前,應(yīng)用于乳腺圖像分析的DL模型主要包括CNN及其改進(jìn)模型。由于神經(jīng)網(wǎng)絡(luò)需要大量的數(shù)據(jù)進(jìn)行學(xué)習(xí),但充足且?guī)в凶⑨尩挠跋駱?biāo)記樣本通常難以收集,導(dǎo)致數(shù)據(jù)缺乏完整性。因此,采用遷移學(xué)習(xí)和數(shù)據(jù)增強(qiáng)方法可解決因標(biāo)記樣本過(guò)少導(dǎo)致過(guò)擬合問(wèn)題,同時(shí)可為樣本不足問(wèn)題提供有效的解決方案。
綜上所述,AI在乳腺X線影像的應(yīng)用比較廣泛,無(wú)論是基于ML的方法,還是基于DL的方法都有大量成果,這些方法能提高放射科醫(yī)生診斷的準(zhǔn)確性并有助于做出更好的決策。雖然全視野數(shù)字乳腺X線攝影(full-field digital mammography,FFDM)是臨床指南推薦的首選篩查方式,但該檢查方法的影像重疊較多,影響AD檢出的準(zhǔn)確性。數(shù)字乳腺斷層攝影(digital breast tomosynthesis,DBT)能消除乳腺組織重疊的影響,從而減少AD的漏診,因此可聯(lián)合使用DBT和FFDM來(lái)提高AD檢出率。一些研究[22-24]在DBT影像上使用CAD技術(shù)檢測(cè)AD,結(jié)果表明,相比FFDM,其檢出AD的準(zhǔn)確性更高,假陽(yáng)性更低,但仍需大樣本的DBT影像進(jìn)一步驗(yàn)證。另有一些研究者[25-26]提出應(yīng)用基于生成性對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)的圖像生成方法以提高模型性能。另外,Wan等[27]提出在AI支持系統(tǒng)的輔助下,可以在一定程度上提高低年資放射科醫(yī)師對(duì)惡性AD的檢出率。
目前業(yè)界普遍認(rèn)為,設(shè)計(jì)合理目標(biāo)函數(shù)優(yōu)化方法,減少醫(yī)學(xué)圖像數(shù)據(jù)人工標(biāo)注的成本是未來(lái)研究重點(diǎn)之一。每種算法都有其局限性,目前的單一分類(lèi)器都不能完全解決所有的問(wèn)題或者達(dá)到應(yīng)用系統(tǒng)的要求,采用多算法融合可以將不同算法優(yōu)缺點(diǎn)互補(bǔ),從而得到更高效、更具魯棒性的CAD系統(tǒng),這也是將來(lái)研究主要關(guān)注點(diǎn)之一。
總之,基于ML和DL的AI技術(shù)特征表達(dá)具有強(qiáng)大的數(shù)據(jù)描述能力,其在識(shí)別精度和模型泛化能力方面比傳統(tǒng)CAD方法更勝一籌,通過(guò)不斷改進(jìn)方法、提升醫(yī)學(xué)圖像采集技術(shù)和增加標(biāo)記樣本集數(shù)量,可進(jìn)一步完善基于乳腺X線影像的乳腺AD檢測(cè)方法。