侯 銀 張盼盼 張青陵
乳腺癌居女性惡性腫瘤發(fā)病率首位且呈逐年上升趨勢[1],早期準(zhǔn)確診斷乳腺癌對于臨床制定治療決策至關(guān)重要[2]。超聲是我國乳腺癌篩查的主要方法,乳腺影像報告和數(shù)據(jù)系統(tǒng)(BI-RADS)的普及應(yīng)用使得超聲報告逐漸規(guī)范和統(tǒng)一。但BI-RADS 采用人為規(guī)定的特征描述來分類圖像,缺少量化參數(shù),導(dǎo)致診斷高度依賴于超聲醫(yī)師的經(jīng)驗積累和培訓(xùn)經(jīng)歷,不同水平或年資的操作者對圖像的解讀具有主觀性,不利于臨床精準(zhǔn)決策[3-4],因而如何實現(xiàn)對乳腺腫塊超聲圖像的定量評估和精準(zhǔn)量化預(yù)測是臨床面臨的重要問題。在臨床實際工作中,不同品牌、型號或等級的超聲儀器在圖像后處理方法不同,乳腺腫塊圖像的分辨率及成像質(zhì)量也有所區(qū)別,而乳腺腫塊超聲圖像的形態(tài)學(xué)特征受儀器型號和圖像參數(shù)設(shè)置影響較小,且與病理組織學(xué)特征關(guān)系密切[5-6]。本研究旨在應(yīng)用機(jī)器學(xué)習(xí)技術(shù)構(gòu)建基于超聲圖像形態(tài)學(xué)定量特征的乳腺腫塊惡性風(fēng)險列線圖預(yù)測模型,并以互聯(lián)網(wǎng)在線應(yīng)用程序的方式呈現(xiàn),增強(qiáng)其實用性。
選取 2019 年 1 月至 2020 年 10 月我院經(jīng)病理確診的乳腺腫塊患者1046 例,均為女性,按7∶3 比例隨機(jī)分為模型訓(xùn)練集和外部驗證集,其中訓(xùn)練集732例,患者年齡18~79 歲,良性302 例,中位年齡37(26,45)歲;惡性 430 例,中位年齡 53(42,65)歲。驗證集 314 例,患者年齡19~71 歲,良性115 例,中位年齡41(28,47)歲;惡性199例,中位年齡52(42,61)歲。訓(xùn)練集與驗證集中惡性腫塊占比比較差異無統(tǒng)計學(xué)意義。將訓(xùn)練集和驗證集按年齡段分為<40 歲、40~50 歲、≥50~60 歲和≥60 歲 4 組,訓(xùn)練集中分別為 159、265、201、107 例,驗證集中分別為56、110、98、50例,兩數(shù)據(jù)集各年齡段例數(shù)的分布比較差異無統(tǒng)計學(xué)意義。所有患者均在超聲檢查之后行超聲引導(dǎo)下細(xì)針穿刺活檢術(shù)或手術(shù)切除,且取得明確的病理診斷結(jié)果。排除標(biāo)準(zhǔn):①病理結(jié)果不確定;②臨床資料缺失;③有放療或化療史;④圖像記錄為寬景或全景成像;⑤單幅B 型超聲圖像不能完整顯示腫塊邊界。本研究經(jīng)我院醫(yī)學(xué)倫理委員會批準(zhǔn),所有患者均簽署知情同意書。
1.圖像采集:使用西門子Acuson S 3000 彩色多普勒超聲診斷儀,線陣探頭,頻率4.0~12.0 MHz。患者取平臥位,充分暴露乳房和腋窩,由兩名超聲醫(yī)師調(diào)節(jié)優(yōu)化圖像質(zhì)量后,采集病灶最大徑線切面圖像并以JPEG格式存儲。
2.圖像形態(tài)學(xué)特征定量分析:對于多發(fā)性乳腺腫塊的病例,僅保留有病理結(jié)果的腫塊圖像作為目標(biāo)病灶用于測量分析。由同一超聲醫(yī)師使用ImageJ 分析軟件(美國國立衛(wèi)生研究院開發(fā),下載地址:https://imagej.nih.gov,版本號2.0.0-rc-69)描記腫塊輪廓,自動輸出形態(tài)特征定量數(shù)據(jù)(圖1A),分別為:①長短徑比值(AR),表示沿著腫塊輪廓擬合一個最近似的橢圓形,計算橢圓形長徑與短徑比值(圖1B);②圓潤度(C),是兼顧腫塊形狀和邊緣光整程度的度量,取值范圍0~1;腫塊形狀越接近正圓形、同時邊緣越光整,C值越接近1(圖1C);③凹凸度(S),表示腫塊邊緣的凹凸程度,取值范圍0~1,邊緣越光整,S 值越接近1(圖1D);④費雷特角度修正(MFA),表示腫塊輪廓線最遠(yuǎn)兩點之間的連線與圖像水平軸之間的夾角,取值范圍0°~90°,用以度量腫塊的方位,當(dāng)MFA 為0°時,表示腫塊長軸在圖像上呈水平位,MFA 為90°時表示呈垂直位(圖1E)。
圖1 乳腺腫塊超聲圖像形態(tài)學(xué)定量特征參數(shù)測量示意圖
3.重復(fù)性檢測:隨機(jī)選取60 例患者,由該醫(yī)師和另一超聲醫(yī)師于2周后再次對其圖像形態(tài)特征定量分析,進(jìn)行觀察者間及觀察者內(nèi)重復(fù)性檢驗。
4.質(zhì)量控制:兩名超聲檢查醫(yī)師分別具有7 年和9 年乳腺超聲檢查經(jīng)驗。兩名進(jìn)行圖像描記的超聲醫(yī)師分別具有4 年和3 年乳腺超聲規(guī)范化培訓(xùn)和從業(yè)經(jīng)歷,并接受統(tǒng)一的ImageJ 分析軟件操作培訓(xùn)。描記圖像前,將良、惡性乳腺腫塊全部圖像放置在同一文件夾,使用R 語言軟件添加隨機(jī)索引編號并重新混合排列文件次序;兩名醫(yī)師均在雙盲情況下完成圖像描記。
5.病理診斷:病理組織均來自超聲引導(dǎo)下細(xì)針穿刺活檢標(biāo)本或手術(shù)標(biāo)本,通過標(biāo)準(zhǔn)診斷程序進(jìn)行組織學(xué)處理,由高年資病理醫(yī)師完成病理報告。
應(yīng)用R-Studio(R4.0.2)軟件,計數(shù)資料比較行Pearsonχ2檢驗。根據(jù)Shapiro-Wilk 正態(tài)性檢驗結(jié)果,計量資料以M(QR)表示,單因素分析行Wilcoxon 秩和檢驗。以病理結(jié)果為標(biāo)準(zhǔn),采用機(jī)器學(xué)習(xí)廣義線性模型(generalized linear model,GLM)分析篩選診斷乳腺惡性腫塊的定量特征,構(gòu)建多元回歸預(yù)測模型并繪制列線圖(Nomogram)[7]。采用組內(nèi)相關(guān)系數(shù)(ICC)評估觀察者間及觀察者內(nèi)重復(fù)性,ICC>0.75 表示重復(fù)性較好。繪制受試者工作特征(ROC)曲線評價模型的區(qū)分度,曲線下面積(AUC)比較行Delong 檢驗;繪制校準(zhǔn)曲線評價模型預(yù)測惡性風(fēng)險的校準(zhǔn)度。P<0.05 為差異有統(tǒng)計學(xué)意義。
1.單因素分析顯示,訓(xùn)練集和驗證集中乳腺惡性腫塊 AR、C 和 S 均低于良性,MFA 高于良性,差異均有統(tǒng)計學(xué)意義(均P<0.05);且患者年齡比較差異均有統(tǒng)計學(xué)意義(均P<0.05)。見圖2和表1,2。
圖2 訓(xùn)練集中良、惡性乳腺腫塊聲像圖
表1 單因素分析訓(xùn)練集中良、惡性乳腺腫塊超聲圖像形態(tài)學(xué)定量特征參數(shù)比較[M(QR)]
表2 單因素分析驗證集中良、惡性乳腺腫塊超聲圖像形態(tài)學(xué)定量特征參數(shù)比較[M(QR)]
2.將單因素分析差異有統(tǒng)計學(xué)意義的變量,即AR、C、MFA、S和患者年齡數(shù)據(jù)全部納入機(jī)器學(xué)習(xí)廣義線性模型GLM算法,采用逐步回歸法進(jìn)行多因素分析,剔除無效變量,結(jié)果顯示AR、C和患者年齡是預(yù)測乳腺腫塊惡性風(fēng)險的獨立危險因素;隨著AR、C下降及患者年齡增大,乳腺腫塊惡性風(fēng)險呈上升趨勢(均P<0.05)。見表3。
表3 機(jī)器學(xué)習(xí)GLM多因素分析結(jié)果
3.各乳腺腫塊超聲圖像形態(tài)學(xué)定量特征參數(shù)在觀察者內(nèi)和觀察者間ICC均>0.75,具有較好的可重復(fù)性。見表4。
表4 乳腺腫塊超聲圖像形態(tài)學(xué)定量特征參數(shù)的重復(fù)性檢驗
1.根據(jù)機(jī)器學(xué)習(xí)GLM 算法分析篩選出的獨立危險因素AR、C 和患者年齡構(gòu)建列線圖模型,模型中AR、C 和患者年齡均被賦予相應(yīng)的分值,計算三者總得分即可在列線圖上標(biāo)記獲得對應(yīng)的惡性風(fēng)險概率預(yù)測值。見圖3。
圖3 基于超聲圖像形態(tài)學(xué)定量特征的乳腺腫塊惡性風(fēng)險預(yù)測列線圖
2.為進(jìn)一步提高該列線圖模型的可操作性,設(shè)計制作并發(fā)布了一款互聯(lián)網(wǎng)在線免費應(yīng)用程序(網(wǎng)址:https://qingling.shinyapps.io/BreastSonoNomogram/。注 :該程序當(dāng)前僅用于研究目的)。研究人員通過登錄該網(wǎng)址,按照本研究介紹的方法提取并輸入相關(guān)特征數(shù)據(jù),即可獲得對應(yīng)乳腺腫塊的惡性風(fēng)險概率和95%可信區(qū)間,見圖4。如圖中藍(lán)色標(biāo)記所示某病例,輸入乳腺腫塊AR 為2.494,C為0.92,模型預(yù)測顯示≥50~60歲組惡性風(fēng)險概率為96.8%,95%可信區(qū)間為93.2%~98.5%。
圖4 互聯(lián)網(wǎng)在線應(yīng)用程序顯示界面。左側(cè)為數(shù)據(jù)輸入?yún)^(qū);右側(cè)為可視化顯示乳腺腫塊惡性風(fēng)險概率及95%可信區(qū)間
1.ROC 曲線分析顯示,訓(xùn)練集內(nèi)部驗證的AUC 為0.931,敏感性為88.1%,特異性為85.4%;驗證集外部驗證的AUC 為0.901,敏感性為84.2%,特異性為85.8%;二者AUC比較差異無統(tǒng)計學(xué)意義(P=0.121)。見圖5A。
圖5 列線圖預(yù)測模型效能分析
2.校準(zhǔn)曲線分析顯示,訓(xùn)練集和驗證集的校準(zhǔn)曲線均與圖像對角線方向基本一致,且與對角線重合度較好,尤其當(dāng)實際惡性風(fēng)險值>50%時,模型預(yù)測值未出現(xiàn)明顯高估或低估,顯示預(yù)測模型的校準(zhǔn)度良好,其預(yù)測惡性風(fēng)險概率與實際惡性風(fēng)險無明顯偏離。見圖5B。
BI-RADS 采用特征術(shù)語對乳腺腫塊超聲圖像進(jìn)行描述[8],這種描述性定性方法高度依賴于超聲診斷醫(yī)師的視覺感受、經(jīng)驗積累和規(guī)范化培訓(xùn)經(jīng)歷,不同水平或年資的超聲醫(yī)師對圖像的解讀具有主觀性。多項研究[3-4,9]顯示,超聲 BI-RADS 在觀察者間Kappa值為0.28~0.83,因此亟需構(gòu)建一種更加客觀的圖像量化分析方法。既往研究[10-12]多綜合乳腺腫塊的回聲和形態(tài)學(xué)特點進(jìn)行分析,但在臨床實際工作中,不同品牌、型號或等級的超聲儀器在圖像后處理方法上有所不同,乳腺腫塊圖像的分辨率及成像質(zhì)量也有所區(qū)別。而乳腺腫塊超聲圖像的形態(tài)學(xué)特征則受儀器型號和圖像參數(shù)設(shè)置影響較小,可以基本反映乳腺病灶的大體病理形態(tài)。本研究采用ImageJ 分析軟件對乳腺腫塊的超聲形態(tài)學(xué)特征進(jìn)行定量分析,定量參數(shù)包括AR、C、MFA 和S,分別用精確數(shù)值度量了腫塊圖像的長短徑比值、圓潤度、生長方向和邊緣光整度4項形態(tài)學(xué)特征,且測量結(jié)果具有良好的可重復(fù)性(ICC均>0.75)。既往研究[5]表明,惡性腫塊的形態(tài)學(xué)特征包括不規(guī)則形態(tài)、浸潤性縱向生長及邊緣呈針狀、微葉狀或成角。本研究中,良、惡性乳腺腫塊各項形態(tài)學(xué)特征定量參數(shù)比較差異均有統(tǒng)計學(xué)意義(均P<0.05),與上述研究結(jié)果一致,表明形態(tài)學(xué)定量特征參數(shù)能夠?qū)δ[塊的形狀、邊緣及生長方向進(jìn)行更為精準(zhǔn)量化,從而更加準(zhǔn)確地反映腫塊形態(tài)的不規(guī)則程度和邊緣的不規(guī)整程度。
對于乳腺腫塊患者個體而言,治療決策具有異質(zhì)性,受多種因素的影響,因此建立一個針對個體的、精準(zhǔn)的癌癥預(yù)測模型具有重要的臨床價值。而隨著數(shù)據(jù)采集和分析技術(shù)的日益提高,臨床預(yù)測模型作為風(fēng)險與獲益評估的量化工具,采用更大量、更豐富的數(shù)據(jù)和更加復(fù)雜的機(jī)器學(xué)習(xí)模型算法,以更精準(zhǔn)的結(jié)果服務(wù)于醫(yī)師、患者及醫(yī)療決策者,因此其應(yīng)用也越來越普遍。本研究通過機(jī)器學(xué)習(xí)GLM 模型算法篩選出乳腺惡性腫塊形態(tài)學(xué)定量特征參數(shù)中的獨立危險因素即AR、C 和患者年齡,構(gòu)建列線圖風(fēng)險預(yù)測模型,并分別進(jìn)行內(nèi)部驗證和外部驗證,達(dá)到了良好的良、惡性乳腺腫塊區(qū)分度和校準(zhǔn)度。新近一些關(guān)于乳腺癌超聲預(yù)測模型的研究[13-15]中,均使用了BI-RADS 定性描述作為構(gòu)建模型的預(yù)測因子,分別對腫塊的良惡性及進(jìn)一步降低4A 類腫塊風(fēng)險做出了預(yù)測,各模型的AUC 為0.747~0.955。與上述研究構(gòu)建的模型相比,本研究使用更客觀的定量參數(shù)作為模型預(yù)測變量,應(yīng)用機(jī)器學(xué)習(xí)技術(shù)構(gòu)建模型,同時為了進(jìn)一步提升模型的實用性,本研究還創(chuàng)新性地以互聯(lián)網(wǎng)在線應(yīng)用程序的方式呈現(xiàn)模型,使得預(yù)測過程和結(jié)果可視化,模型更具有可操作性,方便對患者進(jìn)行評估。
本研究的局限性:①為回顧性研究,尚缺乏前瞻性、多中心數(shù)據(jù)的進(jìn)一步驗證;②入組對象排除了尺寸較大導(dǎo)致單幅B型超聲圖像不能完整顯示輪廓的腫塊,可能產(chǎn)生偏倚。本研究所得臨床預(yù)測模型及其應(yīng)用價值有待前瞻性及更大樣本數(shù)據(jù)的評估和驗證。
綜上所述,本研究對乳腺腫塊形態(tài)學(xué)特征實現(xiàn)了定量表達(dá),且測量結(jié)果具有良好的可重復(fù)性,其中AR、C 和患者年齡是預(yù)測乳腺腫塊惡性風(fēng)險的獨立危險因素。應(yīng)用機(jī)器學(xué)習(xí)技術(shù)構(gòu)建的乳腺腫塊惡性風(fēng)險列線圖預(yù)測模型具有較高的診斷效能,而以互聯(lián)網(wǎng)在線應(yīng)用程序方式呈現(xiàn)模型使其更加具有可操作性和實用性,將有助于對患者進(jìn)行個體化預(yù)測和治療決策。