鎖彤佳,呂子璇,尹思宇,劉 偉
(魯東大學(xué)數(shù)學(xué)與統(tǒng)計科學(xué)學(xué)院,山東 煙臺 264011)
2021年3月11日,十三屆全國人大四次會議提出,要全面推進健康中國建設(shè),改革疾病預(yù)防控制體系。2020年統(tǒng)計數(shù)據(jù)顯示,乳腺癌取代肺癌成為全球發(fā)病率第一的癌癥,而提高乳腺癌診斷的準(zhǔn)確率與效率是疾病預(yù)防控制體系中重要的一環(huán),也是堅持健康中國戰(zhàn)略中“預(yù)防為主”方針的重要體現(xiàn)。
隨著乳腺癌病發(fā)率升高,乳腺腫瘤的影像學(xué)表現(xiàn)愈發(fā)多元化,目前對于乳腺診斷應(yīng)用最廣的普通乳腺X線檢查技術(shù)在長期應(yīng)用中暴露出了一定的局限性,對此,美國FDA在2011年提出了具有診斷時間短、價格低等優(yōu)點的對比增強乳腺X線成像(CESM)技術(shù)。XING等[1]研究表明,CESM對乳腺癌診斷的準(zhǔn)確性、特異性較高,有非常大的臨床應(yīng)用價值;而姜奕歆等[2]認為CESM檢查還存在缺少統(tǒng)一診斷標(biāo)準(zhǔn)和成像標(biāo)準(zhǔn)的問題。
得益于人工智能的迅猛發(fā)展,深度學(xué)習(xí)視角下的普通乳腺X線檢查和乳腺磁共振成像等檢查技術(shù)近年來得到了廣泛應(yīng)用。TOURASSI等[3]對普通乳腺X線技術(shù)構(gòu)建了一種約束滿足神經(jīng)網(wǎng)絡(luò)的方法用于乳腺癌診斷;SINGH等[4]通過將BP神經(jīng)網(wǎng)絡(luò)診斷反饋與放射科醫(yī)師診斷反饋相整合,顯著提高了在超聲檢查中乳腺病變組織診斷的臨床效率。
病灶在影像學(xué)上的強化特點是診斷乳腺癌的重要參考指標(biāo),但是不同檢查技術(shù)下,病灶強化密度的統(tǒng)計學(xué)表現(xiàn)有所差異。蔡麗珊等[5]通過t檢驗對乳腺良惡性腫塊超聲造影結(jié)果分析得出“良惡性病變都可表現(xiàn)為均勻強化或不均勻強化,其強化方式差異并無統(tǒng)計學(xué)意義”的結(jié)論;LIU等[6]采用CEUS聯(lián)合微血管成像技術(shù)診斷乳腺病變,χ2檢驗結(jié)果顯示,病灶呈均勻和不均勻強化密度模式均未提示有臨床價值;而郜瑩瑩等[7]分析NME乳腺癌與良性病變的MRI特征并進行統(tǒng)計學(xué)比較發(fā)現(xiàn),內(nèi)部強化密度差異具有統(tǒng)計學(xué)意義。
因此,現(xiàn)階段對于CESM檢查下強化密度及乳腺癌診斷的研究還有以下問題有待深入考慮。首先,國內(nèi)外學(xué)者對于CESM檢查有很多良莠不齊的評價,因此該技術(shù)在國內(nèi)臨床上得到廣泛使用的愿景還需建立診斷精確率更高的模型來支撐;其次,在現(xiàn)代醫(yī)學(xué)領(lǐng)域,對CESM檢查相關(guān)指標(biāo)的分析研究大多使用χ2檢驗的方法,如盛蕾等[8]采用χ2檢驗得到CESM檢查對致密型乳腺乳腺癌的診斷具有較大價值的結(jié)論,而結(jié)合BP神經(jīng)網(wǎng)絡(luò)模型對CESM檢查開展的研究較少;另外,由于強化密度在不同檢查技術(shù)下的顯著性表現(xiàn)存在差異,因此CESM檢查下強化密度對診斷結(jié)果的影響效果還需進一步驗證。
本文將在考慮CESM上病灶強化程度、強化方式、強化密度三個指標(biāo)的前提下,重點關(guān)注強化密度對明確乳腺腫瘤性質(zhì)的影響,并在醫(yī)學(xué)領(lǐng)域常用的χ2檢驗方法基礎(chǔ)上,發(fā)展BP神經(jīng)網(wǎng)絡(luò)方法來驗證CESM成像技術(shù)在臨床上廣泛應(yīng)用的可能性。通過控制強化密度屬性,訓(xùn)練得到兩個基于一定診斷精確率的神經(jīng)網(wǎng)絡(luò)模型來評估CESM檢查技術(shù)對于乳腺癌檢出的可靠性,找出最佳模型的診斷參考值,為放射科醫(yī)師提供一個神經(jīng)網(wǎng)絡(luò)輔助診斷乳腺癌的模型,致力于減少臨床診斷中誤診、漏診等情況的出現(xiàn),減少女性群體每年進行乳腺檢查的經(jīng)濟壓力以及時間精力。
病灶的強化特點反映了腫瘤或病變組織的血液供應(yīng)情況。病灶的強化程度按照腫瘤或病變組織的血供豐富程度從小到大依次分為無強化、輕度強化以及中、重度強化;病灶的強化方式按照時間密度曲線分為增長型、平臺型和流出型;病灶的強化密度按照其對比劑填充是否均一分為均勻強化與不均勻強化。
據(jù)臨床經(jīng)驗可知,惡性腫瘤的強化特點多表現(xiàn)為中度或重度強化、平臺型或流出型強化、不均勻(包括環(huán)型)強化。在此,基于CESM技術(shù)的成像特點,選取強化程度、強化方式、強化密度三種重要的影像學(xué)表現(xiàn)作為驗證CESM檢出致密型乳腺癌精確度的主要屬性信息。
圖1 數(shù)據(jù)獲取流程
采用2016年7月至2020年7月在山東省泰安市中心醫(yī)院就診的241例31~60歲的女性乳腺腫瘤患者資料進行分析,所有患者均接受CESM檢查,簽署CESM檢查知情同意書,并以隨機編號的形式匿名參與研究。所有患者的CESM影像資料均由兩位具有豐富經(jīng)驗的乳腺病變診斷醫(yī)師獨立地進行重復(fù)判讀,判讀不一致的影像資料由兩位協(xié)商解決。將由手術(shù)或穿刺得到的判讀結(jié)果離散化,并將其作為金標(biāo)準(zhǔn)形成本文數(shù)據(jù)的標(biāo)簽信息;將由CESM技術(shù)得到的腫瘤判讀結(jié)果離散化,形成本文數(shù)據(jù)的屬性信息。
本文共收集到241例患者資料,其中43位患者在案例收集期間存在2~3次復(fù)查行為;9位患者體內(nèi)發(fā)現(xiàn)多處疑似腫瘤;由于圖像不清晰、體位不標(biāo)準(zhǔn)等原因,17位患者資料存在不同程度屬性信息不全的情況。
為保證數(shù)據(jù)的完整性,并保證統(tǒng)計方法有盡量多的數(shù)據(jù)作為支撐,本文將43位多次復(fù)查患者的不同復(fù)查情況分開為不同的案例形式呈現(xiàn),該43位患者最終可以提供94條數(shù)據(jù)資料;將9位多處疑似腫瘤發(fā)現(xiàn)患者的不同部位腫瘤同樣分開為不同的案例形式呈現(xiàn),該9位患者最終可以提供22條數(shù)據(jù)資料;將17位存在缺失數(shù)據(jù)的患者資料請有經(jīng)驗的專業(yè)影像醫(yī)師據(jù)其他診斷指標(biāo)進行補全處理。
經(jīng)數(shù)據(jù)預(yù)處理之后,共得到357條不同乳腺病變的數(shù)據(jù)資料,部分原始數(shù)據(jù)資料如表1所示。
表1 部分數(shù)據(jù)資料
對本文選取的屬性指標(biāo)進行交叉列聯(lián)分析,以此來驗證本文選取屬性指標(biāo)的科學(xué)性和可行性。列聯(lián)分析在醫(yī)學(xué)領(lǐng)域常被用于研究兩個或多個屬性之間是否存在明顯相關(guān)性[9],通常以χ2值作為相關(guān)性強弱的評價指標(biāo),計算公式為:
《規(guī)劃》對區(qū)域內(nèi)堆土區(qū)和沖填區(qū)進行經(jīng)濟林的新造林和現(xiàn)有林木的更新改造。經(jīng)濟林建設(shè)盡可能配置高效益苗木、速生豐產(chǎn)林等,提高農(nóng)民參與生態(tài)建設(shè)的積極性。樹種選擇薄殼山核桃、亳州核桃、櫻桃、梨、花椒等名優(yōu)鄉(xiāng)土經(jīng)濟林品種,株行距為4 m×5 m。經(jīng)濟林建設(shè)能增強特色經(jīng)濟林市場競爭力,調(diào)整農(nóng)村產(chǎn)業(yè)結(jié)構(gòu),有效增加農(nóng)民收入,促進當(dāng)?shù)剞r(nóng)業(yè)和農(nóng)村經(jīng)濟的快速發(fā)展,取得顯著的生態(tài)、經(jīng)濟、社會效益。
(1)
(2)
其中:r代表行,c代表列,fij為第i行第j列案例情況的實際頻數(shù),eij為第i行第j列案例情況的期望頻數(shù),χ2統(tǒng)計量的自由度為(r-1)(c-1)。
以P值作為判斷三種屬性指標(biāo)的差異是否有統(tǒng)計學(xué)意義的標(biāo)準(zhǔn),P<0.05說明三種屬性指標(biāo)的差異在腫瘤性質(zhì)的表現(xiàn)上有統(tǒng)計學(xué)意義;以χ2值作為判斷三種屬性與腫瘤性質(zhì)相關(guān)程度的排序標(biāo)準(zhǔn),χ2值越大,被用來診斷腫瘤的屬性越可靠。χ2檢驗結(jié)果見表2。
表2 乳腺良性腫瘤與惡性腫瘤強化特點比較
由表2中χ2檢驗結(jié)果可知,強化程度(χ2=228.643,P=0.000)和強化方式(χ2=196.628,P=0.000)的χ2值明顯大于強化密度(χ2=78.676,P=0.000),二者用于腫瘤判斷的可靠性較強;強化程度、強化方式和強化密度的不同特征在良、惡性腫瘤的影像學(xué)表現(xiàn)上均具有統(tǒng)計學(xué)意義(P<0.05),有理由認為以強化程度、強化方式和強化密度三個影像表現(xiàn)指標(biāo)作為輸入屬性,可以構(gòu)建出一個準(zhǔn)確率較高的BP神經(jīng)網(wǎng)絡(luò)模型來進行乳腺癌的輔助篩查工作。
本文采用BP神經(jīng)網(wǎng)絡(luò)的誤差反向傳播訓(xùn)練機制進行學(xué)習(xí)訓(xùn)練,正向傳播強化特點的工作信號,反向傳播產(chǎn)生的誤差信號。網(wǎng)絡(luò)學(xué)習(xí)是不斷更新權(quán)值和偏置值,使凸型誤差函數(shù)值達到最小的過程。誤差函數(shù)達到最小值時,可以得到與標(biāo)簽狀態(tài)相比滿足一定精確率的結(jié)果,最終訓(xùn)練得到的BP神經(jīng)網(wǎng)絡(luò)模型可適用于對由CESM技術(shù)得到的乳腺腫瘤強化特點屬性數(shù)據(jù)的診斷,以含一層隱含層的神經(jīng)網(wǎng)絡(luò)為例,BP神經(jīng)網(wǎng)絡(luò)循環(huán)更新的傳播過程見圖2。
圖2 含一層隱含層的BP神經(jīng)網(wǎng)絡(luò)傳播方式
2.3.1 兩網(wǎng)絡(luò)對比模式 將向后剔除法與神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程相結(jié)合,根據(jù)χ2檢驗結(jié)果,使用Python3.6軟件,基于Tensorflow深度學(xué)習(xí)框架構(gòu)建兩個不同輸入信號的BP神經(jīng)網(wǎng)絡(luò)。考慮到交叉列聯(lián)分析結(jié)果顯示,強化密度較其余二者的χ2值小很多,且CESM技術(shù)下的實際診斷過程中,均勻強化在良惡性腫瘤中的分布較為分散,為驗證強化密度是否會在BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中存在干擾作用,本研究構(gòu)建三個輸入信號的網(wǎng)絡(luò)后,剔除強化密度,構(gòu)建兩個輸入信號的網(wǎng)絡(luò),最終對比選擇最佳網(wǎng)絡(luò)。過程如圖3所示:
圖3 兩網(wǎng)絡(luò)建立過程
2.3.2 CESM技術(shù)乳腺癌診斷的網(wǎng)絡(luò)訓(xùn)練 本研究采取打亂樣本順序進行交叉驗證的方法,將案例數(shù)據(jù)按照4∶1的比例劃分為訓(xùn)練集和測試集,從而選取驗證過程中最佳的超參數(shù)和數(shù)據(jù)形式。為提高模型的可靠性,根據(jù)原始數(shù)據(jù)的類型,本文選擇采用獨熱編碼擴大輸入節(jié)點數(shù)量的形式來表示輸入信號以及標(biāo)簽值;采用隨機生成的正態(tài)隨機數(shù)據(jù)作為權(quán)值和偏置值的初始值;采用重復(fù)實驗方法確定能使樣本誤差達到預(yù)設(shè)精度的隱藏層以及隱藏層神經(jīng)元的數(shù)目。
替換傳統(tǒng)的隱藏層激活函數(shù)。傳統(tǒng)的BP算法通常以Sigmoid函數(shù)作為隱藏層的激活函數(shù),但是隨著神經(jīng)元個數(shù)的增加,函數(shù)值的變化往往會受到缺失梯度的影響,這將不利于深層神經(jīng)網(wǎng)絡(luò)的反饋傳輸。為了得到更好的精確率以及更小的損失函數(shù)值,本文在隱含層使用ReLU函數(shù)作為σ1激活函數(shù),以x代表輸入信號,ReLU函數(shù)形式如下:
(3)
根據(jù)屬性信息的數(shù)值特征,需要利用Sigmoid函數(shù)將多層感知器最后的結(jié)果映射到(0,1)之間,得到概率值。因此,輸出層使用Sigmoid函數(shù)作為σ2激活函數(shù),以x代表輸入信號,Sigmoid函數(shù)形式如下:
(4)
以第一條案例在三個輸入信號神經(jīng)網(wǎng)絡(luò)模型下的訓(xùn)練為例,以向量為單位,其過程及結(jié)構(gòu)見圖4。
x(a[0])為輸入信號向量,為施加給第i層第j個節(jié)點線性變換后的向量,為對第i層第j個節(jié)點施加激活函數(shù)后的輸出信號向量,為由第i層的第j個節(jié)點向下一層的第k個節(jié)點輸入的權(quán)值向量,為第i層第j個節(jié)點對應(yīng)的偏置值向量,為損失函數(shù)。
本研究將惡性乳腺腫瘤和良性乳腺腫瘤分別作為陽性和陰性,選取模型分類的精確度(ACC)、敏感度(TPR)以及特異度(TNR)作為評價指標(biāo)[10],分別描述兩個分類網(wǎng)絡(luò)的準(zhǔn)確率、真陽性率、真陰性率,以選取最佳網(wǎng)絡(luò),各評價指標(biāo)公式為
(6)
(7)
(8)
式中,TP代表實際為陽性,預(yù)測為陽性的案例數(shù)量;FP代表實際為陰性,預(yù)測為陽性的案例數(shù)量;FN代表實際為陽性,預(yù)測為陰性的案例數(shù)量;TN代表實際為陰性,預(yù)測為陰性的案例數(shù)量。
本研究借助ROC曲線選擇出最佳網(wǎng)絡(luò)的診斷參考值。ROC曲線下方面積越大,網(wǎng)絡(luò)的識別能力越強,由此來選擇最佳網(wǎng)絡(luò);最佳網(wǎng)絡(luò)ROC曲線以(1-特異度)作為橫坐標(biāo),以敏感度作為縱坐標(biāo),最靠近左上角的點被稱為最佳臨界值點,其敏感度和特異度之和最大,將該點坐標(biāo)值作為診斷參考值。
兩個網(wǎng)絡(luò)的訓(xùn)練過程見圖5,隨著損失函數(shù)值的減小,兩個模型的精度都在逐漸提高,最終均可到達90%以上的精度范圍。因此,將CESM技術(shù)的影像表現(xiàn)與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,對乳腺腫瘤性質(zhì)的判斷可以滿足較高精度,我們有理由認為,CESM檢查對乳腺癌的診斷具有較大的可靠性,其與神經(jīng)網(wǎng)絡(luò)相結(jié)合,可以為影像醫(yī)師提供良好的診斷參考。
圖5 模型訓(xùn)練過程
兩個網(wǎng)絡(luò)的訓(xùn)練結(jié)果對比見表3,其中Train-acc代表訓(xùn)練集精度,Test-acc代表測試集精度。據(jù)表4可知,對于訓(xùn)練集,未剔除強化密度診斷網(wǎng)絡(luò)的精確率較剔除強化密度診斷網(wǎng)絡(luò)的精確率大2.1個百分點,未剔除強化密度診斷網(wǎng)絡(luò)的敏感度較剔除強化密度診斷網(wǎng)絡(luò)的敏感度大2.65個百分點,二者特異度未見差異。因此,引入強化密度屬性是通過影響敏感度來提高網(wǎng)絡(luò)精度的,即強化密度屬性的引入可以減少乳腺癌漏診情況的出現(xiàn),其對于影像醫(yī)師的診斷來說是一項不可忽略的參考指標(biāo)。
表3 神經(jīng)網(wǎng)絡(luò)模型精確度、敏感度、特異度比較
兩個網(wǎng)絡(luò)的ROC曲線如圖6,由圖可知,兩個模型ROC曲線的下方面積均較大,二者均可以對CESM的病灶進行較好地診斷,但是相比而言,引入三個輸入信號的網(wǎng)絡(luò)為最佳網(wǎng)絡(luò)模型,最佳臨界值也出現(xiàn)在該模型中。診斷參考值出現(xiàn)在其敏感度為0.978、特異度為0.949時,在該點靈敏度最高,誤判率最低,可達到整體最優(yōu)狀態(tài)。
圖6 ROC曲線
由于本研究中的病例資料有限,案例之間也具有較大的偶然相似性,CESM技術(shù)是否能夠得以廣泛應(yīng)用,仍需更大規(guī)模的案例資料來進行研究。但本文的初步研究結(jié)果表明:
CESM是一種可靠的技術(shù),對乳腺腫瘤的檢出精度較高,采用三個輸入信號的BP神經(jīng)網(wǎng)絡(luò)對CESM上病灶的強化特點進行學(xué)習(xí)訓(xùn)練,測試集可以達到95.77%的判斷準(zhǔn)確率,因此,CESM檢查有望成為平價、快捷的MRI替代檢查技術(shù),有必要大力支持其在臨床中的廣泛應(yīng)用;將CESM技術(shù)的影像表現(xiàn)與BP神經(jīng)網(wǎng)絡(luò)模型相結(jié)合,可以為醫(yī)學(xué)影像醫(yī)師進行乳腺癌篩查診斷提供有效的輔助決策反饋,提高早期乳腺癌的檢出率,推動“健康中國”建設(shè)中疾病預(yù)防控制系統(tǒng)的擴充發(fā)展。
經(jīng)過對神經(jīng)網(wǎng)絡(luò)輸入信號集的創(chuàng)新選擇,可對比驗證強化密度在CESM上對乳腺腫瘤性質(zhì)診斷過程中的重要作用。雖然強化密度交叉列聯(lián)分析的χ2值較強化程度和強化方式小,但是將強化密度納入輸入信號集可通過影響模型敏感度來提高診斷精度,這說明CESM上病灶的強化密度對乳腺癌的檢出判斷更加嚴(yán)格,可以減少漏診乳腺癌情況的出現(xiàn)。因此,影像醫(yī)師在臨床診斷時,不應(yīng)忽略強化密度的表現(xiàn)特征,應(yīng)將其納入?yún)⒄辗秶?/p>
最佳模型ROC曲線的最左上方點可達到敏感度和特異度的整體最優(yōu)點,CESM檢查技術(shù)對于乳腺良、惡性腫瘤診斷的最佳BP神經(jīng)網(wǎng)絡(luò)模型為引入強化程度、強化方式以及強化密度三個輸入信號的模型,最佳界值出現(xiàn)在該模型敏感度為0.978、特異度為0.949時,在該點靈敏度最高,誤判率最低,可以該點作為CESM檢查診斷乳腺癌的最佳參考值。