国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于MATLAB的醫(yī)學(xué)影像數(shù)據(jù)遷移學(xué)習(xí)的實(shí)現(xiàn)

2022-03-03 05:43黃夏璇袁師其何寧霞武文韜
醫(yī)學(xué)新知 2022年1期
關(guān)鍵詞:胸腔積液陰性

黃夏璇,黃 韜,袁師其,何寧霞,武文韜,呂 軍

1. 暨南大學(xué)附屬第一醫(yī)院神經(jīng)內(nèi)科(廣州 510630)

2. 暨南大學(xué)附屬第一醫(yī)院臨床研究部(廣州 510630)

3. 西安交通大學(xué)公共衛(wèi)生學(xué)院(西安 710061)

近年來(lái),基于深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)技術(shù)越來(lái)越多地應(yīng)用于臨床影像數(shù)據(jù)的分類和識(shí)別。在深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域,不論是數(shù)據(jù)還是模型都可進(jìn)行一定的遷移,尤其是在某些應(yīng)用場(chǎng)景下,如目標(biāo)數(shù)據(jù)量較大但標(biāo)注的數(shù)據(jù)樣本較少時(shí),機(jī)器可依靠模型的遷移捕捉到其他數(shù)據(jù)集中與目標(biāo)數(shù)據(jù)集共享的參數(shù)信息,并將其遷移至目標(biāo)數(shù)據(jù)集中,進(jìn)而加強(qiáng)深度學(xué)習(xí)訓(xùn)練模型識(shí)別圖像的能力[1]。遷移學(xué)習(xí)(transfer learning)作為一種機(jī)器學(xué)習(xí)方法,可將模型學(xué)習(xí)到的知識(shí)從源領(lǐng)域遷移至另一個(gè)目標(biāo)領(lǐng)域,使得模型可以更好地獲取目標(biāo)領(lǐng)域的知識(shí)。遷移學(xué)習(xí)的方式包括基于樣本的遷移、基于特征的遷移、基于模型的遷移以及基于關(guān)系的遷移四類。目前應(yīng)用相對(duì)廣泛的是通過(guò)源領(lǐng)域的數(shù)據(jù)和目標(biāo)領(lǐng)域的數(shù)據(jù)空間模型對(duì)共同參數(shù)實(shí)現(xiàn)知識(shí)的遷移,即在已有的數(shù)據(jù)集中把訓(xùn)練好的數(shù)據(jù)集進(jìn)行初始化,把結(jié)果遷移到需要學(xué)習(xí)的數(shù)據(jù)集中,并通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)提取圖像特征(包括顏色或邊緣等)進(jìn)行訓(xùn)練,以達(dá)到提高識(shí)別圖像準(zhǔn)確率的目的[2]。MATLAB作為一款科學(xué)計(jì)算軟件,擁有豐富的數(shù)據(jù)類型和結(jié)構(gòu)、精良的圖形可視化界面以及針對(duì)圖像數(shù)據(jù)進(jìn)行分析等的應(yīng)用工具。相對(duì)于難以實(shí)現(xiàn)圖像數(shù)據(jù)準(zhǔn)確分析的傳統(tǒng)計(jì)算機(jī)輔助診斷(computer-aided diagnosis,CAD)[3],基于傳統(tǒng)機(jī)器學(xué)習(xí)方法的MATLAB遷移學(xué)習(xí),更易對(duì)圖像進(jìn)行特征提取和自動(dòng)化分類,從而為醫(yī)學(xué)圖像共性提取提供更好的平臺(tái)。本研究以具體的圖像數(shù)據(jù)為例,介紹如何使用MATLAB軟件實(shí)現(xiàn)遷移學(xué)習(xí)。

1 資料與方法

1.1 研究對(duì)象

本研究以MIMIC公共數(shù)據(jù)庫(kù)中的MIMIC-CXR數(shù)據(jù)庫(kù)為例,該數(shù)據(jù)庫(kù)是由Johnson等于2019年1月發(fā)布的一個(gè)包含放射學(xué)報(bào)告的大型胸部X射線影像公開(kāi)數(shù)據(jù)集,其不僅將DICOM的影像格式轉(zhuǎn)換為 JPEG格式,還提取了文本報(bào)告中的重要信息并轉(zhuǎn)換成結(jié)構(gòu)化的標(biāo)簽形式,通過(guò)NLP算法從影像報(bào)告中提取了14個(gè)類別標(biāo)簽[4-6]。本研究選取胸腔積液資料組8 522名患者,其中男性4 477例(52.53%),女性4 045例(47.47%),每例患者均進(jìn)行了至少一次的X線檢查,共計(jì)獲得不同檢查時(shí)間的15 620張X線圖像數(shù)據(jù)。為減小數(shù)據(jù)類別預(yù)測(cè)的偏差,以NegBio和CheXpert 兩個(gè)開(kāi)源工具從報(bào)告文本中得到的標(biāo)簽為依據(jù),從中選取提示胸腔積液陽(yáng)性(Pleural Effusion)和陰性(Normal)的X線圖像數(shù)據(jù)各500張作為本研究的數(shù)據(jù)樣本。

1.2 實(shí)驗(yàn)環(huán)境

本研究所有實(shí)驗(yàn)均基于Ubuntu20.04位操作系統(tǒng),針對(duì)CNN模型的訓(xùn)練過(guò)程,采用以MATLAB語(yǔ)言為主的編程環(huán)境,具體軟件及硬件配置見(jiàn)表1。

表1 軟硬件環(huán)境配置Table 1. Configuration of hardware and software environment

1.3 選擇卷積神經(jīng)網(wǎng)絡(luò)模型

作為深度學(xué)習(xí)應(yīng)用的主要算法,CNN是一種融合了卷積計(jì)算和深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)[7]。相較于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,CNN可更好地提取圖像特征,減少人工手動(dòng)提取分類準(zhǔn)確率低的不足[8]。目前使用較多的網(wǎng)絡(luò)結(jié)構(gòu)主要有AlexNet[9](8層)、VGGNet[10](16層)、GooleNet[11](22層)、ResNet[12](152~1000層),多數(shù)模型都是基于它們改進(jìn)而來(lái)。隨著CNN層數(shù)逐漸加深,模型性能和層數(shù)不斷改進(jìn)和完善,但也出現(xiàn)了訓(xùn)練誤差增大的退化以及梯度隨著連乘變得不穩(wěn)定的梯度消失現(xiàn)象[13]。為此,ResNet模型利用殘差網(wǎng)絡(luò)引入恒等跳躍鏈接,提高前后兩個(gè)殘差塊之間的信息流通,避免網(wǎng)絡(luò)過(guò)深引起的退化及梯度消失問(wèn)題,使訓(xùn)練網(wǎng)絡(luò)隨著深度的增加達(dá)到先減后增的趨勢(shì)。因此,本研究以ResNet模型進(jìn)行演示。表2展示了不同CNN典型模型的主要特點(diǎn)和優(yōu)缺點(diǎn)對(duì)比[14]。

表2 CNN典型模型比較Table 2. Comparison of CNN typical models

1.4 加載圖像并讀取數(shù)據(jù)集

本 研 究 使 用 MATLAB 2021a(MathWorks,Natick,MA)軟件對(duì)圖像進(jìn)行預(yù)處理,操作流程為:①將所有數(shù)據(jù)集中的灰度圖像轉(zhuǎn)換為RGB圖像;②將圖片尺寸統(tǒng)一轉(zhuǎn)換為224×224×3(ResNet適用的通道數(shù));③讀取全部數(shù)據(jù)集,得到標(biāo)簽胸腔積液陽(yáng)性和陰性標(biāo)簽的數(shù)據(jù)各500張。

1.5 分割數(shù)據(jù)集與建立網(wǎng)絡(luò)

該階段關(guān)鍵步驟在于改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu):①讀取原始ResNet網(wǎng)絡(luò)模型,通過(guò)K折驗(yàn)證,將數(shù)據(jù)集拆分為10倍進(jìn)行分析,即將數(shù)據(jù)集均分成10部分,將第一部分作為測(cè)試集,其余子集作為訓(xùn)練集,每次用不同的部分作為測(cè)試集重復(fù)訓(xùn)練模型,并計(jì)算模型的平均測(cè)試準(zhǔn)確率作為驗(yàn)證結(jié)果,用于模型評(píng)估;②確定訓(xùn)練數(shù)據(jù)中需要分類的種類,創(chuàng)建新的網(wǎng)絡(luò)層數(shù),將新的網(wǎng)絡(luò)層中的參數(shù)'Weight Learn Rate Factor'和'Bias Learn Rate Factor'分別設(shè)置為10;③為防止過(guò)擬合,創(chuàng)建softmax網(wǎng)絡(luò)層更好地調(diào)整網(wǎng)絡(luò)結(jié)構(gòu);④將批量訓(xùn)練和測(cè)試圖像的大小調(diào)整為與輸入層大小一致,將構(gòu)建的網(wǎng)絡(luò)在深度網(wǎng)絡(luò)設(shè)計(jì)器顯示可得到相對(duì)應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)及其分析結(jié)果。

1.6 訓(xùn)練網(wǎng)絡(luò)

在ResNet 50網(wǎng)絡(luò)模型構(gòu)建完成后,對(duì)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練和參數(shù)設(shè)置,并用訓(xùn)練集對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。根據(jù)訓(xùn)練結(jié)果進(jìn)行微調(diào),得到如下參數(shù):學(xué)習(xí)率為1.00e-04,最小批次為25,最大訓(xùn)練回合數(shù)為64。并對(duì)數(shù)據(jù)進(jìn)行增強(qiáng),具體措施包括批量處理圖像,以50%的機(jī)率隨機(jī)對(duì)圖像從水平和垂直方向上進(jìn)行縮放、翻轉(zhuǎn)、裁剪和平移,增加訓(xùn)練數(shù)據(jù)的多樣性以及訓(xùn)練模型的識(shí)別和泛化能力。此次訓(xùn)練迭代次數(shù)為250次,訓(xùn)練完成時(shí)間為2min 38s,訓(xùn)練的準(zhǔn)確和損失過(guò)程如圖1所示。

圖1 迭代次數(shù)250次的訓(xùn)練過(guò)程Figure 1. Training progress with 250 iterations

2 結(jié)果

2.1 數(shù)據(jù)集

本研究使用的胸腔積液影像測(cè)試集和訓(xùn)練集呈均勻分布,陽(yáng)性和陰性各500張,利用K折交叉驗(yàn)證的方法獲得訓(xùn)練集和測(cè)試集。如圖1所示,部分準(zhǔn)確率曲線圖在訓(xùn)練完成時(shí)達(dá)到80%,損失率則明顯下降至20%以下。在迭代次數(shù)為250次的訓(xùn)練中最高準(zhǔn)確率可達(dá)100%,耗時(shí)約2min 38s,訓(xùn)練時(shí)間與計(jì)算機(jī)性能密切相關(guān)。表3對(duì)比了不同迭代次數(shù)訓(xùn)練的結(jié)果,迭代次數(shù)較少的訓(xùn)練相對(duì)效果更理想,準(zhǔn)確率高且耗時(shí)少。本研究還使用Grad-CAM代碼生成熱圖,使模型提取的胸腔積液陽(yáng)性標(biāo)簽X線圖像中的重要特征區(qū)域可視化,以評(píng)估胸腔積液的陰性和陽(yáng)性,并隨機(jī)抽取部分預(yù)測(cè)結(jié)果進(jìn)行驗(yàn)證,如圖2和圖3所示。

圖2 胸腔積液的Grad-CAM和原X線胸片F(xiàn)igure2. Grad-CAM heatmaps source and X-ray chest radiograph of pleural effusion

圖3 胸腔積液部分預(yù)測(cè)結(jié)果Figure 3. Some predicted results of pleural effusion

表3 不同迭代次數(shù)結(jié)果Table 3. Results of different iterations

2.2 混淆矩陣分析

混淆矩陣可以更好地衡量算法的性能,并且提供了精度和召回性能的角度,適用于本研究均勻分布的測(cè)試數(shù)據(jù)集,由迭代250次最佳訓(xùn)練結(jié)果繪制形成的混淆矩陣如圖4所示。縱坐標(biāo)以真實(shí)標(biāo)簽的角度預(yù)測(cè)分類結(jié)果,橫坐標(biāo)以分類器的角度預(yù)測(cè)分類結(jié)果。以縱坐標(biāo)為例,在真實(shí)標(biāo)簽為陰性(Normal)的所有圖像中,有457個(gè)圖像被正確預(yù)測(cè)為陰性(Normal),43個(gè)圖像被錯(cuò)誤預(yù)測(cè)為陽(yáng)性(Pleural Effusion),因此真實(shí)標(biāo)簽為陰性的圖像中被正確預(yù)測(cè)的比例為91.4%,即該診斷性實(shí)驗(yàn)的特異度為91.4%。同理,在真實(shí)標(biāo)簽為陽(yáng)性的圖像中被正確預(yù)測(cè)的比例是84.8%,即本次實(shí)驗(yàn)的敏感度為84.8%。通過(guò)計(jì)算,綠色對(duì)角線下獲得的全部真陽(yáng)性和真陰性標(biāo)簽預(yù)測(cè)結(jié)果占所有圖像樣本的比例為88.1%,即本實(shí)驗(yàn)分類準(zhǔn)確率(ACC)為88.1%。

圖4 混淆矩陣Figure 4. The confusion matrix

2.3 AUC計(jì)算

本研究采用10折交叉驗(yàn)證評(píng)價(jià)分類模型的性能,使用曲線下面積(the area under the ROC curve,AUC)為評(píng)價(jià)指標(biāo)[15],以假正類率(false positive rate,F(xiàn)PR)為橫軸,真正類率(true positive rate,TPR)為縱軸,繪制得出ROC曲線。AUC 值越大,代表模型的預(yù)測(cè)結(jié)果和真實(shí)情況越接近,模型性能越好。本次模型訓(xùn)練獲得的影像數(shù)據(jù)遷移學(xué)習(xí)預(yù)測(cè)結(jié)果的AUC值為93.53%(圖5)。

圖5 訓(xùn)練結(jié)果AUC圖Figure 5. The AUC diagram of training results

3 討論

胸腔積液作為臨床上常見(jiàn)的胸膜病變,最常見(jiàn)的病因是結(jié)核和腫瘤。近年,隨著肺癌發(fā)病率的逐年上升,惡性胸腔積液病例也日趨增多。由于胸腔積液發(fā)展迅速且持續(xù)存在,患者常因大量積液的壓迫出現(xiàn)嚴(yán)重呼吸困難,甚至死亡,故早期診斷胸腔積液對(duì)患者的治療和預(yù)后十分重要。本研究隨機(jī)抽取MIMIC-CXR數(shù)據(jù)庫(kù)中陽(yáng)性、陰性胸腔積液影像數(shù)據(jù)各500例作為數(shù)據(jù)集,使用遷移學(xué)習(xí)方法,以ResNet模型為基礎(chǔ)實(shí)現(xiàn)胸腔積液分類的早期識(shí)別。

數(shù)據(jù)集包含的大量胸腔積液影像具有肺葉與胸壁間的積液程度、密度增高影、縱隔移位和肋間隙增寬等特征,有助于在臨床上快速診斷胸腔積液。本研究基于ResNet模型提取了上述特征,對(duì)胸腔積液原始圖像進(jìn)行重復(fù)多次的訓(xùn)練,并經(jīng)過(guò)數(shù)據(jù)增強(qiáng)后得到了AUC為93.53%的結(jié)果,表明ResNet網(wǎng)絡(luò)模型具有良好的性能。有研究也發(fā)現(xiàn),利用ResNet網(wǎng)絡(luò)模型與遷移學(xué)習(xí)的混合模式,可改善圖像分類的準(zhǔn)確性和魯棒性[16]。

綜上所述,基于模型的遷移學(xué)習(xí)方法實(shí)現(xiàn)了模型構(gòu)建和數(shù)據(jù)訓(xùn)練的有效結(jié)合和增強(qiáng),不僅優(yōu)化了模型,避免了因標(biāo)記樣本過(guò)少可能導(dǎo)致的過(guò)擬合問(wèn)題,且能得到較好的預(yù)測(cè)效果。因此,基于神經(jīng)網(wǎng)絡(luò)模型的醫(yī)學(xué)影像訓(xùn)練遷移學(xué)習(xí)方法可為臨床醫(yī)生早期診斷胸腔積液提供一定的依據(jù)。

本研究存在一定局限,如實(shí)驗(yàn)訓(xùn)練時(shí)僅對(duì)胸腔積液進(jìn)行了二分類,在圖像處理上對(duì)同一病灶多個(gè)圖像之間的相關(guān)性處理尚有不足,下一步可將二分類延伸至多分類多特征,實(shí)現(xiàn)對(duì)遷移學(xué)習(xí)的拓展和深入。

猜你喜歡
胸腔積液陰性
NEAT1和miR-146a在結(jié)核性與惡性胸腔積液鑒別診斷中的價(jià)值
玉簪屬種質(zhì)資源收集篩選及耐陰性研究
婦科超聲見(jiàn)盆腔積液診斷探討
食管癌術(shù)后胸腔引流管拔除時(shí)機(jī)探討
胸腔積液中CRKL的診斷價(jià)值
科學(xué)導(dǎo)報(bào)(2020年51期)2020-09-09
大眾健康(2016年6期)2016-08-03
惡性胸腔積液胸腔置管閉式引流并腔內(nèi)化療術(shù)的護(hù)理