国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

神經(jīng)肌肉疾病影像識(shí)別中機(jī)器學(xué)習(xí)算法性能的比較研究?

2019-07-31 09:55章鳴嬛程愛蘭劉曉青
關(guān)鍵詞:集上準(zhǔn)確度卷積

陳 瑛 章鳴嬛 沈 瑛 程愛蘭 劉曉青

(1.上海杉達(dá)學(xué)院信息科學(xué)與技術(shù)學(xué)院大數(shù)據(jù)分析與處理研究中心 上海 201209)(2.上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院 上海 200092)

1 引言

杜興氏肌營養(yǎng)不良癥(Duchenne Muscular Dystrophy,DMD)是嚴(yán)重的神經(jīng)肌肉罕見疾病之一[1],由Duchenne于1868年描述。該疾病源發(fā)于肌肉組織,是一種致死性骨骼肌遺傳疾病?;颊叩陌l(fā)病年齡幾乎均在10 周歲以下,發(fā)病率約為男嬰的1/3500~1/6000。

該疾病目前尚無有效的治療方法,故高效的早期診斷顯得尤為重要。DMD 的傳統(tǒng)診斷流程中包含肌電圖檢查,這是一項(xiàng)創(chuàng)傷性檢查,會(huì)令患兒極為痛苦,必然導(dǎo)致患兒的恐懼和不合作。因此,臨床上亟需一種有效且無創(chuàng)的檢測手段,來對(duì)DMD疾病進(jìn)行早期診斷。

計(jì)算機(jī)輔助檢測(Computer-aided Detection,CAD)是指綜合運(yùn)用影像學(xué)、圖像處理及相關(guān)生化手段,利用計(jì)算機(jī)技術(shù)輔助醫(yī)務(wù)人員發(fā)現(xiàn)病灶。磁共振成像(Magnetic Resonance Imaging,MRI)檢查是臨床上一項(xiàng)極具價(jià)值的影像學(xué)輔助手段[2~3],可以清晰地呈現(xiàn)出肌肉的組織結(jié)構(gòu)和病灶的方位,安全有效。目前,一般仍由醫(yī)生直接讀片來獲取MRI的信息,顯然這種方式會(huì)受主觀因素的影響。如能利用CAD 對(duì)圖像進(jìn)行分類識(shí)別,可減少主觀因素帶來的不利影響,則可提升診斷的可靠性,具有非常積極的意義。

目前已有多種CAD 方法可對(duì)醫(yī)學(xué)圖像進(jìn)行識(shí)別,如統(tǒng)計(jì)學(xué)習(xí)方法、機(jī)器學(xué)習(xí)方法等。傳統(tǒng)的機(jī)器學(xué)習(xí)方法一般先從圖像中提取紋理特征參數(shù),再基于這些參數(shù)進(jìn)行數(shù)學(xué)建模,達(dá)到圖像識(shí)別的目的。同時(shí),由人工神經(jīng)網(wǎng)絡(luò)理論[4~6](Artificial Neural Network,ANN)不斷深化而發(fā)展出的深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN),則可直接讀取圖像并作出判斷。因DNN 具有識(shí)別準(zhǔn)確度高、無損圖像信息等優(yōu)點(diǎn),在圖像識(shí)別領(lǐng)域有著廣泛的應(yīng)用[7~14]。

因此,課題組分別選用K 近鄰(K Nearest Neighbors,KNN)、邏輯回歸(Logistic Regression,LR)、支持向量機(jī)(Support Vector Machine,SVM)及深度神經(jīng)網(wǎng)絡(luò)DNN 算法對(duì)實(shí)驗(yàn)MRI T1 和MRI T2[15]進(jìn)行分類識(shí)別。隨著算法參數(shù)的不斷優(yōu)化或迭代次數(shù)的不斷增加,最終得到四種算法下較優(yōu)化的模型。分析比對(duì)模型的性能后發(fā)現(xiàn),無論是對(duì)于T1 還是T2,本文所設(shè)計(jì)的10 隱層DNN 均具有最優(yōu)的識(shí)別準(zhǔn)確度。因此,該模型設(shè)計(jì)可為臨床醫(yī)師提供一種DMD 疾病的輔助診斷方法,這是人工智能在DMD無創(chuàng)檢測中的嘗試探索。

2 數(shù)據(jù)采集

本研究涉及的所有圖像均來自上海交通大學(xué)附屬新華醫(yī)院神經(jīng)內(nèi)科,成像類型包括MRI T1 和MRI T2?;颊呓M與對(duì)照組均為15 例,均為男性兒童。共獲取有效的實(shí)驗(yàn)圖像485 幅,其中患者組圖像為249 幅(T1 和 T2 分別為127 幅和122 幅度),健康對(duì)照組圖像為 236 幅(T1 和 T2 分別為 117 幅和119 幅)。圖像樣本類別的歸屬由神經(jīng)肌肉科醫(yī)師依據(jù)臨床結(jié)果確定。本研究運(yùn)用四種機(jī)器學(xué)習(xí)算法對(duì)圖像進(jìn)行自動(dòng)識(shí)別,并結(jié)合醫(yī)師給定的類別進(jìn)行對(duì)比,對(duì)實(shí)驗(yàn)的技術(shù)路線做出評(píng)價(jià)。

對(duì)實(shí)驗(yàn)圖像進(jìn)行必要的預(yù)處理后,截取感興趣的區(qū)域(Region of Interest,ROI),圖像尺寸為256*256。圖像樣例如圖1所示。

圖1 圖像樣例

3 實(shí)驗(yàn)方法

3.1 KNN、LR和SVM

KNN[16]是分類算法的一種,通過計(jì)算新樣本與歷史樣本中不同類別數(shù)據(jù)點(diǎn)之間的距離,來對(duì)新樣本進(jìn)行分類。即根據(jù)與新樣本數(shù)據(jù)點(diǎn)最鄰近的K個(gè)數(shù)據(jù)點(diǎn)的類別歸屬,來判斷新樣本的類別歸屬。

LR[17]屬于廣義線性模型,其因變量滿足二項(xiàng)分布,故也屬于分類算法。LR 與多重線性回歸相比,增加了Sigmoid 或Softmax 函數(shù),可將結(jié)果映射為二分類或多分類。該算法模型具有良好的可解釋性。

SVM[18]是非線性分類算法,通過非線性映射算法將低維輸入空間的線性不可分樣本轉(zhuǎn)換為高維空間的線性可分樣本。SVM應(yīng)用廣泛,尤其對(duì)于小樣本、非線性的分類問題有著優(yōu)良的分類性能。

3.2 圖像的紋理特征參數(shù)提取

以上三種機(jī)器學(xué)習(xí)算法均無法直接識(shí)別圖像,須先從圖像中提取紋理特征參數(shù),再將參數(shù)記錄劃分成訓(xùn)練集和測試集進(jìn)行交叉驗(yàn)證,達(dá)到分類識(shí)別的目的。課題組利用小波變換[19]從每幅圖像中提取12 個(gè)特征參數(shù),設(shè)置2、3、4 三種小波分解層數(shù),根據(jù)各算法的分類準(zhǔn)確度來判斷何種分解層數(shù)最優(yōu)。12 個(gè)紋理特征參數(shù)是:水平均值、水平方差、水平能量;垂直均值、垂直方差、垂直能量;對(duì)角均值、對(duì)角方差、對(duì)角能量;全部均值、全部方差、全部能量。以DMD 患者的T1/T2 圖像為例,采用sym4小波基函數(shù),對(duì)圖像進(jìn)行層數(shù)為4 的分解。部分小波系數(shù)如表1 所示(序號(hào)1~12 分別對(duì)應(yīng)上述12 個(gè)特征參數(shù))。

表1 小波變換提取紋理參數(shù)示例(DMD/level=4/sym4)

3.3 深度神經(jīng)網(wǎng)絡(luò)DNN和卷積神經(jīng)網(wǎng)絡(luò)CNN

相對(duì)于傳統(tǒng)的淺層人工神經(jīng)網(wǎng)絡(luò)(ANN)而言,DNN 隱層數(shù)目更多,能學(xué)習(xí)到更復(fù)雜的處理函數(shù)。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是DNN 的重要結(jié)構(gòu)之一,其卷積層可直接與二維數(shù)據(jù)進(jìn)行卷積操作,能直接讀取圖像并識(shí)別其特征,因此在圖像識(shí)別領(lǐng)域有著廣泛的應(yīng)用。

CNN的基本結(jié)構(gòu)如圖2所示。

圖2 CNN基本結(jié)構(gòu)

CNN 的基本網(wǎng)絡(luò)結(jié)構(gòu)可分為五部分:輸入層(Input Layer)、卷積層(Conv Layer)、池化層/下采樣層(Pooling Layer/Subsample Layer)、全連接層(FC Layer)和輸出層(Input Layer)。在卷積層和池化層之間設(shè)有激勵(lì)層。卷積層是CNN 的核心部分,用于提取輸入數(shù)據(jù)的特征。該層的主要參數(shù)包括卷積核尺寸、步長及填充值等。卷積運(yùn)算包括連續(xù)卷積運(yùn)算和離散卷積運(yùn)算,CNN的卷積操作屬于離散卷積,其公式形式如式(1)所示。

卷積層的主要思想可描述為:當(dāng)卷積核(濾波器)在數(shù)據(jù)窗口上滑動(dòng)時(shí),該濾波器可對(duì)局部數(shù)據(jù)進(jìn)行計(jì)算。不同卷積核所提取的輸入數(shù)據(jù)的特征也各不相同。在進(jìn)行網(wǎng)絡(luò)設(shè)計(jì)時(shí),可根據(jù)實(shí)際情況來增減卷積層、池化層及全連接層的數(shù)目。

DNN 可直接識(shí)別圖像并進(jìn)行分類識(shí)別,故不必通過分析圖像的紋理特征參數(shù)來間接判斷樣本的類別歸屬。

3.4 四類算法的模型設(shè)計(jì)

四類算法模型均分別嘗試了訓(xùn)練集與測試集的取樣比例為0.7:0.3和0.5:0.5兩種情況。即分別從DMD 患者組和健康對(duì)照組中隨機(jī)抽取70%(或50%)的樣本作為訓(xùn)練集、30%(或50%)的樣本作為測試集,將這兩個(gè)數(shù)據(jù)集拼接后形成最終的實(shí)驗(yàn)數(shù)據(jù)。

設(shè)患者的數(shù)據(jù)標(biāo)簽為1,健康兒童的數(shù)據(jù)標(biāo)簽為0。采用五折交叉驗(yàn)證方式建立模型并測試。模型以訓(xùn)練準(zhǔn)確度(train acc)和測試準(zhǔn)確度(test acc)作為評(píng)價(jià)指標(biāo)?!皽?zhǔn)確度”是指對(duì)所有受試者(包括患者和非患者)正確預(yù)測的概率,取值在[0,1]之間,取值越大則試驗(yàn)效果越好。

四類算法的關(guān)鍵參數(shù)設(shè)置可簡述為

1)KNN

根據(jù)數(shù)據(jù)的類型和結(jié)構(gòu)自動(dòng)選擇合適的內(nèi)部算法。計(jì)算樣本點(diǎn)與最近的5 個(gè)樣本點(diǎn)之間的距離,用閔式距離家族中的歐氏距離進(jìn)行度量。默認(rèn)訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集的每行為一個(gè)樣本,每列為一個(gè)屬性。葉節(jié)點(diǎn)數(shù)目設(shè)置為30。當(dāng)訓(xùn)練誤差值為10e-3時(shí)停止訓(xùn)練過程。

2)LR

選擇L2 正則化方法,采用交叉驗(yàn)證來選擇正則化系數(shù)。損失函數(shù)優(yōu)化算法選用‘ibfgs’方法,即利用損失函數(shù)的二階導(dǎo)數(shù)矩陣(海森矩陣)來迭代優(yōu)化損失函數(shù)。設(shè)置兩種類別(0/1)的權(quán)重相等。

3)SVM

將內(nèi)核參數(shù)gamma 設(shè)置為默認(rèn)值(1/n_features)。核函數(shù)分別設(shè)置為‘linear’‘poly’,‘rbf’和‘sigmoid’,并比較懲罰因子C 固定時(shí),各種核函數(shù)下的模型預(yù)測準(zhǔn)確度。結(jié)論是‘rbf’為最優(yōu)核函數(shù)。再在‘rbf’核函數(shù)下,分別設(shè)置懲罰因子C取不同值,比較模型預(yù)測的準(zhǔn)確度。

4)DNN

試驗(yàn)DNN采用深度學(xué)習(xí)框架TensorFlow設(shè)計(jì),網(wǎng)絡(luò)包括1 個(gè)輸入層、10 個(gè)隱層和1 個(gè)輸出層。為加速訓(xùn)練過程,采用NVIDIA GPU 來訓(xùn)練網(wǎng)絡(luò)。10隱層DNN的結(jié)構(gòu)如圖3所示。

原圖尺寸為256*256,為減小網(wǎng)絡(luò)輸入的數(shù)據(jù)量,將圖像尺寸轉(zhuǎn)換成128*128。所有激勵(lì)層均采用ReLU 激活函數(shù),所有池化層均采用Max Pooling下采樣方式。各層均使用標(biāo)準(zhǔn)差為0.01 的高斯分布函數(shù)來初始化網(wǎng)絡(luò)權(quán)重。網(wǎng)絡(luò)的損失采用交叉熵函數(shù)(cross entropy)來定義,并用AdamOptimizer方法來最小化損失函數(shù)。迭代次數(shù)設(shè)為100 次,Batch_size 設(shè)為30 幅圖像。為進(jìn)一步優(yōu)化網(wǎng)絡(luò),試驗(yàn)設(shè)計(jì)時(shí)采用了dropout 方式來降低可能存在的過擬合現(xiàn)象,保留了80%的神經(jīng)元。

圖3 10隱層DNN的結(jié)構(gòu)示意圖

試驗(yàn)DNN 網(wǎng)絡(luò)經(jīng)多次參數(shù)調(diào)整后得到優(yōu)良的網(wǎng)絡(luò)結(jié)構(gòu)。各層參數(shù)設(shè)置如表2所示。

表2 10隱層DNN的參數(shù)設(shè)置

DNN 模型除了以訓(xùn)練準(zhǔn)確度和測試準(zhǔn)確度作為評(píng)價(jià)指標(biāo)外,還增設(shè)了訓(xùn)練誤差(train loss)和測試誤差兩個(gè)指標(biāo)。訓(xùn)練誤差或測試誤差分別指訓(xùn)練集或測試集上的預(yù)測值與真實(shí)值的誤差絕對(duì)值,誤差取值在[0,1]之間,且越小越好。

4 結(jié)果

4.1 KNN、LR及SVM算法的預(yù)測結(jié)果

KNN、LR 及SVM 算法在訓(xùn)練集和測試集上的分類準(zhǔn)確度如表3 所示。“T1_L2”表示對(duì)T1 圖像進(jìn)行小波層數(shù)為2 的分解,并根據(jù)分解后的小波系數(shù)進(jìn)行分類預(yù)測;“T2_L2”表示對(duì)T2圖像進(jìn)行小波層數(shù)為2 的分解,并根據(jù)分解后的小波系數(shù)進(jìn)行分類測,以此類推。Train:Test 為訓(xùn)練集與測試集的樣本數(shù)量之比,包括 0.5∶0.5 和 0.7∶0.3 兩種比例。Train acc 為訓(xùn)練集上的準(zhǔn)確度,Test acc 為測試集上的準(zhǔn)確度。

表3 KNN、LR及SVM算法的預(yù)測準(zhǔn)確度

可直觀地看出:1)三種機(jī)器學(xué)習(xí)算法對(duì)T1 圖像的訓(xùn)練及測試準(zhǔn)確度明顯高于T2 圖像;2)對(duì)T1圖像的三種小波分解中,以分解層數(shù)為2 時(shí)的分類效果最佳;3)取樣比例 Train:Test 為 0.7:0.3 時(shí)的分類準(zhǔn)確度優(yōu)于取樣比例為0.5∶0.5。經(jīng)統(tǒng)計(jì)檢驗(yàn)后可知,上述情況均存在顯著性差異(P<0.05)。因此,下文在對(duì)結(jié)果作進(jìn)一步分析討論時(shí),將擇取每種算法最優(yōu)的分類結(jié)果,作為該算法模型的預(yù)測準(zhǔn)確度。

4.2 DNN迭代過程中誤差及準(zhǔn)確度的變化情況

利用上文設(shè)計(jì)的10 隱層深度神經(jīng)網(wǎng)絡(luò)對(duì)MRI T1和MRI T2進(jìn)行分類識(shí)別。隨著迭代次數(shù)的不斷增加,測試集及訓(xùn)練集上的誤差均不斷下降,準(zhǔn)確度則不斷提升。最終誤差均接近于0,準(zhǔn)確度均接近于1。MRI T1 和MRI T2 在迭代過程中的誤差及準(zhǔn)確度變化曲線圖,如圖4所示。橫坐標(biāo)Iteration times為迭代次數(shù),縱坐標(biāo)Iteration trend為迭代趨勢。

圖4 迭代過程中的誤差及準(zhǔn)確度變化曲線圖

由實(shí)驗(yàn)數(shù)據(jù)可知,對(duì)于MRI T1 圖像來說,當(dāng)?shù)螖?shù)從30 次開始一直往后,測試集上的誤差接近于0;同時(shí)測試集上的準(zhǔn)確度穩(wěn)定在99.2%左右;對(duì)于MRI T2 圖像來說,當(dāng)?shù)螖?shù)從55 次開始一直往后,測試集上的誤差接近于0;同時(shí)測試集上的準(zhǔn)確度穩(wěn)定在98.9%左右。

5 討論

在所選用的四種分類算法中,KNN 是“懶惰”算法,沒有訓(xùn)練數(shù)據(jù)的過程,也沒有形成模型,是最基本的分類算法。LR 屬于廣義線性模型,與多重線性回歸相比,增加了Sigmoid 或Softmax 函數(shù),以便將結(jié)果映射為二分類或多分類,該算法模型具有良好的可解釋性。SVM是非線性算法,通過非線性映射算法將低維輸入空間的線性不可分樣本轉(zhuǎn)換為高維空間的線性可分樣本,是一種優(yōu)秀的分類算法。ANN 是另一種高效的非線性算法,通過計(jì)算網(wǎng)絡(luò)誤差并最小化誤差函數(shù),不斷迭代得到優(yōu)化的網(wǎng)絡(luò)結(jié)果。DNN 在ANN 理論的基礎(chǔ)上發(fā)展而有,其多隱層的網(wǎng)絡(luò)結(jié)構(gòu)大大提升了算法的性能。這四種機(jī)器學(xué)習(xí)算法均有一定代表性,各具特點(diǎn),故選用其對(duì)同一數(shù)據(jù)對(duì)象進(jìn)行比較分析。

四種算法在T1 和T2 上最優(yōu)的訓(xùn)練及測試準(zhǔn)確度如圖5所示。Train acc_T1為T1訓(xùn)練集上的準(zhǔn)確度,Test acc_T1 為T1 測試集上的準(zhǔn)確度,Train acc_T2 為 T2 訓(xùn)練集上的準(zhǔn)確度,Test acc_T2 為 T2測試集上的準(zhǔn)確度。

圖5 四種機(jī)器學(xué)習(xí)算法的訓(xùn)練及測試準(zhǔn)確度對(duì)比圖

經(jīng)數(shù)據(jù)分析后可得出以下結(jié)論:

1)四類機(jī)器學(xué)習(xí)算法均對(duì)T1 圖像有良好的分類效果,在訓(xùn)練集和測試集上的準(zhǔn)確度均達(dá)到95%以上。

2)利用 DNN 對(duì) T1 和 T2 圖像進(jìn)行分類識(shí)別,在訓(xùn)練集和測試集上均有很好的分類準(zhǔn)確度。但從神經(jīng)網(wǎng)絡(luò)的收斂速度來看,T1明顯優(yōu)于T2。

以上結(jié)論究其原因,可以從兩方面考慮:

1)機(jī)器學(xué)習(xí)(不包括DNN)在分類識(shí)別時(shí),需先從圖像中提取特征參數(shù)再進(jìn)行分析。在提取特征的過程中可能會(huì)損失部分有效的信息,從而導(dǎo)致準(zhǔn)確度下降。

2)機(jī)器學(xué)習(xí)或深度學(xué)習(xí)在處理樣本量大的數(shù)據(jù)時(shí)效果較好。本課題所研究的DMD 屬于罕見病,圖像數(shù)量有限,機(jī)器學(xué)習(xí)算法以圖像的絕對(duì)數(shù)量為研究對(duì)象,故限制了機(jī)器算法的準(zhǔn)確度;但深度神經(jīng)網(wǎng)絡(luò)以圖像的像素點(diǎn)為輸入研究對(duì)象,每幅圖像的尺寸均為128*128,保證了一定的輸入神經(jīng)元數(shù)目,因此可達(dá)到較好的識(shí)別準(zhǔn)度。

6 結(jié)語

本文分別利用 KNN、LR、SVM 及 DNN 四種機(jī)器學(xué)習(xí)算法進(jìn)行建模,用以識(shí)別兒童腿部罕見病DMD 的磁共振圖像。試驗(yàn)結(jié)果表明,前三種算法模型對(duì)于受試者的MRI T1 均有良好的分類效果,但對(duì)MRI T2 的分類效果則不盡如人意;而對(duì)于DNN 模型,隨著網(wǎng)絡(luò)參數(shù)的不斷優(yōu)化和迭代次數(shù)的增加,模型在T1 和T2 數(shù)據(jù)集上的測試準(zhǔn)確度均達(dá)到98.9%以上。模型穩(wěn)定可靠,結(jié)果收斂。因此,論文所提及的方法路線是判斷該受試者是否罹患DMD 的可行的輔助診斷手段,能有效降低患兒因有創(chuàng)檢測帶來的巨大身心痛苦,可作為DMD 罕見病無創(chuàng)檢測的嘗試探索。

猜你喜歡
集上準(zhǔn)確度卷積
影響重力式自動(dòng)裝料衡器準(zhǔn)確度的因素分析
關(guān)于短文本匹配的泛化性和遷移性的研究分析
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
一種并行不對(duì)稱空洞卷積模塊①
基于互信息的多級(jí)特征選擇算法
從濾波器理解卷積
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
論提高裝備故障預(yù)測準(zhǔn)確度的方法途徑
Word中“郵件合并”功能及應(yīng)用
師如明燈,清涼溫潤