国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

MLICP-CNN:基于CNN與ICP的多標記胸片置信診斷模型

2019-07-16 01:17吳能光王華珍許曉泓劉俊龍吳謹準
計算機應(yīng)用與軟件 2019年7期
關(guān)鍵詞:置信胸片置信度

吳能光 王華珍* 許曉泓 劉俊龍 何 霆 吳謹準

1(華僑大學(xué)計算機科學(xué)與技術(shù)學(xué)院 福建 廈門 361021)2(廈門大學(xué)附屬第一醫(yī)院兒科 福建 廈門 361003)

0 引 言

X線胸片(Chest X-ray)是輔助診斷肺部相關(guān)疾病的醫(yī)學(xué)影像。胸片能同時展示肺部炎癥、腫塊、肺結(jié)核、氣胸等一種或多種醫(yī)學(xué)病理特征,因此胸片診斷是典型的多標記問題。2017年,美國國立衛(wèi)生研究院開源了數(shù)據(jù)量巨大且多標記標注的胸片數(shù)據(jù)集Chest X-ray14[1],胸片多標記診斷開始引起學(xué)界廣泛關(guān)注。Haloi等[2]提出基于卷積神經(jīng)網(wǎng)絡(luò)的在線增強分類網(wǎng)絡(luò)來輔助胸部疾病診斷。Boosted等[3]基于深度卷積神經(jīng)網(wǎng)絡(luò)定義了全新的損失函數(shù)來處理多標記和不平衡的胸片數(shù)據(jù)集。Abiyev等[4]對比了多種神經(jīng)網(wǎng)絡(luò)模型(卷積神經(jīng)網(wǎng)絡(luò)、反向傳播神經(jīng)網(wǎng)絡(luò)、無監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò))的胸部疾病診斷性能。但這些研究僅僅是傳統(tǒng)多標記模型在胸片診斷問題上的應(yīng)用,并沒有考慮胸片診斷的高風(fēng)險特性。胸片診斷屬于典型的高風(fēng)險領(lǐng)域,診斷失敗將導(dǎo)致嚴重的后果。這需要診斷模型能對輸出結(jié)果附帶置信度評估,以確保足夠的安全保障。另 外,臨床上需要對單個患者進行獨立的風(fēng)險評估,而非通過統(tǒng)計運算獲得??傊鄻擞浶仄眯旁\斷模型研究具有重要的現(xiàn)實和學(xué)術(shù)價值。

對于上述情況,本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)[5]與歸納一致性預(yù)測器[6]的多標記胸片置信診斷模型MLICP-CNN。該模型能為每個被測數(shù)據(jù)提供附帶置信度的預(yù)測集,并且其置信度是可校準的。MLICP-CNN模型將學(xué)習(xí)數(shù)據(jù)劃分為訓(xùn)練集和校準集,通過使用CNN從訓(xùn)練樣本中學(xué)習(xí)出規(guī)則D,基于D和校準集使用算法隨機性對被測數(shù)據(jù)進行置信預(yù)測。規(guī)則D利用CNN高度特征抽取能力有效提取了訓(xùn)練集中的信息,從而提升了模型的預(yù)測效率。通過算法隨機性檢驗把被測數(shù)據(jù)的預(yù)測問題轉(zhuǎn)化成學(xué)習(xí)數(shù)據(jù)集分布的統(tǒng)計檢驗問題,其置信度評估具有統(tǒng)計意義的理論可校準性。

本文的主要貢獻如下:

1) 提出MLICP-CNN模型,能提供可校準的多標記置信預(yù)測。

2) 設(shè)計類別敏感的樣本奇異值函數(shù),能根據(jù)樣本類別自適應(yīng)測量奇異值,提升預(yù)測效率。

3) 關(guān)注胸片數(shù)據(jù)集Chest X-ray14的高風(fēng)險特性,引入置信機制。

1 相關(guān)工作

1.1 基于CNN的胸片診斷模型研究

通過X線胸片來診斷肺部等疾病極具挑戰(zhàn)性,為了克服人類的認知偏倚和效率低下等局限性,X線胸片智能輔助診斷模型研究成為眾多學(xué)者的研究對象。其中最具代表性的是基于CNN的診斷模型研究。CNN是一種卷積層與采樣層交替設(shè)置的多層神經(jīng)網(wǎng)絡(luò)。卷積層使用局部權(quán)值共享機制提取不同角度的局部特征。采樣層能進行有效的特征抽象。CNN的局部特征提取和高層次特征抽象能避免對圖像復(fù)雜的特征提取和數(shù)據(jù)重建過程,可以直接輸入原始圖像,尤為適用于圖像模式辨識問題,因此,在胸片診斷領(lǐng)域獲得較為廣泛的應(yīng)用。

不同學(xué)者針對胸片診斷的具體問題設(shè)計了不同的CNN模型,Rajpurkar等[7]則提出基于121層稠密卷積神經(jīng)網(wǎng)絡(luò)(Densent-121)并采用二元交叉信息熵作為損失函數(shù)來構(gòu)建胸片肺炎診斷模型。Dong等[8]對比vgg16和ResNet-101等多種卷積神經(jīng)網(wǎng)絡(luò)模型來確定胸片異常檢測的最優(yōu)模型。Qin等[9]采用4層卷積神經(jīng)網(wǎng)絡(luò)對胸片做分割任務(wù)。

2017年,開源的Chest X-ray14[1]數(shù)據(jù)集不僅數(shù)量巨大并且每張胸片對應(yīng)一個或多個標簽,引發(fā)學(xué)術(shù)界對多標記胸片模型的研究。目前,對Chest X-ray14數(shù)據(jù)集多標記學(xué)習(xí)問題的研究思路大多采用二元相關(guān)方法,將數(shù)據(jù)集分解為14個單標記問題,進而分別進行模型構(gòu)建和AUC性能評估。典型的工作有Wang等[1]的研究,但其模型性能表現(xiàn)欠佳。Baltruschat等[10]對比了多種深度學(xué)習(xí)方法在Chest X-ray14數(shù)據(jù)集的多標記分類評估性能。Cai等[11]在CNN中引入注意力機制,從而提升模型對疾病類型的敏感性和顯著性。以上研究雖然考慮了胸片診斷的多標記特性,但還沒有考慮到胸片診斷的高風(fēng)險特性。

1.2 基于ICP的置信預(yù)測

在ICP框架中,被測數(shù)據(jù)的預(yù)測問題轉(zhuǎn)化成學(xué)習(xí)數(shù)據(jù)集分布的統(tǒng)計檢驗問題。具體地,ICP使用算法隨機性檢驗對被測數(shù)據(jù)進行預(yù)測,采用置信度作為預(yù)測結(jié)果的風(fēng)險評估。ICP是CP[12]理論的修正模型,其與CP的區(qū)別在于預(yù)先將學(xué)習(xí)樣本劃分為訓(xùn)練集和校準集,使用歸納推理從訓(xùn)練樣本中學(xué)習(xí)出規(guī)則D,進而基于D和校準集使用算法隨機性檢驗對被測數(shù)據(jù)進行置信預(yù)測。

(1)

(2)

(3)

滿足式(3)稱為置信預(yù)測具有可校準性[13]。

當(dāng)面對大數(shù)據(jù)學(xué)習(xí)問題時,ICP能提高運算效率,其算法示意圖如圖1所示。

圖1 ICP算法示意圖

圖1中,學(xué)習(xí)樣本中的前m個用于構(gòu)建規(guī)則D,剩余n-m+1個樣本利用規(guī)則D來計算樣本奇異值ai,i=m+1,m+2,…,n??梢?,ICP以規(guī)則D為傳遞媒介將所有學(xué)習(xí)樣本都參與到置信預(yù)測中,從而保證了被測數(shù)據(jù)的可校準性。

2 MLICP-CNN算法原理

本文提出的MLICP-CNN算法以ICP框架為核心,將學(xué)習(xí)數(shù)據(jù)劃分為訓(xùn)練集和校準集,對應(yīng)地分為歸納推理和置信預(yù)測兩個階段。已知多標記學(xué)習(xí)數(shù)據(jù)集為Zn={z1,z2,…,zn},單個被測數(shù)據(jù)xn+1。數(shù)據(jù)集Zn被分割成訓(xùn)練集為Zm={z1,z2,…,zm}和校準集Zv={zm+1,zm+2,…,zn},m+v=n。MLICP-CNN算法示意圖如圖2所示,Zm用于訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型,Zv作為校準集參與xn+1的置信預(yù)測。

圖2 MLICP-CNN算法示意圖

2.1 CNN構(gòu)建階段

本階段屬于歸納推理階段,對訓(xùn)練樣本進行卷積神經(jīng)網(wǎng)絡(luò)CNN模型構(gòu)建,即CNN模型為規(guī)則D。

CNN是一個多層的神經(jīng)網(wǎng)絡(luò),包括嵌入層、卷積層、池化層、全連接層四個部分。CNN通過輸入層的卷積計算,每塊局部的輸入?yún)^(qū)域鏈接一個輸出神經(jīng)元。

運用不同卷積計算可以形成多通道輸出,進而通過池化層采樣,最后匯總輸出結(jié)果。CNN能夠進行樣本特征的自動、多層次和多角度提取,具有良好的建模能力。

針對多標記數(shù)據(jù)集,CNN將多標記標簽集作為網(wǎng)絡(luò)的輸出層結(jié)果,即輸出層有多個真實標簽。在訓(xùn)練多標記數(shù)據(jù)集時,我們采用二元交叉熵損失來定義損失函數(shù):

(1-θq)logp(Tq=0|X))]

(4)

式中:q∈{1,2,…,Q}類別,p(Tq=1|X)表示包含類別q的概率,p(Tq=0|X)表示不包含類別q的概率。θq表示類別q是否存在即θq∈{1,0}。

2.2 置信預(yù)測

在置信預(yù)測階段,我們利用CNN模型來獲取被測樣本序列每個樣本的奇異值,進而在指定風(fēng)險水平下產(chǎn)生多標記預(yù)測集。該預(yù)測集附帶了置信度作為預(yù)測結(jié)果的風(fēng)險評估水平。置信預(yù)測的算法思想具體包含以下幾個方面:

2.2.1基于二元標記的模式轉(zhuǎn)換

2.2.2奇異映射

(5)

為了充分利用校準集的信息,可以進一步將校準集數(shù)據(jù)的真實標簽融入奇異值函數(shù)設(shè)計中,因此可設(shè)計出另一個奇異值函數(shù),如下式所示:

(6)

上述公式可以根據(jù)校準集樣本的真實標簽修正CNN輸出的類概率,使得類概率更接近真實值,從而獲得更小的奇異值來修正校準集樣本中每個樣本的離群性。

綜上所述,我們將基于式(5)的模型稱為MLICP-CNN,而將采用式(6)的模型稱為類別敏感MLICP-CNN(記為LS-MLICP-CNN)。

2.2.3隨機水平P值

(7)

2.2.4置信輸出

(8)

基于以上算法原理,本文提出的MLICP-CNN算法流程如算法1所示。

算法1 MLICP-CNN算法輸入:多標記數(shù)據(jù)集Zn={z1,z2,…,zn}和單個被測數(shù)據(jù)xn+1,風(fēng)險評估水平ε輸出:預(yù)測標記集Γεn+1① 數(shù)據(jù)劃分把Zn={z1,z2,…,zn}集劃分為訓(xùn)練集Zm和校準集Zv,其中m+v=n;zi=(xi,Yi={yq,q=1,2,…,Q})② 模式轉(zhuǎn)化多標記校準集Zv轉(zhuǎn)換成Q組單標記二分類數(shù)據(jù)集Zqv={zqm,zqm+1,…,zqn}(q=1,2,…,Q),即for q=1 to Q do zqi=(xi,yqi),yqi∈(0,1)③ CNN模型訓(xùn)練使用Zm數(shù)據(jù)通過式(4)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)D。④ 奇異映射for q=1 to Q do對校準集使用式(5)或式(6)計算每個二分類問題檢驗樣本集的奇異值序列Λqv={aqi,i=m+1,…,n};for q=1 to Q do對xn+1 利用式(5)計算奇異值a0qn+1和a1qn+1。⑤ 計算隨機水平值(P-value)for q=1 to Q do根據(jù)式(7)計算出xn+1的隨機水平值p1qn+1和p0qn+1⑥ 域預(yù)測for q=1 to Q do根據(jù)式(8)計算出xn+1的預(yù)測集Γε,qn+1EndΓεn+1={∪Γε,qn+1,q=1,2,…,Q}

3 實 驗

3.1 數(shù)據(jù)集

本文使用的Chest X-ray14[1]數(shù)據(jù)集屬于公開發(fā)布的開源數(shù)據(jù)集,該數(shù)據(jù)集采集自30 805 名患者的正面X線胸片,數(shù)據(jù)集規(guī)模為 112 120 張。每張X 線胸片圖像對應(yīng)一個或多個標簽,涵蓋了14 種病理(肺不張、變實、浸潤、氣胸、水腫、肺氣腫、纖維變性、積液、肺炎、胸膜增厚、心臟肥大、結(jié)節(jié)、腫塊、疝氣)。整個胸片數(shù)據(jù)集被劃分成訓(xùn)練集(70%)、校準集(20%)和測試集(10%)。我們進一步將圖片數(shù)據(jù)放縮到224×224,并對圖片進行了均值和方差化,并通過隨機水平翻轉(zhuǎn)擴增每部分的樣本量。

在此基礎(chǔ)上,Chest X-ray14數(shù)據(jù)集的訓(xùn)練集設(shè)置為MLICP-CNN的訓(xùn)練集,用于訓(xùn)練CNN模型。而校準集則用于MLICP的置信預(yù)測階段,測試集為本實驗的測試集。

3.2 CNN參數(shù)設(shè)置

我們使用DenseNets-121[14]、DenseNets-169[14]、Resnet-50[15]三種不同架構(gòu)來訓(xùn)練CNN模型。每個架構(gòu)的全連接輸出層維度由標準的1 000替換為14,并采用非線性 sigmoid 函數(shù)作為輸出函數(shù)。三種架構(gòu)對其他參數(shù)的設(shè)置全部相同:權(quán)重隨機初始化,采用Adam[16]進行優(yōu)化(選用的參數(shù)是:β1=0.9 和β2=0.999)。批量數(shù)據(jù)大小為32,初始學(xué)習(xí)速率設(shè)置為0.01。

3.3 評價指標

2) 確定預(yù)測率(certain prediction):指的是輸出域只含一個預(yù)測值的比率。

3) 空集率(empty prediction):指的是輸出域為空集的比率。

4) 理想預(yù)測率(favorite prediction):指的是輸出域只含一個預(yù)測值、并且該值是正確的比率。

3.4 實驗結(jié)果

3.4.1置信度的可校準性展示

可校準性指的是在指定算法風(fēng)險水平ε(其對應(yīng)的置信度為1-ε)下,預(yù)測正確率是大于或等于對應(yīng)的置信度1-ε。圖3展示不同模型的可校準性,橫坐標代表置信度,縱坐標代表準確率。

圖3 對比不同模型的可校準性

在圖3中,對角線稱為基準線,表示準確率嚴格等于置信度值,在這種情況下,其置信度評估稱為恰好有效。由圖3可見,在各種不同的置信度下,LS-MLICP-CNN 的準確率基本等于置信度,MLICP-CNN的準確率嚴格等于置信度,說明本文提出的算法恰好有效。而CNN的準確率都大于置信度,則說明CNN的類概率評估不具有嚴格校準性。

3.4.2 預(yù)測效率展示

根據(jù)ICP理論,規(guī)則D和樣本奇異值函數(shù)的設(shè)計會影響預(yù)測效率[5],因此我們對這兩種因素進行檢驗。本實驗分別在臨床常用的95%和98%置信度條件下對算法的預(yù)測效率進行展示,結(jié)果如表1和表2所示。

表1 MLICP-CNN預(yù)測效率比較(95%置信度) %

表2 MLICP-CNN預(yù)測效率比較(98%置信度) %

表1和表2展示不同CNN架構(gòu)各種模型的預(yù)測效率。從表1可以看出, Resenet50/ LS-MLICP參數(shù)配置下模型的綜合性能最好,即采用Resenet50的CNN架構(gòu)和LS-MLICP的奇異值映射函數(shù)下,模型的確定預(yù)測率和理想預(yù)測率的數(shù)值最高。進一步地,我們展示因素對預(yù)測效率的影響,以方差形式進行計算。以理想預(yù)測率為例,在相同的MILCP奇異值函數(shù)下,三種CNN架構(gòu)造成的波動約為4.67×10-4,而相同LS-MILCP奇異值函數(shù)下,三種CNN架構(gòu)造成的波動約為4.67×10-4。另外,在相同Densent169架構(gòu)下,不同奇異函數(shù)造成的波動是1.674。在相同Densent121架構(gòu)下,不同奇異函數(shù)造成的波動約為1.656。在相同Resenet 50架構(gòu)下,不同奇異函數(shù)造成的波動約為1.748。以上說明,CNN架構(gòu)對預(yù)測效率的影響程度遠遠小于奇異函數(shù)設(shè)計的不同。從表2可見,其結(jié)果和趨勢與表1一致。

4 結(jié) 語

本文提出一種基于CNN與歸納一致性預(yù)測器(ICP)的多標記胸片置信診斷模型MLICP-CNN。該模型是一種能獨立為每一個測試數(shù)據(jù)提供有效置信度預(yù)測的學(xué)習(xí)框架,其核心技術(shù)包括歸納推理和算法隨機性測試,前者用于構(gòu)建學(xué)習(xí)規(guī)則D,后者來獲取檢驗樣本序列每個樣本的樣本奇異值,進而在指定風(fēng)險水平下產(chǎn)生多標記預(yù)測集。

在對Chest X-ray14胸片數(shù)據(jù)集的實驗結(jié)果表明, MLICP-CNN模型在臨床常用的95%置信度下,模型準確率為95%,體現(xiàn)了置信度評估的恰好可校準性。而且采用Resenet50的CNN架構(gòu)和LS-MLICP的奇異值映射函數(shù)下,模型性能最好,其確定預(yù)測率為96.43%,理想預(yù)測率為92.31%。另外,CNN架構(gòu)對預(yù)測效率的影響程度遠遠小于奇異函數(shù)設(shè)計的不同。

本文提出的模型能夠解決個性化胸片診斷的高風(fēng)險評估問題,使胸片診斷更加符合醫(yī)療的需求。未來的工作包括設(shè)計更多的奇異函數(shù)、探討進一步提高模型效率的途徑以及多標記問題的其他轉(zhuǎn)化方法等。

猜你喜歡
置信胸片置信度
基于數(shù)據(jù)置信度衰減的多傳感器區(qū)間估計融合方法
不同千伏的X線胸片檢查在塵肺病診斷中的應(yīng)用價值
一種基于定位置信度預(yù)測的二階段目標檢測方法
置信職業(yè)行為在護理教育中的研究現(xiàn)狀
基于靶試的空空導(dǎo)彈自主飛可靠性置信度分析*
證件照里放飛自我
看X線胸片的六大要點你掌握了嗎?
呼吸雙相對比胸片在小兒支原體肺炎中的診斷價值探討
校核、驗證與確認在紅外輻射特性測量中的應(yīng)用
置信電氣:碳減排龍頭迎發(fā)展春天
景东| 鹰潭市| 宁晋县| 安西县| 楚雄市| 沙雅县| 建水县| 崇明县| 奉节县| 商水县| 黄浦区| 阿荣旗| 肥西县| 德昌县| 保定市| 星座| 哈巴河县| 兴安盟| 哈尔滨市| 三门县| 长宁区| 宜兰市| 凤凰县| 广昌县| 固阳县| 西林县| 江源县| 前郭尔| 汝州市| 观塘区| 芜湖市| 清新县| 杭州市| 琼海市| 敦煌市| 大同县| 穆棱市| 霍州市| 务川| 湛江市| 兴城市|