郝惠惠 吳亞平 趙國樺 王梅云 林予松,2*
1(鄭州大學(xué)互聯(lián)網(wǎng)醫(yī)療與健康服務(wù)河南省協(xié)同創(chuàng)新中心 河南 鄭州450052) 2(鄭州大學(xué)軟件學(xué)院 河南 鄭州450052) 3(河南省人民醫(yī)院影像科 河南 鄭州450003)
腦膠質(zhì)瘤是顱腦最常見的惡性腫瘤[1]。世界衛(wèi)生組織根據(jù)腫瘤的惡性程度將腦膠質(zhì)瘤分為低級別腦膠質(zhì)瘤(Low Grade Glioma, LGG)和高級別腦膠質(zhì)瘤(High Grade Glioma,HGG),并分別給出處理治療的建議方案[2]。因此,精確的腦膠質(zhì)瘤分級對治療方案的確定或者預(yù)后有著重大意義[3]。磁共振成像(Magnetic Resonance Imaging,MRI)在軟組織中具有敏感性和卓越的圖像對比度,是大腦診斷和治療過程中的首選檢查方法[4]。通常頭部MRI檢查均包含液體衰減反轉(zhuǎn)恢復(fù)(Flair)成像、T1加權(quán)成像(T1)、增強T1加權(quán)成像(CET1)和T2加權(quán)成像(T2)等序列[5-6]。每個MRI序列構(gòu)成了一個視角,從不同的方面對腫瘤病灶進行描述,為腦膠質(zhì)瘤診斷提供多個視角的互補信息。
隨著機器學(xué)習(xí)的快速發(fā)展,以影像組學(xué)(Radiomics)為代表的腦膠質(zhì)瘤分級研究,通過高通量地從醫(yī)學(xué)影像中提取大量特征訓(xùn)練預(yù)測模型,取得了顯著的研究成果[7-9]。但現(xiàn)有研究主要從單視角出發(fā)基于某個序列進行特征計算和模型訓(xùn)練[10],或?qū)⒍鄠€序列計算的特征進行簡單組合進行訓(xùn)練[11],難以有效利用腦膠質(zhì)瘤多個視角之間的互補信息。
多視角學(xué)習(xí)以訓(xùn)練目標不同觀測數(shù)據(jù)作為研究對象,每個觀測數(shù)據(jù)作為一個視角,通過多個視角的協(xié)同訓(xùn)練,能有效提升模型的泛化性能[12-13]。傳統(tǒng)的多視角學(xué)習(xí)主要采用共同訓(xùn)練算法[14],如co-EM[15]、co-testing[16]等。最大熵判別(MED)模型是一種判別式和生成式的集成框架,能有效應(yīng)用于疾病診斷[17]。文獻[18]驗證了MED在多視角顯微神經(jīng)損傷影像上的診斷效果顯著?;谶吘壱恢滦缘乃惴ㄒ訫ED作為基礎(chǔ)模型框架,充分考慮了多個視角分類結(jié)果的潛在一致性,代表算法有多視角最大熵判別(MVMED)[19]、靈活的多視角最大熵判別(AMVMED)[20]等。AdaBoost算法由于泛化錯誤率低被廣泛應(yīng)用于集成機器學(xué)習(xí)算法實踐中,與Adaboost結(jié)合成為多視角學(xué)習(xí)的一種新的研究方法[21]。文獻[22]將多視角AdaBoost算法和SVM算法結(jié)合實現(xiàn)了漢語組塊識別,文獻[23]利用AdaBoost思想增強了視角的多樣性,文獻[24]通過改進傳統(tǒng)的AdaBoost算法實現(xiàn)了多視角人臉檢測方法,均取得了較好效果。
腦膠質(zhì)瘤磁共振影像的每個序列均可作為單一視角進行腫瘤描述,多個視角的互補性可以為腦膠質(zhì)瘤分級提供更多的信息,應(yīng)用多視角學(xué)習(xí)進行腦膠質(zhì)瘤分級將有助于提升模型的泛化性能,如何利用腦膠質(zhì)瘤多視角信息的互補性是一項具有挑戰(zhàn)性的任務(wù)[25]。本文基于多視角AdaBoost算法設(shè)計了一種以最大熵判別(MED)作為基本分類器的多視角AdaBoost最大熵判別模型(Multi-view AdaBoost Maximum Entropy Discrimination,MBMED),能夠充分利用不同視角的信息互補性及目標一致性,實現(xiàn)腦膠質(zhì)瘤的精準分級。
本文結(jié)合多視角、MED模型及AdaBoost的思想,提出了MBMED模型。AdaBoost是一種將弱分類器以迭代的方式形成一個強分類器的集成模型,模型權(quán)重和樣本權(quán)重不斷地被迭代更新。MED模型則是借鑒正則化理論的概念,通過對目標函數(shù)施加大間隔約束對KL散度進行最小化求解,具有較好的靈活性,同時滿足了判別性的分化約束[26]。利用多視角學(xué)習(xí)的特點,本文提出的MBMED模型采用類似AdaBoost的思想,引入了新的參數(shù)αk,以多個視角的MED模型作為基礎(chǔ)分類器并在此基礎(chǔ)上對腦膠質(zhì)瘤進行分級處理,實現(xiàn)腦膠質(zhì)瘤多視角的信息互補性。為了滿足多視角MED學(xué)習(xí)的一致性需求,還需要令各個視角的分類間隔相等。在MBMED模型訓(xùn)練過程中,通過調(diào)整不同樣本、不同視角在模型中的權(quán)重,更好地平衡了各個視角對于模型的貢獻,既利用了多個視角之間的互補性,又考慮了各個視角的多樣性和差異性。MBMED模型的框架如圖1所示。
圖1 MBMED模型框架
在MBMED模型中,令給定的數(shù)據(jù)集T={Xvt,yt},v∈{1,2,…,V},t∈{1,2,…,N},其中v表示視角數(shù)量,t表示輸入樣本數(shù)量。yt∈{±1}分別表示腦膠質(zhì)瘤的高低級別。首先以視角為單位,給視角中的樣本賦予一個權(quán)重W={w1,w2,…,wn},且初始化權(quán)重為1/N,該權(quán)值向量對樣本點的權(quán)值進行記錄。接下來按W對樣本分布D進行K次迭代運算,迭代規(guī)則如下:
minp(Θ,γ)KL(p(Θ,γ)‖p0(Θ,γ))
(1)
1≤t≤N
式中:γ={γ1,γ2,…,γN}表示分類間隔向量;L(Xt|Θ)為判別函數(shù)(Θ表示分類器參數(shù));p(Θ,γ)為需要求解的聯(lián)合分布;p0(Θ,γ)為目標數(shù)據(jù)集的一個理論分布。優(yōu)化目標是使得p(Θ,γ)接近p0(Θ,γ),求解后得到弱分類器優(yōu)化問題的解為:
(2)
Z(λ)為歸一化常數(shù):
(3)
通過對公式進行實例化求解得到λ后,將其代入式(2),求出p(Θ,γ)并將λ積分掉得到最終的概率分布p(Θ),并對新樣本標簽進行預(yù)測:
(4)
然后根據(jù)弱分類器hv(xt)對腦膠質(zhì)瘤的預(yù)測結(jié)果計算誤差率:
(5)
接下來的權(quán)重更新中,引入αk變量來表示各視角在腦膠質(zhì)瘤分級中的關(guān)系:
(6)
式中:?為同或運算,表示當V個弱分類器相同時為0,不同時為1;αk表示了不同視角對于腦膠質(zhì)瘤預(yù)測結(jié)果不同的比例。
為了表示各個視角在腦膠質(zhì)瘤分級中的作用與差異性,令各個視角的權(quán)重βk表示為:
(7)
則新的樣本權(quán)重表示為:
(8)
以此不斷迭代,模型訓(xùn)練共得到V×K個弱分類器。最后對腦膠質(zhì)瘤的新樣本高低級別進行預(yù)測:
(9)
迭代過程中,若樣本在MED基礎(chǔ)學(xué)習(xí)器中的預(yù)測錯誤,將導(dǎo)致ek增大,在下一輪迭代過程中,樣本權(quán)重將增加,從而達到調(diào)整各個視角及視角內(nèi)部權(quán)重的作用,同時兼顧了每個視角在模型中的聯(lián)系與作用。
為了驗證MBMED模型對于腦膠質(zhì)瘤分級的有效性,實驗針對腦膠質(zhì)瘤MRI數(shù)據(jù)的四個視角,分別計算相應(yīng)的影像組學(xué)特征得到訓(xùn)練集,然后對訓(xùn)練集進行預(yù)處理,最后使用多視角AdaBoost-MED得到最終的輸出,并分析模型的各項性能指標,實驗流程如圖2所示。
圖2 實驗流程圖
本文采用的實驗數(shù)據(jù)集來自公開數(shù)據(jù)集BraTS2017腦膠質(zhì)瘤數(shù)據(jù)集和河南省人民醫(yī)院PACS系統(tǒng)中2012年到2018年的腦膠質(zhì)瘤數(shù)據(jù)集(GliomaHPPH2018數(shù)據(jù)集),具體信息如表1所示。兩組數(shù)據(jù)集均包括腦膠質(zhì)瘤分級的最常用MRI影像序列,即T1加權(quán)成像、T2加權(quán)成像、液體衰減反轉(zhuǎn)恢復(fù)(FLAIR)成像和增強T1加權(quán)成像,其中:T1可以提供腦膠質(zhì)瘤病灶的解剖信息;T2對水腫區(qū)域敏感,可以提供腫瘤邊界、水腫程度等信息;CET1可以反映病灶的血流信息;而FLAIR成像中的水分子信號被抑制,強化了邊緣外鄰近皮層異常信息,有助于區(qū)分水腫區(qū)域腦脊液[5],它們從不同視角對腦膠質(zhì)瘤進行了觀測和評價。
表1 腦膠質(zhì)瘤數(shù)據(jù)集
實驗平臺:處理器為Intel(R) Core(TM) i5- 6500 CPU @ 3.20 GHz,內(nèi)存為8 GB,采用Microsoft Windows 7操作系統(tǒng),主要在MATLAB R2015a上完成實驗。
針對數(shù)據(jù)集BraTS2017和GliomaHPPH2018中的四個視角分別計算影像組學(xué)特征。本文使用開源數(shù)據(jù)包Pyradiomics[27]工具進行影像組學(xué)特征計算,提取的特征包括一階統(tǒng)計特征、空間幾何特征、紋理特征及小波特征四類,共計558個特征,如表2所示。
表2 腦膠質(zhì)瘤提取特征信息
由于提取的腦膠質(zhì)瘤影像組學(xué)特征中存在部分數(shù)值缺失或無效,采用以下原則進行缺失值處理:對于大規(guī)模特征缺失的樣本,通過移除該訓(xùn)練樣本進行處理;對于存在大量缺失的特征,對特征評估確認后予以移除;若特征缺失的數(shù)量相對較少,采用特征均值進行缺失值填補處理。最終每個視角包含549個特征。
對腦膠質(zhì)瘤四個視角對應(yīng)的數(shù)據(jù)集,采用十折交叉驗證進行模型訓(xùn)練,平均結(jié)果作為模型的評價指標。訓(xùn)練過程中,首先將腦膠質(zhì)瘤四個視角的訓(xùn)練集輸入到模型中,并對樣本權(quán)重進行初始化;然后使用MED模型對各個視角進行第一輪訓(xùn)練,得到四個基礎(chǔ)分類器,根據(jù)錯誤率分別實現(xiàn)樣本及視角的權(quán)重更新;其次對上述過程不斷迭代(本文取K=50),從而得到權(quán)重更新后的基本分類器;最后,將基本分類器按照規(guī)則組合得到最終分類器進行腦膠質(zhì)瘤分級。MED模型訓(xùn)練時需要設(shè)置超參數(shù)C,本文采用網(wǎng)格搜索法進行優(yōu)化參數(shù)的尋找。前期實驗已經(jīng)證實,C過小時會出現(xiàn)不可分的情況,因此網(wǎng)格搜索范圍為20至210,并以log2(C)每次增加1為步長。
為了全面評價模型的分級性能,本文采用ROC曲線下面積(AUC)、精確度(Acc)、召回率(Rec)、查準率(Pre)來對模型進行綜合評價。根據(jù)數(shù)據(jù)的實際分類和模型的預(yù)測分類構(gòu)建混淆矩陣,如表3所示。
表3 腦膠質(zhì)瘤分級混淆矩陣
表3中,TP表示實際標簽和預(yù)測標簽都為HGG的樣本數(shù),F(xiàn)P表示實際標簽為LGG而預(yù)測為HGG的樣本數(shù),F(xiàn)N表示實際標簽為HGG而預(yù)測為LGG的樣本數(shù),TN表示實際標簽和預(yù)測標簽都是LGG的樣本數(shù)。評價指標AUC表示以FP為橫坐標TP為縱坐標的ROC曲線下面積。評價指標Acc、Rec、Pre的計算公式分別為:
Acc=(TP+TN)/(TP+TN+FP+FN)
(10)
Rec=TP/(TP+FN)
(11)
Pre=TP/(TP+FP)
(12)
對于基本分類器MED模型而言,超參數(shù)C一定意義上表明了數(shù)據(jù)對線性不可分的容忍度,由于當超參數(shù)C過小時,模型可能沒有有效解;當C大于一定值時,對模型的精度影響較小。因此在模型訓(xùn)練時首先需要對超參數(shù)C進行設(shè)置,最終通過網(wǎng)格搜索選擇一個最優(yōu)參數(shù)值。實驗以AUC作為評價指標,選擇平均性能最好的超參數(shù)C作為最終模型超參數(shù)。圖3和圖4分別展示了BraTS2017數(shù)據(jù)集和GliomaHPPH2018數(shù)據(jù)集在不同C值情況下,MBMED模型和其他單視角MED模型的AUC均值變化情況??梢钥闯龆嘁暯菍W(xué)習(xí)MEMED模型要優(yōu)于單視角MED模型,在MBMED模型訓(xùn)練過程中,隨著C值增加,相應(yīng)的AUC值也在增加,當增加到一定值時,AUC略有下降并保持穩(wěn)定。對于BraTS2017數(shù)據(jù)集和GliomaHPPH2018數(shù)據(jù)集,當C=23時,模型平均性能最好。
圖3 BraTS2017上不同C值的AUC變化圖
圖4 GliomaHPPH2018上不同C值的AUC變化圖
BraTS2017和GliomaHPPH2018數(shù)據(jù)集在最優(yōu)參數(shù)時對應(yīng)的平均AUC值分別為0.948 5和0.961 2。本文采用了AUC、Acc、Rec和Pre作為模型的評價指標,詳細實驗結(jié)果如表4所示。
表4 與單序列對比實驗結(jié)果
可以看出,MBMED模型的總體性能指標明顯優(yōu)于使用單視角的MED模型,在BraTS2017和Glioma-HPPH2018上的AUC分別提升了大約20%和15%以上。同時,MBMED在GliomaHPPH2018數(shù)據(jù)集的整體性能要優(yōu)于BraTS2017數(shù)據(jù)集,分析其原因可能是GliomaHPPH2018數(shù)據(jù)集都來源于同一家醫(yī)院的PACS系統(tǒng),高低級別腦膠質(zhì)瘤所占比例相差較小。而BraTS2017數(shù)據(jù)集則來源于多個中心,數(shù)據(jù)規(guī)格具有不統(tǒng)一的問題,在預(yù)處理過程中可能導(dǎo)致了整體數(shù)據(jù)的質(zhì)量下降,其樣本中高低級別腦膠質(zhì)瘤的比例相差較大,數(shù)據(jù)更加不均衡。
將本文的方法MBMED模型與基于影像組學(xué)(Radiomics)的腦膠質(zhì)瘤分級方法[9,28],以及多視角學(xué)習(xí)的MVMED[19]、EMV-AdaBoost[21]方法進行對比,采用AUC值作為評價指標,并在兩個數(shù)據(jù)集上進行實驗,實驗結(jié)果如圖5所示。
圖5 對比實驗結(jié)果
可以看出,在本實驗中,MBMED算法的性能優(yōu)于另外兩種多視角學(xué)習(xí)方法。同影像組學(xué)的腦膠質(zhì)瘤分級方法相比,本文提出的MBMED模型與影像組學(xué)的方法對腦膠質(zhì)瘤進行分級的結(jié)果相當?;谟跋窠M學(xué)的方法在腦膠質(zhì)瘤分級過程中進行了有效的特征選擇,而本文提出的MBMED模型在沒有進行特征選擇的情況下,依然可以取得與影像組學(xué)方法相當?shù)慕Y(jié)果,這也說明了本文方法在沒有數(shù)據(jù)損失的情況下對于腦膠質(zhì)瘤分級的臨床有效性。本文模型的缺點在于多個視角同時訓(xùn)練時存在噪聲問題,有待進一步解決。
為了實現(xiàn)多視角AdaBoost和MED模型結(jié)合的優(yōu)勢,本文針對腦膠質(zhì)瘤MRI影像四個視角,提出了多視角AdaBoost-MED模型(MBMED),實現(xiàn)了腦膠質(zhì)瘤的精準分級。通過實驗對比證明了該模型對于腦膠質(zhì)瘤分級的有效性。由于多視角影像數(shù)據(jù)存在噪聲影響,下一步工作將研究多視角腦膠質(zhì)瘤數(shù)據(jù)的消歧和去噪問題。