姚暢 陳后金 Yang Yong-Yi 李艷鳳 韓振中 張勝君
1)(北京交通大學(xué)電子信息工程學(xué)院,北京 100044)
2)(Department of Electrical and Computer Engineering,Illinois Institute of Technology,Chicago IL 60616,USA)
(2012年12月1日收到;2013年1月29日收到修改稿)
乳腺癌是婦女發(fā)病率和死亡率最高的惡性腫瘤之一,乳腺癌的早期發(fā)現(xiàn)和診斷是提高治愈率和降低死亡率的關(guān)鍵[1,2].目前,應(yīng)用于乳腺癌診斷的檢測(cè)方法有:X射線影像技術(shù)、計(jì)算機(jī)斷層攝影術(shù)、光聲成像、核磁共振成像、微波成像等技術(shù)[3-9].其中,乳腺X線影像技術(shù)被認(rèn)為是最可靠和最有效的方法[9].放射科醫(yī)師利用它可以發(fā)現(xiàn)乳腺癌觸診而不能發(fā)現(xiàn)的早期微小病灶——微鈣化點(diǎn).在乳腺X線圖像中,微鈣化點(diǎn)是以小亮點(diǎn)出現(xiàn)的鈣沉淀.通常單個(gè)的微鈣化點(diǎn)對(duì)于乳腺癌的檢測(cè)沒(méi)有太大的意義,聚合成簇出現(xiàn)的微鈣化點(diǎn)才是早期乳腺癌的重要癥兆(如圖1所示).研究表明,30%—50%確診的乳腺癌患者在早期的乳腺X線圖像篩查中有微鈣化點(diǎn)簇出現(xiàn)[10].因此,乳腺X線圖像中微鈣化點(diǎn)簇的分析處理對(duì)乳腺癌的早期防治具有非常重要的意義.
圖1 乳腺X線圖像(左)及其含有的一個(gè)微鈣化點(diǎn)簇的放大圖(右)
由于微鈣化點(diǎn)在形狀、大小、分布上都有很大變化性,且其灰度與周圍乳腺組織灰度接近,所以微鈣化點(diǎn)的檢測(cè)比較困難.目前,關(guān)于微鈣化點(diǎn)的檢測(cè)方法已有不少文獻(xiàn)報(bào)道,主要可分為:圖像增強(qiáng)方法、隨機(jī)建模方法、多尺度分解方法和機(jī)器學(xué)習(xí)方法[8-13].其中,基于機(jī)器學(xué)習(xí)的微鈣化點(diǎn)檢測(cè)方法能獲得較好的微鈣化點(diǎn)檢測(cè)性能,是當(dāng)前微鈣化點(diǎn)簇處理方法研究的主要方向.Naqa等[12]將支持向量機(jī)(support vector machine,SVM)應(yīng)用于微鈣化點(diǎn)檢測(cè),采用連續(xù)增強(qiáng)學(xué)習(xí)方法訓(xùn)練分類器以進(jìn)一步提高預(yù)測(cè)能力,實(shí)驗(yàn)結(jié)果證明了支持向量機(jī)方法的檢測(cè)性能要優(yōu)于神經(jīng)網(wǎng)絡(luò)方法、圖像差分方法和小波多尺度分解方法.Wei等[13]將相關(guān)向量機(jī)(relevance vector machine,RVM)應(yīng)用于微鈣化點(diǎn)簇處理,通過(guò)實(shí)驗(yàn)仿真證明了RVM在獲得與SVM相同的性能情況下,分類器的計(jì)算復(fù)雜度較SVM大幅下降,有利于臨床應(yīng)用.但是,由于RVM最終獲得的相關(guān)向量全部來(lái)自訓(xùn)練集中的訓(xùn)練樣本,且模型采用的核函數(shù)的參數(shù)只能通過(guò)對(duì)訓(xùn)練集樣本采用交叉驗(yàn)證方法來(lái)人工設(shè)定,從而導(dǎo)致RVM算法性能的進(jìn)一步提高受到了影響.
2009年Tzikas等[14]提出了一種基于增量學(xué)習(xí)的稀疏貝葉斯建模方法,即自適應(yīng)核學(xué)習(xí)相關(guān)向量機(jī)(adaptive kernel learning based relevance vector machine,ARVM)方法.在原理上,ARVM與RVM相似.然而,在RVM方法中,相關(guān)向量來(lái)自訓(xùn)練集中的訓(xùn)練樣本,且模型采用的核函數(shù)的參數(shù)只能通過(guò)對(duì)訓(xùn)練集采用交叉驗(yàn)證方法來(lái)確定.而在ARVM方法中,核函數(shù)參數(shù)由模型在訓(xùn)練時(shí)自動(dòng)優(yōu)化設(shè)置,模型核函數(shù)允許同時(shí)采用不同類型的基函數(shù)構(gòu)成,更適應(yīng)數(shù)據(jù)的局部特征.為避免過(guò)擬合,模型采用了一種稀疏度先驗(yàn)方法控制模型有效參數(shù)的個(gè)數(shù),從而使得模型比RVM更稀疏.
基于此,本文嘗試性地采用ARVM用于乳腺X線圖像微鈣化點(diǎn)簇分析,研究了基于ARVM的乳腺X線圖像微鈣化點(diǎn)簇處理方法.該方法首先將微鈣化點(diǎn)檢測(cè)看作一個(gè)二分類的監(jiān)督學(xué)習(xí)問(wèn)題,運(yùn)用ARVM作為分類器判斷圖像中每一個(gè)位置是否為微鈣化點(diǎn);然后采用形態(tài)學(xué)處理去除干擾噪聲并對(duì)判別出的微鈣化點(diǎn)進(jìn)行分簇.此外,為提高算法的運(yùn)算速度,實(shí)現(xiàn)了一種基于圖像分塊并行運(yùn)算的ARVM微鈣化點(diǎn)簇快速處理方法.
ARVM是在RVM的基礎(chǔ)上提出的一種核函數(shù)參數(shù)自適應(yīng)學(xué)習(xí)的稀疏貝葉斯建模方法.相比較于RVM,其最大的特點(diǎn)是模型核函數(shù)參數(shù)在訓(xùn)練時(shí)自動(dòng)優(yōu)化設(shè)置,且模型核函數(shù)允許同時(shí)采用不同類型的基函數(shù)構(gòu)成.同時(shí),模型采用稀疏度先驗(yàn)方法控制模型有效參數(shù)的個(gè)數(shù),從而使得模型比RVM更稀疏.基于這些特性,ARVM能很好地解決回歸和分類問(wèn)題.本文采用ARVM來(lái)解決二分類問(wèn)題.
其中
w=(w1,w2,···,wM)T為模型的權(quán)值,φ(x;θi),(i=1,···,M)是參數(shù)為 θ =(θ1,θ2,···,θM)T的核基函數(shù)集.
對(duì)于模型權(quán)值w的分布,采用不同精度的高斯先驗(yàn)αi進(jìn)行控制,
其中 α =(α1,···,αM)T.
對(duì)于模型每個(gè)噪聲εn,則為具有不同精度βn的高斯噪聲:
利用貝葉斯定理,權(quán)值的后驗(yàn)分布概率為
在該算法中,盡管α和β被引入先驗(yàn)分布,但是并不計(jì)算這些隱藏變量的聯(lián)合后驗(yàn)概率而是只計(jì)算權(quán)值后驗(yàn)概率p(w|t,α,β),接著計(jì)算出后驗(yàn)概率 p(α,β|t)∝p(t|α,β)p(α,β)最大值時(shí)的 α 和 β 的最大后驗(yàn)概率(maximum a posteriori,MAP).由于假設(shè)α和β的無(wú)信息先驗(yàn),∫更新公式可以通過(guò)最大化邊緣似然率 p(t|α,β)= p(t|w,β)p(w|α)d w 獲得.
為了避免過(guò)擬合,不同于RVM采用伽瑪(Gamma)先驗(yàn)分布的方法,ARVM對(duì)于α引入超先驗(yàn)用來(lái)直接控制模型有效參數(shù)的個(gè)數(shù):
其中,S=ΦΣΦTB稱為平滑矩陣,矩陣的跡trace(S)稱為S的自由度,表示模型參數(shù)的有效個(gè)數(shù),c為稀疏度參數(shù),控制模型期望稀疏度的大小.計(jì)算trace(S)得:
因此,稀疏度先驗(yàn)式(7)可寫為
基于超先驗(yàn)p(α|β),模型超參數(shù)α和β通過(guò)最大化后驗(yàn)概率 p(α,β|t)∝ p(t|α,β)p(α|β)p(β)進(jìn)行更新.由于協(xié)方差Σ的計(jì)算復(fù)雜度為O(N3),算法采用增量方法[15]進(jìn)行學(xué)習(xí).初始假設(shè)所有αi=∞,即假設(shè)所有基函數(shù)由于稀疏度控制為空,然后進(jìn)行迭代更新,并判斷每次迭代得到的基函數(shù)是否滿足條件添加到模型或是否需要從模型刪除.當(dāng)有基函數(shù)添加到模型后,相應(yīng)的參數(shù)αi設(shè)定為使后驗(yàn)概率最大時(shí)的值.
在增量方法中,對(duì)數(shù)化的后驗(yàn)概率L中僅與參數(shù)αi相關(guān)的項(xiàng)為
lis的梯度為
將梯度取零,從而求得lis取最大值時(shí)的αi為
同樣,對(duì)于超參數(shù)β的更新,也是取后驗(yàn)概率L對(duì)β求偏導(dǎo)后等于零的數(shù)值解.此外,對(duì)于模型核基函數(shù)φ(x;θi)中的不同核函數(shù)參數(shù)θi,算法通過(guò)計(jì)算后驗(yàn)概率L對(duì)基函數(shù)參數(shù)θ的偏導(dǎo),然后采用擬牛頓法(Broyden Fletcher Goldfarb Shanno,BFGS)求解最優(yōu)值.
本文將乳腺X線圖像中的微鈣化點(diǎn)檢測(cè)問(wèn)題看作一個(gè)二分類問(wèn)題,采用ARVM算法實(shí)現(xiàn)對(duì)微鈣化點(diǎn)簇的處理.具體來(lái)說(shuō),包括微鈣化點(diǎn)檢測(cè)和微鈣化點(diǎn)分簇兩步操作.其中,微鈣化點(diǎn)檢測(cè)通過(guò)對(duì)預(yù)處理后的乳腺X線圖像逐個(gè)提取像素點(diǎn)位置的圖像特征,然后采用訓(xùn)練好的ARVM分類器判斷其是否屬于“微鈣化點(diǎn)”類或“非微鈣化點(diǎn)”類來(lái)實(shí)現(xiàn);微鈣化點(diǎn)分簇則是通過(guò)對(duì)檢測(cè)出的微鈣化點(diǎn)采用Kallergi標(biāo)準(zhǔn)來(lái)判斷實(shí)現(xiàn).
微鈣化點(diǎn)通常與背景中的乳腺組織重疊,且其灰度與周圍乳腺組織灰度接近,必須進(jìn)行預(yù)處理抑制背景噪聲、增強(qiáng)對(duì)比度.本文采用文獻(xiàn)[13]的高通濾波方法進(jìn)行預(yù)處理.通過(guò)大量實(shí)驗(yàn),高通濾波器設(shè)計(jì)為截止頻率ωc=0.125、長(zhǎng)度為41的一維有限脈沖響應(yīng)濾波器,然后采用基于麥克萊倫(McClellan)矩陣的頻率變換將其轉(zhuǎn)換為二維有限脈沖響應(yīng)濾波器,如圖2所示.為降低各圖像灰度差異,濾波后的圖像進(jìn)行了歸一化處理.圖3所示為高通濾波后的圖像.
圖2 高通濾波器
圖3 高通濾波后的結(jié)果
在ARVM的訓(xùn)練中,作為金標(biāo)準(zhǔn)的數(shù)據(jù)為專家手工標(biāo)定的每個(gè)微鈣化點(diǎn)的中心位置.由于專家手工標(biāo)定的微鈣化點(diǎn)中心不一定在微鈣化點(diǎn)亮度最亮的位置,為減少算法通過(guò)計(jì)算機(jī)找出的微鈣化點(diǎn)中心與專家標(biāo)定的中心位置的誤差,我們采用線性濾波的方法校正專家手工標(biāo)定的中心位置.首先設(shè)計(jì)一個(gè)大小為7×7的加權(quán)平均濾波器掩模,如圖4(a)所示;然后,對(duì)歸一化的圖像中專家標(biāo)識(shí)的微鈣化點(diǎn)中心位置的15×15鄰域圖像進(jìn)行形態(tài)學(xué)線性濾波,找出濾波后結(jié)果中的最大峰值點(diǎn),將該點(diǎn)位置標(biāo)記為校正后的微鈣化點(diǎn)中心,校正過(guò)程如圖4(b)所示.
特征提取是微鈣化點(diǎn)檢測(cè)的關(guān)鍵步驟,特征提取的結(jié)果直接影響到分類器的檢測(cè)性能.由于微鈣化點(diǎn)在乳腺X線圖像中具有較好的定位性,因此,判斷圖像中一個(gè)像素點(diǎn)位置是否是微鈣化點(diǎn)時(shí),可以通過(guò)提取其周圍鄰域內(nèi)的圖像內(nèi)容進(jìn)行判別.本文提取乳腺X線圖像中待判別像素點(diǎn)位置的G×G鄰域像素構(gòu)成特征向量,作為ARVM的輸入,待判別的像素點(diǎn)位置位于G×G窗的中心.具體來(lái)說(shuō)是將每個(gè)G行G列(G×G)的圖像窗排列為一個(gè)G×G維的行向量.其中,G的選擇條件為:窗口的大小能覆蓋整個(gè)微鈣化點(diǎn)像素區(qū)域同時(shí)又不與鄰近的微鈣化點(diǎn)區(qū)域有重疊.本文采用的圖像數(shù)據(jù)庫(kù)中,乳腺X線圖像的精度為0.05 mm/pixel,通過(guò)實(shí)驗(yàn),G取經(jīng)驗(yàn)值15最為合適.圖5所示為預(yù)處理后的乳腺X線圖像中提取出的含有微鈣化點(diǎn)的特征樣本.
圖4 中心位置校正 (a)濾波器掩模;(b)中心位置校正過(guò)程
圖5 提取的含有微鈣化點(diǎn)的樣本
ARVM的最重要特性是模型在訓(xùn)練期間能自動(dòng)優(yōu)化設(shè)置核函數(shù)的參數(shù).本文實(shí)驗(yàn)中主要考慮常用的多項(xiàng)式核函數(shù)(polynomial kernel,簡(jiǎn)記為Poly)和高斯徑向基核函數(shù)(Gaussian RBF kernel,RBF).由于核參數(shù)的自適應(yīng)連續(xù)優(yōu)化是基于核參數(shù)的偏導(dǎo)進(jìn)行的,因此,需要計(jì)算核函數(shù)對(duì)其參數(shù)的偏導(dǎo).
1)多項(xiàng)式核函數(shù)
其中d為階數(shù),d>0,mi為模型訓(xùn)練過(guò)程中需要自動(dòng)優(yōu)化的核參數(shù).核函數(shù)對(duì)mi求偏導(dǎo):
2)高斯徑向基核函數(shù)
其中,均值向量mi和方差hi為模型訓(xùn)練過(guò)程中需要自動(dòng)優(yōu)化設(shè)置的核參數(shù).核函數(shù)分別對(duì)mi和hi求偏導(dǎo):
核函數(shù)參數(shù)mi的初始值為隨機(jī)挑選的訓(xùn)練樣本,然后通過(guò)擬牛頓法迭代優(yōu)化,算法最終收斂獲得的mi即為模型的相關(guān)向量.
模型的復(fù)雜度采用(7)式的稀疏度先驗(yàn)方法進(jìn)行控制,其中稀疏度參數(shù)c根據(jù)如下常用標(biāo)準(zhǔn)取值[14]:
通過(guò)ARVM分類器檢測(cè)出來(lái)的微鈣化點(diǎn)進(jìn)行后續(xù)分簇操作時(shí),由于有些檢測(cè)出來(lái)的相互鄰近的像素點(diǎn)可能是同一個(gè)微鈣化點(diǎn)的一部分,因此需要將這些像素點(diǎn)合并到同一個(gè)微鈣化點(diǎn).本文采用形態(tài)學(xué)方法進(jìn)行處理,同時(shí)將結(jié)果中孤立的可疑像素點(diǎn)去除.
形態(tài)學(xué)處理后的微鈣化點(diǎn)采用Kallergi標(biāo)準(zhǔn)[16]劃分為不同的微鈣化點(diǎn)簇.該標(biāo)準(zhǔn)將檢測(cè)出的微鈣化點(diǎn)判別為一個(gè)真陽(yáng)性(true positive,TP)簇時(shí)需要同時(shí)滿足以下兩個(gè)條件:
1)相互鄰近的目標(biāo)的近鄰距離小于0.4 cm;
2)在面積為1 cm2的范圍內(nèi)檢測(cè)出的微鈣化點(diǎn)中應(yīng)至少包含有3個(gè)真正的微鈣化點(diǎn).
當(dāng)一組檢測(cè)出的微鈣化點(diǎn)滿足簇判別條件1),但不包含真正的微鈣化點(diǎn)時(shí),該簇稱為假陽(yáng)性(false positive,FP)簇.
訓(xùn)練好的分類器對(duì)測(cè)試圖像進(jìn)行微鈣化點(diǎn)檢測(cè)時(shí),將15×15的窗口在圖像上滑動(dòng)以提取每個(gè)像素點(diǎn)的特征向量進(jìn)行判斷.將提取的特征向量排列為特征矩陣,然后采用分類器進(jìn)行判別,判別結(jié)果再排列回原圖像位置,這樣可以節(jié)省大量的計(jì)算機(jī)運(yùn)行時(shí)間.但由于圖像和特征向量太大,從而使得特征矩陣也變大,算法進(jìn)行矩陣處理時(shí)由于運(yùn)算量太大導(dǎo)致對(duì)機(jī)器內(nèi)存要求變高,進(jìn)而使得算法執(zhí)行速度下降.為此,本文提出一種圖像分塊的處理方法.該方法將預(yù)處理后的待檢測(cè)乳腺圖像劃分為J×J塊子圖像;然后分別提取每個(gè)子塊中各像素點(diǎn)的特征向量,即提取每一個(gè)像素點(diǎn)的15×15鄰域并排列成225維的行向量,將子塊中各特征向量依次排列為待識(shí)別的特征向量矩陣,交由訓(xùn)練好的ARVM分類器進(jìn)行判斷,這一步操作也可以通過(guò)計(jì)算機(jī)并行運(yùn)算快速實(shí)現(xiàn);最后,將J×J塊子圖像的判斷結(jié)果合并為整幅圖像的識(shí)別結(jié)果.分塊方法在提高算法的執(zhí)行速度的同時(shí)不改變算法的檢測(cè)結(jié)果.圖6所示為J取4時(shí)的圖像分塊檢測(cè)方法示意圖.
將圖像分塊和ARVM應(yīng)用于乳腺X線圖像微鈣化點(diǎn)簇處理,本文方法流程如下:
步驟1 利用訓(xùn)練樣本集訓(xùn)練ARVM.
1)讀入訓(xùn)練乳腺圖像,進(jìn)行高通濾波和歸一化預(yù)處理;
2)對(duì)預(yù)處理后的圖像校正專家手工標(biāo)定的微鈣化點(diǎn)中心坐標(biāo);
3)對(duì)中心坐標(biāo)校正后的圖像提取訓(xùn)練樣本特征向量,并將其排列為訓(xùn)練樣本特征矩陣;
4)利用獲得的訓(xùn)練樣本特征矩陣訓(xùn)練ARVM.
圖6 圖像分塊方法示意圖
步驟2 利用訓(xùn)練好的ARVM識(shí)別測(cè)試圖像中的微鈣化點(diǎn).
1)讀入待測(cè)試乳腺圖像,進(jìn)行高通濾波和歸一化預(yù)處理;
2)對(duì)預(yù)處理后的圖像采用分塊方法將圖像分為J×J個(gè)子塊圖像;
3)依序每次對(duì)其中一個(gè)子塊圖像提取其待測(cè)試特征向量,并將其排列為待測(cè)特征矩陣;
4)采用訓(xùn)練好的ARVM對(duì)待測(cè)試特征矩陣進(jìn)行判斷,獲得識(shí)別的可疑微鈣化點(diǎn);
5)重復(fù)步驟2中第3),4)步,將獲得的各子塊圖像檢測(cè)結(jié)果合并為整幅圖像的檢測(cè)結(jié)果.
步驟3 對(duì)獲得的可疑微鈣化點(diǎn)識(shí)別結(jié)果進(jìn)行形態(tài)學(xué)后處理,去掉干擾噪聲.
步驟4 對(duì)微鈣化點(diǎn)進(jìn)行分簇,獲得最終的微鈣化點(diǎn)簇處理結(jié)果.
實(shí)驗(yàn)采用美國(guó)芝加哥大學(xué)放射系臨床采集的數(shù)據(jù)庫(kù)[13]來(lái)檢驗(yàn)算法的有效性.該數(shù)據(jù)庫(kù)由66個(gè)臨床病例共141幅圖像組成,每幅圖像包含有一個(gè)或多個(gè)后期經(jīng)臨床確診的微鈣化點(diǎn)簇.每幅圖像的大小為3000×5000像素,圖像分辨率為0.05 mm/pixel,10位灰度.同時(shí),數(shù)據(jù)庫(kù)提供了每幅圖像經(jīng)由一組有經(jīng)驗(yàn)的放射科專家手工標(biāo)定的微鈣化點(diǎn)信息以及每幅圖像中乳腺區(qū)域的二值掩模.為節(jié)省計(jì)算時(shí)間,與文獻(xiàn)[13]方法一樣,提取每幅圖像中包含專家標(biāo)定的微鈣化點(diǎn)在內(nèi)的800×800像素區(qū)域進(jìn)行實(shí)驗(yàn).
實(shí)驗(yàn)將圖像庫(kù)隨機(jī)分為兩個(gè)獨(dú)立的子集,每個(gè)子集包含33個(gè)病例.其中,來(lái)自同一個(gè)病例不同視角的乳腺X線圖像屬于同一個(gè)子集.將其中一個(gè)子集用于訓(xùn)練ARVM分類器(33個(gè)病例,71幅圖像),另一個(gè)子集用于測(cè)試分類器(33個(gè)病例,70幅圖像).這樣,來(lái)自同一個(gè)病例的所有乳腺X線圖像將要么只用于訓(xùn)練,要么只用于測(cè)試,不會(huì)同時(shí)用于模型的訓(xùn)練和測(cè)試.
訓(xùn)練圖像集包含的乳腺X線圖像中總共有1578個(gè)微鈣化點(diǎn).對(duì)于每個(gè)微鈣化點(diǎn),提取其中心位置的15×15鄰域窗,并將窗內(nèi)所有像素點(diǎn)值排列為一個(gè)1行225列的行向量,表示為xi.xi即為訓(xùn)練樣本中類別標(biāo)簽為“微鈣化點(diǎn)出現(xiàn)”(ti=+1)的正樣本.總共提取有1578個(gè)正樣本.同樣地,提取2倍于有微鈣化點(diǎn)出現(xiàn)樣本數(shù)的背景像素窗排列為“無(wú)微鈣化點(diǎn)出現(xiàn)”(ti=-1)的負(fù)樣本(3422個(gè)).無(wú)微鈣化點(diǎn)出現(xiàn)的負(fù)樣本是從訓(xùn)練集圖像的背景中隨機(jī)提取,且不與其他任意樣本窗有重疊.圖7所示為從訓(xùn)練集提取的部分訓(xùn)練樣本.
提取完訓(xùn)練樣本集后,需要確定ARVM所采用的核函數(shù)類型以及模型稀疏度參數(shù)c的取值才能對(duì)分類器進(jìn)行訓(xùn)練.本實(shí)驗(yàn)采用5折交叉驗(yàn)證(5-fold crossvalidation)方法來(lái)確定.
交叉驗(yàn)證[17]是一種統(tǒng)計(jì)學(xué)上將數(shù)據(jù)樣本切割成較小子集,先在部分子集上做分析,而后在其他子集上對(duì)此分析進(jìn)行確認(rèn)及驗(yàn)證的實(shí)用方法.本文采用的5折交叉驗(yàn)證方法為:
1)將訓(xùn)練樣本隨機(jī)分為5個(gè)同樣大小的子集;
2)對(duì)于要設(shè)置的參數(shù),從5個(gè)子集中選擇1個(gè)子集保留作為測(cè)試集,其余4個(gè)子集作為訓(xùn)練集訓(xùn)練模型;模型訓(xùn)練好后用保留的測(cè)試集進(jìn)行驗(yàn)證,獲得該次的測(cè)試結(jié)果;
圖7 提取的訓(xùn)練樣本 (a)“微鈣化點(diǎn)出現(xiàn)”樣本;(b)“無(wú)微鈣化點(diǎn)出現(xiàn)”樣本
3)交叉重復(fù)5次,每個(gè)子集被驗(yàn)證1次,平均5次的測(cè)試結(jié)果作為該參數(shù)值的泛化誤差.
改變參數(shù)的取值,5折交叉驗(yàn)證方法將獲得相應(yīng)的泛化誤差,選擇最小泛化誤差對(duì)應(yīng)的取值作為該參數(shù)的設(shè)定值.
表1給出了不同核函數(shù)類型和不同稀疏度值時(shí)模型的泛化誤差,其中Poly1,Poly2,Poly3,Poly4分別表示1,2,3,4階的多項(xiàng)式核函數(shù);RBF表示高斯徑向基核函數(shù).從表1可以看出,最小的泛化誤差為0.0385,其對(duì)應(yīng)的核函數(shù)為2階多項(xiàng)式核函數(shù),稀疏度參數(shù)為lg(N)/2.因此,ARVM中的核函數(shù)采用2階多項(xiàng)式核函數(shù)、稀疏度參數(shù)c=lg(N)/2.
表1 不同參數(shù)值的ARVM獲得的泛化誤差
采用訓(xùn)練樣本集對(duì)ARVM進(jìn)行訓(xùn)練,直到算法收斂,從而獲得訓(xùn)練好的分類器.本實(shí)驗(yàn)中當(dāng)連續(xù)10次迭代每次模型后驗(yàn)概率L的增量可忽略且模型權(quán)值非零個(gè)數(shù)恒定不變時(shí),認(rèn)為分類器已經(jīng)訓(xùn)練好.圖8所示為本實(shí)驗(yàn)采用2階多項(xiàng)式核函數(shù)的ARVM收斂過(guò)程,由圖8可以看出,算法在迭代到第5次時(shí)就已經(jīng)訓(xùn)練好了分類器,訓(xùn)練好的分類器相關(guān)向量個(gè)數(shù)為5,且這些相關(guān)向量不是直接來(lái)自訓(xùn)練樣本集,而是模型通過(guò)增量方法自適應(yīng)優(yōu)化獲得,相關(guān)向量如圖9所示.
圖8 ARVM收斂過(guò)程
圖9 相關(guān)向量
圖10 所示為本文算法對(duì)圖1中局部放大圖的微鈣化點(diǎn)檢測(cè)結(jié)果,其中“°”表示放射科專家標(biāo)出的真實(shí)微鈣化點(diǎn)位置,“+”表示本文算法檢測(cè)出的微鈣化點(diǎn).對(duì)圖10結(jié)果進(jìn)行分析可知,盡管本文算法漏檢了兩個(gè)真實(shí)微鈣化點(diǎn),且多檢出了兩個(gè)假陽(yáng)性微鈣化點(diǎn),但是整個(gè)檢測(cè)出的微鈣化點(diǎn)目標(biāo)滿足Kallergi微鈣化點(diǎn)簇判別標(biāo)準(zhǔn),因此成功地檢測(cè)出了該微鈣化點(diǎn)簇.
為比較算法性能,實(shí)驗(yàn)同時(shí)將文獻(xiàn)[13]中的RVM算法采用相同的測(cè)試集進(jìn)行比較.實(shí)驗(yàn)結(jié)果采用自由響應(yīng)受試者工作特征(free-response re-ceiver operating characteristic,FROC)[18]曲線進(jìn)行分析和評(píng)價(jià).FROC曲線通過(guò)計(jì)算真陽(yáng)性簇的正確率(也叫真陽(yáng)性率)和平均每幅圖像的假陽(yáng)性簇個(gè)數(shù),并將不同閾值下這兩個(gè)檢測(cè)量的統(tǒng)計(jì)值繪制在同一個(gè)圖中來(lái)評(píng)價(jià)算法性能.曲線越接近圖的左上角,說(shuō)明算法對(duì)微鈣化點(diǎn)簇的處理性能越好.實(shí)驗(yàn)通過(guò)改變判別微鈣化點(diǎn)的閾值來(lái)繪制算法處理結(jié)果的FROC曲線.圖11所示為近鄰距離Dnn=0.4 cm時(shí),本算法ARVM和文獻(xiàn)[13]的RVM算法對(duì)微鈣化點(diǎn)簇處理結(jié)果的FROC曲線圖.
圖10 檢測(cè)出的微鈣化點(diǎn),“○”表示專家標(biāo)出的真實(shí)微鈣化點(diǎn),“+”表示本文算法檢測(cè)出的微鈣化點(diǎn)
圖11 D nn=0.4 cm時(shí)的FROC曲線
由圖11可以看出,當(dāng)單幅圖像平均假陽(yáng)性簇個(gè)數(shù)在[0,1]區(qū)間時(shí),本文ARVM算法的真陽(yáng)性率要高于文獻(xiàn)[13]的RVM算法;單幅圖像平均假陽(yáng)性簇個(gè)數(shù)在[1,4]區(qū)間時(shí),ARVM與RVM的真陽(yáng)性率接近.臨床采用計(jì)算機(jī)輔助診斷系統(tǒng)提供輔助信息時(shí),檢測(cè)出的每幅圖像平均假陽(yáng)性簇個(gè)數(shù)如果太高則對(duì)輔助診斷意義不大,醫(yī)生主要關(guān)注每幅圖像平均假陽(yáng)性簇個(gè)數(shù)小于1時(shí)的真陽(yáng)性簇檢測(cè)結(jié)果.本文實(shí)現(xiàn)的ARVM算法正是在這個(gè)區(qū)間算法性能要優(yōu)于RVM算法.特別是當(dāng)單幅圖像平均假陽(yáng)性簇個(gè)數(shù)為0.5時(shí),ARVM算法的真陽(yáng)性率為87%,而RVM算法的真陽(yáng)性率只有71%.
由于FROC曲線受微鈣化點(diǎn)簇的判別標(biāo)準(zhǔn)影響,因此,在本文實(shí)驗(yàn)中,改變微鈣化點(diǎn)簇的判別標(biāo)準(zhǔn),即改變近鄰距離Dnn,然后統(tǒng)計(jì)相應(yīng)的FROC曲線值來(lái)觀察算法的性能.圖12和圖13所示分別為Dnn=0.3 cm和Dnn=0.2 cm時(shí)的FROC曲線圖.綜合圖11,12和13可以看出,當(dāng)改變近鄰距離,Dnn的取值從0.2 cm增大到0.4 cm時(shí),ARVM和RVM算法對(duì)微鈣化點(diǎn)簇的處理性能都在不斷提高;但在相同的近鄰距離情況下,當(dāng)單幅圖像平均假陽(yáng)性簇個(gè)數(shù)小于1時(shí),本文算法的處理性能都要優(yōu)于RVM算法,即在相同的假陽(yáng)性簇個(gè)數(shù)情況下,ARVM算法的真陽(yáng)性率要高于RVM算法.
圖12 D nn=0.3 cm時(shí)的FROC曲線
圖13 D nn=0.2 cm時(shí)的FROC曲線
由于組織結(jié)構(gòu)特性的差異,女性乳腺通常分為致密型乳腺和脂肪型乳腺.乳腺腺體類型的不同,導(dǎo)致算法對(duì)其X線圖像中的微鈣化點(diǎn)簇的處理難度也不同.通常,致密型乳腺X線圖像比脂肪型乳腺X線圖像背景更復(fù)雜,對(duì)比度更低,處理也更難.實(shí)驗(yàn)為降低測(cè)試圖像集中不同類型病例分布對(duì)算法性能的影響,采用自助重采樣(bootstrapping)方法[19,20]進(jìn)行2000次測(cè)試檢驗(yàn)算法的魯棒性,具體執(zhí)行步驟為:
1)從測(cè)試圖像集(70幅圖像)中隨機(jī)提取30幅圖像作為該次測(cè)試的測(cè)試圖像子集;
2)對(duì)30幅圖像子集采用訓(xùn)練好的分類器進(jìn)行測(cè)試,并畫出該次測(cè)試結(jié)果的FROC曲線;
3)重復(fù)步驟1)和2),進(jìn)行2000次測(cè)試;
4)畫出分類器測(cè)試結(jié)果的平均FROC曲線.
圖14所示為本算法對(duì)2000個(gè)通過(guò)自助重采樣獲得的測(cè)試圖像子集處理結(jié)果的FROC曲線圖.其中,每一條藍(lán)色曲線表示算法對(duì)1個(gè)測(cè)試圖像子集處理獲得的FROC曲線,共2000條;中間曲線表示2000次測(cè)試結(jié)果的平均FROC曲線,曲線上每個(gè)操作點(diǎn)的數(shù)據(jù)條表示在當(dāng)前平均每幅圖像檢測(cè)到的假陽(yáng)性微鈣化點(diǎn)簇的情況下,算法對(duì)不同組合測(cè)試圖像子集處理獲得的微鈣化點(diǎn)簇真陽(yáng)性率的波動(dòng)情況,數(shù)據(jù)條長(zhǎng)度表示真陽(yáng)性率的標(biāo)準(zhǔn)方差大小.數(shù)據(jù)條越短,波動(dòng)性越小,魯棒性越強(qiáng).
圖14 本算法2000次自助重采樣測(cè)試的FROC曲線圖
實(shí)驗(yàn)對(duì)本文ARVM算法和文獻(xiàn)[13]的RVM算法在不同近鄰距離下進(jìn)行自助重采樣測(cè)試,并對(duì)獲得的平均FROC曲線進(jìn)行比較.圖15,16和17所示分別為Dnn=0.2,0.3和0.4 cm時(shí)2000次自助重采樣測(cè)試獲得的平均FROC曲線圖.
圖15 D nn=0.2 cm時(shí)2000次自助重采樣測(cè)試結(jié)果
圖16 D nn=0.3 cm時(shí)2000次自助重采樣測(cè)試結(jié)果
圖17 D nn=0.4 cm時(shí)2000次自助重采樣測(cè)試結(jié)果
從圖15,16和17可以看出,不論在哪種近鄰距離情況下,當(dāng)單幅圖像平均假陽(yáng)性簇個(gè)數(shù)小于1.5時(shí),ARVM算法獲得的真陽(yáng)性率總要高于RVM算法;同時(shí)從數(shù)據(jù)條的長(zhǎng)度可以看出,對(duì)于不同組合類型的測(cè)試圖像集,ARVM算法真陽(yáng)性率的波動(dòng)性要比RVM算法小,具有更強(qiáng)的魯棒性.
圖像分塊大小J的取值一方面與測(cè)試圖像的大小有關(guān),另一方面與實(shí)驗(yàn)機(jī)器配置有關(guān),并不是J取值越大,算法效率越高.本實(shí)驗(yàn)在雙核、主頻為1.60 GHz,內(nèi)存為1 G的臺(tái)式計(jì)算機(jī)Matlab R2010a平臺(tái)上進(jìn)行,測(cè)試圖像區(qū)域大小為800×800像素.圖18所示為J不同取值情況下ARVM檢測(cè)完一幅圖像的時(shí)間.由圖18可見(jiàn),J取值為200時(shí)能獲得最快的檢測(cè)速度.
圖18 J不同取值情況下ARVM測(cè)試時(shí)間統(tǒng)計(jì)圖
表2 算法執(zhí)行時(shí)間和相關(guān)向量數(shù)
為比較算法的計(jì)算復(fù)雜度和運(yùn)行效率,本算法ARVM和文獻(xiàn)[13]中RVM的運(yùn)行時(shí)間和模型相關(guān)向量個(gè)數(shù)如表2所示.其中,訓(xùn)練時(shí)間指在訓(xùn)練階段交叉驗(yàn)證方法中平均每次的訓(xùn)練時(shí)間,測(cè)試時(shí)間指在測(cè)試階段訓(xùn)練好的分類器對(duì)每幅乳腺X線圖像的平均測(cè)試時(shí)間.從表2可以看出,相關(guān)向量個(gè)數(shù)由RVM的72個(gè)降到了ARVM的5個(gè),相關(guān)向量個(gè)數(shù)的減少意味著獲得的分類器越稀疏,從而使得模型測(cè)試時(shí)的計(jì)算復(fù)雜度越低,計(jì)算速度越快.這可從分類器的測(cè)試時(shí)間體現(xiàn)出來(lái),當(dāng)對(duì)整幅圖像逐個(gè)像素點(diǎn)遍歷檢測(cè)時(shí),RVM的測(cè)試時(shí)間為129.8 s,而ARVM的測(cè)試時(shí)間為80.4 s;當(dāng)采用圖像分塊方法檢測(cè)時(shí),RVM的測(cè)試時(shí)間為62.5 s,而ARVM的測(cè)試時(shí)間縮短為24.1 s.此外,從表2還可以看出,ARVM的訓(xùn)練時(shí)間長(zhǎng)于RVM,這是因?yàn)锳RVM算法自動(dòng)優(yōu)化模型參數(shù)時(shí)要花費(fèi)更多的時(shí)間.由于模型通常在用于測(cè)試前提前訓(xùn)練好,因此訓(xùn)練時(shí)間對(duì)于模型的臨床應(yīng)用影響不大.
利用自適應(yīng)核學(xué)習(xí)相關(guān)向量機(jī)具有模型核參數(shù)自動(dòng)優(yōu)化設(shè)置、核基函數(shù)類型可以任意組合以及模型更稀疏的特性,本文將自適應(yīng)核學(xué)習(xí)相關(guān)向量機(jī)應(yīng)用于微鈣化點(diǎn)簇處理,研究了基于自適應(yīng)核學(xué)習(xí)相關(guān)向量機(jī)的乳腺X線圖像微鈣化點(diǎn)簇處理方法,同時(shí)為提高模型的運(yùn)算速度,實(shí)現(xiàn)了一種基于圖像分塊的自適應(yīng)核學(xué)習(xí)相關(guān)向量機(jī)的微鈣化點(diǎn)簇快速處理方法.通過(guò)實(shí)驗(yàn)仿真和算法性能分析,結(jié)果表明基于自適應(yīng)核學(xué)習(xí)相關(guān)向量機(jī)的微鈣化點(diǎn)簇處理方法在較低的單幅圖像平均假陽(yáng)性簇個(gè)數(shù)時(shí)能獲得比相關(guān)向量機(jī)方法更好的處理性能,模型更稀疏,同時(shí)實(shí)現(xiàn)的快速方法能進(jìn)一步降低微鈣化點(diǎn)簇的處理時(shí)間,有利于臨床應(yīng)用.
[1]Ahmed M H,Magda E 2011 IEEE Reviws in Biomedical Engineering 4 103
[2]Zhang X S,Gao X B,Wang Y,Zhang SJ2010 J.Infrared Millim Waves 29 27(in Chinese)[張新生,高新波,王穎,張士杰2010紅外與毫米波學(xué)報(bào)29 27]
[3]Liu G D,Zhang Y R 2011 Acta Phys.Sin.60 074303(in Chinese)[劉廣東,張業(yè)榮2011物理學(xué)報(bào)60 074303]
[4]Xiang L Z,Xing D,Guo H,Yang SH 2009 Acta Phys.Sin.58 4610(in Chinese)[向良忠,邢達(dá),郭華,楊思華2009物理學(xué)報(bào)58 4610]
[5]Zhang H 2004 Acta Phys.Sin.53 2515(in Chinese)[張航2004物理學(xué)報(bào)53 2515]
[6]Xu X H,Li H 2008 Acta Phys.Sin.57 4623(in Chinese)[徐曉輝,李暉2008物理學(xué)報(bào)57 4623]
[7]Xiao X,Xu L,Liu B Y 2013 Acta Phys.Sin.62 044105(in Chinese)[肖夏,徐立,劉冰雨2013物理學(xué)報(bào)62 044105]
[8]Che L L,Zhang G Y,Song L,Cao W F 2011 Chin.J.Med.Phys.28 2467(in Chinese)[車琳琳,張光玉,宋莉,曹衛(wèi)芳2011中國(guó)醫(yī)學(xué)物理學(xué)雜志28 2467]
[9]Tang J,Rangayyan RM,Xu J,Naqa IEl,Yang Y Y 2009 IEEETrans.Inform.Technol.Biomed.13 236
[10]Jing H,Yang Y Y,Nishikawa RM 2011 Phys.Med.Biol.56 1
[11]Jiang J,Yao B,Wason A M 2007 Comput.Med.Imag.Graph.31 49
[12]Naqa IE,Yang Y Y,Wernick M N,Galatsanos N P,Nishikawa R M 2002 IEEETrans.Med.Imag.21 1552
[13]Wei L,Yang Y Y,Nishikawa R M,Wernick M N,Edwards A 2005 IEEETrans.Med.Imag.24 1278
[14]Tzikas D G,Likas A C,Galatsanos N P 2009 IEEE Trans.Neural Networks20 926
[15]Tipping M,Faul A 2003 Proceedingsof the Ninth International Workshop on Artificial Intelligence and Statistics Key West,USA,January 3—6,2003 p1
[16]Kallergi M,Carney GM,Gaviria J1999 Med.Phys.26 267
[17]Muller K R,Mika S,Ratsch G,Tsuda K,Scholkopf B 2001 IEEE Trans.Neural Networks12 181
[18]Bunch PC,Hamilton JF,Sanderson GK,Simmons A H 1978 J.Appl.Photogr.Eng.4 166
[19]Samuelson FW,Petrick N 2006 Proceedingsof 3rd IEEEInternational Symposium On Biodedical Imaging Arlington,USA,April 4—6,2006 p1312
[20]Xing HY,Qi ZD,Xu W 2012 Acta Phys.Sin.61 240504(in Chinese)[行鴻彥,祁崢東,徐偉2012物理學(xué)報(bào)61 240504]