關 沫,邢永吉
(沈陽工業(yè)大學 信息科學與工程學院,遼寧 沈陽 110023)
隨著人類生活方式和日常飲食的改變,加之現(xiàn)代生活快節(jié)奏性與不規(guī)律性,胃腸道疾病的發(fā)病率越來越高。目前,胃部疾病的檢測主要借助于電子胃鏡。醫(yī)學電子胃鏡主要由內(nèi)窺鏡、視頻處理器和視頻顯示器組成。應用電子胃鏡可以采集到高分辨率的醫(yī)學圖像,如圖1所示。臨床醫(yī)生可以靈活地操控電子胃鏡來實時地觀察胃鏡的病變區(qū)域。盡管如此,由于診斷過程主要憑借臨床醫(yī)生的主觀性,加之病理特征的多樣性和胃部環(huán)境的復雜性,胃病診斷的誤診率和漏診率仍居高不下。因此,研究與設計一種基于胃鏡圖像的計算機輔助檢測系統(tǒng)十分必要。
圖1 胃鏡圖像樣例
就目前來看,此方面的研究主要集中在無線膠囊內(nèi)窺鏡圖像上,其研究的焦點主要集中于小腸和結腸的病灶區(qū)域檢測。而針對于傳統(tǒng)胃鏡圖像的研究尚處于起步階段,對于胃部病變的檢測尚未形成一種有效的方法。縱觀前人的工作,雖然檢測方法多種多樣,但可以粗略概括為圖像預處理、特征提取和用分類器進行識別3個步驟。在圖像預處理階段,圖像通常會被分割成小矩形塊[1]或相互重疊的圓形區(qū)域[2];接下來,從分割后得到的區(qū)域提取各種不同特征,包括顏色直方圖、局部二進制模式(LBP)和小波域共生矩陣特征等。在最近幾年中,機器學習被廣泛地應用到醫(yī)學圖像的病灶檢測領域當中,例如支持向量機(SVM)[3]、貝葉斯推理和神經(jīng)網(wǎng)絡等。
前人方法的主要缺陷在于過少地考慮了干擾因素的影響,提取特征相對單一。針對以上問題,本文提出了一種新的基于胃鏡圖像的病灶方法。首先,運用超像素的思想將圖像進行分割;然后,針對每一個分割后的區(qū)域,分別提取適合于排除干擾和識別病灶的組合特征;最后,采用二級串聯(lián)分類器進行干擾區(qū)域的去除和病灶區(qū)域的識別。
胃腸道不同于人體其他器官,作為消化系統(tǒng)的一部分,它的生理環(huán)境十分復雜,其表面經(jīng)常會被粘液、氣泡和食物殘渣等覆蓋。除此之外,胃鏡的光照條件也極大地影響了圖像的質量。綜合前人工作的分析可知,過多的噪聲極大地影響了病灶區(qū)域的識別準確率。針對此種情況,本文方法在圖像分割、特征提取以及分類器的設計上進行了相應改進。
超像素在計算機視覺中得到了廣泛應用,但是在病灶檢測領域尚未得到應用。參考文獻[4]提出了一種簡單線性迭代聚集算法(SLIC)來減少計算量。相比較于歸一化分割算法和快速漂移算法,該算法具有耗時短、超像素的尺寸和矩形度可調(diào)節(jié)的特點。
SLIC 分割算法作 用于圖 像的 5 維[l,a,b,x,y]空間上,l、a、b分別為 CIELAB 顏色空間的 3 個分量,x、y是像素在圖像的二維坐標平面的位置坐標。因此,每一個像素可 以表示為[li,ai,bi,xi,yi]T。
I(x,y)表示在 CIELAB 顏色 空 間內(nèi) 坐標 為 (x,y)的 像素點的值,‖…‖表示歐式距離,每個超像素的中心點表示為[lk,ak,bk,xk,yk]T。
當期望的超像素的大小近似為S×S時,則相似像素的搜索范圍將擴展至以中心像素為中心點的2S×2S大小的區(qū)域。為了將更相似的像素聚集到聚類中心,參考文獻[4]提出了一種新穎的計算距離的方法,即:
Ds是CIELAB顏色空間內(nèi)有顏色距離和二維相平面的歐式距離之和。設置m的大小可以控制超像素的矩形度。
基于胃鏡圖像的特點,應該選取一些具有光照不變性、旋轉及平移不變性的顏色和紋理特征,例如HIS_I、HSV_HV、RGB、Norm RGB、RG、Opponent、HUE 顏色直方圖特征,以及局部二進制模式(LBP)紋理特征。為找出分別適用于干擾區(qū)域和病灶區(qū)域的特征,本文人工提取了30×30大小的樣本9 000個 (干擾-非干擾樣本45 00個、病灶-非病灶樣本4 500個),之后分別提取各特征,并放入分類器進行訓練與識別,實驗結果如表1和表2所示。
表1 各特征在識別干擾區(qū)域時的正確率(AUC/%)
表2 各特征在識別病灶區(qū)域中的正確率(AUC/%)
從實驗結果可以看出,對于干擾區(qū)域,15維的HIS_I、30維的 HSV_HV、15維的 NormalizedRGB 和 15維的Opponent顏色特征表現(xiàn)出色,其受試者工作特征曲線 (ROC曲線)下面積均可達到97.32%、98.78%、97.62%和 99.27%。對于病灶區(qū)域,45維的 HSV_HV、30維的RGB、45維的 RG、15維的 Opponent特征表現(xiàn)良好,其ROC曲線下面積均可達到 90.76%、91.19%、92.83%和91.68%。然而單一的特征其代表性也比較單一,在實際復雜的應用環(huán)境中仍達不到理想的效果,因此本文方法將多種特征進行融合,通過多種特征的疊加來加強特征的魯棒性,從而可以應對復雜多變的應用環(huán)境,其實驗結果如圖 2和圖 3所示。圖 2中,(1)表示 HIS_I(15維)+HSV_HV (30 維),NormRGB (45 維)+OPPO (30 維)+RGB(30 維);(2)表示OPPO(30 維)+LBP(15 維);(3)表示OPPO(30 維)+HUE(45 維);(4)表示OPPO(30 維)+HUE(45 維)+LBP(15 維);(5)表示所有單個特征表現(xiàn)最好的組合。圖 3 中,(1)表示 HIS_I(45 維)+LBP(30 維)+NormRGB (45 維)+HUE (45 維);(2) 表示 LBP (30 維),NormRGB (15 維)+RG (30 維);(3) 表示LBP (30 維)+NormRGB(45-d)+RG(45 維)+OPPO(15維);(4)表示 LBP(30 維)+RG(30 維);(5)表示LBP(30 維)+RG(45 維)+OPPO(45 維);(6)表示 RG(45 維)+OPPO(15 維)+RGB(30維);(7)表示RG(45 維)+OPPO(15 維)+RGB(30 維)+LBP(30維);(8)表示所有單個特征表現(xiàn)最好的組合。
圖2 組合特征在識別干擾區(qū)域時的正確率
圖3 組合特征在識別干擾區(qū)域時的正確率
實驗結果證明,其組合后的特征性能平均高于任何一個單一特征,達到了預期效果。在干擾區(qū)域排除階段,特征組合 (2)(30維的 Opponent顏色直方圖串聯(lián) 15維的LBP紋理特征)表現(xiàn)最為突出,AUC達到99.50%。在病灶區(qū)域識別階段,特征組合(5)(30維 LBP紋理特征串聯(lián)45維的RG和45維的Opponent顏色特征)表現(xiàn)出色,AUC達到93.34%。本方法最終采用以上兩種最優(yōu)特征組合方式,為后續(xù)的去除干擾和病灶識別工作奠定了基礎。
Adaboost衍生于 Boosting算法,自從 Schapire提出以來得到了廣泛的應用。Adaboost屬于一種迭代算法,其核心思想是將多個弱分類器組合成一個強分類器。本文選取決策樹作為子分類器,為避免過度學習的情況發(fā)生,本文將樹的深度設置為2。其次需要確定算法迭代的次數(shù),綜合考慮算法的識別率及分類器的訓練時間,最終確定迭代次數(shù)為60最為合適。
為減少胃鏡圖像中噪聲對檢測結果的影響,本文方法將兩個Adaboost分類器串聯(lián)起來,形成一個三分類器,通過此分類器,待檢測區(qū)域將被識別為正常區(qū)域、干擾區(qū)域或病灶區(qū)域3類。其工作流程如圖4所示。
圖4 二級串聯(lián)分類器工作流程
首先,采用超像素的思想將圖像分割成像素相對緊湊一致的區(qū)域;其次,通過實驗分別找出適用于干擾區(qū)域和病灶區(qū)域的特征的組合;最后,采用二級分類器完成干擾區(qū)域的去除以及病灶區(qū)域的識別工作。本文方法的整個流程下。
算法:
(1)設置期望的分割塊數(shù)K及區(qū)域的矩形度m。
(2)在邊長為S的區(qū)域內(nèi)隨機初始化起始聚集中心CK=[lk,ak,bk,xk,yk]T。
(3)采用3×3大小的鄰域尋找梯度最小的點作為聚集中心點。
(4)repeat
(5)for對于每一個中心點CKdo
(6)利用式(2),在中心點周圍 2S×2S范圍內(nèi)尋找與中心點最匹配的像素點。
(7)end for
(8)重新計算中心點的位置,并計算新中心點與前中心點位置坐標的歐式距離E。
(9)untilE≤threshold
(10)將孤立存在的小區(qū)域強制劃分到相鄰的最大區(qū)域。
(11)for每一個分割后的區(qū)域 do
(12)if區(qū)域內(nèi)像素個數(shù)≥Nthen
(13)提取適合于干擾區(qū)域識別的特征組合。
(14)利用第一級分類器進行識別。
(15)if該區(qū)域被識別為干擾區(qū)域then
(16)提取適合于病灶區(qū)域識別的特征組合。
(17)利用第二級分類器進行識別。
(18)end if
(19)end if
(20)end for
本實驗的數(shù)據(jù)來源于120個臨床病例,共計3 000張醫(yī)學胃鏡圖像,其中包含1 500張含有病灶區(qū)域的圖像和1 500張完全健康的圖像。圖像的大小為489像素×409像素,存儲格式為JPEG。每一幅含有病灶區(qū)域的圖像都配有專業(yè)醫(yī)師標注的標注圖,在實驗中作為地面真值。
在實驗中,規(guī)定對于完全健康的圖像,只要有一個區(qū)域被識別為病灶區(qū)域,則認為檢測失??;反之,則認為檢測成功。對于含有病灶區(qū)域的圖像,只要有識別為病灶的區(qū)域與醫(yī)生標注區(qū)域有重疊,則認為檢測成功;否則,認為檢測失敗。
在實驗中,采用4種不同的方法對相同一批圖像進行檢測,用來進行檢測效果的分析對比。方法1,SLIC分割+組合特征+二級串聯(lián)分類器;方法 2,SLIC分割+組合特征+單級分類器;方法 3:按 30×30矩形分割圖像+組合特征+二級串聯(lián)分類器;方法 4:按30×30矩形分割圖像+組合特征+單級分類器。
本文采用ROC曲線對實驗進行分析。ROC曲線將靈敏度與特異性以圖示方法結合在一起,可以準確反映分析方法中特異性和敏感性的關系,是試驗準確性的綜合代表。在ROC曲線圖表中,X軸表示假陽性率FPR(False Positive Rate),Y 軸表示真陽性率 TPR(True Positive Rate)。ROC曲線展示了當評判標準變化時這兩個變量之間的相互關系。ROC曲線下方的面積可以用來評判一個系統(tǒng)性能的好壞[5]。
實驗結果如圖5所示,本文所提出的方法(方法1)的檢測效果遠好于其他方法,其正確率遠好于其他3種方法,正確率(AUC)達到91.588%。方法2、方法3和方法4的正確率(AUC)分別為86.058%、76.458%和70.727%。
圖5 實驗ROC曲線圖
部分實驗效果如圖6所示,其中第1排為含有病灶區(qū)域的胃鏡圖像;第2排為臨床醫(yī)師給出的地面真值圖;第3排為本文方法檢測后的結果圖。
醫(yī)療器械的限制以及胃部特殊生理環(huán)境的影響,使得有些病灶區(qū)域很難用肉眼識別??紤]到胃鏡圖像的成像質量受多方面因素的影響,圖像噪聲多的特點,本文方法在預處理階段采用SLIC分割算法,將圖像分割成大小均勻的超像素,相較于簡單的人工劃分區(qū)域,具有區(qū)域內(nèi)像素更加統(tǒng)一和緊湊的特點。此外,本文方法還采用了多種特征組合的形式替代了單一特征。最后通過使用二級串聯(lián)分類器將去干擾和病灶檢測步驟串聯(lián)進行。實驗表明,本文方法的病灶檢測正確率優(yōu)于傳統(tǒng)方法。
圖6 實驗效果圖
[1]Liang Pan, Cong Yang, Guan Mo.A computer-aided lesion diagnose method based on gastroscope image[C].2012 IEEE InternationalConference on Information and Automation,ICIA 2012, Washington, DC.IEEE ComputerSociety,2012:871-875.
[2]SZCZYPINSKI P, KLEPACZKO A, PAZUREK M, et al.Texture and color based image segmentation and pathology detection in capsule endoscopy videos[J].Computer Methods and Programs in Biomedicine, 2014,13(1):396-411.
[3]LI B,MENG M Q H.Tumor CE image classification using SVM-based feature selection[C].IntelligentRobots and Systems (IROS), 2010: 1322-1327.
[4]ACHANTA R,SHAJI A,SMITH K,et al.Slic superpixels[J].Ecole Polytechnique Federal de Lausssanne (EPFL),Technical Report, 2010: 149300.
[5]SWETS J A,DAWES R M,MONAHAN J.Psychological science can improve diagnostic decisions[J].Psychological Science in the Public Interest, 2000, 1(1): 1-26.