張 莉,張 成,郝 巖,程 蓉,白艷萍
(1.中北大學(xué) 理學(xué)院,山西 太原 030051;2.中北大學(xué) 信息與通信工程學(xué)院,山西 太原 030051)
根據(jù)世界衛(wèi)生組織的數(shù)據(jù),乳腺癌是世界上第二大常見的癌癥,同時也是女性中發(fā)病率最高的癌癥,嚴重危害著女性同志的身心健康[1]。隨著乳腺癌患者年輕化趨勢的不斷增強,患者的人數(shù)也不斷增加,因此迫切需要借助計算機輔助診斷系統(tǒng)建立針對乳腺癌病理圖像的分類方法,緩解大量病理圖像給醫(yī)生帶來的負擔。
目前,針對乳腺癌組織病理圖像識別主要有兩種方法:一種是基于手工提取特征結(jié)合機器學(xué)習(xí)的算法,另一種是基于深度學(xué)習(xí)的算法。雖然第二種算法是以卷積層為核心的網(wǎng)絡(luò)結(jié)構(gòu),能夠更有效地實現(xiàn)特征學(xué)習(xí)過程,但第一種算法耗費時間更少、質(zhì)量更高,也能獲得良好的識別效果。因此該文主要對第一種算法進行研究。Spanhol等[2]公布了BreaKHis乳腺癌數(shù)據(jù)集并研究了結(jié)合傳統(tǒng)紋理特征與SVM等分類器的分類效果。Gupta等[3]運用了Gabor特征、復(fù)雜小波特征和對立色局部二值模式等多特征融合以及利用多數(shù)投票策略將支持向量機、最近鄰分類器、決策樹等分類器進行集成,實驗準確率達到了87%。Wang等[4]通過融合4個形狀特征和138個顏色特征,實現(xiàn)了對乳腺癌圖像的分類。張飛飛等[5]通過融合形狀、灰度以及紋理特征構(gòu)造了三個不同的樣本空間,空間中構(gòu)造SVM分類器,采用相對多數(shù)投票法進行集成輸出結(jié)論,實現(xiàn)對肺癌圖像的分類。Kausar等[6]利用卷積神經(jīng)網(wǎng)絡(luò)對Haar小波兩層分解后的乳腺癌圖像進行深度特征提取,實現(xiàn)了對乳腺癌組織病理圖像的分類。
特征提取與融合是實現(xiàn)圖像分類的重要途徑,它保留了圖像的大量信息,對乳腺癌組織病理圖像的分類也具有非常重要的意義。在計算機輔助診斷階段,常用的分類器為SVM,但單個SVM不能精準判別對象類別,降低了穩(wěn)定性和泛化性能,故將SVM作為成員分類器,進行SVM集成以提高泛化性能。本研究基于多尺度多色域特征融合的性質(zhì),豐富了模型中的特征信息,有效融合了乳腺癌組織病理圖像顏色以及紋理特征,運用集成SVM模型進行分類識別。
對于彩色圖像的識別,顏色空間的選擇是一個至關(guān)重要的環(huán)節(jié)。在RGB彩色空間中,所有顏色通過R(紅色)、G(綠色)、B(藍色)三個分量組合形成。這種方式與人類視覺感知并不貼近。所以需要將RGB空間轉(zhuǎn)換到HSV空間。HSV空間是一個均勻的六角椎體模型,它是通過H(色調(diào))、S(飽和度)、V(明度)表示顏色的。其模型的三個坐標是獨立的,能把HSV空間各個分量的變化表現(xiàn)得很清晰[7]。轉(zhuǎn)換公式如下:
(1)
(2)
(3)
式中,arccos為反三角函數(shù)中的反余弦;R、G、B分別為紅色、綠色、藍色的像素值;max(R,G,B)為R,G,B三個分量的最大值;min(R,G,B)為R,G,B三個分量的最小值。
顏色矩是一種以數(shù)字為基礎(chǔ)的方法,通過計算矩來描述顏色的分布。顏色的主要信息一般集中在低階矩中,因此常采用一階矩(均值)、二階矩(方差)、三階矩(偏度)來描述顏色的分布特征。一階矩表示顏色分量的均值,即平均強度;二階矩表示顏色的方差;三階矩表示顏色的偏斜度,即不均勻性[8-9]。計算顏色矩的公式如下:
一階矩:
(4)
二階矩:
(5)
三階矩:
(6)
式中,i為顏色分量,i=1為H分量,i=2為S分量,i=3為V分量;Pij為顏色分量i的像素值為j的概率值;N為像素點個數(shù)。
根據(jù)上述所提到的HSV空間的特性,分別提取H、S、V顏色分量的三個顏色矩特征,共得九個顏色矩分量[10]。選取良性與惡性中具有代表性的病理圖像進行顏色矩統(tǒng)計。統(tǒng)計結(jié)果見表1。
由表1可以看出,良性與惡性腫瘤圖像H、S、V三個顏色分量的顏色矩有較大差異,為良、惡性乳腺癌組織病理圖像分類提供重大依據(jù)。
小波變換是圖像處理中一種比較常見的基于傅里葉變換而發(fā)展的小波分析方法,是具有多分辨率特點的時頻分析方法[11]。其基本原理為:利用低通和高通濾波器對原始圖像的水平方向和垂直方向分別進行卷積操作,將原始圖像分解為低頻圖像(LL)、水平細節(jié)(HH)、垂直細節(jié)(HV)、對角細節(jié)(HD)這四個低尺度分量。
圖1為小波分解示意圖。
表1 良性與惡性病理圖像HSV空間顏色矩特征參數(shù)值
圖1 圖像二層小波分解示意圖
由圖1可知,隨著分解層數(shù)的增加,圖像尺寸隨之減小,因此分解層數(shù)不宜太高,利用Haar小波對乳腺癌病理圖像進行二層小波分解。每一次分解都可以形成三個高頻分量(HH、HV、HD)和一個低頻分量(LL)。高頻分量表示圖像的邊緣和噪聲。低頻分量表示圖像的近似,它保留了原始圖像90%以上的能量。在進行下一層分解時,僅對分解得到的低頻圖像進行。
圖2顯示了不同層數(shù)下的小波分解所得乳腺癌病理圖像。
圖2 Haar小波分解示意圖
由于低頻信息中包含了原始乳腺癌病理圖像大部分的能量,高頻信息中較好地保留了低頻信息中丟失的細節(jié)信息,因此,在本實驗中選用經(jīng)過兩次小波分解所得到的高頻分量圖像進行多尺度灰度共生矩陣特征提取[6]。
灰度共生矩陣是在20世紀70年代由Haralick[12]首次提出的,自此被廣泛應(yīng)用于紋理特征提取。它是通過研究具有一定距離像素對之間的空間相關(guān)性來表述圖像紋理特征。由于灰度共生矩陣計算量較大,一般不直接應(yīng)用,而是在此基礎(chǔ)上采用二次統(tǒng)計量描述紋理信息。
給定一幅數(shù)字圖像I(x,y),其灰度級為L,則灰度共生矩陣G(x,y)為I(x,y)中沿方向θ,間隔為d的兩個像素點對(i,j)的統(tǒng)計數(shù)目n。G(x,y)的尺寸為L×L,n為灰度共生矩陣在G(i,j)的像素值。
乳腺癌組織病理圖像多尺度灰度共生矩陣求取:
在早期的研究中,乳腺癌病理圖像主要是在單一尺度下進行灰度共生矩陣特征提取,但在不同尺度下,紋理層次信息呈現(xiàn)出不同的特征,因此單一尺度不能很好地描述乳腺癌紋理特征。于是該文將多尺度的思想與乳腺癌病理圖像融合,在多尺度下提取上述8個灰度共生矩陣紋理特征,即兩層小波分解得到的高頻分量、顏色轉(zhuǎn)換后的H分量、S分量、V分量。
對于乳腺癌組織病理圖像灰度共生矩陣特征提取,為保留圖像的最大信息,選擇乳腺癌圖像灰度級L=256,步長d=1,方向參數(shù)選取0°,45°,90°,135°這四個方向特征值的平均值,從而大大減少了方向?qū)μ卣鲄?shù)的影響[13]。
該文使用了8種灰度共生矩陣特征。分別是二階矩、對比度、相關(guān)性、逆差距、均值和、熵、和方差與差方差。紋理特征公式如下:
(1)二階矩:表示圖像紋理的粗細程度。紋理越粗,值越大。
(7)
(2)對比度:表示圖像的清晰程度以及紋理的變化程度。圖像越清晰,紋理越明顯,值越大。
(8)
(3)相關(guān)性:表示紋理的非均勻性。哪個方向值大,紋理就指向該方向。
(9)
(4)逆差距:度量圖像局部灰度均衡性。
(10)
(5)均值和。
(11)
(6)熵:表示紋理復(fù)雜度。紋理越復(fù)雜,值越大。
(12)
(7)和方差:表示紋理變化的快慢及其周期性大小。值越大,紋理周期越大。
(13)
(8)差方差:表示鄰近像素灰度級差異。值越大,對比度越強烈。
(14)
針對乳腺癌組織病理圖像的分類,提出一種多尺度與多色域特征融合的特征提取方法。首先對病理圖像進行多色域處理,提取HSV空間的三個色彩分量,分別對三個色彩分量提取9維顏色矩特征以及24維灰度共生矩陣紋理特征。其次利用Haar小波對病理圖像進行兩層分解,提取高頻分量的48維灰度共生矩陣特征。最后將多尺度特征與多色域特征串聯(lián)融合。
具體操作步驟如下:
(1)對原始乳腺癌病理圖像進行兩層Haar小波分解得到6個高頻分量,分別記為[HHn1,HVn1,HDn1,HHn2,HVn2,HDn2]。n為乳腺癌病理圖像個數(shù)。
(2)將原始彩色圖像轉(zhuǎn)換到HSV色彩空間,并提取H、S、V三個色彩分量,分別記為[Hn,Sn,Vn]。
(3)對步驟1、2所得的9類子圖像分別提取其灰度共生矩陣的8個特征參數(shù)。以第一層小波分解所得高頻水平分量為例,記為:
[HHn11,HHn12,HHn13,HHn14,HHn15,HHn16,HHn17,HHn18]。
(4)重復(fù)上述步驟,獲取9個分量圖像的8維灰度共生矩陣紋理特征,并將其串聯(lián)融合為紋理特征矩陣F1。記為:
(15)
得到一個n×72維的特征矩陣。
(5)對H、S、V三個分量分別提取顏色矩特征。以H分量為例,記為[Hn9,Hn10,Hn11]。
(6)重復(fù)上述步驟,獲取三個分量子圖的顏色矩特征,并將其串聯(lián)融合成顏色特征矩陣F2。
(16)
得到一個n×9的特征矩陣。
(7)將紋理特征矩陣與顏色特征矩陣串聯(lián)融合得到一個n×81的特征矩陣。
實驗選用的是由Spanhol發(fā)布的BreaKHis數(shù)據(jù)集。該數(shù)據(jù)集中包括了從82名患者中所獲取的7 909張乳腺癌顯微活檢圖像,其中良性有2 480張,惡性有5 429張。包含了4種放大倍數(shù)(40x,100x,200x,400x),尺寸大小為700×460像素。
表2顯示了乳腺癌數(shù)據(jù)集樣本分布。
圖3顯示了40x放大倍數(shù)下乳腺癌樣本圖像。
表2 乳腺癌圖像樣本數(shù)據(jù)
圖3 乳腺癌良性、惡性組織病理圖像樣本
6.2.1 支持向量機理論
由于對乳腺癌組織病理圖像進行二分類(良性、惡性),于是主要描述二分類SVM。分類思想是將低維空間中線性不可分的數(shù)據(jù)樣本映射到高維空間使其線性可分。并在高維空間中找到一個最優(yōu)超平面,使得不同類別數(shù)據(jù)點之間的距離最大化[14-15]。
設(shè)n個樣本集{((xi,yi)|i=1,2,…,n)},xi∈Rnyi∈{-1,+1},xi為訓(xùn)練樣本點,yi為其對應(yīng)標簽。使y=+1類與y=-1類數(shù)據(jù)點的間隔最大的超平面如下:
ωTxi-b=0,i=1,2,…,n
(17)
為了保證數(shù)據(jù)點xi所允許的偏離差最小,引入松弛變量ξi≥0,懲罰因子c,得到了如下目標函數(shù):
(18)
為處理非線性數(shù)據(jù),選用RBF核函數(shù)對SVM進行推廣,RBF核函數(shù)公式如下:
K(x,xi)=exp(-g‖(x-xi)2‖)
(19)
其中,g為核函數(shù)半徑。
g=1/2σ2
(20)
根據(jù)給定的RBF核函數(shù),SVM分類器表示為:
F(x)=sgn(f(x))
(21)
(22)
其中,f(x)為SVM分類超平面決策函數(shù)。
6.2.2 集成SVM的多數(shù)投票策略
以數(shù)據(jù)集中40x放大倍數(shù)的1 995張圖像為例,隨機選取70%訓(xùn)練集(Trainx0)和30%測試集(Testx)。將Trainx0的1 395張圖像平均劃分成三份訓(xùn)練集(Trainx1、Trainx2、Trainx3),將這三種訓(xùn)練集兩兩組合又形成三種訓(xùn)練集(Trainx4=[Trainx1;Trainx2]、Trainx5=[Trainx1;Trainx3]、Trainx6=[Trainx2;Trainx3])。對上述7種訓(xùn)練集訓(xùn)練形成7種SVM分類器,并用Testx進行測試。
為了融合不同訓(xùn)練樣本所訓(xùn)練分類器的輸出結(jié)果,選擇了多數(shù)投票策略。多數(shù)投票策略是一種決策規(guī)則,其中新的乳腺癌組織病理圖像樣本的類別是根據(jù)不同SVM分類器分類所獲得的標簽通過投票(標簽)來決定的,規(guī)定收到投票最多的類用作測試樣本的最終標簽[3,5]。
圖4顯示了乳腺癌組織病理圖像分類的總過程。
圖4 圖像分類的總過程
為了驗證多尺度與多色域特征提取與融合算法的分類效果,對比了傳統(tǒng)的單一尺度灰度共生矩陣與其他特征提取方法對實驗結(jié)果的影響。為了更全面更客觀地對分類效果進行評價,針對不同的特征提取方法,根據(jù)指標體系(準確率(Acc)、敏感性(Sen)、特異性(Spe))進行評價[16]。指標體系的公式如下:
(23)
(24)
(25)
其中,TP為正確分類的良性;TN為正確分類的惡性;FP為錯誤分類的良性;FN為錯誤分類的惡性。
表3顯示了不同特征提取方法對實驗結(jié)果的影響。實驗結(jié)果表明,本研究方法優(yōu)于其他傳統(tǒng)的特征提取方法,并且針對不同放大倍數(shù)下的乳腺癌組織病理圖像,該方法取得了較好的分類結(jié)果。
表3 不同特征提取方法實驗結(jié)果對比 %
為了探討基于SVM分類器的多數(shù)投票策略的分類效果,針對準確率(Acc),與7種SVM分類器的分類結(jié)果作對比(見表4)。實驗結(jié)果表明,多數(shù)投票策略集成了單個SVM的良好性能,提高了泛化能力。
表4 基于SVM分類器的多數(shù)投票
將文中方法與采用同一數(shù)據(jù)集所使用的方法進行比較,見表5,該方法識別率更高,魯棒性和泛化性能更好。
表5 文中方法與其他方法識別率比較 %
提出一種多尺度多色域特征融合的乳腺癌組織病理圖像分類算法。分別介紹了顏色空間轉(zhuǎn)換、顏色矩、Haar小波分析、灰度共生矩陣等原理。利用集成SVM的多數(shù)投票策略對該算法獲取的BreaKHis乳腺癌數(shù)據(jù)集特征進行分類識別。實驗結(jié)果表明,該算法在乳腺癌圖像分類識別中的準確率均優(yōu)于單一尺度以及傳統(tǒng)的GLCM算法,對于不同放大倍數(shù)下的乳腺癌組織病理圖像也取得了較好的識別準確率。通過基于SVM的多數(shù)投票策略,集成了單一SVM的良好性能,提升了實驗準確率。與其他乳腺組織病理圖像分類方法進行對比分析,證明了該分類方法優(yōu)于其他傳統(tǒng)的分類方法。在未來的研究工作中,可以研究多分類任務(wù)的乳腺癌組織病理圖像分類方法。