湯紅忠 李驍 張小剛 張東波 王翔 毛麗珍
組織病理圖像包含大量復(fù)雜的病理信息,具有豐富的空間幾何結(jié)構(gòu),細胞類型多樣且形態(tài)各異.目前,組織病理圖像的分析,主要依賴具有臨床經(jīng)驗的病理學(xué)家尋找圖像中的病理特征.隨著遠程治療與精準治療的提出,組織病理圖像數(shù)量呈指數(shù)級增長,極大地增加了工作量.近幾年來,機器學(xué)習(xí)與計算機輔助診斷技術(shù)(Computer aided diagnosis,CAD)得到了迅速的發(fā)展,自動提取組織病理圖像中的判別性特征,輔助疾病診斷,已成為研究熱點,并迅速引起國內(nèi)外學(xué)者的關(guān)注[1?3].
病理圖像的特征提取與分類是組織病理圖像CAD系統(tǒng)的關(guān)鍵環(huán)節(jié),對疾病診斷有著極其重要的作用.為此諸多學(xué)者提出了很多解決辦法,主要分為兩大類.1)基于像素級特征的分類.如細胞的大小與形態(tài)特征[1,4]、圖像的灰度或彩色信息[5]、紋理特征[5?9]等.Tabesh等[5]提取了前列腺癌病理圖像的顏色、紋理和形態(tài)學(xué)特征,并基于監(jiān)督學(xué)習(xí)框架進行特征組合,然后對比了K-NN、支持向量機(Support vector machine,SVM)等分類方法的性能.Doyle等[6]嘗試采用紋理和細胞核結(jié)構(gòu)特征構(gòu)造特征集,并采用SVM 實現(xiàn)了乳腺癌患病等級的鑒定.Li等[7]結(jié)合隨機投影、局部二值模式(Local binary patterns,LBP)與獨立子空間分析,提取了直腸息肉的三維紋理特征來鑒定疾病等級.Linder等[8]提取了腫瘤上皮與基質(zhì)組織的LBP、LBP/C特征,并采用SVM 進行分類.2)基于空間結(jié)構(gòu)與多尺度特征的分類.如尺度不變特征(Scale invariant feature,SIFT)[10]、小波特征[11]等;Irshad等[10]比較了紋理特征、SIFT特征、多級最大化模型(Hierarchical MAX,HMAX)特征對組織病理圖像分類性能的影響.Ergin等[11]提取了方向梯度直方圖(Histogram of oriented gradients,HOG)、稠密尺度不變特征(Dense scale invariant feature,DSIFT)與局部結(jié)構(gòu)特征,并應(yīng)用于乳腺癌組織病理圖像的分類.上述方法提取的均為手工特征,特征冗余度高,且較適合特定圖像集的分類問題,應(yīng)用范圍受到一定的限制.
近年來,Wright等[12]提出了基于稀疏表示的分類方法,并在組織病理圖像[13?22]、語音信號[23]、SAR圖像[24]、人臉圖像[25?27]和圖像超分辨算法[28]等領(lǐng)域得到了廣泛應(yīng)用.Srinivas等[13?14]提出一種同步稀疏模型,將組織病理圖像中訓(xùn)練樣本RGB三通道值作為字典,并利用測試樣本的稀疏重構(gòu)誤差進行分類.Nayak等[15]提出了一種帶稀疏約束的受限玻爾茲曼機(Restricted Boltzmann machine,RBM)模型,實現(xiàn)腫瘤組織病理圖像的特征提取及分類.Chang等[16?17]提出一種基于堆疊預(yù)測稀疏分解的字典學(xué)習(xí)方法,利用空間金字塔匹配(Spatial pyramid matching,SPM)方法對稀疏表示系數(shù)進行編碼,并采用SVM實現(xiàn)了腫瘤的病理狀態(tài)分類.Shi等[18]提出了一種基于聯(lián)合稀疏編碼的空間金字塔匹配方法,該方法利用RGB三個顏色通道信息,通過聯(lián)合稀疏編碼將灰度描述算子轉(zhuǎn)化為彩色描述算子,提高了組織病理圖像分類性能.Zhou等[19]提出一種面向組織病理圖像的多光譜特征學(xué)習(xí)模型,該模型基于卷積稀疏編碼自動學(xué)習(xí)一組卷積濾波算子,利用學(xué)習(xí)的濾波算子提取多通道的光譜特征,并采用SVM 進行分類.Shi等[20]基于多模式稀疏表示提出了一種肺部組織病理圖像的分類方法(Multimodal sparse representation-based classification,mSRC),該方法利用遺傳算法引導(dǎo)了顏色、形狀和紋理三個子字典的學(xué)習(xí),然后結(jié)合稀疏重構(gòu)誤差和多數(shù)投票算法對肺部組織病理圖像進行分類.Xu等[21]基于堆棧式稀疏自編碼器(Stacked sparse autoencoder,SSAE)進行乳腺癌組織病理圖像的特征提取,并利用Softmax實現(xiàn)了組織病理圖像中細胞核的檢測.Zhang等[22]基于圖方法實現(xiàn)了具有細胞核圖像的全局與局部特征的融合,然后結(jié)合排序與多數(shù)投票算法對乳腺癌組織病理圖像進行分類,并取得較好的效果.
上述方法引入圖像的稀疏性可以有效提取圖像特征,均屬于無監(jiān)督方式,提取的特征具有較好的重構(gòu)性,但并不一定具有較好的判別性.Zhang等[25]利用監(jiān)督學(xué)習(xí)思想,提出了一種判別性KSVD(Discriminative K-SVD,DK-SVD)字典學(xué)習(xí)方法,該方法主要通過優(yōu)化分類器參數(shù)來提升字典的判別性.Jiang等[26]提出了基于類標一致KSVD(Label consistent K-SVD,LC-KSVD)的字典學(xué)習(xí)方法,通過引入樣本類標信息,增加稀疏表示系數(shù)的判別性.Yang[27]提出一種Fisher判別字典學(xué)習(xí)(Fisher discrimination dictionary learning,FDDL)方法,該方法通過稀疏表示系數(shù)的Fisher準則約束來提高分類性能.上述文獻主要通過約束分類器參數(shù)或者稀疏表示系數(shù)來間接提升字典的判別性能.
最近,Vu等[29]提出了一種面向判別性特征的字典學(xué)習(xí)(Discriminative feature-oriented dictionary learning,DFDL)方法,并應(yīng)用于組織病理圖像分類.DFDL方法引入了訓(xùn)練樣本的類標信息,直接學(xué)習(xí)無病字典與有病的字典,并取得一定的分類性能.但是,組織病理圖像空間幾何結(jié)構(gòu)豐富,細胞類型多樣,同類圖像中細胞形態(tài)與幾何結(jié)構(gòu)變化可能較大,非同類圖像中細胞卻存在一定的相似性,導(dǎo)致類內(nèi)圖像特征間的距離有可能大于類間圖像特征間的距離.因此,DFDL方法所學(xué)習(xí)的有病字典與無病字典相似程度較高,對無病樣本與有病樣本的判別性仍然較低,分類性能依然有待于提高.
本文基于Fisher準則,提出了一種新的面向判別性特征的字典學(xué)習(xí)方法(Discriminative featureoriented dictionary learning based on Fisher criterion,FCDFDL),并應(yīng)用于組織病理圖像分類.
Vu等[29]于2015年提出了一種面向判別性特征的字典學(xué)習(xí)方法(Discriminative featureoriented dictionary learning,DFDL),并應(yīng)用于醫(yī)學(xué)組織病理圖像分類.其目標函數(shù)定義如下:
其中,Y和分別代表無病與有病的訓(xùn)練樣本,D和分別代表無病與有病的字典,在本文中統(tǒng)稱字典.XD和分別代表無病與有病樣本在D下的稀疏表示系數(shù),和分別代表無病與有病樣本在下的稀疏表示系數(shù).N和分別代表Y和的樣本個數(shù),L1,L2為稀疏度,ρ為正則化參數(shù),且ρ>0.
式(1)和式(2)中,第1項都表示學(xué)習(xí)字典對同類樣本的稀疏重構(gòu)誤差,第2項都表示學(xué)習(xí)字典對非同類樣本的稀疏重構(gòu)誤差.通過最小化第1項并最大化第2項,可以直接學(xué)習(xí)無病字典與有病字典.DFDL方法在學(xué)習(xí)過程中沒有考慮無病字典D與有病字典之間的差異,導(dǎo)致所學(xué)習(xí)的D與之間相似程度高,對無病樣本與有病樣本的稀疏表示系數(shù)判別性仍然較低,影響了組織病理圖像的分類與疾病診斷性能.
其中,di是無病字典D中第i個原子,m是無病字典D中所有原子的均值,是有病字典中所有原子的均值.在字典學(xué)習(xí)階段要保證無病字典D的類內(nèi)距離更小,同時要保持與有病字典之間的距離更大,結(jié)合Fisher準則,本文構(gòu)造的無病字典D懲罰項定義如下:
其中,矩陣M中列向量均為m,tr表示矩陣的跡.
針對DFDL方法的不足,本文結(jié)合Fisher準則,提出一種FCDFDL方法,該方法最小化學(xué)習(xí)字典的類內(nèi)距離的同時最大化學(xué)習(xí)字典的類間距離,以提升無病字典與有病字典之間的差異.其模型定義如下:
式(7)和式(8)目標函數(shù)中的第1項、第2項與DFDL方法保持一致.不同之處在于第3項,即基于Fisher準則構(gòu)造了學(xué)習(xí)字典的懲罰項;與FDDL方法不同,本文利用Fisher準則直接約束了學(xué)習(xí)字典的類內(nèi)距離與類間距離,而不是約束稀疏表示系數(shù).通過交替優(yōu)化式(7)和式(8),可以獲得以下性能:
1)無病字典中原子分布更加緊湊,對無病樣本具有更好的稀疏表示性能,同時抑制了對有病樣本的稀疏表示性能.
2)有病字典中原子分布更加緊湊,對有病樣本具有較好的稀疏表示性能,同時抑制了對無病樣本的稀疏表示性能.
3)最大化無病字典與有病字典之間的距離,大大降低了無病字典與有病字典間的相似性,增強了學(xué)習(xí)字典對同類樣本的重構(gòu)性與對非同類樣本的判別性.
式(7)和式(8)都是非凸優(yōu)化問題,其求解一般通過反復(fù)執(zhí)行稀疏編碼與字典更新兩個步驟直至收斂.FCDFDL模型求解步驟如下:
步驟1.稀疏編碼
步驟1.1.固定無病字典D,計算訓(xùn)練樣本在無病字典D下的稀疏表示系數(shù),式(7)可重新定義為
步驟1.2.固定有病字典,計算訓(xùn)練樣本在有病字典下的稀疏表示系數(shù),式(8)可重新定義為
本文利用SPAMS工具箱1http://spams-devel.gforge.inria.fr/中的OMP[30]算法求解式(10).
步驟2.字典更新
步驟2.1.固定無病字典D下的稀疏編碼系數(shù),更新無病字典D,式(7)重新定義為
同時,忽略式(13)中的常數(shù)項,式(13)可化簡為
步驟2.2.固定有病字典下訓(xùn)練樣本的稀疏編碼,更新有病字典,令,則式(8)可簡化為
式(15)和式(16)均為凸函數(shù),本文采用坐標梯度下降法可求出學(xué)習(xí)字典的最優(yōu)解.
基于第2.2節(jié),利用所學(xué)習(xí)的字典對測試樣本進行稀疏表示,可分別求出測試樣本在無病字典D?與有病字典下的稀疏重構(gòu)誤差,構(gòu)造分類統(tǒng)計量實現(xiàn)組織病理圖像的分類,具體分類步驟如下:
步驟1.將測試圖像分塊,將每個圖塊展開為一個列向量,隨機選取多個圖塊組成測試樣本H,利用
采用OMP方法求出H在下的稀疏編碼系數(shù);
步驟2.計算測試樣本在D?與下的重構(gòu)誤差向量,即
其中,diag{·}表示矩陣主對角線上的元素;
步驟3.定義分類向量
其中,NT為測試樣本的個數(shù);
步驟4.基于分類向量V,計算分類統(tǒng)計量S=.
當(dāng)分類統(tǒng)計量S大于閾值Th,測試樣本為無病樣本;反之,測試樣本則為有病樣本.
步驟1.輸入無病訓(xùn)練樣本Y與有病訓(xùn)練樣本的,并分別從Y與中隨機提取K個列向量初始化D與,初始化無病與有病的樣本個數(shù)N與,稀疏度L1與L2,迭代次數(shù),懲罰因子ρ,α,β;
步驟2.固定無病字典D,利用式(10)求在D下的稀疏編碼系數(shù);
步驟3.固定有病字典,利用式(10)求在的稀疏編碼系數(shù);
步驟4.固定無病字典D的稀疏編碼,求P,Q,優(yōu)化式(15)更新無病字典D;
步驟5.固定有病字典的稀疏編碼,求I,J,優(yōu)化式(16)更新有病字典;
步驟6.判斷迭代是否完成,若沒有完成迭代次數(shù),加1轉(zhuǎn)至步驟2;反之,迭代完成,輸出學(xué)習(xí)的字典;
步驟7.基于學(xué)習(xí)字典,計算測試樣本在D?與下的稀疏重構(gòu)誤差,結(jié)合第2.3節(jié)構(gòu)造分類統(tǒng)計量S而進行分類.
本文分別在ADL[31]與BreaKHis[32]數(shù)據(jù)集上驗證了FCDFDL方法的有效性,并與其他方法進行對比分析.
1)ADL數(shù)據(jù)集及實驗設(shè)置
ADL數(shù)據(jù)集賓夕法尼亞州立大學(xué)提供,包括肺、脾臟、腎臟三類器官,共計900多張圖像.每類器官包括無病和有病兩類樣本,各150多張,尺寸為1360像素×1024像素.為了提高算法的計算效率,本文將所有圖像歸一化為600像素×600像素.如圖1所示,圖1(a)從左至右依次表示肺、脾臟、腎臟的無病圖像,圖1(b)從左至右依次表示肺、脾臟、腎臟的有病圖像.
針對肺、脾臟、腎臟的彩色圖像,在相應(yīng)的無病與有病樣本中分別隨機選取40張圖像作為訓(xùn)練集,剩余的110張圖像作為測試集.然后,從每張訓(xùn)練圖像中隨機提取250個圖塊,則每類器官中無病與有病樣本分別有10000個圖塊,并將每個圖塊的RGB三個通道值串成列向量作為訓(xùn)練樣本Y,.其中,肺與脾臟圖塊尺寸為20像素×20像素,腎臟圖塊尺寸為30像素×30像素.以肺部圖像為例,Y,∈R1200×10000,字典D,∈R1200×100,最大迭代次數(shù)為50.基于第2.4節(jié)的步驟,分別對肺、脾臟、腎臟圖像進行分類.其中,肺部相關(guān)實驗參數(shù)設(shè)置為ρ=0.001,α=1E?3,β=1E?3,脾臟相關(guān)實驗參數(shù)設(shè)置為ρ=0.001,α=1E?2,β=0.1,腎臟相關(guān)實驗參數(shù)設(shè)置為ρ=0.001,α=1E?2,β=1E?4(實驗參數(shù)分析見第3.4節(jié)).
圖1 肺、脾臟、腎臟的組織病理圖像Fig.1 Lung,spleen and kidney images
2)FCDFDL與其他方法的實驗對比
應(yīng)用本文FCDFDL方法,在不同組織圖像上,與WND-CHARM[33],SRC[12],SHIRC[13],LCKSVD[26],FDDL[27]和DFDL[29]進行分類性能對比.其中,WND-CHARM結(jié)合了對比度、像素及紋理等特征,并采用SVM分類;SRC和SHIRC方法中的字典并沒有經(jīng)過學(xué)習(xí),采用稀疏重構(gòu)誤差進行分類.表1~3分別給出了肺、脾臟、腎臟的分類結(jié)果.表中結(jié)果是采用不同樣本分別進行10次實驗所取的平均值.
在表1~3中,第2行給出了不同方法下無病樣本的正分率與錯分率,第3行給出了不同方法下有病樣本的錯分率與正分率.可以看出,本文FCDFDL方法在肺、脾臟、腎臟的無病樣本與有病樣本中正分率都有所提高,錯分率有所下降,具有更好的疾病診斷性能.特別對肺部圖像的分類結(jié)果提升尤為明顯(表1),與DFDL相比,本文方法的分類精度提升了2%~3%.表明本文學(xué)習(xí)的字典對同類樣本具有更好的重構(gòu)性,對非同類樣本具有更好的判別性.
1)BreaKHis數(shù)據(jù)集及相關(guān)實驗設(shè)置
為進一步驗證FCDFDL方法的有效性,本文將其應(yīng)用于BreaKHis數(shù)據(jù)集中疾病類型的診斷.該數(shù)據(jù)集包括不同放大倍數(shù)(40×,100×,200×,400×)下82名患者的良性乳腺癌圖像,包括腺病、纖維腺癌、葉狀癌和管狀腺癌四個類別,共計2368張.40×放大倍數(shù)下的腺病與葉狀癌兩種組織病理圖像共計223張,其中,腺病圖像為114張,葉狀癌圖像為109張.圖2(a)表示腺病的組織病理圖像,圖2(b)表示葉狀癌的組織病理圖像.
表1 不同方法在肺部圖像的分類結(jié)果對比Table 1 Classification results comparison of different methods on lung images
表2 不同方法在脾臟圖像的分類結(jié)果對比Table 2 Classification results comparison of different methods on spleen images
表3 不同方法在腎臟圖像的分類結(jié)果對比Table 3 Classification results comparison of different methods on kidney images
本文選取40×放大倍數(shù)下的腺病與葉狀癌兩種組織病理圖像作為訓(xùn)練樣本(這兩種病理圖像相似度較高),并將所有圖像歸一化為600像素×600像素.在腺病和葉狀癌的彩色圖像中各隨機選取40張,每張圖像提取250個圖塊,塊的尺寸為20像素×20像素,則腺病與葉狀癌樣本分別為10000個圖塊.將每個圖塊的RGB三通道串成列向量作為訓(xùn)練樣本,則Y,∈R1200×10000,字典D,∈R1200×100,最大迭代次數(shù)為50.采用本文第2.4節(jié)的步驟,分別學(xué)習(xí)了腺病字典與葉狀癌字典,并利用測試樣本在腺病字典與葉狀癌字典上的稀疏重構(gòu)誤差進行分類.實驗參數(shù)設(shè)置為:ρ=0.001,α=1E?3,β=1E?3.
2)FCDFDL與其他方法的實驗對比
表4給出了FCDFDL與其他方法在BreaKHis數(shù)據(jù)集上的分類結(jié)果.
圖2 腺病與葉狀癌的組織病理圖像Fig.2 The images of adenosis and phyllodes tumor
可以看出,與 WND-CHARM[33],SRC[12],SHIRC[13],LC-KSVD[26],FDDL[27],DFDL[29]方法相比,由于本文FCDFDL方法學(xué)習(xí)了判別性強的腺病字典與葉狀癌字典,更能有效提取圖像的分類特征,取得較好的分類效果.
為了進一步探究不同字典學(xué)習(xí)方法下所獲得D與的類間差異,將FCDFDL方法與LC-KSVD,FDDL和DFDL進行主觀與客觀的比較.圖3為不同方法基于不同組織圖像的訓(xùn)練樣本所學(xué)習(xí)的字典示意圖.圖3結(jié)果顯示,與其他三種方法相比,本文方法學(xué)習(xí)的兩類字典之間差異明顯,相似程度大大降低.表明結(jié)合Fisher準則直接約束學(xué)習(xí)字典的類內(nèi)距離與類間距離,通過優(yōu)化目標函數(shù)式(7)與式(8),可以最小化學(xué)習(xí)字典的類內(nèi)距離與最大化學(xué)習(xí)字典的類間距離.LC-KSVD,FDDL與DFDL方法學(xué)習(xí)的D與較為相似,主要原因在于LCKSVD與FDDL方法僅僅約束稀疏表示系數(shù)的判別性,而DFDL方法在優(yōu)化過程中并沒有考慮學(xué)習(xí)字典之間的差異.因此,這三種方法得到的學(xué)習(xí)字典之間相似度高,判別性弱.對比分析表明,本文FCDFDL方法學(xué)習(xí)的字典包含的細胞結(jié)構(gòu)與紋理更豐富,顏色信息更全面,稀疏表示能力更強,具有更好判別性特征提取能力.
為客觀衡量本文方法與LC-KSVD、FDDL和DFDL所學(xué)習(xí)的字典的類間差異,采用學(xué)習(xí)后的字典D與的距離作為評價指標(即),實驗結(jié)果如圖4所示.圖4中橫坐標表示不同的組織病理圖像,縱坐標表示學(xué)習(xí)字典的類間距離,其值越大,說明兩個字典之間的差異越明顯.由此可知,與其他三種方法相比,本文方法學(xué)習(xí)字典的類間差異更為明顯.因此,基于Fisher準則構(gòu)造學(xué)習(xí)字典的懲罰項,可以大大降低學(xué)習(xí)字典之間的相似性,提高學(xué)習(xí)字典對非同類樣本的判別能力.
1)參數(shù)ρ,α,β的設(shè)置
表4 不同方法在BreaKHis數(shù)據(jù)庫上的分類結(jié)果對比Table 4 Classification results comparison of different methods on BreaKHis dataset
圖4 學(xué)習(xí)字典的類間差異Fig.4Inter-class differences between learnedDand
與DFDL方法相同,本文中參數(shù)ρ平衡了學(xué)習(xí)字典對類內(nèi)樣本與類間樣本的重構(gòu)誤差,因此參數(shù)ρ的設(shè)定參考了DFDL方法給出的經(jīng)驗值ρ=0.001.不同之處在于FCDFDL方法增加了Fisher準則約束項懲罰因子α和β.圖5給出了隨參數(shù)α,β變化時,本文方法在不同組織病理圖像的分類精度.從圖5可以看出,肺部圖像在α=1E?3,β=1E?3時分類性能達到最優(yōu);脾臟圖像在α=1E?2,β=1E?4時分類性能達到最優(yōu);腎臟圖像在α=1E?3,β=1E?3時分類性能達到最優(yōu);乳腺圖像在α=1E?3,β=1E?3時分類性能達到最優(yōu).
2)圖塊尺寸的設(shè)置
隨著圖塊尺寸變化,圖6給出了本文方法在肺、脾臟、腎臟和乳腺的分類精度.由此可知,肺部、脾臟和乳腺圖塊尺寸取值為20像素×20像素時,腎臟圖塊尺寸取值為30像素×30像素時,本文方法的分類性能達到最優(yōu).因此,利用合適尺寸的圖塊作為訓(xùn)練樣本,能更有效提取圖像特征,取得較佳的分類效果.
針對面向組織病理圖像特征提取的字典學(xué)習(xí)方法存在學(xué)習(xí)的無病字典與有病字典相似程度高、判別性弱的問題,本文提出一種新的面向判別性特征的字典學(xué)習(xí)方法(FCDFDL).利用Fisher準則直接約束無病字典與有病字典的類內(nèi)距離與類間距離,構(gòu)建了字典學(xué)習(xí)函數(shù)的懲罰項,得到了判別性更強的無病字典與有病字典;同時,可最小化學(xué)習(xí)字典對同類樣本的重構(gòu)誤差,并最大化學(xué)習(xí)字典對非同類樣本的重構(gòu)誤差,獲得了較好稀疏表示性能.最后,基于學(xué)習(xí)字典對測試樣本的稀疏重構(gòu)誤差構(gòu)建了分類器,實現(xiàn)了組織病理圖像的二分類.在ADL數(shù)據(jù)集與BreaKHis數(shù)據(jù)集上的實驗結(jié)果表明,本文方法能有效提取組織病理圖像內(nèi)在的分類特征,與同類其他算法相比,具有更好的分類性能.
圖5 參數(shù)α,β的變化對不同病理圖像分類精度的影響Fig.5 Classification accuracy with different parametersα,β on different pathological images
圖6 FCDFDL方法下圖塊尺寸的變化對不同病理圖像分類精度的影響Fig.6 Classification accuracy on different pathological images with different image block size,and with FCDFDL method