殷愷銘,閆士舉,宋成利
(上海理工大學醫(yī)療器械與食品學院,上海 200093)
DOI:10.13929/j.1003-3289.201710047
每年全球有超過55萬女性死于乳腺癌,超過110萬女性罹患乳腺癌,且發(fā)病率呈不斷上升趨勢[1-2]。近年來,計算機輔助診斷(computer assisted diagnosis,CAD)技術快速發(fā)展,其中乳腺癌風險評估模型在乳腺癌發(fā)病預測方面發(fā)揮著重要作用[3-6]?;阢f靶圖像量化特征的乳腺癌近期發(fā)病預測模型無需采用基因檢測技術,對個體女性近期發(fā)病預測效果較好[7]。
圖1 改進的LTP模式工作流程圖
圖2 鉬靶圖像經(jīng)分割、改進LTP算子變換后圖像和VAR圖 A.原始鉬靶圖像; B.分割后圖像; C.LTPhighP,R圖像; D.LTPlowP,R圖像; E.VARhighP,R圖; F.VARlowP,R圖
基于鉬靶圖像量化特征的CAD模型廣泛采用均值、偏度、峰度等灰度統(tǒng)計特征,基于分形維數(shù)的特征[8-10],基于灰度共生、行程矩陣的紋理特征[11]或基于旋轉均勻局部二進制(local binary pattern, LBP)模式的紋理特征[12]。既往研究[8-12]多使用圖像的整體紋理特征,而乳腺密度不均勻,且正常組織與病變組織的局部紋理特征存在較大差異,僅通過整體紋理特征不足以有效表征患者的個體圖像特性。而LBP特征雖具有灰度不變性和旋轉不變性等顯著優(yōu)點,但對噪聲和光照條件較為敏感,可能影響預測精度。本研究基于局部三元模式(local ternary pattern, LTP),提出一種新型提取乳腺結構紋理特征并進行分類的方法。
1.1 實驗圖像 收集匹茲堡大學醫(yī)學中心臨床數(shù)據(jù)庫中195名女性篩查者的390幅雙側頭尾(craniocaudal, CC)位全數(shù)字化乳腺鉬靶圖像,均采用Hologic Selenia FFDM系統(tǒng)(Hologic Inc., Bedford, MA, USA)采集。
1.2 方法 ①對CC位鉬靶圖像進行乳腺分割;②于雙側乳腺區(qū)提取新型紋理特征和常規(guī)特征;③基于雙側乳腺不對稱特性,合并左右側乳腺紋理特征;④以主成分分析(principal component analysis, PCA)法對高維特征進行降維,以K最近鄰(k-nearest neighbor, KNN)分類算法對新型紋理特征進行分類,并將其與常規(guī)紋理特征的AUC值進行對比以供優(yōu)選;⑤將新型紋理特征與常規(guī)特征融合,采用LADTree(logistic alternating decision tree)算法進行分類,獲得乳腺癌風險預測得分(圖1)。
1.2.1 圖像分割 通過鉬靶圖像的強度直方圖,采用迭代閾值法檢測乳腺與背景圖像間最優(yōu)曲線,移除圖像背景區(qū)域;通過定向區(qū)域生長法去除鉬靶圖像中胸肌和皮膚區(qū)域(圖2A、2B)。
1.2.2 特征提取 首先分別從左右側乳腺區(qū)域中提取圖像常規(guī)特征,包括灰度統(tǒng)計特征(標準差、均值、偏度、峰度等)、基于圖像分形維數(shù)特征和基于圖像的直方圖特征。
紋理特征是一種反映圖像中同質現(xiàn)象的視覺特征,體現(xiàn)物體表面中具有緩慢變化或周期性變化的結構組織排列屬性。LTP是由Tan等[13]提出的一種結構紋理特征,該算法是對局部二值模式的改進和范化,對噪聲具有較強的魯棒性,在乳腺密度均勻區(qū)相比于LBP具有更強的區(qū)分能力,且可均衡乳腺經(jīng)不同強度X線照射得到鉬靶圖像的像素值。LTP算法中提出了閾值區(qū)間,將LBP算子的鄰域中心值mc作為中心值,并引入中心值區(qū)間([mc-t,mc+t])為閾值區(qū)間。若鄰域值在閾值區(qū)間,則將該鄰域值編碼為0;若鄰域值大于中心值,則將該鄰域值編碼為1;若鄰域值比中心區(qū)間??;則將該鄰域值編碼為-1。具體流程如下:
(1)
其中G為算子鄰域的權值,閾值t由實驗者自定義獲得,權值的編碼方式與原始LBP算子[14]相同,編碼過程見圖3:
采用原始3×3鄰域LBP編碼模式時,在計算鄰域與中心像素差值的過程中,由于各鄰域與中心像素的距離不同,無法準確反映鄰域像素點與中心像素點的位置關系。Ojala等[14]提出了圓域LBP,即以圓形鄰域代替正方形鄰域,最終得到的新算子在半徑為R的圓域內可選P個像素點,可極大地涵蓋鄰域像素點的信息,故圓域LTP算子可提高紋理特征的提取精度(公式2):
(2)
在原始LTP算子中,閾值t由實驗者根據(jù)特定應用領域圖像的特征估計獲得。針對鉬靶圖像,由于乳腺密度區(qū)域存在不規(guī)則性,且正常組織和病變組織的灰度、紋理分布存在很大差異,單一閾值無法保證適應整幅乳腺圖像。因此,本研究提出一種自適應閾值,以充分表征不同乳腺組織的局部紋理特征。
在鉬靶圖像的每個圓域內,通過計算中心像素與鄰域像素的離散程度來確定相應閾值,其中離散度tm會隨著不同鄰域變化而變化,表明離散度對不同的樣本鄰域具有自適應性。因此,將離散度作為閾值能更好地量化像素與鄰域之間的關系。具體實現(xiàn)步驟如下:
(1)計算鄰域的平均對比度:
(3)
其中Δmi為鄰域各像素與中心點的差值,P為鄰域點數(shù);
(2)通過鄰域的對比度和差值計算鄰域的波動程度V:
(4)
(3)通過波動程度定義離散值tm:
(5)
LTP特征對局部像素值的變化敏感,但不能反映灰度變化,即若鄰域中圖像灰度值的大小順序相同,則得到的編碼值相同,可很大程度上忽略鉬靶圖像中的灰度變化信息,而鉬靶圖像灰度變化在紋理特征中非常重要。
鉬靶圖像的紋理是空間結構(模式)和灰度對比度(強度)兩者的正交,其中灰度值的變化不會改變模式,對比度代表灰度值的變化強度。此外,對比度具有旋轉不變性,而模式受圖像旋轉的影響。為實現(xiàn)二者的優(yōu)勢互補,本研究提出的方法中加入了表示圖像強度(局部對比度)的參數(shù),即方差。通過方差和LTP算子互補,可更好地體現(xiàn)鉬靶圖像的模式和強度,從而提取出更具價值的紋理特征。由于LTP算子分為LTPhighP,R和LTPlowP,R,因此其對應的局部方差強度也分為VARhighP,R和VARlowP,R(公式6、7)。
(6)
(7)
則鉬靶圖像的紋理特征通過LTP與VAR的聯(lián)合分布表示為:
Fh=LTPhighP,R/VARhighP,R
(8)
Fl=LTPlowP,R/VARlowP,R
(9)
再將得到的Fh和Fl特征直方圖連接,即為鉬靶圖像的紋理特征。由原始圖像經(jīng)乳腺組織分割及改進LTP算子變換后的圖像可清晰直觀地顯示乳腺組織的紋理(圖2C、2D),VAR圖譜可反映乳腺鉬靶圖像強度的變化(圖2E、2F)。
1.2.3 左右側乳腺紋理特征合并及降維 乳腺病變往往始于一側,因此左右側乳腺的不對稱性對預測乳腺癌具有重要意義。本研究將左右側乳腺特征值相減,再進行特征歸一化,獲得最終紋理特征[15]。本研究對每幅鉬靶圖像進行新型紋理特征提取,獲得199 680維數(shù)據(jù)量;如直接采用KNN分類器訓練該數(shù)據(jù),不僅分類效率極低,且分類精度將受影響,故本研究采用PCA方法對提取出的特征進行降維。
PCA[16]法是將原有特征通過線性投影形成新的低維數(shù),從而達到降維目的。針對本研究提取的乳腺紋理特征,該方法具有以下優(yōu)點:①可根據(jù)數(shù)據(jù)點集中建立1個低維的特征子空間,反映數(shù)據(jù)點集相對于乳腺紋理特征的平均差異;②本研究提取的紋理特征維度過于冗長,包含大量無用特征,經(jīng)PCA法變換后,可保留乳腺紋理特征的主要信息,且具有很好的穩(wěn)定性;③隨著紋理特征維數(shù)降低,圖像模式之間的距離相應縮小,避免了在高維空間上進行分類的復雜性;④在降維過程中,PCA法可消除模式相關性,降低誤分率。
圖3 LTP算子編碼過程圖
圖4 不同紋理特征(A)及融合紋理特征(B)預測乳腺癌的ROC曲線
1.2.4 特征分類 KNN分類算法是一種有效的機器學習算法,在類別決策時僅與極少量的相鄰樣本相關,而非通過判斷類域的方式來聚類,可高效、準確分析類域交叉或重疊較多的樣本。本研究提取出的新型紋理特征實則為圖像直方圖,多個直方圖間存在較多重疊及交叉,適用于KNN分類算法。
針對融合特征族,即新型紋理特征與常規(guī)特征的集合分類,本研究采用LADTree算法,是基于LogitBoost策略的類別交替分類器樹。LogitBoost算法在Boost算法的基礎上進行了改進,其優(yōu)點為將數(shù)個弱分類器通過組合,搭建為強分類器,可明顯提高分類精度、避免數(shù)據(jù)的過擬合。
為對分類方法的預測性能進行客觀比較,本研究采用留一法對分類結果進行驗證,即每次驗證從全體樣本中選取一個樣本作為測試集,其余樣本作為訓練集訓練分類器,重復此過程,直到遍歷所有樣本。
1.3 統(tǒng)計學方法 采用weka統(tǒng)計分析軟件,采用ROC曲線分析不同紋理特征預測乳腺癌的效能,獲得曲線下面積(area under the curve, AUC)和準確率、敏感度以及特異度。P<0.05為差異有統(tǒng)計學意義。
針對采用本研究方法提取出的新型紋理特征、基于灰度共生矩陣和游程矩陣提取的紋理特征以及基于旋轉不變LBP算子提取的紋理特征,分別經(jīng)KNN分類后進行AUC、準確率、敏感度、特異度的診斷指標對比的結果見表1、圖4A。通過集合方式將3種紋理特征分別與常規(guī)特征進行融合,經(jīng)LADTree分類器進行分類,其效能對比見表2、圖4B。
表1 不同紋理特征預測乳腺癌效能對比
表2 不同融合紋理特征預測乳腺癌效能對比
針對鉬靶圖像乳腺密度不均勻、紋理分布不規(guī)則的問題,本研究采用改進的LTP算子結合PCA法,提出了一種新型的紋理特征。與以往模型中的紋理特征比較,本研究提出的新型紋理特征更強調提取區(qū)域紋理特征,更貼合乳腺組織的解剖特征;同時,結合PCA法刪除影響預測精度的干擾特征,并采用KNN算法對單一紋理特征進行分類及LADTree算法對新型特征與常規(guī)特征進行融合后分類。本研究基于改進算法提取的新型紋理特征和融合常規(guī)特征預測乳腺癌的效能均高于常規(guī)紋理特征,提示本研究方法可提取出更多有價值的紋理特征,且與常規(guī)特征融合可進一步提高預測精度。雖然本研究采用的紋理特征提取算法的運行效率較低,但相信隨著計算機硬件技術的發(fā)展,尤其是圖形處理器的普遍應用,可逐漸得以克服和解決。
[
]
[1] Yang Q, Li L, Zhang J, et al. A new quantitative image analysis method for improving breast cancer diagnosis using DCE-MRI examinations. Med Phys, 2015,42(1):103-109.
[2] Aghaei F, Tan M, Hollingsworth AB, et al. Computer-aided breast MR image feature analysis for prediction of tumor response to chemotherapy. Med Phys, 2015,42(11):6520-6528.
[3] Dai J, Hu Z, Jiang Y, et al. Breast cancer risk assessment with five independent genetic variants and two risk factors in Chinese women. Breast Cancer Res, 2012,14(1):R17.
[4] Varesco L, Viassolo V, Viel A, et al. Performance of BOADICEA and BRCAPRO genetic models and of empirical criteria based on cancer family history for predicting BRCA mutation carrier probabilities: A retrospective study in a sample of Italian cancer genetics clinics. Breast, 2013,22(6):1130-1135.
[5] Lee AJ, Cunningham AP, Kuchenbaecker KB, et al. BOADICEA breast cancer risk prediction model: Updates to cancer incidences, tumour pathology and web interface. Br J Cancer, 2014,110(2):535-545.
[6] Gail MH,Mai PL. Comparing breast cancer risk assessment models. J Natl Cancer Inst, 2010,102(10):665-668.
[7] Tan M, Pu J, Cheng S, et al. Assessment of a four-view mammographic image feature based fusion model to predict near-term breast cancer risk. Ann Biomed Eng, 2015,43(10):2416-2428.
[8] Chang YH, Wang XH,Hardesty LA, et al. Computerized assessment of tissue composition on digitized mammograms. Acad Radiol, 2002,9(8):899-905.
[9] Wang X, Lederman D, Tan J, et al. Computerized prediction of risk for developing breast cancer based on bilateral mammographic breast tissue asymmetry. Med Eng Phys, 2011,33(8):934-942.
[10] Wang X, Lederman D, Tan J, et al. Computerized detection of breast tissue asymmetry depicted on bilateral mammograms: A preliminary study of breast risk stratification. Acad Radiol, 2010,17(10):1234-1241.
[12] Reyad YA, Berbar MA, Hussain M. Comparison of statistical, LBP, and multi-resolution analysis features for breast mass classification. Journal of Medical Systems, 2014,38(9):100.
[13] Tan X, Triggs B. Enhanced local texture feature sets for face recognition under difficult lighting conditions. IEEE Trans Image Process, 2010,19(6):1635-1650.
[14] Ojala T, Pietik?inen M, M?enp?? T. Gray scale and rotation invariant texture classification with local binary patterns//Computer Vision-ECCV 2000. Berlin: Springer-Verlag, 2000:404-420.
[15] Zheng B, Tan M, Ramalingam P, et al. Association between computed tissue density asymmetry in bilateral mammograms and near-term breast cancer risk. Breast J, 2014,20(3):249-257.
[16] Yamamoto H,Yamaji H, Abe Y, et al. Dimensionality reduction for metabolome data using PCA, PLS, OPLS, and RFDA with differential penalties to latent variables. Chemometrics & Intelligent Laboratory Systems, 2009,98(2):136-142.