国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于PCA-RF方法的乳腺圖像多類別分類研究及應用

2020-12-05 06:54邵艷華
關鍵詞:降維貢獻率分類器

羅 姍,邵艷華

(貴州民族大學 數(shù)據科學與信息工程學院,貴陽 550025)

近些年,國內外研究學者在計算機輔助乳腺腫瘤分類、診斷等方面的研究有很大進步,也取得了許多新成果.相關學者在CAD技術輔助乳腺腫瘤診斷方面做了很多研究,并且在乳腺腫瘤良惡性檢測方面提出了很多方法.Peng等[1]使用人工神經網絡在MIAS數(shù)據集上進行良性腫瘤和惡性腫瘤的分類,獲得了96%的二類別分類準確率.在他們的試驗中使用中值濾波器和種子區(qū)域生長的方法對原圖進行去噪,提取了6個紋理相關的特征.Liang等[2]提出了基于GLGLM和形狀特征的乳房病變計算機輔助診斷方案:組合視圖和多分類器,該文中共提取了23種特征,采用了Student’s t-Test、Fisher-Score、Relief-F三種特征選擇方法對特征進行提取,最后使用了RF、SVM、LDA和組合分類器對提取的特征進行分類識別,對于MIAS數(shù)據集分類準確率達到了88.6%.Tariq Sadad等[3]提出了基于模糊C均值和區(qū)域生長的混合紋理特征腫瘤的分類,該文的混合方法對乳腺圖像DDSM和MIAS數(shù)據集二類別分類達到了一個很好的準確率.Singh等[4]提出了一種基于卷積神經網絡(CNN)的形狀描述子,將生成的掩模分為不規(guī)則、小葉、橢圓形和圓形四種腫瘤形狀.所提出的形狀描述子是在DDSM上訓練的,因為它提供了形狀基礎的真實性(而其他兩個數(shù)據集不提供),從而獲得了80%的總體精度.Sun L L等[5]提出了基于多視角卷積神經網絡的乳腺圖像分類,文中提出了MVMDCNN架構,并修正了損失函數(shù)來增加錯分樣本的貢獻權重;提出的新分類方法對乳腺圖像DDSM和MIAS數(shù)據集的分類精度分別達到了82.02%和63.06%.魏鑫磊[6]采用卷積神經網絡(convolutional neural network,CNN)實現(xiàn)乳腺圖像的病變分類,在MIAS(mammographic image analysis society)乳腺數(shù)據庫上進行算法測試,將乳腺鉬靶圖像做正常(N)、良性(B)和惡性(M)三分類研究,其中分類結果最高達到66.9%,Liang等[2]提出了基于GLGLM和形狀特征的乳房病變計算機輔助診斷方案:組合視圖和多分類器,使用簡單的線性組合方式組合RF、SVM、LDA三種分類器,在MIAS數(shù)據集良惡性分類中準確率達到了88.6%.

表1 乳腺圖像特性三類別分類的分類標簽及分類所屬表Tab.1 Classification labels and classification ownership of the three categories of breast image characteristics

(a) (b) (c)圖1 預處理乳腺圖像過程效果Fig.1 Renderings of breast image preprocessing

上述研究中,大多都是針對乳腺圖像的二分類問題提出的,而二分類準確率已經達到了一個較好的分類精度,但是目前乳腺圖像分類不只是關注正、異常分類,多類別的細致歸類已成為了目前乳腺圖像分類研究的熱點.比如魏鑫磊使用卷積神經網絡研究正常(N)、良性(B)和惡性(M)三類別分類,分類精度才66.9%[6],則分類精度過于低下.Xiaonan G等[7]基于混合特征提取進行乳腺三類別分類雖然有84.17%的準確率,但運行時間達到7.26 s,所用時間過長.目前關于多類別的細致乳腺圖像分類研究分類精度還非常低,達不到輔助診斷的要求,就算有些多類別分類有比較好的分類準確率,系統(tǒng)分類時還需要很高的時間復雜度,這樣導致新的問題出現(xiàn).總之上述文獻綜述體現(xiàn)了乳腺圖像分類過程中存在兩個主要問題:① 特征維度高,增加運算量,從而存在高的時間復雜度和空間復雜度;② 沒有一個合適的分類方法,因此多類別細致分類準確率低下,導致分類性能不好.因此提出PCA-RF方法對乳腺圖像特征進行多類別(正常、良性及惡性)分類,通過簡單的線性降維方法替代復雜的多特征融合方法[8].

進行乳腺圖像特征的多類別分類,是為給放射科醫(yī)生在乳腺疾病診斷時提供參考,從而做出更準確的診斷,減少乳腺疾病的誤診,提高工作效率.為了找到更具有代表性的乳腺圖像特征及實現(xiàn)更準確地診斷分類,本研究首先進行乳腺圖像的預處理,然后介紹如何尋找最具有代表性的主成分乳腺特征和怎樣實現(xiàn)診斷分類,最后對得出的實驗結果進行分析.

1 乳腺圖像預處理

醫(yī)學圖像使用的數(shù)據集是MIAS(the mammographic image analysis society)[9].數(shù)據集中共有322張乳腺X光圖像,其中有207張正常乳腺圖像、63張良性乳腺圖像以及52張惡性乳腺圖像組成.多數(shù)分類研究算法中為了方便分類,基本都將良性和惡性乳腺圖像劃分為異常類.就算實現(xiàn)三類別分類也是先進行正異常分類后,再進行良、惡性分類,而一次性實現(xiàn)正常、良性、惡性三分類的準確率相對不高.針對這個問題,需對乳腺圖像進行一系列處理,力爭提高一次性實現(xiàn)三類別分類的效率.表1顯示了三類別分類的情況,標簽0表示正常樣本,標簽1表示良性乳腺圖像樣本,而標簽2表示惡性乳腺圖像樣本.T表示正確分類,F(xiàn)表示錯誤分類,F(xiàn)10表示良性樣本被錯分為正常樣本.

在圖像預處理時,首先將1 024×1 024的圖像裁剪成600×750,去除了大量的背景干擾,其次再對600×750的乳腺圖像用中值濾波法進行去噪,之后使用直方圖均衡法再對其去噪后的乳腺圖像做增強處理,如圖1(b)所示;然后利用手動選取感興趣的ROI圖像,ROI圖像大小為184×230,如圖1(c)所示.

2 基于PCA-RF方法的乳腺圖像多類別分類研究

2.1 數(shù)據特征降維PCA算法

主成分分析(principal component analysis,PCA)是由著名統(tǒng)計學家Karl Pearson于1901年提出的線性降維方法[10].在圖像壓縮等領域得到廣泛的應用,在主成分分析中,信息的重要性是通過方差來表示的.因而它的基本思想是:構造原始特征的一系列線性組合形成低維的特征,以去除數(shù)據的相關性,并使降維后的數(shù)據最大程度地保持原始高維數(shù)據的方差信息.具體算法如表2所示.

表2 PCA降維算法Tab.2 PCA dimensionality reduction algorithm

對MIAS乳腺數(shù)據集原始1 024×1 024像素的圖像經過預處理過程后,特征數(shù)減少了1 024×1 024-184×230=1 006 256個,這樣就可以節(jié)約了大量存儲空間,節(jié)約了很多成本.特征提取和選擇:采用sift特征提取方法對預處理過的184×230圖像進行特征提取,每張圖像提取了42 090個特征.由于特征數(shù)量太大,采用主成分分析PCA算法對特征進行選擇,利用累積貢獻率來判別特性選擇的程度,如果累積貢獻率達到95%以上,則停止特征選擇.利用此方法從42 090個特征中選擇了104個特征,累積貢獻率達到了95.07%.

圖2(a)為主成分分析降維貢獻率圖,該圖中的曲線表示所選特征的累積貢獻率,各柱形表示選取的主成分的貢獻.通過主成分分析從42 090個特征共提取了104個特征,累積貢獻率達到95.07%,圖中僅僅顯示了10個主成分貢獻分布,則顯示累積貢獻率到達74.18%.圖2(b)表示從14維降到10維時,10個主成分特征貢獻率圖,貢獻率達到95.06%.主成分特征是通過主成分分析多次迭代而得到的,由第一次降維得到的104個特征,再次進行PCA算法降維得到58個主要成分,再進一步進行多次迭代降維后最終得到6個主特征.

(a) 10個主特征占104個特征的貢獻率 (b) 10個主要特征占14個特征的貢獻率圖2 主成分貢獻率Fig.2 Principal component contribution rate

2.2 隨機森林分類算法進行特征分類

隨機森林(random forest,RF)是一種具有代表性的Bagging算法,近年來受到了很大的關注.在實際問題中得到了廣泛應用,如股票市場分析、基因組數(shù)據分析、疾病預測等.通過隨機從圖像數(shù)據中抽取樣本,訓練多個不同的決策樹形成森林[11].隨機森林的分類算法相當于采用多個決策樹來完成分類,本文采用的是Bagging集成的隨機森林分類算法來實現(xiàn)乳腺圖像的特征分類,通過2.1節(jié)中PCA降維算法對于處理后的乳腺特征進行了多層[12]次降維后,得到了樣本不同特征維度的數(shù)據樣本.此節(jié)應用了隨機森林對PCA降維得到特征進行分類預測.具體算法如表3所示.

表3 隨機森林分類算法Tab.3 Random forest classification algorithm

圖3 基于PCA-RF方法的乳腺圖像特征分類流程Fig.3 Flow chart of feature classification of breast images based on PA-RF method

圖4 PCA降維前后各基分類器分類準確率對比 圖5 PCA降維前后運行時間對比

2.3 基于PCA-RF方法的乳腺圖像多類別分類研究

PCA-RF方法對乳腺圖像特征進行正常、良性、惡性三類別分類的應用,為實現(xiàn)一次性完成多類別分類,且有一個相對較好的分類效率,PCA-RF算法流程如圖3所示.

為了驗證PCA-RF方法在乳腺圖像特征分類的可行性與有效性,采用三個評價指標,分別是準確率、敏感度與運行時間(分類系統(tǒng)運行自動捕捉的運行時長).本算法分類的準確率計算公式:

3 實驗分析

采用KNN、RF、AdaBoost分類器對PCA算法的特征選擇進行實驗驗證,分析此實驗過程是可取且有效的,實驗結果如下.

圖4、圖5分別表示出了通過PCA降維前后,各分類器得出的分類準確率及所有時間對比,從圖4中可以看出經過降維后,KNN分類器和RF分類器的分類準確率還是有所提升的,而圖5則可以看出經過降維后,每一種分類器的運行時間都有減少了,因此分類效率有一定的提高.乳腺圖像特征通過PCA降至104維時各分類器對于三類別分類的分類準確率與時間的對比圖如圖6所示.

圖6 分類器對降維選取的特征分類準確率及所用時間對比Fig.6 Comparison of classification accuracy and time of features selected by classifier for dimension reduction

圖6中分類結果明顯地表示了各分類器得到分類效果,KNN分類器雖然運行時間很短,在0.005 s左右,但是它的分類準確率相對于其他分類器而言要低;而RF分類器運行時間也相對較低,在0.26 s左右,且分類準確率相比于其他分類器是最高的;AdaBoost分類準確率是相對較好的,但是該分類器運行時間為1 s左右,運行時間高出KNN分類器運行時間的180倍,運行時間也比隨機森林分類器高3.5倍.綜合比較可以得出隨機森林的分類效果相對更好.

圖7為圖像特征通過PCA算法降維成6維時各分類器對于三類別分類的分類準確率與時間的對比圖.圖7的中結果表明了隨機森林分類的穩(wěn)定性,其他分類器的分類準確率再通過PCA降維后有所下降,而且分類準確率不穩(wěn)定;然而隨機森林RF方法分類準確率沒有受影響,反而準確率有所提高,且分類時間大大減少了.通過實驗結果(圖8)可以看出,選取主要特征對分類準確率的影響不大,而且通過減少特征數(shù)量,即為分類減少了計算次數(shù).維度為104時,隨機森林分類所用時間平均約為0.3 s;而提取主要特征個數(shù)為7時,隨機森林分類所用時間平均約為0.026 s,則選取主要特征大概節(jié)約了11.5倍的時間成本.

圖7 提取的7個特征分類準確率與時間對比圖8 RF對維數(shù)不同特征分類所用時間對比

圖6和圖7顯示了隨機森林分類器進行多類別分類準確的穩(wěn)定性,同樣的分類系統(tǒng),選取104個特征與選取7個特征的分類準確率相差不大,準確率都在71%~95%之間.但利用PCA選取主要特征7個就可以達到很好分類效果.大大節(jié)約了時間成本,從而提高了分類效率.

表4顯示了PCA降維得到的主成分特征個數(shù)、累積貢獻率及實現(xiàn)分類的準確率.從表4中明顯可以看出,多次進行PCA算法降維,沒有影響到分類的準確率,反而進行三類別分類準確率的最高精度有一定提升.接下來給出了本文算法得到的三類別分類結果與其他文獻成果的比較,如表5所示.

4 結語

由于乳腺圖像具有很高的特征維度,較大的交叉性及相似性,分類器對其乳腺圖像特征分類達不到一個相對較好的效率.因此提出了PCA-RF應用于乳腺圖像多類別分類研究方法,利用主成分分析PCA算法線性降維的優(yōu)勢,將乳腺圖像特征進行多層次降維,再使用隨機森林分類器對降維特征進行特征分類.實驗結果表明,PCA-RF應用于乳腺圖像多類別分類研究上得到了93.75%分類準確率及95%的敏感性,相對于其他乳腺圖像正常、良性及惡性的三類別分類效果有所提升.

表4 PCA算法得到的特征數(shù)量及RF進行三類別分類結果Tab.4 The number of features obtained by PCA algorithm and the results of three categories of RF classification

表5 針對MIAS數(shù)據集的分類結果與其他文獻結果的比較Tab.5 Comparison of classification results with other literature results for MIAS data set

猜你喜歡
降維貢獻率分類器
混動成為降維打擊的實力 東風風神皓極
基于樸素Bayes組合的簡易集成分類器①
一種通用的裝備體系貢獻率評估框架
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
降維打擊
基于特征選擇的SVM選擇性集成學習方法
關于裝備體系貢獻率研究的幾點思考
基于差異性測度的遙感自適應分類器選擇
一種改進的稀疏保持投影算法在高光譜數(shù)據降維中的應用
基于層次化分類器的遙感圖像飛機目標檢測
永城市| 富民县| 财经| 诸暨市| 武义县| 嫩江县| 济阳县| 辽宁省| 崇文区| 龙门县| 邯郸县| 白银市| 广州市| 泽普县| 金溪县| 陆良县| 蒙自县| 北辰区| 岳阳县| 新野县| 南江县| 南华县| 宜宾市| 青岛市| 沈丘县| 新昌县| 体育| 道孚县| 上蔡县| 鄂托克旗| 吉木乃县| 鲁甸县| 昆明市| 公安县| 昌江| 泗阳县| 台中县| 九江县| 凭祥市| 兰州市| 和田县|