張飛飛,周濤,,3△,陸惠玲,梁蒙蒙,楊健
(1.寧夏醫(yī)科大學(xué)公共衛(wèi)生與管理學(xué)院,銀川 750000;2.寧夏醫(yī)科大學(xué)理學(xué)院,銀川 750000;3.寧夏智能信息與大數(shù)據(jù)處理重點(diǎn)實(shí)驗(yàn)室,銀川 750021)
粗糙集(rough set,RS)是一種刻畫不完整性和不確定性的數(shù)學(xué)工具,能有效分析各種不完備的信息,通過對數(shù)據(jù)進(jìn)行分析和推理,從中發(fā)現(xiàn)隱含的知識(shí),揭示潛在的規(guī)律[1]。RS在醫(yī)學(xué)圖像處理領(lǐng)域的應(yīng)用主要包括圖像的增強(qiáng)[2]、分類[3]、特征選擇[4]和分割[1]等。但大多數(shù)決策信息數(shù)據(jù)存在模糊性、不完整性及噪聲[5],此時(shí)RS已經(jīng)不能滿足數(shù)據(jù)處理的要求。為了克服RS只能處理完全確定數(shù)據(jù)的局限性,提出了其擴(kuò)展模型-變精度粗糙集(variable precision rough set,VPRS),通過引入分類錯(cuò)誤率β([0,0.5])將RS的下近似由“完全包含”放松為“部分包含”,反映了數(shù)據(jù)集中存在的誤分類數(shù)據(jù)的魯棒性和噪聲數(shù)據(jù)。近年來,對β選取問題的研究主要有以下幾個(gè)方面:一是不考慮β選取的細(xì)節(jié),提出可擴(kuò)展的VPRS模型,如:變精度模糊粗糙集[6]、廣義變精度粗糙集[7]、變精度軟粗糙集等;二是通過不同的方式計(jì)算β的取值,如文獻(xiàn)[5]中將平均包含度作為選取上下近似的閾值;三是研究RS的概率泛化模型如:VPRS、博弈粗糙集、決策粗糙集[8]、貝葉斯粗糙集(bayesian rough set,BRS)[9]、0.5概率粗糙集等,這些方法彼此相關(guān),不同的是概率近似公式和參數(shù)設(shè)計(jì)方式不同。其中BRS是VPRS的一種無參數(shù)化推廣,利用先驗(yàn)概率來計(jì)算VPRS中閾值β,但是目前很多研究還處于理論階段,缺乏成熟的應(yīng)用模型。
本研究結(jié)合BRS、遺傳算法(genetic algorithm,GA)和支持向量機(jī)(support vector machine,SVM),提出一種基于BRS的肺部腫瘤CT圖像高維特征選擇算法。首先提取3 000幅肺部腫瘤CT圖像ROI區(qū)域104維特征構(gòu)造決策信息表;其次從全局相對增益函數(shù)的角度分析屬性重要度,結(jié)合屬性約簡長度和基因編碼權(quán)值函數(shù)三者的加權(quán)和構(gòu)造適應(yīng)度函數(shù)框架;最后利用支持向量機(jī)分類識(shí)別。
GA算法借用了生物遺傳學(xué)的觀點(diǎn),通過自然選擇、交叉、變異等操作,實(shí)現(xiàn)個(gè)體適應(yīng)性的提高。它是模擬自然界遺傳機(jī)制和生物進(jìn)化理論而形成的一種過程搜索最優(yōu)解的算法。相比傳統(tǒng)優(yōu)化算法,遺傳算法具有其獨(dú)特的特點(diǎn):理論基礎(chǔ)扎實(shí)、魯棒性強(qiáng)、適用于并行處理[10],已廣泛應(yīng)用于計(jì)算機(jī)科學(xué)、圖形圖像處理、數(shù)據(jù)挖掘等領(lǐng)域,也被廣泛應(yīng)用于特征選擇,并取得了較好的結(jié)果[11]。
分類錯(cuò)誤率β的選取制約著VPRS發(fā)展,目前尚無系統(tǒng)的閾值選取體系。為了進(jìn)一步擴(kuò)展概率粗糙集的應(yīng)用,Slezak[12]等在貝葉斯理論的基礎(chǔ)上,提出了一種修正的VPRS模型,用事件發(fā)生的先驗(yàn)概率代替VPRS中分類錯(cuò)誤率β,無需任何參數(shù)來控制模型派生,既克服了經(jīng)典RS對下近似的完全精確劃分,又避免了變精度粗糙集中參數(shù)β對上下近似的影響?;靖拍钊缦拢?/p>
(1)
(2)
(3)
定義3:設(shè)X與E為等價(jià)關(guān)系,a∈E,如果RE-{a}(X)=RE(X),稱a為E中X不必要的,否則a為E中X必要的。E中所有X必要的集合稱為E的X核。
定義4:信息系統(tǒng)S中,對于?X?U,子集B?C,則B為X的R約簡,且滿足:
(1)RB(X)=RC(X);
(2)去掉B中任一屬性均使得式(1)不成立。
基于BRS的肺部腫瘤CT圖像高維特征選擇算法流程見圖1。
3.2.1實(shí)驗(yàn)獲取及預(yù)處理 本研究選用寧夏某三甲醫(yī)院帶有醫(yī)囑的3 000例肺部腫瘤CT圖像。從原始圖像中獲取對肺部腫瘤有較強(qiáng)區(qū)分能力的子圖作為ROI區(qū)域,并將ROI圖像歸一化為50×50像素。
圖1 基于BRS的肺部腫瘤CT圖像高維特征選擇算法流程圖
Fig1FlowchartofalgorithmforhighdimensionfeatureselectionoflungtumorCTimagebasedonBRS
3.2.2圖像分割 為準(zhǔn)確測量腫瘤的形狀、紋理和灰度等特征,選用OTSU算法分割預(yù)處理的ROI區(qū)域。OTSU是閾值自動(dòng)選取最有效、最穩(wěn)定的方法之一,在一定條件下不受圖像對比度與亮度影響[13]。圖2給出本研究分割前后的5組實(shí)例。
圖2 OTSU算法分割前后的實(shí)例
Fig2ExamplesofROIregionbeforeandaftersegmentationbasedonOTSUalgorithm
3.2.3特征提取 對分割后的ROI區(qū)域提取104維特征,包括形狀特征、紋理特征和灰度特征,具體特征見表1。提取特征后構(gòu)建決策信息表:每個(gè)樣本包括104維條件屬性和1維決策屬性。
3.2.4離散化 為了提高算法的運(yùn)行效率,簡化數(shù)據(jù)結(jié)構(gòu),采用模糊C均值聚類算法簡化構(gòu)建決策信息表。
表1 肺部腫瘤CT圖像特征集合
3.2.5基于BRS的屬性約簡 本研究結(jié)合BRS和GA算法進(jìn)行屬性約簡,降低分類器時(shí)間和空間復(fù)雜度,提高分類性能。步驟如下:
(1)參數(shù)設(shè)定:染色體為0,1組成的序列,其長度等于條件屬性數(shù)目N,交叉概率Pc,變異概率Pm,最大迭代次數(shù)K=150,初始種群M=20,適應(yīng)度函數(shù)為F(x);
(2)編碼:采用二進(jìn)制編碼方式,長度等于條件屬性的個(gè)數(shù),二進(jìn)制中0,1分別表示特征未選中和選中;
(3)初始種群:隨機(jī)產(chǎn)生M個(gè)染色體串構(gòu)成初始種群;
(4)遺傳算子:根據(jù)前期研究,遺傳算子組合為無回放隨機(jī)余數(shù)選擇、均勻交叉和高斯變異;
(5)適應(yīng)度函數(shù):適應(yīng)度函數(shù)的有效性決定GA算法的搜索方向和進(jìn)化結(jié)果,其值是判斷個(gè)體性能的主要指標(biāo)。本研究從全局相對增益函數(shù)、屬性約簡長度和基因編碼權(quán)值函數(shù)三個(gè)方面考慮,通過加權(quán)和構(gòu)造適應(yīng)度函數(shù),進(jìn)行遺傳算法尋優(yōu),找到最具區(qū)分能力的特征子集。適應(yīng)度目標(biāo)函數(shù)為:
因此本研究構(gòu)造適應(yīng)度函數(shù)為:
F(x)=-ω1×target1-ω2×target2+ω3×target3
3.2.6基于SVM的分類識(shí)別 首先采用網(wǎng)格尋優(yōu)算法優(yōu)化SVM的懲罰參數(shù)和核函數(shù)參數(shù),得到最佳參數(shù)的SVM分類模型,將約簡子集作為輸入,采用五折交叉訓(xùn)練和預(yù)測。
本研究約簡模型評價(jià)指標(biāo)包括長度,屬性重要度,算法耗時(shí),分類模型評價(jià)指標(biāo)包括:準(zhǔn)確率(Accuracy)、敏感性(Sensitivity)、特異性(Specificity)、F值、馬修斯相關(guān)性系數(shù)(matthews correlation coefficient, MCC)、平衡F分?jǐn)?shù)(balanced F score,F1Score)、約登指數(shù)(youden index,YI)和算法耗時(shí)(Time),計(jì)算公式如下:
(4)
(5)
(6)
(7)
(8)
(9)
YI=Sensitivity+Specificity-1
(10)
其中,TP表示被正確分類的惡性腫瘤數(shù);FP表示被分錯(cuò)的良性腫瘤數(shù);TN表示被正確分類的良性腫瘤數(shù);FN表示被分錯(cuò)的惡性腫瘤數(shù)。
為了驗(yàn)證本研究算法的性能,分割原始ROI區(qū)域并提取特征構(gòu)造決策信息表,采用模糊C均值聚類算法對屬性值進(jìn)行離散化;然后使用提出的算法求取屬性約簡集合,每個(gè)參數(shù)組合約簡5次,求這五次約簡結(jié)果的平均值作為該組實(shí)驗(yàn)的結(jié)果。對于約簡后的特征子集采用LIBSVM五折交叉分類識(shí)別,得到五組識(shí)別結(jié)果,通過各指標(biāo)的平均值作為此次分類結(jié)果。
將本研究基于BRS的高維特征選擇算法和基于VPRS(β分別為0.1、0.2、0.3和0.4)的高維特征選擇算法進(jìn)行屬性約簡和分類識(shí)別的比較,約簡和分類結(jié)果見表2、圖3—圖7、表3。
表2 不同算法約簡結(jié)果比較Table 2 Comparison of different algorithms reduction results
圖3BRS某次約簡結(jié)果
Fig3AreductionresultofBRSalgorithm
圖4 VPRS( β=0.1)情況下某次約簡結(jié)果Fig 4 A reduction result in the case of VPRS (β=0.1)
從表2可見,基于BRS的肺部腫瘤CT圖像高維特征選擇算法在參數(shù)β無需人工設(shè)置時(shí),約簡長度為7.8維,相比β=0.1的VPRS模型約簡長度降低顯著。屬性重要度略低于β=0.4的VPRS模型,高于其他參數(shù)值。約簡時(shí)間高于β=0.2的VPRS模型,低于其他參數(shù)值,其中相比β=0.1,時(shí)間縮短2.7倍。
圖5 VPRS( β=0.2) 情況下某次約簡結(jié)果Fig 5 A reduction result in the case of VPRS (β=0.2)
從圖3至圖7可見,基于BRS的CT圖像高維特征選擇算法相比不同β值情況下VPRS算法,約簡過程沒有出現(xiàn)早熟現(xiàn)象,收斂速度較快。從約簡結(jié)果可見,BRS模型在不需要人工設(shè)置參數(shù)的情況下仍能取得較為理想的效果。
由表3可見,基于BRS的肺部腫瘤CT圖像高維特征選擇算法相比參數(shù)β=0.1的VPRS算法精確度、特異性、MCC、F1Score、YI分別降低0.07%、0.43%、0.0015、0.0006和0.0013,但敏感性提高0.3%,分類時(shí)間β=0.1的VPRS算法是BRS算法的3.4倍。雖然BRS算法在可以接受的范圍之內(nèi)降低了精確度,但在很大程度上減少了時(shí)間消耗,綜合考慮,BRS算法整體性能優(yōu)于β=0.1的VPRS算法;BRS算法相比參數(shù)β=0.2、0.3和0.4的VPRS算法時(shí)間降低,其余各項(xiàng)指標(biāo)均有提高,相比β=0.2的VPRS算法各指標(biāo)提高顯著。從分類結(jié)果可見,BRS的模型與VPRS模型相比,既擺脫了參數(shù)的束縛,也提高了模型的分類性能。
圖6 VPRS( β=0.3) 情況下某次約簡結(jié)果Fig 6 A reduction result in the case of VPRS (β=0.3)
圖7 VPRS( β=0.4)情況下某次約簡結(jié)果Fig 7 A reduction result in the case of VPRS (β=0.4) 表3 不同算法SVM分類結(jié)果比較 Table 3 Comparison the classification results of different algorithms based on SVM
算法參數(shù)β精確度%敏感性%特異性%F值MCCF1ScoreYI時(shí)間(s)BRS與參數(shù)β無關(guān)94.2893.1995.370.94210.88610.94280.885616.3293VPRSβ=0.194.3592.8995.800.94000.88760.94340.886955.9115β=0.291.9691.0492.880.91900.84010.91960.839218.1967β=0.394.2193.0795.350.94150.88480.94200.884116.9991β=0.492.2391.4792.990.92180.84560.92220.844517.7542
本研究提出一種基于BRS的高維特征選擇算法,該算法針對VPRS在特征選擇過程中對分類錯(cuò)誤率β的過分依賴問題,結(jié)合貝葉斯理論,使用先驗(yàn)概率代替分類錯(cuò)誤率β。首先利用GA算法對初始特征空間進(jìn)行尋優(yōu),降低特征矢量的維數(shù),在適應(yīng)度函數(shù)構(gòu)造過程中考慮全局相對增益函數(shù)的屬性重要度、約簡長度和基因編碼權(quán)值函數(shù),使用SVM分類識(shí)別,最后以3 000幅肺部腫瘤CT圖像為原始數(shù)據(jù)進(jìn)行輔助診斷。實(shí)驗(yàn)結(jié)果表明,BRS算法在約簡過程中各指標(biāo)介于不同β值情況下VPRS算法,未出現(xiàn)早熟現(xiàn)象。在分類階段,BRS算法的精確度高于多數(shù)參數(shù)情況下的VPRS算法,時(shí)間復(fù)雜度最低。因此,BRS的算法相對VPRS放松了對參數(shù)的要求,并在很大程度上提高模型的性能,對肺部腫瘤的CAD具有應(yīng)用價(jià)值。