黃紫成,李 影
(仰恩大學(xué) 工程技術(shù)學(xué)院,福建 泉州 362014)
生物基因芯片也稱為DNA微陣列,是當(dāng)前常用的微陣列技術(shù)。微陣列所呈現(xiàn)的數(shù)據(jù)以矩陣形式存在,又稱為基因表達(dá)數(shù)據(jù)。但是該數(shù)據(jù)存在著維數(shù)高而樣本少的特征,維數(shù)通常可以達(dá)到成千上萬基因,樣本只有幾十個,這給數(shù)據(jù)分析提出挑戰(zhàn)。
當(dāng)前越來越多的研究人員提出不同的特征選擇算法應(yīng)用于基因芯片數(shù)據(jù)分析中,2011年Mi H K等人提出將NMF用于腫瘤特征基因的提取[1],2013年Song等人利用特征間相關(guān)性做權(quán),利用普里姆算法構(gòu)造出最小生成樹,再選擇每棵樹中相關(guān)性最大的特征構(gòu)成特征子集[2],2016年謝娟英等人提出基于K-S檢驗與mRMR原則的混合方法解決基因特征選擇問題[3],2017年Lu等人為了降低基因表達(dá)數(shù)據(jù)的維度,采用最大化交互信息MIM和自適應(yīng)遺傳算法相結(jié)合的特征選擇算法[4],Chen等人采用粗糙集和熵計算方法對基因進(jìn)行特征選擇[5],2018年Jain等人提出相關(guān)特征選擇CFS和改進(jìn)的二元粒子群iBPSO算法,對基因分類,得到較高的分類精度。
胡清華老師等人提出鄰域互信息概念[6],構(gòu)造信息粒度模型,該模型能夠直接處理連續(xù)型數(shù)據(jù)。在鄰域模型系統(tǒng),鄰域的半徑是影響該系統(tǒng)的重要因素,不同的鄰域半徑對模型性能有較大差別,但如何選擇鄰域半徑并沒有統(tǒng)一的方法。本文針對此問題,采用計算各條件屬性的標(biāo)準(zhǔn)差并除以一定參數(shù)得到一組鄰域半徑。
粗糙集理論于1982年由波蘭數(shù)學(xué)家Pawlak提出,它的觀點是“知識就是一種對對象進(jìn)行分類的能力”,主要思想是在保證數(shù)據(jù)分類能力不變的前提下,對數(shù)據(jù)做屬性約簡、特征提取等操作[7]。
下面給出幾個相關(guān)定義。
定義1在給定的N維實數(shù)空間Ω中,Δ=RN×RN→R,則稱Δ為RN上的一個度量,若Δ滿足如下條件:
1)Δ(x1,x2)≥0,當(dāng)且僅當(dāng)x1=x2時取等號;
3)Δ(x1,x3)≤Δ(x1,x2)+Δ(x2,x3)
稱(Ω,Δ) 為度量空間。Δ(xi,xj)表示元素xi和元素xj間的距離[6]。
定義2給定實數(shù)空間Ω上的非空有限集合U={x1,x2,…,xn},定義鄰域δ(xi)={x|x∈U,Δ(x,xi)≤δ},δ≥0,δ(xi) 稱為xi的鄰域粒子[6]。
定義3對于二元組NS=(U,N),?X?U,X在鄰域近似空間(U,N)中的上近似與下近似分別定義為:
同樣定義X的下近似稱為正域[6]。
定義4給定一鄰域決策系統(tǒng)NDT=(U,A,D) ,B?A,在論域U中,決策屬性D相對于條件屬性B的依賴度定義為
而對于?a∈A-B,a相對于B的重要度定義為[6]
西門子雙源CT冠狀動脈成像技術(shù)存在比較高的密度分辨率和時間分辨率高,較短的掃描時間,可提升圖像質(zhì)量[1-2]。西門子雙源CT冠狀動脈成像技術(shù)屬于無創(chuàng)的一種影像學(xué)檢查措施,在臨床中已經(jīng)獲得診斷冠狀動脈狹窄的應(yīng)用價值。本次數(shù)據(jù)結(jié)果表明,診斷金標(biāo)準(zhǔn)即為冠狀動脈造影(CAG),診斷基礎(chǔ)即為冠狀動脈病變節(jié)段,可獲得較好的特異性、敏感性、準(zhǔn)確率,但也可能發(fā)生漏診或者過診現(xiàn)象,一般是由于血管細(xì)小、血管壁鈣化、走形迂曲等導(dǎo)致的,且造影劑推注速度過快、服用硝酸甘油也可能影響診斷結(jié)果[3]。
Sig(a,B,D)=γB∪a(D)-γB(D).
在基因變量中,由于實驗條件因素導(dǎo)致存在許多噪聲基因,這些基因?qū)τ诜诸悤a(chǎn)生一定影響,因此,通過特征基因的提取可以去掉噪聲基因,并提高分類效率,具體步驟如下:
1)根據(jù)t值統(tǒng)計方法,計算各基因t值
2)基于優(yōu)化鄰域的基因特征提取。鄰域半徑的選擇對于特征基因的提取具有決定性作用,胡清華老師在文章[6]中對鄰域半徑預(yù)設(shè)一個值或是設(shè)置一定的步長范圍,但這樣得到的均為單一鄰域半徑,無法體現(xiàn)各屬性本身的性質(zhì)。因此,本文對該鄰域半徑進(jìn)行優(yōu)化改進(jìn),由于標(biāo)準(zhǔn)差能反應(yīng)基因芯片數(shù)據(jù)的離散程度,為了體現(xiàn)各條件屬性本身性質(zhì),本文計算各個基因條件屬性的標(biāo)準(zhǔn)差,以此來作為鄰域半徑,這樣對于鄰域粒子的選擇不再是根據(jù)固定的鄰域半徑,而是綜合運用各條件屬性的性質(zhì),并且鄰域半徑由單一值變?yōu)橐唤M數(shù)據(jù)。更進(jìn)一步地,為了做比較分析,得到最有效的特征基因,可以設(shè)置參數(shù)λ(如λ取0.5~1.5之間,步長為0.01),讓標(biāo)準(zhǔn)差除以λ即δ=Std(ai)/λ,這樣就可以在更廣泛的鄰域空間內(nèi)提取更有效的特征基因。
根據(jù)該組鄰域半徑,得到基因特征提取算法如圖1所示。
圖1 特征基因提取流程
該特征基因提取算法時間復(fù)雜度為條件屬性個數(shù)O(n)。
3)根據(jù)提取出的特征基因數(shù)據(jù),采用基于徑向基支持向量機(jī)(SVM)和KNN分類,用分類正確的樣本除以樣本總數(shù)而得到識別率。
實驗中使用基因分類常用的經(jīng)典數(shù)據(jù)集Leukemia、Colon與Carcinoma[9-11]。各數(shù)據(jù)集性質(zhì)見表1。
表1 基因數(shù)據(jù)性質(zhì)
采用鄰域來做特征提取的主要因素是鄰域半徑δ的選擇,這里運用計算公式Std(ai)/λ,λ取0.5~1.5之間,步長為0.01,這樣可以得到100組特征基因子集,通過十折交叉驗證,采用SVM和KNN(K為3)計算分類識別率[12-14]。
實驗環(huán)境采用Win7 64bit 操作系統(tǒng),Intel(R)Core i7,8 GB內(nèi)存,matlab R2017a。計算特征基因子集的分類識別率,得到基于固定鄰域半徑與優(yōu)化鄰域半徑下的最高、最低、平均識別率及最高識別率下特征基因個數(shù)的平均值,如表2與表3所示。
表2 基于固定/優(yōu)化鄰域半徑SVM識別率 %
表3 基于固定/優(yōu)化鄰域半徑KNN識別率 %
從表2、表3可以看出,Carcinoma與Leukemia最優(yōu)識別率在兩種分類器均可達(dá)100%,而Colon相對較差,SVM下固定鄰域半徑為72.58%,而優(yōu)化鄰域半徑識別率達(dá)77.42%,在KNN分類器下分別為86.36%和81.82%。從平均識別率來看,基于優(yōu)化的鄰域半徑在兩種分類器下識別率均比固定鄰域半徑高,并且平均特征基因個數(shù)較少。
為了驗證優(yōu)化鄰域半徑粗糙集的有效性,本文引入3種典型的特征提取方法作為比較,分為主成分分析(PCA)、線性判別分析(LDA)及核主成分分析(KernelPCA),特征基因數(shù)范圍設(shè)定為2~10,得到3種數(shù)據(jù)集的分類識別率如表4、表5和表6所示。表中每列算法左邊數(shù)據(jù)為SVM得到的識別率,右邊為KNN得到的識別率。
表4 Carcinoma數(shù)據(jù)集在3種降維算法下識別率 %
表5 Colon數(shù)據(jù)集在3種降維算法下識別率 %
從表中可以看出,Carcinoma數(shù)據(jù)集在用PCA特征提取后,兩種分類算法識別率均達(dá)到最優(yōu)識別率100%,而LDA和KernelPCA最優(yōu)識別率SVM分類下分別只有91.67%和77.78%,KNN下為91.67%和66.67%。Colon數(shù)據(jù)集在PCA與LDA效果也不好,SVM最優(yōu)識別率均為64.52%,KNN分別為77.27%與68.18%,而在KernelPCA則較高,為80.65%和86.36,Leukemia數(shù)據(jù)集在PCA與LDA效果也較好,SVM最優(yōu)識別率分別為98.61%與93.06%,但還是低于基于鄰域的特征提取,在KernelPCA效果則不明顯,最優(yōu)達(dá)73.61%。為了更好地比較5種算法在基因數(shù)據(jù)特征提取的優(yōu)劣,比較識別率的平均值,并畫出柱狀圖,如圖2、圖3所示。其中,優(yōu)化鄰域半徑變化的標(biāo)識為Var-Neighborhood,固定鄰域的標(biāo)識為Neighborhood。
表6 Leukemia數(shù)據(jù)集在3種降維算法下的識別率 %
圖2 5種算法平均識別率(SVM)比較
圖3 5種算法平均識別率(KNN)比較
從圖2可以看出,基于優(yōu)化鄰域半徑的特征提取在SVM分類器Carcinoma與Leukemia數(shù)據(jù)集識別率平均值均比其它4種算法好,而在Colon數(shù)據(jù)集中比PCA、LDA和固定鄰域半徑高,稍微低于KernelPCA,但兩者也較接近。從圖3可以看出,在KNN分類算法中,基于優(yōu)化鄰域半徑在3種數(shù)據(jù)集的平均識別率都能高于或等于(只有與Carcinoma數(shù)據(jù)在PCA下相等)其他4種算法。
以上通過實驗得出的結(jié)果,可以說明基于優(yōu)化鄰域粗糙集半徑的約簡算法在基因數(shù)據(jù)特征提取中能很好地應(yīng)用,面對海量的高維數(shù)據(jù),通過運用鄰域約簡算法提取特征基因,剔除無用或冗余基因,能達(dá)到更好的分類識別率[15-17]。
使用鄰域粗糙集做屬性約簡算法進(jìn)行數(shù)據(jù)的特征提取時,鄰域半徑的確定往往能影響最終的實驗效果,絕大多數(shù)實驗均使用事先已確定的鄰域半徑逐一搜尋最優(yōu)的分類,本文對于這一問題,對鄰域半徑進(jìn)行優(yōu)化,提出使用計算各屬性的標(biāo)準(zhǔn)差來得到一組鄰域半徑,再根據(jù)這組鄰域半徑計算各屬性子集下的樣本鄰域。在Carcinoma、Colon與Leukemia數(shù)據(jù)集中實驗,SVM與KNN分類結(jié)果均表明基于優(yōu)化鄰域半徑得到的分類平均識別率均比固定鄰域半徑的屬性約簡算法高,并且和傳統(tǒng)特征提取算法進(jìn)行比較也高,這證明了改進(jìn)鄰域半徑的有效性。
生物芯片數(shù)據(jù)是當(dāng)前的研究熱點之一,應(yīng)用范圍非常廣,不斷研究有效的算法,挖掘其中隱藏在芯片中有價值的知識[18-19]是當(dāng)下面臨的首要任務(wù)。