国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于偏最小二乘回歸的魯棒性特征選擇與分類算法

2017-05-24 14:45:22尚志剛董永慧李蒙蒙李志輝
計(jì)算機(jī)應(yīng)用 2017年3期
關(guān)鍵詞:特征選擇魯棒性鄰域

尚志剛,董永慧,李蒙蒙,李志輝

(鄭州大學(xué) 電氣工程學(xué)院,鄭州 450001) (*通信作者電子郵箱lizhrain@zzu.edu.cn)

基于偏最小二乘回歸的魯棒性特征選擇與分類算法

尚志剛,董永慧,李蒙蒙,李志輝*

(鄭州大學(xué) 電氣工程學(xué)院,鄭州 450001) (*通信作者電子郵箱lizhrain@zzu.edu.cn)

提出一種基于偏最小二乘回歸的魯棒性特征選擇與分類算法(RFSC-PLSR)用于解決特征選擇中特征之間的冗余和多重共線性問題。首先,定義一個(gè)基于鄰域估計(jì)的樣本類一致性系數(shù);然后,根據(jù)不同k近鄰(kNN)操作篩選出局部類分布結(jié)構(gòu)穩(wěn)定的保守樣本,用其建立偏最小二乘回歸模型,進(jìn)行魯棒性特征選擇;最后,在全局結(jié)構(gòu)角度上,用類一致性系數(shù)和所有樣本的優(yōu)選特征子集建立偏最小二乘分類模型。從UCI數(shù)據(jù)庫中選擇了5個(gè)不同維度的數(shù)據(jù)集進(jìn)行數(shù)值實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,與支持向量機(jī)(SVM)、樸素貝葉斯(NB)、BP神經(jīng)網(wǎng)絡(luò)(BPNN)和Logistic回歸(LR)四種典型的分類器相比,RFSC-PLSR在低維、中維、高維等不同情況下,分類準(zhǔn)確率、魯棒性和計(jì)算效率三種性能上均表現(xiàn)出較強(qiáng)的競(jìng)爭(zhēng)力。

偏最小二乘回歸;k近鄰;噪聲樣本;特征選擇;魯棒性

0 引言

由于原始數(shù)據(jù)集中常常存在大量無關(guān)或冗余特征,因此在特征選擇時(shí),獲取魯棒性較強(qiáng)的結(jié)果變得很困難。針對(duì)這一難題,蔡哲元等[1]提出的基于核空間距離測(cè)度的特征選擇方法、成衛(wèi)青等[2]提出的基于改進(jìn)互信息和信息熵的文本特征選擇方法、Liu等[3]提出的特征選擇的全局和局部結(jié)構(gòu)保存方法等,從不同角度有效地實(shí)現(xiàn)了特征選擇,但針對(duì)多重共線性問題,這些方法還需進(jìn)一步改進(jìn)。偏最小二乘回歸(Partial Least Squares Regression, PLSR) 在自變量間存在較高相關(guān)性時(shí),提供了一種多因變量對(duì)多自變量的回歸建模方法,可以有效地解決多重共線性難題?;谶@種優(yōu)勢(shì),許多學(xué)者提出了一系列數(shù)據(jù)降維模型,如李建更等[4]提出的基于逐步提取偏最小二乘主成分的特征選擇方法、李勝等[5]提出基于改進(jìn)的量子遺傳偏最小二乘的特征選擇方法、Nagaraja 等[6]利用偏最小二乘回歸和優(yōu)化實(shí)驗(yàn)設(shè)計(jì)特征選擇算法,實(shí)現(xiàn)了對(duì)多維特征的降維。同時(shí)由于PLSR運(yùn)行速度快,且可應(yīng)用于分類,因此也有很多學(xué)者利用PLSR建立分類模型,如馬宗杰等[7]提出基于奇異值分解和偏最小二乘回歸的分類模型,Eroglu等[8]將PLSR分類模型應(yīng)用于睡眠腦電信號(hào)分類。簡(jiǎn)彩仁等[9]提出了基于稀疏表示和偏最小二乘回歸的分類方法,Li等[10]將偏最小二乘回歸應(yīng)用于腫瘤分類;但是文獻(xiàn)[9-10]只是將PLSR應(yīng)用于數(shù)據(jù)降維,并沒有用偏最小二乘回歸作進(jìn)一步的分類,而是采用傳統(tǒng)的支持向量機(jī)(Support Vector Machine, SVM)方法和最近鄰子空間準(zhǔn)則。

在建立PLSR特征選擇和分類模型時(shí),模型輸入矩陣直接來源于樣本數(shù)據(jù),而輸出矩陣的構(gòu)建對(duì)模型的性能至關(guān)重要。文獻(xiàn)[4]和[11]的模型輸出都是類別標(biāo)簽,操作簡(jiǎn)單,但結(jié)果的分類準(zhǔn)確性不好;文獻(xiàn)[5]根據(jù)量子遺傳問題,以適用度函數(shù)的適應(yīng)度值作為模型輸出,提高了準(zhǔn)確率,縮短了運(yùn)行時(shí)間,但分類的魯棒性有待提高;文獻(xiàn)[9]以最近鄰子空間的度量余量作為模型輸出,雖克服了傳統(tǒng)分類方法存在的過擬合問題,但分類模型并沒有考慮魯棒性需求。另外在模型建立過程中,噪聲樣本對(duì)優(yōu)選特征子集的選擇有一定的影響,但很多文獻(xiàn)并沒有考慮到這一點(diǎn)。文獻(xiàn)[6]、[10]、[12-13]在用PLSR進(jìn)行特征選擇時(shí),都沒有把噪聲樣本的干擾考慮進(jìn)去,在一定程度上存在魯棒性不強(qiáng)的缺點(diǎn);而文獻(xiàn)[9]用稀疏表示的方法去除了噪聲樣本的干擾,但是卻沒有進(jìn)行特征選擇,所以運(yùn)算代價(jià)較大。

針對(duì)上述文獻(xiàn)提出的方法中存在的問題,本文旨在提出一種在PLSR模型下同時(shí)實(shí)現(xiàn)魯棒性特征選擇和分類的模型,既能剔除噪聲樣本的干擾,解決特征選擇中特征之間的冗余和多重共線性問題,得到魯棒性較強(qiáng)的優(yōu)選特征子集,又能實(shí)現(xiàn)基于偏最小二乘回歸的快速準(zhǔn)確分類。

1 偏最小二乘回歸算法原理

1.1 偏最小二乘回歸

設(shè)有p個(gè)自變量{x1,x2,…,xp}和q個(gè)因變量{y1,y2,…,yq}。偏最小二乘回歸分別在輸入矩陣X與輸出矩陣Y中提取出成分t1和u1(t1是x1,x2,…,xp的線形組合,u1是y1,y2,…,yq的線形組合)。在提取這兩個(gè)成分時(shí),為了回歸分析的需要,有下列兩個(gè)要求:

1)t1和u1應(yīng)盡可能多地?cái)y帶它們各自數(shù)據(jù)表中的變異信息;

2)t1和u1的相關(guān)程度能夠達(dá)到最大。

在第一個(gè)成分t1和u1被提取后,偏最小二乘回歸分別實(shí)施X對(duì)t1的回歸以及Y對(duì)u1的回歸。如果回歸方程已經(jīng)達(dá)到滿意的精度,則算法終止;否則,將利用X被t1解釋后的殘余信息以及Y被u1解釋后的殘余信息進(jìn)行第二輪的成分提取。如此往復(fù),直到能達(dá)到一個(gè)較滿意的精度為止。若最終對(duì)X共提取了m個(gè)成分t1,t2,…,tm,偏最小二乘回歸將通過實(shí)施yr對(duì)t1,t2,…,tm的回歸,然后再表達(dá)成yr關(guān)于原變量x1,x2,…,xm的回歸方程[14],其中r=1,2,…,q。

目前的研究者多將研究視角針對(duì)基于偏最小二乘回歸的數(shù)據(jù)降維,也有涉及到偏最小二乘回歸直接用于分類的研究,但是還沒有一種能在PLSR模型下同時(shí)實(shí)現(xiàn)特征選擇和分類,且具有較好魯棒性的系統(tǒng)模型,因此這一思路是對(duì)相關(guān)研究領(lǐng)域的補(bǔ)充,在獲得合理有效的模型這一層面上也是很有意義的。

1.2 類一致性系數(shù)

在建立偏最小二乘回歸模型時(shí),一般均是將類別標(biāo)簽直接作為模型輸出,這種處理方式是較不穩(wěn)定的,因此為改善模型性能,提高算法的魯棒性,本文根據(jù)Logistic回歸(Logistic Regression, LR)的模型特點(diǎn),同時(shí)結(jié)合k近鄰(kNearest Neighbor,kNN)思想,定義了一個(gè)類一致性系數(shù)C作為模型的輸出變量。首先定義了一個(gè)類一致性概率P,其表達(dá)式為:

P=a/k

(1)

類一致性系數(shù)的表達(dá)式為:

C=ln(P/(1-P))=ln(a/(k-a))

(2)

其中:k為所取的鄰域大小,a為該鄰域內(nèi)同類樣本的個(gè)數(shù)。原理如圖1所示。某1類樣本(圖中實(shí)心圓形)的3鄰域中所有樣本均與它是同一類,那么其類一致性系數(shù)可表示為C=ln(3/(3-3))=ln(3/0);同理,某2類樣本(圖中實(shí)心菱形)的7鄰域里只有1個(gè)與它不同類,則其類一致性系數(shù)為C=ln(6/(7-6))=ln(6)。

圖1 類一致性系數(shù)的原理

本文在進(jìn)行參數(shù)k值的選取時(shí),為了準(zhǔn)確估計(jì)每個(gè)樣本的局部類分布概率密度,在不同的鄰域范圍內(nèi)構(gòu)建模型。經(jīng)過對(duì)數(shù)值實(shí)驗(yàn)的結(jié)果分析,當(dāng)k≤2時(shí),由于尺度過小的原因使得概率估計(jì)局限在非常微小的區(qū)間中,易受到噪聲樣本點(diǎn)影響,造成估計(jì)的結(jié)果不理想,準(zhǔn)確率偏低;當(dāng)k取10以上的值時(shí),由于鄰域范圍內(nèi)包含的樣本數(shù)量過多而失去了局部類分布概率密度估計(jì)的意義,造成細(xì)節(jié)信息的丟失并引起平滑噪聲,降低了模型的可靠性,尤其是在靠近分類邊界的區(qū)域會(huì)造成估計(jì)結(jié)果較差。常規(guī)的k近鄰算法常采用奇數(shù)作為備選k值進(jìn)行分類以便于投票決定類別,因此本文借鑒了k近鄰的思想選取k=3,5,7作為本次實(shí)驗(yàn)的鄰域范圍取值。對(duì)于任意一個(gè)樣本,本文以3個(gè)類一致性系數(shù)C1,C2,C3作為模型的輸出矩陣。

2 基于PLSR的魯棒性特征選擇與分類算法

為了實(shí)現(xiàn)在PLSR模型下同時(shí)進(jìn)行特征選擇和分類,提高分類精度和運(yùn)行效率,并在特征選擇之前剔除噪聲樣本的影響,提高特征選擇的魯棒性,本文提出了基于偏最小二乘回歸的魯棒性特征選擇與分類算法(RobustFeatureSelectionandClassificationalgorithmbasedonPartialLeastSquaresRegression,RFSC-PLSR)。

2.1 基于偏最小二乘回歸的特征選擇

由于原始數(shù)據(jù)集中可能存在的大量相關(guān)或冗余特征[15],因此在模式識(shí)別中,特征選擇顯得特別重要;同時(shí)原始數(shù)據(jù)集中還可能存在一些噪聲樣本[16],它們會(huì)直接影響特征選擇的效果,造成結(jié)果的魯棒性不強(qiáng),因此本文算法在特征選擇時(shí)首先考慮根據(jù)類一致性概率進(jìn)行保守樣本篩選,剔除噪聲樣本,以避免噪聲樣本對(duì)特征選擇的不利影響。這里,定義3鄰域時(shí)所有近鄰樣本都為同一類的樣本為保守樣本,即類一致性概率P=1時(shí),判定該樣本為保守樣本。

以得到的保守樣本作為模型輸入,保守樣本在鄰域范圍k=3,5,7時(shí)的類一致性系數(shù)作為模型輸出建立偏最小二乘回歸模型,得到回歸系數(shù)矩陣。回歸系數(shù)對(duì)應(yīng)每維特征的權(quán)重,故回歸系數(shù)越大,說明其對(duì)模型的貢獻(xiàn)越大。這里,定義一個(gè)累計(jì)貢獻(xiàn)率為:

(3)

其中:n為特征總數(shù),m為入選特征數(shù),回歸系數(shù)α從大到小排列。為確定合適的閾值進(jìn)行了多次數(shù)值實(shí)驗(yàn),結(jié)果表明當(dāng)sp達(dá)到95%時(shí),特征選擇的效果最好,此時(shí)前m個(gè)回歸系數(shù)α對(duì)應(yīng)的特征進(jìn)入優(yōu)選特征子集。

2.2 基于偏最小二乘回歸的分類

將上述得到的優(yōu)選特征子集應(yīng)用于訓(xùn)練數(shù)據(jù)集中的所有樣本訓(xùn)練偏最小二乘分類模型,此時(shí)的模型輸入是所有訓(xùn)練樣本的優(yōu)選特征子集,輸出是所有訓(xùn)練樣本在鄰域范圍k=3,5,7時(shí)的類一致性系數(shù)。將測(cè)試樣本集輸入訓(xùn)練好的偏最小二乘回歸分類模型得到3個(gè)不同鄰域下的類一致性系數(shù)預(yù)測(cè)值,并結(jié)合該測(cè)試樣本在訓(xùn)練集中的k(k=3,5,7)個(gè)近鄰樣本類別標(biāo)簽來確定測(cè)試樣本的類別標(biāo)簽。這樣既可以保證用到樣本數(shù)據(jù)的局部結(jié)構(gòu)信息,又兼顧了其全局結(jié)構(gòu)信息。

3個(gè)類一致性系數(shù)表征了在由小到大變化的3個(gè)鄰域里,與該測(cè)試樣本具有相同類別標(biāo)簽的訓(xùn)練樣本的概率分布,保證了在全局結(jié)構(gòu)上對(duì)樣本分布的綜合考察;而在局部結(jié)構(gòu)角度上,選擇測(cè)試樣本在訓(xùn)練集中的k個(gè)近鄰中多數(shù)樣本的類別標(biāo)簽對(duì)其類別標(biāo)簽進(jìn)行合理估計(jì)。首先將預(yù)測(cè)值類一致性系數(shù)C轉(zhuǎn)換為類一致性概率P,轉(zhuǎn)換公式為:

(4)

之后將得到的P作為k近鄰方法預(yù)測(cè)結(jié)果的置信度,定義:

(5)

其中:θ=1表示接受k近鄰方法估計(jì)出的類別標(biāo)簽;反之,θ=-1表示拒絕k近鄰方法估計(jì)出的類別標(biāo)簽。這樣在3個(gè)鄰域范圍取值下得到3個(gè)類別標(biāo)簽預(yù)測(cè)值,最終根據(jù)多數(shù)原則確定測(cè)試樣本的類別標(biāo)簽。

2.3RFSC-PLSR方法的步驟

RFSC-PLSR算法流程如圖2所示。

圖2 RFSC-PLSR算法流程

具體算法步驟描述如下:

1)對(duì)于給定樣本集X0={xr,r=1,2,…,n},設(shè)X1={xi,i=1,2,…,n}為訓(xùn)練樣本,X2={xj,j=1,2,…,n-i}為測(cè)試樣本。

2)根據(jù)式(1)計(jì)算3鄰域時(shí)X0的類一致性概率P。如果P=1,那么xr為保守樣本;否則xr為噪聲樣本。

3)以保守樣本為輸入,3、5、7三種鄰域下的類一致性系數(shù)為輸出建立PLSR方程,得到保守樣本的回歸系數(shù)矩陣rc,并模歸一化rc。

4)根據(jù)式(3)計(jì)算出回歸系數(shù)矩陣rc的累計(jì)貢獻(xiàn)率sp。如果sp≥0.95,則選擇前m個(gè)回歸系數(shù)α對(duì)應(yīng)的特征進(jìn)入優(yōu)選特征子集。

5)用X1和優(yōu)選特征子集作輸入,3、5、7三種鄰域下的類一致性系數(shù)為輸出建立并訓(xùn)練PLSR分類模型。

6)把X2輸入到訓(xùn)練出的分類模型,得到3種不同鄰域下的類一致性系數(shù)預(yù)測(cè)值C1,C2,C3,根據(jù)式(4)轉(zhuǎn)換為類一致性概率P1,P2,P3。

7)通過k近鄰方法得出測(cè)試樣本在訓(xùn)練集中的3、5、7個(gè)近鄰樣本的類別標(biāo)簽Y1,Y2,Y3。

8)根據(jù)6)的結(jié)果,如果P1≥0.5,那么接受Y1;否則拒絕Y1,即類別標(biāo)簽為另一類別標(biāo)簽。同理,應(yīng)用于Y2,Y3。

9)根據(jù)7)的結(jié)果,由多數(shù)原則確定測(cè)試樣本空間X2的預(yù)測(cè)類別標(biāo)簽Y0。

3 數(shù)值實(shí)驗(yàn)及結(jié)果分析

本文以二分類問題為例,在偏最小二乘回歸的基礎(chǔ)上進(jìn)行建模。通過多組數(shù)值實(shí)驗(yàn)來驗(yàn)證本文提出的RFSC-PLSR算法的有效性,并與支持向量機(jī)(SVM)[17]、樸素貝葉斯(NaiveBayes,NB)[18]、BP神經(jīng)網(wǎng)絡(luò)(BPNeuralNetwork,BPNN)[19]和Logistic回歸(LogisticRegression,LR)[20]等四種常用的典型分類器進(jìn)行對(duì)比、分析和討論。

3.1 數(shù)據(jù)集

考慮在特征維度多樣化的條件下對(duì)比實(shí)驗(yàn)結(jié)果,本文從UCIMachineLearningRepository(http://archive.ics.uci.edu/ml/index.html)中選擇5個(gè)不同維度的數(shù)據(jù)分別進(jìn)行數(shù)值實(shí)驗(yàn),數(shù)據(jù)集詳情及特征選擇結(jié)果如表1所示。

表1 數(shù)據(jù)集詳情及特征選擇結(jié)果

3.2 實(shí)驗(yàn)結(jié)果分析

對(duì)上述數(shù)據(jù)集采用十折交叉驗(yàn)證法,以10次的平均結(jié)果作為不同方法的最終結(jié)果并加以比較,分類精度和運(yùn)行時(shí)間分別如表2所示,魯棒性效果對(duì)比如圖3所示。

觀察表2分類精度發(fā)現(xiàn),全部特征時(shí)RFSC-PLSR和四種典型的分類器相比較,準(zhǔn)確率沒有明顯低于其他四種,且方差較小。如在ionosphere數(shù)據(jù)中,RFSC-PLSR的準(zhǔn)確率雖比BPNN低,但其方差明顯比BPNN小,且分類精度相對(duì)其他三種方法較好,在sonar數(shù)據(jù)中,RFSC-PLSR的分類精度明顯比其他四種方法好;在優(yōu)選特征下,RFSC-PLSR的分類精度相對(duì)較高,表中加下劃線的分類精度分別是5種分類器中表現(xiàn)最好的和次好的,可以看出,RFSC-PLSR的分類精度都表現(xiàn)較好。如在ionosphere、sonar和musk3個(gè)數(shù)據(jù)中,RFSC-PLSR的分類精度都相對(duì)其他四種方法較好,在breast和MultiFeat數(shù)據(jù)中,RFSC-PLSR的準(zhǔn)確率雖不如BPNN和SVM好,但方差都比它們小??梢钥闯?,本文算法不管在全部特征下,還是優(yōu)選特征下,都有較好的分類精度。

表2 RFSC-PLSR與典型的四種分類器的分類精度和運(yùn)行時(shí)間比較

圖3 不同數(shù)據(jù)集在全部特征和優(yōu)選特征時(shí)的魯棒性效果對(duì)比

比較五種分類器在全部特征和優(yōu)選特征下的精度變化情況,發(fā)現(xiàn)五種分類器精度沒有發(fā)生顯著性的變化,且RFSC-PLSR在進(jìn)行特征選擇之后分類精度的波動(dòng)情況明顯比其他四種分類器上較小。這一則說明本文的特征選擇方法較好地去除了冗余無關(guān)特征,選出的特征子集能較完整保留數(shù)據(jù)的信息;一則說明本文結(jié)合特征選擇與分類的PLSR模型的魯棒性強(qiáng)。

從表2運(yùn)行時(shí)間可以看出,在5個(gè)數(shù)據(jù)集中,與SVM和BPNN相比,RFSC-PLSR在全部特征和優(yōu)選特征時(shí)能保證較好的運(yùn)行效率,雖然NB以及LR處理多維數(shù)據(jù)時(shí)的運(yùn)行效率優(yōu)勢(shì)非常明顯,但是在分類精度上的表現(xiàn)不盡如人意。如在sonar和musk數(shù)據(jù)下,NB的運(yùn)行速度很快,但是其分類精度明顯比RFSC-PLSR低很多;在ionosphere和sonar數(shù)據(jù)下,LR的運(yùn)行速度也很快,但是其分類精度也明顯比RFSC-PLSR低。

圖3給出了5個(gè)數(shù)據(jù)在全部特征和優(yōu)選特征時(shí)的5種分類器的魯棒性效果對(duì)比,從圖3中可以看出,在全部特征和優(yōu)選特征時(shí)RFSC-PLSR在前四個(gè)數(shù)據(jù)中準(zhǔn)確率都較集中,魯棒性明顯好于其他四種分類器。在MultiFeat數(shù)據(jù)中,在全部特征時(shí),雖其魯棒性效果和SVM差不多,但明顯好于其他三種方法;在優(yōu)選特征時(shí),RFSC-PLSR的魯棒性和SVM、BPNN差不多,但也明顯好于其他兩種分類器。說明RFSC-PLSR的魯棒性較好。

綜合以上三點(diǎn),表明本文算法處理不同維度的數(shù)據(jù)集時(shí),在分類精度、運(yùn)行效率和魯棒性三個(gè)方面均有良好的表現(xiàn),能在保證算法精度和運(yùn)行效率的前提下增強(qiáng)魯棒性,具有一定的優(yōu)越性。

4 結(jié)語

本文利用偏最小二乘回歸分析的優(yōu)勢(shì),結(jié)合k近鄰算法,提出一種基于偏最小二乘回歸的魯棒性特征選擇與分類算法。通過在多種維度數(shù)據(jù)集上的應(yīng)用得到如下結(jié)論:

1)RFSC-PLSR算法,兩次結(jié)合PLSR模型,有效解決了特征之間的多重共線性問題,同時(shí)排除了噪聲樣本的影響,提高了系統(tǒng)的魯棒性。

2)定義的類一致性系數(shù)從全局信息考慮,并結(jié)合k近鄰兼顧局部信息,敏感地感知出類別的變化,更好地體現(xiàn)數(shù)據(jù)集的真實(shí)結(jié)構(gòu)。

3)RFSC-PLSR算法選用PLS回歸模型,有效去除了冗余和無關(guān)特征,提高了運(yùn)行效率,具有較好的推廣性。

本文中RFSC-PLSR算法處理的問題相對(duì)簡(jiǎn)單,當(dāng)遇到復(fù)雜的非線性問題時(shí),若擴(kuò)展到核空間上可能會(huì)有更好的表現(xiàn);如何根據(jù)數(shù)據(jù)集的結(jié)構(gòu)自適應(yīng)地確定特征選擇閾值sp很有意義;分類模型中P的閾值選擇,本文也沒有作細(xì)致的討論。故上述問題將成為作者下階段的重點(diǎn)研究方向。

)

[1] 蔡哲元,余建國(guó),李先鵬,等.基于核空間距離測(cè)度的特征選擇[J].模式識(shí)別與人工智能,2010,23(2):235-240.(CAIZY,YUJG,LIXP,etal.Featureselectionalgorithmbasedonkerneldistancemeasure[J].PatternRecognitionandArtificialIntelligence, 2010, 23(2): 235-240.)

[2] 成衛(wèi)青,唐旋.一種基于改進(jìn)互信息和信息熵的文本特征選擇方法[J].南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,33(5):63-68.(CHENGWQ,TANGX.Atextfeatureselectionmethodusingtheimprovedmutualinformationandinformationentropy[J].JournalofNanjingUniversityofPostsandTelecommunications(NaturalScienceEdition), 2013, 33(5): 63-68.)

[3]LIUX,WANGL,ZHANGJ.Globalandlocalstructurepreservationforfeatureselection[J].IEEETransactionsonNeuralNetworksandLearningSystems, 2013, 25(6): 1083-1095.

[4] 李建更,耿濤,阮曉鋼.基于逐步提取偏最小二乘主成分的特征選擇方法[J].生物學(xué)雜志,2010,27(4):85-87.(LIJG,GENGT,RUANXG.Featureselectionbasedonstep-wiseextractionofpartialleastsquareprincipalcomponents[J].JournalofBiology, 2010, 27(4): 85-87.)

[5] 李勝,張培林,李兵,等.改進(jìn)的量子遺傳偏最小二乘特征選擇方法應(yīng)用[EB/OL].[2015- 09- 09].http://xueshu.baidu.com/s?wd=paperuri%3A%2860c46a5aa2660e17695da55a04fd240c%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fd.wanfangdata.com.cn%2FPeriodical_pre_c9928afb-7542-4d5f-930a-e367c2695add.aspx&ie=utf-8&sc_us=6354191550128628502.(LIS,ZHANGPL,LIB,etal.Applicationforfeatureselectionmethodofimprovedquantumgeneticalgorithm-partialleastsquare[EB/OL]. [2015- 09- 09].http://xueshu.baidu.com/s?wd=paperuri%3A%2860c46a5aa2660e17695da55a04fd240c%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fd.wanfangdata.com.cn%2FPeriodical_pre_c9928afb-7542-4d5f-930a-e367c2695add.aspx&ie=utf-8&sc_us=6354191550128628502.)

[6]NAGARAJAVK,ABD-ALMAGEEDW.Featureselectionusingpartialleastsquaresregressionandoptimalexperimentdesign[C]//Proceedingsofthe2015InternationalJointConferenceonNeuralNetworks.Piscataway,NJ:IEEE, 2015: 1-8.

[7] 馬宗杰,劉華文.基于奇異值分解—偏最小二乘回歸的多標(biāo)簽分類算法[J].計(jì)算機(jī)應(yīng)用,2014,34(7):2058-2060.(MAZJ,LIUHW.Multi-labelclassificationbasedonsingularvaluedecomposition-partialleastsquaresregression[J].JournalofComputerApplications, 2014, 34(7): 2058-2060.)

[8]EROGLUK,MALEKIM,KAYIKCIOGLUT.FastandhighaccuracyclassificationofsleepEEGusingPLSRmethod[C]//Proceedingsofthe2013 21stSignalProcessingandCommunicationsApplicationsConference.Piscataway,NJ:IEEE, 2013: 1-4.

[9] 簡(jiǎn)彩仁,陳曉云.基于稀疏表示和最小二乘回歸的基因表達(dá)數(shù)據(jù)分類方法[J].福州大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,43(6):738-741.(JIANCR,CHENXY.Geneexpressiondataclassificationmodelbasedonsparserepresentationandleastsquareregression[J].JournalofFuzhouUniversity(NaturalScienceEdition), 2015, 43(6): 738-741.)

[10]LIJG,GENGT.Tumorclassificationbasedonpartialleastsquareregression[C]//Proceedingsofthe2010InternationalConferenceonBiomedicalEngineeringandComputerScience.Piscataway,NJ:IEEE, 2010: 1-6.

[11] 金志超,陸健,吳騁,等.兩種基于偏最小二乘法的分類模型對(duì)腫瘤基因表達(dá)數(shù)據(jù)行多分類的比較研究[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2009,29(5):450-454.(JINZC,LUJ,WUC,etal.Twomultipleclassificationmethodsbasedonpartialleastsquaresusingtumormicroarraygeneexpressiondataonacomparativestudy[J].ChineseJournalofHealthStatistics, 2009, 29(5): 450-454.)

[12]ZENGXQ,LIGZ.Dimensionreductionforp53proteinrecognitionbyusingincrementalpartialleastsquares[J].IEEETransactionsonNanoBioscience, 2014, 13(2):73-79.

[13] 曾雪強(qiáng),李國(guó)正.基于偏最小二乘降維的分類模型比較[J].山東大學(xué)學(xué)報(bào)(工學(xué)版),2010,40(5):41-47.(ZENGXQ,LIGZ.Anexaminationofaclassificationmodelwithpartialleastsquarebaseddimensionreduction[J].JournalofShandongUniversity(EngineeringScience), 2010, 40(5): 41-47.)

[14]ABDIH.Partialleastsquaresregressionandprojectiononlatentstructureregression(PLSregression) [J].WileyInterdisciplinaryReviews:ComputationalStatistics, 2010, 2(1):97-106.

[15] 周城,葛斌,唐九陽,等.基于相關(guān)性和冗余度的聯(lián)合特征選擇方法[J].計(jì)算機(jī)科學(xué),2012,39(4):181-184.(ZHOUC,GEB,TANGJY,etal.Jointfeatureselectionmethodbasedonrelevanceandredundancy[J].ComputerScience, 2012, 39(4): 181-184.)

[16] 車凱,郭茂祖,劉曉燕,等.植物抗性基因識(shí)別中樣本選擇的一種新方法[J].智能計(jì)算機(jī)與應(yīng)用,2012,2(4):31-34.(CHEK,GUOMZ,LIUXY,etal.Anovelsampleselectionmethodforplantresistancegenerecognition[J].IntelligentComputerandApplications, 2012, 2(4): 31-34.)

[17]CHERKASSKYV,MAY.PracticalselectionofSVMparametersandnoiseestimationforSVMregression[J].NeuralNetworks, 2004, 17(1): 113-126.

[18] 李文進(jìn),熊小峰,毛伊敏.基于改進(jìn)樸素貝葉斯的區(qū)間不確定性數(shù)據(jù)分類方法[J].計(jì)算機(jī)應(yīng)用,2014,34(11):3268-3272.(LIWJ,XIONGXF,MAOYM.ClassificationmethodforintervaluncertaindatabasedonimprovednaiveBayes[J].JournalofComputerApplications, 2014, 34(11): 3268-3272.)

[19]YULL,TANBX,MENGTX.TheautomaticclassificationofECGbasedonBPneuralnetwork[J].AdvancedMaterialsResearch, 2010, 121/122: 111-116.

[20]CHENGQ,VARSHNEYPK,ARORAMK.Logisticregressionforfeatureselectionandsoftclassificationofremotesensingdata[J].IEEEGeoscienceandRemoteSensingLetters, 2006, 3(4): 491-494.

ThisworkispartiallysupportedbytheNationalNaturalScienceFoundationofChina(U1304602, 61473266, 61305080),theKeyScientificResearchProgramofHenanUniversity(15A120016).

SHANG Zhigang, born in 1975, Ph. D., associate professor. His research interests include data mining, signal processing.

DONG Yonghui, born in 1993, M. S. candidate. Her research interests include signal processing, pattern recognition.

LI Mengmeng, born in 1990, M. S. candidate. His research interests include image processing, feature selection.

LI Zhihui, born in 1978, Ph. D., lecturer. Her research interests include signal processing, pattern recognition.

Robust feature selection and classification algorithm based on partial least squares regression

SHANG Zhigang, DONG Yonghui, LI Mengmeng, LI Zhihui*

(CollegeofElectricalEngineering,ZhengzhouUniversity,ZhengzhouHenan450001,China)

A Robust Feature Selection and Classification algorithm based on Partial Least Squares Regression (RFSC-PLSR) was proposed to solve the problem of redundancy and multi-collinearity between features in feature selection. Firstly, the consistency coefficient of sample class based on neighborhood estimation was defined. Then, thekNearest Neighbor (kNN) operation was used to select the conservative samples with local class structure stability, and the partial least squares regression model was used to construct the robust feature selection. Finally, a partial least squares classification model was constructed using the class consistency coefficient and the preferred feature subset for all samples from a global structure perspective. Five data sets of different dimensions were selected from the UCI database for numerical experiments. The experimental results show that compared with four typical classifiers—Support Vector Machine (SVM), Naive Bayes (NB), Back-Propagation Neural Network (BPNN) and Logistic Regression (LR), RFSC-PLSR is more efficient in low-dimensional, medium-dimension, high-dimensional and other different cases, and shows stronger competitiveness in classification accuracy, robustness and computational efficiency.

Partial Least Squares Regression (PLSR);kNearest Neighbor (kNN); noise sample; feature selection; robust

2016- 08- 05;

2016- 10- 18。

國(guó)家自然科學(xué)基金資助項(xiàng)目(U1304602,61473266,61305080);河南省高等學(xué)校重點(diǎn)科研項(xiàng)目(15A120016)。

尚志剛(1975—),男,甘肅蘭州人,副教授,博士,主要研究方向:數(shù)據(jù)挖掘、信號(hào)處理; 董永慧(1993—),女,安徽宿州人,碩士研究生,主要研究方向:信號(hào)處理、模式識(shí)別; 李蒙蒙(1990—),男,河南商丘人,碩士研究生,主要研究方向:圖像處理、特征選擇; 李志輝(1978—),女,河南濮陽人,講師,博士,主要研究方向:信號(hào)處理、模式識(shí)別。

1001- 9081(2017)03- 0871- 05

10.11772/j.issn.1001- 9081.2017.03.871

TP181

A

猜你喜歡
特征選擇魯棒性鄰域
稀疏圖平方圖的染色數(shù)上界
荒漠綠洲區(qū)潛在生態(tài)網(wǎng)絡(luò)增邊優(yōu)化魯棒性分析
基于確定性指標(biāo)的弦支結(jié)構(gòu)魯棒性評(píng)價(jià)
基于鄰域競(jìng)賽的多目標(biāo)優(yōu)化算法
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
關(guān)于-型鄰域空間
基于非支配解集的多模式裝備項(xiàng)目群調(diào)度魯棒性優(yōu)化
西南交通大學(xué)學(xué)報(bào)(2016年6期)2016-05-04 04:13:11
聯(lián)合互信息水下目標(biāo)特征選擇算法
基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
疏勒县| 瑞安市| 吉安市| 蕲春县| 广德县| 桓仁| 罗江县| 龙井市| 大化| 南平市| 饶平县| 巴彦县| 治县。| 安宁市| 灵寿县| 金乡县| 当雄县| 水城县| 师宗县| 汉沽区| 乌兰浩特市| 兴业县| 宣恩县| 滕州市| 泰来县| 秦安县| 克拉玛依市| 乐东| 绥宁县| 辉南县| 古丈县| 安国市| 南雄市| 台湾省| 绥化市| 北海市| 逊克县| 吉首市| 松溪县| 宜章县| 清远市|