国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于特征選擇技術(shù)的集成方法研究*

2013-09-05 06:35:54彥,王倩,周
關(guān)鍵詞:特征選擇子集度量

曹 彥,王 倩,周 馳

(1.周口師范學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,河南 周口466001;2.許昌供電公司,河南 許昌461000)

1 引言

隨著計(jì)算機(jī)技術(shù)的快速發(fā)展以及因特網(wǎng)的廣泛普及,近幾十年來產(chǎn)生了很多大型的數(shù)據(jù)庫,已遍及生活中的方方面面,如銀行存款、超級(jí)市場(chǎng)銷售、天文學(xué)、政府統(tǒng)計(jì)、醫(yī)學(xué)以及網(wǎng)絡(luò)等領(lǐng)域。由于大規(guī)模問題和冗余特征的不斷出現(xiàn),使特征選擇的研究和分類器技術(shù)受到了前所未有的重視。特征選擇的任務(wù)是從一組數(shù)量為D的特征中選擇出數(shù)量為d(D>d)的一組最優(yōu)特征。合理而有效地選擇有利特征,適當(dāng)減少特征維數(shù),一方面可以消除冗余,加快運(yùn)算速度,提高分類效率;另一方面,可以降低分類器的復(fù)雜性,從而降低分類錯(cuò)誤率。分類器技術(shù)是模式識(shí)別及機(jī)器學(xué)習(xí)的重要研究領(lǐng)域,目前已有的分類器算法有決策樹、神經(jīng)網(wǎng)絡(luò)、K-近鄰、SVM、Bayes分類等。隨著高維數(shù)據(jù)的不斷出現(xiàn),要找到一個(gè)分類較好的單個(gè)分類器,一般情況下是比較難的。為此,Suen[1]等人在1990年提出了集成多分類器的概念。

目前,已有多個(gè)研究將特征選擇應(yīng)用于構(gòu)建新的集成學(xué)習(xí)方法。1998年,Ho[2]研究了隨機(jī)的特征選擇方法。1999年,Opitz[3]提出了基于遺傳算法的特征選擇的集成學(xué)習(xí)算法,該算法中使用的集成分類器為神經(jīng)網(wǎng)絡(luò),考慮了個(gè)體分類器和已生成的集成算法間的差異度。2002年Oliveira等人運(yùn)用了多目標(biāo)的遺傳算法。2002年Zhou等人提出了GASEN算法,在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上通過遺傳算法為Bagging集成方法選擇特征子集。2003年Brylla等人提出了基于隨機(jī)特征選擇的特征bagging方法。2005年Tsymbal[4]等人研究了集成特征選擇方法的不同搜索策略,繼而又提出運(yùn)用遺傳算法進(jìn)行集成特征選擇。2006年 Li Guo-zheng和 Lin Tian-yu運(yùn)用嵌入式特征選擇方法和濾波式方法對(duì)在Bagging基礎(chǔ)上產(chǎn)生的個(gè)體學(xué)習(xí)器進(jìn)行最優(yōu)特征子集的選擇。先后有許多研究者都對(duì)集成分類器的多樣性進(jìn)行了研究,如對(duì)多樣性度量與成員分類器復(fù)雜度的關(guān)系的研究[5],對(duì)分類器集成中的特征選擇框架的研究[6]。從總體上來看,這些都是基于樣本的集成學(xué)習(xí)方法。而在實(shí)際應(yīng)用中,特征間的關(guān)系很復(fù)雜,特征間的相互作用也極為常見,常常難以辨識(shí)出特征是否和目標(biāo)函數(shù)相關(guān),尋找一個(gè)單一的好的假設(shè)函數(shù)很困難,這時(shí)基于特征選擇的集成學(xué)習(xí)方法是一種很有潛力的方法。

本文在已經(jīng)經(jīng)過實(shí)驗(yàn)驗(yàn)證具有高準(zhǔn)確率RGS(Relief+GA+SVM)算法的基礎(chǔ)上,提出組合分類器設(shè)計(jì)方案。該算法中主要是通過降低成員分類器之間的相關(guān)性,來提高集成分類效果的能力,并通過實(shí)驗(yàn)表明了該算法的集成思路是優(yōu)于Boosting方法的。

2 RGS算法

2.1 染色體的構(gòu)成

本文中應(yīng)用SVM作為分類器,其中使用的核函數(shù)是RBF核函數(shù)。支持向量機(jī)模型分類精度與懲罰因子C和高斯核函數(shù)的γ均存在一定的關(guān)系,為了獲取最佳分類性能的SVM模型,需要得到最佳的(C,γ),顯然這是一個(gè)優(yōu)化問題。本文把參數(shù)的選擇和特征選擇同時(shí)進(jìn)行,即在選擇特征的同時(shí)找出與其對(duì)應(yīng)的參數(shù)最優(yōu)點(diǎn)。因此,可以利用遺傳算法來進(jìn)行SVM分類模型的參數(shù)優(yōu)化,其染色體表示如圖1所示。

Figure 1 Chromosome expression圖1 染色體構(gòu)成

為了與算法適應(yīng),還需要把參數(shù)C和γ解碼為二進(jìn)制,本文采用以下方式進(jìn)行解碼:

其中,mint表示l位二進(jìn)制所能表示的最大值,maxt表示l位二進(jìn)制所能表示的最小值,l是用于表示參數(shù)t的二進(jìn)制位數(shù),d表示l位二進(jìn)制所對(duì)應(yīng)的十進(jìn)制值,t為解碼后的十進(jìn)制值。

2.2 遺傳算法種群初始化

遺傳算法是一種不確定搜索算法,其性能受初始種群影響很大,一個(gè)好的初始種群可以為遺傳算法提供一批好的搜索起點(diǎn)。因此,本文利用ReliefF算法為遺傳算法提供先驗(yàn)信息,使其能搜索到一個(gè)好的初始種群。具體步驟為:

(1)不同特征根據(jù)ReliefF評(píng)估結(jié)果進(jìn)行排序,排序越靠前表示該特征和類別相關(guān)性越大。

(2)產(chǎn)生特征的被選概率。本文采用的是常用的輪盤賭方法。

(3)種群初始化。設(shè)初始種群大小為g,根據(jù)(2)產(chǎn)生g-1個(gè)個(gè)體;同時(shí),為了充分利用已知信息,初始種群包含ReliefF本身進(jìn)行特征選擇得到的特征。其中,每個(gè)個(gè)體都表示為二進(jìn)制串,當(dāng)此特征被選擇,相應(yīng)位置上的二進(jìn)制值為1,否則為0。

(4)按照?qǐng)D1構(gòu)造染色體,創(chuàng)建遺傳算法的初始種群。

利用遺傳算法進(jìn)行優(yōu)化,就要考慮遺傳算法中的參數(shù)選擇問題。對(duì)于種群大小,種群數(shù)目太小會(huì)造成有效等位基因缺乏,生成具有競(jìng)爭(zhēng)力的高階模式的可能性極小。但是,種群數(shù)目也不可太大,太大將使個(gè)體適應(yīng)性評(píng)價(jià)的計(jì)算量急劇增加,收斂速度顯著降低。對(duì)于交叉和變異,交叉在遺傳操作中起核心作用,交叉概率較大可增強(qiáng)遺傳算法開辟新搜索空間的能力,但性能好的基因串遭到破壞的可能性較大,算法收斂速度降低,且不穩(wěn)定;若交叉概率較小,則遺傳算法搜索可能陷入遲鈍狀態(tài)。變異在遺傳操作中屬于輔助性的搜索操作,其主要目的是維持群體的多樣性。較低的變異概率可以防止群體中重要的單一基因丟失,但降低了遺傳算法開辟新搜索空間的能力;較高的變異概率將使遺傳操作趨于純粹的隨機(jī)搜索,降低了算法的收斂速度和穩(wěn)定性。

2.3 適應(yīng)度函數(shù)

其中,參數(shù)α、β用來控制特征數(shù)目的減少和分類準(zhǔn)確率的提高對(duì)評(píng)估函數(shù)的貢獻(xiàn),|X|表示特征子集X所包含的特征數(shù)目,n為所有特征的數(shù)目。等式右側(cè)第一項(xiàng)表示特征子集對(duì)應(yīng)的分類準(zhǔn)確率越大,則評(píng)估函數(shù)取值越大;第二項(xiàng)表示特征數(shù)目越少,評(píng)估函數(shù)取值越大。用戶可以根據(jù)不同問題和需要設(shè)置參數(shù)α和β的值,如當(dāng)希望分類準(zhǔn)確率高些時(shí),則增加α的值,否則減少α的值;如果希望降維幅度大些時(shí),則增加β的值,否則減少β的值。

本文所采用的分類準(zhǔn)確率的計(jì)算方法為:分類準(zhǔn)確率=真正率*真負(fù)率;真正率和真負(fù)率是根據(jù)混淆矩陣[7]來計(jì)算的。

個(gè)體的評(píng)估函數(shù)也是影響遺傳算法性能的一個(gè)重要因素,對(duì)于特征選擇算法,適應(yīng)度函數(shù)應(yīng)滿足:分類準(zhǔn)確率越高,適應(yīng)度函數(shù)值越大;特征子集越小,適應(yīng)度函數(shù)值越大。因此,適應(yīng)度函數(shù)定義為:

2.4 RGS算法

RGS算法[8]的主要過程如下:

(1)首先對(duì)訓(xùn)練集的屬性進(jìn)行規(guī)范化。把大范圍上的數(shù)據(jù)通過變化轉(zhuǎn)換為小范圍上的數(shù)據(jù)。本算法是通過式(3)把數(shù)據(jù)規(guī)范化到0~1。由于數(shù)據(jù)集的復(fù)雜度的降低,在一定程度上間接地增加了支持向量機(jī)的分類準(zhǔn)確率。

其中,t為原始的屬性值,t′為規(guī)范化后的屬性值,mint表示t的最小值,maxt表示t的最大值。

(2)通過ReliefF對(duì)特征進(jìn)行排序。

(3)種群初始化。把支持向量機(jī)參數(shù)混編入染色體中,通過遺傳算法實(shí)現(xiàn)特征子集和支持向量機(jī)參數(shù)的同步優(yōu)化。

(4)解碼支持向量機(jī)參數(shù)。把遺傳后的二進(jìn)制形式的支持向量機(jī)參數(shù)解碼為十進(jìn)制。

(5)計(jì)算假設(shè)的適應(yīng)度值。對(duì)于每一個(gè)假設(shè),根據(jù)解碼后的支持向量機(jī)參數(shù)和選出的特征子集,計(jì)算該假設(shè)的適應(yīng)度值。

(6)判斷是否滿足終止條件。如果滿足,對(duì)該假設(shè)操作結(jié)束,更新種群;如果不滿足,利用選擇、交叉、變異對(duì)該假設(shè)進(jìn)行遺傳。

(7)選擇適應(yīng)度值最高的假設(shè)。

3 RGSE算法

在RGS算法中,每次的分類結(jié)果都只選擇了具有最高適應(yīng)度值的特征子集,而忽略了其他的個(gè)體,也許其余的特征選擇方案中也包括了有用的信息,是否可以利用這些特征選擇方案設(shè)計(jì)出更好的分類器呢?

3.1 不一致度量方法

經(jīng)研究表明[9],對(duì)于訓(xùn)練獲得的多個(gè)基分類器,并不是把它們?nèi)窟M(jìn)行集成操作得出的集成分類器效果最佳,而是應(yīng)當(dāng)根據(jù)成員分類器的差異度進(jìn)行選擇。成員分類器的多樣性是一個(gè)重要的選擇準(zhǔn)則,這個(gè)準(zhǔn)則是保證泛化能力的最佳選擇。Kuncheava等人將多樣性度量標(biāo)準(zhǔn)分為“成對(duì)度量標(biāo)準(zhǔn)”和“非成對(duì)度量標(biāo)準(zhǔn)”兩類。成對(duì)度量標(biāo)準(zhǔn)用于衡量集成系統(tǒng)中任意兩個(gè)分類器之間的分類差異,非成對(duì)度量標(biāo)準(zhǔn)從整體上計(jì)算群體的多樣性。常用的成對(duì)多樣性測(cè)量方法有Q統(tǒng)計(jì)量、不一致度量方法、Kappa度量法、相關(guān)系數(shù)法和雙誤度量。常用的非成對(duì)度量方法主要有熵度量、KW方差度量和K統(tǒng)計(jì)量度量。本文主要使用不一致度量方法,僅對(duì)該方法進(jìn)行介紹。

在介紹具體的不一致度量方法之前,用簡(jiǎn)化的二分類問題為例引入需要用到的一些參數(shù)。給定大小為N的訓(xùn)練樣本,訓(xùn)練出M個(gè)成員分類器,yij表示第i個(gè)輸入樣本在第j個(gè)分類器上的輸出。當(dāng)yij的值為0時(shí),表示第j個(gè)分類器分類錯(cuò)誤;當(dāng)yij的值為1時(shí),表示第j個(gè)分類器分類正確。對(duì)于兩個(gè)分類器 Mi、Mj,Nab(a,b∈ {0,1})表示分類器Mi的輸出結(jié)果為a、分類器Mj的輸出結(jié)果為b的輸入樣本的數(shù)量。m(xi)表示分類器在輸入樣本xi上正確分類的樣本個(gè)數(shù),用公式表示為:

不一致度量方法是通過把分類器Mi、Mj輸出結(jié)果不一致的樣本與所有樣本的比,作為這兩個(gè)分類器的多樣性度量標(biāo)準(zhǔn)。

Si,j的取值范圍是0~1,當(dāng)Si,j的值為0時(shí),說明分類器Mi、Mj的預(yù)測(cè)結(jié)果相同,即同時(shí)分類正確或錯(cuò)誤;當(dāng)Si,j的值為1時(shí),則說明分類器 Mi、Mj的預(yù)測(cè)結(jié)果不同。

集成的不一致度量方法也是成員分類器間的平均值,即:

3.2 算法設(shè)計(jì)思路

分類器集成一般包括兩個(gè)過程:(1)基分類器的設(shè)計(jì);(2)基分類器分類結(jié)果的融合算法。為了獲得較好的集成學(xué)習(xí)算法,第(1)步中要盡量獲得高準(zhǔn)確率的分類器,第(2)步中要選擇合適的集成方法。要想獲得較高的分類準(zhǔn)確率:(1)使特征子集和目標(biāo)函數(shù)盡量相關(guān);(2)設(shè)計(jì)出好的分類算法或者選擇出使分類效果最好的分類器參數(shù)。這個(gè)已在提出的RGS算法中得到了體現(xiàn)。在實(shí)際應(yīng)用中單個(gè)的支持向量機(jī)在進(jìn)行分類時(shí),往往因?yàn)檎也坏阶顑?yōu)的支持向量機(jī)參數(shù)而降低了分類效果。同時(shí),單個(gè)的支持向量機(jī)在處理無類標(biāo)號(hào)的樣本時(shí),也不能獲得較好的效果。為了克服單個(gè)分類器的這些缺點(diǎn),可以通過對(duì)SVM分類器集成來提高處理數(shù)據(jù)的分類準(zhǔn)確率。在集成方法中,各成員分類器的相關(guān)性越小,集成分類器的誤差就越小。因此,實(shí)現(xiàn)成員分類器的多樣性成為提高分類器組合泛化能力的主要手段,同時(shí)也是本文工作的重點(diǎn)。

3.3 算法設(shè)計(jì)

首先利用RGS算法訓(xùn)練基分類器,選擇M個(gè)成員分類器進(jìn)行集成。為了能夠處理高維數(shù)據(jù),當(dāng)M(1+60%)大于總假設(shè)個(gè)數(shù)t時(shí),從最終的種群中選擇適應(yīng)度值最高的M(1+60%)個(gè)個(gè)體建立成員分類器;否則,利用種群中所有的假設(shè)建立t個(gè)成員分類器。然后從t或者M(jìn)(1+60%)個(gè)成員分類器中選擇用于集成的M個(gè)基分類器。選擇時(shí)利用給出的不一致度量方法對(duì)基分類器進(jìn)行測(cè)量,選擇出差異性較大的分類器集。這樣,就可以保證用于集成的分類器的相關(guān)性較低,提高了集成分類器的泛化能力。具體算法描述如下(其中,M表示集成的成員分類器個(gè)數(shù);t表示種群P中的特征子集個(gè)數(shù)(t≥M))。

步驟1 訓(xùn)練SVM成員分類器。

(1)在訓(xùn)練樣本上利用RGS算法得到遺傳后的種群P。

(2)在種群P中生成SVM分類器。

If(M(1+60%)<t)

根據(jù)適應(yīng)度值從高到低的原則選擇出M(1+60%)

個(gè)假設(shè)并用其訓(xùn)練SVM分類器;

Else{

選擇t個(gè)假設(shè)訓(xùn)練出t個(gè)SVM分類器;

(3)用每個(gè)分類器測(cè)試檢驗(yàn)樣本集,根據(jù)測(cè)試結(jié)果,計(jì)算出每個(gè)SVM分類器的分類準(zhǔn)確率。

步驟2 選擇出最大差異度的分類器集

(1)If(M(1+60%)<t){

For(i=1,2,…,M(1+60%)-1){

For(j=i+1,…,M(1+60%))

計(jì)算出分類器Mi和Mj間的差異度Si,j;

Else{

For(i=1,2,…,t-1){

For(j=i+1,…,t)

計(jì)算出分類器Mi和Mj間的差異度Si,j;

(2)從所有的分類器中任意選出M個(gè)SVM成員分類器,利用平均值的方法求出這個(gè)新的分類器集的差異度。

(3)比較所有的分類器集的差異度,最終選擇差異度最大的分類器集。

該算法主要分為兩個(gè)步驟,第一步中是以RGS算法為核心,RGS算法的最壞時(shí)間復(fù)雜度為O(dl3),其中:d為特征維數(shù),l為樣本數(shù);第二步的主要工作是選擇最大差異度的分類器,最壞時(shí)間復(fù)雜度為O(t2)。因此,RGSE算法的時(shí)間復(fù)雜度為O(dl3+t2)。

4 實(shí)驗(yàn)與結(jié)果分析

4.1 實(shí)驗(yàn)描述

(1)實(shí) 驗(yàn) 環(huán) 境:PC 機(jī) PentiumD 主 頻 2.8 GHz,內(nèi)存為512MB,操作系統(tǒng)為 WindowsXP,實(shí)現(xiàn)工具為Eclipse,開發(fā)語言為Java,數(shù)據(jù)挖掘工具為WEKA。

(2)實(shí)驗(yàn)數(shù)據(jù):選擇的實(shí)驗(yàn)數(shù)據(jù)如表1所示,這些數(shù)據(jù)集的特征維數(shù)10~100,屬性值有連續(xù)型的也有離散型的,樣本數(shù)目從幾百到幾萬,這些數(shù)據(jù)集中有的數(shù)據(jù)集沒有數(shù)據(jù)缺失,但有的有大量缺失,所選數(shù)據(jù)的多樣性使這些數(shù)據(jù)具有廣泛的代表性,可以較好地驗(yàn)證所提算法的性能。

(3)參數(shù)設(shè)置:ReliefF算法中,對(duì)于樣本數(shù)大于1 000的訓(xùn)練數(shù)據(jù)集,迭代次數(shù)M為訓(xùn)練集的三分之一;否則,M 取值為訓(xùn)練集的大小,最近鄰樣本數(shù)K=2。本文中遺傳算法的參數(shù)根據(jù)經(jīng)驗(yàn)值[10]設(shè)定為:種群大小80,交叉概率0.7,變異概率0.02,x=y(tǒng)=20,z的大小根據(jù)特征的個(gè)數(shù)來定。終止條件為遺傳迭代次數(shù)超過100次或者在最近10次迭代中,適應(yīng)度函數(shù)變化不大。因?yàn)镠ansen實(shí)驗(yàn)表明集成學(xué)習(xí)的性能在最初幾個(gè)個(gè)體分類器集成時(shí)改善最明顯,所以集成的個(gè)數(shù)不易設(shè)置過大,本文中個(gè)體分類器的個(gè)數(shù)M設(shè)定為50。

Table 1 Experiment data表1 實(shí)驗(yàn)數(shù)據(jù)

4.2 實(shí)驗(yàn)結(jié)果分析

為了驗(yàn)證RGSE算法,將此算法和Boosting算法相比較,其中,Boosting中所使用的分類方法為支持向量機(jī),支持向量機(jī)中使用的核函數(shù)為徑向基核函數(shù),參數(shù)C和核函數(shù)參數(shù)γ是通過無窮搜索得到的。在將此算法和集成算法相比較的同時(shí),還與RGS算法和SVM算法相比較。經(jīng)計(jì)算,在表1給出的數(shù)據(jù)集上的分類結(jié)果如表2所示。

Table 2 Comparison of ensemble algorithms classification precision ratio表2 集成算法分類準(zhǔn)確率比較

特征子集的大小如表3(RGSE特征子集的大小為單個(gè)分類器選取特征子集大小的均值)所示。

Table 3 Feature subset size of ensemble algorithms表3 集成算法的特征子集大小

從表2可以看出,總體來說,雖然RGSE算法不能夠保證在所有的數(shù)據(jù)集上都能獲得最高的分類準(zhǔn)確率,但是總的平均準(zhǔn)確率RGSE算法是最高的。RGSE算法在 Letters、Sick-euthyroid、Sonar、IRIS數(shù)據(jù)集上的分類準(zhǔn)確率最高,和SVM比較,在以上三個(gè)數(shù)據(jù)集中,在Sick-euthyroid上的錯(cuò)誤率降低最多為26.94%,在IRIS上的錯(cuò)誤率降低最少為3.45%。RGSE算法比SVM算法的平均錯(cuò)誤率降低了8.81%。RGSE算法和RGS算法相比較,可以看出RGS算法在數(shù)據(jù)集Ionosphere上的分類準(zhǔn)確率最高,比RGSE算法的高出2.19%。但是,平均準(zhǔn)確率RGSE卻高出1.53%。RGSE算法和Boosting算法相比較,雖然某些數(shù)據(jù)集可能在Boosting上獲得了高的準(zhǔn)確率,從表3可以得出,RGS算法中所選擇的特征子集相對(duì)于原數(shù)據(jù)集的特征集減小了很多,這就降低了數(shù)據(jù)集的復(fù)雜度,有利于提高分類算法性能。綜上所述可以得出,不管RGSE算法和以上的哪種算法相比較,在總體上總是能在特征子集相對(duì)較小的情況下獲得較高的平均準(zhǔn)確率。這就說明,通過集成和成員分類器的多樣性選擇,大部分情況下能夠提高分類效果。

5 結(jié)束語

隨著大數(shù)據(jù)集和高維數(shù)據(jù)集的不斷出現(xiàn),很難找到一個(gè)最優(yōu)的單分類器,因此,多分類融合技術(shù)應(yīng)運(yùn)而生,成為了一種新的數(shù)據(jù)處理技術(shù)。本文針對(duì)具有較高分類準(zhǔn)確率的RGS算法,運(yùn)用集成學(xué)習(xí)思想,提出了一種RGSE集成分類算法,即在RGS算法生成的多個(gè)成員分類中,采用不一致度量方法,從中選擇出差異性最大的分類器集。該集成分類算法的實(shí)驗(yàn)結(jié)果也表明了該算法的有效性。

[1] Suen c Y,Nadal C,Mai T A,et al.Recognition of totally unconstrained handwriting numerals based on the concept of multiple experts[C]∥Proc of International Workshop on Frontiers in Handwriting Recognition,1990:131-143.

[2] Ho T.The random subspace method for construction decision forests[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20 (8):832-844.

[3] Optiz D.Feature selection for ensembles[C]∥Proc of International Conference on Artificial Intelligence,1999:379-384.

[4] Tsymbal M C.Search strategies for ensemble feature selection in medical diagnostics[C]∥Proc of the 16th IEEE Symposium,2003:124-129.

[5] Windeatt T.Diversity measures for multiple classifier system analysis and design[J].Information Fusion,2005,6(1):21-36.

[6] Tsymbal A,Pechenizkiy M,Cunningham P.Diversity in search strategies for ensemble feature selection[J].Information Fusion,2005,6(1):83-98.

[7] Fan M,Meng X F.The concept and technology of data mining[M].Beijing:Machine Industry Press,2007.(in Chinese)

[8] Wang S Q,Cao Y.GA-SVM-based feature subset selection algorithm[J].Computer Engineering and Design,2010,31(18):4088-4092.(in Chinese)

[9] Caruana R,Munson A.Getting the most out of ensemble selection [C]∥Proc of the 6th International Conference on Data Mining,2006:828-833.

[10] Li M Q,Kou J S.The basic theory and application of genetic algorithm[M].Beijing:Science Press,2003.(in Chinese)

附中文參考文獻(xiàn):

[7] 范明,孟小峰.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007.

[8] 王世卿,曹彥.基于遺傳算法和支持向量機(jī)的特征選擇研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(18):4088-4092.

[10] 李敏強(qiáng),寇紀(jì)淞.遺傳算法的基本理論與應(yīng)用[M].北京:科學(xué)出版社,2003.

猜你喜歡
特征選擇子集度量
有趣的度量
由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
模糊度量空間的強(qiáng)嵌入
拓?fù)淇臻g中緊致子集的性質(zhì)研究
關(guān)于奇數(shù)階二元子集的分離序列
迷向表示分為6個(gè)不可約直和的旗流形上不變愛因斯坦度量
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
地質(zhì)異常的奇異性度量與隱伏源致礦異常識(shí)別
聯(lián)合互信息水下目標(biāo)特征選擇算法
每一次愛情都只是愛情的子集
都市麗人(2015年4期)2015-03-20 13:33:22
富宁县| 凤台县| 钟山县| 连南| 延安市| 湖州市| 马公市| 东安县| 榆树市| 阿坝县| 陵川县| 遂宁市| 社旗县| 巴青县| 出国| 曲水县| 公主岭市| 洪江市| 安龙县| 屯门区| 乌鲁木齐县| 卢湾区| 文安县| 陈巴尔虎旗| 始兴县| 南通市| 兰州市| 项城市| 陵川县| 晋宁县| 资溪县| 凤阳县| 饶阳县| 开平市| 定兴县| 普格县| 新晃| 化德县| 杭锦后旗| 梨树县| 沧源|