一種新的最大相關最小冗余特征選擇算法

2021-09-11 03:13:16李順勇王改變

智能系統(tǒng)學報 2021年4期

李順勇，王改變

（山西大學數(shù)學科學學院，山西太原 030006）

特征選擇是數(shù)據(jù)挖掘、機器學習和模式識別中的一項重要技術，是當前信息領域的研究熱點之一[1-3]。它在數(shù)據(jù)分析和預處理過程中起著非常重要的作用。特征選擇在不改變特征原始表達的基礎上，僅從特征集中篩選最能代表數(shù)據(jù)特點的最優(yōu)特征子集。因此，不僅可以去除不相關和冗余信息，降低訓練樣本的維度和分類樣本的復雜度，而且能很好地保持原始特征包含的信息，對于人們理解和判斷觀測來說更加容易。特征選擇根據(jù)其是否與后續(xù)學習算法獨立可以分為過濾式和封裝式兩種。過濾式特征選擇方法獨立于后續(xù)的學習算法，通過數(shù)據(jù)的本質屬性對所有特征進行評分，在此評價過程中不會借用分類模型來完成[4-5]。其中具有代表性的方法有T 檢驗(Ttest)[6]、Fisher score[7]、信息增益(information gain，IG)[8]等。但是，過濾式特征選擇方法往往會忽略特征之間的相關性。封裝式特征選擇算法與后續(xù)學習算法相關，利用學習算法的性能評價所選特征子集的好壞，因此在精度方面要優(yōu)于過濾式特征選擇[8-12]?；谔卣鬟x擇的目的，已經有部分學者做了相關研究。例如，傳統(tǒng)的基于空間搜索的最大相關最小冗余(minimal redundancy maximal relevance，MRMR)[13]算法，使用互信息來度量特征之間的冗余度以及與類別之間的相關度，并且利用信息熵和信息差兩個函數(shù)來選取最優(yōu)特征子集。但是,由于冗余度和相關度的評價準則單一，所以使得該特征選擇算法的使用范圍較窄。2018 年，郭凱文等[14]提出了基于特征選擇和聚類的分類算法，特征選擇標準采用的是傳統(tǒng)的基于空間搜索的最大相關最小冗余準則，將信息差作為目標函數(shù)來求解最優(yōu)特征子集。雖然該算法在目標函數(shù)中增加了相關度和冗余度的權重因子，但是,在求解最優(yōu)特征子集的過程中需要對權重因子不斷地賦值以尋求最優(yōu)子集，計算量較大；2020 年，李純果等[15]提出的基于排序互信息的無監(jiān)督特征選擇，是基于排序互信息反應的兩屬性之間的單調關系，用每個屬性與其他屬性之間的平均互信息，來衡量每個屬性與排序學習的相關度，平均互信息最高的視為排序最相關的屬性。但是，該算法忽略了特征與特征之間的冗余度，只在低維度且樣本量較少的模擬數(shù)據(jù)集上進行了有效性驗證，對真實數(shù)據(jù)集的特征選擇效果不明了；2020 年，劉云等[16]提出了混合蒙特卡羅搜索的特征選擇算法的優(yōu)化，根據(jù)蒙特卡羅樹搜索方法生成了一個初始特征子集,然后利用ReliefF 算法選擇前k個特征組成候選特征集，最后，用KNN 分類器的分類精度評估候選特征,選擇高精度的候選特征作為最佳特征子集。然而，ReliefF 算法是從同類和不同類中各選取k個近鄰樣本，求平均值得到各個特性權值，即特征與類別之間的相關性，并沒有考慮特征與特征之間的冗余度。2020 年，周傳華等[17]提出的最大相關與獨立分類信息最大化特征選擇算法，用互信息度量特征與類別之間的相關性,用獨立分類信息綜合衡量新分類信息和特征冗余，盡管在特征選擇過程中綜合考慮了特征與類別的相關性、特征之間的冗余性,以及特征包含的新分類信息，并結合最大最小準則對特征的重要性進行了非線性評價，但其目標函數(shù)與傳統(tǒng)的MRMR 算法的目標函數(shù)類似，依然不能根據(jù)客戶的實際需求進行特征選擇。

針對上述特征選擇算法中存在的冗余度和相關度的度量準則單一以及評價函數(shù)問題，提出了新方案。在冗余度度量準則方面引入了2 種不同的方法，在相關度度量準則方面引入了4 種不同的方法，從而組合衍生出8 種特征選擇算法，提出了新的目標函數(shù)。

1 新的特征選擇算法

MRMR 算法是最常用、最典型的基于空間搜索的特征選擇算法。其中，最大相關即特征與類別間的相關度要最大，最小冗余即特征與特征之間的相關度要最小[18-19]，該算法中，冗余度和相關度均是利用互信息作為度量準則，就效能而言，比只考慮特征與類別之間的相關度，或者只考慮特征之間冗余度的特征選擇算法要好。但是，在現(xiàn)實生活中，我們面臨的數(shù)據(jù)往往紛繁復雜，面對不同的數(shù)據(jù)，MRMR 算法呈現(xiàn)出的效果有較大差異，從而降低了該算法的適用范圍。

針對MRMR 算法存在的問題，提出一種新的最大相關最小冗余特征選擇算法(new algorithm for feature selection with maximum relation and minimum redundancy，New-MRMR)。這里New-MRMR 算法僅是新提出的一個特征選擇的框架，在度量特征與特征之間冗余度時選用了2 種評價準則，在度量特征與特征之間相似度時選用了4 種評價準則，從而衍生出8 種特征選擇算法，當面對不同的用戶需求時，選用不同特征選擇算法，使得新提算法的適用范圍更廣。具體的特征選擇流程見圖1。

圖1 可以看出，特征選擇算法的基本流程為：先對原始數(shù)據(jù)集進行預處理，將原始數(shù)據(jù)集分為測試集和訓練集，然后，在訓練集上選擇不同的冗余度和相關度評價準則來訓練模型，進行特征選擇，得到最優(yōu)特征子集，最后，利用測試集來驗證模型的有效性。

圖1 New-MRMR 特征選擇流程Fig.1 New-MRMR feature selection flow

1.1 冗余度評價準則

特征選擇是為了去除原始特征集中的冗余特征，達到降維目的。因此，利用冗余度評價可以作為New-MRMR 特征選擇算法的一部分，其基本思想是：兩個特征的相關度越大，則這兩個特征冗余度也越高。但是，由于評價特征之間冗余度以及特征與類別之間相關度的準則眾多，且目前缺乏相關研究給出具體哪種方法更適用于哪種數(shù)據(jù)類型。所以，本文新提出的算法僅采用了Pearson 相關系數(shù)[14]以及互信息[14]兩種準則來度量特征之間的冗余度。

1.2 相關度評價準則

在特征選擇過程中，通常優(yōu)先選擇與類別相關度較大的特征，而特征的重要度在一定程度上反映了與類別的相關度大小，因此，相關度的度量準則就轉化成了特征重要度的衡量。衡量特征重要度的評價準則有很多，例如：Fisher score[7]、信息增益(information gain，IG)[8]、Laplacian Score[20]、Chi-squar Test[21-22]等。Fisher score 主要是按照類內距離小，類間距離大的原則，選出包含鑒別信息比較多的特征，其值越大，說明該特征越重要，與類別的相關度越大；信息增益是通過計算某特征被使用前后的信息熵來為該特征進行打分，信息增益越大，說明該特征越重要，與類別的相關度越大；Laplacian Score 是根據(jù)拉普拉斯特征映射等對單個特征評分，然后選出方差和局部幾何結構保持能力較強的特征，其分值越高，特征越重要。New-MRMR 算法也采用這4 種評價準則作為相關度的度量準則。

1.3 目標函數(shù)

基于特征選擇和聚類的眾多分類算法中，目標函數(shù)常采用加權的信息差方式，并且通過對權重信息不斷賦值來求解最優(yōu)特征子集，不能根據(jù)不同用戶實際需求的維度求解最優(yōu)特征子集。因此，本文提出了一種新的目標函數(shù)，引入了一個指示向量 λ 以及參數(shù)k來表示所選的特征維度。具體目標函數(shù)如下：

式中：k為用戶需求的實際數(shù)據(jù)維度；D為冗余度矩陣；C為特征與類別之間的相關性矩陣。λ=[λ1λ2··· λn]T，n為原始特征集的特征數(shù)。當λi取值為0 時，說明對應的特征不會被選擇進最終的特征子集，λi取值越大時，表明其對應的特征越容易被選進最終的特征子集。

對于該目標函數(shù)的求解，與最優(yōu)化標準二次規(guī)劃問題[23]相似，本文采用成對更新方法[24]來求解以上目標函數(shù)的最優(yōu)解。

2 實驗結果與分析

2.1 數(shù)據(jù)集信息及評價指標

為驗證New-MRMR 算法的有效性，本文使用了4 個真實的UCI 數(shù)據(jù)集。先利用新提出的算法處理原始特征，進而使用支持向量機對所得到的特征子集進行分類實驗，最后比較各種算法在測試集上的分類準確率(classification precision，CP)。相關定義如下：

式中：CC(correct classification，CC)為正確分類的樣本數(shù)量；Num 為樣本數(shù)量總數(shù)。

表1 為4 個UCI[25]數(shù)據(jù)集的具體信息:

表1 實驗數(shù)據(jù)集Table 1 Experimental data set

實驗中，與新提算法進行對比的特征選擇算法分別是：Fisher Score、基于Information Gain 的方法、基于Laplacian Score 的方法、基于Chi-squar Test 的方法、基于MRMR 的方法。表2 列出了以上方法。

表2 新提出的8 種特征選擇算法與其他算法對比Table 2 Comparison of 8 newly proposed feature selection algorithms with other algorithms

2.2 實驗結果對比分析

特征選擇過程是剔除原始數(shù)據(jù)集中的不相關以及冗余特征，達到數(shù)據(jù)降維目的。為驗證以上各種算法在數(shù)據(jù)降維和用支持向量機分類后的分類準確率，表3 給出了以上各種算法在數(shù)據(jù)集isolet上的實驗結果，即經支持向量機分類后，計算得到的分類準確率達到最大時所選擇的特征數(shù)。

表3 分類準確率最大時，數(shù)據(jù)集isolet 上各種算法分別所選擇的特征數(shù)Table 3 Number of features selected by various algorithms when the Classification precision is maximum on the isolet dataset

由表3 可以看出，由以上各種算法對數(shù)據(jù)集isolet 進行特征選擇后，利用支持向量機對所選特征子集進行分類，本文新提出的8 種特征選擇算法的分類準確率，均高于傳統(tǒng)的5 種特征選擇算法，尤其是新提出的算法New-MRMR-IG-P，其分類準確率達到了0.963 5，遠高于傳統(tǒng)的5 種特征選擇算法。在保證準確率的情況下，其所選的特征數(shù)也均小于傳統(tǒng)的5 種特征選擇算法?？梢?，本文新提出的特征選擇算法在數(shù)據(jù)降維方面效果更佳。

圖2 是在數(shù)據(jù)集isolet 上，本文新提出的特征選擇算法New-MRMR-F-NI、New-MRMR-F-P，傳統(tǒng)特征選擇算法MRMR、Fisher Score 在不同維度下的分類準確率變化趨勢。

圖2 New-MRMR-F-NI、New-MRMR-F-P、Fisher-Score、MRMR 在數(shù)據(jù)集isolet 上分類準確率的變化趨勢Fig.2 Correct classification trend of New-MRMR-F-NI,New-MRMR-F-P,Fisher-Score,MRMR on the dataset isolet

從圖2 可以看出，對于在不同維度下的分類準確率，新提出的特征選擇算法New-MRMR-FNI、New-MRMR-F-P 明顯高于傳統(tǒng)算法Fisher Score、MRMR。所以，對于減少原始特征集中的冗余和不相關特征，New-MRMR-F-NI、New-MRMR-F-P 有更好的優(yōu)勢。

不同維度下，本文新提算法New-MRMR-KNI、New-MRMR-K-P，傳統(tǒng)算法MRMR、Chi-Square-Test 在數(shù)據(jù)集isolet 上的分類準確率變化趨勢見圖3。

圖3 New-MRMR-K-NI、New-MRMR-K-P、Chi-Square-Test、MRMR 在數(shù)據(jù)集isolet 上分類準確率的變化趨勢Fig.3 Correct classification trend of New-MRMR-K-NI、New-MRMR-K-P、Chi-Square-Test、MRMR on the dataset isolet

圖3 顯示，不同維度下，New-MRMR-K-P 的分類準確率曲線明顯高于傳統(tǒng)特征選擇算法，并且，在所選特征子集數(shù)為289 時，其分類準確率達到了最高，既很好地去除了原始特征集中的冗余和不相關特征，又保證了分類準確率。此外，算法New-MRMR-K-P 除了在維度為195 時的分類準確率與傳統(tǒng)算法MRMR 相近之外，在其他維度上的分類準確率均高于Chi-Square-Test、MRMR?？梢?，本文新提出的特征選擇算法效果更佳。

不同維度下，新提出的特征選擇算法New-MRMR-L-NI、New-MRMR-L-P，傳統(tǒng)特征選擇算法MRMR、Laplacian-Score 的分類準確率變化趨勢見圖4。

圖4 New-MRMR-L-NI、New-MRMR-L-P、Laplacian-Score、MRMR 在數(shù)據(jù)集isolet 上，分類正確的變化趨勢Fig.4 Correct classification trend of New-MRMR-L-NI、New-MRMR-L-P,Laplacian-Score,MRMR on the dataset isolet

圖4 顯示，在特征維度為342 的時候，算法New-MRMR-L-P 的分類準確率就已經達到了最高，并且大于傳統(tǒng)算法Laplacian-Score、MRMR 的最大分類準確率。此外，在分類準確率達到最高時，算法New-MRMR-L-NI 所選的特征子集數(shù)僅為288，遠小于傳統(tǒng)算法Laplacian-Score、MRMR 所選的特征子集數(shù)。因此，新提出的算法New-MRMR-L-NI、New-MRMR-L-P 對于特征選擇效果更好。

不同維度下，新提出的特征選擇算法New-MRMR-IG-NI、New-MRMR-IG-P，傳統(tǒng)特征選擇算法MRMR、Laplacian-Score 的分類準確率變化趨勢見圖5。

由圖5 可以看出，在不同維度下，算法New-MRMR-IG-NI、New-MRMR-IG-P 分類準確率的曲線，均高于傳統(tǒng)的兩種特征選擇算法Information-Gain、MRMR 所代表的曲線。分類準確率越高，表明所選特征子集越好。可見，新出的算法New-MRMR-IG-NI 以及New-MRMR-IG-P 在特征選擇方面更加有效。

圖5 New-MRMR-IG-NI、New-MRMR-IG-P、Information-Gain、MRMR 在數(shù)據(jù)集isolet 上，分類準確率的變化趨勢Fig.5 Correct classification trend of New-MRMR-IG-NI,New-MRMR-IG-P,Information-Gain,MRMR on the dataset isolet

表4 給出了以上各種算法在數(shù)據(jù)集waveform 上的實驗結果，即經支持向量機分類后計算得到的分類準確率達到最大時所選擇的特征數(shù)。

表4 顯示，在數(shù)據(jù)集waveform 上，本文新提出的算法New-MRMR-F-P 的最大分類準確率達到了0.953 4，遠大于傳統(tǒng)特征選擇算法的分類準確率；并且New-MRMR-F-P 在分類準確率達到最大時，所選的特征子集數(shù)僅為17，小于傳統(tǒng)的5 種特征選擇算法在分類準確率達到最大時所選的特征子集數(shù)。除此之外，本文新提出的其余特征選擇算法的分類準確率，也均大于傳統(tǒng)的特征選擇算法的分類準確率，且所選特征子集數(shù)相對來說較小。因此，綜合考慮分類準確率以及所選特征子集維度兩個方面，本文新提算法特征選擇效果更加明顯。

表4 分類準確率最大時數(shù)據(jù)集waveform 上各種算法分別所選擇的特征數(shù)Table 4 Number of features selected by various algorithms when the Classification precision is maximum on the waveform dataset

不同維度下，本文新提出的特征選擇算法New-MRMR-F-NI、New-MRMR-F-P，傳統(tǒng)特征選擇算法MRMR、Fisher Score 在數(shù)據(jù)集waveform 上的分類準確率變化趨勢見圖6。

由圖6 看出，在數(shù)據(jù)集waveform 上，New-MRMR-F-P 的表現(xiàn)最好，其所代表的曲線遠高于傳統(tǒng)的特征選擇算法MRMR、Fisher-Score 所代表的曲線。此外，雖然在維度為24 時，算法New-MRMR-F-NI的分類準確率低于傳統(tǒng)算法MRMR、Fisher-Score。但是，在其余維度上，New-MRMR-F-NI 的分類準確率均高于MRMR、Fisher-Score。綜合分析，本文新提算法New-MRMR-FNI、New-MRMR-F-P 的特征選擇效果更好。

圖6 New-MRMR-F-NI、New-MRMR-F-P、Fisher-Score、MRMR 在數(shù)據(jù)集waveform 上，分類準確率的變化趨勢Fig.6 Correct classification trend of New-MRMR-F-NI New-MRMR-F-P,Fisher-Score,MRMR on the dataset waveform

不同維度下，算法New-MRMR-K-NI、New-MRMR-K-P 以及傳統(tǒng)特征選擇算法MRMR 以及Chi-Square-Test 在數(shù)據(jù)集waveform 上的分類準確率變化趨勢見圖7。

圖7 顯示，維度為20 時，New-MRMR-K-NI 的分類準確率就達到了最大，大于MRMR、Chi-Square-Test 的最大分類準確率。并且其所選特征子集數(shù)小于MRMR、Chi-Square-Test 的最優(yōu)特征子集數(shù)。此外，算法New-MRMR-K-P 的分類準確率曲線高于MRMR、Chi-Square-Test 的分類準確率曲線。所以，在waveform 數(shù)據(jù)集上，本文新提出的算法New-MRMR-K-NI、New-MRMR-K-P 的特征選擇效果更好。

圖7 New-MRMR-K-NI、New-MRMR-K-P、Chi-Square-Test、MRMR 在數(shù)據(jù)集waveform 上，分類準確率的變化趨勢Fig.7 Correct classification trend of New-MRMR-K-NI,New-MRMR-K-P,Chi-Square-Test,MRMR on the dataset waveform

不同維度下，算法New-MRMR-L-NI、New-MRMR-L-P，傳統(tǒng)特征選擇算法MRMR、Laplacian-Score 在數(shù)據(jù)集waveform 上的分類準確率變化趨勢見圖8。

圖8 顯示，New-MRMR-L-NI 的分類準確率高于傳統(tǒng)算法MRMR、Laplacian-Score。在分類準確率達到最大時，New-MRMR-L-NI 所選特征子集數(shù)僅為20，小于MRMR、Laplacian-Score 的最優(yōu)特征子集數(shù)。另外，新提算法在多數(shù)維度上均大于傳統(tǒng)算法MRMR、Laplacian-Score 的分類準確率。由于分類準確率越高，特征選擇效果越好，所以，在數(shù)據(jù)集waveform 上，New-MRMR-L-NI、New-MRMR-L-P 的特征選擇效果更好。

圖8 New-MRMR-L-NI、New-MRMR-L-P、Laplacian-Score、MRMR 在數(shù)據(jù)集waveform 上，分類準確率的變化趨勢Fig.8 Correct classification trend of New-MRMR-L-NI,New-MRMR-L-P,Laplacian-Score,MRMR on the dataset waveform

不同維度下，New-MRMR-IG-NI、New-MRMRIG-P、傳統(tǒng)算法MRMR、Information-Gain 在數(shù)據(jù)集waveform 上分類準確率變化趨勢見圖9。

圖9 New-MRMR-IG-NI、New-MRMR-IG-P、Information-Gain、MRMR 在數(shù)據(jù)集waveform 上，分類準確率的變化趨勢Fig.9 Correct classification trend of New-MRMR-IG-NI,New-MRMR-IG-P,Information-Gain,MRMR on the dataset waveform

圖9 顯示，在數(shù)據(jù)集waveform 上，算法New-MRMR-IG-NI 的分類準確率的曲線高于傳統(tǒng)的算法MRMR、Information-Gain 的分類準確率。且算法New-MRMR-IG-P 的分類準確率在維度為24 時達到最大。維度為11 時，New-MRMR-IGP 的分類準確率略低于MRMR、Information-Gain，但是，在其余維度上均大于MRMR、Information-Gain。綜上分析，在數(shù)據(jù)集waveform 上，本文新提出的特征選擇算法效果明顯。

表5 給出了以上各種算法在數(shù)據(jù)集clean 上的實驗結果，即經支持向量機分類后，得到的分類準確率達到最大時所選擇的特征數(shù)。

表5 分類準確率最大時數(shù)據(jù)集clean 上各種算法分別所選擇的特征數(shù)Table 5 Number of features selected by various algorithms when the Classification precision is maximum on the clean dataset

由表5 可以看出，在分類準確率方面，本文新提出的算法的最大分類準確率均高于5 種傳統(tǒng)的特征選擇算法。在分類準確率達到最優(yōu)時所選的特征子集數(shù)方面，尤其是算法New-MRMR-K-NI，其所選的特征子集數(shù)僅20，遠小于原始的特征子集數(shù)。所以，對于數(shù)據(jù)集clean 而言，本文新提出的特征選擇算法更加有效。

不同維度下，算法New-MRMR-F-NI、New-MRMR-F-P、傳統(tǒng)特征選擇算法MRMR、Fisher Score 在數(shù)據(jù)集clean 上的分類準確率變化趨勢見圖10。

圖10 New-MRMR-F-NI、New-MRMR-F-P、Fisher-Score、MRMR 在數(shù)據(jù)集clean 上分類準確率的變化趨勢Fig.10 Correct classification trend of New-MRMR-F-NI,New-MRMR-F-P,Fisher-Score,MRMR on the dataset clean

由圖10 可以看出，本文新提算法New-MRMRF-NI、New-MRMR-F-P 的分類準確率曲線均MRMR、Fisher-Score 的分類準確率的曲線之上。由此可見，在數(shù)據(jù)集claen 上，算法New-MRMR-FNI、New-MRMR-F-P 的特征選擇結果更優(yōu)。

不同維度下，算法New-MRMR-K-NI、New-MRMR-K-P、傳統(tǒng)特征選擇算法MRMR、Chi-Square-Test 在數(shù)據(jù)集clean 上的分類準確率變化趨勢見圖11。

圖11 New-MRMR-K-NI、New-MRMR-K-P、Chi-Square-Test、MRMR 在數(shù)據(jù)集clean 上，分類準確率的變化趨勢Fig.11 Correct classification trend of New-MRMR-K-NI,New-MRMR-K-P,Chi-Square-Test,MRMR on the dataset clean

圖11 中，New-MRMR-K-NI、New-MRMR-KP 的分類準確率的曲線均在傳統(tǒng)的特征選擇算法MRMR、Chi-quare-Test 之上，尤其是New-MRMRK-NI，當分類準確率達到最大時，所選的特征子集數(shù)為20，遠小于兩種傳統(tǒng)算法所選擇的最優(yōu)特征子集數(shù)?？梢?，在數(shù)據(jù)集clean 上，算法New-MRMRK-NI、New-MRMR-K-P 的特征選擇效果更優(yōu)。

不同維度下，算法New-MRMR-L-NI、New-MRMR-L-P、傳統(tǒng)特征選擇算法MRMR、Fisher Score 在數(shù)據(jù)集clean 上的分類準確率變化趨勢見圖12。

圖12 New-MRMR-L-NI、New-MRMR-L-P、Laplacian-Score、MRMR 在數(shù)據(jù)集clean 上分類準確率的變化趨勢Fig.12 Correct classification trend of New-MRMR-L-NI,New-MRMR-L-P,Laplacian-Score,MRMR on the dataset clean

圖12 可以看出，維度為40 時，算法New-MRMRL-NI 就達到了最大分類準確率，且高于傳統(tǒng)算法MRMR、Laplacian-Score 的分類準確率。此外，雖然在維度為110 時，New-MRMR-L-P 的分類準確率略低于MRMR，但在其余維度上的分類準確率均高于MRMR、Laplacian-Score 的分類準確率。

可見，在數(shù)據(jù)集clean 上，新提算法New-MRMR-L-NI、New-MRMR-L-P 的特征選擇效果更好。

不同維度下，算法New-MRMR-IG-NI、New-MRMR-IG-P、傳統(tǒng)特征選擇算法MRMR、Fisher Score 在數(shù)據(jù)集clean 上的分類準確率變化趨勢見圖13。

圖13 New-MRMR-IG-NI、New-MRMR-IG-P、Information-Gain、MRMR 在數(shù)據(jù)集clean 上分類準確率的變化趨勢Fig.13 Correct classification trend of New-MRMR-IG-NI,New-MRMR-IG-P,Information-Gain,MRMR on the dataset clean

圖13 顯示，本文新提算法New-MRMR-IGNI、New-MRMR-IG-P 的分類準確率曲線均在傳統(tǒng)算法的分類準確率曲線之上。所以，對于數(shù)據(jù)集clean，本文新提出的兩種特征選擇算法New-MRMR-IG-NI、New-MRMR-IG-P 所選擇的特征子集更加有效。

表6 給出了以上各種算法在數(shù)據(jù)集Parkinson’s Disease 上的實驗結果，即經支持向量機分類后，得到的分類準確率達到最大時所選擇的特征數(shù)。

表6 分類準確率最大時，數(shù)據(jù)集Parkinson’s Disease 上各種算法分別所選擇的特征數(shù)Table 6 Number of features selected by various algorithms when the Classification precision is maximum on the Parkinson’s Disease dataset

續(xù)表 6

表6 顯示，算法New-MRMR-F-P 的分類準確率高達0.912 4，且此時所選擇的特征子集數(shù)僅為150，遠小于傳統(tǒng)的5 種算法的最優(yōu)特征子集數(shù)。另外，除了New-MRMR-K-P 的分類準確率略低于傳統(tǒng)算法MRMR 的分類準確率之外，新提出的其余算法均大于傳統(tǒng)特征選擇算法。由此可見，本文新提出的特征選擇算法在數(shù)據(jù)集Parkinson’s Disease 上的特征選擇效果更好。

不同維度下，算法New-MRMR-F-NI、New-MRMR-F-P，傳統(tǒng)特征選擇算法MRMR、Fisher-Score 在數(shù)據(jù)集Parkinson’s Disease 上的分類準確率變化趨勢見圖14。

圖14 New-MRMR-F-NI、New-MRMR-F-P、Fisher-Score、MRMR 在數(shù)據(jù)集Parkinson’s Disease 上分類準確率的變化趨勢Fig.14 Correct classification trend of New-MRMR-F-NI,New-MRMR-F-P,Fisher-Score,MRMR on the Parkinson’s Disease dataset

圖14 顯示，算法New-MRMR-F-NI 的分類準確率曲線在傳統(tǒng)算法MRMR、Fisher-Score 的分類準確率曲線之上。在維度為540 時，New-MRMRF-P 的分類準確率略低于MRMR 的分類準確率。但是，在其余維度上，New-MRMR-F-P 的分類準確率均高于傳統(tǒng)算法MRMR、Fisher-Score 的分類準確率。更重要的是，在達到最大分類準確率時，New-MRMR-F-NI 所選的特征子集數(shù)僅為210，遠低于MRMR、Fisher-Score 的最優(yōu)特征子集數(shù)。所以，在數(shù)據(jù)集Parkinson’s Disease 上，本文新提出的算法特征選擇效果更好。

不同維度下，本文新提算法New-MRMR-FNI、New-MRMR-F-P、傳統(tǒng)算法MRMR、Fisher-Score 在數(shù)據(jù)集Parkinson’s Disease 上的分類準確率變化趨勢見圖15。

圖15 New-MRMR-K-NI、New-MRMR-K-P、Chi-Square-Test、MRMR 在數(shù)據(jù)集Parkinson’s Disease 上分類準確率的變化趨勢Fig.15 Correct classification trend of New-MRMRK-NI,New-MRMR-K-P,Chi-Square-Test,MRMR on the Parkinson’s Disease dataset

由圖15 可見，在絕大多數(shù)維度上，New-MRMRF-NI、New-MRMR-F-P 的分類準確率均高于MRMR、Chi-Square-Test 的分類準確率。在維度為120 時，New-MRMR-F-NI 就已然達到了最大分類準確率，大于MRMR、Chi-Square-Test 的最大分類準確率。由此可見，在數(shù)據(jù)集Parkinson’s Disease 上，本文新提算法特征選擇效果更好。

不同維度下，本文新提出的特征選擇算法New-MRMR-F-NI、New-MRMR-F-P 以及傳統(tǒng)特征選擇算法MRMR 以及Fisher Score 在數(shù)據(jù)集Parkinson's Disease 上的分類準確率變化趨勢見圖16。

由圖16 可以看出，算法New-MRMR-L-P 的分類準確率的曲線高于傳統(tǒng)算法MRMR、Laplacian-Score 的分類準確率曲線，并且，在維度為240 時，New-MRMR-L-NI 就已經達到了最大分類準確率，遠小于MRMR 達到最大分類準確率時所選擇的特征子集數(shù)(540)。由此可見，在數(shù)據(jù)集Parkinson’s Disease 上，本文新提算法特征選擇效果更好。

圖16 New-MRMR-L-NI、New-MRMR-L-P、Laplacian-Score、MRMR 在數(shù)據(jù)集Parkinson’s Disease上分類準確率的變化趨勢Fig.16 Correct classification trend of New-MRMR-L-NI,New-MRMR-L-P,Laplacian-Score,MRMR on the Parkinson’s Disease dataset

不同維度下，本文新提算法New-MRMR-FNI、New-MRMR-F-P 以及傳統(tǒng)算法MRMR、Fisher Score 在數(shù)據(jù)集Parkinson’s Disease 上的分類準確率變化趨勢見圖17。

由圖17 可以看出，在維度為120 和540 時，New-MRMR-IG-P 的分類準確率與算法MRMR 的分類準確率較為接近，但在其余維度上，其分類準確率均大于MRMR 的分類準確率。而且，在分類準確率達到最大時，New-MRMR-IG-P 所選擇的特征子集數(shù)僅為180，遠小于MRMR 的最優(yōu)特征子集數(shù)。此外，New-MRMR-IG-NI 的分類準確率的曲線高于算法MRMR、Information-Gain 的分類準確率曲線。由上述分析可知，針對數(shù)據(jù)集Parkinson’s Disease 而言，本文提出算法在整體上比傳統(tǒng)算法選擇結果更好。

圖17 New-MRMR-IG-NI、New-MRMR-IG-P、Information-Gain、MRMR 在數(shù)據(jù)集Parkinson’s Disease 上分類準確率的變化趨勢Fig.17 Correct classification trend of New-MRMRIG-NI,New-MRMR-IG-P,Information-Gain,MRMR on the Parkinson’s Disease dataset

2.3 實驗結果的T 檢驗

為更加有效地證明本文新提的8 種特征選擇算法的有效性，以下采用成對單邊T 檢驗來證明其有效性。原假設為：本文新提算法與傳統(tǒng)算法的特征選擇效果相同；備擇假設為：本文新提算法的特征選擇效果優(yōu)于傳統(tǒng)特征選擇算法。表7為假設檢驗結果，其中包含了檢驗的統(tǒng)計量，置信區(qū)間以及P值。

表7 新提算法與傳統(tǒng)算法的成對單邊T 檢驗的檢驗結果Table 7 Test results of paired unilateral T-test between the new algorithm and the traditional algorithm

由表7 可以看出，成對單邊T 檢驗的P值均小于0.05，所以拒絕原假設，故認為本文新提出的8 種特征選擇算法的特征選擇結果優(yōu)于傳統(tǒng)特征選擇算法的特征選擇結果。

綜上分析，從分類準確率以及假設檢驗的結果可以看出，本文新提出的8 種特征選擇算法所選擇的特征子集更優(yōu)，特征選擇效果更好。

3 結束語

雖然傳統(tǒng)的基于特征選擇的分類算法的理念已較為新穎，但是還是存在一定的提升空間。一方面，傳統(tǒng)的基于特征選擇的分類算法在特征選擇過程中采用的度量特征之間冗余度以及與類別的相關度的評價準則單一；另一方面，它只考慮了特征與類別之間的相關度而忽略了冗余度；最后，其目標函數(shù)也存在缺陷，不能根據(jù)用戶實際的維度需求來選擇特征子集。本文針對這些問題引入了4 種不同的相關度評價準則以及兩種不同的冗余度評價準則，目標函數(shù)中引入了指示向量λ來刻畫用戶實際的數(shù)據(jù)維度需求，從而組合成8 種新的特征選擇算法，利用支持向量機對這8 種算法選擇得到的特征子集分類。在4 個真實的UCI 數(shù)據(jù)集上進行了實驗，利用分類準確率和T 檢驗驗證了新提出的算法的有效性。

最后需要指出，評價特征冗余度和相關度的方法有多種，本文僅用了2 種評價冗余度的方法和4 種評價相關度的方法，但是其他評價冗余度和相關度的方法也可以適用于New-MRMR 框架，此外，新提特征選擇算法在不同數(shù)據(jù)集上表現(xiàn)性能不同。因此，后續(xù)研究中，會更深入地研究和挖掘數(shù)據(jù)本質，嘗試利用足夠多的數(shù)據(jù)集以及評價相關度和冗余度的方法來深入探索具體哪種算法更適合哪種領域。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡