詹鵬偉 謝小姣
摘 要:高維數(shù)據(jù)將會給數(shù)據(jù)分析帶來極大的困難,因其所導(dǎo)致的數(shù)據(jù)分布稀疏化和數(shù)據(jù)組織效果的下降將會大大影響模型的性能。降維就是用于解決“維度災(zāi)難”的方法之一。文章從PCA、LLE、Isomap三種常見的降維方法入手,首先介紹了它們的實現(xiàn)原理,進一步結(jié)合KNN、SVM、RandomForest、Naive Bayes以及Logistics Regression模型構(gòu)建了用于評價三種降維方法的綜合交叉模型。結(jié)果表明,在文章所使用的數(shù)據(jù)集中,經(jīng)過PCA方法與Isomap方法降維后的數(shù)據(jù)在可視的2維空間上分布較為均勻,而LLE方法分布則較為集中。且使用了PCA與Isomap方法的分類模型訓(xùn)練后的平均準確率高達96.44%與96.90%,高于LLE方法處理后所得的90.74%,PCA與Isomap具有較優(yōu)的降維效果。本研究中所采用的方法與所得的結(jié)果為降維方法的選擇提供了有益的參考。
關(guān)鍵詞:降維;PCA;LLE;Isomap;效果評估
中圖分類號:TP311.13 文獻標志碼:A 文章編號:2095-2945(2018)21-0022-03
Abstract: High-dimensional data will bring great difficulties to data analysis, and the sparse distribution of data and the decline of data organization effect it causes will greatly affect the performance of the model. Dimensionality reduction is one of the ways to solve the "dimension disaster". Starting with three common dimensionality reduction methods, i.e., PCA, LLE and Isomap, this paper introduces their implementation principles, and then constructs a comprehensive cross model for evaluating the three dimensionality reduction methods based on the models of KNN, SVM, RandomForest, Naive Bayes and Logistics Regression. The results show that in the data set used in this paper, after dimensionality reduction by PCA method and Isomap method, the distribution of the data is uniform in the visible two-dimensional space, while the distribution of LLE method is more concentrated. The average accuracy of the classification model trained with PCA and Isomap is 96.44% and 96.90%, which is higher than 90.74% with Isomap and 90.74% with LLE. The methods used in this study and the results obtained provide a useful reference for the choice of dimensionality reduction methods.
Keywords: dimensionality reduction; PCA; LLE; Isomap; effect evaluation
引言
隨著計算機和互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)呈現(xiàn)爆炸式的增長,高維數(shù)據(jù)已經(jīng)越來越常見。但是隨著數(shù)據(jù)維度的增加,數(shù)據(jù)利用的難度也越來越高。因“維度災(zāi)難”而導(dǎo)致模型的參數(shù)估計困難,模型結(jié)果下降的情況已經(jīng)影響到了包括機器學(xué)習(xí)、模式識別、自然語言處理在內(nèi)的諸多領(lǐng)域。隨著數(shù)據(jù)維度的增高,會導(dǎo)致數(shù)據(jù)的分布越來越稀疏、數(shù)據(jù)的組織效果下降,且對計算機硬件的要求也更高,這些問題都會導(dǎo)致模型性能下降、效率下降,給數(shù)據(jù)分析帶來了極大的挑戰(zhàn)。
為了解決“維度災(zāi)難”的問題,研究者們提出了一系列用于數(shù)據(jù)降維的方法,本文將從包括PCA(主成分分析)、LLE(局部線性嵌入)、Isomap(等距特征映射)在內(nèi)的三種常用的降維方法入手,介紹它們的實現(xiàn)原理,并分別搭配KNN、SVM、RandomForest、Naive Bayes、Logistic Regression分類模型在Collagen spectroscopy數(shù)據(jù)集上綜合探究不同降維方法與分類器組合的性能與效果。
1 數(shù)據(jù)與材料
1.1 數(shù)據(jù)集
本文采用了Collagen spectroscopy數(shù)據(jù)集,該數(shù)據(jù)集通過使用傅里葉變換紅外光譜(FTIR)測量細胞數(shù)據(jù)并對細胞中不同部位的化合物含量進行標注。數(shù)據(jù)一共有731例樣本,每個樣本包含234個特征,樣本被分為四類:膠原、糖原、血脂及DNA。
1.2 數(shù)據(jù)預(yù)處理
為了消除量綱對降維與分類結(jié)果的影響,首先對數(shù)據(jù)進行標準化處理,將每個特征集合X={x1,x2,…,xN},映射到[0,1]區(qū)間,方法為:
2.3 Isomap(等距特征映射)
Isomap(Isometric Mapping)是由Tenenbaum于2000年提出的[3],其認為高維空間中的直線距離在低維空間中是不可達的,并引入了“測地線”距離來代替直線距離進行計算。其算法過程為:
(1)確定領(lǐng)域,對xi的領(lǐng)域進行搜索,找到K個最鄰近的樣本點。(2)計算xi與K個最鄰近的樣本點之間的歐氏距離,其余點認為無窮遠,構(gòu)造距離矩陣。(3)利用Dijkstra算法或Floyd算法計算任意樣本點之間的距離,并將該距離作為MDS(Multiple DimensionalScaling,多維縮放)算法的輸入,MDS所返回的結(jié)果的集合即為X在低維空間的映射。
3 建立模型
為了比較上述的三種降維算法的效果,本文選擇了五種常見的分類算法(KNN、SVM、RandomForest、Naive Bayes、Logistic Regression)來使用降維之后的數(shù)據(jù)進行分類預(yù)測,構(gòu)建交叉模型,將三種不同的降維方法與以上五種分類模型分別組合,組成用于評價降維方法性能的綜合交叉模型,可通過不同模型分類結(jié)果的投票評分找出性能最優(yōu)的降維算法,如圖1所示。
4 實驗結(jié)果與分析
為了方便可視化,我們將三種降維方法的目標維度d'都設(shè)置為2,于是在三種不同的降維方法下,原始數(shù)據(jù)集的731個樣本被映射到2維空間后的分布如圖2所示。
可見經(jīng)過三種降維方法的映射之后,數(shù)據(jù)的投影在2維空間內(nèi)呈現(xiàn)不同的分布。其中經(jīng)過PCA與Isomap處理之后的數(shù)據(jù)分散的較為均勻,而LLE處理之后的數(shù)據(jù)則集中分布在幾條線上。在這樣的降維結(jié)果下,為了探究降維算法對最終分類結(jié)果的影響,進一步將降維之后的2維數(shù)據(jù)分別輸入如圖1所示的五種分類模型中,并將數(shù)據(jù)集分為10等份,采用10倍交叉驗證方法來驗證模型的準確性,每次使用九個子集作為訓(xùn)練集,剩余的一個作為測試集,最終得到的預(yù)測情況如表1所示。
表中的數(shù)值為同種情況下運算了三次之后所取得的平均值,可見,三種降維方法在不同的分類模型下表現(xiàn)十分不同。其中在經(jīng)過LLE算法降維之后的數(shù)據(jù)分類的結(jié)果要比PCA以及Isomap處理之后的結(jié)果普遍要差,各模型準確率的下降程度最高可達12%,但也偶有上升的情況。最終的平均準確率PCA高達96.44%,LLE高達90.74%,而Isomap高達96.90%。不光是準確率,PCA與Isomap處理后結(jié)果的F1值也普遍高于LLE,說明不管是查全率還是查準率在PCA與Isomap方法下都能有較好的結(jié)果。
5 結(jié)束語
在本文的數(shù)據(jù)集中,PCA與Isomap方法取得了較好的性能,但是在不同的數(shù)據(jù)集中出現(xiàn)的結(jié)果可能會有所不同。本文所用到的綜合交叉模型可以方便的對算法的選擇提供幫助,通過多種模型結(jié)合的投票評分可以選擇出最適合于當(dāng)前數(shù)據(jù)集的降維方法,從而在最大程度上改善數(shù)據(jù)高維問題,提高模型的性能,為降維方法的選擇提供了一定的參考。
參考文獻:
[1]林海明,杜子芳.主成分分析綜合評價應(yīng)該注意的問題[J].統(tǒng)計研究,2013,30(08):25-31.
[2]白俊卿,閆桂榮,王成.利用局部線性嵌入的模態(tài)識別[J].西安交通大學(xué)學(xué)報,2013,47(01):85-89+100.
[3]Tenenbaum J B, de Silva V, Langford J. A global geometric framework for nonlinear dimensionality reduction[J]. Science, 2000, 290(5500): 2319-338.
[4]周頌洋,譚琨,吳立新.基于鄰域距離ISOMAP算法的高光譜遙感降維算法[J].遙感技術(shù)與應(yīng)用,2014,29(04):695-700.
[5]余肖生,周寧.高維數(shù)據(jù)降維方法研究[J].情報科學(xué),2007(08):1248-1251.
[6]吳曉婷,閆德勤.數(shù)據(jù)降維方法分析與研究[J].計算機應(yīng)用研究,2009,26(08):2832-2835.
[7]張少龍,鞏知樂,廖海斌.融合LLE和ISOMAP的非線性降維方法[J].計算機應(yīng)用研究,2014,31(01):277-280.