數(shù)據(jù)降維的常用方法分析

2019-04-07 03:43:46趙玉娟

科技創(chuàng)新導(dǎo)報(bào) 2019年32期

趙玉娟

摘 ? 要：數(shù)據(jù)降維一直是科學(xué)研究和工程應(yīng)用的一個(gè)重要課題，降維方法主要有特征選擇和特征變換兩類，而特征變換又分為線性降維和非線性降維兩類。線性降維算法實(shí)現(xiàn)起來(lái)較為簡(jiǎn)單快速，在現(xiàn)今的科學(xué)研究和工程實(shí)踐中仍有應(yīng)用。本文主要分析了線性降維方法中的主成分分析和線性判別分析，對(duì)它們的算法原理進(jìn)行了較為詳細(xì)的分析，并比較了它們?cè)跀?shù)據(jù)降維方面的異同。

關(guān)鍵詞：數(shù)據(jù)降維 ?主成分分析 ?線性判別分析

中圖分類號(hào)：TP311.1 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼：A ? ? ? ? ? ? ? ? ? ? ? ?文章編號(hào)：1674-098X（2019）11（b）-0118-02

1 ?降維方法概述

隨著科學(xué)技術(shù)的進(jìn)步，特別是物聯(lián)網(wǎng)和大數(shù)據(jù)的快速發(fā)展，當(dāng)今社會(huì)對(duì)數(shù)據(jù)處理能力的要求越來(lái)越高，隨著數(shù)據(jù)維數(shù)的增大，高維數(shù)據(jù)通常存在較大的相干性和冗余度，并且數(shù)據(jù)本身的信息量增長(zhǎng)往往比數(shù)據(jù)維度的增長(zhǎng)要慢，從而信號(hào)維度越高，數(shù)據(jù)冗余度就會(huì)越大，如視頻圖像比單幅靜止圖像的可壓縮性要大得多。研究如何充分利用高維數(shù)據(jù)間的稀疏性和冗余性進(jìn)行數(shù)據(jù)降維，是對(duì)高維數(shù)據(jù)進(jìn)行有效采集、處理和重構(gòu)的重要前提。

降維方法主要分為特征選擇和特征變換兩種，特征選擇是從給定的特征中選擇提取若干重要特征，典型的特征提取算法有窮舉法，啟發(fā)式，隨機(jī)方法和智能優(yōu)化等。特征變換是通過(guò)某種變換將原始的輸入空間數(shù)據(jù)映射到一個(gè)新的空間中。特征變換通過(guò)移除原特征集中的相關(guān)性與冗余性，可以減輕維數(shù)災(zāi)難，增強(qiáng)模型的泛化能力。特征變換主要有線性降維和非線性降維兩類，其中線性降維方法有主成分分析，線性判別分析，非負(fù)矩陣分解，因子分析，奇異值分解和獨(dú)立成分分析等;非線性降維方法有局部線性嵌入法，拉普拉斯本征映射，等距映射和核主成分分析等;本文主要討論了線性降維中的主成分分析（Principal Component Analysis，PCA）和線性判別分析（Linear Discriminant Analysis，LDA）。

2 ?主成分分析和線性判別分析

2.1 主成分分析

主成分分析（PCA）[1]源于K-L變換（Karhunen-Loeve Transform），是將高維空間中的數(shù)據(jù)投影到低維仿射子空間的一種線性降維方法。設(shè)數(shù)據(jù)集，存在RD的一個(gè)仿射子空間Sd（d

其中，U為D×d維矩陣，它的列向量為子空間S的一組基，為在子空間S中的對(duì)應(yīng)坐標(biāo)。

設(shè)，它的奇異值分解（Singular Value Decomposition，SVD）為

其中X的奇異值矩陣ΣX的元素按從大到小排列，則由ΣX的每一個(gè)元素σi及其對(duì)應(yīng)的左右奇異值向量和就構(gòu)成了矩陣X的每一個(gè)主成分，這些主成分之間相互正交，通過(guò)截?cái)嗪竺鎸?duì)表征矩陣X貢獻(xiàn)較小的主成分，可以達(dá)到降維的目的。

PCA是無(wú)監(jiān)督的線性降維方式，它對(duì)異常值（outlier）非常敏感，觀測(cè)數(shù)據(jù)中的元素一旦受到破壞，PCA的精確性會(huì)受到很大打擊。但現(xiàn)實(shí)中數(shù)據(jù)常常會(huì)不可避免的受到污染，比如傳感器失效，數(shù)據(jù)被惡意修改等等，當(dāng)異常值存在時(shí)計(jì)算主成分的算法稱為魯棒主成分分析（Robust Principal Component Analysis，RPCA）[2]。

2.2 線性判別分析

線性判別分析（Linear Discriminant Analysis，LDA）[3]是另一種常用的線性降維方法，也稱為費(fèi)舍爾（Fisher）線性判別，是模式識(shí)別的經(jīng)典算法。LDA把較高維度的樣本投影到最佳鑒別向量空間，從而達(dá)到能夠抽取分類信息和壓縮樣本特征空間維數(shù)的目的。設(shè)原始數(shù)據(jù)中含有兩個(gè)不同類的樣本A和B，它們各自的均值分別為

PCA和LDA是線性降維中兩種經(jīng)典的算法，但兩者的關(guān)注重點(diǎn)不同，PCA是將樣本空間作為一個(gè)整體，期望對(duì)數(shù)據(jù)降維后還能夠最大化保持原始數(shù)據(jù)集的內(nèi)在信息;而LDA不僅可以進(jìn)行數(shù)據(jù)的降維，還能夠?qū)υ紨?shù)據(jù)進(jìn)行分類，使得原始的數(shù)據(jù)集在降維后能將不同類的數(shù)據(jù)區(qū)分開。從機(jī)器學(xué)習(xí)的角度來(lái)看，PCA是無(wú)監(jiān)督的降維方法（降維過(guò)程中對(duì)原始數(shù)據(jù)沒有使用標(biāo)簽），而LDA是有監(jiān)督的降維（在求類內(nèi)散度和類間散度時(shí)應(yīng)用了原始數(shù)據(jù)的標(biāo)簽）。

3 ?結(jié)語(yǔ)

現(xiàn)實(shí)中的數(shù)據(jù)符合線性要求的只有很少的一部分，大部分?jǐn)?shù)據(jù)都是非線性的，對(duì)這些非線性的數(shù)據(jù)運(yùn)用線性降維手段的話，效果并不理想。由之，研究非線性的降維方法是非常有必要的，現(xiàn)有的非線性降維算法主要有核PCA，局部線性嵌入（Locally Linear Embedding，LLE），等距特征映射（Isometric Feature Mapping，ISOMP），多維尺度法（Multidimensional Scaling，MDS）等等。但當(dāng)數(shù)據(jù)并不是存在于單一子空間或子流形時(shí)，比如同時(shí)存在于多個(gè)低維結(jié)構(gòu)中時(shí)[4]，非線性降維方法也將失效，研究復(fù)雜情況下的數(shù)據(jù)降維問(wèn)題一直是科研和工程應(yīng)用的一個(gè)重要領(lǐng)域。

參考文獻(xiàn)

[1] Candès E J， Li X D， Ma Y， et al. Robust principal component analysis？ [J]. Journal of the ACM. 2011， 58（3）： 37.

[2] Qiu C L， Vaswani N， Lois B， et al. Recursive robust PCA or recursive sparse recovery in large but structured noise[J]. IEEE Transaction on Information Theory. 2014， 60（8）： 5007–5039.

[3] S.B. Kotsiantis. Supervised Machine Learning： A Review of Classification Technique [M]. Artificial Intelligence Applications in Computer Engineering， 2007.

[4] René Vidal， Yi Ma， S. Shankar Sastry. Generalized Principal Component Analysis [M]. Interdisciplinary Applied Mathematics， 2016.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

數(shù)據(jù)降維的常用方法分析