喬漫潔,呂慧慧,伍盼盼
(河南中醫(yī)藥大學(xué),河南 鄭州 450046)
在醫(yī)學(xué)研究或流行病學(xué)調(diào)查過(guò)程中,事物發(fā)展規(guī)律或影響該事物本身的因素的特征受多元化的因素影響。為了能夠完整的收集到所研究對(duì)象的所有信息,往往需要從多角度對(duì)多個(gè)變量進(jìn)行信息的采集,變量越全面,所收集信息和數(shù)據(jù)對(duì)所研究事物的反應(yīng)就越完整、越準(zhǔn)確。但同時(shí)也給數(shù)據(jù)分析帶來(lái)一定的難度,因?yàn)闀?huì)產(chǎn)生多重共線性等問(wèn)題,使得影響因素所反映的信息重復(fù),掩蓋事物發(fā)展的真正規(guī)律,會(huì)進(jìn)一步對(duì)統(tǒng)計(jì)結(jié)果的科學(xué)性及真實(shí)性產(chǎn)生影響。因此在其中應(yīng)用降維思維可從根本上解這一問(wèn)題。
基于多元統(tǒng)計(jì)分析,因子分析與主要成分分析是兩種重要的數(shù)據(jù)降維方法,運(yùn)用得較為廣泛。上述兩種方法均是以降維思維為基礎(chǔ),運(yùn)用樹(shù)立數(shù)理轉(zhuǎn)換與運(yùn)算轉(zhuǎn)換的方式將多變量信息轉(zhuǎn)換為少數(shù)幾個(gè)不存在密切聯(lián)系的綜合變量,而通過(guò)轉(zhuǎn)換形成的新變量可對(duì)原始信息進(jìn)行有效反應(yīng)。
基于同為降維思想,許多學(xué)者在研究過(guò)程中對(duì)兩種方法的原理及使用數(shù)據(jù)和條件不甚清楚,因此常常將兩種方式混淆使用。因混淆使用可導(dǎo)致統(tǒng)計(jì)分析結(jié)果的科學(xué)性及真實(shí)性受到嚴(yán)重影響。主要成分分析法的推廣與發(fā)展形成因子分析法,其兩種方法之間在存在相同之處的同事也具有明顯差異,故對(duì)兩種方法的差異部分與共同之處進(jìn)行細(xì)化與歸納具有重要意義,可使得應(yīng)用者在實(shí)際研究的過(guò)程中可以選擇更為科學(xué)的統(tǒng)計(jì)分析方法。
主成分分析又稱主分量分析或主軸分析,于1901年Karl Pearson提出,1933年數(shù)學(xué)家Hoteling將之推廣到隨機(jī)向量[1-2]。是指將多項(xiàng)變量通過(guò)數(shù)理學(xué)運(yùn)算變換成少量的綜合變量(主成分),用轉(zhuǎn)化后的綜合變量對(duì)原始變量的方差-協(xié)方差結(jié)構(gòu)進(jìn)行解釋的多元化分析方式。
轉(zhuǎn)化成的綜合指標(biāo)即為主成分,主成分彼此之間相關(guān)性小,并且盡可能多的保留原始變量的信息。因子分析方法于1904年由Karl Pearson 和Charles Spearman提出,研究如何以最少的信息丟失,以及使因子變量具有較強(qiáng)的可解釋行的一種多元統(tǒng)計(jì)分析方法。被廣泛用于解決心理學(xué)、教育學(xué)以及經(jīng)濟(jì)學(xué)方面的問(wèn)題[3]。由于該方法運(yùn)算量大,直至20世紀(jì)60年代得益于計(jì)算機(jī)的應(yīng)用才有較快的發(fā)展。
主成分分析的運(yùn)算基礎(chǔ)是多次的線性變換,目的是找出一個(gè)矩陣,使得對(duì)進(jìn)行線形變換后,得到的新的向量的協(xié)方差矩陣為對(duì)角線矩陣,通過(guò)方差-協(xié)方差矩陣將多個(gè)原始變量變換為彼此之間不相關(guān)的能夠盡可能完整反映原始變量所有信息的新變量。其中被選取的新變量就是“主成分”。從數(shù)理上講,主成分分析通過(guò)矩陣轉(zhuǎn)換的方法得以實(shí)現(xiàn),將原始數(shù)據(jù)轉(zhuǎn)換成不具備密切關(guān)聯(lián)的變量,且在轉(zhuǎn)換過(guò)程中原始變量的總方差與各項(xiàng)變量方差均保持不變,而最終結(jié)果中方差最大的新變量則作為第一主成分變量,再一次類推。經(jīng)過(guò)計(jì)算的主成分變量數(shù)量少于原始變量,涵蓋85%以上原始變量的信息[4]。
主成分分析可以簡(jiǎn)單的總結(jié)成一句話:數(shù)據(jù)的壓縮與解釋。一般情況下被應(yīng)用于某種事物或現(xiàn)象綜合指標(biāo)的尋找,并且將綜合指標(biāo)中所含括的信息予以有效的解釋。
在實(shí)際的應(yīng)用過(guò)程中,主成分分析常被用作達(dá)到目的的中間手段,而非完全的一種分析方法??梢酝ㄟ^(guò)矩陣變換知道原始數(shù)據(jù)能夠濃縮成幾個(gè)主成分,以及每個(gè)主成分與原來(lái)變量之間線性組合關(guān)系式[5]。但是每個(gè)原始變量在主成分中都占有一定的分量(載荷),這些載荷的大小分布沒(méi)有清晰的分界線,也就造成無(wú)法明確表述每個(gè)主成分代表哪些原始變量,即提取出來(lái)的主成分無(wú)法清晰的解釋其代表的含義。
鑒于主成分分析實(shí)際含義的解釋缺陷,統(tǒng)計(jì)學(xué)家斯皮爾曼又對(duì)主成分分析進(jìn)行了擴(kuò)展。因子分析可看作是主成分分析的推廣及延展[6]。該分析方法是將原始變量的相關(guān)系數(shù)矩陣進(jìn)行變量分組,且不同組別之間的變量不具備相關(guān)性,但同一組別的變量之間存在較高相關(guān)性。此種新形勢(shì)下的變量均代表一個(gè)公共因子,因此可將所研究問(wèn)題進(jìn)行公共因子分解,使其可由特殊因子與線性函數(shù)之和予以解決。由此可見(jiàn),因子分析法所產(chǎn)生的新變量是對(duì)其原始變量的分解,并非是原始變量之間的線性組合。
因子分析在提取公因子時(shí),不僅考慮變量之間是否相關(guān),同時(shí)考慮相關(guān)關(guān)系的強(qiáng)弱,使得提取出的公因子不僅起到降維的作用,而且能夠被很好的解釋。除此之外,因子分析解決主成分分析解釋障礙的方法是通過(guò)因子軸旋轉(zhuǎn)[7]。因子軸旋轉(zhuǎn)可以使原始變量在公因子(主成分)上的載荷重新分布,從而使原始變量在公因子上的載荷兩級(jí)分化,這樣公因子(主成分)就能夠用哪些載荷大的原始變量來(lái)解釋。
主成分分析和因子分析方法同屬于多元統(tǒng)計(jì)分析,兩者均是基于多變量的相關(guān)系數(shù)矩陣,對(duì)數(shù)據(jù)進(jìn)行無(wú)量綱化的處理之后,在確保保留大部分信息的前提下,用少數(shù)幾個(gè)不相關(guān)綜合變量概括多個(gè)具有較強(qiáng)相關(guān)性的變量,最終獲得的變量消除了原始變量的多重共線性,即對(duì)數(shù)據(jù)進(jìn)行降維[8]。降維過(guò)程大幅度的解決了原始數(shù)據(jù)的多充線性,可信度得到提高,統(tǒng)計(jì)結(jié)果可以有效地解釋現(xiàn)實(shí)問(wèn)題。需要注意的是,主成分分析和因子分析過(guò)程中產(chǎn)生的主成分或因子,是綜合所有原始變量信息后的新變量,并非存在于原始變量中的部分變量。
在主成分分析時(shí),原始變量通過(guò)線性轉(zhuǎn)換而生成新變量,也可表述為將原始變量經(jīng)過(guò)坐標(biāo)轉(zhuǎn)變以形成性變量;就因子分析而言,原始變量的相關(guān)系數(shù)矩陣將原始變量經(jīng)過(guò)一系列分組后而形成的特殊因子與公共因子則為其新變量。上述兩種方式轉(zhuǎn)換而成的新變量在因子數(shù)量與主成分方面均較原始變量更少,可有效降維,同時(shí)提升數(shù)據(jù)的利用效率。
主成分分析中為了消除量綱以及數(shù)量級(jí),一般需使原始數(shù)據(jù)處于標(biāo)準(zhǔn)化狀態(tài),并將其轉(zhuǎn)化為方差為1,均數(shù)為0的無(wú)量綱數(shù)據(jù)。就因子分析而言,其可通過(guò)因子法、重心法等各類型解法求得因子變量,且保障因子變量均屬于每個(gè)變量受到影響而形成的變量,其求解方式與原始變量是否同量綱沒(méi)有必要關(guān)聯(lián)。不過(guò)該方式在實(shí)際應(yīng)用中,為了有效規(guī)避數(shù)量級(jí)與量綱對(duì)其產(chǎn)生的影響,可在數(shù)據(jù)轉(zhuǎn)換后再進(jìn)行因子分子與主成分分析。
主成分分析和因子分析均是以降維思想為基礎(chǔ)的多元統(tǒng)計(jì)分析方法,兩種方式存在不同的運(yùn)用條件與運(yùn)用原理以及數(shù)據(jù)轉(zhuǎn)換過(guò)程,因此我們?cè)诳茖W(xué)研究過(guò)程中應(yīng)充分考慮各方面的實(shí)際情況,選擇合適的統(tǒng)計(jì)方法,使得所得的結(jié)論和解釋更具科學(xué)性。