米子川,趙麗琴
函數(shù)型數(shù)據(jù)分析的研究進(jìn)展和技術(shù)框架
米子川,趙麗琴
(山西財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院,山西太原030006)
函數(shù)型數(shù)據(jù)分析(Functional Data Analysis,F(xiàn)DA)是1980年以后發(fā)展起來的一種基于離散統(tǒng)計(jì)數(shù)據(jù)函數(shù)化、進(jìn)而通過函數(shù)型分析刻畫更廣義和更深刻統(tǒng)計(jì)關(guān)系的高維數(shù)據(jù)分析(Multivariate Data Analysis,MDA)方法。FDA的基本思想是由加拿大麥吉爾大學(xué)的J.O.Ramsay和牛津大學(xué)的B.W.Silverman等人提出并發(fā)展起來的,同時(shí)多位世界知名統(tǒng)計(jì)學(xué)者也對此作出了貢獻(xiàn)。目前該方法已廣泛應(yīng)用于經(jīng)濟(jì)學(xué)、生物學(xué)、氣象學(xué)、心理學(xué)、工業(yè)及其他領(lǐng)域。函數(shù)型數(shù)據(jù)分析的基本思想是把觀測到的數(shù)據(jù)函數(shù)看作一個(gè)整體,而不僅僅是個(gè)體觀測值的順序排列,函數(shù)本質(zhì)上是指數(shù)據(jù)的內(nèi)在結(jié)構(gòu)而不是它們直觀的外在表現(xiàn)形式。因此,在簡要回顧FDA發(fā)展歷程的基礎(chǔ)上,追蹤國際國內(nèi)主要研究動態(tài),簡介和評述FDA研究的技術(shù)框架以及與傳統(tǒng)多元統(tǒng)計(jì)分析方法的差異,并試圖就FDA在經(jīng)濟(jì)學(xué)中的應(yīng)用進(jìn)行一定剖析。
函數(shù)型分析;研究進(jìn)展;技術(shù)框架
18世紀(jì)末以來,以Adolphe Quetelet、William Sleey Gosset、R.A.Fisher、K.Pearson等人為代表的新一代統(tǒng)計(jì)學(xué)家把傳統(tǒng)的統(tǒng)計(jì)學(xué)帶入了一個(gè)新世界,催生了包括回歸分析、方差分析、相關(guān)分析、假設(shè)檢驗(yàn)、時(shí)間序列分析等方法體系的相對完整的現(xiàn)代統(tǒng)計(jì)學(xué)學(xué)科體系和知識框架。100多年來,伴隨著應(yīng)用統(tǒng)計(jì)的不斷深入,工業(yè)革命、計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)絡(luò)三大革命也給統(tǒng)計(jì)學(xué)帶來了全新的研究視野和方法論改進(jìn),極大地豐富了統(tǒng)計(jì)研究的工具和方法。但同時(shí),統(tǒng)計(jì)學(xué)家們也注意到在傳統(tǒng)統(tǒng)計(jì)分析中,幾乎所有的方法都是以離散性的統(tǒng)計(jì)數(shù)據(jù)為研究起點(diǎn)的,其數(shù)據(jù)通常是一個(gè)時(shí)間序列、橫截面數(shù)據(jù)或者它們的綜合,即面板數(shù)據(jù)(Panel Data)。近20年來,當(dāng)代統(tǒng)計(jì)學(xué)家更多地關(guān)注了面板數(shù)據(jù)的分析和應(yīng)用,解決了數(shù)據(jù)樣本容量不足、對很多經(jīng)濟(jì)指標(biāo)估計(jì)難度大且影響復(fù)雜以及難以區(qū)分經(jīng)濟(jì)變量等方面的問題。有關(guān)數(shù)量經(jīng)濟(jì)學(xué)模型的理論研究和實(shí)證檢驗(yàn)表明,現(xiàn)有的統(tǒng)計(jì)方法存在三個(gè)方面的局限性:一是以線性結(jié)構(gòu)為模型的主要形式,限制了復(fù)雜經(jīng)濟(jì)變量的變化描述,不能真實(shí)地反映實(shí)際情況;二是過分依賴大量的經(jīng)典假設(shè),一旦假設(shè)遭到破壞,結(jié)論也就難以立足;三是數(shù)據(jù)生成過程的信息不足,導(dǎo)致模型的預(yù)報(bào)性受到極大約束[1]。
事實(shí)上,大多數(shù)經(jīng)濟(jì)活動的過程是一個(gè)連續(xù)的過程,這個(gè)過程生成的統(tǒng)計(jì)數(shù)據(jù)可以用一個(gè)類似函數(shù)的特征表達(dá)式來描述,而通過現(xiàn)有的統(tǒng)計(jì)手段所獲取的信息往往是一個(gè)不連續(xù)的、片段的、離散的有界、有序、有經(jīng)濟(jì)意義的數(shù)列。從數(shù)學(xué)的觀點(diǎn)看,這個(gè)數(shù)列所包含的信息遠(yuǎn)不如一個(gè)函數(shù)來得更充分和完善,于是數(shù)學(xué)家們首先想到了將這些離散的觀察數(shù)據(jù)退化擬合成一個(gè)函數(shù),然后利用函數(shù)的優(yōu)良性質(zhì)進(jìn)行更為深入研究的新思路[2]3。
1958年,美國普林斯頓大學(xué)教授、心理測量學(xué)創(chuàng)始人Ledyard R Tucker發(fā)表了《因子分析中函數(shù)關(guān)系的參數(shù)確定》一文,首次提出了函數(shù)型數(shù)據(jù)的概念和因子分析中確定函數(shù)參數(shù)的一些方法[3]19-23。50多年來,函數(shù)型數(shù)據(jù)分析的發(fā)展主要呈現(xiàn)兩條主線:其一是利用傳統(tǒng)數(shù)據(jù)分析方法在語言學(xué)等社會科學(xué)領(lǐng)域進(jìn)行函數(shù)分析,此方法的代表人物是法國學(xué)者Cailliez、Pages和Dauxois、Pousse[4-5];其二是麥吉爾大學(xué)的Suzanne Winsberg和J.O.Ramsay在關(guān)于樣條插值法的研究中發(fā)展起來的[6-7]。
1982年11月,J.O.Ramsay發(fā)表了《When the data are functions》一文(見加拿大《心理測量學(xué)》,第47卷第4期),提出了函數(shù)型數(shù)據(jù)分析的主要觀點(diǎn)和方法體系,并從數(shù)學(xué)上對函數(shù)型數(shù)據(jù)分析的基本理論進(jìn)行了表述和論證。1991年,J.O.Ramsay和C.J.Dalzell又發(fā)表了論文《函數(shù)型數(shù)據(jù)分析的一些工具》,進(jìn)一步提出了函數(shù)型數(shù)據(jù)分析的系統(tǒng)工具。六年后,J.O.Ramsay和B.W.Silverman在統(tǒng)計(jì)分析的已有理論和方法的基礎(chǔ)上,在《函數(shù)型數(shù)據(jù)分析》一書中對函數(shù)型數(shù)據(jù)進(jìn)行了系統(tǒng)總結(jié)和闡述[8]313-317。這一系列開創(chuàng)性的研究,標(biāo)志著函數(shù)型數(shù)據(jù)分析的研究又翻開了新的一頁。
目前,國外函數(shù)型數(shù)據(jù)分析方面的主要代表人物是加拿大麥吉爾大學(xué)的J.O.Ramsay教授、英國牛津大學(xué)的B.W.Silverman教授、澳大利亞莫納什大學(xué)的Rob J Hyndman教授[9]。他們的主要研究成果集中在近10年間,而主要內(nèi)容集中在數(shù)學(xué)理論的介紹和推導(dǎo)、函數(shù)型數(shù)據(jù)的主要擬合方法(插值法、分布擬合和函數(shù)逼近等)、異常點(diǎn)的檢驗(yàn)以及在心理測量、生物統(tǒng)計(jì)、海洋研究等方面的實(shí)證分析[10]51-53。
近年來,函數(shù)型數(shù)據(jù)分析的介紹和研究也引起了國內(nèi)統(tǒng)計(jì)學(xué)界的關(guān)注。中國科學(xué)院組織影印出版了J.O.Ramsay和B.W.Silverman合著的《函數(shù)型數(shù)據(jù)分析》(2002)。目前,能夠檢索到的中文相關(guān)文獻(xiàn)只有10余篇,這些學(xué)者包括嚴(yán)明義、朱建平、米子川等人[11-13],大部分是對國外文獻(xiàn)的介紹和初步的實(shí)證研究,尚沒有系統(tǒng)的研究和應(yīng)用成果出現(xiàn),特別是在經(jīng)濟(jì)統(tǒng)計(jì)方面的深入研究則更少。
函數(shù)型數(shù)據(jù)分析方法是對傳統(tǒng)統(tǒng)計(jì)分析方法的延伸和發(fā)展,以“化數(shù)為形”為基本特征,發(fā)掘了原始統(tǒng)計(jì)數(shù)據(jù)所蘊(yùn)含的函數(shù)規(guī)律和由函數(shù)規(guī)律引發(fā)的計(jì)算和分析活動,這是函數(shù)型數(shù)據(jù)分析的最初概念。
先進(jìn)的數(shù)據(jù)收集工具經(jīng)常會搜集到一組連續(xù)型數(shù)據(jù),如腦電圖、肌電圖、學(xué)習(xí)曲線、空間中的路徑、連續(xù)時(shí)間上的主題回應(yīng),發(fā)聲中產(chǎn)生的語音測量結(jié)果、生物測定數(shù)據(jù)等,圖1中的曲線正是這樣一組數(shù)據(jù)。圖1中的曲線分別代表了某人以10種不同發(fā)音方式發(fā)出“啊、咔”聲音時(shí)舌背的高度[14],顯然可看出圖中每一條曲線代表每種發(fā)音方式的舌背高度,在用中間的平均曲線來概括10條曲線的同時(shí),還可以用某種方式來測量每條曲線相對平均曲線的變化。
圖1中每條曲線代表一種發(fā)音方式;同一個(gè)音符重復(fù)發(fā)10次;平均曲線由同一時(shí)間內(nèi)10條曲線上同一點(diǎn)的平均數(shù)計(jì)算得到,在圖中用虛線表示;時(shí)間單位在區(qū)間[0,1]上任意劃分。
圖1 400毫秒間隔內(nèi)發(fā)出“啊、咔”聲音時(shí)的舌背高度圖
圖2 統(tǒng)計(jì)觀測的可能域圖
圖2提供了一個(gè)得出函數(shù)型數(shù)據(jù)概念的基本步驟。圖2左上角是經(jīng)典數(shù)據(jù)矩陣的域:有n個(gè)研究對象,每個(gè)對象都用p個(gè)變量描述,xij表示一次實(shí)驗(yàn)的結(jié)果;從左上角下移,這個(gè)域是當(dāng)n趨于無窮時(shí)的情形,這時(shí)研究對象變成了總體;固定研究對象的數(shù)目允許變量個(gè)數(shù)無限增長時(shí),就變成圖2右上角所示的情形,這樣針對每一個(gè)個(gè)體的變量描述變成連續(xù)變量,在圖形上顯示為線而不是點(diǎn),自然可用符號xi(t)表示連續(xù)數(shù)據(jù)集上第i個(gè)個(gè)體在t點(diǎn)上的值;右下角域是表示研究對象和變量數(shù)目都趨于無窮時(shí)的情形,而本文的研究僅限于有限個(gè)體數(shù)目n的情形。
針對連續(xù)函數(shù),傳統(tǒng)的統(tǒng)計(jì)方法傾向于用兩種方法來處理:
第一種是對連續(xù)集在一個(gè)有限數(shù)的點(diǎn)集tj,j=1,…,p上取樣。在傳統(tǒng)多變量分析中,每個(gè)點(diǎn)可以當(dāng)做一個(gè)樣本點(diǎn)來處理。然而此方法有很多缺點(diǎn),即將函數(shù)型數(shù)據(jù)中很重要的連續(xù)性和高階光滑性特征忽略了,采樣點(diǎn)之間的信息缺失,協(xié)方差參數(shù)隨著p的變化而迅速變化,即使壓縮信息也不能降低模型的復(fù)雜性。
第二種是假設(shè)一系列的函數(shù)來近似數(shù)據(jù),但是這些函數(shù)受參數(shù)個(gè)數(shù)的約束。有關(guān)研究曲線和項(xiàng)目特征曲線的文獻(xiàn)對這個(gè)過程有很好的說明,盡管如此,這個(gè)方法還是出現(xiàn)了大多數(shù)參數(shù)曲線族缺乏靈活性的問題,不過樣條函數(shù)技術(shù)的出現(xiàn)使該問題有了很大的突破。然而,在一個(gè)參數(shù)空間以點(diǎn)的形式概括數(shù)據(jù)同直接以函數(shù)的形式來概括還是不同的,當(dāng)人們試圖以函數(shù)形式而不是點(diǎn)的形式來表達(dá)函數(shù)型數(shù)據(jù)的變化時(shí),這個(gè)問題就變得特別明顯。
熟悉函數(shù)型數(shù)據(jù)分析的關(guān)鍵是用函數(shù)型分析的術(shù)語來表達(dá)傳統(tǒng)的統(tǒng)計(jì)思想,而所涉及的思想是將數(shù)據(jù)定義成一個(gè)映射而不是點(diǎn)集,也就是說必須將數(shù)據(jù)看作是由域空間到列空間的可能的函數(shù)空間的元素。在多變量情形下討論這種方法后,再將其放在函數(shù)型數(shù)據(jù)的框架下研究,最后再以這種觀點(diǎn)來考察最小二乘估計(jì)、主成分分析和典型相關(guān)分析。在每個(gè)例子中由傳統(tǒng)的多元數(shù)據(jù)過渡到函數(shù)型數(shù)據(jù)是非常簡單的,基本上只需用積分來代替求和就可以了,而最重要且最困難的一步應(yīng)該是將概念從靜態(tài)到動態(tài)的轉(zhuǎn)化。
(一)向量空間
向量空間是一個(gè)實(shí)數(shù)的集合,它可以根據(jù)一般的加法法則進(jìn)行加法運(yùn)算,也可與數(shù)或標(biāo)量相乘進(jìn)行乘法運(yùn)算。標(biāo)量相乘等同于向量間的加法運(yùn)算。在向量空間下,任意兩個(gè)函數(shù)的和仍是連續(xù)函數(shù),其和也在集合之中。由于函數(shù)是有關(guān)向量的值,所以函數(shù)可以與標(biāo)量相乘,這樣就保留了連續(xù)性,以保證其和仍然在空間中;函數(shù)空間包括了由有限個(gè)特別函數(shù)的線性組合生成的函數(shù)所組成的有用的有限維子空間。因此,p-1元多項(xiàng)式是連續(xù)性函數(shù)空間的一個(gè)p維子空間。
一個(gè)特別有用的向量空間形式是當(dāng)其被賦予內(nèi)積運(yùn)算的情況。內(nèi)積是對稱且參數(shù)為線性的兩個(gè)向量的實(shí)值函數(shù),在其參數(shù)均為非零向量時(shí),兩個(gè)向量的內(nèi)積為正數(shù)。兩個(gè)p元的內(nèi)積或標(biāo)量積最為常見,在平方可積函數(shù)的空間中,兩個(gè)函數(shù)乘積的積分代表內(nèi)積。在以函數(shù)型分析的觀點(diǎn)來討論數(shù)據(jù)分析時(shí),p維向量空間的p元數(shù)組與定義在閉區(qū)間上的實(shí)值函數(shù)的向量空間是對應(yīng)的,其中實(shí)值函數(shù)的平方有限可積。
(二)P維向量數(shù)據(jù)
令X代表觀測值Xij(i=1,…,n,j=1,…,p),X可以被看作是由一個(gè)向量空間到另一個(gè)向量空間的函數(shù)或映射。問題中涉及的兩個(gè)向量空間是:
1.p維個(gè)體空間E。在這個(gè)空間中,任何觀察到的或是假設(shè)的主題對象可以由p個(gè)變量所對應(yīng)的某一點(diǎn)來表示??臻g中的兩個(gè)向量ej和ek的內(nèi)積為bE=(ej,ek),簡記為。向量e的?!琫‖是e和自身內(nèi)積的平方根。該空間可看做p個(gè)正交向量e的集合。
2.n維變量空間F。在這個(gè)空間中,任何觀察到的或假設(shè)的變量可以由n個(gè)個(gè)體在該變量上的值來表示。它也有內(nèi)積bF(.,.)和n個(gè)正交向量集[15]。
(三)函數(shù)型數(shù)據(jù)
可以將上述關(guān)于函數(shù)型數(shù)據(jù)分析的討論擴(kuò)展到個(gè)體或個(gè)例是函數(shù)xi(t),0≤t≤T的情形。正如圖2所示,人們可以想象,當(dāng)變量的數(shù)量足夠大、以至于下標(biāo)j(j=1,…,p)可按連續(xù)數(shù)處理時(shí),將其改寫為t。t在本文中將被認(rèn)為是時(shí)間,因?yàn)樵趯?shí)踐中這種情況比較多見,在傳統(tǒng)情形下對j求和轉(zhuǎn)變?yōu)閷求積分。數(shù)據(jù)仍然用X來表示,但不再是矩陣,而是在下面的空間中定義了相應(yīng)的映射。
1.無限維的個(gè)體空間E。任意觀察到的或假設(shè)的個(gè)體都可以表示為函數(shù)e(t),由于函數(shù)有無限個(gè)變量的可能,空間就可能有無限維度。函數(shù)ej(t)和ek(t)的內(nèi)積bE=(ej,ek)可以由式(1)給出:
同樣的,函數(shù)的模是由函數(shù)同其自身的內(nèi)積給出,即是其平方的積分。如果模有限,則得到的空間稱為希爾伯特(Hilbert)空間。希爾伯特空間的一個(gè)基本性質(zhì)是空間中的任意一個(gè)元素可表示為空間中有限個(gè)正交函數(shù)的加權(quán)和,所以雖然維度是無限的但它至少是可數(shù)的。P個(gè)變量情形下的空間E也是一個(gè)希爾伯特空間。
2.n維時(shí)間空間F。這個(gè)空間與p個(gè)變量情況下的空間F有著完全一樣的性質(zhì)。在這個(gè)空間中,觀察到的或是假設(shè)的任意時(shí)間點(diǎn)都可以由該點(diǎn)上的n個(gè)函數(shù)的值來表示,則X表示的映射是:
(1)X∶E→F。令e(t)為空間E中的任意函數(shù)。向量f的第i個(gè)元素由式(2)給出:
向量f是n維的,因其在F中。注意到這與p個(gè)變量情形在形式上是等價(jià)的,只是用積分來代替乘積Xe中元素的求和運(yùn)算。因此,函數(shù)型數(shù)據(jù)情況下將X想象成一個(gè)擁有完全緊密的行的矩陣是非常有用的。
(2)Xt∶F→E。令f為空間F中的任意向量,則函數(shù):
是E中的一個(gè)元素。此外,很容易看出對任意e∈E和f∈F均有bF(Xe,f)=bE(e,Xtf)。因此,用符號Xt來表示這個(gè)映射是有道理的。
(3)V∶E→E。同樣的,由式(2)將函數(shù)e(t)映射到F中,再將得到的n維向量通過式(3)映射回E中,這個(gè)過程可由算子V=XtX來描述。當(dāng)一個(gè)對稱陣的秩足夠大時(shí),它就表現(xiàn)為擁有完全緊密的行和列,詳細(xì)過程如下:
注意到V是由式子∫K(t,u)e(u)du所代表的積分變換的一般形式中的一個(gè),其中函數(shù)K(t,u)被稱為變換的核函數(shù)。在此例中K(t,u)=∑xi(t)xi(u)。
(4)W∶F→F。將空間F中的向量f映射到E中,再映射回F中,得到向量的第i個(gè)元素是:這些映射仍然可以由對偶圖(1)來概括地表示。由變換X決定的E在F中的投影通常是n維的,因此與F本身是一致的。然而,這并不意味著W將向量f映射到它本身,現(xiàn)在的核心問題是研究任何一個(gè)或者所有這些映射作用的結(jié)果。
傳統(tǒng)統(tǒng)計(jì)過程的關(guān)鍵思想是通過用子空間中的點(diǎn)來逼近一個(gè)點(diǎn)集的方法以達(dá)到降維的目的。例如多元回歸就是這樣一個(gè)過程,即將空間中的元素投影到使用預(yù)測的變量fj(j=1,…,k)擴(kuò)展而來的k維子空間中,投影為^f。因此,投影^f為f在子空間上投影的結(jié)果,可以將^f認(rèn)為是投影算子P作用于f,這里的P可將任意向量映射為子空間的最小二乘投影。映射算子有兩個(gè)重要的性質(zhì):PP=P和Pt=P。術(shù)語“算子”在最小二乘中有獨(dú)特應(yīng)用,需要滿足:其一,被估計(jì)向量是希爾伯特空間的元素;其二,估計(jì)值在閉的子空間或是凸子集上。
在傳統(tǒng)p個(gè)變量的數(shù)據(jù)分析中,逼近問題通常用變量矩陣F表達(dá)。然而,在函數(shù)型數(shù)據(jù)的情況下,把逼近問題考慮成用E中一個(gè)有限維的子空間的投影去逼近空間中E的一個(gè)函數(shù)e(t)。這個(gè)過程類似于電氣工程師對輸入信號運(yùn)用濾波器以排除不需要的信息,也類似于數(shù)據(jù)分析師用比較簡單的函數(shù)的線性組合來估計(jì)復(fù)雜函數(shù)的過程。當(dāng)逼近的目標(biāo)為‖e(t)-^e(t)‖2=∫[e(t)-^e(t)]2dt最小化時(shí),所對應(yīng)的映射即是算子P。
近似函數(shù)的集合是逐段多項(xiàng)式或樣條函數(shù),這類函數(shù)具有靈活性強(qiáng)、參數(shù)個(gè)數(shù)適中、易于計(jì)算等良好性質(zhì)。Winsberg和Ramsay一直在致力于研究單調(diào)樣條函數(shù)[16-17]。這種方法將函數(shù)空間投影到一個(gè)圓錐上,在處理更廣泛的問題時(shí)很容易。關(guān)于樣條插值方法的更全面的處理和相應(yīng)的不同空間的知識可以在Schumaker的成果中找到[18]77。
從函數(shù)型分析的觀點(diǎn)看,主成分分析問題本質(zhì)上是映射V∶E→F或是X∶E→F。因此,尋找映射^V或者^X,并使其在某種程度上與所要逼近的值盡可能地“接近”?!敖咏笨梢岳斫鉃橛成浣频慕Y(jié)果應(yīng)盡可能地與其真值接近。這里映射逼近的問題可以簡化為映射在列空間中的逼近,因此可以應(yīng)用前文討論過的最小二乘的方法來研究。
對X映射的結(jié)果可以概括為E中具有單位模的向量e映射到F中的過程,于是在F中的投影的模為‖Xe‖。由于X的映射是線性的,所以E中單位球在F中的投影是一個(gè)橢球。圖4是由圖3中的3 ×2矩陣得到的單位圓投影。因此,在F中的投影‖Xe1‖的模最大,在E中所對應(yīng)的元素e1的位置可以被看作是超橢球體的最佳一維近似。投影的模最大且與e1正交的元素e2的位置是橢球體的最佳二維近似。這個(gè)過程可以一直迭代下去,一直到E的維度被耗盡為止。
根據(jù)上文所定義的變換有:
因此,尋找具有單位模且能使‖Xe‖最大的向量e的過程相當(dāng)于尋找使bE(e,Ve)最大的元素e,因?yàn)槿我鈨?nèi)積滿足柯西-施瓦茨不等式:
bE(ej,ek)2≤bE(ej,ej)bE(ek,ek)
因此當(dāng)滿足如下條件時(shí):
bE(e,Ve)達(dá)到最大值。很顯然上式是一個(gè)特征方程。由式(7)可知‖Xe‖2=λ,因此λ是F中變異的測度??梢哉J(rèn)為Xe定義了E在F中的投影或是F在映射W下投影變異的主方向。在較一般的情況下,算子V可以表達(dá)為有限可數(shù)項(xiàng)∑λjej(u)ej(t)的形式,其中(λj,ej)是方程(7)的特征方程的第j個(gè)解。
圖3 由x映射的單位圓轉(zhuǎn)換圖
特征方程的求解過程稱為譜分析,它是函數(shù)型分析中的一個(gè)核心主題。在有限p維的情形,e是對稱正定矩陣V的特征向量。在函數(shù)型數(shù)據(jù)中e(t)是算子V的特征函數(shù)。任何時(shí)候λ都是V的特征值。實(shí)際中,在更一般的條件下,特征方程解的數(shù)量有限可數(shù),特征值非負(fù)且不同,最大特征值是有限的。
有很多計(jì)算特征方程ej(t)問題的方法。當(dāng)n不是非常大時(shí),可用矩陣W的矩陣特征分析并代替,所需的特征方程簡化為Xtfi,i=1,…,n。直接處理算子V的技術(shù)也是存在的,在收斂的情形下,可以引入不連續(xù)的近似方法。對算子V的不連續(xù)近似的一個(gè)簡單形式是在[0,T]的間隔點(diǎn)中選擇一個(gè)足夠大的數(shù),通過相應(yīng)的被不同點(diǎn)分割的部分求和來逼近式(4)中的積分。在這種形式下,問題就變成了經(jīng)典多元分析中的主成分分析。不過,越是復(fù)雜的正交過程所需要的分割點(diǎn)越少。
主成分分析的一個(gè)重要擴(kuò)展是按照圖4所示,當(dāng)E被映射到另一個(gè)空間G的情況:
圖4 對偶圖
當(dāng)G是E的子空間或是凸子集時(shí),產(chǎn)生了一個(gè)特別重要的例子,即如G可以是由一系列樣條函數(shù)擴(kuò)展而成的空間的組成部分,或是一個(gè)圓錐,這個(gè)圓錐是組成單調(diào)樣條函數(shù)凸組合的一部分。在這個(gè)例子中U和Ut將是投影算子P。主成分分析問題重新定義為在‖g‖=1的條件下求‖XUg‖的最大值的問題。
一個(gè)函數(shù)集的位置可以通過個(gè)體的逐點(diǎn)平均來概括。如果函數(shù)的組成中有一大部分是沒用的信息,或是有不需要的非光滑成分,最好先用適當(dāng)?shù)臉訔l函數(shù)逼近,再對樣條函數(shù)求平均。原始函數(shù)可以通過減去它們各自的平均函數(shù)來中心化。
對離散程度的概括更為復(fù)雜,就好像不能用單個(gè)變量的變差來表示多元分布的整體變差一樣,用逐點(diǎn)的方式來測度函數(shù)的變差也是沒有用的。多元分布的離散程度可以由方差-協(xié)方差矩陣n-1XtX來表示。同樣的,函數(shù)型數(shù)據(jù)情形下的方差-協(xié)方差算子n-1V也包含了函數(shù)變化的重要信息。算子的核函數(shù)K(u,t)=n-1∑xi(t)xi(u)定義了一個(gè)方差-協(xié)方差面,用輪廓圖或透視圖技術(shù)來描述這個(gè)表面是很有啟發(fā)性的,而由K(u,t)/[K(u,u)K(t,t)]1/2定義的相關(guān)表面也可以由圖形表示。正如多元分析中特征向量表明了變差的主要方向一樣,與主導(dǎo)特征向量相對應(yīng)的特征方程ej(t)也表明了相對于平均函數(shù)和函數(shù)變差的主要類型。
在這個(gè)問題上,分析時(shí)間序列所用到的技術(shù)可以同這里的函數(shù)型數(shù)據(jù)的分析聯(lián)系起來,而這些過程都基于協(xié)方差結(jié)構(gòu)是平穩(wěn)的前提,意味著這里的相關(guān)表面K(u,t)可以單獨(dú)定義為|u-t|的函數(shù)[20]339-341。由此可以發(fā)現(xiàn),這種情形下的特征方程具有周期性,因此可以表示為有限個(gè)正余弦函數(shù)的組合。
函數(shù)型數(shù)據(jù)的描述性分析可以由圖1所示的曲線來說明:圖1中虛線顯示了逐點(diǎn)平均曲線。注意到在t=0.4和t=0.8的時(shí)候舌背高度的變化速度明顯變慢,并在t=0.5時(shí)達(dá)到了最高點(diǎn);圖5顯示了這些曲線的方差-協(xié)方差表面,從右下到左上的對角線表面的高度顯示了時(shí)間段內(nèi)曲線上每一點(diǎn)的方差。兩個(gè)峰值對應(yīng)于t=0.4和t=0.8時(shí)的兩個(gè)減速點(diǎn);圖6顯示的是相關(guān)表面:表面上的兩個(gè)深谷對應(yīng)于兩個(gè)減速點(diǎn),表明舌背高度接近于零相關(guān),表明舌頭啟動容易,但慢下來較為困難;圖7給出了前兩個(gè)特征向量:其特征值累計(jì)貢獻(xiàn)達(dá)到了95%。概括地說,就是變差的主要模式有兩種:一種表現(xiàn)為函數(shù)的大體垂直移動;另一種表現(xiàn)為在達(dá)到最大高度之前的爬坡和在到達(dá)最低高度時(shí)的向上調(diào)整。
圖5 由圖1中數(shù)據(jù)計(jì)算得到的方差-協(xié)方差算子K(t,u)的前兩個(gè)特征函數(shù)圖
前文圖1中,對應(yīng)于特征值分別為0,17和0,12時(shí),占所有特征值比例95%。第一個(gè)特征函數(shù)表明了相對于平均函數(shù)的主要離差形式表現(xiàn)為垂直移動;第二個(gè)特征函數(shù)所代表的變差表現(xiàn)為在達(dá)到最大高度之前的爬坡和在到達(dá)最低高度時(shí)的向上調(diào)整。
以函數(shù)型分析的術(shù)語來描述典型相關(guān)分析可以處理一系列的問題,因?yàn)榈湫拖嚓P(guān)分析涉及了許多項(xiàng)用于多元數(shù)據(jù)分析的常用技術(shù)。現(xiàn)在假設(shè)有兩個(gè)子空間E1和E2,在每個(gè)空間中,每個(gè)個(gè)體由變量集或時(shí)間點(diǎn)來確定。
讓X1和X2分別代表確定映射E1、E2到F的兩組數(shù)據(jù)集,然后考慮F中的兩個(gè)子空間:第一個(gè)子空間F1是F在算子W1=X1Xt1下的投影;第二個(gè)子空間F2是F在算子W2=X2Xt2下的投影。對應(yīng)于這兩個(gè)子空間的是投影算子P1和P2,兩個(gè)算子分別將f的任意元素映射到子空間F1和F2最小二乘估計(jì)值上,這種情形可以由簡化的對偶圖來概括(見圖6):
圖6 對偶圖
典型相關(guān)分析可以表達(dá)為對F1∩F2的描述。為了強(qiáng)化分析,需要加入的額外條件為子空間是閉空間,即維數(shù)有限。F中的一個(gè)任意元素f如果可以先由投影算子P1投影到F1中,再由投影算子P2投影到F2中,那么它將被映射到交集空間中,則意味著算子P1P2(或P2P1)提供了所需的映射。
在一般的情形下,典型相關(guān)分析簡化為對P1P2作譜分析。在E1和E2的維數(shù)分別為有限值p和q的情況下,典型相關(guān)分析即可以簡化為對)做特征分析。
表達(dá)典型相關(guān)問題時(shí)引入算子乘積的譜分析,這顯然對于變量或函數(shù)的任何數(shù)量的集合都是通用的。因此,對k個(gè)表的典型相關(guān)分析可以轉(zhuǎn)化為P1P2,…,Pk的特征分析。
當(dāng)個(gè)體的數(shù)據(jù)表現(xiàn)為一對函數(shù)時(shí),通常涉及到的投影不再是F的閉子空間。在實(shí)際中這意味著函數(shù)的兩個(gè)集合可能在任意小和彎曲的部分上高度相關(guān)。針對這個(gè)難點(diǎn)的處理方法是將每個(gè)函數(shù)空間投影到合適的子空間或是有限維的凸集^E中(維數(shù)小于n),這可以看作是過濾數(shù)據(jù)的過程。利用一個(gè)投影是其自身的轉(zhuǎn)置這樣一個(gè)事實(shí),其結(jié)果由對偶圖表示(見圖7):
圖7 對偶圖
一般地,算子Vk=PkXkXtkPk(k=1,2,…),有逆算子,分析過程仍如上。在函數(shù)型數(shù)據(jù)的情形下,自然地可以考慮在對偶圖中轉(zhuǎn)換E和F的角色。當(dāng)個(gè)體被分為兩個(gè)或多個(gè)組時(shí),會對成對的函數(shù)感興趣,這時(shí)每一對函數(shù)都是一個(gè)特定組中函數(shù)的加權(quán)和,在滿足正交條件時(shí),這些特定組具有最大相關(guān)性。在p個(gè)向量的情形下,因?yàn)樽兞康捻樞蛲ǔJ侨我獾?,所以人們很少對這個(gè)分析感興趣,但在時(shí)間點(diǎn)的情況下,這個(gè)分析就變得非常有用。
從某種意義上說,廣義的經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)或者科學(xué)實(shí)驗(yàn)數(shù)據(jù),基本上都可以看做是函數(shù)型數(shù)據(jù),這樣一來,有限數(shù)據(jù)集和無限數(shù)據(jù)集就不再有顯著差別,相應(yīng)的函數(shù)型分析就都可以順利進(jìn)行。用函數(shù)型分析方法也可以對其他熟悉或不熟悉的方法進(jìn)行分析,如對偶度量(dual scaling)或?qū)?yīng)分析、連續(xù)函數(shù)向量值的數(shù)據(jù)集、任意模式數(shù)據(jù)的列聯(lián)表分析。已有的統(tǒng)計(jì)學(xué)的分支—貝葉斯推斷,就是用函數(shù)型分析的術(shù)語來表達(dá)的。貝葉斯推斷本質(zhì)上是由一個(gè)定義在參數(shù)空間上的密度函數(shù)利用數(shù)據(jù)集所決定的非線性算子,并將其映射到自身的空間,在這個(gè)意義上算子V僅是一個(gè)特例。貝葉斯推斷已經(jīng)成為統(tǒng)計(jì)學(xué)最前沿的一種研究技術(shù),并已在很多領(lǐng)域得到了廣泛應(yīng)用。
目前,從國內(nèi)的情況看,函數(shù)型數(shù)據(jù)分析及相關(guān)應(yīng)用研究剛剛起步,尚未形成穩(wěn)定的研究團(tuán)隊(duì)和研究方向,對于統(tǒng)計(jì)學(xué)教學(xué)、科研及研究生培養(yǎng)方面的探索也處于起步階段。有兩個(gè)方面的趨勢值得注意:一是國內(nèi)數(shù)學(xué)和統(tǒng)計(jì)學(xué)界強(qiáng)有力的研究力量已經(jīng)較為成功地開始了這個(gè)方面的研究;二是統(tǒng)計(jì)學(xué)一級學(xué)科的設(shè)立對于推動理學(xué)門類下統(tǒng)計(jì)學(xué)的繁榮和發(fā)展奠定了更廣義的基礎(chǔ)和發(fā)展空間。就函數(shù)型數(shù)據(jù)分析的基本框架和學(xué)術(shù)基礎(chǔ)而言,目前的學(xué)科布局更有利于函數(shù)型數(shù)據(jù)的發(fā)展;同時(shí),函數(shù)型數(shù)據(jù)分析的研究也將有利于統(tǒng)計(jì)學(xué)在更廣義的方法論空間,從經(jīng)濟(jì)學(xué)、管理學(xué)、社會學(xué)等學(xué)科獲得積極的方法突破和更加有效的應(yīng)用成果。
正如Dieudonne在《Foundations of Modern Analysis》(《現(xiàn)代分析基礎(chǔ)》)一書中所論述的:“學(xué)生應(yīng)該盡早熟悉函數(shù)f只是單一個(gè)體,它本身可能是變化的,可以看作是函數(shù)空間中的一點(diǎn);傳統(tǒng)和現(xiàn)代分析方法的主要區(qū)別在于:在傳統(tǒng)數(shù)學(xué)方法中,f(x)中的f是固定的,x是變量;而現(xiàn)代方法中,f和x都可以是‘變量’……”。
對于一個(gè)學(xué)科的發(fā)展來說,函數(shù)型分析無疑將成為一個(gè)學(xué)術(shù)熱地,并為統(tǒng)計(jì)學(xué)及眾多分支學(xué)科提供分析工具和更廣義的應(yīng)用。
[1] 米子川.依數(shù)據(jù)進(jìn)行統(tǒng)計(jì)建模的三個(gè)基本分析層次[J].統(tǒng)計(jì)教育,2010(10).
[2] Aubin J P.Applied Functional Analysis[M].New York:Wiley,1979.
[3] Tucker L R.Determination of Parameters of a Functional Relationship by Factor Analysis[M].Psychometrika,1958,23.
[4] Cailliez F,Pages J P.Introduction dl'Analyse des Donn~es[R].Paris:Sociale de Mathsmatiques Appliqu6es et de Sciences Humaines,Prue Duban,75016Paris,1976.
[5] Dauxois J,Pousse A.Les Analyses Factorie Ues en Calcul des Probabilit6set en Statistique:Essai D'atude Synth6tique[R].Those d'btat,l'University Paul-Sabatier de Toulouse,F(xiàn)rance,1976.
[6] Winsberg S,Ramsay J O.Analysis of Pair Wise Preference Data Using Integrated B-splines[J].Psychometrika,1981,46(2).
[7] Winsberg S,Ramsay J O.Monotonic Transformations to Addictively Using Splines[J].Biometrika,1980,67(3).
[8] Ramsay J O,Silverman B W.Applied Functional Data Analysis:Methods and Case Studies[M].New York:Springer,London,2002.
[9] Rob J Hyndman,Han Lin Shan.Rainbow Plots,Bag-plots and Box-plots for Functional Data[R].Monash Econometrics and Business Statistics Working Papers,2009.
[10]Kreyszig E.Introductory Functional Analysis with Applications[M].New York:Wiley,1978.
[11]嚴(yán)明義.函數(shù)性數(shù)據(jù)的統(tǒng)計(jì)分析:思想、方法和應(yīng)用.統(tǒng)計(jì)研究,2007(2).
[12]朱建平,王桂明.函數(shù)數(shù)據(jù)聚類及其在金融時(shí)序分析中的應(yīng)用[J].統(tǒng)計(jì)與決策,2010(9).
[13]米子川.統(tǒng)計(jì)數(shù)據(jù)的函數(shù)化及函數(shù)型數(shù)據(jù)分析的工具創(chuàng)新[R].國家統(tǒng)計(jì)局全國統(tǒng)計(jì)科研項(xiàng)目2009年度重點(diǎn)課題研究報(bào)告,課題編號2009LZ026.
[14]Keller E,Ostry D J.Computerized Measurement of Tongue Dorsum Movements with Pulsed Echo Ultrasound[J].Manuscript submitted for publication to Journal of the Acoustical Society of America,1982.
[15]Pages J P,Tenenhaus M.Geometry and Duality Diagram.An Example of Application:The Analysis of Qualitative Variables[R].Paper Presented at the Psychometric Society Annual Meeting,Montreal,Canada,1982.
[16]Winsberg S,Ramsay J O.Monotone Spline Transformations for Dimension Reduction[J].Submitted for Publication in Psychometrika,1983,48(4).
[17]Winsberg S,Ramsay J O.Monotone Spline Transformations for Ordered Categorical Data[R].Paper Presented at the Psychometric Society Annual Meeting,Montreal Canada,1982.
[18]Schumaker L,Spline Functions:Basic Theory[M].New York:Wiley,1981.
[19]Doob J L.Stochastic Processes[M].New York:Wiley,1953.
The Research Development and Technical Framework of Functional Data Analysis
MI Zi-chuan,ZHAO Li-qin
(School of Statistics,Shanxi University of Finance and Economics,Taiyuan 030006,China)
Functional Data Analysis(FDA)has been developed into a Multivariate Statistical Analysis(MSA)method based on thoughts of converting discrete data into functional ones since 1980s,which portrayed more generalized and more profound statistical relationship through the functional analysis.The basic idea of FDA is brought up by James O.Ramsay,aprofessor of Canada McGill University and Bernard W.Silverman,from Oxford.Many other world-famous scholars have contributed to the idea.The method is now widely used in economics,biology,meteorology,psychology,industry and other fields.Functional Data Analysis regards observed data as a whole,but not just the order of the individual observations.Functions essentially refer to the inner structure of data,but not their intuitive form.This paper briefly reviews the development history of FDA and tracks domestic and international research trends.It introduces the FDA research technical framework and the differences between FDA research technical framework and the traditional method of multivariate statistical analysis.Attention focus on the application of FDA in economics.
functional analysis;research progress;technical framework
book=13,ebook=52
O212.4
A
1007-3116(2012)06-0013-08
(責(zé)任編輯:郭詩夢)
2011-11-30;修復(fù)日期:2012-04-18
國家統(tǒng)計(jì)局全國統(tǒng)計(jì)科研項(xiàng)目2009年度重點(diǎn)課題《統(tǒng)計(jì)數(shù)據(jù)的函數(shù)化及函數(shù)型數(shù)據(jù)分析的工具創(chuàng)新》(2009LZ026)
米子川,男,山西祁縣人,統(tǒng)計(jì)學(xué)博士,副教授,統(tǒng)計(jì)學(xué)、應(yīng)用統(tǒng)計(jì)專業(yè)碩士和MPA導(dǎo)師,研究方向:應(yīng)用統(tǒng)計(jì)和經(jīng)濟(jì)統(tǒng)計(jì);趙麗琴,女,山西原平人,統(tǒng)計(jì)學(xué)博士,副教授,研究方向:經(jīng)濟(jì)統(tǒng)計(jì)學(xué)和多元統(tǒng)計(jì)分析。