(山東師范大學數(shù)學與統(tǒng)計學院,250358,濟南)
隨著信息技術和計算機技術的飛速發(fā)展,越來越多的高維數(shù)據(jù)出現(xiàn)在我們的生活中.在許多統(tǒng)計應用中,總是存在需要處理高維數(shù)據(jù)的情況.在以前的多維統(tǒng)計結(jié)論中,我們通常假設觀測樣本的數(shù)目n足夠大.但是,在許多情況下,數(shù)據(jù)的維數(shù)p大于樣本量n,這種情況通常被稱為“大p小n”.在這種情況下,一些傳統(tǒng)的統(tǒng)計結(jié)論將不再成立.例如,在判別分析中,當總體協(xié)方差矩陣未知時,需要用樣本協(xié)方差矩陣的逆矩陣來代替判別函數(shù)中總體協(xié)方差矩陣的逆.另外,在協(xié)方差矩陣相等的相關檢驗中,一些傳統(tǒng)的檢驗統(tǒng)計量要求樣本協(xié)方差矩陣具有可逆性.但是在“大p小n”的情況下,樣本協(xié)方差矩陣不可逆的概率為1.因此,一些專家嘗試用其他方法進行假設檢驗,如修正似然比方法[1-4];非參數(shù)方法等[5-6].
從上述兩個例子中,我們可以看到,在許多應用中,我們都需要樣本協(xié)方差矩陣是可逆的.然而,在“大p小n”的情況下,傳統(tǒng)的樣本協(xié)方差矩陣是不可逆的.本文試圖給出一種利用變量間的特殊關系估計協(xié)方差矩陣的新方法,即在“大p小n”條件下,協(xié)方差矩陣仍然是可逆的.在許多實際情況中,變量之間存在一些特殊的關系.其中,條件獨立性是一種非常重要的關系,在圖模型的學習中起著重要的作用.對于多元正態(tài)分布的變量,如果變量之間存在條件獨立關系,則樣本協(xié)方差矩陣和精度矩陣具有特殊的結(jié)構(gòu).
本文通過條件獨立正態(tài)模型下協(xié)方差矩陣和精度矩陣的特殊結(jié)構(gòu),給出了估計協(xié)方差矩陣的新方法,使得新估計在高維的情況下仍是可逆的.本文的結(jié)構(gòu)如下:第一部分給出了相關引理和重要結(jié)論;第二部分我們給出了一種估計協(xié)方差矩陣的新算法使得得到的新估計具有較強的可逆性;最后一部分通過數(shù)值例子驗證了新方法的有效性.
假設隨機向量X~Np(0,Σ),向量X分為k個部分,即X=(X1′,X2′,…,Xk′)′,其中Xi′是pi維的
以下結(jié)構(gòu)[7]:
(1)
在精度矩陣的這種結(jié)構(gòu)下,協(xié)方差矩陣∑具有以下結(jié)構(gòu):
(2)
這個模型是Anderson和Perlman于1993年提出的Lattice Conditional Independence(LCI)模型[8]的一個特殊情形.我們在接下來的內(nèi)容中主要考慮k=3的情況.在k=3的情況下,精度矩陣具有以下結(jié)構(gòu):
(3)
并且協(xié)方差矩陣具有以下結(jié)構(gòu):
(4)
定義1[9]設X~Np(0,Σ).令x1,x2,···,xn是一個隨機樣本,則傳統(tǒng)的樣本協(xié)方差矩陣定義如下:
(5)
i)C∪A∪B=V;
ii)A⊥B|C.
在因果強分割(C,A,B)中,我們把變量集C稱為因果強分割集.
對于尋找變量之間的條件獨立性,我們有如下的算法1.
算法1[10]因果強分割搜索算法.
輸入:樣本集D,變量集V; 輸出:因果強分割(C,A,B).
步驟1:找出因果強分割(C,A,B).
for每對{u,v}?Vdo else ifA⊥B|C∪{w}then
for 每個V′?V{u,v}doC={w}∪C
ifu⊥v|V′then for每個變量s∈Cdo
V′=V′ if?u∈A,?C′?C{s}使得s⊥u|C′then
end ifC=C{s},B={s}∪B
end for else if?v∈B,?C′?C{s}使得s⊥v|C′then
把V中的變量逐個移到A,B,C中 break
for 每個變量w∈Vdo end for
if ?u∈A,?C′?C使得w⊥u|C′then else
B={w}∪Bbreak
break end for
else if?v∈B,?C′?C使得w⊥v|C′then return(C,A,B)
A={w}∪Aend for
break
步驟2:找出A與B的變量個數(shù)相差最小的因果強分割(C,A,B).
for 每個因果強分割(C,A,B)do
Φj=||Aj|-|Bj||
end for
return(C,A,B)=argminΦj
(6)
令x1,x2,…,xn是一個隨機樣本,則新的協(xié)方差矩陣的估計定義如下:
(7)
算法2 估計高維協(xié)方差矩陣的算法.
if dim(X1,X2)≤n且dim(X1,X3)≤nthen樣本協(xié)方差矩陣結(jié)構(gòu)為
else if dim(X1,X2)>n且dim(X1,X3)>n
else if dim(X1,X2)>n
else
本部分中,我們給出數(shù)值例子來評估新算法的性能.我們首先根據(jù)圖1、圖2和圖3產(chǎn)生數(shù)據(jù)作為訓練樣本,生成兩類具有不同維度和樣本大小的數(shù)據(jù).然后,我們使用訓練樣本作為測試樣本并利用通過新算法得到的協(xié)方差矩陣進行兩總體的判別分析.最后,將誤判率與利用(5)式定義的傳統(tǒng)樣本協(xié)方差矩陣進行判別分析[11]作比較,仿真結(jié)果如表1所示.
圖1 15維數(shù)據(jù)網(wǎng)絡
圖2 50維數(shù)據(jù)網(wǎng)絡
圖3 80維數(shù)據(jù)網(wǎng)絡
表1 不同樣本量和維數(shù)下傳統(tǒng)方法與新方法的誤判率
通過表1可以看出,在數(shù)據(jù)維數(shù)p大于樣本量n的情況下,由于傳統(tǒng)方法估計的協(xié)方差矩陣是不可逆的,所以無法進行判別分析.而我們用新方法估計的樣本協(xié)方差矩陣在“大p小n”的情況下是可逆的,所以可以進行判別分析,并且由表1的數(shù)據(jù)我們可以看出,新方法的誤判率幾乎為0,即判別效果良好.