鄭澤敏,周慧婷
(中國科學技術(shù)大學管理學院統(tǒng)計與金融系, 合肥 230026) (2020年4月15日收稿; 2020年6月28日收修改稿)
大數(shù)據(jù)時代為我們帶來了海量的個體信息,這些個體間的聯(lián)系構(gòu)成了縱橫交錯的網(wǎng)絡數(shù)據(jù)。網(wǎng)絡數(shù)據(jù)涵蓋了社交網(wǎng)絡[1]、在線營銷[2]、醫(yī)療數(shù)據(jù)[3]以及氣候分析[4]等一系列當代應用。這些數(shù)據(jù)通常具有成千上萬的維度,這就使得高維數(shù)據(jù)的作用越來越突出。研究這些高維網(wǎng)絡數(shù)據(jù)間的聯(lián)系具有非常實際的意義。圖模型可以作為研究變量條件關聯(lián)的一種工具[5]。在圖模型中,圖模型的條件獨立性可以由它的精度(逆協(xié)方差)矩陣來確定[6]。在高斯圖模型中,圖模型的條件獨立結(jié)構(gòu)完全由精度矩陣的零元素來確定[7]。因此,挖掘網(wǎng)絡數(shù)據(jù)變量間聯(lián)系也就是恢復圖模型的精度矩陣。
然而由于高維數(shù)據(jù)的出現(xiàn),往往會出現(xiàn)變量大于樣本容量的情形。在這種情況下,用樣本協(xié)方差矩陣的逆來估計精度矩陣不再可行。即使可行,求解一個高維矩陣的逆,在內(nèi)存和時間上的成本也是巨大的。這就使得高維圖模型精度矩陣的求解成為各學者研究的熱點。當前的研究主要集中在精度矩陣的點估計上[8-15]。我們知道,通過置信區(qū)間來評估估計量的精度是很重要的[16-17]。然而由于現(xiàn)有估計量抽樣分布的復雜性,目前對高維稀疏精度矩陣的置信區(qū)間還很少涉及。
近年來,對于高維統(tǒng)計推斷的研究主要轉(zhuǎn)向高維線性和廣義線性模型回歸系數(shù)上[18-21]。特別是van de Geer等[19]對Lasso估計量進行KKT(Karush-Kuhn-Tucker)反轉(zhuǎn)得到高維線性回歸系數(shù)的漸近正態(tài)統(tǒng)計量。后來他們又將該方法推廣到廣義線性模型中。遵循文獻[19]的思想,Jankov和van de Geer等[22]將這種消除懲罰偏差的思想運用到精度矩陣的統(tǒng)計推斷中。他們通過對Glasso(graphical Lasso)[11]估計量進行KKT反轉(zhuǎn)得到De-Glasso(De-sparsified graphical Lasso)統(tǒng)計量,并給出漸近正態(tài)性的理論保證,進而得到精度矩陣各個元素的置信區(qū)間。遵循這種KKT反轉(zhuǎn)的思想,文獻[23-24]都通過對精度矩陣點估計的似然函數(shù)KKT反轉(zhuǎn)得到不同設定下的漸近正態(tài)統(tǒng)計量。還有一類統(tǒng)計推斷方法是Ren等[14]提出的ANT(asymptotically normal estimation and then do thresholding)方法,它是每2個變量對剩余變量進行回歸得到一個漸近正態(tài)估計量。
本文研究發(fā)現(xiàn),置信區(qū)間的計算成本主要來自于精度矩陣的點估計。上述提出的第1類置信區(qū)間由于各自點估計具有復雜的似然函數(shù)以及需選擇調(diào)優(yōu)參數(shù)而計算不有效。第2類置信區(qū)間由于ANT點估計需要進行O(p2)次scaled Lasso回歸而使得計算成本加大。當維度適中時,兩類方法都可以有效地計算精度矩陣的置信區(qū)間,然而當維度逐漸增加時,上述方法的計算效率開始變低。為解決上述問題,本文受文獻[22]漸近正態(tài)統(tǒng)計量的啟發(fā)提出De-ISEE統(tǒng)計量,并給出對應元素的置信區(qū)間。
本文提出的De-ISEE統(tǒng)計量是ISEE點估計的簡單運算,且ISEE估計量有成熟的算法,這使得De-ISEE統(tǒng)計量易于計算。相比較其他方法,De-ISEE方法由于ISEE點估計具有可伸縮、易調(diào)參等優(yōu)點可處理超高維精度矩陣。從仿真實驗中可以看出,De-ISEE方法得出的置信區(qū)間不僅覆蓋率更接近于理想覆蓋率,而且計算高效。并且本文將De-ISEE方法運用到核黃素數(shù)據(jù)集以及前列腺腫瘤基因表達數(shù)據(jù)集,發(fā)現(xiàn)De-ISEE方法很好地恢復了變量間的聯(lián)系,這可作為研究基因?qū)W的一種輔助工具。
選用高斯圖模型來模擬網(wǎng)絡數(shù)據(jù)。設X為p維服從多元高斯分布的隨機變量,即
X=(x1,…,xp)T~N(μ,Σ*).
(1)
定義μ為p維均值向量,Σ*為協(xié)方差矩陣。設G=(V,E)為高斯無向圖,V={x1,…,xp}為G的頂點集,E={(i,j)}為高斯圖模型邊的集合。xi與xj滿足以下的性質(zhì)
xi⊥xj|x-(i,j)?(i,j)?E,
也就是xi和xj之間無邊與xi和xj條件獨立相互等價。
設X1,…,Xn∈p為獨立同分布于(1)的樣本。為方便計算,全文假設均值向量μ=0。
本節(jié)將基于ISEE估計量(innovated scalable efficient estimation)構(gòu)造De-ISEE統(tǒng)計量。ISEE方法是由Fan和Lyu[15]提出,是為了高效地估計超高維精度矩陣的點估計。他們是受創(chuàng)新變換的啟示,將估計精度矩陣的問題轉(zhuǎn)化為大協(xié)方差矩陣估計問題。它的求解如下:
通過創(chuàng)新變換得到Y(jié)=Θ*X,則有Y~N(0,Θ*)成立。則估計Θ*的問題可轉(zhuǎn)變?yōu)楣烙媃的協(xié)方差。為了估計Y,F(xiàn)an等將長向量Y分解成小的子向量,即:
XA=XACCA+ηA,
(2)
為估計殘差向量ηA,用文獻[25]提出的scaled Lasso懲罰回歸的方法對模型(2)進行擬合。對于(2)中A的每個節(jié)點j,有
Xj=XACβj+ηj,
(3)
這里Xj,βj,ηj分別是XA,CA,ηA的第j個列向量。對(3)進行scaled Lasso懲罰回歸:
由于ISEE估計量計算步驟的復雜性,以致很難研究ISEE估計量的分布性質(zhì)。為了構(gòu)建精度矩陣Θ*基于ISEE估計量的置信區(qū)間,本文需要一個優(yōu)良的統(tǒng)計量。為要消除正則化懲罰為ISEE估計量帶來的偏差,本文受文獻[19,22]構(gòu)造去偏統(tǒng)計量的啟發(fā),基于文獻[22]提出的漸近正態(tài)模型
(4)
(5)
通過仿真實驗來檢驗De-ISEE統(tǒng)計量對網(wǎng)絡數(shù)據(jù)變量聯(lián)系的恢復效果及計算效率。并與De-Glasso統(tǒng)計量[22]進行對比研究。
使用文獻[22-24]使用的平均覆蓋率指標來比較兩種方法的覆蓋準確性。分別為: ACS,ALS,ACSc,ALSc。其中ACS為在支撐集S上的平均覆蓋率,它的定義為
表1分別展示維度p=200, 1 000, 2 000,ρ=0.3時,De-ISEE統(tǒng)計量與De-Glasso統(tǒng)計量構(gòu)成的置信區(qū)間平均覆蓋率的比較。當p=2 000時,由于De-Glasso統(tǒng)計量計算時間過長,為避免過多的計算損失,只計算De-ISEE統(tǒng)計量的平均覆蓋率。
可以看出,當精度矩陣維度p
另一方面,De-ISEE方法在S上的平均覆蓋率始終高于De-Glasso方法,而De-Glasso方法在SC上的平均覆蓋率始終高于De-ISEE方法。這表明由De-Glasso方法恢復的圖模型更容易丟失變量間聯(lián)系。這不利于在海量信息中挖掘變量間聯(lián)系。大數(shù)據(jù)時代促使網(wǎng)絡數(shù)據(jù)的維度激增,例如在經(jīng)濟分析中,影響經(jīng)濟的因素越來越多,然而各個因素之間的聯(lián)系卻是廣泛而又稀疏的。這就需要借助工具發(fā)現(xiàn)變量間聯(lián)系,再針對性分析。De-ISEE統(tǒng)計量很好地恢復了圖模型,由它得出的平均覆蓋率更接近理想覆蓋率。這也在一定程度上,彌補了De-ISEE方法平均置信區(qū)間長度長于De-Glasso方法平均置信區(qū)間長度這一缺陷。另外,平均置信區(qū)間長度也在某種程度上反映了樣本的隨機誤差。
為驗證De-ISEE統(tǒng)計量的穩(wěn)定性,設置另一參數(shù)ρ= 0.4,計算結(jié)果見表2。
表1 ρ=0.3時, De-ISEE方法與De-Glasso方法平均覆蓋率的比較Table 1 The comparision of average coverage for De-ISEE method and De-Glasso method when ρ=0.3
表2 ρ=0.4時,De-ISEE方法與De-Glasso方法平均覆蓋率的比較Table 2 The comparision of average coverage for De-ISEE method and De-Glasso method when ρ=0.4
表2設置了一個更大的三對角矩陣參數(shù)值ρ。同理,為了節(jié)省時間與空間損失,在表2中,當p=2 000時,只計算De-ISEE方法的平均覆蓋率??梢园l(fā)現(xiàn)表2的結(jié)論與表1保持一致。并且相比較于表1,可發(fā)現(xiàn)當參數(shù)值ρ變大時,De-Glasso方法在S上的平均覆蓋率明顯變小,而De-ISEE統(tǒng)計量基本保持不變,可見De-ISEE方法不受參數(shù)值變化的影響,具有較高的穩(wěn)定性。
為了比較計算效率,使用文獻[15]使用的平均計算時間指標, 分別計算置信水平為1-α的De-ISEE方法和De-Glasso方法的CPU運行時間(s)對數(shù)的平均數(shù)。參數(shù)設置為n=500,ρ=0.3,α=0.05,N=100。計算結(jié)果為圖1,x軸為維度p,y軸為CPU運行時間(s)對數(shù)的平均數(shù)。
圖1 De-ISEE與De-Glasso隨著維度p增加的 CPU運行時間對數(shù)的平均數(shù)Fig.1 The average logarithm of CPU running times of De-ISEE and De-Glasso as dimensionality p increases
由圖1可見,隨著維度p的增加,De-ISEE的平均運行時間增長緩慢,而De-Glasso的平均運行時間增長快速。當維度很高時,De-Glasso方法甚至無法計算。
綜上可見,通過比較De-ISEE方法與De-Glasso方法的平均覆蓋率,可發(fā)現(xiàn),在高維網(wǎng)絡數(shù)據(jù)中,De-ISEE方法的平均覆蓋率不隨維度p以及參數(shù)值ρ的變化而顯著變化,具有較高的穩(wěn)定性。而De-Glasso方法的平均覆蓋率卻對維度p和參數(shù)值ρ的變化較為敏感。當精度矩陣的維度p變大時,De-ISEE方法依舊計算高效。在處理高維矩陣時,無論從平均覆蓋率,還是平均運算時間來看,De-ISEE方法都比De-Glasso方法有效。
將De-ISEE方法運用于實際網(wǎng)絡數(shù)據(jù),選用2個實際數(shù)據(jù)集,分別運用De-ISEE及De-Glasso方法來恢復網(wǎng)絡數(shù)據(jù)間的聯(lián)系。網(wǎng)絡數(shù)據(jù)間的聯(lián)系形成圖模型,本節(jié)的目標是分別運用2種方法計算圖模型精度矩陣的置信區(qū)間,比較它們恢復圖模型的邊以及各自運行時間。第1個數(shù)據(jù)集是由枯草芽孢桿菌產(chǎn)生的核黃素(維生素B2)數(shù)據(jù)集,可在hdi R包中獲得。第2個數(shù)據(jù)集是前列腺腫瘤基因表達數(shù)據(jù)集(prostate tumor gene expression),它來自于spls R包。
對于這2個數(shù)據(jù)集,為了更方便地分析,選擇前500個方差最大的變量進行建模。隨后分離樣本,用10個隨機選擇的觀察值來估計500個變量的方差。再次利用估計的方差縮放剩余觀察值的設計矩陣。在實例分析中,當計算De-ISEE統(tǒng)計量時,調(diào)優(yōu)參數(shù)λ選用Fan和L[15]提出的λ=B/(n-1+B2)1/2,這里B定義為B=tq(1-n1/2/(2plogp),n-1),tq(a,m)為自由度為m、下分位數(shù)為α的t分布。在計算De-Glasso統(tǒng)計量時,與仿真實驗同理,選用5折交叉驗證選擇調(diào)節(jié)參數(shù)。顯著性水平都設為α=0.05。
第2個數(shù)據(jù)集包含n=102個樣本觀察值以及p=6 033個變量。本節(jié)分別使用De-ISEE方法與De-Glasso方法計算置信區(qū)間以此來識別邊。通過De-ISEE方法可識別出121條邊為顯著的,它的CPU運行時間為1.994 s。De-Glasso方法識別出28條邊為顯著的,它的CPU運行時間為4.013 s。通過對比再次發(fā)現(xiàn),由De-Glasso統(tǒng)計量識別的邊是De-ISEE識別邊的子集。且De-ISEE方法的計算速度比De-Glasso方法快。
這樣的結(jié)論與仿真實驗類似,De-Glasso方法識別出的邊集更稀疏,容易遺漏個體間的聯(lián)系。而De-ISEE方法估計的邊集基本涵蓋真實邊集。在個體數(shù)量逐漸增加的網(wǎng)絡數(shù)據(jù)中,個體與個體之間的聯(lián)系廣泛而又稀疏,通過De-ISEE方法發(fā)現(xiàn)個體之間潛在的聯(lián)系可以幫助研究者從龐大的數(shù)據(jù)信息中發(fā)現(xiàn)有用信息,進而有針對性地進行分析。在第2個數(shù)據(jù)集中,De-ISEE方法還可以作為分析人類基因的補充工具。
本文提出De-ISEE統(tǒng)計量,并且對其進行了仿真實驗以及實例分析。與其他方法相比,由于ISEE點估計具有可伸縮、易調(diào)優(yōu)等優(yōu)點,De-ISEE統(tǒng)計量得出的平均覆蓋率更接近于真實覆蓋率,且計算更為快速,可以處理超高維矩陣。這對挖掘高維網(wǎng)絡數(shù)據(jù)間的聯(lián)系具有很重要的作用。例如在實例分析中分析的核黃素數(shù)據(jù)集以及前列腺腫瘤基因表達數(shù)據(jù)集,De-ISEE統(tǒng)計量可以精確恢復變量間的聯(lián)系,從廣泛的信息網(wǎng)中幫助研究者提取重要信息,也可作為研究人類基因聯(lián)系的補充工具。
本文給出了De-ISEE統(tǒng)計量的實用價值,還尚需要一定的理論支撐,這將會是接下來研究的問題。此外,對圖模型構(gòu)建同時置信區(qū)間也將是我們進一步研究的問題。