基于ADMM算法的網(wǎng)絡(luò)連接數(shù)據(jù)變量選擇①

2022-02-15 06:39方佳佳鄭澤敏

計(jì)算機(jī)系統(tǒng)應(yīng)用 2022年1期

方佳佳,李陽,鄭澤敏

(中國科學(xué)技術(shù)大學(xué) 管理學(xué)院統(tǒng)計(jì)與金融系,合肥 230026)

隨著科學(xué)技術(shù)的進(jìn)步,不同領(lǐng)域的數(shù)據(jù)都呈現(xiàn)出網(wǎng)絡(luò)連接的趨勢,許多科學(xué)領(lǐng)域都涉及某種形式的網(wǎng)絡(luò)研究,例如人際關(guān)系研究、學(xué)術(shù)論文合著和引用、蛋白質(zhì)相互作用模式等.20年前,關(guān)于網(wǎng)絡(luò)的流行書籍及其研究開始出現(xiàn)[1],而像Facebook、MySpace和LinkedIn 這樣的在線網(wǎng)絡(luò)社區(qū)在近10年間也是蓬勃興起,這更加增強(qiáng)了人們對網(wǎng)絡(luò)數(shù)據(jù)的研究興趣.網(wǎng)絡(luò)連接數(shù)據(jù)由節(jié)點(diǎn)和邊組成,社交網(wǎng)絡(luò)是此類網(wǎng)絡(luò)模型的一個(gè)典型代表.社交網(wǎng)絡(luò)中,每個(gè)節(jié)點(diǎn)代表一個(gè)人,邊代表人與人之間的溝通交流,此外,還有商業(yè)網(wǎng)絡(luò)、基因網(wǎng)絡(luò)等.

目前關(guān)于網(wǎng)絡(luò)連接數(shù)據(jù)的研究主要分為兩個(gè)方面.一方面是關(guān)于網(wǎng)絡(luò)結(jié)構(gòu)的研究.另一方面主要是將網(wǎng)絡(luò)連接數(shù)據(jù)中的結(jié)構(gòu)信息與統(tǒng)計(jì)學(xué)習(xí)中常用的經(jīng)典模型結(jié)合起來研究.

在網(wǎng)絡(luò)結(jié)構(gòu)方面,最早被應(yīng)用于社區(qū)檢測.社區(qū)檢測興起于物理學(xué)和計(jì)算機(jī)科學(xué)領(lǐng)域,而后開始應(yīng)用于統(tǒng)計(jì)領(lǐng)域.其中一類社區(qū)檢測算法是通過在節(jié)點(diǎn)的所有可能分區(qū)上優(yōu)化啟發(fā)式全局準(zhǔn)則來檢測社區(qū)[2,3].基于概率模型的方法[4,5]是另一類社區(qū)檢測算法.一些學(xué)者從觀察到的鄰接矩陣中檢測社區(qū)或潛在結(jié)構(gòu)[6–8],從其他節(jié)點(diǎn)之間的信息估計(jì)特定節(jié)點(diǎn)之間的邊緣概率[9].社交網(wǎng)絡(luò)是此類網(wǎng)絡(luò)模型的代表,因此針對社交網(wǎng)絡(luò)的研究也受到了大量的關(guān)注[10,11].

在與經(jīng)典模型結(jié)合方面,一般是與常用的模型相結(jié)合.例如,時(shí)間序列模型[12],線性模型[13],變系數(shù)模型[14],隨機(jī)效應(yīng)模型[15],變化點(diǎn)檢測問題[16],自回歸模型[17,18]等.

線性回歸模型是統(tǒng)計(jì)學(xué)習(xí)中的經(jīng)典模型之一,應(yīng)用十分廣泛,關(guān)于網(wǎng)絡(luò)數(shù)據(jù)的回歸模型也開始引起學(xué)者的關(guān)注.例如,Asur 等[19]將網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用于預(yù)測模型,通過研究網(wǎng)絡(luò)結(jié)構(gòu)來預(yù)測現(xiàn)實(shí)生活中某一現(xiàn)象的結(jié)果.Li 等[13]將網(wǎng)絡(luò)連接數(shù)據(jù)應(yīng)用于回歸預(yù)測模型,Zhu 等[17]和Tang 等[18]將網(wǎng)絡(luò)連接數(shù)據(jù)與自回歸模型相結(jié)合,都表明網(wǎng)絡(luò)連接數(shù)據(jù)在回歸模型中的研究價(jià)值.隨著科技的發(fā)展,數(shù)據(jù)的采集變得更加容易,高維數(shù)據(jù)也越來越受到研究學(xué)者的關(guān)注,但是高維數(shù)據(jù)中存在大量的冗余信息,如何選出有研究價(jià)值的數(shù)據(jù)？變量選擇領(lǐng)域應(yīng)運(yùn)而生.故將網(wǎng)絡(luò)連接數(shù)據(jù)應(yīng)用到變量選擇領(lǐng)域是一個(gè)值得研究的課題.

對于線性回歸模型,超高的維度使得傳統(tǒng)的普通最小二乘法不再適用.正則化是稀疏建模和變量選擇的有效方法,通過在目標(biāo)函數(shù)上添加懲罰函數(shù)來降低模型的復(fù)雜度.根據(jù)懲罰函數(shù)的不同,正則化方法一般可以分為凸正則化和非凸正則化.

凸正則化方法主要包括嶺回歸、LASSO、彈性網(wǎng)以及Dantzig Selector 等.雖然凸正則化的研究已經(jīng)很成熟,但由于懲罰函數(shù)的凸性,使得凸正則化估計(jì)量都是有偏的.Zhang 提出了一個(gè)非凸正則化方法—SCAD(smoothly clipped absolute deviation)[20],并證明了其Oracle 性質(zhì).非凸懲罰函數(shù)回歸的漸進(jìn)無偏估計(jì),能進(jìn)一步降低模型的預(yù)測總誤差.此后,非凸懲罰受到了廣泛的關(guān)注,例如MCP (minimax concave penalty)[21]、限制Capped-L1[22]、Hard 閾值懲罰[23]等.

關(guān)于網(wǎng)絡(luò)連接數(shù)據(jù)的變量選擇問題近年來也有學(xué)者做過相關(guān)研究[24,25].例如Li 等[24]和Kim 等[25]考慮樣本系數(shù)之間的網(wǎng)絡(luò)凝聚效應(yīng),即網(wǎng)絡(luò)中連接節(jié)點(diǎn)表現(xiàn)出相似的行為,對系數(shù)同時(shí)施加了L1懲罰和凝聚效應(yīng)懲罰 βTLβ,從而能夠解決網(wǎng)絡(luò)連接數(shù)據(jù)的變量選擇問題,但他們針對的是同質(zhì)性網(wǎng)絡(luò)連接數(shù)據(jù),即假設(shè)每個(gè)樣本的個(gè)體效應(yīng)值 α 相同,并沒有考慮到異質(zhì)性,異質(zhì)性是指不同樣本的個(gè)體效應(yīng) α 不同.在現(xiàn)實(shí)生活中,因?yàn)榫W(wǎng)絡(luò)凝聚效應(yīng)的存在而使得網(wǎng)絡(luò)中的樣本存在群組效應(yīng),聯(lián)系密切的樣本組成一個(gè)群組,他們之間的行為會(huì)相互影響而慢慢趨同.針對線性回歸模型,這種群組效應(yīng)的一個(gè)直觀體現(xiàn)就是群組內(nèi)樣本的個(gè)體效應(yīng)α相同,不同群組間個(gè)體效應(yīng) α 不同.若忽略群組間個(gè)體效應(yīng)的差異性,將所有樣本的個(gè)體效應(yīng)視為相同,在進(jìn)行變量選擇和預(yù)測估計(jì)時(shí)都會(huì)產(chǎn)生較大偏差,影響模型精度.故考慮異質(zhì)性,能夠提高模型精度.因此,針對異質(zhì)性網(wǎng)絡(luò)連接數(shù)據(jù)的研究具有重要的價(jià)值和實(shí)際意義.Li 等[13]考慮到個(gè)體效應(yīng)之間的異質(zhì)性,并懲罰相連樣本個(gè)體效應(yīng)的差異性,提高了回歸模型中估計(jì)和預(yù)測的精度,但他主要關(guān)注的是預(yù)測問題,沒有涉及到變量選擇.

本文的目標(biāo)是對因網(wǎng)絡(luò)凝聚效應(yīng)而產(chǎn)生個(gè)體效應(yīng)的組異質(zhì)性的網(wǎng)絡(luò)連接數(shù)據(jù)進(jìn)行變量選擇,我們對組內(nèi)樣本間個(gè)體效應(yīng)的差異性Lα和變量系數(shù) β 進(jìn)行聯(lián)合懲罰,從而保證組內(nèi)樣本的個(gè)體效應(yīng)具有相同的估計(jì)值.本文提出的方法不僅能夠處理含有組異質(zhì)性的網(wǎng)絡(luò)連接數(shù)據(jù)的變量選擇問題,而且能夠改善變量選擇、估計(jì)和預(yù)測的結(jié)果.在本文中,我們主要使用L1、MCP和SCAD 罰函數(shù),并且運(yùn)用ADMM 算法進(jìn)行求解,同時(shí)證明了算法的收斂性.

1 網(wǎng)絡(luò)連接數(shù)據(jù)的變量選擇方法

1.1 模型設(shè)定

本文中所有的向量都是列向量.考慮一般的線性回歸模型,Y=(y1,y2,···,yn)T是n維響應(yīng)變量,X=(x1,x2,···,xn)T是n×p設(shè)計(jì)矩陣.假設(shè)X是固定的且其列已經(jīng)標(biāo)準(zhǔn)化.樣本X的結(jié)構(gòu)網(wǎng)絡(luò)為G=(V,E),其中V={1,2,···,n}為樣本節(jié)點(diǎn)集合,E?V×V為邊的集合.我們用鄰接矩陣A=(Auv)n×n∈Rn×n表示該網(wǎng)絡(luò)以及樣本節(jié)點(diǎn)和節(jié)點(diǎn)之間的連接關(guān)系,若 (u,v)∈E,則Auv=1,否則為0.Auu=0,Auv=Avu.網(wǎng)絡(luò)G的拉普拉斯矩陣L=D-A,D=diag(d1,d2,···,dn)為度矩陣,D的對角線元素為每個(gè)節(jié)點(diǎn)的度du=建立如下線性回歸模型:

其中,α=(α1,α2,···,αn)T是節(jié)點(diǎn)個(gè)體效應(yīng)向量.假設(shè)相連樣本的個(gè)體效應(yīng)相等,不相連樣本的個(gè)體效應(yīng)不等,即樣本之間存在組異質(zhì)性.β=(β1,β2,···,βp)T是模型的回歸系數(shù)向量.ε=(ε1,ε2,···,εn)T是n維誤差向量,E(ε)=0,var(ε)=σ2In.

Li 等[13]提出了網(wǎng)絡(luò)連接數(shù)據(jù)的預(yù)測方法(the regression with network cohesion,RNC),其主要思想是最小化如下?lián)p失函數(shù):

其中,μ>0是調(diào)整參數(shù).RNC 主要是懲罰網(wǎng)絡(luò)中相連節(jié)點(diǎn)個(gè)體效應(yīng)的差異性,該懲罰可以推導(dǎo)出一個(gè)等價(jià)的、更直觀的形式 αTLα=

1.2 組異質(zhì)性網(wǎng)絡(luò)連接數(shù)據(jù)的變量選擇方法(SNC)

RNC中假設(shè)各樣本的個(gè)體效應(yīng)不相等,懲罰項(xiàng)μαTLα用來懲罰相連樣本個(gè)體效應(yīng)的差異性,從而能夠處理異質(zhì)性網(wǎng)絡(luò)連接數(shù)據(jù)的回歸預(yù)測問題.但是由于連接網(wǎng)絡(luò)中的個(gè)體常常存在群組效應(yīng),同一個(gè)群組中行為特征存在統(tǒng)一準(zhǔn)則而基本相同.因此,在本文中我們假設(shè)樣本之間存在組異質(zhì)性,即組內(nèi)樣本(相連樣本)的個(gè)體效應(yīng)相等,組間樣本(不相連樣本)的個(gè)體效應(yīng)不相等.通過對Lα 施加懲罰,懲罰組內(nèi)樣本個(gè)體效應(yīng)的差異性并壓縮至0,Lα中的元素是(αu-αv)(u,v)∈E或其等價(jià)形式.為了產(chǎn)生 β的一個(gè)稀疏估計(jì),我們將同時(shí)懲罰 β和Lα,這就是我們提出的方法—網(wǎng)絡(luò)連接數(shù)據(jù)的變量選擇(variable selection with network cohesion,SNC).

令 θ=(βT,αT)T,H=則Hθ=SNC的目標(biāo)函數(shù)為:

在本文中,對Hθ的懲罰主要使用L1和非凸懲罰,非凸懲罰包括MCP和SCAD 罰函數(shù).MCP 罰函數(shù)為罰函數(shù)為pS(t,λ)

將SNC 方法的估計(jì)結(jié)果與沒有對節(jié)點(diǎn)個(gè)體效應(yīng)的差異進(jìn)行懲罰的情況下進(jìn)行對比,能夠提高估計(jì)和預(yù)測的精度.

2 算法

直接最小化目標(biāo)函數(shù)(3)很難求解出估計(jì)量的值,因?yàn)閼土P函數(shù)對于每個(gè) αi是不可分的.因此,我們通過引入一組新的參數(shù) γ=Hθ 來重新參數(shù)化準(zhǔn)則.最小化式(3)等價(jià)于最小化如下約束優(yōu)化問題:

基于文獻(xiàn)[26]中的思路,利用增廣拉格朗日方法,通過最小化如下?lián)p失函數(shù)得到參數(shù)的估計(jì):

其中,對偶變量 φ是拉格朗日乘數(shù),ρ >0是懲罰因子.我們通過交替方向乘子法(alternating direction multiplier method,ADMM)來迭代求解 (θ,γ,φ)的估計(jì).對于給定的(θ,γ,φ),L(θ,γ,φ) 關(guān)于 γ的最小值是唯一的,并且在L1懲罰或非凸懲罰下有一個(gè)近似的形式.當(dāng)給定 (θ,γ,φ),上述最小化問題等價(jià)于:

其中,τ=Hθ+ρ-1φ,故在L1或非凸懲罰下估計(jì)量的近似的形式為:

其中,S T(t,λ)=sign(t)(|t|-λ)+是soft 閾值準(zhǔn)則,(x)+=x,x>0,否則 (x)+=0.

對于MCP 罰函數(shù) (a>1/ρ),

對于SCAD 罰函數(shù) (a>1/ρ+1),

算法步驟如算法1.

算法1.ADMM 算法輸入:預(yù)測變量,響應(yīng)變量,鄰接矩陣,懲罰因子,停止準(zhǔn)則 ;X Y A ρ η^θ,^γ,^φ輸出:;目標(biāo):迭代求解獲得和.θ(0),γ(0)=Hθ(0),φ(0)=0,m=0,η=0.03.初始化θ,γ φ While,do m≥0 θ(m+1)=[n-1(X,I)T(X,I)+ρHTH]-1*[n-1(X,I)TY+ρHTγ(m)-HTφ(m)];γ(m+1)=S T(τ(m+1),λ/ρ);φ(m+1)=φ(m)+ρ(Hθ(m+1)-γ(m+1)).r(m+1)=Hθ(m+1)-γ(m+1)||r(m+1)||<η If,then(^θ,^γ,^φ)=(θ(m+1),γ(m+1),φ(m+1));Break;Else m=m+1;End End

對ADMM 算法過程中的原始變量進(jìn)行追蹤,r(m+1)=Hθ(m+1)-γ(m+1).停止準(zhǔn)則為||r(m+1)||<η,其中η>0為一個(gè)非常小的常數(shù).

下面考慮ADMM 算法的收斂性.

命題1.對于MCP和SCAD 函數(shù),ADMM 算法的原始?xì)埐顁(m)=Hθ(m)-γ(m)和對偶?xì)埐顂(m+1)=ρHT(r(m+1)-r(m)) 滿足

命題1 表明該算法實(shí)現(xiàn)了原可行性和對偶可行性,證明材料見附錄.因此,它收斂于一個(gè)局部最優(yōu)點(diǎn).當(dāng)采用非凸懲罰函數(shù),如MCP和SCAD 罰函數(shù)時(shí),此最優(yōu)點(diǎn)是目標(biāo)函數(shù)的局部最優(yōu)解.綜上,算法收斂性和穩(wěn)定性得到證明.因?yàn)棣?m)=((β(m))T,(α(m))T)T是不稀疏的,但我們已證明Hθ(m)=((β(m))T,(Lα(m))T)T是收斂于γ(m),故我們令 γ(m)的前p項(xiàng)作為β的估計(jì)值,即可得到β的稀疏解.

3 數(shù)值模擬

在數(shù)值模擬中,主要比較本文提出的SNC 方法和沒有對個(gè)體節(jié)點(diǎn)效應(yīng)的差異性進(jìn)行懲罰的LASSO、MCP、SCAD 方法在變量選擇和預(yù)測方面的效果.網(wǎng)絡(luò)凝聚效應(yīng)下的變量選擇方法就是考慮了樣本之間的連接關(guān)系網(wǎng)絡(luò)的方法,即我們的SNC 方法.無網(wǎng)絡(luò)凝聚效應(yīng)下的變量選擇方法,就是不考慮樣本之間的連接網(wǎng)絡(luò)的懲罰方法.在這里,我們首先定義幾個(gè)效果評估指標(biāo):

(1)預(yù)測損失(prediction error,PE):E(XTβ0+α0-

(2)Lq損失:

(4)假陽性數(shù)(false positives,FP):真實(shí)為反例卻被預(yù)測為正例的個(gè)數(shù);

(5)假陰性數(shù)(false negatives,FN):真實(shí)為正例卻被預(yù)測為反例的個(gè)數(shù);

(6)真陽性數(shù)(true positives,TP):真實(shí)為正例預(yù)測也為正例的個(gè)數(shù);

(7)真陰性數(shù)(true negatives,TN):真實(shí)為反例預(yù)測也為反例的個(gè)數(shù);

(8)F1-score:2TP/(2TP+FP+FN).

3.1 模擬1

對于式(1)中的線性回歸模型,我們從該模型中隨機(jī)生成100 個(gè)數(shù)據(jù)集.訓(xùn)練樣本的大小考慮兩種情況(n,p)=(100,200)和(n,p)=(100,500),設(shè)計(jì)矩陣X中的每一行從正態(tài)分布N(0,Σ),Σ=(0.5|i-j|)1≤i,j≤p中隨機(jī)抽樣.真實(shí)回歸系數(shù)為隨機(jī)誤差 ε的標(biāo)準(zhǔn)差.懲罰因子 ρ=1,λ 用交叉驗(yàn)證來選取,停止條件 η=0.03.

為了生成含有組異質(zhì)性樣本間的鄰接矩陣A,我們用ER 隨機(jī)圖模型生成一個(gè)包含n=100 個(gè)節(jié)點(diǎn)的樣本網(wǎng)絡(luò),樣本網(wǎng)絡(luò)由4 個(gè)不相連的部分G1,G2,G3,G4組成,每個(gè)部分包含25 個(gè)節(jié)點(diǎn).每個(gè)單獨(dú)的部分都是一個(gè)ER 隨機(jī)圖,節(jié)點(diǎn)與節(jié)點(diǎn)之間以pb的概率生成邊,即Aij=1,否則為0,令pb=0.1.4 個(gè)部分中相連樣本的個(gè)體節(jié)點(diǎn)效應(yīng) αi的值分別為1,-1,0.5,-0.5,獨(dú)立樣本的個(gè)體節(jié)點(diǎn)效應(yīng)為0.3.

表1展示了兩種方法在預(yù)測評估指標(biāo)上的結(jié)果對比.與沒有利用相連節(jié)點(diǎn)的網(wǎng)絡(luò)凝聚效應(yīng)對個(gè)體效應(yīng)進(jìn)行懲罰的LASSO、MCP和SCAD 結(jié)果相比,SNCLASSO、SNC-MCP和SNC-SCAD 都明顯改善了估計(jì)和預(yù)測誤差.這表明將網(wǎng)絡(luò)凝聚效應(yīng)加入變量選擇模型中,可以改善模型變量選擇、估計(jì)和預(yù)測的精度.

表1 不同方法下預(yù)測評估指標(biāo)結(jié)果

表2展示了兩種方法在100 次模擬實(shí)驗(yàn)下變量選擇評估指標(biāo)結(jié)果.我們可以看出各項(xiàng)指標(biāo)下,SNC 方法的變量選擇效果都明顯優(yōu)于沒有利用網(wǎng)絡(luò)凝聚效應(yīng)進(jìn)行懲罰的方法.另外,SNC-MCP和SNC-SCAD 都要優(yōu)于SNC-LASSO.尤其對于假陽性數(shù)FP,100 次模擬中,SNC-LASSO的FP 平均為15.41 (p=200)和17.21 (p=500),而SNC-MCP 分別為0.05 (p=200)和0.3 (p=500),SNC-SCAD 分別為1.06 (p=200)和0.2 (p=500),MCP和SCAD 變量選擇的準(zhǔn)確性比LASSO 顯著提高,主要是由于LASSO的有偏性.

表2 不同方法下變量選擇評估指標(biāo)結(jié)果

3.2 模擬2

模擬1中的結(jié)果表明網(wǎng)絡(luò)凝聚效應(yīng)懲罰能夠改善變量選擇、估計(jì)和預(yù)測效果,網(wǎng)絡(luò)凝聚效應(yīng)主要與鄰接矩陣中個(gè)體之間產(chǎn)生聯(lián)系的概率pb有關(guān),接下來我們將研究pb對SNC 方法的變量選擇、估計(jì)和預(yù)測效果的影響.模型2中的設(shè)定與模型1 類似,不同的是我們?nèi)b=seq(0,0.02,0.2),R 語言函數(shù)seq(a,b,c)用于生成一組從a到b,間隔為c的序列.

圖1和圖2分別展示了pb對預(yù)測和變量選擇效果的影響.從圖1可以看出,隨著pb的增大,即網(wǎng)絡(luò)的凝聚效應(yīng)增強(qiáng),SNC 方法能夠明顯降低預(yù)測損失,并在pb=0.08 附近趨于穩(wěn)定.圖2表示pb對F1分?jǐn)?shù)的影響,F1分?jǐn)?shù)是查準(zhǔn)率和查全率的調(diào)和平均數(shù),當(dāng)pb=0 即樣本之間沒有連接關(guān)系時(shí),F1分?jǐn)?shù)值很低.隨著pb的增大,F1分?jǐn)?shù)值逐漸增大,同樣地,在pb=0.08 附近達(dá)到最大值,此時(shí)SNC 方法變量選擇的效果較好.

圖1 pb 對預(yù)測損失的影響

圖2 pb 對F1-score的影響

4 實(shí)際數(shù)據(jù)分析

我們研究的真實(shí)數(shù)據(jù)案例來自于Teenagers Friends and Lifestyle Study[27].這項(xiàng)研究主要是青少年友誼網(wǎng)對他們自身某些行為的影響.該實(shí)際數(shù)據(jù)與本文中的模型設(shè)定保持一致,因青少年時(shí)期學(xué)生喜愛團(tuán)體活動(dòng),故凝聚效應(yīng)使得網(wǎng)絡(luò)之間存在組異質(zhì)性.

Teenagers Friends and Lifestyle Study 旨在確定在青少年早期到中期不良習(xí)性的變化過程.實(shí)驗(yàn)記錄了3 個(gè)時(shí)間點(diǎn) (T1,T2,T3)的數(shù)據(jù).樣本來自于160 名學(xué)生,通過每個(gè)學(xué)生及學(xué)生之間的朋友(最多6 個(gè))關(guān)系來建立友誼網(wǎng)絡(luò).研究給出了3 個(gè)時(shí)期的友誼網(wǎng)絡(luò),網(wǎng)絡(luò)中“1”表示“best friend”,“2”表示“just a friend”,“0”表示“no friend”,“10”表示缺失值,我們根據(jù)學(xué)生之間的友誼網(wǎng)絡(luò)來獲取鄰接矩陣A.

本文使用的數(shù)據(jù)集X包含160 個(gè)樣本,40 個(gè)特征變量包括青少年的年齡、性別、生活方式、休閑活動(dòng)以及家庭成員吸煙等情況,考慮特征之間的交互作用,最終特征變量為250 個(gè).我們的目標(biāo)是利用友誼網(wǎng)絡(luò)找出影響青少年不良習(xí)性的關(guān)鍵因素,并預(yù)測青少年自身不良行為的活動(dòng)頻率.我們分別選取alcohol、tobacco和cannabis 作為響應(yīng)變量Y,對于tobacco,元素1 表示從未抽過煙,2 表示偶爾吸煙,3 表示經(jīng)常吸煙,故我們將其取對數(shù)作為響應(yīng)變量Y的值.

時(shí)間點(diǎn)T1的友誼網(wǎng)絡(luò)如圖3所示.我們只展示了學(xué)生之間的“best friendship”(包括“just a friend”和“best friend”).根據(jù)友誼網(wǎng)絡(luò)建立鄰接矩陣A時(shí),當(dāng)學(xué)生i和學(xué)生j為“best friend”,則Aij=Aji=1,否則Aij=1.

圖3 青少年友誼連接網(wǎng)絡(luò)

分別選取alcohol、tobacco和cannabis 作為響應(yīng)變量來研究影響青少年酗酒、吸煙和吸毒的因素.將樣本隨機(jī)分成兩份:訓(xùn)練集和測試集,重復(fù)實(shí)驗(yàn)100 次.由于不知道真實(shí)情況下的參數(shù)設(shè)定,無法像模擬實(shí)驗(yàn)中那樣對比假陰性數(shù)、假陽性數(shù)等指標(biāo).因此,主要從預(yù)測損失和變量選擇兩個(gè)方面來驗(yàn)證SNC 方法的有效性.

表3展示了SNC 方法SNC-LASSO、SNC-MCP、SNC-SCAD 與無網(wǎng)絡(luò)凝聚效應(yīng)下的變量選擇方法LASSO、MCP和SCAD 對青少年不良習(xí)性(酗酒、抽煙以及吸食大麻)的預(yù)測損失,從結(jié)果中可以看出SNC方法預(yù)測的相對更準(zhǔn)確一點(diǎn).青少年時(shí)期大家都是團(tuán)體活動(dòng),生活習(xí)慣很容易相互影響而慢慢趨同,而網(wǎng)絡(luò)凝聚效應(yīng)正是考慮了這一點(diǎn),團(tuán)體內(nèi)個(gè)體的表現(xiàn)行為更具相似性,懲罰團(tuán)體內(nèi)個(gè)體效應(yīng)的差異性,提高了個(gè)體效應(yīng)的預(yù)測精度,從而降低了整個(gè)模型的預(yù)測誤差.

表3 青少年不良習(xí)性的預(yù)測損失

為了使挑選出來的變量更具可解釋性,下面我們不考慮特征之間的交互作用,用SNC 方法和無網(wǎng)絡(luò)凝聚效應(yīng)下的變量選擇方法來挑選變量,并重復(fù)實(shí)驗(yàn)100 次,計(jì)算100 次實(shí)驗(yàn)下挑選出來的變量的比例.

表4中我們看到,LASSO、MCP和SCAD 挑選出更多的冗余變量.顯然,兩種方法下,特征變量parent smoking,sibling smoking,“I hang round in the streets”,“I play computer games”和“I go to dance clubs or raves”是最顯著的.青少年時(shí)期他們的世界觀、人生觀和價(jià)值觀還在形成階段,易受他人或團(tuán)體的影響,在街上閑逛、經(jīng)常打電腦游戲、參加俱樂部以及兄弟姐妹抽煙等行為都容易使青少年沾染上不良習(xí)性.通過研究分析,我們知道了青少年時(shí)期朋友以及家人行為的重要性,家人、朋友以及整個(gè)社會(huì)需要給青少年?duì)I造一個(gè)良好健康的成長環(huán)境,給他們樹立積極向上的榜樣.

表4 不同方法下挑選出的變量及其比例

針對各種方法挑選出來變量之后的模型進(jìn)行回歸,我們得到回歸后各變量系數(shù)的顯著性檢驗(yàn)以及調(diào)整可決系數(shù)R2和標(biāo)準(zhǔn)誤差如表5所示.

由表5可知,SNC 方法選取了sex.F、I hang out in the streets、I play computer games、money、parent.smoking和sibling.smoking 6 個(gè)變量,根據(jù)值可以看出這些變量都通過了顯著性檢驗(yàn).而LASSO、MCP和SCAD 方法選出了少許的冗余變量.另外,從表中的調(diào)整可決系數(shù)和標(biāo)準(zhǔn)誤差來看,SNC 方法的效果也是優(yōu)于沒有網(wǎng)絡(luò)凝聚效應(yīng)下的變量選擇方法.

表5 不同方法下挑選出變量的顯著性檢驗(yàn)

5 總結(jié)

本文主要對線性回歸模型中因網(wǎng)絡(luò)凝聚效應(yīng)而產(chǎn)生個(gè)體效應(yīng)的組異質(zhì)性的網(wǎng)絡(luò)連接數(shù)據(jù)進(jìn)行變量選擇,使用非凸懲罰MCP和SCAD 罰函數(shù)同時(shí)懲罰變量系數(shù) β和組內(nèi)樣本的個(gè)體效應(yīng)的差異性Lα,使得能夠?qū)薪M異質(zhì)性的網(wǎng)絡(luò)連接數(shù)據(jù)篩選出有用變量.

針對本文提出的方法,我們運(yùn)用ADMM 算法進(jìn)行求解,并證明了算法的收斂性.針對SNC 方法,本文進(jìn)行了相關(guān)模擬,從變量選擇和預(yù)測兩個(gè)方面來衡量該方法的效果.從實(shí)驗(yàn)結(jié)果來看,無論是預(yù)測損失還是變量選擇的準(zhǔn)確性都有明顯改善.實(shí)例分析中,我們將SNC 方法應(yīng)用于青少年友誼網(wǎng)絡(luò)和生活方式的研究,分析預(yù)測青少年吸煙等不良習(xí)性的活動(dòng)頻率以及挑選出影響青少年吸煙等不良習(xí)性的特征變量.

本文提出的方法,為含有組異質(zhì)性網(wǎng)絡(luò)連接數(shù)據(jù)的變量選擇問題提供了一種解決思路.我們將變量選擇方法進(jìn)一步拓展了應(yīng)用領(lǐng)域,對于基因網(wǎng)絡(luò)、交通網(wǎng)絡(luò)、公司網(wǎng)絡(luò)等網(wǎng)絡(luò)連接數(shù)據(jù),SNC 方法都能適用.

附錄A.命題1的證明

命題1 描述了算法的收斂性,下面我們開始證明.由 γ(m+1)的定義可知,對任意 γ: