蔡瑞初,白一鳴,喬 杰,郝志峰
(1.廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣州 510006;2.佛山科學(xué)技術(shù)學(xué)院數(shù)學(xué)與大數(shù)據(jù)學(xué)院,廣東佛山 528000)
近年來(lái),科學(xué)研究、工業(yè)生產(chǎn)等各領(lǐng)域積累的數(shù)據(jù)量迅速增長(zhǎng),其中蘊(yùn)含的研究?jī)r(jià)值和實(shí)用價(jià)值也得到了充分的重視和驗(yàn)證,因此,如何深度發(fā)掘這些海量數(shù)據(jù)中蘊(yùn)含的有價(jià)值的信息成為了一個(gè)研究熱點(diǎn)[1]。越來(lái)越多領(lǐng)域中的研究人員致力于從數(shù)據(jù)中獲得此前常規(guī)方法無(wú)法直接得到的新知識(shí),以推動(dòng)科學(xué)研究進(jìn)步或幫助決策者在工作中做出合理的判斷,其中,因果關(guān)系是研究人員最希望獲得的一類知識(shí)。一方面,因果關(guān)系表明了事物間如何相互影響的潛在作用機(jī)制,可以幫助研究事物的特性;另一方面,對(duì)于研究或工作中關(guān)心的事件,在了解了相關(guān)的因果關(guān)系知識(shí)后,就可以通過(guò)對(duì)原因進(jìn)行干預(yù)行動(dòng)來(lái)推動(dòng)結(jié)果向期望的方向發(fā)展[2]。
如何在數(shù)據(jù)中發(fā)掘因果關(guān)系,以及如何排除各種其他因素對(duì)發(fā)掘過(guò)程的干擾是一個(gè)困難的問(wèn)題。一種最常用的傳統(tǒng)因果關(guān)系發(fā)現(xiàn)方法是隨機(jī)控制實(shí)驗(yàn)(Randomized Controlled Trial,RCT),通過(guò)復(fù)雜的實(shí)驗(yàn)設(shè)計(jì)來(lái)對(duì)各個(gè)變量進(jìn)行干預(yù),根據(jù)干預(yù)造成的影響分析得到因果關(guān)系,同時(shí)盡可能地排除其他因素的干擾[2],但它的有效性相當(dāng)依賴于實(shí)驗(yàn)設(shè)計(jì)的合理性,更關(guān)鍵的是,RCT中必需的干預(yù)行動(dòng)在因果關(guān)系未知時(shí)并不總是可行的[3],在經(jīng)濟(jì)學(xué)等領(lǐng)域中干預(yù)的花費(fèi)是不可接受甚至不可能的,在醫(yī)學(xué)等領(lǐng)域中干預(yù)可能引發(fā)倫理問(wèn)題。在觀察數(shù)據(jù)上,尤其是非時(shí)序的觀察數(shù)據(jù)上進(jìn)行的因果關(guān)系發(fā)現(xiàn)方法避免了以上問(wèn)題[4]。這些方法通常基于對(duì)變量進(jìn)行獨(dú)立性檢測(cè)或利用數(shù)據(jù)產(chǎn)生機(jī)制的具體特性來(lái)進(jìn)行因果推斷。然而,對(duì)于同時(shí)受混淆因子影響的兩個(gè)變量,即使它們之間并不存在直接的因果連接,由于混淆因子引入的相關(guān)性很難與這兩個(gè)變量直接相連時(shí)的相關(guān)性區(qū)分開,也會(huì)被獨(dú)立性檢測(cè)方法判定為相關(guān)變量,并最終得到帶有錯(cuò)誤邊的因果網(wǎng)絡(luò)。如何檢測(cè)到混淆因子、消除這類錯(cuò)誤邊并最終得到正確的因果結(jié)構(gòu)是研究人員最關(guān)心的問(wèn)題之一。
為解決含隱變量的因果關(guān)系發(fā)現(xiàn)問(wèn)題,現(xiàn)有方法利用最大祖先圖[5]、量子信息不等式[6]等進(jìn)行隱變量檢測(cè),但這些方法提出時(shí)在連續(xù)數(shù)據(jù)上使用,并不保證能夠適用于離散數(shù)據(jù)。針對(duì)含混淆因子的離散數(shù)據(jù)的因果關(guān)系發(fā)現(xiàn)問(wèn)題,本文提出了一種基于混淆因子隱壓縮表示(Confounder Hidden Compact Representation,CHCR)模型[7]的因果推斷方法。首先,利用數(shù)據(jù)集構(gòu)建備選模型,為備選模型中的原因變量指定一種確定性映射,確保原因變量映射到一個(gè)具有更少可能取值數(shù)的中間隱狀態(tài),也就是對(duì)原因變量進(jìn)行隱壓縮表示;然后,根據(jù)數(shù)據(jù)和備選模型用貝葉斯信息準(zhǔn)則(Bayesian Information Criterion,BIC)計(jì)算其模型評(píng)分,不斷改動(dòng)模型并根據(jù)模型評(píng)分更新最佳模型直到收斂;最后,查看最佳模型中的壓縮情況,由于受混淆因子影響的兩個(gè)變量間不存在直接的因果連接,因此最佳模型中的壓縮情況將表明兩個(gè)變量間不存在隱壓縮表示,根據(jù)最佳模型中是否存在隱壓縮表示,可以分辨出正確的因果結(jié)構(gòu)。
在因果關(guān)系發(fā)現(xiàn)的研究工作中,一般用概率圖模型(Probability Graph Model,PGM)來(lái)表示變量間的因果關(guān)系,圖模型中的節(jié)點(diǎn)表示數(shù)據(jù)集中的變量,邊表示變量間的因果連接,這種圖模型又被稱為貝葉斯因果網(wǎng)絡(luò)[2]。通常假設(shè)數(shù)據(jù)中潛在的因果機(jī)制可以用一個(gè)有向無(wú)環(huán)圖表示,且各變量之間的條件獨(dú)立性可以根據(jù)是否d-分離判斷[2,4]。面向非時(shí)序觀察數(shù)據(jù)的因果關(guān)系發(fā)現(xiàn)方法由于實(shí)用性和避免了RCT 存在的問(wèn)題成為了近年來(lái)的研究熱點(diǎn),大量方法被提出以從數(shù)據(jù)中學(xué)習(xí)貝葉斯因果網(wǎng)絡(luò),其中,發(fā)展最快的大致可以分為基于約束(Constraint-based)的方法和基于因果函數(shù)(Causalfunction-based)的方法兩類。經(jīng)典的基于約束的方法有PC(Peter-Clark)算法[8]和IC(Inductive Causation)算法[9],主要將變量間的條件獨(dú)立性作為約束,根據(jù)約束確認(rèn)部分特殊結(jié)構(gòu)并刪除錯(cuò)誤的邊[2],但基于約束的方法不可避免地受到馬爾可夫等價(jià)類問(wèn)題的影響,多種不同結(jié)構(gòu)可能具有完全相同的條件獨(dú)立性[4],這些等價(jià)結(jié)構(gòu)不具有可分辨性?;谝蚬瘮?shù)的方法通?;诮Y(jié)構(gòu)方程模型和對(duì)產(chǎn)生數(shù)據(jù)的因果機(jī)制特性的假設(shè)進(jìn)行因果網(wǎng)絡(luò)的學(xué)習(xí)。經(jīng)典的基于因果函數(shù)的方法包括基于獨(dú)立成分分析算法和剪枝算法的線性非高斯無(wú)環(huán)模型(Linear Non-Gaussian Acyclic Model,LiNGAM)[10],基于原因變量與噪聲獨(dú)立的假設(shè)進(jìn)行因果方向判斷的加性噪聲模型(Additive Noise Model,ANM)[11]和基于信息熵的信息幾何因果推斷(Information-Geometric Causal Inference,IGCI)[12]。這些方法在符合各自假設(shè)的場(chǎng)景中能夠較好地學(xué)習(xí)因果網(wǎng)絡(luò),但難以拓展到其他場(chǎng)景下。文獻(xiàn)[13-14]將兩類方法結(jié)合起來(lái),將因果網(wǎng)絡(luò)分解為局部子網(wǎng)絡(luò),并使用因果函數(shù)模型學(xué)習(xí)局部網(wǎng)絡(luò)。文獻(xiàn)[15]提出了最大最小爬山(Max-Min Hill-Climbing,MMHC)算法,使用改進(jìn)后的PC 算法得到無(wú)向圖,再使用優(yōu)化后的爬山算法確定最終結(jié)構(gòu)。
以上經(jīng)典方法都是在連續(xù)數(shù)據(jù)中使用的,對(duì)離散數(shù)據(jù)通常并不適用,其主要原因是連續(xù)數(shù)據(jù)的許多性質(zhì)在離散數(shù)據(jù)中截然不同甚至不存在。文獻(xiàn)[16]將ANM 擴(kuò)展到了離散情況下,該模型假設(shè)變量的各個(gè)可能取值間存在序關(guān)系,但很多情況中并不存在有意義的序關(guān)系,也就是說(shuō),離散ANM 僅僅適用于定序(Ordinal)數(shù)據(jù)而不適用于定類(Nominal)數(shù)據(jù)。此外,離散ANM 并沒(méi)有定義一種較為通用和有意義的加法來(lái)描述離散情況下噪聲對(duì)數(shù)據(jù)的影響。針對(duì)這些問(wèn)題,文獻(xiàn)[7]提出了適用于分類數(shù)據(jù)的隱壓縮表示(Hidden Compact Representation,HCR)模型,由于分類數(shù)據(jù)中變量的可能取值常常不是按照因果機(jī)制劃分的,因此不同取值對(duì)于當(dāng)前因果關(guān)系來(lái)說(shuō)可能是等價(jià)的,可以按照因果機(jī)制對(duì)這些可能取值進(jìn)行劃分,HCR 模型將這種劃分抽象為一個(gè)隱藏的確定性映射階段,并證明了當(dāng)使用BIC 作為評(píng)分標(biāo)準(zhǔn)時(shí),由于壓縮映射后模型參數(shù)更少,正確的因果模型將具有更高的模型評(píng)分。因此,可以使用HCR模型來(lái)分辨離散變量間的因果方向。
當(dāng)數(shù)據(jù)對(duì)應(yīng)的因果結(jié)構(gòu)中存在混淆因子時(shí),可能因不滿足因果充分性假設(shè)[4]而學(xué)習(xí)到帶有錯(cuò)誤邊的因果網(wǎng)絡(luò)。近年來(lái),許多經(jīng)典方法的改進(jìn)版本被提出以檢測(cè)隱變量并消除錯(cuò)誤邊。針對(duì)基于約束的方法,結(jié)合PC 算法和最大祖先圖,文獻(xiàn)[5]提出了快速因果推斷(Fast Causal Inference,F(xiàn)CI)算法;文獻(xiàn)[17]在FCI算法的基礎(chǔ)上改進(jìn)得到極快因果推斷(Really Fast Causal Inference,RFCI)算法;文獻(xiàn)[18-19]利用工具不等式檢測(cè)是否存在隱變量。針對(duì)基于因果函數(shù)的方法,文獻(xiàn)[20]在LiNGAM 的基礎(chǔ)上提出了根據(jù)外生變量間是否獨(dú)立來(lái)檢測(cè)隱變量的ParceLiNGAM;文獻(xiàn)[21]提出了適用于線性非高斯情況下的lvLiNGAM(latent variable LiNGAM)。文獻(xiàn)[6,22]利用量子信息不等式,通過(guò)計(jì)算貝葉斯網(wǎng)絡(luò)的條件熵檢測(cè)隱變量。上述隱變量檢測(cè)方法在各自適用情況下都有較好性能,為在離散數(shù)據(jù)上的隱變量檢測(cè)方法提供了參考。
首先描述使用的變量,定義本文專注于解決的問(wèn)題并提出基于CHCR 模型的混淆因子隱壓縮表示因果推斷(Confounder Hidden Compact Representation Causal Inference,CHCRCI)方法。
在本文中,用Z表示混淆因子,X、Y表示數(shù)據(jù)集中包含的變量,|Z|表示變量的可能取值數(shù),G表示因果網(wǎng)絡(luò)對(duì)應(yīng)的圖模型,G:?表示該因果網(wǎng)絡(luò)圖中不存在因果連接,G:X←Z→Y中Z到X、Y的箭頭表示Z是X、Y的原因,在圖1中,實(shí)線包圍表示該變量存在于數(shù)據(jù)集中,虛線包圍表示該變量是不存在于數(shù)據(jù)集中的隱變量。
本文專注解決的因果推斷問(wèn)題如圖1所示,變量X和Y之間無(wú)直接的因果連接,且受混淆因子Z影響,根據(jù)d-分離[2],給定Z時(shí)X和Y是條件獨(dú)立的,不給定Z時(shí)X和Y是相關(guān)的。如果在符合這個(gè)結(jié)構(gòu)的數(shù)據(jù)上使用基于約束的方法,由于Z是不存在于數(shù)據(jù)集中的隱變量,給定數(shù)據(jù)集中的任何其他變量都無(wú)法使X和Y相互獨(dú)立,這意味著結(jié)果中將包含一條X和Y之間直接相連的錯(cuò)誤邊。
圖1 混淆因子隱壓縮表示模型示意圖Fig.1 Schematic diagram of confounder hidden compact representation model
在圖1 中,Z對(duì)X施加影響時(shí),首先確定性映射到中間隱狀態(tài)X'=f(Z),再由X'對(duì)X施加影響,其中f表示將Z的值與X'的值對(duì)應(yīng)起來(lái)的方式,如=f(Z1)=f(Z2)表示Z1和Z2將被映射到。由于Z中的一個(gè)值只能映射到X'里的至多一個(gè)值,因此|Z|≥|X'|。當(dāng)|Z|=|X'|時(shí),可以視為經(jīng)歷了映射X'=Z的特殊情況;當(dāng)|Z|>|X'|>1 時(shí),稱Z到X'的映射為壓縮映射,此時(shí)式(1)成立:
壓縮映射體現(xiàn)了離散變量取值的劃分方式與真實(shí)因果機(jī)制間的差距,因此僅僅在原因指向結(jié)果的正向模型中存在,從結(jié)果指向原因的反向模型中并不存在壓縮映射[7]。給定包含m條關(guān)于X和Y數(shù)據(jù)的數(shù)據(jù)集D=,本文提出的因果推斷方法的目標(biāo)是分辨出正確的因果結(jié)構(gòu)。也就是說(shuō),當(dāng)真實(shí)結(jié)構(gòu)含有混淆因子,如G:X←Z→Y時(shí),即使X和Y是相關(guān)的,在本文方法的輸出結(jié)果中,X和Y之間也沒(méi)有直接連接的邊。需要注意的是,由于無(wú)論是否壓縮,映射均可視為存在確定性映射,為表述簡(jiǎn)便,本文在不需要強(qiáng)調(diào)中間映射的地方將其省略,如G:X→Y與G:X→Y'→Y同義。此外,本文方法并不假設(shè)混淆因子必須存在,理論分析和實(shí)驗(yàn)結(jié)果表明,本文方法同樣適用于不含混淆因子的因果結(jié)構(gòu)。
CHCR 模型適用于原因變量經(jīng)過(guò)壓縮映射影響結(jié)果變量時(shí)。對(duì)于因果結(jié)構(gòu)G:X←X'←Z→Y'→Y,此時(shí)|Z|>|X'|、|Z|>|Y'|成立。由于X、Y之間并不存在直接的因果關(guān)系,通常情況下,它們之間并不存在壓縮映射,為排除極端情況,在CHCR模型中假設(shè)式(2)成立:
對(duì)Y也做類似假設(shè)后,可以得到用于分辨正確因果結(jié)構(gòu)的定理1。需要注意的是,即使在實(shí)驗(yàn)中并未去除極端情況,本文方法仍具有最高的準(zhǔn)確率,可見實(shí)際上該假設(shè)對(duì)本文方法有效性的影響可以忽略不計(jì)。
定理1給定數(shù)據(jù)集D=,學(xué)習(xí)得到最佳模型G:X→Y'→Y,其中Y'為壓縮映射,若|Y'|=1,則真實(shí)因果結(jié)構(gòu)為G:?;若|Y'|=|X|,則真實(shí)因果結(jié)構(gòu)為G:X←Z→Y;若1<|Y'|<|X|,則真實(shí)因果結(jié)構(gòu)為G:X→Y。
證明 當(dāng)|Y'|=1時(shí),根據(jù)d-分離,給定Y'時(shí)X和Y相互獨(dú)立,如果Y'只有一個(gè)取值,那么X和Y自然就是相互獨(dú)立的。從另一個(gè)角度來(lái)說(shuō),此時(shí)無(wú)論X取何值,由于X的所有可能取值映射到了同一個(gè)值上,對(duì)應(yīng)的Y分布不變,也就是說(shuō)X和Y相互獨(dú)立。
當(dāng)|Y'|=|X|時(shí),若真實(shí)因果結(jié)構(gòu)為G:X→Y,根據(jù)壓縮映射的定義,1<|Y'|<|X|成立,與|Y'|=|X|矛盾,因此X和Y之間不存在直接的因果連接。若真實(shí)結(jié)構(gòu)為G:?,則|Y'|=1。且當(dāng)真實(shí)因果結(jié)構(gòu)為G:X←Z→Y時(shí),對(duì)于X的任意兩個(gè)不同取值Xi≠Xj,有:
式(3)的推導(dǎo)基于條件概率公式,給定Z時(shí),X與Y相互獨(dú)立,且式(2)成立,從式(3)中可以看出X到Y(jié)間不存在壓縮映射,即|Y'|=|X|,因此,此時(shí)真實(shí)結(jié)構(gòu)只可能是G:X←Z→Y。
當(dāng)1<|Y'|<|X|時(shí),由于|Y'|≠1,真實(shí)結(jié)構(gòu)不是G:?,由于|Y'|≠|(zhì)X|,若真實(shí)因果結(jié)構(gòu)為G:X←Z→Y,則與式(3)不符。因此,真實(shí)結(jié)構(gòu)為G:X→Y。
根據(jù)定理1 可以提出混淆因子因果推斷算法CHCRCI。首先,在數(shù)據(jù)集上搜索得到評(píng)分最高的因果結(jié)構(gòu),如G:X→Y'→Y。通過(guò)檢查壓縮映射的情況,即|Y'|,可以分辨出正確的因果結(jié)構(gòu)。完整算法如算法1所示。
在算法1 中,為得到最佳模型,對(duì)當(dāng)前備選模型中的原因變量,嘗試各種將其映射到中間狀態(tài)的方式,更新模型直至無(wú)法取得更高的模型評(píng)分。在數(shù)據(jù)集上計(jì)算模型評(píng)分S=BIC(D,f,G)的公式如下:
式(4)中首先基于CHCR 模型得到似然度L(D,f,G)的表達(dá)式,其中,并說(shuō)明了給定數(shù)據(jù)集時(shí)如何用最大似然估計(jì)計(jì)算該表達(dá)式,nX為X=x時(shí)的頻數(shù)。式(5)利用BIC 評(píng)分的定義式得到最終的模型評(píng)分,其中d是整個(gè)模型的參數(shù)數(shù),m是數(shù)據(jù)集中的樣本數(shù)。選出模型評(píng)分最高的作為最佳模型后,在最佳模型上應(yīng)用定理1即可得到作為輸出結(jié)果的網(wǎng)絡(luò)結(jié)構(gòu)。需要注意的是,當(dāng)|f*|=|X|時(shí),這種無(wú)法壓縮可能由兩種不同情況導(dǎo)致:一種是最佳模型與真實(shí)模型方向相反,反向是不存在壓縮映射的;另一種是真實(shí)結(jié)構(gòu)為G:X←Z→Y,此時(shí)兩個(gè)方向都不存在壓縮映射;因此需要進(jìn)一步驗(yàn)證才能確定屬于哪一種情況。
算法1 使用BIC 作為備選模型的評(píng)分函數(shù),BIC 是具有一致性的評(píng)分準(zhǔn)則,即更符合數(shù)據(jù)分布且具有更少參數(shù)的模型將得到最高分?jǐn)?shù)[23],因此能夠幫助找到最佳結(jié)構(gòu)。在某些情況下,如X、Y之間的互信息很小時(shí),認(rèn)為二者間沒(méi)有邊的備選模型因?yàn)閰?shù)更少,可能會(huì)得到更高的BIC 評(píng)分。此時(shí),對(duì)于G1:X→Y'→Y和G2:?,以下計(jì)算式成立:
式(6)中不等號(hào)兩邊是BIC 評(píng)分的定義式,即似然度減去隨參數(shù)和數(shù)據(jù)量增加而增大的懲罰項(xiàng),m表示數(shù)據(jù)集的記錄數(shù)。式(7)到式(8)的變形與式(4)中類似,即消去經(jīng)驗(yàn)頻率。在式(8)中,似然度寫成由記錄數(shù)m與經(jīng)驗(yàn)頻率組成的形式。式(10)成立時(shí),使用BIC評(píng)分將輸出G:?,需要注意的是,本文提出的方法的目的并非恢復(fù)或消去隱變量,而僅僅是去除錯(cuò)誤的因果連接,得到可見變量間正確的因果結(jié)構(gòu)。從這個(gè)角度來(lái)說(shuō),G:?也應(yīng)被視為正確結(jié)果。因此,即使當(dāng)式(10)描述的特殊情況發(fā)生時(shí),本文方法所得到的因果結(jié)構(gòu)仍然是不存在錯(cuò)誤因果連接的正確結(jié)果。
首先使用生成的模擬數(shù)據(jù),以準(zhǔn)確率(Accuracy),即學(xué)習(xí)到正確因果結(jié)構(gòu)的次數(shù)占實(shí)驗(yàn)次數(shù)的比率,衡量所提出的因果推斷方法CHCRCI 的性能。選取了若干具有代表性且性能較好的方法作為對(duì)比,包括獨(dú)立性檢測(cè)方法希爾伯特-施密特獨(dú)立性準(zhǔn)則(Hilbert-Schmidt Independence Criterion,HSIC)[24]、混合型因果發(fā)現(xiàn)方法MMHC 和含有隱變量檢測(cè)的RFCI。在多組實(shí)驗(yàn)中分別測(cè)試了各方法在單一因果結(jié)構(gòu)或混合因果結(jié)構(gòu)上,隨樣本數(shù)、可能取值數(shù)或混合程度變化時(shí)的準(zhǔn)確率,并分析各組實(shí)驗(yàn)結(jié)果。其次,在真實(shí)數(shù)據(jù)集Abalone上使用本文方法進(jìn)行實(shí)驗(yàn)并分析實(shí)驗(yàn)結(jié)果。本文的模擬數(shù)據(jù)實(shí)驗(yàn)中,生成數(shù)據(jù)及運(yùn)用各方法的過(guò)程重復(fù)了1 000 次,以各方法得到正確結(jié)構(gòu)的次數(shù)占總次數(shù)的比率作為準(zhǔn)確率。
模擬數(shù)據(jù)的生成過(guò)程大致可以分為兩個(gè)階段:首先,在[5,15]內(nèi)等概率隨機(jī)選定X、Y、Z等各變量的可能取值數(shù),在[2,5]內(nèi)等概率隨機(jī)選定壓縮映射的可能取值數(shù),以標(biāo)準(zhǔn)正態(tài)分布采樣并經(jīng)過(guò)取絕對(duì)值、分別除以其總和的操作得到原因變量的概率分布,采樣得到原因變量的數(shù)據(jù)并壓縮映射到中間隱狀態(tài);其次,以與生成變量分布類似的方式隨機(jī)生成中間隱狀態(tài)到結(jié)果變量的轉(zhuǎn)移概率矩陣,并根據(jù)數(shù)據(jù)和轉(zhuǎn)移概率矩陣采樣得到結(jié)果變量的數(shù)據(jù)。不特別指出時(shí),以上參數(shù)為數(shù)據(jù)生成時(shí)的默認(rèn)參數(shù)。
為測(cè)試本文中所提方法在各種不同情況下的性能,設(shè)計(jì)并進(jìn)行了4組對(duì)比實(shí)驗(yàn)。
第1組實(shí)驗(yàn)測(cè)試在數(shù)據(jù)量變化時(shí),CHCRCI能否正確識(shí)別出存在混淆因子的因果結(jié)構(gòu),真實(shí)因果結(jié)構(gòu)均為G:X←Z→Y。在第1 組實(shí)驗(yàn)中,樣本數(shù)的變化范圍為[1000,1500,2 000,2 500,3 000],用于對(duì)比的方法包括HSIC和RFCI。
HSIC 是一種基于Hilbert-Schmidt范數(shù)的非參數(shù)獨(dú)立性度量準(zhǔn)則,通過(guò)在再生核希爾伯特空間上定義互協(xié)方差,計(jì)算得到度量獨(dú)立性的統(tǒng)計(jì)量,是一種高效準(zhǔn)確、被廣泛使用的獨(dú)立性檢測(cè)方法。由于本實(shí)驗(yàn)中可觀測(cè)變量只有兩個(gè),因此基于約束的方法基本可以等同為獨(dú)立性檢測(cè)方法,HSIC 的表現(xiàn)可以代表較為先進(jìn)的基于約束的方法。
RFCI 是一種可以在存在隱變量或選擇偏差時(shí)使用的因果推斷方法,RFCI 為基于FCI的改進(jìn),與FCI具有接近的效果且復(fù)雜度更低。RFCI在判斷因果結(jié)構(gòu)時(shí)更為謹(jǐn)慎,能夠較好地分辨出隱變量和選擇偏差帶來(lái)的影響,因此RFCI的表現(xiàn)可以代表含有隱變量檢測(cè)的因果發(fā)現(xiàn)方法。本實(shí)驗(yàn)中RFCI 的實(shí)現(xiàn)使用了R語(yǔ)言程序包pcalg[25]。
從圖2 中可以看出,由于混淆因子的影響導(dǎo)致可見變量間存在相關(guān)性,HSIC 始終不能很好地學(xué)習(xí)到正確的因果結(jié)構(gòu),事實(shí)上,隨著樣本量的增長(zhǎng),HSIC 的準(zhǔn)確率愈發(fā)接近于隨機(jī)猜測(cè);由于RFCI在存疑時(shí)更傾向于輸出不確定狀態(tài)而非認(rèn)為存在因果連接,因此在樣本數(shù)較少時(shí)也能夠輸出正確結(jié)果,但隨著樣本量增長(zhǎng),其準(zhǔn)確率同樣接近于隨機(jī)猜測(cè);如式(10)所示,CHCRCI 在樣本數(shù)較少時(shí)表現(xiàn)更好,但無(wú)論樣本數(shù)多少,CHCRCI 始終能夠較好地學(xué)習(xí)到正確的因果結(jié)構(gòu),且其準(zhǔn)確率明顯地高于對(duì)比方法。
圖2 三種方法在樣本數(shù)變化時(shí)的正確率比較Fig.2 Accuracy comparison of three methods when the number of sample changes
第2組實(shí)驗(yàn)是測(cè)試在變量可能取值數(shù)不同時(shí),CHCRCI的表現(xiàn)是否受到影響。在不同的領(lǐng)域中或分類方式不同時(shí),離散變量可能取值數(shù)可以有較大的差別,因此有必要測(cè)試本文方法是否能夠適應(yīng)這種差別。在生成數(shù)據(jù)的過(guò)程中,調(diào)整可能取值數(shù)隨機(jī)選擇范圍的上限,如從[5,8]中選定可能取值數(shù),以整體地改變可能取值數(shù)。在第2 組實(shí)驗(yàn)中,因果結(jié)構(gòu)均為G:X←Z→Y,樣本數(shù)固定為1 000,壓縮映射的可能取值數(shù)的隨機(jī)選擇范圍仍為[2,5]。選擇HSIC、RFCI 與本文方法進(jìn)行性能對(duì)比。
從圖3 中可以看出,可能取值數(shù)變化時(shí),RFCI 和HSIC 學(xué)習(xí)因果結(jié)構(gòu)的準(zhǔn)確率僅有小幅波動(dòng),CHCRCI 的準(zhǔn)確率則僅在可能取值數(shù)為5 時(shí)有極少下降,這是由于可能取值數(shù)過(guò)少導(dǎo)致壓縮的性質(zhì)不明顯。但整體來(lái)說(shuō),CHCRCI 仍然幾乎在每次實(shí)驗(yàn)中都正確分辨了因果結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果中準(zhǔn)確率曲線的穩(wěn)定一方面表明了CHCRCI 的有效性,另一方面表明了其他各組實(shí)驗(yàn)的結(jié)論也適用于不同可能取值數(shù)的情況。
圖3 三種方法在變量可能取值數(shù)不同時(shí)的正確率比較Fig.3 Accuracy comparison of three methods when the number of variable possible values changes
第3 組實(shí)驗(yàn)是測(cè)試CHCRCI 是否僅適用于混淆因子存在的結(jié)構(gòu),即本文方法是否具有泛用性。在生成數(shù)據(jù)時(shí),設(shè)定存在混淆因子的概率并隨機(jī)選擇結(jié)構(gòu)類型,該概率的選擇范圍為{0.2,0.4,0.6,0.8}。存在混淆因子時(shí),真實(shí)因果結(jié)構(gòu)為G:X←Z→Y;不存在混淆因子時(shí),真實(shí)因果結(jié)構(gòu)為G:X→Y。樣本數(shù)固定為1 000。由于HSIC 不能直接用于判斷因果方向,對(duì)比方法改為RFCI和MMHC。
MMHC是一種結(jié)合了基于約束的方法和基于評(píng)分的方法的因果發(fā)現(xiàn)方法,首先使用啟發(fā)式方法得到父子節(jié)點(diǎn)表,第二階段在父子節(jié)點(diǎn)表的基礎(chǔ)上使用加入模擬退火等優(yōu)化手段的爬山算法得到最終結(jié)果,由于第一階段極大減小了搜索空間,能夠較好地分辨出正確的因果結(jié)構(gòu)。本實(shí)驗(yàn)中MMHC 方法的實(shí)現(xiàn)使用了R語(yǔ)言程序包bnlearn[26]。
從圖4中可以看出,隨著存在混淆因子的概率增長(zhǎng),RFCI準(zhǔn)確率有一定提升,但始終接近于隨機(jī)猜測(cè),這是由于RFCI本質(zhì)上仍然屬于基于約束的方法,而基于約束的方法由于馬爾可夫等價(jià)類問(wèn)題,很多時(shí)候是無(wú)法分辨因果方向的,自然導(dǎo)致了無(wú)法正確分辨因果結(jié)構(gòu);MMHC 方法在存在混淆因子的概率較高時(shí),一定程度上能夠?qū)W習(xí)到正確因果結(jié)構(gòu),但隨著該概率的降低,準(zhǔn)確率也急劇降低,如在兩種結(jié)構(gòu)的出現(xiàn)概率接近時(shí),準(zhǔn)確率也接近于隨機(jī)猜測(cè);CHCRCI 則在存在混淆因子概率取各值時(shí),均能夠較好地分辨出正確的因果結(jié)構(gòu),且準(zhǔn)確率明顯優(yōu)于對(duì)比方法,表明CHCRCI 適用于更為一般的情況,具有泛用性。
圖4 三種方法在不同類型結(jié)構(gòu)混合時(shí)的正確率比較Fig.4 Accuracy comparison of three methods when mixing different types of structure
第4 組實(shí)驗(yàn)是在混合因果結(jié)構(gòu)上,測(cè)試樣本數(shù)不同時(shí)CHCRCI 的表現(xiàn)。為避免類別不平衡(Class-imbalance)問(wèn)題,真實(shí)因果結(jié)構(gòu)在G:X←Z→Y和G:X→Y中等概率地隨機(jī)選取,生成數(shù)據(jù)的數(shù)據(jù)量的變化范圍為[1000,1500,2 000,2 500,3 000],其他實(shí)驗(yàn)參數(shù)均為默認(rèn)值,對(duì)比方法為MMHC和RFCI。
從圖5 中可以看出,隨著樣本數(shù)的增長(zhǎng),CHCRCI、MMHC和RFCI三種方法的準(zhǔn)確率變化不大,MMHC 的準(zhǔn)確率有小幅上升,RFCI的準(zhǔn)確率有小幅下降,CHCRCI則始終能夠取得實(shí)驗(yàn)中最高的準(zhǔn)確率,且明顯高于其他兩個(gè)方法,表明了類別平衡時(shí)CHCRCI方法的有效性。
圖5 混合結(jié)構(gòu)中三種方法在樣本數(shù)不同時(shí)的正確率比較Fig.5 Accuracy comparison of three methods in mixed structure with different numbers of samples
總的來(lái)說(shuō),通過(guò)設(shè)計(jì)并測(cè)試CHCRCI 在樣本數(shù)、混淆因子出現(xiàn)概率、變量可能取值數(shù)等各種條件變化時(shí)的準(zhǔn)確率指標(biāo)的實(shí)驗(yàn),并與HSIC、RFCI、MMHC這三種具有代表性的經(jīng)典方法進(jìn)行對(duì)比可以看出,CHCRCI 在四組實(shí)驗(yàn)中分別設(shè)定的各種情況均能夠較好地分辨出正確的因果結(jié)構(gòu),本文方法的有效性和泛用性得到了驗(yàn)證。
UCI 數(shù)據(jù)集Abalone[27]常被用于檢驗(yàn)離散變量上的因果發(fā)現(xiàn)方法的性能,該數(shù)據(jù)集中包含4 177 條關(guān)于鮑魚的性別(Sex)、長(zhǎng)度(Length)、直徑(Diameter)、高度(Height)等屬性的數(shù)據(jù),通常認(rèn)為其性別是長(zhǎng)度、直徑、高度的原因[7,16,28],然而由于幼年鮑魚無(wú)法識(shí)別性別,其性別屬性中除雄性(Male,M)與雌性(Female,F(xiàn))外還包括了無(wú)法識(shí)別性別的幼年(Infant,I)。為研究其性別屬性與其他3 個(gè)屬性間的關(guān)系,去除性別屬性為I的無(wú)意義數(shù)據(jù)后,在新數(shù)據(jù)集上使用CHCRCI方法得到的結(jié)果如表1所示。
表1 使用CHCRCI與HSIC所得不同變量間因果關(guān)系結(jié)果的對(duì)比Tab.1 Comparison of results obtained by CHCRCI and HSIC between different variables
表1給出了對(duì)三組變量分別使用CHCRCI和HSIC方法所得到結(jié)果的對(duì)比,其中,壓縮情況|Sex|是使用CHCRCI 方法所得結(jié)果中中間映射的可能取值數(shù),使用HSIC方法所得結(jié)果中的P值表示該組變量是否相互獨(dú)立。從表1中可以看出,不同性別可以壓縮至唯一中間狀態(tài),根據(jù)定理1 和式(10),這意味著性別和其他變量間并不存在直接的因果連接,但可能存在混淆因子,對(duì)于這些可見變量間的因果關(guān)系來(lái)說(shuō),這兩種情況并沒(méi)有區(qū)別。性別屬性與其他屬性間不存在直接的因果關(guān)系這一結(jié)論看似與現(xiàn)有研究結(jié)果沖突,但這些研究中并未去除性別無(wú)法分辨的幼年鮑魚的數(shù)據(jù),不難推斷出存在混淆因子年齡,即年齡決定了是否可以分辨性別,也決定了長(zhǎng)度、直徑、高度等屬性。因此,本文方法所得結(jié)論與現(xiàn)有研究結(jié)果是可以相容的。作為對(duì)比,HSIC 所得結(jié)果表明各組變量是相關(guān)的,在許多方法中,這意味著將引入性別變量到其他變量的錯(cuò)誤的因果連接。
本文深入探究了存在混淆因子時(shí)的因果推斷方法的研究現(xiàn)狀,對(duì)含混淆因子的離散數(shù)據(jù)上的因果推斷進(jìn)行了理論分析,提出了一種基于混淆因子隱壓縮表示(CHCR)模型的因果發(fā)現(xiàn)方法。根據(jù)學(xué)習(xí)到的最佳模型中中間映射的可能取值數(shù),可以判斷數(shù)據(jù)集中的變量間是否存在直接的因果連接,避免了因混淆因子影響而導(dǎo)致出現(xiàn)的錯(cuò)誤連接。實(shí)驗(yàn)結(jié)果表明,在各種樣本數(shù)或不同類型結(jié)構(gòu)混合等多種情況下,本文所提的方法都能夠較好地學(xué)習(xí)到正確的因果結(jié)構(gòu),在準(zhǔn)確率指標(biāo)上明顯優(yōu)于對(duì)比方法,且在真實(shí)數(shù)據(jù)集Abalone上使用本文方法得到了變量間更為合理的因果關(guān)系。在未來(lái)的工作中,本文方法有待擴(kuò)展到節(jié)點(diǎn)數(shù)更多、結(jié)構(gòu)更復(fù)雜的因果結(jié)構(gòu)學(xué)習(xí)問(wèn)題中,或進(jìn)一步弱化當(dāng)前模型中存在的對(duì)于潛在因果機(jī)制的假設(shè)。