基于混淆因子隱壓縮表示模型的因果推斷方法

2021-11-05 01:28蔡瑞初白一鳴郝志峰

計(jì)算機(jī)應(yīng)用 2021年10期

蔡瑞初，白一鳴，喬杰，郝志峰

（1.廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院，廣州 510006；2.佛山科學(xué)技術(shù)學(xué)院數(shù)學(xué)與大數(shù)據(jù)學(xué)院，廣東佛山 528000）

0 引言

近年來(lái)，科學(xué)研究、工業(yè)生產(chǎn)等各領(lǐng)域積累的數(shù)據(jù)量迅速增長(zhǎng)，其中蘊(yùn)含的研究?jī)r(jià)值和實(shí)用價(jià)值也得到了充分的重視和驗(yàn)證，因此，如何深度發(fā)掘這些海量數(shù)據(jù)中蘊(yùn)含的有價(jià)值的信息成為了一個(gè)研究熱點(diǎn)［1］。越來(lái)越多領(lǐng)域中的研究人員致力于從數(shù)據(jù)中獲得此前常規(guī)方法無(wú)法直接得到的新知識(shí)，以推動(dòng)科學(xué)研究進(jìn)步或幫助決策者在工作中做出合理的判斷，其中，因果關(guān)系是研究人員最希望獲得的一類知識(shí)。一方面，因果關(guān)系表明了事物間如何相互影響的潛在作用機(jī)制，可以幫助研究事物的特性；另一方面，對(duì)于研究或工作中關(guān)心的事件，在了解了相關(guān)的因果關(guān)系知識(shí)后，就可以通過(guò)對(duì)原因進(jìn)行干預(yù)行動(dòng)來(lái)推動(dòng)結(jié)果向期望的方向發(fā)展［2］。

如何在數(shù)據(jù)中發(fā)掘因果關(guān)系，以及如何排除各種其他因素對(duì)發(fā)掘過(guò)程的干擾是一個(gè)困難的問(wèn)題。一種最常用的傳統(tǒng)因果關(guān)系發(fā)現(xiàn)方法是隨機(jī)控制實(shí)驗(yàn)（Randomized Controlled Trial，RCT），通過(guò)復(fù)雜的實(shí)驗(yàn)設(shè)計(jì)來(lái)對(duì)各個(gè)變量進(jìn)行干預(yù)，根據(jù)干預(yù)造成的影響分析得到因果關(guān)系，同時(shí)盡可能地排除其他因素的干擾［2］，但它的有效性相當(dāng)依賴于實(shí)驗(yàn)設(shè)計(jì)的合理性，更關(guān)鍵的是，RCT中必需的干預(yù)行動(dòng)在因果關(guān)系未知時(shí)并不總是可行的［3］，在經(jīng)濟(jì)學(xué)等領(lǐng)域中干預(yù)的花費(fèi)是不可接受甚至不可能的，在醫(yī)學(xué)等領(lǐng)域中干預(yù)可能引發(fā)倫理問(wèn)題。在觀察數(shù)據(jù)上，尤其是非時(shí)序的觀察數(shù)據(jù)上進(jìn)行的因果關(guān)系發(fā)現(xiàn)方法避免了以上問(wèn)題［4］。這些方法通常基于對(duì)變量進(jìn)行獨(dú)立性檢測(cè)或利用數(shù)據(jù)產(chǎn)生機(jī)制的具體特性來(lái)進(jìn)行因果推斷。然而，對(duì)于同時(shí)受混淆因子影響的兩個(gè)變量，即使它們之間并不存在直接的因果連接，由于混淆因子引入的相關(guān)性很難與這兩個(gè)變量直接相連時(shí)的相關(guān)性區(qū)分開，也會(huì)被獨(dú)立性檢測(cè)方法判定為相關(guān)變量，并最終得到帶有錯(cuò)誤邊的因果網(wǎng)絡(luò)。如何檢測(cè)到混淆因子、消除這類錯(cuò)誤邊并最終得到正確的因果結(jié)構(gòu)是研究人員最關(guān)心的問(wèn)題之一。

為解決含隱變量的因果關(guān)系發(fā)現(xiàn)問(wèn)題，現(xiàn)有方法利用最大祖先圖［5］、量子信息不等式［6］等進(jìn)行隱變量檢測(cè)，但這些方法提出時(shí)在連續(xù)數(shù)據(jù)上使用，并不保證能夠適用于離散數(shù)據(jù)。針對(duì)含混淆因子的離散數(shù)據(jù)的因果關(guān)系發(fā)現(xiàn)問(wèn)題，本文提出了一種基于混淆因子隱壓縮表示（Confounder Hidden Compact Representation，CHCR）模型［7］的因果推斷方法。首先，利用數(shù)據(jù)集構(gòu)建備選模型，為備選模型中的原因變量指定一種確定性映射，確保原因變量映射到一個(gè)具有更少可能取值數(shù)的中間隱狀態(tài)，也就是對(duì)原因變量進(jìn)行隱壓縮表示；然后，根據(jù)數(shù)據(jù)和備選模型用貝葉斯信息準(zhǔn)則（Bayesian Information Criterion，BIC）計(jì)算其模型評(píng)分，不斷改動(dòng)模型并根據(jù)模型評(píng)分更新最佳模型直到收斂；最后，查看最佳模型中的壓縮情況，由于受混淆因子影響的兩個(gè)變量間不存在直接的因果連接，因此最佳模型中的壓縮情況將表明兩個(gè)變量間不存在隱壓縮表示，根據(jù)最佳模型中是否存在隱壓縮表示，可以分辨出正確的因果結(jié)構(gòu)。

1 相關(guān)工作

在因果關(guān)系發(fā)現(xiàn)的研究工作中，一般用概率圖模型（Probability Graph Model，PGM）來(lái)表示變量間的因果關(guān)系，圖模型中的節(jié)點(diǎn)表示數(shù)據(jù)集中的變量，邊表示變量間的因果連接，這種圖模型又被稱為貝葉斯因果網(wǎng)絡(luò)［2］。通常假設(shè)數(shù)據(jù)中潛在的因果機(jī)制可以用一個(gè)有向無(wú)環(huán)圖表示，且各變量之間的條件獨(dú)立性可以根據(jù)是否d-分離判斷［2，4］。面向非時(shí)序觀察數(shù)據(jù)的因果關(guān)系發(fā)現(xiàn)方法由于實(shí)用性和避免了RCT 存在的問(wèn)題成為了近年來(lái)的研究熱點(diǎn)，大量方法被提出以從數(shù)據(jù)中學(xué)習(xí)貝葉斯因果網(wǎng)絡(luò)，其中，發(fā)展最快的大致可以分為基于約束（Constraint-based）的方法和基于因果函數(shù)（Causalfunction-based）的方法兩類。經(jīng)典的基于約束的方法有PC（Peter-Clark）算法［8］和IC（Inductive Causation）算法［9］，主要將變量間的條件獨(dú)立性作為約束，根據(jù)約束確認(rèn)部分特殊結(jié)構(gòu)并刪除錯(cuò)誤的邊［2］，但基于約束的方法不可避免地受到馬爾可夫等價(jià)類問(wèn)題的影響，多種不同結(jié)構(gòu)可能具有完全相同的條件獨(dú)立性［4］，這些等價(jià)結(jié)構(gòu)不具有可分辨性?；谝蚬瘮?shù)的方法通?；诮Y(jié)構(gòu)方程模型和對(duì)產(chǎn)生數(shù)據(jù)的因果機(jī)制特性的假設(shè)進(jìn)行因果網(wǎng)絡(luò)的學(xué)習(xí)。經(jīng)典的基于因果函數(shù)的方法包括基于獨(dú)立成分分析算法和剪枝算法的線性非高斯無(wú)環(huán)模型（Linear Non-Gaussian Acyclic Model，LiNGAM）［10］，基于原因變量與噪聲獨(dú)立的假設(shè)進(jìn)行因果方向判斷的加性噪聲模型（Additive Noise Model，ANM）［11］和基于信息熵的信息幾何因果推斷（Information-Geometric Causal Inference，IGCI）［12］。這些方法在符合各自假設(shè)的場(chǎng)景中能夠較好地學(xué)習(xí)因果網(wǎng)絡(luò)，但難以拓展到其他場(chǎng)景下。文獻(xiàn)［13-14］將兩類方法結(jié)合起來(lái)，將因果網(wǎng)絡(luò)分解為局部子網(wǎng)絡(luò)，并使用因果函數(shù)模型學(xué)習(xí)局部網(wǎng)絡(luò)。文獻(xiàn)［15］提出了最大最小爬山（Max-Min Hill-Climbing，MMHC）算法，使用改進(jìn)后的PC 算法得到無(wú)向圖，再使用優(yōu)化后的爬山算法確定最終結(jié)構(gòu)。

以上經(jīng)典方法都是在連續(xù)數(shù)據(jù)中使用的，對(duì)離散數(shù)據(jù)通常并不適用，其主要原因是連續(xù)數(shù)據(jù)的許多性質(zhì)在離散數(shù)據(jù)中截然不同甚至不存在。文獻(xiàn)［16］將ANM 擴(kuò)展到了離散情況下，該模型假設(shè)變量的各個(gè)可能取值間存在序關(guān)系，但很多情況中并不存在有意義的序關(guān)系，也就是說(shuō)，離散ANM 僅僅適用于定序（Ordinal）數(shù)據(jù)而不適用于定類（Nominal）數(shù)據(jù)。此外，離散ANM 并沒(méi)有定義一種較為通用和有意義的加法來(lái)描述離散情況下噪聲對(duì)數(shù)據(jù)的影響。針對(duì)這些問(wèn)題，文獻(xiàn)［7］提出了適用于分類數(shù)據(jù)的隱壓縮表示（Hidden Compact Representation，HCR）模型，由于分類數(shù)據(jù)中變量的可能取值常常不是按照因果機(jī)制劃分的，因此不同取值對(duì)于當(dāng)前因果關(guān)系來(lái)說(shuō)可能是等價(jià)的，可以按照因果機(jī)制對(duì)這些可能取值進(jìn)行劃分，HCR 模型將這種劃分抽象為一個(gè)隱藏的確定性映射階段，并證明了當(dāng)使用BIC 作為評(píng)分標(biāo)準(zhǔn)時(shí)，由于壓縮映射后模型參數(shù)更少，正確的因果模型將具有更高的模型評(píng)分。因此，可以使用HCR模型來(lái)分辨離散變量間的因果方向。

當(dāng)數(shù)據(jù)對(duì)應(yīng)的因果結(jié)構(gòu)中存在混淆因子時(shí)，可能因不滿足因果充分性假設(shè)［4］而學(xué)習(xí)到帶有錯(cuò)誤邊的因果網(wǎng)絡(luò)。近年來(lái)，許多經(jīng)典方法的改進(jìn)版本被提出以檢測(cè)隱變量并消除錯(cuò)誤邊。針對(duì)基于約束的方法，結(jié)合PC 算法和最大祖先圖，文獻(xiàn)［5］提出了快速因果推斷（Fast Causal Inference，F(xiàn)CI）算法；文獻(xiàn)［17］在FCI算法的基礎(chǔ)上改進(jìn)得到極快因果推斷（Really Fast Causal Inference，RFCI）算法；文獻(xiàn)［18-19］利用工具不等式檢測(cè)是否存在隱變量。針對(duì)基于因果函數(shù)的方法，文獻(xiàn)［20］在LiNGAM 的基礎(chǔ)上提出了根據(jù)外生變量間是否獨(dú)立來(lái)檢測(cè)隱變量的ParceLiNGAM；文獻(xiàn)［21］提出了適用于線性非高斯情況下的lvLiNGAM（latent variable LiNGAM）。文獻(xiàn)［6，22］利用量子信息不等式，通過(guò)計(jì)算貝葉斯網(wǎng)絡(luò)的條件熵檢測(cè)隱變量。上述隱變量檢測(cè)方法在各自適用情況下都有較好性能，為在離散數(shù)據(jù)上的隱變量檢測(cè)方法提供了參考。

2 問(wèn)題定義及方法

首先描述使用的變量，定義本文專注于解決的問(wèn)題并提出基于CHCR 模型的混淆因子隱壓縮表示因果推斷（Confounder Hidden Compact Representation Causal Inference，CHCRCI）方法。

2.1 問(wèn)題定義

在本文中，用Z表示混淆因子，X、Y表示數(shù)據(jù)集中包含的變量，|Z|表示變量的可能取值數(shù)，G表示因果網(wǎng)絡(luò)對(duì)應(yīng)的圖模型，G：?表示該因果網(wǎng)絡(luò)圖中不存在因果連接，G：X←Z→Y中Z到X、Y的箭頭表示Z是X、Y的原因，在圖1中，實(shí)線包圍表示該變量存在于數(shù)據(jù)集中，虛線包圍表示該變量是不存在于數(shù)據(jù)集中的隱變量。

本文專注解決的因果推斷問(wèn)題如圖1所示，變量X和Y之間無(wú)直接的因果連接，且受混淆因子Z影響，根據(jù)d-分離［2］，給定Z時(shí)X和Y是條件獨(dú)立的，不給定Z時(shí)X和Y是相關(guān)的。如果在符合這個(gè)結(jié)構(gòu)的數(shù)據(jù)上使用基于約束的方法，由于Z是不存在于數(shù)據(jù)集中的隱變量，給定數(shù)據(jù)集中的任何其他變量都無(wú)法使X和Y相互獨(dú)立，這意味著結(jié)果中將包含一條X和Y之間直接相連的錯(cuò)誤邊。

圖1 混淆因子隱壓縮表示模型示意圖Fig.1 Schematic diagram of confounder hidden compact representation model

在圖1 中，Z對(duì)X施加影響時(shí)，首先確定性映射到中間隱狀態(tài)X'=f(Z)，再由X'對(duì)X施加影響，其中f表示將Z的值與X'的值對(duì)應(yīng)起來(lái)的方式，如=f(Z1)=f(Z2)表示Z1和Z2將被映射到。由于Z中的一個(gè)值只能映射到X'里的至多一個(gè)值，因此|Z|≥|X'|。當(dāng)|Z|=|X'|時(shí)，可以視為經(jīng)歷了映射X'=Z的特殊情況；當(dāng)|Z|>|X'|>1 時(shí)，稱Z到X'的映射為壓縮映射，此時(shí)式（1）成立：

壓縮映射體現(xiàn)了離散變量取值的劃分方式與真實(shí)因果機(jī)制間的差距，因此僅僅在原因指向結(jié)果的正向模型中存在，從結(jié)果指向原因的反向模型中并不存在壓縮映射［7］。給定包含m條關(guān)于X和Y數(shù)據(jù)的數(shù)據(jù)集D=，本文提出的因果推斷方法的目標(biāo)是分辨出正確的因果結(jié)構(gòu)。也就是說(shuō)，當(dāng)真實(shí)結(jié)構(gòu)含有混淆因子，如G：X←Z→Y時(shí)，即使X和Y是相關(guān)的，在本文方法的輸出結(jié)果中，X和Y之間也沒(méi)有直接連接的邊。需要注意的是，由于無(wú)論是否壓縮，映射均可視為存在確定性映射，為表述簡(jiǎn)便，本文在不需要強(qiáng)調(diào)中間映射的地方將其省略，如G：X→Y與G：X→Y'→Y同義。此外，本文方法并不假設(shè)混淆因子必須存在，理論分析和實(shí)驗(yàn)結(jié)果表明，本文方法同樣適用于不含混淆因子的因果結(jié)構(gòu)。

2.2 方法描述

CHCR 模型適用于原因變量經(jīng)過(guò)壓縮映射影響結(jié)果變量時(shí)。對(duì)于因果結(jié)構(gòu)G：X←X'←Z→Y'→Y，此時(shí)|Z|>|X'|、|Z|>|Y'|成立。由于X、Y之間并不存在直接的因果關(guān)系，通常情況下，它們之間并不存在壓縮映射，為排除極端情況，在CHCR模型中假設(shè)式（2）成立：

對(duì)Y也做類似假設(shè)后，可以得到用于分辨正確因果結(jié)構(gòu)的定理1。需要注意的是，即使在實(shí)驗(yàn)中并未去除極端情況，本文方法仍具有最高的準(zhǔn)確率，可見實(shí)際上該假設(shè)對(duì)本文方法有效性的影響可以忽略不計(jì)。

定理1給定數(shù)據(jù)集D=，學(xué)習(xí)得到最佳模型G：X→Y'→Y，其中Y'為壓縮映射，若|Y'|=1，則真實(shí)因果結(jié)構(gòu)為G：?；若|Y'|=|X|，則真實(shí)因果結(jié)構(gòu)為G：X←Z→Y；若1<|Y'|<|X|，則真實(shí)因果結(jié)構(gòu)為G：X→Y。

證明當(dāng)|Y'|=1時(shí)，根據(jù)d-分離，給定Y'時(shí)X和Y相互獨(dú)立，如果Y'只有一個(gè)取值，那么X和Y自然就是相互獨(dú)立的。從另一個(gè)角度來(lái)說(shuō)，此時(shí)無(wú)論X取何值，由于X的所有可能取值映射到了同一個(gè)值上，對(duì)應(yīng)的Y分布不變，也就是說(shuō)X和Y相互獨(dú)立。

當(dāng)|Y'|=|X|時(shí)，若真實(shí)因果結(jié)構(gòu)為G：X→Y，根據(jù)壓縮映射的定義，1<|Y'|<|X|成立，與|Y'|=|X|矛盾，因此X和Y之間不存在直接的因果連接。若真實(shí)結(jié)構(gòu)為G：?，則|Y'|=1。且當(dāng)真實(shí)因果結(jié)構(gòu)為G：X←Z→Y時(shí)，對(duì)于X的任意兩個(gè)不同取值Xi≠Xj，有：

式（3）的推導(dǎo)基于條件概率公式，給定Z時(shí)，X與Y相互獨(dú)立，且式（2）成立，從式（3）中可以看出X到Y(jié)間不存在壓縮映射，即|Y'|=|X|，因此，此時(shí)真實(shí)結(jié)構(gòu)只可能是G：X←Z→Y。

當(dāng)1<|Y'|<|X|時(shí)，由于|Y'|≠1，真實(shí)結(jié)構(gòu)不是G：?，由于|Y'|≠|(zhì)X|，若真實(shí)因果結(jié)構(gòu)為G：X←Z→Y，則與式（3）不符。因此，真實(shí)結(jié)構(gòu)為G：X→Y。

根據(jù)定理1 可以提出混淆因子因果推斷算法CHCRCI。首先，在數(shù)據(jù)集上搜索得到評(píng)分最高的因果結(jié)構(gòu)，如G：X→Y'→Y。通過(guò)檢查壓縮映射的情況，即|Y'|，可以分辨出正確的因果結(jié)構(gòu)。完整算法如算法1所示。

在算法1 中，為得到最佳模型，對(duì)當(dāng)前備選模型中的原因變量，嘗試各種將其映射到中間狀態(tài)的方式，更新模型直至無(wú)法取得更高的模型評(píng)分。在數(shù)據(jù)集上計(jì)算模型評(píng)分S=BIC(D，f，G)的公式如下：

式（4）中首先基于CHCR 模型得到似然度L(D，f，G)的表達(dá)式，其中，并說(shuō)明了給定數(shù)據(jù)集時(shí)如何用最大似然估計(jì)計(jì)算該表達(dá)式，nX為X=x時(shí)的頻數(shù)。式（5）利用BIC 評(píng)分的定義式得到最終的模型評(píng)分，其中d是整個(gè)模型的參數(shù)數(shù)，m是數(shù)據(jù)集中的樣本數(shù)。選出模型評(píng)分最高的作為最佳模型后，在最佳模型上應(yīng)用定理1即可得到作為輸出結(jié)果的網(wǎng)絡(luò)結(jié)構(gòu)。需要注意的是，當(dāng)|f*|=|X|時(shí)，這種無(wú)法壓縮可能由兩種不同情況導(dǎo)致：一種是最佳模型與真實(shí)模型方向相反，反向是不存在壓縮映射的；另一種是真實(shí)結(jié)構(gòu)為G：X←Z→Y，此時(shí)兩個(gè)方向都不存在壓縮映射；因此需要進(jìn)一步驗(yàn)證才能確定屬于哪一種情況。

算法1 使用BIC 作為備選模型的評(píng)分函數(shù)，BIC 是具有一致性的評(píng)分準(zhǔn)則，即更符合數(shù)據(jù)分布且具有更少參數(shù)的模型將得到最高分?jǐn)?shù)［23］，因此能夠幫助找到最佳結(jié)構(gòu)。在某些情況下，如X、Y之間的互信息很小時(shí)，認(rèn)為二者間沒(méi)有邊的備選模型因?yàn)閰?shù)更少，可能會(huì)得到更高的BIC 評(píng)分。此時(shí)，對(duì)于G1：X→Y'→Y和G2：?，以下計(jì)算式成立：

式（6）中不等號(hào)兩邊是BIC 評(píng)分的定義式，即似然度減去隨參數(shù)和數(shù)據(jù)量增加而增大的懲罰項(xiàng)，m表示數(shù)據(jù)集的記錄數(shù)。式（7）到式（8）的變形與式（4）中類似，即消去經(jīng)驗(yàn)頻率。在式（8）中，似然度寫成由記錄數(shù)m與經(jīng)驗(yàn)頻率組成的形式。式（10）成立時(shí)，使用BIC評(píng)分將輸出G：?，需要注意的是，本文提出的方法的目的并非恢復(fù)或消去隱變量，而僅僅是去除錯(cuò)誤的因果連接，得到可見變量間正確的因果結(jié)構(gòu)。從這個(gè)角度來(lái)說(shuō)，G：?也應(yīng)被視為正確結(jié)果。因此，即使當(dāng)式（10）描述的特殊情況發(fā)生時(shí)，本文方法所得到的因果結(jié)構(gòu)仍然是不存在錯(cuò)誤因果連接的正確結(jié)果。

3 實(shí)驗(yàn)與結(jié)果分析

首先使用生成的模擬數(shù)據(jù)，以準(zhǔn)確率（Accuracy），即學(xué)習(xí)到正確因果結(jié)構(gòu)的次數(shù)占實(shí)驗(yàn)次數(shù)的比率，衡量所提出的因果推斷方法CHCRCI 的性能。選取了若干具有代表性且性能較好的方法作為對(duì)比，包括獨(dú)立性檢測(cè)方法希爾伯特-施密特獨(dú)立性準(zhǔn)則（Hilbert-Schmidt Independence Criterion，HSIC）［24］、混合型因果發(fā)現(xiàn)方法MMHC 和含有隱變量檢測(cè)的RFCI。在多組實(shí)驗(yàn)中分別測(cè)試了各方法在單一因果結(jié)構(gòu)或混合因果結(jié)構(gòu)上，隨樣本數(shù)、可能取值數(shù)或混合程度變化時(shí)的準(zhǔn)確率，并分析各組實(shí)驗(yàn)結(jié)果。其次，在真實(shí)數(shù)據(jù)集Abalone上使用本文方法進(jìn)行實(shí)驗(yàn)并分析實(shí)驗(yàn)結(jié)果。本文的模擬數(shù)據(jù)實(shí)驗(yàn)中，生成數(shù)據(jù)及運(yùn)用各方法的過(guò)程重復(fù)了1 000 次，以各方法得到正確結(jié)構(gòu)的次數(shù)占總次數(shù)的比率作為準(zhǔn)確率。

模擬數(shù)據(jù)的生成過(guò)程大致可以分為兩個(gè)階段：首先，在[5，15]內(nèi)等概率隨機(jī)選定X、Y、Z等各變量的可能取值數(shù)，在[2，5]內(nèi)等概率隨機(jī)選定壓縮映射的可能取值數(shù)，以標(biāo)準(zhǔn)正態(tài)分布采樣并經(jīng)過(guò)取絕對(duì)值、分別除以其總和的操作得到原因變量的概率分布，采樣得到原因變量的數(shù)據(jù)并壓縮映射到中間隱狀態(tài)；其次，以與生成變量分布類似的方式隨機(jī)生成中間隱狀態(tài)到結(jié)果變量的轉(zhuǎn)移概率矩陣，并根據(jù)數(shù)據(jù)和轉(zhuǎn)移概率矩陣采樣得到結(jié)果變量的數(shù)據(jù)。不特別指出時(shí)，以上參數(shù)為數(shù)據(jù)生成時(shí)的默認(rèn)參數(shù)。

為測(cè)試本文中所提方法在各種不同情況下的性能，設(shè)計(jì)并進(jìn)行了4組對(duì)比實(shí)驗(yàn)。

第1組實(shí)驗(yàn)測(cè)試在數(shù)據(jù)量變化時(shí)，CHCRCI能否正確識(shí)別出存在混淆因子的因果結(jié)構(gòu)，真實(shí)因果結(jié)構(gòu)均為G：X←Z→Y。在第1 組實(shí)驗(yàn)中，樣本數(shù)的變化范圍為[1000，1500，2 000，2 500，3 000]，用于對(duì)比的方法包括HSIC和RFCI。

HSIC 是一種基于Hilbert-Schmidt范數(shù)的非參數(shù)獨(dú)立性度量準(zhǔn)則，通過(guò)在再生核希爾伯特空間上定義互協(xié)方差，計(jì)算得到度量獨(dú)立性的統(tǒng)計(jì)量，是一種高效準(zhǔn)確、被廣泛使用的獨(dú)立性檢測(cè)方法。由于本實(shí)驗(yàn)中可觀測(cè)變量只有兩個(gè)，因此基于約束的方法基本可以等同為獨(dú)立性檢測(cè)方法，HSIC 的表現(xiàn)可以代表較為先進(jìn)的基于約束的方法。

RFCI 是一種可以在存在隱變量或選擇偏差時(shí)使用的因果推斷方法，RFCI 為基于FCI的改進(jìn)，與FCI具有接近的效果且復(fù)雜度更低。RFCI在判斷因果結(jié)構(gòu)時(shí)更為謹(jǐn)慎，能夠較好地分辨出隱變量和選擇偏差帶來(lái)的影響，因此RFCI的表現(xiàn)可以代表含有隱變量檢測(cè)的因果發(fā)現(xiàn)方法。本實(shí)驗(yàn)中RFCI 的實(shí)現(xiàn)使用了R語(yǔ)言程序包pcalg［25］。

從圖2 中可以看出，由于混淆因子的影響導(dǎo)致可見變量間存在相關(guān)性，HSIC 始終不能很好地學(xué)習(xí)到正確的因果結(jié)構(gòu)，事實(shí)上，隨著樣本量的增長(zhǎng)，HSIC 的準(zhǔn)確率愈發(fā)接近于隨機(jī)猜測(cè)；由于RFCI在存疑時(shí)更傾向于輸出不確定狀態(tài)而非認(rèn)為存在因果連接，因此在樣本數(shù)較少時(shí)也能夠輸出正確結(jié)果，但隨著樣本量增長(zhǎng)，其準(zhǔn)確率同樣接近于隨機(jī)猜測(cè)；如式（10）所示，CHCRCI 在樣本數(shù)較少時(shí)表現(xiàn)更好，但無(wú)論樣本數(shù)多少，CHCRCI 始終能夠較好地學(xué)習(xí)到正確的因果結(jié)構(gòu)，且其準(zhǔn)確率明顯地高于對(duì)比方法。

圖2 三種方法在樣本數(shù)變化時(shí)的正確率比較Fig.2 Accuracy comparison of three methods when the number of sample changes

第2組實(shí)驗(yàn)是測(cè)試在變量可能取值數(shù)不同時(shí)，CHCRCI的表現(xiàn)是否受到影響。在不同的領(lǐng)域中或分類方式不同時(shí)，離散變量可能取值數(shù)可以有較大的差別，因此有必要測(cè)試本文方法是否能夠適應(yīng)這種差別。在生成數(shù)據(jù)的過(guò)程中，調(diào)整可能取值數(shù)隨機(jī)選擇范圍的上限，如從[5，8]中選定可能取值數(shù)，以整體地改變可能取值數(shù)。在第2 組實(shí)驗(yàn)中，因果結(jié)構(gòu)均為G：X←Z→Y，樣本數(shù)固定為1 000，壓縮映射的可能取值數(shù)的隨機(jī)選擇范圍仍為[2，5]。選擇HSIC、RFCI 與本文方法進(jìn)行性能對(duì)比。

從圖3 中可以看出，可能取值數(shù)變化時(shí)，RFCI 和HSIC 學(xué)習(xí)因果結(jié)構(gòu)的準(zhǔn)確率僅有小幅波動(dòng)，CHCRCI 的準(zhǔn)確率則僅在可能取值數(shù)為5 時(shí)有極少下降，這是由于可能取值數(shù)過(guò)少導(dǎo)致壓縮的性質(zhì)不明顯。但整體來(lái)說(shuō)，CHCRCI 仍然幾乎在每次實(shí)驗(yàn)中都正確分辨了因果結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果中準(zhǔn)確率曲線的穩(wěn)定一方面表明了CHCRCI 的有效性，另一方面表明了其他各組實(shí)驗(yàn)的結(jié)論也適用于不同可能取值數(shù)的情況。

圖3 三種方法在變量可能取值數(shù)不同時(shí)的正確率比較Fig.3 Accuracy comparison of three methods when the number of variable possible values changes

第3 組實(shí)驗(yàn)是測(cè)試CHCRCI 是否僅適用于混淆因子存在的結(jié)構(gòu)，即本文方法是否具有泛用性。在生成數(shù)據(jù)時(shí)，設(shè)定存在混淆因子的概率并隨機(jī)選擇結(jié)構(gòu)類型，該概率的選擇范圍為{0.2，0.4，0.6，0.8}。存在混淆因子時(shí)，真實(shí)因果結(jié)構(gòu)為G：X←Z→Y；不存在混淆因子時(shí)，真實(shí)因果結(jié)構(gòu)為G：X→Y。樣本數(shù)固定為1 000。由于HSIC 不能直接用于判斷因果方向，對(duì)比方法改為RFCI和MMHC。

MMHC是一種結(jié)合了基于約束的方法和基于評(píng)分的方法的因果發(fā)現(xiàn)方法，首先使用啟發(fā)式方法得到父子節(jié)點(diǎn)表，第二階段在父子節(jié)點(diǎn)表的基礎(chǔ)上使用加入模擬退火等優(yōu)化手段的爬山算法得到最終結(jié)果，由于第一階段極大減小了搜索空間，能夠較好地分辨出正確的因果結(jié)構(gòu)。本實(shí)驗(yàn)中MMHC 方法的實(shí)現(xiàn)使用了R語(yǔ)言程序包bnlearn［26］。

從圖4中可以看出，隨著存在混淆因子的概率增長(zhǎng)，RFCI準(zhǔn)確率有一定提升，但始終接近于隨機(jī)猜測(cè)，這是由于RFCI本質(zhì)上仍然屬于基于約束的方法，而基于約束的方法由于馬爾可夫等價(jià)類問(wèn)題，很多時(shí)候是無(wú)法分辨因果方向的，自然導(dǎo)致了無(wú)法正確分辨因果結(jié)構(gòu)；MMHC 方法在存在混淆因子的概率較高時(shí)，一定程度上能夠?qū)W習(xí)到正確因果結(jié)構(gòu)，但隨著該概率的降低，準(zhǔn)確率也急劇降低，如在兩種結(jié)構(gòu)的出現(xiàn)概率接近時(shí)，準(zhǔn)確率也接近于隨機(jī)猜測(cè)；CHCRCI 則在存在混淆因子概率取各值時(shí)，均能夠較好地分辨出正確的因果結(jié)構(gòu)，且準(zhǔn)確率明顯優(yōu)于對(duì)比方法，表明CHCRCI 適用于更為一般的情況，具有泛用性。

圖4 三種方法在不同類型結(jié)構(gòu)混合時(shí)的正確率比較Fig.4 Accuracy comparison of three methods when mixing different types of structure

第4 組實(shí)驗(yàn)是在混合因果結(jié)構(gòu)上，測(cè)試樣本數(shù)不同時(shí)CHCRCI 的表現(xiàn)。為避免類別不平衡（Class-imbalance）問(wèn)題，真實(shí)因果結(jié)構(gòu)在G：X←Z→Y和G：X→Y中等概率地隨機(jī)選取，生成數(shù)據(jù)的數(shù)據(jù)量的變化范圍為[1000，1500，2 000，2 500，3 000]，其他實(shí)驗(yàn)參數(shù)均為默認(rèn)值，對(duì)比方法為MMHC和RFCI。

從圖5 中可以看出，隨著樣本數(shù)的增長(zhǎng)，CHCRCI、MMHC和RFCI三種方法的準(zhǔn)確率變化不大，MMHC 的準(zhǔn)確率有小幅上升，RFCI的準(zhǔn)確率有小幅下降，CHCRCI則始終能夠取得實(shí)驗(yàn)中最高的準(zhǔn)確率，且明顯高于其他兩個(gè)方法，表明了類別平衡時(shí)CHCRCI方法的有效性。

圖5 混合結(jié)構(gòu)中三種方法在樣本數(shù)不同時(shí)的正確率比較Fig.5 Accuracy comparison of three methods in mixed structure with different numbers of samples

總的來(lái)說(shuō)，通過(guò)設(shè)計(jì)并測(cè)試CHCRCI 在樣本數(shù)、混淆因子出現(xiàn)概率、變量可能取值數(shù)等各種條件變化時(shí)的準(zhǔn)確率指標(biāo)的實(shí)驗(yàn)，并與HSIC、RFCI、MMHC這三種具有代表性的經(jīng)典方法進(jìn)行對(duì)比可以看出，CHCRCI 在四組實(shí)驗(yàn)中分別設(shè)定的各種情況均能夠較好地分辨出正確的因果結(jié)構(gòu)，本文方法的有效性和泛用性得到了驗(yàn)證。

UCI 數(shù)據(jù)集Abalone［27］常被用于檢驗(yàn)離散變量上的因果發(fā)現(xiàn)方法的性能，該數(shù)據(jù)集中包含4 177 條關(guān)于鮑魚的性別（Sex）、長(zhǎng)度（Length）、直徑（Diameter）、高度（Height）等屬性的數(shù)據(jù)，通常認(rèn)為其性別是長(zhǎng)度、直徑、高度的原因［7，16，28］，然而由于幼年鮑魚無(wú)法識(shí)別性別，其性別屬性中除雄性（Male，M）與雌性（Female，F(xiàn)）外還包括了無(wú)法識(shí)別性別的幼年（Infant，I）。為研究其性別屬性與其他3 個(gè)屬性間的關(guān)系，去除性別屬性為I的無(wú)意義數(shù)據(jù)后，在新數(shù)據(jù)集上使用CHCRCI方法得到的結(jié)果如表1所示。

表1 使用CHCRCI與HSIC所得不同變量間因果關(guān)系結(jié)果的對(duì)比Tab.1 Comparison of results obtained by CHCRCI and HSIC between different variables

表1給出了對(duì)三組變量分別使用CHCRCI和HSIC方法所得到結(jié)果的對(duì)比，其中，壓縮情況|Sex|是使用CHCRCI 方法所得結(jié)果中中間映射的可能取值數(shù)，使用HSIC方法所得結(jié)果中的P值表示該組變量是否相互獨(dú)立。從表1中可以看出，不同性別可以壓縮至唯一中間狀態(tài)，根據(jù)定理1 和式（10），這意味著性別和其他變量間并不存在直接的因果連接，但可能存在混淆因子，對(duì)于這些可見變量間的因果關(guān)系來(lái)說(shuō)，這兩種情況并沒(méi)有區(qū)別。性別屬性與其他屬性間不存在直接的因果關(guān)系這一結(jié)論看似與現(xiàn)有研究結(jié)果沖突，但這些研究中并未去除性別無(wú)法分辨的幼年鮑魚的數(shù)據(jù)，不難推斷出存在混淆因子年齡，即年齡決定了是否可以分辨性別，也決定了長(zhǎng)度、直徑、高度等屬性。因此，本文方法所得結(jié)論與現(xiàn)有研究結(jié)果是可以相容的。作為對(duì)比，HSIC 所得結(jié)果表明各組變量是相關(guān)的，在許多方法中，這意味著將引入性別變量到其他變量的錯(cuò)誤的因果連接。

4 結(jié)語(yǔ)

本文深入探究了存在混淆因子時(shí)的因果推斷方法的研究現(xiàn)狀，對(duì)含混淆因子的離散數(shù)據(jù)上的因果推斷進(jìn)行了理論分析，提出了一種基于混淆因子隱壓縮表示（CHCR）模型的因果發(fā)現(xiàn)方法。根據(jù)學(xué)習(xí)到的最佳模型中中間映射的可能取值數(shù)，可以判斷數(shù)據(jù)集中的變量間是否存在直接的因果連接，避免了因混淆因子影響而導(dǎo)致出現(xiàn)的錯(cuò)誤連接。實(shí)驗(yàn)結(jié)果表明，在各種樣本數(shù)或不同類型結(jié)構(gòu)混合等多種情況下，本文所提的方法都能夠較好地學(xué)習(xí)到正確的因果結(jié)構(gòu)，在準(zhǔn)確率指標(biāo)上明顯優(yōu)于對(duì)比方法，且在真實(shí)數(shù)據(jù)集Abalone上使用本文方法得到了變量間更為合理的因果關(guān)系。在未來(lái)的工作中，本文方法有待擴(kuò)展到節(jié)點(diǎn)數(shù)更多、結(jié)構(gòu)更復(fù)雜的因果結(jié)構(gòu)學(xué)習(xí)問(wèn)題中，或進(jìn)一步弱化當(dāng)前模型中存在的對(duì)于潛在因果機(jī)制的假設(shè)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡