陳一明
摘 要 為了提高支持向量回歸算法的學(xué)習(xí)能力,提出了一種基于因果網(wǎng)絡(luò)的特征選擇算法. 該方法假設(shè)目標(biāo)變量和特征候選集之間符合一個(gè)因果網(wǎng)絡(luò)模型,然后利用基于條件獨(dú)立性測(cè)試的方法對(duì)目標(biāo)變量的直接影響特征進(jìn)行識(shí)別,從候選特征集之中獲取與目標(biāo)變量有著直接因果關(guān)系的特征子集.虛擬和真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該特征選擇算法適用于支持向量回歸算法,優(yōu)于目前其他算法.
關(guān)鍵詞 支持向量回歸; 特征選擇; 因果網(wǎng)絡(luò); 條件獨(dú)立性測(cè)試
中圖分類號(hào) TP181 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1000-2537(2015)04-0090-06
Abstract In order to improve Support Vector Regression (SVR) learning ability, a novel feature selection method based on causal network is proposed. Firstly, the target variable and its candidate feature set are assumed to conform a causal network model. Subsequently, the causal feature can be detected by conditional independence test based method. Both virtual and real experimental results show that the proposed algorithm outperforms other methods when applied to SVR.
Key words support vector regression; feature selection; causal network; conditional independence test
對(duì)候選特征進(jìn)行維數(shù)約簡(jiǎn)在支持向量回歸(SVR)預(yù)測(cè)中占有重要地位,其學(xué)習(xí)能力很大程度上依賴特征集的選擇.盡管實(shí)驗(yàn)表明[1],支持向量機(jī)在先進(jìn)行特征選擇后往往比不進(jìn)行特征選擇的預(yù)測(cè)效果好,而且能很大程度上提高訓(xùn)練速度,但是要嚴(yán)格地確定特征集大小很困難.近十年來(lái),雖然很多特征選擇算法被提出[2-4],但目前還沒(méi)有一種能完全確定特征集的方法.
目前適用于SVR的特征選擇算法大都基于最大依賴性準(zhǔn)則 (Max-Dependence)[5]. 在特征選擇中, 最大依賴性準(zhǔn)則目的是尋找一個(gè)包含m個(gè)特征的集合S, 使得該集合與待預(yù)測(cè)變量y之間存在最大的依賴關(guān)系 (依賴關(guān)系一般使用互信息來(lái)評(píng)估),如式(1)所示.
實(shí)際操作中,由于候選特征往往是高維的,很難在高維上對(duì)公式(1)進(jìn)行估算.鑒于此,一些學(xué)者提出了解決方法.例如MRMR算法[2],利用最大相關(guān)性準(zhǔn)則(Max-Relevance)和最小冗余性準(zhǔn)則(Min-Redundance)來(lái)逼近公式(1); MRMS算法[3]則利用最小冗余性準(zhǔn)則(Min-Redundance)和最大顯著性準(zhǔn)則(Max-significant)對(duì)公式(1)進(jìn)行概率性估算; MIGS算法[4]同樣利用(條件)互信息對(duì)公式(1)的值進(jìn)行估算.盡管使用這些特征選擇方法后,SVR能夠一定程度地提升學(xué)習(xí)精度和速度,但仍然無(wú)法完全確定真實(shí)的特征集.這些方法有一個(gè)共同的缺點(diǎn),如圖1所示.
其中,y為需要預(yù)測(cè)的目標(biāo)變量,X={x1,x2,x3,x4,x5}為y的候選特征集,且滿足圖1所示因果網(wǎng)絡(luò)模型[6].顯然,{x2,x3,x4}為y的直接因果特征,即滿足y=f(x2,x3,x4), 所以y可以完全由{x2,x3,x4}確定.實(shí)際上,由于在這樣的結(jié)構(gòu)里,{x1,x5}對(duì)于y的依賴性往往要比{x2,x3,x4}大,現(xiàn)存的特征選擇算法一般都會(huì)將{x1,x5}首先加入特征集隊(duì)列里,在其后的交叉驗(yàn)證等方法里也很難將{x1,x5}移除.一方面,這樣直接造成了特征集冗余;另一方面,根據(jù)每個(gè)特征選擇算法的各自的機(jī)制,有可能會(huì)將{x2,x3,x4}其中的點(diǎn)移除.顯然,這樣都會(huì)影響SVR的預(yù)測(cè)準(zhǔn)確率.
與現(xiàn)存的特征選擇算法不同,因果網(wǎng)絡(luò)是一種對(duì)可觀測(cè)數(shù)據(jù)進(jìn)行強(qiáng)有力推理的工具,可以方便地表示和分析確定性和概率性的事物.在因果推斷的問(wèn)題中,利用其可以有效地識(shí)別與待預(yù)測(cè)變量有著因果關(guān)系的特征. 基于此,提出了一種基于因果網(wǎng)絡(luò)且適用SVR的特征選擇算法. 該算法將傳統(tǒng)的基于逼近最大依賴性準(zhǔn)則的特征選擇算法轉(zhuǎn)移到因果網(wǎng)絡(luò)的識(shí)別上來(lái),直接對(duì)要進(jìn)行預(yù)測(cè)的目標(biāo)變量進(jìn)行因果推斷,找出其因果特征集,找到了一種可以確定特征集的方法.仿真數(shù)值實(shí)驗(yàn)和在應(yīng)用真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,該算法應(yīng)用在SVR模型上,預(yù)測(cè)的精確度要高于其他特征選擇算法.
1 預(yù)備知識(shí)
1.1 因果網(wǎng)絡(luò)
因果網(wǎng)絡(luò)是表示變量間概率依賴關(guān)系的一個(gè)有向無(wú)環(huán)圖(DAG),其可表示為一個(gè)三元組G=(X,E,P). 其中,X={x1,x2,…,xn}表示該DAG中所有節(jié)點(diǎn)的集合.E={e(xi,xj)|xi,xj∈X}表示DAG中每?jī)蓚€(gè)節(jié)點(diǎn)間單向邊的集合,其中e(xi,xj)表示xi,xj間存在依賴關(guān)系xi→xj.P={P(xi|paxi)|xi,paxi∈X}是條件概率的集合,其中P(xi|paxi)表示xi的父節(jié)點(diǎn)集paxi對(duì)xi的概率性影響.因果網(wǎng)絡(luò)本質(zhì)上就是聯(lián)合概率分布P(x1,x2,…,xn)的一種圖形化表示.
1.2 d-分離準(zhǔn)則
d-分離是描述因果網(wǎng)絡(luò)節(jié)點(diǎn)間關(guān)系的一個(gè)重要圖準(zhǔn)則. 設(shè)X, Y, Z是DAG中任意3個(gè)互不相交的節(jié)點(diǎn)的集合,稱Z在圖G中d-分離節(jié)點(diǎn)集X和Y,如果對(duì)任意的從X的節(jié)點(diǎn)到Y(jié)的一個(gè)節(jié)點(diǎn)的路P均被Z阻斷,也就是路徑P上存在一個(gè)節(jié)點(diǎn)xi滿足下列其中一個(gè)條件:
(1)xi在P上存在碰撞箭頭,即→xi←,且xi及其后代節(jié)點(diǎn)都不屬于Z;
(2)xi在P上不存在碰撞箭頭,即→xi→或←xi→,且xi∈Z.
根據(jù)d-分離準(zhǔn)則的概率密度含義[6],如果集合X和Y被集合Z d-分離,那么在給定Z情況下X和Y獨(dú)立.相反地,如果集合X和Y沒(méi)有被集合Z d-分離,那么給定Z后X,Y是相互依賴的.
2 因果推斷與最大依賴性準(zhǔn)則
信息理論[7]提供了一個(gè)直觀的途徑去估算變量間的依賴關(guān)系,其中互信息是一個(gè)關(guān)鍵的概念. 假設(shè)待預(yù)測(cè)變量y有著n個(gè)候選特征X={x1,x2,…,xn},若其中唯一的m個(gè)特征組成的集合Sm滿足最大依賴性準(zhǔn)則maxSmX D(y,Sm),D=I(y;Sm),則選用Sm做特征向量進(jìn)行SVR預(yù)測(cè)往往能達(dá)到最好的效果[3].而現(xiàn)時(shí)大部分的特征選擇方法僅僅對(duì)最大依賴性進(jìn)行逼近.由于采用的大都是啟發(fā)式的搜索方法,如果非因果特征對(duì)于y的依賴性較大,很容易在算法的開(kāi)始階段就加入了特征集序列. 與傳統(tǒng)特征選擇算法不同,基于因果網(wǎng)絡(luò)的因果推斷方法可以直接找到滿足最大依賴性的特征集.
定理1 如果待預(yù)測(cè)變量y唯一的m個(gè)特征組成的集合Sm滿足最大依賴性準(zhǔn)則maxSmX D(y,Sm),D=I(y;Sm), 則Sm不包含y任何的非因果特征.
證 根據(jù)d-分離準(zhǔn)則的聯(lián)合概率密度含義[6],y與任何非因果特征集X都可以被Sm (或Sm的一個(gè)子集) D分離,因而有I(y;X|Sm)=0.由于I(y;X|Sm)=I(y;X,Sm)-I(y;Sm),故I(y;X,Sm)=I(y;Sm),即能從X身上獲得的關(guān)于y的信息,已全部被包含在Z內(nèi). 另一方面,由于y與其因果特征集Sm不被任何其他的特征d-分離,有I(y;Sm|X)≥0.事實(shí)上,只有當(dāng)Sm, X之間滿足信息無(wú)噪聲傳輸且可逆映射關(guān)系時(shí),等號(hào)才成立.因此,在實(shí)際應(yīng)用上總有I(y;X)≤I(y;Sm).即若要保持最大依賴性準(zhǔn)則,Sm不能包含y的任何非因果特征,否則必存在冗余.
定理2 如果待預(yù)測(cè)變量y唯一的m個(gè)特征組成的集合Sm滿足最大依賴性準(zhǔn)則maxSmXD(y,Sm),D=I(y;Sm), 則Sm包含y所有的因果特征.
證 假設(shè)x是不包含在Sm內(nèi)的y的一個(gè)因果特征,根據(jù)d-分離準(zhǔn)則的聯(lián)合概率含義,y與其因果特征x不被任何其他的特征Sm d-分離,有I(y;x|Sm)>0.由于I(y;x|Sm)=I(y;x,Sm)-I(y;Sm),故I(y;x,Sm)>I(y;Sm),即能從x身上可以獲取得到Sm中沒(méi)有的關(guān)于y的信息. 顯然這與最大依賴性準(zhǔn)則的定義矛盾. 所以Sm包含y了所有的因果特征.
注 定理1和定理2說(shuō)明了尋找待預(yù)測(cè)變量的因果特征和尋找滿足最大相關(guān)性準(zhǔn)則的特征集是等價(jià)的,因果特征集唯一地滿足最大相關(guān)性準(zhǔn)則,這也是因果推斷算法能解決特征選擇問(wèn)題的一個(gè)重要理論依據(jù).
3 算法的基本流程
如圖2所示,因果推斷算法的目的是找出預(yù)測(cè)變量y的直接因果特征.對(duì)于任意一個(gè)變量集X={x1,x2,…,xn}, y為待預(yù)測(cè)變量,用S(y)表示y的特征節(jié)點(diǎn)集.這里主要利用基于約束的方法[8-9]對(duì)帶預(yù)測(cè)變量y的直接因果特征進(jìn)行識(shí)別.相對(duì)于目前的特征選擇算法,對(duì)因果特征直接進(jìn)行識(shí)別,一定程度可以排除雖然滿足最大依賴性準(zhǔn)則卻非直接關(guān)聯(lián)的特征,同時(shí)也從理論上找到了一種可以確定特征個(gè)數(shù)的方法.原則上,任何因果推斷算法均可使用,但不同算法往往有著不同的機(jī)制,從而可能會(huì)產(chǎn)生不同的結(jié)果,在一些情況某些算法可能反而不及基于互信息的特征選擇方法下SVR的預(yù)測(cè)準(zhǔn)確率高.如IGCI[10],ANM[11-12]等算法無(wú)法應(yīng)用于較高維數(shù)據(jù).在這里,基于一種具有很好伸縮性、魯棒性的BUSSM算法[13]的思想,并對(duì)其進(jìn)行改良,使之適合應(yīng)用于發(fā)現(xiàn)因果特征,具體如下.
算法開(kāi)始時(shí),先令y的特征節(jié)點(diǎn)集S(y)={}.
步驟1 應(yīng)用獨(dú)立性測(cè)試:測(cè)試X中y的每一個(gè)候選特征{x1,x2,…,xn}和y之間的獨(dú)立性,若獨(dú)立性Ind(y;xi)成立,表明xi沒(méi)有攜帶任何關(guān)于y的信息,即xi不可能y的因果特征,將xi從X中移除.當(dāng)候選特征較多,非因果基因的移除大大降低了算法的時(shí)間耗費(fèi),而且有助于提高算法的準(zhǔn)確率.
步驟2 將任意的xi∈X加入到S(y),應(yīng)用條件獨(dú)立性測(cè)試:Ind(y;xi|U),U為S(y)\xi的任意一個(gè)子集合,若條件獨(dú)立Ind(y;xi|U)成立,表明xi攜帶的關(guān)于y的信息都被包含在U中了,即xi不可能為y的因果特征,則從S(y)中移除特征xi.
步驟3 重復(fù)步驟2,直到X中所有特征迭代完,最后得到特征集S(y).
步驟4 由于特征集里元素按隨機(jī)順序加入,因而可能存在非因果特征保留在S(y)中,這時(shí)進(jìn)行進(jìn)一步的條件獨(dú)立性測(cè)試:對(duì)于任意的xi∈S(y),U為S(y)\xi的任意一個(gè)子集合,測(cè)試Ind(y;xi|U).若y,xi被U d-分離,同樣表明xi攜帶的關(guān)于y的信息都被包含在U中了,即xi不是y的因果特征,將xi從S(y)中移除.
步驟5 經(jīng)過(guò)以上步驟,得到待預(yù)測(cè)變量y的特征集S(y),然后結(jié)合SVR中懲罰參數(shù)C, 核寬度g進(jìn)行參數(shù)尋優(yōu),得到最優(yōu)參數(shù)利用SVR模型對(duì)目標(biāo)變量進(jìn)行預(yù)測(cè).
為了方便表述,記上述提出的算法為Causal Feature Selection (CFS),其具體實(shí)現(xiàn)方式如下:
CFS算法的時(shí)間復(fù)雜度分析:該算法的時(shí)間復(fù)雜度與所含因果特征的個(gè)數(shù)有關(guān),與加入順序也有關(guān),下面進(jìn)行具體分析.
1) 假設(shè)y有n個(gè)特征,其中僅有一個(gè)為因果特征,且為該因果特征被測(cè)試的第一個(gè),則在步驟1中,變量數(shù)n*T獨(dú)立性測(cè)試的時(shí)間復(fù)雜度,步驟2和3的時(shí)間復(fù)雜度因?yàn)槎际菞l件集為單哥變量的獨(dú)立性測(cè)試,時(shí)間復(fù)雜度都略大于O(T),所以最好的情況下,該算法的時(shí)間復(fù)雜度近似O(n*T).
2) 假設(shè)y有n個(gè)特征,都為因果特征,此時(shí)節(jié)點(diǎn)測(cè)試順序和算法時(shí)間復(fù)雜度無(wú)關(guān),在步驟1中,容易得時(shí)間復(fù)雜度為O(T).在步驟2中,S(y)變量數(shù)n與變量可能存在的子集個(gè)數(shù)形成的關(guān)系為:n個(gè)點(diǎn)的集合的子集個(gè)數(shù)是2n-1,故其算法復(fù)雜度為:O(2n*T),其中T為每次條件獨(dú)立性測(cè)試的時(shí)間復(fù)雜度,不是恒值,僅為容易表示.步驟3中,由于每次條件集規(guī)模一樣,同理得算法復(fù)雜度為:O(2n*n*T),故該算法的整體時(shí)間復(fù)雜度為:O(2n*n*T).
實(shí)際上,這兩種極端條件都很難出現(xiàn),在一般情況下,不同對(duì)特征變量測(cè)試順序?qū)е碌乃惴ㄟ\(yùn)行時(shí)間差距不大;另一方面,在正常情況下,算法復(fù)雜度也遠(yuǎn)遠(yuǎn)沒(méi)達(dá)到O(2n*n*T).
4 數(shù)值實(shí)驗(yàn)
數(shù)值實(shí)驗(yàn)在Matlab 2010b中完成,分別用虛擬網(wǎng)絡(luò)數(shù)據(jù)和真實(shí)數(shù)據(jù)集對(duì)CFS進(jìn)行評(píng)價(jià).在虛擬網(wǎng)絡(luò)的數(shù)據(jù)生成階段,每個(gè)節(jié)點(diǎn)的數(shù)據(jù)由圖3中節(jié)點(diǎn)的拓?fù)湫蛄幸勒蘸瘮?shù):y=w1f1(x1)+w2f2(x2)+ε生成.其中w1,w2為每個(gè)函數(shù)的權(quán)值,隨機(jī)取值于0.3與0.7之間;f1(),f2()是隨機(jī)函數(shù),等概率取于常見(jiàn)的幾種初等函數(shù){sin x,cos x,ex,x2,x3};x1,x2為y的父節(jié)點(diǎn),ε為高斯分布的添加噪聲.而在真實(shí)數(shù)據(jù)集方面,采用廣州某蓄冰供冷站對(duì)集運(yùn)系統(tǒng)的供冷數(shù)據(jù)對(duì)提出的算法進(jìn)行評(píng)估.在算法實(shí)現(xiàn)過(guò)程中,條件獨(dú)立性測(cè)試使用基于核函數(shù)且適用于連續(xù)型數(shù)據(jù)的測(cè)試算法KCI-test[14],閾值δ=0.05.
4.1 虛擬網(wǎng)絡(luò)實(shí)驗(yàn)
首先,利用CFS算法對(duì)目標(biāo)變量y進(jìn)行特征選擇,得到特征集F1={x2,x3,x4}.顯然,從圖3可以看出,F(xiàn)1滿足y因果特征的條件:y=f(x2,x3,x4).考慮到在這種因果網(wǎng)絡(luò)結(jié)構(gòu)下,現(xiàn)存的特征選擇算法挑選出來(lái)的特征集幾乎都會(huì)包含{x1,x5}.所以,在這部分實(shí)驗(yàn)中分別選取4種特征集F1={x2,x3,x4},F(xiàn)2={x1,x5},F(xiàn)3={x1,x2,x5},F(xiàn)4={x1,x2,x3,x4,x5}對(duì)目標(biāo)變量y進(jìn)行預(yù)測(cè).另一方面,考慮到實(shí)際上噪聲對(duì)SVR預(yù)測(cè)的影響,實(shí)驗(yàn)分別以ε={0,0.01,0.02,0.05,0.1,0.2}6種不同程度的噪聲進(jìn)行實(shí)驗(yàn),所有實(shí)驗(yàn)均進(jìn)行1000次,取實(shí)驗(yàn)結(jié)果的平均值.
如圖4所示,以特征集F1和F4進(jìn)行預(yù)測(cè)的結(jié)果曲線幾乎是重合的,但明顯要比在F2和F3的情況下要好,其原因是F1和F4都包含了目標(biāo)變量y的所有直接因果特征.但由于F4的維度明顯比其余特征集高,其訓(xùn)練速度比其余久.在候選特征集規(guī)模很大的情況下,覆蓋所有候選特征基因進(jìn)行SVR預(yù)測(cè)往往很難操作.而F1僅僅覆蓋了目標(biāo)變量y的直接因果特征,由于y由其因果特征確定,所以在選用F1的情況下,其準(zhǔn)確率不低于其他任何特征集. 同時(shí),也可以看出不同特征對(duì)SVR的抗噪聲能力不同,F(xiàn)1和F4對(duì)應(yīng)的曲線相對(duì)于F2和F4在噪聲增加時(shí),預(yù)測(cè)的準(zhǔn)確率下降速度慢.下面將利用真實(shí)數(shù)據(jù)對(duì)CFS算法進(jìn)行進(jìn)一步的驗(yàn)證.
4.2 真實(shí)數(shù)據(jù)實(shí)驗(yàn)
在本節(jié)實(shí)驗(yàn)中,采用廣州某供冷站對(duì)集運(yùn)系統(tǒng)從2011年4月14號(hào)到2013年11月11號(hào)的943天的供冷數(shù)據(jù),針對(duì)提出的算法進(jìn)行評(píng)估.其中前800天數(shù)據(jù)用作訓(xùn)練,后143天數(shù)據(jù)用作模型檢驗(yàn).在用SVR模型進(jìn)行預(yù)測(cè)前,采用CFS算法對(duì)候選的16個(gè)特征集:{明天最高溫度、明天最低溫度、明天最高濕度、明天最低濕度、明天平均濕度、昨天最高溫度、昨天最低溫度、昨天最高濕度、昨天最低濕度、昨天平均濕度、昨天用冷量、兩天最高溫度差、兩天最低溫度差、兩天最高濕度差、兩天最低濕度差、兩天平均濕度差}進(jìn)行特征選擇,最終得到特征集為第{1, 2, 5, 7, 11, 14} 6個(gè)特征.為了進(jìn)行算法對(duì)比,利用常用的特征選擇方法MIGS同樣挑選前6個(gè)特征,按順序?yàn)閧11, 2, 7, 1, 6, 5}.可以看到CFS和MIGS挑選的結(jié)果僅有1個(gè)不同,這也一定程度顯示了CFS的適用性,另外由于全部候選特征僅有16個(gè),這里也全選特征進(jìn)行對(duì)比實(shí)驗(yàn).
由表1可以看出,在準(zhǔn)確率上CFS僅微優(yōu)于全選的結(jié)果,由偏差程度對(duì)比中也可以看到兩者極為接近. 而MIGS所選的6個(gè)特征中,由于遺漏了對(duì)制冷量有著直接因果關(guān)系的特征,因而效果不如前兩者的結(jié)果.真實(shí)實(shí)驗(yàn)的結(jié)果再一次表明,CFS算法適用于SVR特征選擇,能準(zhǔn)確地識(shí)別帶預(yù)測(cè)變量的直接因果因素.而其他的特征選擇算法都僅基于對(duì)最大依賴性準(zhǔn)則逼近,這些算法在得到的特征序列中,非因果特一般排在了因果特征前面,導(dǎo)致了特征集過(guò)大或遺漏因果特征,從而影響了SVR的學(xué)習(xí)能力.
上述實(shí)驗(yàn)表明,CFS算法應(yīng)用在SVR上有著優(yōu)良的效果.事實(shí)上,雖然因果特征對(duì)待預(yù)測(cè)變量起著決定性作用,但這并等同于一定要包含因果特征的特征集適用于SVR時(shí)才能達(dá)到最高的準(zhǔn)確率.在某些情況下,特征集不包含因果特征,也可能達(dá)到不遜于因果特征集的準(zhǔn)確率.
CFS算法旨在從理論上將因果網(wǎng)絡(luò)與特征選擇結(jié)合起來(lái),并為SVR提供一種可以完全確定特征集的途徑.雖然CFS算法從理論上解決了一直無(wú)法找到準(zhǔn)確特征集的問(wèn)題,但由于現(xiàn)存的條件獨(dú)立性測(cè)試算法相對(duì)于互信息計(jì)算對(duì)變量的樣本量需求更高,在樣本量不充分的情況下,應(yīng)用在SVR上CFS也有可能不及傳統(tǒng)的基于互信息的方法,這有待于條件獨(dú)立性研究的發(fā)展.
5 結(jié)語(yǔ)
與傳統(tǒng)的基于互信息的支持向量回歸特征選擇不同,本文采取了基于因果網(wǎng)絡(luò)的特征選擇方法,一方面利用條件獨(dú)立性測(cè)試尋找?guī)ьA(yù)測(cè)變量的直接關(guān)聯(lián)特征,排除了雖然滿足最大依賴性卻非直接關(guān)聯(lián)的特征;另一方面也從理論上找到了一種能確定特征個(gè)數(shù)的方法.文中采用虛擬網(wǎng)絡(luò)數(shù)據(jù)和真實(shí)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),結(jié)果表明該算法應(yīng)用在支持向量回歸預(yù)測(cè)上優(yōu)于其他特征選擇算法.
參考文獻(xiàn):
[1] CAO L J, CHUA K S, CHONG W K, et al. A comparison of SA, KSA and ICA for dimensionality reduction in support vector machine[J]. Neurocomputing, 2003,55(1):321-336.
[2] PENG H, LONG F, DING C. Feature selection based on mutual information criteria of max-dependency, max-relevance, and min-redundancy[J]. Patt Anal Machine Intel, IEEE Trans, 2005,27(8):1226-1238.
[3] MAJI P, GARAI P. On fuzzy-rough attribute selection: criteria of max-dependency, max-relevance, min-redundancy, and max-significance[J]. Appl Soft Comput, 2013,13(9):3968-3980.
[4] CAI R, HAO Z, YANG X, et al. An efficient gene selection algorithm based on mutual information[J]. Neurocomputing, 2009,72(4):991-999.
[5] MAJI P, PAUL S. Rough set based maximum relevance-maximum significance criterion and gene selection from microarray data[J]. Int J Approx Reason, 2011,52(3):408-426.
[6] PEARL J. Causality: models, reasoning and inference[M]. Cambridge: The MIT press, 2000.
[7] COVER T M, THOMAS J A, Elements of Information Theory[M]. New Jersey: Wiley, 2005.
[8] SPIRTES, GLYMOUR C, SCHEINES R. Causation, prediction, and search[M]. Cambridge:The MIT Press, 2000.
[9] TSAMARDINOS I, BROWN L E, ALIFERIS C F. The max-min hill-climbing Bayesian network structure learning algorithm[J]. Machine Learning, 2006,65(1):31-78.
[10] JANZING D, MOOIJ J, ZHANG K, et al. Information-geometric approach to inferring causal directions[J]. Artif Intell, 2012,56(10):5168-5194.
[11] HOYER P O, JANZING D, MOOIJ J, et al. Nonlinear causal discovery with additive noise models[C]//Advances in Neural Information Processing Systems. Vancouver, Canada: MIT Press, 2009:689-696.
[12] PETERS J, JANZING D, SCHOLKOPF B. Causal inference on discrete data using additive noise models[J]. IEEE Trans Patt Anal Machine Intell, 2011,33(12):2436-2450.
[13] CAI R, ZHANG Z, HAO Z. BASSUM: A Bayesian semi-supervised method for classification feature selection[J]. Patt Recog, 2011,44(4):811-820.
[14] ZHANG K, PETERS J, JANZING D, et al. Kernel-based conditional independence test and application in causal discovery[EB/OL]. (2012-02-14) [2013-10-24]. http://arxiv.org/ftp/arxiv/papers/1202/1202.3775.pdf.
(編輯 胡文杰)