朱明敏,劉三陽
(西安電子科技大學 數(shù)學與統(tǒng)計學院,陜西西安710126)
隨著科技、計算機技術(shù)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,數(shù)據(jù)量爆炸式增長。由于數(shù)據(jù)獲取方式的隨機性和復雜性,以及人類認識的不完全、不精確和不一致性,使得數(shù)據(jù)模式之間的關(guān)系極其復雜,存在大量的不確定性。研究不確定性問題的知識表示、推理和學習方法,從目標數(shù)據(jù)中提取潛在的可利用信息,對決策過程進行輔助支持,成了亟待解決的問題[1-4]。圖模型作為概率統(tǒng)計與圖論相結(jié)合的產(chǎn)物,因其較好的靈活性、簡潔性以及成熟的理論,在不確定性知識的表達和推理方面具有獨特優(yōu)勢,已成功應用于機器學習、人工智能、生物信息學、金融分析與預測等領(lǐng)域[5-8]。
高斯貝葉斯網(wǎng)絡(luò)(Gaussian Bayesian networks,GNs)[5]是一種特殊的圖模型,由定性和定量兩部分組成,定性部分是一個有向無環(huán)圖(DAG),表示變量之間的依賴結(jié)構(gòu),定量部分由分配給隨機變量的高斯條件密度函數(shù)組成。從所給數(shù)據(jù)集中確定GN的結(jié)構(gòu)和參數(shù)等價于估計多元正態(tài)分布的均值向量和協(xié)方差矩陣。協(xié)方差矩陣的估計往往非常困難。首先,作為估計的矩陣正定性很難保證,其次,待估參數(shù)的個數(shù)隨矩陣維數(shù)成二次方增長,難以保證估計結(jié)果的精確性。另一方面,在許多實際問題中,環(huán)境變化或外部刺激往往會改變隨機變量之間的條件依賴性,并可能在相應的圖模型中產(chǎn)生重大的結(jié)構(gòu)變化,導致模型參數(shù)(協(xié)方差矩陣)發(fā)生變化。因此,由數(shù)據(jù)檢測其結(jié)構(gòu)變化并幫助系統(tǒng)適應新的環(huán)境非常重要?;诖耍瑸樯钊敕治鰣D結(jié)構(gòu)變化的形式和特點,通常用靈敏度分析方法[9-14]來研究模型的輸出如何隨其結(jié)構(gòu)或參數(shù)的變化而變化,其結(jié)果可作為結(jié)構(gòu)或參數(shù)調(diào)整的依據(jù),同時可用來研究模型輸出對參數(shù)變化的魯棒性。
基于以上分析,本文提出一種改進的Bhattacharyya距離[15]用于度量2個協(xié)方差矩陣之間的差異性,簡稱為SΣ距離,證明了該距離在正定矩陣空間中滿足距離的3個性質(zhì):正定性、對稱性以及三角不等性,并將SΣ距離用于GN協(xié)方差矩陣的靈敏度分析。數(shù)值實驗結(jié)果表明,利用SΣ距離得到的分析結(jié)果與 KL 距離[9,16]、Bhattacharyya距離完全一致,并且由于SΣ距離滿足三角不等性,大大降低了矩陣的運算量。
下文內(nèi)容安排如下:第1節(jié)介紹高斯貝葉斯網(wǎng)絡(luò)及其證據(jù)傳播的基本概念;第2節(jié)給出基于SΣ距離的協(xié)方差矩陣靈敏度分析方法;第3節(jié)為數(shù)值實驗;最后為結(jié)束語,同時給出了今后的研究方向。
符號約定:在論述高斯網(wǎng)絡(luò)中的節(jié)點或概率分布中的隨機變量時,大寫字母X、Y、E等表示節(jié)點集合或變量集合,帶下標的字母或單個字母,如Xi表示單個節(jié)點或變量,大寫粗體字母X、Y、C等表示矩陣。
高斯網(wǎng)絡(luò)(GN)[5,12]是一個二元組 (G,F),G 是一個有向無環(huán)圖,G中的節(jié)點與一組有序隨機變量{X1,X2,…,Xn}一一對應,G中的有向邊反映了變量之間的因果依賴關(guān)系;F={f1(x1|pa(x1)),…,fn(xn|pa(xn))}是所有變量的條件概率密度構(gòu)成的集合。pa(xi)表示第i個變量Xi在G中的父節(jié)點集合,顯然pa(xi)? {X1,X2,…,Xi-1}(i≥ 2), pa(x1)=?。集合F定義了一個關(guān)于變量集X={X1,X2,…,Xn}上的多元正態(tài)分布N(μ,Σ):
其中,μ表示n維均值向量,Σ表示n×n正定協(xié)方差矩陣。每個變量Xi(i=1,2,…,n)服從以下一元正態(tài)分布:
并且滿足
其中,μi表示變量 Xi的均值,βji表示變量 Xi關(guān)于其父變量 Xj∈ pa(xi)的回歸系數(shù),νi表示變量 Xi在給定父變量集下的條件方差。βji實際上給出了Xi和Xj之間的因果依賴強度。若βji=0,那么在G中不存在從 Xj到 Xi的有向邊。SHACHTER 等[17]給出了一種通過{νi}和{βji}計算協(xié)方差矩陣Σ的公式:
其中,D為對角矩陣,對角元素為條件方差νi,即D=diag({ν1,ν2,…,νn}),B 是以回歸系數(shù) βji(j<i)為元素的嚴格上三角矩陣。
在實際問題中,當GN的結(jié)構(gòu)和參數(shù)確定后,主要任務是計算給定證據(jù)變量(取值已知)條件下某些未知變量(或稱為目標變量)的后驗條件概率分布,這一過程稱為證據(jù)傳播[12]。例如,已知一個證據(jù)變量E∈X?Xi,證據(jù)傳播結(jié)束后,每個變量Xi∈X的后驗邊緣分布服從正態(tài)分布:
其中,μi和 μe分別表示 Xi和 E 的均值,σii和 σee分別表示Xi和E的方差,σie表示Xi和E在證據(jù)傳播前的協(xié)方差。
更一般的情況:若給定一個證據(jù)變量集E=X?Y,證據(jù)傳播結(jié)束后,變量集Y?X在E=e條件下服從均值向量為μY|E,方差為ΣY|E的多元正態(tài)分布,
本節(jié)首先給出一種基于Bhattacharyya距離[15]的正定矩陣度量公式,記為SΣ,并證明其在正定矩陣空間中滿足距離的3個性質(zhì):對稱性、正定性以及三角不等性。然后,利用SΣ對高斯網(wǎng)絡(luò)的協(xié)方差矩陣進行靈敏度分析。
假設(shè)f1和f2表示參數(shù)分別為μ1,Σ1和μ2,Σ2的n元正態(tài)密度函數(shù)。μ1和μ2分別是均值向量,Σ1和Σ2分別是n×n元正定協(xié)方差矩陣,則f1和f2之間的Bhattacharyya距離可通過下式計算:
顯然,Bhattacharyya距離滿足距離的對稱性和正定性,但不滿足三角不等性。注意到式(7)右邊為2項相加,第1項度量了2個均值向量μ1和μ2之間的差異,第2項給出了Σ1和Σ2之間的差異,且與均值向量 μ1和 μ2相獨立。若 Σ1= Σ2,則
若 μ1= μ2,則
注意到式(8)右端取根號即可滿足距離度量的3個性質(zhì):對稱性、正定性、三角不等性。式(9)給出了2個正定協(xié)方差矩陣的距離度量,而協(xié)方差矩陣屬于一類特殊的矩陣空間,即Riemannian流形。式(9)右端取根號,得到關(guān)于對稱正定矩陣的距離度量:
接下來,將證明SΣ(Σ1,Σ2)滿足距離度量的3個性質(zhì):對稱性、正定性以及三角不等性。下面先給出與證明相關(guān)的基本概念和引理。
定義1[18]設(shè)X非空,φ:X× X?R是定義在集合X×X上的實值核。φ是正定的當且僅當對?x,y∈ X,φ(x,y)=φ(y,x),且對所有n∈ N,
其中{x1,x2,…,xn}? X,{c1,c2,…,cn}? R。
引理1[18]設(shè)X非空,φ:X× X?R是定義在集合X×X上的實值核。φ是負定的當且僅當對所有t> 0,exp(-tφ)是正定的。
引理2[18]設(shè)φ:X×X→ R是負定的,則存在Hilbert空間H?RX和映射φ:X?H,使得
由以上引理可得到關(guān)于SΣ的Minkowski不等式。
定理1設(shè)x,y,z∈R且x,y,z>0。則SΣ滿足三角不等式:
若x,y,z∈ Rn且xi,yi,zi> 0,i=1,2,…,n,則
證明先證不等式(11)。
若x,y∈ R且x,y> 0,則
且
由此可知,
等價于一個Gram矩陣[〈fi,fj〉],其中
對t>0,xi>0是二次可積的。因此,對任意n≥1,G是對稱正定的,從而核函數(shù)exp(-tφ(x,y))是正定的。故不等式(11)成立。
再證不等式(12)。
若 x,y,z∈ Rn且 xi,yi,zi> 0,i=1,2,…,n,則由引理2,存在Hilbert空間H ? Rn和映射φ:X ? H,使得
因
此,對p> 1,有
因此,
由定理1可證得SΣ(Σ1,Σ2)滿足距離度量的3個性質(zhì)。
定理2設(shè)X,Y,Z∈,則
證明由于X,Y,Z∈,所以,存在可逆矩陣 C 使得 CTXC=I,CTYC=D,CTZC=Dˉ,其中D和是對角矩陣,Dii,ˉii,i=1,2,…,n。
要證明 SΣ(X,Y)≤ SΣ(X,Z)+SΣ(Z,Y),
只須證 SΣ(I,D)≤ SΣ(I,Dˉ)+SΣ(Dˉ,D)。
易知
由定理1知,當p=2時,不等式
成立。結(jié)論得證。
設(shè)μ和Σ表示由統(tǒng)計數(shù)據(jù)或?qū)<业玫降某跏寄P蛥?shù),即X~N(μ,Σ),其中
通過對矩陣B和D進行擾動來模擬環(huán)境的變化或刺激對初始模型的影響,從而得到擾動后的模型N(μ,ΣΔB
)和N(μ,ΣΔD),ΔB和ΔD分別表示對矩陣B和D的擾動量,顯然ΔB是嚴格的上三角矩陣,ΔD是對角矩陣。
(1)若對系數(shù)矩陣B進行擾動,擾動量為ΔB,則擾動后的模型為N(μ,ΣΔB),
擾動前后協(xié)方差矩陣的距離為
(2)若對矩陣D進行擾動,擾動量為ΔD,則擾動后的模型為N(μ,ΣΔD),
擾動前后協(xié)方差矩陣的距離為
(3)若在模型的擾動過程中同時伴隨證據(jù)傳播,設(shè)集合E表示已知證據(jù)變量集,Y=XE表示非證據(jù)變量集,由式(5)和(6)知,證據(jù)傳播后的初始模型為N(μY|E,ΣY|E);對矩陣B和D擾動后進行證據(jù)傳播,得到擾動后的模型,記為 N(,)和N(,)。其中,
擾動前后協(xié)方差矩陣的距離為
注 在證據(jù)傳播過程中,對協(xié)方差矩陣的擾動可能對非證據(jù)變量的均值有影響。
為驗證方法的有效性,本文采用文獻[12]的GN進行數(shù)值實驗。該網(wǎng)絡(luò)用于評估某建筑物鋼筋混凝土結(jié)構(gòu)的損壞程度,包含24個高斯變量,27條有向邊。其有向圖結(jié)構(gòu)如圖1所示,有向邊上的數(shù)值表示變量之間的回歸系數(shù),變量X1,X2,…,X16的條件方差為1,其余變量的條件方差為10-4,其參數(shù)設(shè)置詳見文獻[12]。
圖1 GN有向圖結(jié)構(gòu)示例Fig.1 A example of GN
現(xiàn)假設(shè)領(lǐng)域?qū)<覍δP偷亩ㄐ圆糠?,即網(wǎng)絡(luò)結(jié)構(gòu)意見不一致,需通過靈敏度分析對網(wǎng)絡(luò)結(jié)構(gòu)進行調(diào)整且要求對原模型的影響盡可能小。由GN的定義可知,系數(shù)矩陣B中的元素與有向圖中的邊是一一對應的,若βji=0,表示在有向圖中不存在從Xj到Xi的有向邊。因此,可通過矩陣B的擾動來研究圖結(jié)構(gòu)的變化。
在鋼筋混凝土結(jié)構(gòu)評估問題中,專家們希望找到與原模型最接近又盡可能簡潔的圖結(jié)構(gòu)。為此,通過每次刪除1條有向邊后,計算刪除前后對應協(xié)方差矩陣之間的SΣ距離來判斷該有向邊對網(wǎng)絡(luò)結(jié)構(gòu)的影響,表1給出了每刪除1條邊前后協(xié)方差的SΣ距離、KL距離以及Bhattacharyya距離,由表1可知,刪除有向邊X18→X20對原模型影響較大,刪除有向邊X16→X24和X15→X24對原模型幾乎無影響,得到的SΣ距離與KL距離以及Bhattacharyya距離完全一致。
圖2 標準化后的SΣ距離、KL距離以及Bhattacharyya距離對比Fig.2 Performance of the standardSΣKL and Bhattacharyya divergences
圖2 給出了標準化后的SΣ距離、KL距離以及Bhattacharyya距離,橫坐標表示依次刪除的有向邊序號,縱坐標表示刪除每條邊前后對應的協(xié)方差矩陣距離。由圖2可知,當協(xié)方差矩陣之間的差異較小時,SΣ距離對有向邊的影響度區(qū)分較好;當協(xié)方差矩陣之間的差異較大時,KL距離對有向邊的影響度區(qū)分較好。另一方面,由于SΣ距離滿足三角不等性,可直接用來判斷多條邊的影響度,從而避免了大量的矩陣運算。例如,要判斷同時刪除有向邊X16→ X24和X15→ X24對網(wǎng)絡(luò)結(jié)構(gòu)的影響,設(shè)s?表示同時刪除這2條邊前后的協(xié)方差矩陣的SΣ距離,則由表1以及三角不等性知:s?≥0.240 370 591-0.10 547 111 且 s?≤ 0.240 370 591+0.10 547 111,而利用KL距離和Bhattacharyya距離判斷時,無法直接使用三角不等性,需重新計算刪除這2條邊前后協(xié)方差矩陣之間的距離。因此,對于高維復雜問題,利用SΣ距離判斷協(xié)方差矩陣之間的距離更加有效,可節(jié)省大量存儲空間和計算時間。
高斯圖模型的結(jié)構(gòu)和參數(shù)學習是統(tǒng)計學和機器學習領(lǐng)域研究的熱點,從所給數(shù)據(jù)集中確定GN的結(jié)構(gòu)和參數(shù)等價于估計多元正態(tài)分布的均值向量和協(xié)方差矩陣。協(xié)方差矩陣的估計往往非常困難,難以保證結(jié)果的精確性。因此,常用靈敏度分析方法研究模型的結(jié)構(gòu)和參數(shù)變化情況,其結(jié)果可作為結(jié)構(gòu)或參數(shù)調(diào)整的依據(jù),并可用于研究模型輸出對參數(shù)變化的魯棒性。本文基于改進的Bhattacharyya距離,提出了一種用于度量正定矩陣差異性的距離公式,證明了此距離在正定矩陣空間中滿足距離的3個性質(zhì),并將其用于GN協(xié)方差矩陣的靈敏度分析。數(shù)值實驗結(jié)果表明,利用此距離得到的分析結(jié)果與KL距離、Bhattacharyya距離的結(jié)果完全一致,并且由于此距離滿足三角不等性,可大大降低矩陣的運算量,適用于高維復雜GN的靈敏度分析。接下來,筆者將進一步考慮將此距離公式應用于圖像分類和回歸。
表1 刪除1條有向邊后對應的KL距離、Bhattacharyya距離以及SΣ距離Table 1 The KL,Bhattacharyya andSΣdivergences after removing a directed edge