來(lái)學(xué)偉
摘 ? 要:簡(jiǎn)單介紹兩種最為流行和有用的方法,針對(duì)每一種圖模型進(jìn)行了分析,詳細(xì)介紹了如何使用一個(gè)圖來(lái)描述概率分布的結(jié)構(gòu)。最后判斷哪些變量之間存在直接的相互作用關(guān)系,也就是對(duì)于給定的問(wèn)題哪一種圖結(jié)構(gòu)是最適合的。
關(guān)鍵詞:圖模型;概率;因子
1 ? ?背景介紹
圖模型在深度學(xué)習(xí)的研究領(lǐng)域應(yīng)用非常廣泛,研究人員曾提出過(guò)大量的訓(xùn)練算法、模型和推斷算法。與普通的圖模型研究者不同,基于深度學(xué)習(xí)的研究者們通常會(huì)使用完全不同的模型結(jié)構(gòu)學(xué)習(xí)算法和推斷過(guò)程。使用圖來(lái)描述深度學(xué)習(xí)中的概率分布相互作用的方法也不止一種。首先,介紹幾種最為流行和有用的方法。其次,分析如何使用一個(gè)圖來(lái)描述概率分布的結(jié)構(gòu)。最后,判斷哪些變量之間存在直接的相互作用關(guān)系,也就是對(duì)于給定的問(wèn)題哪一種圖結(jié)構(gòu)是最適合的。
2 ? ?常見(jiàn)的圖模型
圖模型可以被大致分為兩類:基于模型的有向無(wú)環(huán)圖和基于模型的無(wú)向模型。
2.1 ?有向模型
有一種結(jié)構(gòu)化概率模型是有向圖模型(Directed Graphical Model,DGM),也被稱為信念網(wǎng)絡(luò)(Belief Network)或者貝葉斯網(wǎng)絡(luò)(Bayesian Network)(Pearl,1985)[1]。之所以命名為有向圖模型是因?yàn)樗械倪叾际怯蟹较虻?,即從一個(gè)結(jié)點(diǎn)指向另一個(gè)結(jié)點(diǎn)。這個(gè)方向可以通過(guò)畫(huà)一個(gè)箭頭來(lái)表示。箭頭所指的方向表示了這個(gè)隨機(jī)變量的概率分布依賴于其他變量[2]。畫(huà)一個(gè)從結(jié)點(diǎn)a到結(jié)點(diǎn)b的箭頭表示了用一個(gè)條件分布來(lái)定義b,而a是作為這個(gè)條件分布符號(hào)右邊的一個(gè)變量。換句話說(shuō),b的概率分布依賴于a的取值。
假設(shè)Alice的完成時(shí)間為t0,Bob的完成時(shí)間為t1,Carol的完成時(shí)間為t2。t1的估計(jì)是依賴于t0的,t2的估計(jì)是依賴于t1的,但是僅僅間接地依賴于t0。正式地講,變量x的有向概率模型是通過(guò)有向無(wú)環(huán)圖G和一系列局部條件概率分布(Local Conditional Probability Distribution)p(xi|PaG(xi))來(lái)定義的[3],其中PaG(xi)表示結(jié)點(diǎn)xi的所有父結(jié)點(diǎn)。x的概率分布可以表示為:
在之前所述的接力賽的例子中,這意味著概率分布可以被表示為:
這個(gè)結(jié)構(gòu)化概率模型的實(shí)際例子能夠檢查這樣建模的計(jì)算開(kāi)銷,能夠驗(yàn)證相比于非結(jié)構(gòu)化建模,結(jié)構(gòu)化建模為什么有那么多優(yōu)勢(shì)。假設(shè)采用從第0 min到第10 min每6 s一塊的方式離散化地表示時(shí)間,這使得t0、t1和t2都是一個(gè)有100個(gè)取值可能的離散變量。如果嘗試用一個(gè)表來(lái)表示p(t0,t1,t2),那么需要存儲(chǔ)999 999個(gè)值(t0的取值100×t1的取值100×t2的取值100減去1,所有的概率的和為1,所以其中有1個(gè)值的存儲(chǔ)是多余的)。反之,如果用一個(gè)表來(lái)記錄每一種條件的概率分布,那么記錄t0的分布需要存儲(chǔ)99個(gè)值,給定t0情況下t1的分布需要存儲(chǔ)9 900個(gè)值,給定t1情況下t2的分布也需要存儲(chǔ)9 900個(gè)值。加起來(lái)總共需要存儲(chǔ)19 899個(gè)值。這意味著使用有向圖模型需要存儲(chǔ)的參數(shù)個(gè)數(shù)減少了50倍。通常意義上說(shuō),對(duì)每個(gè)變量都能取k個(gè)值的n個(gè)變量建模,基于建表的方法需要的復(fù)雜度是O(kn),就像之前討論過(guò)的一樣?,F(xiàn)在假設(shè)用一個(gè)有向圖模型來(lái)對(duì)這些變量建模。如果m代表圖模型的單個(gè)條件概率分布中最大的變量數(shù)目(在條件符號(hào)的左右皆可),那么對(duì)這個(gè)有向模型建表的復(fù)雜度大致為O(km)。只要在設(shè)計(jì)模型時(shí)使其滿足m<n,那么復(fù)雜度就會(huì)被極大減小。換一句話說(shuō),如果每個(gè)變量只有少量的父結(jié)點(diǎn),那么這個(gè)分布就可以用較少的參數(shù)來(lái)表示。圖結(jié)構(gòu)上的一些限制條件,比如說(shuō)要求這個(gè)圖為一棵樹(shù),也可以保證一些操作(比如說(shuō)求一小部分變量的邊緣或者條件分布)更加高效。決定哪些信息需要被包含在圖中而哪些不需要是很重要的。如果許多變量可以被假設(shè)為獨(dú)立條件,那么這個(gè)圖模型可以被大大簡(jiǎn)化。當(dāng)然也存在其他簡(jiǎn)化圖模型的假設(shè)。比如說(shuō),可以假設(shè)無(wú)論Alice的表現(xiàn)如何,Bob總是跑得一樣快(實(shí)際上,Alice的表現(xiàn)很大概率會(huì)影響B(tài)ob的表現(xiàn),這取決于Bob的性格,如果在之前的比賽中Alice跑得特別快,這有可能鼓勵(lì)Bob更加努力,當(dāng)然這也有可能使得Bob懶惰)。那么Alice對(duì)Bob的唯一影響就是在計(jì)算Bob的完成時(shí)間時(shí)需要加上Alice的時(shí)間。這個(gè)假設(shè)使得所需要的參數(shù)量從O(k2)降到了O(k)。然而,值得注意的是在這個(gè)假設(shè)下t0和t1仍然是直接相關(guān)的,因?yàn)閠1表示的是Bob完成的時(shí)間,并不是他跑的時(shí)間。這也意味著圖模型中會(huì)有一個(gè)從t0指向t1的箭頭?!癇ob的個(gè)人跑步時(shí)間相對(duì)于其他因素是獨(dú)立的”這個(gè)假設(shè)無(wú)法在t0,t1,t2的圖模型中被表示出來(lái)。只能將這個(gè)關(guān)系表示在條件分布中。這個(gè)條件分布不再是一個(gè)大小為k×(k?1)的分別對(duì)應(yīng)著t0,t1的表格,而是一個(gè)包含了k?1個(gè)參數(shù)的略復(fù)雜的公式。有向圖模型并不能對(duì)我們?nèi)绾味x條件分布做出任何限制,它只能定義哪些變量之間存在著依賴性關(guān)系。
2.2 ?無(wú)向模型
有向圖模型提供了一個(gè)描述結(jié)構(gòu)化概率模型的語(yǔ)言。而另一種常見(jiàn)的語(yǔ)言則是無(wú)向模(Undirected Model),也叫作馬爾可夫隨機(jī)場(chǎng)(Markov Random Field,MRF)或者是馬爾可夫網(wǎng)絡(luò)(Markov Network)(Kindermann,1980)[4]。就像它們的名字所說(shuō)的那樣,無(wú)向模型中所有的邊都是沒(méi)有方向的。
有向模型適用于當(dāng)存在一個(gè)很明顯的理由來(lái)描述每一個(gè)箭頭的時(shí)候。有向模型中,經(jīng)常存在具有因果關(guān)系以及因果關(guān)系有明確方向的情況。接力賽就是一個(gè)這樣的例子。之前運(yùn)動(dòng)員的表現(xiàn)影響了后面的運(yùn)動(dòng)員,而后面的運(yùn)動(dòng)員卻不會(huì)影響前面的運(yùn)動(dòng)員。然而并不是所有情況的相互影響中都有一個(gè)明確方向關(guān)系。當(dāng)相互的作用并沒(méi)有本質(zhì)的方向,或者是明確的有相互影響的時(shí)候,使用無(wú)向模型更加合適。作為一個(gè)這種情況的例子,假設(shè)希望對(duì)3個(gè)二值隨機(jī)變量建模。使用無(wú)向模型,其中,隨機(jī)變量對(duì)應(yīng)著圖中相互作用的結(jié)點(diǎn)。不像是有向模型中,在無(wú)向模型中的邊是沒(méi)有方向的,并不與一個(gè)條件分布相關(guān)聯(lián)。
把對(duì)應(yīng)你的健康的隨機(jī)變量記為hy,對(duì)應(yīng)你的室友健康狀況的隨機(jī)變量記為hr,你的同事健康的變量記為hc,如圖1所示。
正式說(shuō),一個(gè)無(wú)向模型是一個(gè)定義在無(wú)向模型G上的一個(gè)結(jié)構(gòu)化概率模型。對(duì)圖中的每一個(gè)團(tuán)(Clique)3C,一個(gè)因子(Factor)?(C)[也叫作團(tuán)勢(shì)能(Clique Potential)],衡量了團(tuán)中變量的不同狀態(tài)所對(duì)應(yīng)的密切程度。這些因子都被限制為非負(fù)的。合在一起定義了未歸一化概率函數(shù)(Unnormalized Probability Function):
(3)
只要所有團(tuán)中的結(jié)點(diǎn)數(shù)都不大,那么就能夠高效地處理這些未歸一化概率函數(shù)。它包含了這樣的思想:越高密切度的狀態(tài)有越大的概率。然而,不像貝葉斯網(wǎng)絡(luò),幾乎不存在團(tuán)定義的結(jié)構(gòu),所以不能保證把它們乘在一起能夠得到一個(gè)有效的概率分布。
對(duì)于你來(lái)講,你的室友和同事之間感冒傳染的例子中包含了兩個(gè)團(tuán)。一個(gè)團(tuán)包含了hy和hc個(gè)團(tuán)的因子可以通過(guò)一個(gè)表來(lái)定義,可能取到下面的值:狀態(tài)為1代表了健康的狀態(tài),相對(duì)的,狀態(tài)為0則表示不好的健康狀態(tài)(即被感冒傳染)。你們兩個(gè)通常都是健康的,所以對(duì)應(yīng)的狀態(tài)擁有最高的密切程度。兩個(gè)人中只有一個(gè)人生病的密切程度是最低的,因?yàn)檫@是一個(gè)很少見(jiàn)的狀態(tài)。兩個(gè)人都生病的狀態(tài)(通過(guò)一個(gè)人來(lái)傳染給了另一個(gè)人)有一個(gè)稍高的密切程度,盡管仍然不及兩個(gè)人都健康的密切程度。為了完整地定義這個(gè)模型,需要對(duì)包含hy和hr的團(tuán)定義類似的因子。
3 ? ?結(jié)語(yǔ)
簡(jiǎn)單介紹兩種最為流行和有用的方法。針對(duì)每一種圖模型進(jìn)行了分析,詳細(xì)介紹了如何使用一個(gè)圖來(lái)描述概率分布的結(jié)構(gòu)。最后判斷哪些變量之間存在直接的相互作用關(guān)系,也就是對(duì)于給定的問(wèn)題哪一種圖結(jié)構(gòu)是最適合的。
[參考文獻(xiàn)]
[1]劉 ? 真.實(shí)用計(jì)算機(jī)圖形與動(dòng)畫(huà)技術(shù)[M].北京:電子工業(yè)出版社,1998.
[2]漸漸遺忘的記憶.深度學(xué)習(xí)中結(jié)構(gòu)化概率模型[EB/OL].(2019-05-24)[2019-09-15].https://blog.csdn.net/h2026966427/article/details/90512114.
[3]袁 ? 正.貝葉斯網(wǎng)絡(luò)靈敏性分析方法及其在復(fù)雜系統(tǒng)故障診斷中的應(yīng)用[D].合肥:合肥工業(yè)大學(xué),2012.
[4]張 ? 敏.基于SVM和CRF的病癥實(shí)體抽取方法研究[D].成都:成都理工大學(xué),2018.