張子楠 丁玉隆
摘要:在人工智能領(lǐng)域中有很多問題存在著相變現(xiàn)象,而相變現(xiàn)象與問題本身結(jié)構(gòu)有很大關(guān)系。通過實驗發(fā)現(xiàn)深度時空推理網(wǎng)絡(luò)在處理帶有高斯噪聲的數(shù)據(jù)時,網(wǎng)絡(luò)的識別率會隨著噪聲的程度增加發(fā)生相變現(xiàn)象,即從90%以上突然驟減為0。對這種深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)進行網(wǎng)絡(luò)結(jié)構(gòu)本身進行研究,發(fā)現(xiàn)當(dāng)參數(shù)值在一定范圍時,這種深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的識別率會發(fā)生相變現(xiàn)象,分析原因,提出一種方法來提高深度時空推理網(wǎng)絡(luò)的抗噪性能,并提出有待解決的問題。
關(guān)鍵詞:DeSTIN網(wǎng)絡(luò);深度學(xué)習(xí);相變;神經(jīng)網(wǎng)絡(luò);高斯噪聲
中圖分類號:TP391 文獻標(biāo)識碼:A 文章編號:1009-3044(2014)04-0829-07
1 介紹
近年來,隨著深度學(xué)習(xí)在圖像識別、語音識別和文本識別等領(lǐng)域表現(xiàn)出很好的實驗效果,深度學(xué)習(xí)在人工智能領(lǐng)域有了巨大的發(fā)展。但是,深度學(xué)習(xí)在動態(tài)人體行為識別領(lǐng)域的能力還有待加強。如何處理時空圖像信息成為了深度學(xué)習(xí)領(lǐng)域一個新的發(fā)展方向。2009年,一種新的深度學(xué)習(xí)系統(tǒng)——DeSTIN被提出[1-2]。
相變現(xiàn)象是物質(zhì)本身的狀態(tài)轉(zhuǎn)化的物理現(xiàn)象,例如,水有氣態(tài)、液態(tài)和固態(tài)三種形態(tài),三種狀態(tài)之間的轉(zhuǎn)化過程,即為相變現(xiàn)象,它反映了物質(zhì)兩邊和質(zhì)變的本質(zhì)。在計算機領(lǐng)域之中,相變現(xiàn)象也是普遍存在的。例如,在合取范式的可滿足性問題(SAT問題)中的相變現(xiàn)象[3-4],存在一個臨界點使得SAT問題發(fā)生可解到無解的轉(zhuǎn)變。在不同的問題中,相變現(xiàn)象的刻畫方式和呈現(xiàn)出的結(jié)果也是不盡相同。2002年,Huepe C等人在研究布爾網(wǎng)絡(luò)中處理噪聲對于網(wǎng)絡(luò)性能的影響,并提出以下結(jié)論:在權(quán)值固定的神經(jīng)網(wǎng)絡(luò)和根據(jù)概率密度函數(shù)進行權(quán)值調(diào)節(jié)的神經(jīng)網(wǎng)絡(luò)的相變點是不同的[5]。2012年,Peixoto T P等人根據(jù)布爾網(wǎng)絡(luò)的優(yōu)化函數(shù),并作為基因調(diào)控的概念模型,抗噪聲的選擇壓力的魯棒性對布爾網(wǎng)絡(luò)結(jié)構(gòu)進化的影響[6]。
2 DeSTIN
DeSTIN是一種新的深度學(xué)習(xí)系統(tǒng),該系統(tǒng)融合了無監(jiān)督學(xué)習(xí)和貝葉斯推理。DeSTIN系統(tǒng)的架構(gòu)是一種層次結(jié)構(gòu),每一層由具有相同結(jié)構(gòu)的節(jié)點組成。DeSTIN網(wǎng)絡(luò)的輸入是采用圖像像素的觀察值。在隱含層中,每一層的節(jié)點都包含著一定數(shù)量的聚類中心,DeSTIN網(wǎng)絡(luò)在聚類的過程中DeSTIN網(wǎng)絡(luò)采用winner take all的方法來更新聚類中心。這樣通過每層的聚類傳遞,從而形成這樣的一個結(jié)構(gòu),每個節(jié)點輸出在其所在層的信念值,整個DeSTIN網(wǎng)絡(luò)會從這些信念值中提取出數(shù)據(jù)本身所包含的某種特征或模式[7-8]。
DeSTIN網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示,網(wǎng)絡(luò)每層都被分為若干個4*4的像素區(qū)域,第N-1層的一個4*4的像素區(qū)域連接著第N層的一個節(jié)點,第N層的四個節(jié)點再組成一個4*4的像素區(qū)域連接著第N+1層的一個節(jié)點,DeSTIN網(wǎng)絡(luò)通過這樣一種連接方式進行數(shù)據(jù)的傳輸。
圖1 DeSTIN網(wǎng)絡(luò)結(jié)構(gòu)示意圖
DeSTIN網(wǎng)絡(luò)中的每一層中的每個節(jié)點都是一個聚類區(qū)域,每個節(jié)點都包含一定數(shù)量的聚類中心,計算輸入數(shù)據(jù)與每個聚類中心的馬氏距離,進而可以找到馬氏距離最小的那個聚類中心,該聚類中心會被作為優(yōu)勝聚類中心(winning centroid)。而每一個聚類區(qū)域的聚類中心數(shù)目是根據(jù)實際情況隨機變動的。該聚類中心更新的規(guī)則按照公式(1)進行。
3 不同噪聲程度下DeSTIN網(wǎng)絡(luò)中的相變現(xiàn)象
3.1 DeSTIN網(wǎng)絡(luò)的在線聚類算法
在DeSTIN網(wǎng)絡(luò)的每層中都有若干個4*4的聚類區(qū)域,在整個網(wǎng)絡(luò)初始化時,給定每個聚類區(qū)域中存在聚類中心的數(shù)目,在每層聚類之前,網(wǎng)絡(luò)會初始化指定每個聚類中心的位置,然后根據(jù)觀察值的分布,按照公式(2)調(diào)整聚類中心的位置。
公式(1)中的[x]即為最后確定時,聚類中心的位置,[o]為圖像的觀察值,[α]為調(diào)整聚類中心更新速度的學(xué)習(xí)率。在聚類的過程中, DeSTIN網(wǎng)絡(luò)采用了winner take all的工作原理,即在計算觀察值到當(dāng)前聚類中心的距離時,只找與聚類中心距離最短的像素,根據(jù)這個距離最短的像素的位置,進行聚類中心的調(diào)整。
但是,初始化的類聚中心并不是都會很理想,有時會產(chǎn)生一些空閑的類聚中心。為了解決這些問題,DeSTIN網(wǎng)絡(luò)采用空閑聚類的方法和偽逆熵值計算的方法。
解決空閑聚類的策略是,設(shè)定一個參數(shù)[ψx],根據(jù)公式(3)來調(diào)整空閑聚類中心的位置。
隨著聚類中心的狀態(tài)轉(zhuǎn)移,若空閑聚類中心沒有得到調(diào)整,那么參數(shù)[ψx]的值就會逐漸增大,而空閑聚類中心聚類某個像素的距離就會縮短,直到某個像素距離空閑聚類中心的距離比到達其他聚類中心短時,則空閑聚類中心的位置就會發(fā)生更新,那么該問題也就解決了。
在更新聚類中心的過程中,要保證所有的像素都能夠全部合理的分配到每個聚類中心周圍。用偽逆熵的方法來保證每一層像素都得到合理的聚類。那么,偽逆熵的計算公式如下:
其中,[vi]表示該像素屬于第[i]個聚類中心的概率,[D]表示該聚類區(qū)域內(nèi)所有聚類中心數(shù)值的一個向量。當(dāng)所有像素都得到聚類時,[?(v)]的值為0,;否則[?(v)]的值不為0,而逐漸趨近于1。
當(dāng)完成該層聚類操作時,利用公式(5)計算出該層聚類中心的一組概率分布值,作為下一層的輸入。
其中,[d-1s]表示的是該層的某個聚類區(qū)域中所有像素到第s個聚類中心的距離之和,[s∈Sd-1s]則表示聚類區(qū)域中所有像素到每個聚類中心的距離之和。通過公式(5),可以很清楚的發(fā)現(xiàn)有些聚類中心的概率值比較大,就相當(dāng)于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的連接權(quán)值,也就代表這些聚類中心周圍的像素才是整個圖像上面的焦點信息。
3.2 DeSTIN網(wǎng)絡(luò)中的相變現(xiàn)象
當(dāng)處理添加噪聲的數(shù)據(jù)時,DeSTIN網(wǎng)絡(luò)的聚類中心已經(jīng)固定,更新算法已經(jīng)關(guān)閉。帶有噪聲的圖像根據(jù)訓(xùn)練時已經(jīng)確定的聚類中心的值,來計算圖像上每個像素(包括噪聲點)到聚類中心的距離。
本文中采用高斯噪聲來分析對DeSTIN網(wǎng)絡(luò)的影響,圖像中的噪聲點的灰度值必然滿足高斯分布。利用公式(5)可以分析得到,當(dāng)網(wǎng)絡(luò)底層得到圖像的觀察值輸入到第一個隱層時,通過計算的[d-1s]必然會出現(xiàn)不同幅度的變化,這是由于噪聲點存在的原因。但是,噪聲點是隨機分布在圖像的任意位置,所以目前還不能確定該聚類區(qū)域內(nèi)的像素到一個聚類中心的距離之和是增大或者減小。隨著每個聚類區(qū)域的[d-1s]的變動幅度增大,可以肯定的是噪聲已經(jīng)影響了網(wǎng)絡(luò)對圖像的識別能力。
定義[p(o|s)]為不添加噪聲點的網(wǎng)絡(luò)隱層中,一個聚類區(qū)域中的某個聚類中心的信念值,[p'(o|s)]為添加噪聲點的網(wǎng)絡(luò)隱層中,一個聚類區(qū)域中的某個聚類中心的信念值,那么[c=p'(o|s)-p(o|s)]。[k]為兩種不同情況下,取聚類區(qū)域中所有像素到聚類中心距離之和,然后用含有噪聲點的聚類中心的信念值和原圖像的同一聚類中心信念值做差的絕對值求和,那么我們得到公式(6):
從公式(6)中,可以分析得到噪聲點對網(wǎng)絡(luò)聚類的影響大小。實際上,隨著[k]的逐漸增大,網(wǎng)絡(luò)中每個聚類區(qū)域的聚類中心已經(jīng)不能夠代表整個區(qū)域內(nèi)的所有像素,那么這就意味著網(wǎng)絡(luò)的聚類功能已經(jīng)失效,從而網(wǎng)絡(luò)也無法對圖像進行識別。通過反復(fù)的實驗研究表明,在[k]值不是很大的情況下,DeSTIN網(wǎng)絡(luò)還是能夠?qū)D像進行識別的,但是在[k]值增大到一定程度時,網(wǎng)絡(luò)的識別率會發(fā)生驟減,即相變現(xiàn)象。
[k]值的變化表明噪聲對網(wǎng)絡(luò)聚類影響的大小,那么網(wǎng)絡(luò)在發(fā)生相變現(xiàn)象時,說明[k]值的波動已經(jīng)超出了網(wǎng)絡(luò)對噪聲的承受范圍。因此,可以假設(shè)對于不同的圖像信息,只要它們的[k]值變化超過了某一閾值,它們都會發(fā)生相變現(xiàn)象。
4 實驗結(jié)果及分析
通過實驗觀察高斯噪聲對DeSTIN網(wǎng)絡(luò)的影響,在改變噪聲程度時,發(fā)現(xiàn)對于不同的圖像信息,高斯噪聲標(biāo)準(zhǔn)差某個區(qū)間時,DeSTIN網(wǎng)絡(luò)的識別率會呈驟減趨勢,直到識別率為0,即在這一區(qū)域DeSTIN網(wǎng)絡(luò)發(fā)生了相變現(xiàn)象。
4.1實驗內(nèi)容及結(jié)果
本文中的實驗主要考察高斯噪聲對網(wǎng)絡(luò)的影響程度。實驗數(shù)據(jù)采用的是LIRIS 人體行為的標(biāo)準(zhǔn)數(shù)據(jù)集[9]。實驗所采用的DeSTIN網(wǎng)絡(luò)共有8層,其中隱含層數(shù)目為7層,每層的聚類中心數(shù)目分別為4;8;16;32;32;12;4;1。該文所使用的SVM分類器則是采用RBF核函數(shù)。
主要實驗步驟有如下幾步:
1)利用Kinect采集的深度圖像作為DeSTIN網(wǎng)絡(luò)的訓(xùn)練樣本,使DeSTIN網(wǎng)絡(luò)進行訓(xùn)練;
2)在已經(jīng)選好的測試樣本中添加不同程度的噪聲;
3)DeSTIN網(wǎng)絡(luò)訓(xùn)練結(jié)束后,關(guān)閉其更新聚類中心節(jié)點的算法,用已經(jīng)添加好噪聲的測試圖片輸入DeSTIN網(wǎng)絡(luò),進行測試并輸出結(jié)果。
4.2實驗結(jié)果分析
如圖2所示,當(dāng)高斯噪聲的均值為0時,DeSTIN網(wǎng)絡(luò)在[σ≤0.05](高斯噪聲的標(biāo)準(zhǔn)差)之前,網(wǎng)絡(luò)對視頻的識別準(zhǔn)確率高達99%,而在[0.09≥σ>0.05]的區(qū)間內(nèi),DeSTIN網(wǎng)絡(luò)的識別準(zhǔn)確率開始出現(xiàn)下降趨勢。在[0.1≥σ>0.09]的區(qū)間內(nèi),網(wǎng)絡(luò)的識別準(zhǔn)確率突然驟降為0,說明在該區(qū)間內(nèi)DeSTIN網(wǎng)絡(luò)發(fā)生了相變現(xiàn)象,圖2-1為實驗訓(xùn)練時的原始圖像,圖2-2的圖像是DeSTIN網(wǎng)絡(luò)產(chǎn)生相變現(xiàn)象時的圖像信息。
為了驗證DeSTIN網(wǎng)絡(luò)中存在的相變現(xiàn)象不是偶然現(xiàn)象,如圖4所示,又選擇了不同的場景圖像做同樣的測試。其中圖4-1所得到的實驗結(jié)果是在圖3-1中的圖像數(shù)據(jù)基礎(chǔ)上添加噪聲,并通過網(wǎng)絡(luò)訓(xùn)練得到的,網(wǎng)絡(luò)相變發(fā)生時,圖像的噪聲程度如圖3-2所示,圖4-2、圖4-3和圖4-4所得到的實驗結(jié)果分別采用圖3-3,4、圖3-5,6和圖3-7,8所示的圖像信息得到的。對比不同圖像信息的數(shù)據(jù)后,實驗發(fā)現(xiàn),每類圖像都出現(xiàn)了相變現(xiàn)象,這表明在有噪聲影響的情況下,DeSTIN網(wǎng)絡(luò)必然會存在相變現(xiàn)象的。但是,不同圖像出現(xiàn)的相變現(xiàn)象的區(qū)域不同,這是由于不同圖像得到的觀察值也不相同,那么它們聚類中心的位置也不盡相同,所以噪聲對于不同圖像的影響肯定不相同,即相變區(qū)域也不盡相同。
圖4 在不同噪聲強度下,不同圖像的相變現(xiàn)象
通過分析得出,這是由于添加了高斯噪聲造成噪聲點與聚類中心的距離變的很大,在測試階段,每層的聚類中心已經(jīng)固定,不再更新,根據(jù)添加高斯噪聲的圖像信息最終的聚類結(jié)果分析,每個區(qū)域的聚類中心的belief值都會出現(xiàn)或大或小的波動,從而使得整個網(wǎng)絡(luò)不能很好的對圖像進行有效地特征提取,而訓(xùn)練時所確定的聚類中心并不能對測試時出現(xiàn)的噪聲點進行排除,所以隨著噪聲的增加,最后導(dǎo)致整個網(wǎng)絡(luò)的聚類過程基本處于失效狀態(tài)。通過觀察圖3的4個測試結(jié)果不難發(fā)現(xiàn),每個實驗圖像都會產(chǎn)生相變現(xiàn)象,這是由于[k]值的變化造成的,如圖5所示,圖中顯示了這些組實驗在相變區(qū)域的[k]值變化,網(wǎng)絡(luò)發(fā)生相變時,[k]值都在(3,4)的區(qū)間內(nèi),也就是說對圖像添加高斯噪聲,如果聚類中心的信念值的變化總和超過3時,DeSTIN網(wǎng)絡(luò)會發(fā)生相變現(xiàn)象。通過反復(fù)實驗印證了之前的假設(shè)是成立的,也證明了在噪聲影響下,網(wǎng)絡(luò)發(fā)生相變現(xiàn)象和[k]值的變化有密切相關(guān)的聯(lián)系。
5 優(yōu)化DeSTIN網(wǎng)絡(luò)的抗噪性能
在添加噪聲的情況下,DeSTIN網(wǎng)絡(luò)產(chǎn)生的相變現(xiàn)象和[k]值的范圍是有很大關(guān)系的,那么要想提高DeSTIN網(wǎng)絡(luò)的抗噪能力,避免噪聲引起的網(wǎng)絡(luò)的相變現(xiàn)象,就要減小網(wǎng)絡(luò)中每個聚類中心信念值的波動。
由公式(6)可得,[k]值是網(wǎng)絡(luò)對于添加噪聲的數(shù)據(jù)進行聚類時,一層中所有聚類中心的信念值的變化絕對值總和,當(dāng)然,對每個聚類中心的信念值都會出現(xiàn)變化,或減小或增大,同時,它們的變化幅度是不一樣的,也是或大或小,這是添加在該區(qū)域內(nèi)的噪聲點的灰度值和和原圖像在該區(qū)域內(nèi)的像素的灰度值的差異大小所決定的,添加在原始圖像中的噪聲點是隨機分布的,若在某一聚類區(qū)域中所分配的噪聲點的灰度值和原始圖像在該區(qū)域中像素的灰度值很接近時,噪聲對該聚類區(qū)域的影響就會很小,相應(yīng)的,該聚類區(qū)域中的聚類中心的信念值的變化幅度就會很小,否則,該聚類區(qū)域中的聚類中心的信念值的變化幅度會很大。
要提高網(wǎng)絡(luò)的抗噪性能,就要減少圖像灰度產(chǎn)生的這種尖銳變化,使得所有聚類中心的信念值的變動趨勢減緩。由于每個聚類中心的信念值變化的幅度不相同,由公式(6)可知每個聚類中心的變化程度。在DeSTIN網(wǎng)絡(luò)每層聚類結(jié)束后,取出差值比較大的幾個聚類中心的信念值做算數(shù)平均運算,用得到的算數(shù)平均數(shù)取代它們原來的信念值。在不同的聚類區(qū)域內(nèi),聚類中心的信念值變化幅度不同,所以不能把不同聚類區(qū)域的聚類中心的信念值放在一起來計算它們的平均值,這樣會導(dǎo)致不同聚類區(qū)域內(nèi)的聚類中心產(chǎn)生更大的變化。首先,應(yīng)該把得到的變化較大的幾個聚類中心做分類,查看它們有沒有同屬一聚類區(qū)域內(nèi)的,如果有兩個或者兩個以上的聚類中心同屬一個聚類區(qū)域,那么就把它們幾個的信念值做算術(shù)平均運算,否則,用該聚類中心的信念值和它所屬聚類區(qū)域內(nèi)變化最小的聚類中心的信念值做算術(shù)平均運算。
具體算法如下:
輸入:DeSTIN網(wǎng)絡(luò)每層的聚類中心的信念值。
輸出:對聚類中心的信念值加權(quán)平均后得到一組新的信念值。
Begin
計算每個聚類中心的[c]值;
將每個聚類中心的[c]值按照它們所屬的聚類區(qū)域進行編號;
對每個聚類中心的[c]值進行降序排序,取出對應(yīng)該層聚類區(qū)域數(shù)目的前若干個[k]值;
if(是否有兩個或者兩個以上的聚類中心屬于同一聚類區(qū)域)
采用這種降低[k]值的方法可以有效的提高DeSTIN網(wǎng)絡(luò)的抗噪性能?,F(xiàn)在將上述的5組實驗,用這種方法進行改進,其測試性能如圖6所示,圖中虛線代表優(yōu)化之前,網(wǎng)絡(luò)的準(zhǔn)確率,實線代表優(yōu)化后,網(wǎng)絡(luò)的準(zhǔn)確率。圖中5組實驗隨著噪聲程度的增強,網(wǎng)絡(luò)的識別準(zhǔn)確率始終沒有出現(xiàn)相變現(xiàn)象,而且在相變點時,網(wǎng)絡(luò)的性能還沒有出現(xiàn)較大的波動,隨著噪聲程度的增強,網(wǎng)絡(luò)的識別率也是平緩下降。理論上分析,使用這種方法能夠很有效的提高網(wǎng)絡(luò)的抗噪性能,并且能夠避免網(wǎng)絡(luò)發(fā)生的相變現(xiàn)象,從而體現(xiàn)網(wǎng)絡(luò)本身對噪聲干擾的預(yù)判能力和解決能力。
6 結(jié)論
本文通過研究DeSTIN網(wǎng)絡(luò)識別帶噪聲的圖像信息,發(fā)現(xiàn)網(wǎng)絡(luò)在不同噪聲程度下,識別率會出現(xiàn)相變現(xiàn)象。通過對出現(xiàn)的相變現(xiàn)象進行理論分析,得出這是由于網(wǎng)絡(luò)聚類中心的信念值產(chǎn)生變化而造成的,而且當(dāng)[3 本文通過實驗分析,證實了論文開始對DeSTIN網(wǎng)絡(luò)中存在的相變現(xiàn)象猜想,從宏觀角度說明在深度神經(jīng)網(wǎng)絡(luò)中也是存在相變現(xiàn)象。通過發(fā)現(xiàn)DeSTIN網(wǎng)絡(luò)中存在的相變現(xiàn)象,從網(wǎng)絡(luò)自身的運行的結(jié)果中,分析噪聲對網(wǎng)絡(luò)造成的影響,進而利用發(fā)現(xiàn)的相變理論來合理的避免噪聲對神經(jīng)網(wǎng)絡(luò)產(chǎn)生的影響,在神經(jīng)網(wǎng)絡(luò)抗噪性能方面提出一種新的方法和思路。 參考文獻: [1] Arel I, Rose D, Karnowski T.A Deep Learning Architecture Comprising Homogeneous Cortical Circuits for Scalable Spatiotemporal Pattern Inference[C]//NIPS 2009 Workshop on Deep Learning for Speech Recognition and Related Applications, 2009. [2] Arel I, Rose D, Coop R.DeSTIN: A Scalable Deep Learning Architecture with Application to High-Dimensional Robust Pattern Recognition[C]//Proc. of the AAAI 2009 Fall Symposium on Biologically Inspired Cognitive Architectures (BICA), 2009. [3] Gent I P, Walsh T. The SAT phase transition[C]//ECAI. PITMAN, 1994: 105-109. [4] Kirkpatrick S, Selman B. Critical behavior in the satisfiability of random boolean expressions[J]. Science, 1994, 264(5163): 1297-1301. [5] Huepe C, Aldana-González M. Dynamical phase transition in a neural network model with noise: An exact solution[J]. Journal of Statistical Physics, 2002, 108(3-4): 527-540. [6]Peixoto T P. Emergence of robustness against noise: A structural phase transition in evolved models of gene regulatory networks[J]. Physical Review E, 2012, 85(4): 041908. [7] Karnowski T P. Deep Machine Learning with Spatio-Temporal Inference[J]. 2012. [8] Goertzel B. Modifying the destin perception architecture to enable representationally transparent deep learning[J]. 2012. [9] http://liris.cnrs.fr/voir/activities-dataset/download.html.