劉向文 李瑋 葛瑞泉
摘? 要: 樹突神經(jīng)網(wǎng)絡(luò)(DENN)是一種含有局部非線性樹突結(jié)構(gòu)的特殊神經(jīng)網(wǎng)絡(luò)模型。文章研究了DENNs在網(wǎng)絡(luò)結(jié)構(gòu)變化的情況下模型的學(xué)習(xí)行為。在有監(jiān)督學(xué)習(xí)任務(wù)的實(shí)驗(yàn)中發(fā)現(xiàn),局部非線性結(jié)構(gòu)的DENNs可以提高模型的表達(dá)能力,并且在中等樹突分支數(shù)量時(shí)表達(dá)能力最強(qiáng),在網(wǎng)絡(luò)較小的情況下DENNs模型比常規(guī)前饋型神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)表現(xiàn)得更加明顯。在隨機(jī)噪聲數(shù)據(jù)集上的實(shí)驗(yàn)中發(fā)現(xiàn)DENNs擬合能力的優(yōu)勢(shì)不明顯,這種現(xiàn)象進(jìn)一步表明,DENNs的容量?jī)?yōu)勢(shì)與自然圖像數(shù)據(jù)中的冗余有關(guān)。
關(guān)鍵詞: 樹突神經(jīng)網(wǎng)絡(luò); 局部非線性; 有監(jiān)督學(xué)習(xí); 網(wǎng)絡(luò)表達(dá)能力
中圖分類號(hào):TP391? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ?文章編號(hào):1006-8228(2019)09-08-05
Analysis on dendritic neural network
Liu Xiangwen, Li Wei, Ge Ruiquan
(School of Computer Science and Technology, Hangzhou Dianzi University, Hangzhou, Zhejiang 310018, China)
Abstract: Dendritic Neural Network (DENN) is a special kind of network with localized nonlinearity. This work studies the learning behavior of DENNs when the network architecture is altered on various aspects. In the experiments of supervised machine learning task, it is found that the locality structure of DENNs can improve the expressive ability, and the expressive ability is strongest when DENNs with mid-size dendrite branch numbers, and DENNs show even greater advantage over the standard feedforward neural networks when network sizes are small. It is found that the fitting ability of DENNs is not obvious in the experiment on noise data learning task, this phenomenon further indicates that the improved model expressivity of DENNs owe to the structural redundancy of natural image data.
Key words: dendritic neural network; local nonlinearity; supervised learning; network expressive power
0 引言
近年來,深度學(xué)習(xí)算法在很多領(lǐng)域取得了顯著進(jìn)展。人工神經(jīng)網(wǎng)絡(luò)最初以感知機(jī)[1]形式構(gòu)建,其單元通常被構(gòu)建為突觸輸入的加權(quán)和,通過激活函數(shù)得到輸出。幾乎所有現(xiàn)代人工神經(jīng)網(wǎng)絡(luò)都使用了這種模型。然而,生理學(xué)領(lǐng)域的實(shí)驗(yàn)和建模發(fā)現(xiàn),生物神經(jīng)元比上述模型更為復(fù)雜。研究表明,樹突結(jié)構(gòu)中包含大量活躍的離子通道[2-3],突觸輸入可能對(duì)其鄰近的突觸輸入產(chǎn)生非線性影響。此外,強(qiáng)有力的證據(jù)表明生物學(xué)可塑性機(jī)制也在樹突內(nèi)起到局部作用[4]。這些特性極大地促進(jìn)了局部非線性成分在神經(jīng)元輸出中的作用,并賦予神經(jīng)網(wǎng)絡(luò)更高的信息處理能力[5-7]。文獻(xiàn)[8]對(duì)樹突的局部非線性和可塑性進(jìn)行了建模,將活躍的樹突結(jié)構(gòu)應(yīng)用到傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)中,構(gòu)建了樹突神經(jīng)網(wǎng)絡(luò)(Dendritic Neural Network,DENN)模型,本文在文獻(xiàn)[8]的基礎(chǔ)上進(jìn)一步探索組內(nèi)稀疏的樹突結(jié)構(gòu)網(wǎng)絡(luò)模型在學(xué)習(xí)過程中的表現(xiàn)。實(shí)驗(yàn)表明DENN與標(biāo)準(zhǔn)前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network, FNN)相比有較高的網(wǎng)絡(luò)復(fù)雜性,具體表現(xiàn)為在圖像數(shù)據(jù)集和隨機(jī)標(biāo)簽圖像數(shù)據(jù)集上的擬合能力比標(biāo)準(zhǔn)FNN明顯,在高斯噪聲數(shù)據(jù)集上的優(yōu)勢(shì)相對(duì)不明顯。
1 樹突神經(jīng)網(wǎng)絡(luò)
在生物神經(jīng)網(wǎng)絡(luò)信息傳遞和處理過程中,樹突有很強(qiáng)的非線性交互作用,如圖1是神經(jīng)元之間信號(hào)傳遞示意圖。樹突將上游神經(jīng)元接收過來的突觸輸入傳遞給神經(jīng)元,經(jīng)處理后,通過軸突把動(dòng)作電位信號(hào)傳遞給下游鄰近的神經(jīng)元。
DENN模型構(gòu)建了含有這種樹突結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò),其模型結(jié)構(gòu)如圖2(b)所示,與圖2(a)標(biāo)準(zhǔn)的、全連接的FNN模型相似,模型中的每個(gè)神經(jīng)元也接收來自上層的輸出數(shù)據(jù),并且模型的最后一層與標(biāo)準(zhǔn)FNN相同。模型把標(biāo)準(zhǔn)FNN的隱藏層分解為兩個(gè)階段。在第一階段,樹突分支獲得與輸入稀疏連接的線性加權(quán);在第二階段,所有分支的輸出被非線性地整合輸出。模型確保每個(gè)模式學(xué)習(xí)事件被隔離在樹突分支內(nèi)部。
● 樹突神經(jīng)網(wǎng)絡(luò)定義
在標(biāo)準(zhǔn)FNN模型中每一個(gè)隱藏單元接收其前一層中所有單元的激活信息作為輸入,計(jì)算加權(quán)和,通過激活函數(shù)處理后形成本單元的輸出,表示形式如下:
[outl,j=σi=1nl-1wl,ixl-1,i+b] (1)
其中,[l]表示網(wǎng)絡(luò)中第[l]層,[x]為輸入,[w]為權(quán)重向量,[b]為偏執(zhí)向量,[σ]為激活函數(shù)。本文激活函數(shù)主要考慮用整流線性單元(ReLU)即[σ=max0,outl,j]。
和標(biāo)準(zhǔn)FNN模型相比,DENN由多個(gè)樹突層組成,第[l]層具有[nl]個(gè)樹突單元,并且每個(gè)樹突單元和一個(gè)神經(jīng)元輸出相關(guān)聯(lián),每個(gè)神經(jīng)元的輸出是[d]個(gè)樹突分支激活信息的最大值。每個(gè)樹突分支和上一層的[k]個(gè)輸入單元連接。為避免冗余拷貝,連接策略設(shè)計(jì)為每個(gè)分支從[nl-1]個(gè)輸入單元中隨機(jī)無(wú)重復(fù)選擇[k=nl-1/d]個(gè)輸入單元連接,其中[k≤nl-1],[k]被稱作分支大小,[d]被稱作分支數(shù)量。
在樹突層中每個(gè)樹突分支可以表示為如下形式:
[zl,i,j=t=1nl-1(Sl,i,j,t?wl,i,j,t)xl-1,t,i∈[nl],j∈[d]] (2)
其中,[xl-1]為輸入,[w]為權(quán)重向量,[Sl]是0,1矩陣,代表樹突分支和輸入之間是否有連接,0代表沒有連接,1代表有連接。利用預(yù)先分配的隨機(jī)種子生成[Sl],使用適當(dāng)?shù)乃惴?,[Sl]不會(huì)產(chǎn)生額外的存儲(chǔ)和傳輸。
每個(gè)神經(jīng)元的輸出是[d]個(gè)分支的最大值,表示為如下形式:
[outDl,i=max(zl,i,j)+b,i∈[nl],j∈[d]] (3)
其中,[b]為偏執(zhí)向量,當(dāng)[d=1]時(shí),樹突層與具有線性激活功能的全連接層相同。DENN模型的輸出層[out]與標(biāo)準(zhǔn)FNN模型的輸出層相同。
2 實(shí)驗(yàn)結(jié)果與分析
2.1 圖像數(shù)據(jù)集結(jié)果分析
實(shí)驗(yàn)選用有標(biāo)簽的Fashion-MNIST[9],CIFAR-10和CIFAR100[10]圖像數(shù)據(jù)集。Fashion-MNIST數(shù)據(jù)集中有60,000個(gè)訓(xùn)練樣本和10,000個(gè)測(cè)試樣本,每個(gè)樣本是28×28像素的灰度圖像。CIFAR-10/100數(shù)據(jù)集由50,000個(gè)訓(xùn)練圖像和10,000個(gè)測(cè)試圖像組成,每個(gè)圖像是32×32的彩色圖像。
我們?cè)趯?shí)驗(yàn)中構(gòu)建了DENN,加入Batch Normalization[11]的標(biāo)準(zhǔn)FNN(BN-ReLU)和加入Layer Normalization[12]的標(biāo)準(zhǔn)FNN(LN-ReLU)三種網(wǎng)絡(luò)模型。所有對(duì)比實(shí)驗(yàn)的網(wǎng)絡(luò)模型都由三層組成,前兩層中每層有[n]個(gè)單元,最后一層有10/100類輸出。使用ReLU函數(shù)處理所有隱藏單元的輸出,使用Softmax函數(shù)生成網(wǎng)絡(luò)輸出。實(shí)驗(yàn)中所有網(wǎng)絡(luò)模型的參數(shù)數(shù)量不變。對(duì)于DENN,實(shí)驗(yàn)中每個(gè)神經(jīng)元中樹突分支為[d]時(shí),輸入權(quán)重的數(shù)量被設(shè)置為[nd],以保持輸入的數(shù)量與標(biāo)準(zhǔn)FNN隱藏層中的數(shù)量相同。DENN的輸出層與標(biāo)準(zhǔn)FNNs一樣。
使用Adam優(yōu)化方法[13]訓(xùn)練所有模型100個(gè)周期,學(xué)習(xí)率從1e-2指數(shù)衰減至1e-5。為了能更好的觀察在不同的網(wǎng)絡(luò)容量下模型學(xué)習(xí)行為的變化,隱藏層單元大小分別設(shè)置為64,128,256和512。在訓(xùn)練模型前數(shù)據(jù)集中的樣本均做標(biāo)準(zhǔn)化預(yù)處理,訓(xùn)練過程中不使用任何正則化方法。
圖3顯示出了網(wǎng)絡(luò)模型的分支數(shù)量和隱藏單元數(shù)變化時(shí)在圖像數(shù)據(jù)集上模型訓(xùn)練準(zhǔn)確率和訓(xùn)練損失結(jié)果。圖3(a1),3(b1),3(c1)[8]分別為在Fashion-MNIST,CIFAR-10和CIFAR-100數(shù)據(jù)集上的訓(xùn)練準(zhǔn)確率;圖3(a2),3(b2),3(c2)[8]分別為在Fashion-MNIST,CIFAR-10和CIFAR-100數(shù)據(jù)集上的訓(xùn)練損失。從圖3中可以看出DENNs可以獲得比FNNs更好的網(wǎng)絡(luò)擬合能力,網(wǎng)絡(luò)模型的擬合能力隨著分支數(shù)量的增加首先呈現(xiàn)增加的趨勢(shì),然后下降。樹突分支在中等數(shù)量的情況下,擬合能力最強(qiáng),可獲得比標(biāo)準(zhǔn)FNNs低很多的損失,DENNs在極端樹突分支數(shù)量的情況下(比如2,128),造成的損失比中等分支高。
2.2 隨機(jī)標(biāo)簽圖像數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析
實(shí)驗(yàn)選用隨機(jī)標(biāo)簽的CIFAR-10/100圖像數(shù)據(jù)。具體描述參見上節(jié)的圖像數(shù)據(jù)集,和圖像數(shù)據(jù)集不同的是樣本對(duì)應(yīng)的標(biāo)簽是隨機(jī)打亂的,實(shí)驗(yàn)中網(wǎng)絡(luò)模型參數(shù)設(shè)置和圖像數(shù)據(jù)集相同。
圖4顯示出了網(wǎng)絡(luò)模型的分支數(shù)量和隱藏單元數(shù)變化時(shí)在隨機(jī)標(biāo)簽的圖像數(shù)據(jù)集上模型訓(xùn)練準(zhǔn)確率和訓(xùn)練損失結(jié)果。圖4(a1),4(b1)分別表示在隨機(jī)標(biāo)簽CIFAR-10,CIFAR-100數(shù)據(jù)集上訓(xùn)練的準(zhǔn)確率;圖4(a2),圖4(b2)分別表示在隨機(jī)標(biāo)簽CIFAR-10,CIFAR-100數(shù)據(jù)集上的訓(xùn)練損失。在這樣的數(shù)據(jù)集上,網(wǎng)絡(luò)模型不能利用數(shù)據(jù)中的通用特征,因此需要更大的模型容量[14]。通過實(shí)驗(yàn)結(jié)果對(duì)比可以看出,網(wǎng)絡(luò)能夠擬合隨機(jī)標(biāo)簽的數(shù)據(jù),當(dāng)網(wǎng)絡(luò)單元足夠多時(shí)可以獲得接近零的訓(xùn)練誤差。模型在限制網(wǎng)絡(luò)容量壓力情況下,DENNs模型擬合能力明顯優(yōu)于標(biāo)準(zhǔn)FNNs,尤其是在隱藏單元較小的情況下效果較為明顯。
從圖4(a1)和圖4(b1)的比較結(jié)果中可以看出:當(dāng)網(wǎng)絡(luò)隱藏層單元數(shù)量達(dá)到一定數(shù)量(比如512)時(shí),模型在兩個(gè)數(shù)據(jù)集上的比較結(jié)果沒有明顯差距。由于網(wǎng)絡(luò)擬合CIFAR-100數(shù)據(jù)集比CIFAR-10數(shù)據(jù)集需要更大的模型容量,所以較小的隱藏層單元數(shù)量的模型在CIFAR-10數(shù)據(jù)集上的擬合效果比在CIFAR-100上的擬合效果好;由于網(wǎng)絡(luò)模型在隨機(jī)標(biāo)簽的數(shù)據(jù)集上不能夠利用相同標(biāo)簽數(shù)據(jù)的共同模式,所以在圖3(b1)與圖4(a1),圖3(c1)與圖4(b1)中網(wǎng)絡(luò)模型在圖像數(shù)據(jù)上的擬合效果比在隨機(jī)標(biāo)簽數(shù)據(jù)上的擬合效果好。
2.3 高斯噪聲數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析
數(shù)據(jù)集使用60,000條隨機(jī)產(chǎn)生均值為0方差為1的高斯噪聲數(shù)據(jù),每條數(shù)據(jù)包含784維度信息,以便進(jìn)一步評(píng)估DENNs的擬合能力,實(shí)驗(yàn)中網(wǎng)絡(luò)模型的參數(shù)設(shè)置和圖像數(shù)據(jù)集相同。
圖4(c1),圖4(c2)顯示出了在高斯噪聲數(shù)據(jù)集上網(wǎng)絡(luò)模型的分支數(shù)量和隱藏單元數(shù)變化時(shí)的訓(xùn)練結(jié)果。圖4(c1)表示訓(xùn)練的準(zhǔn)確率,圖4(c2)表示訓(xùn)練損失。本數(shù)據(jù)集消除了數(shù)據(jù)冗余,網(wǎng)絡(luò)模型需要更大的記憶能力擬合整個(gè)數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果可以看出,網(wǎng)絡(luò)模型能夠擬合隨機(jī)高斯噪聲數(shù)據(jù)。相對(duì)于隨機(jī)標(biāo)簽的數(shù)據(jù)集模型更容易達(dá)到接近零的訓(xùn)練誤差。通過比較可以看出,DENNs擬合能力隨著分支數(shù)量的增加先上升后下降,擬合能力仍然在中等分支數(shù)量情況下最好。同圖像數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果相比,DENNs比標(biāo)準(zhǔn)FNNs在高斯噪聲數(shù)據(jù)集上的擬合能力優(yōu)勢(shì)不明顯,這表明 DENNs模型在學(xué)習(xí)中更能利用數(shù)據(jù)內(nèi)部的相關(guān)性。同隨機(jī)標(biāo)簽圖像數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果相比,DENNs比標(biāo)準(zhǔn)FNNs在高斯噪聲數(shù)據(jù)上的擬合能力優(yōu)勢(shì)不明顯,其中的原因可能是,隨機(jī)像素的輸入比自然圖像更加離散,網(wǎng)絡(luò)模型更加容易擬合相對(duì)離散的噪聲數(shù)據(jù)。
3 結(jié)束語(yǔ)
本文在DENN神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,進(jìn)一步研究了模型在改變分支數(shù)量和網(wǎng)絡(luò)結(jié)構(gòu)的情況下學(xué)習(xí)行為的變化。實(shí)驗(yàn)表明,DENN能利用數(shù)據(jù)中的通用特征提高模型的擬合能力,在更大網(wǎng)絡(luò)容量壓力下,DENN在圖像數(shù)據(jù)集和隨機(jī)標(biāo)簽圖像數(shù)據(jù)集上表現(xiàn)出比標(biāo)準(zhǔn)FNN模型更好的擬合能力。DENN在高斯噪聲數(shù)據(jù)集上相比標(biāo)準(zhǔn)FNN并沒有表現(xiàn)出明顯的優(yōu)勢(shì)。未來的研究,可以繼續(xù)探索DENN學(xué)習(xí)行為變化的內(nèi)在原因,同時(shí)可以將樹突結(jié)構(gòu)和卷積網(wǎng)絡(luò)相結(jié)合,應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域,進(jìn)行特征提取提高模型的擬合和泛化性能。
參考文獻(xiàn)(References):
[1] Rosenblatt F. The perceptron: A probabilistic model for information storage and organization in the brain [J]. Psychological Review,1958.65(6):386-408
[2] Mel B W.Synaptic integration in an excitable dendritic tree[J].Journal of Neurophysiology,1993.70(3):1086-101
[3] Greg Stuart,Nelson Spruston, and Michael H?usser. Dendrites[M].Oxford:Oxford University Press,2016.603-639
[4] Losonczy A,Makara J K, Magee J C. Compartmentalized dendritic plasticity and input feature storage in neurons[J]. Nature,2008.452(7186):436-41
[5] Poirazi P,Mel B W.Impact of Active Dendrites and Structural Plasticity on the Memory Capacity of Neural Tissue [J]. Neuron,2001.29(3):779-796
[6] Wu X E, Mel B W. Capacity-Enhancing Synaptic Learning Rules in a Medial Temporal Lobe Online Learning Model [J].Neuron, 2009.62(1):31-41
[7] Poirazi P,Brannon T, Mel B W.Pyramidal Neuron as Two-Layer Neural Network[J].Neuron,2003.37(6):989-999
[8] Wu X,Liu X.Improved Expressivity Through Dendritic Neural Networks[C]//Advances in Neural Information Processing Systems. 2018:8067-8078
[9] Xiao H, Rasul K, Vollgraf R. Fashion-mnist: a novel image dataset for benchmarking machine learning algorithms[J]. arXiv preprint arXiv:1708.07747, 2017:1-9
[10] Krizhevsky A,Hinton G.Learning multiple layers of features from tiny images[R]. Technical report, University of Toronto,2009:9-53
[11] Ioffe S,Szegedy C.Batch normalization:Accelerating deep network training by reducing internal covariate shift[J]. 2015, arXiv preprint arXiv:1502.03167:1-11
[12] Ba J L,Kiros J R,Hinton G E. Layer normalization[J]. arXiv preprint arXiv:1607.06450,2016:1-14
[13] Zhang C,Bengio S, Hardt M,et al.Understanding deep learning requires rethinking generalization[J].arXiv preprint arXiv:1611.03530, 2016:1-15
[14] Kingma D P,Ba J.Adam:A method for stochastic optimization[J].arXiv preprint arXiv:1412.6980,2014:1-15