史加榮,馬媛媛
1.西安建筑科技大學(xué) 建筑學(xué)院,西安 710055
2.省部共建西部綠色建筑國(guó)家重點(diǎn)實(shí)驗(yàn)室,西安 710055
3.西安建筑科技大學(xué) 理學(xué)院,西安 710055
機(jī)器學(xué)習(xí)是人工智能的核心研究領(lǐng)域之一,其最初的研究動(dòng)機(jī)是為了讓計(jì)算機(jī)系統(tǒng)具有人的學(xué)習(xí)能力以實(shí)現(xiàn)人工智能[1]。深度學(xué)習(xí)(深度結(jié)構(gòu)學(xué)習(xí)或分層學(xué)習(xí))是基于數(shù)據(jù)表示的一類更廣的機(jī)器學(xué)習(xí)方法,它通過(guò)組合低級(jí)特征形成更加抽象的高級(jí)表示特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征[2]。深度學(xué)習(xí)使機(jī)器學(xué)習(xí)能夠?qū)崿F(xiàn)更多的應(yīng)用,并拓展了人工智能的服務(wù)范圍,已成為諸多領(lǐng)域新的研究熱點(diǎn),如:語(yǔ)音識(shí)別[3]、視頻識(shí)別[4]、圖像識(shí)別[5]、自然語(yǔ)言處理[6]和信息檢索[7]等。
Hinton等人于2006年提出了一種無(wú)監(jiān)督學(xué)習(xí)模型:深度置信網(wǎng)絡(luò),該模型解決了深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的難題,掀起了深度學(xué)習(xí)的浪潮[8]。此后,深度學(xué)習(xí)發(fā)展非常迅速,涌現(xiàn)出諸多模型。深度置信網(wǎng)絡(luò)、自編碼器[9]、卷積神經(jīng)網(wǎng)絡(luò)[10]和循環(huán)神經(jīng)網(wǎng)絡(luò)[11]構(gòu)成了早期的深度學(xué)習(xí)模型,隨后由這些模型演變出許多其他模型,主要包括稀疏自編碼器[12]、降噪自編碼器[13]、堆疊降噪自編碼器[14]、深度玻爾茲曼機(jī)[15]、深度堆疊網(wǎng)絡(luò)[16]、深度對(duì)抗網(wǎng)絡(luò)[17]和卷積深度置信網(wǎng)絡(luò)[18]等。本文主要探討了深度學(xué)習(xí)的幾種典型模型以及研究與發(fā)展。
為簡(jiǎn)化表示,下面給出深度學(xué)習(xí)幾種典型模型的名稱表,如表1所示。
表1 深度學(xué)習(xí)典型模型名稱表
深度學(xué)習(xí)的概念不僅起源于對(duì)人工神經(jīng)網(wǎng)絡(luò)的研究[19],而且受到統(tǒng)計(jì)力學(xué)的啟發(fā)[20]。1986年,Smolensky提出了一種以能量為基礎(chǔ)的模型:RBM,該模型由BM發(fā)展而來(lái)[21],主要用于語(yǔ)音識(shí)別[22]和圖像分類[23]。2006年,Hinton和Salakhutdinov提出了一種貪婪的逐層學(xué)習(xí)網(wǎng)絡(luò):DBN,它由多個(gè)RBM堆疊而成[24],避免了梯度消失[2,8],主要用于圖像識(shí)別和信號(hào)處理[25];2009年,他們又提出了另一種貪婪的逐層學(xué)習(xí)模型:DBM[15],該模型也是由多個(gè)RBM堆疊而成,主要應(yīng)用于目標(biāo)識(shí)別和信號(hào)處理[26]。
與RBM的發(fā)展相獨(dú)立,Rumelhart于1986年提出了一種無(wú)監(jiān)督學(xué)習(xí)算法:AE,該算法通過(guò)編碼器和解碼器工作完成訓(xùn)練[12],主要用于語(yǔ)音識(shí)別和特征提取[27]。隨著AE的發(fā)展,它的衍生版本不斷出現(xiàn),如:SAE和DAE。SAE是另一種無(wú)監(jiān)督學(xué)習(xí)算法,它在AE的編碼層上加入了稀疏性限制,主要用于圖像處理和語(yǔ)音信號(hào)處理[28]。DAE在AE的輸入上加入了隨機(jī)噪聲,用來(lái)預(yù)測(cè)缺失值[13]。
與前述模型不同,CNN是一種較流行的監(jiān)督學(xué)習(xí)模型,它受貓的視覺皮層研究的啟發(fā)[10],已成為圖像識(shí)別[29]和語(yǔ)音識(shí)別[30]領(lǐng)域的研究熱點(diǎn)。RNN是另一種重要的監(jiān)督學(xué)習(xí)模型,專門用來(lái)處理序列數(shù)據(jù)[11],通常用于語(yǔ)音識(shí)別、文本生成和圖像生成[31]。DSN是一種深度堆疊神經(jīng)網(wǎng)絡(luò),是為研究伸縮性問(wèn)題而設(shè)計(jì)的[16]。
機(jī)器學(xué)習(xí)有無(wú)監(jiān)督學(xué)習(xí)與監(jiān)督學(xué)習(xí)之分,不同學(xué)習(xí)框架下的模型有很大的差異。根據(jù)結(jié)構(gòu)和技術(shù)應(yīng)用領(lǐng)域的不同,可以將深度學(xué)習(xí)分為無(wú)監(jiān)督(生成式)、監(jiān)督(判別式)和混合深度學(xué)習(xí)網(wǎng)絡(luò)[32],而無(wú)監(jiān)督學(xué)習(xí)可為監(jiān)督學(xué)習(xí)提供預(yù)訓(xùn)練[2]。最常見的無(wú)監(jiān)督學(xué)習(xí)模型有RBM,DBN,DBM,AE,SAE,DAE,其中前3個(gè)模型以能量為基礎(chǔ),后兩個(gè)模型以AE為基礎(chǔ)。典型的監(jiān)督學(xué)習(xí)模型有CNN、RNN和DSN等。混合深度學(xué)習(xí)通常以生成式或者判別式深度學(xué)習(xí)網(wǎng)絡(luò)的結(jié)果作為重要輔助,克服了生成式網(wǎng)絡(luò)模型的不足[33],其代表模型有混合深度神經(jīng)網(wǎng)絡(luò)[34](如:DNN-HMM和DNN-CRF)和混合深度置信網(wǎng)絡(luò)[35](DBN-HMM)。
先引入以能量為基礎(chǔ)的無(wú)監(jiān)督學(xué)習(xí)模型:RBM、DBN和DBM,再介紹以AE為基礎(chǔ)的模型:SAE和DAE。
作為一種特殊類型的馬爾可夫隨機(jī)場(chǎng),RBM由一個(gè)可視層和一個(gè)隱層組成[2],如圖1所示,其中v和h分別表示可視層和隱層,可視單元和隱單元間均存在連接,而同層單元間無(wú)連接。記可視層和隱層的神經(jīng)元個(gè)數(shù)分別為I和J,可視單元vi∈{0,1}和隱單元hj∈{0,1}之間的連接權(quán)值為wij,ai和bj分別為可視層和隱層的偏置,θ={wij,ai,bj}。
圖1 RBM的網(wǎng)絡(luò)結(jié)構(gòu)
通常假設(shè)RBM的隱單元服從伯努利分布,可視單元服從伯努利分布或高斯分布。為了學(xué)習(xí)模型參數(shù)θ,先定義可視單元不同分布下的兩種能量函數(shù)[2]:
其中E1關(guān)于v、h是雙線性的,E2是h的線性函數(shù)、v的二次函數(shù)。對(duì)于一般形式的能量函數(shù)E(v,h;θ),可視單元和隱單元的聯(lián)合概率分布為[21]:
其中Z(θ)是歸一化因子。
RBM模型關(guān)于可視單元的邊緣分布為[2]:
當(dāng)可視層v給定時(shí),第 j個(gè)隱層節(jié)點(diǎn)被激活的條件概率為[2]:
式中,sigm(x)=1/(1 +exp(-x))。當(dāng)隱層h給定時(shí),在伯努利分布和高斯分布假設(shè)下第i個(gè)可視層節(jié)點(diǎn)被激活的條件概率分別為[2]:
其中式(7)右邊表示高斯分布。
對(duì)式(4)取負(fù)對(duì)數(shù)并對(duì)θ求偏導(dǎo)有[21]:
在上式中,是在 p(h|v)下的期望,被稱為正向位的期望,它降低了訓(xùn)練數(shù)據(jù)的能量;Ep是在 p(v,h)下的期望,被稱為負(fù)向位的期望,它提高了模型所有可視單元的能量。
正向位易于計(jì)算,而負(fù)相位計(jì)算相對(duì)復(fù)雜??筛鶕?jù)采樣近似計(jì)算負(fù)相位,即給定可視層狀態(tài),更新隱層狀態(tài);給定隱層狀態(tài),更新可視層狀態(tài)[2,21]。為了更好地計(jì)算負(fù)相位,先根據(jù)k步吉布斯采樣得到v(k),再利用式(8)對(duì)權(quán)值wij求偏導(dǎo):
最后采用對(duì)比散度對(duì)權(quán)值進(jìn)行更新。類似可計(jì)算ai和bj。
RBM使用隱變量來(lái)描述輸入數(shù)據(jù)的分布,而未涉及數(shù)據(jù)的標(biāo)簽信息。當(dāng)有可利用的標(biāo)簽數(shù)據(jù)時(shí),可將標(biāo)簽信息與數(shù)據(jù)一起使用,并計(jì)算與數(shù)據(jù)相關(guān)的近似目標(biāo)函數(shù)[23]。一般而言,RBM主要用來(lái)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,其目的是初始化權(quán)值,從而使網(wǎng)絡(luò)盡可能擬合輸入數(shù)據(jù)。
DBN是由多個(gè)RBM堆疊而成的神經(jīng)網(wǎng)絡(luò),通常由一個(gè)可視層和多個(gè)隱層組成,最高的兩個(gè)隱層存在無(wú)向?qū)ΨQ邊連接,其余隱層形成一個(gè)有向的無(wú)環(huán)圖[2,36],如圖2所示。該圖由一個(gè)可視層v和三個(gè)隱層h1、h2、h3組成,連接方式是自上向下,可以看出:DBN的每一層有兩個(gè)作用,即前一層的隱層和后一層的輸入層。
圖2 DBN示意圖
考慮有l(wèi)個(gè)隱層的DBN,令h0=v,p(hk|hk+1)是與第k+1層相關(guān)聯(lián)的RBM的條件分布,k=0,1,…,l-1。DBN最高兩個(gè)隱層間的連接相當(dāng)于一個(gè)RBM,滿足如下公式[20]:
于是DBN關(guān)于可視層與隱層的聯(lián)合概率分布為[20]:
DBN可以通過(guò)無(wú)監(jiān)督預(yù)訓(xùn)練(自上向下)和有監(jiān)督反向微調(diào)(自下而上)來(lái)訓(xùn)練整個(gè)網(wǎng)絡(luò)[7,8,29],其訓(xùn)練過(guò)程如下。先使用無(wú)標(biāo)簽數(shù)據(jù)訓(xùn)練第一層,學(xué)習(xí)該層參數(shù)。再分層訓(xùn)練各層參數(shù),此無(wú)監(jiān)督學(xué)習(xí)的訓(xùn)練過(guò)程相當(dāng)于網(wǎng)絡(luò)參數(shù)的初始化。最后利用有標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練,并使用BP算法將實(shí)際輸出與預(yù)計(jì)輸出的誤差逐層向后傳播,此監(jiān)督學(xué)習(xí)的訓(xùn)練過(guò)程相當(dāng)于網(wǎng)絡(luò)參數(shù)的微調(diào)。作為一種快速貪婪的逐層學(xué)習(xí)算法,DBN結(jié)合了有監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)各自的優(yōu)點(diǎn),能更好地挖掘出有價(jià)值的特征[8-9,36]。在預(yù)訓(xùn)練過(guò)程中,DBN能高效地計(jì)算出最深的隱層變量,且能有效地克服過(guò)擬合、欠擬合問(wèn)題。
DBM由多個(gè)RBM堆疊而成,是一個(gè)完整的無(wú)向圖模型。與RBM相比,DBM可有多層隱變量[2,37-38],且每一層中不同節(jié)點(diǎn)都是相互獨(dú)立的。圖3給出了由一個(gè)可視層和兩個(gè)隱層組成的DBM。為簡(jiǎn)化表示,此處省略偏置。
圖3 DBM示意圖
對(duì)于圖3所示的模型,定義能量函數(shù)[15]:
式中W(1)和W(2)分別表示可視層到隱層和隱層到隱層的對(duì)稱連接權(quán)值矩陣,θ={W(1),W(2)}。因此,關(guān)于可視單元和隱單元的聯(lián)合概率分布為[15]:
于是有DBM關(guān)于可視單元的邊緣分布:
下面給出可視層和隱層的條件分布[15]:
作為一種貪婪的逐層學(xué)習(xí)算法,DBM的訓(xùn)練過(guò)程與DBN相似,其學(xué)習(xí)算法對(duì)復(fù)雜的輸入結(jié)構(gòu)有一個(gè)很好的表示[2,37]。但由于直接計(jì)算DBM的后驗(yàn)分布較復(fù)雜,故采用KL散度和EM算法來(lái)計(jì)算后驗(yàn)分布,具體計(jì)算過(guò)程可參考文獻(xiàn)[39]。在訓(xùn)練時(shí),以RBM的后驗(yàn)分布對(duì)樣例進(jìn)行建模。
AE通常由三層構(gòu)成:數(shù)據(jù)(特征向量)的輸入層,特征轉(zhuǎn)換的隱層,用于重構(gòu)信息的輸出層[12]。AE由編碼器(encoder)和解碼器(decoder)來(lái)完成訓(xùn)練[2],其原理如圖4所示。將輸入向量x映射到隱層向量h的過(guò)程叫做編碼,將隱層向量h映射到輸出向量r的過(guò)程叫做解碼,分別定義如下形式的編碼函數(shù)和解碼函數(shù)[61]:
其中W1和b1分別表示編碼器的權(quán)值矩陣和偏置向量,W2和b2分別表示解碼器的權(quán)值矩陣和偏置向量。
圖4 AE編碼與解碼原理圖
AE一般不能復(fù)制輸入本身,只能讓輸出盡可能地逼近輸入,可通過(guò)最小化損失函數(shù)求出網(wǎng)絡(luò)參數(shù)[61]:
其中,N為訓(xùn)練樣例個(gè)數(shù),L為損失函數(shù)。通常要求AE的輸入維度與輸出維度相等,隱層的維度小于輸入維度[16-17]。此時(shí),AE對(duì)應(yīng)的變換就是降維。如果隱層的維度大于輸入維度,則很難學(xué)習(xí)數(shù)據(jù)中的特征,這時(shí)可以給AE加入稀疏性[27]等限制性條件來(lái)發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)。
AE模型結(jié)構(gòu)簡(jiǎn)單,訓(xùn)練過(guò)程與RBM類似,可以充分利用無(wú)標(biāo)簽數(shù)據(jù)得到網(wǎng)絡(luò)的初始化權(quán)值,從而有效地提取特征[2,40]。訓(xùn)練AE的目的是讓輸出盡可能逼近輸入,但當(dāng)訓(xùn)練樣本與預(yù)測(cè)樣本不符合相同分布時(shí),所提取到的特征往往較差。
SAE是在AE的編碼層上加入稀疏項(xiàng)[12,41]。當(dāng)隱層節(jié)點(diǎn)被激活的節(jié)點(diǎn)數(shù)遠(yuǎn)遠(yuǎn)小于被抑制的節(jié)點(diǎn)數(shù)目時(shí),隱層才具有稀疏響應(yīng)特征[41-42]。SAE正則化的重構(gòu)誤差為[40]:
其中g(shù)(h)為輸出向量,λ(h)為稀疏項(xiàng)??蓪L散度作為稀疏性約束[42],即:
式中λ是懲罰因子,m是隱層神經(jīng)元的個(gè)數(shù),p是隱層神經(jīng)元激活程度的一個(gè)稀疏性參數(shù),pi是第i個(gè)隱層神經(jīng)元的平均活躍度。pi的計(jì)算公式如下[42]:
其中,fi(·)表示第i個(gè)隱層神經(jīng)元的激活函數(shù),mj為與此神經(jīng)元連接的數(shù)目。
SAE實(shí)現(xiàn)了降維的目的[41],可以為監(jiān)督學(xué)習(xí)提供預(yù)訓(xùn)練。與多層BP神經(jīng)網(wǎng)絡(luò)相比,SAE只是在反向傳播時(shí)添加了一個(gè)稀疏項(xiàng),從而抑制了大多數(shù)神經(jīng)元的輸出。
DAE是在AE的輸入中加入了隨機(jī)噪聲,將含噪數(shù)據(jù)經(jīng)過(guò)一個(gè)編碼器使其形成輸入信號(hào)的壓縮表示,再經(jīng)過(guò)一個(gè)解碼器得到不含噪聲的輸出數(shù)據(jù),然后計(jì)算期望輸出與原始輸入的誤差,最后采用隨機(jī)梯度下降法來(lái)更新網(wǎng)絡(luò)權(quán)值[13]。圖5繪出了DAE的原理圖。在該圖中,表示加入噪聲后的輸入,f和y分別為編碼函數(shù)和解碼函數(shù),z表示解碼層的輸出,L( )x,y(f()) 為損失函數(shù)。DAE與AE的編碼函數(shù)和解碼函數(shù)相同,只是輸入了含有噪聲的數(shù)據(jù)。
圖5 DAE的原理圖
圖6 CNN架構(gòu)圖
訓(xùn)練DAE是為了去除隨機(jī)噪聲以獲得沒(méi)有被噪聲污染的輸入,這就迫使DAE學(xué)習(xí)比輸入信號(hào)更加魯棒的表示,從而更好地預(yù)測(cè)夾雜在數(shù)據(jù)中的噪聲。因此,DAE也被用來(lái)預(yù)測(cè)缺失值[13,42]。
本章將研究三種典型的監(jiān)督學(xué)習(xí)模型:CNN、RNN和DSN。
CNN是一種特殊類型的深度前饋神經(jīng)網(wǎng)絡(luò),由輸入層、隱層、全連接層和輸出層組成。隱層由卷積層和下采樣層交替連接組成,即通過(guò)卷積操作提取特征,再通過(guò)下采樣操作得到更加抽象的特征,并將其輸入到一個(gè)或多個(gè)全連接層。最后一個(gè)全連接層連接到輸出層[43-44],典型的CNN架構(gòu)如圖6所示。卷積層和下采樣層構(gòu)成了CNN的主要模塊,下面對(duì)它們進(jìn)行研究。
4.1.1 卷積層
在卷積層中,先將輸入圖像與卷積核進(jìn)行卷積,再傳遞給非線性函數(shù) f,從而得到輸出特征圖[43]。假設(shè)第l-1層為下采樣層,第l層為卷積層,則第l層的第 j個(gè)特征圖的激活值為[43]:
其中Mj是某個(gè)特征圖像的子集,是第l-1層的第i個(gè)特征映射所對(duì)應(yīng)的像素值,是卷積核,是第 j個(gè)單元所對(duì)應(yīng)的偏置,“*”代表卷積運(yùn)算。當(dāng)卷積層提取的特征維數(shù)過(guò)高時(shí),很容易出現(xiàn)過(guò)擬合現(xiàn)象,而下采樣層的加入可以在一定程度上減少該現(xiàn)象的發(fā)生。
4.1.2 下采樣層
下采樣層可以減少像素信息,實(shí)現(xiàn)圖像壓縮[45-46]。該層一般采用最大池化或平均池化方法。假設(shè)第l-1層為卷積層,第l層為下采樣層。下采樣層的輸入特征圖與輸出特征圖數(shù)目相同,只是特征圖變小了。下采樣層的計(jì)算公式如下[43]:其中Nl表示第l層輸入特征圖的大小,和分別為乘性偏置和加性偏置,down(·)表示下采樣函數(shù)。
CNN有三個(gè)重要的特性:稀疏連接、權(quán)值共享和池采樣[43-47],這些特性可以幫助改善機(jī)器學(xué)習(xí)系統(tǒng),并使得CNN在一定程度上具有平移、縮放和扭轉(zhuǎn)不變性。
(1)稀疏連接
CNN采用了前向傳播計(jì)算輸出值,反向傳播調(diào)整權(quán)值和偏置。CNN的相鄰層之間的(去掉)是稀疏連接,這既減少了模型的內(nèi)存需求,又提高了計(jì)算效率。假設(shè)CNN模型有m個(gè)輸入節(jié)點(diǎn)和n個(gè)輸出節(jié)點(diǎn),全連接共有m×n個(gè)參數(shù);在稀疏連接中,限制每個(gè)輸出可能具有的連接數(shù)為k(k?m),則有k×n個(gè)參數(shù)[46]。
(2)權(quán)值共享
當(dāng)計(jì)算某層的輸出時(shí),傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)僅使用一次權(quán)值矩陣。但在CNN中,卷積核共享相同的權(quán)值矩陣和偏置向量。圖7給出了一個(gè)二維卷積操作的例子,其中:左上角為輸入數(shù)據(jù)(4×4矩陣),右上角為卷積核(2×2濾波器),下方為卷積操作結(jié)果。由此可以看出:卷積核被重復(fù)應(yīng)用于整個(gè)輸入數(shù)據(jù)中。這種權(quán)值共享降低了網(wǎng)絡(luò)復(fù)雜度[44]。
圖7 卷積運(yùn)算示意圖
(3)池化
在卷積層獲得圖像特征后,再對(duì)特征進(jìn)行分類,這通常會(huì)產(chǎn)生極大的計(jì)算量。采用池化(或下采樣)方法對(duì)卷積特征進(jìn)行降維,可在一定程度上保留一些重要或者有用的信息[43-44]。
與傳統(tǒng)的圖像處理方法相比,CNN避免了前期對(duì)圖像的預(yù)處理。但CNN的特征受到特定的網(wǎng)絡(luò)結(jié)構(gòu)、學(xué)習(xí)算法及訓(xùn)練集等諸多因素影響,對(duì)其原理的分析與解釋更加抽象和困難[2,47]。卷積層的權(quán)值共享和下采樣層的池化策略降低了網(wǎng)絡(luò)模型的復(fù)雜度,但在訓(xùn)練過(guò)程中耗費(fèi)大量的時(shí)間和計(jì)算資源,也會(huì)出現(xiàn)過(guò)擬合現(xiàn)象[45]。模型結(jié)構(gòu)的合理設(shè)置及訓(xùn)練速度的提升是CNN亟待解決的問(wèn)題。
RNN是指一個(gè)隨著時(shí)間推移而重復(fù)發(fā)生的結(jié)構(gòu),即為時(shí)間軸上的循環(huán)神經(jīng)網(wǎng)絡(luò)[2,48]。它是由輸入層、隱層和輸出層組成的有向無(wú)環(huán)結(jié)構(gòu)。隱層是循環(huán)實(shí)現(xiàn)的基礎(chǔ),其取值不僅取決于本次的輸入,還取決于上次隱層的輸出,且層級(jí)較高的隱層不會(huì)向較低的隱層傳播。RNN中的“循環(huán)”會(huì)把系統(tǒng)隱層的輸出保留在網(wǎng)絡(luò)中,再與下一時(shí)刻的輸入共同決定輸出[49]。
給定輸入序列和ht分別為t-1時(shí)刻和t時(shí)刻所對(duì)應(yīng)的隱變量的狀態(tài),Ot表示t時(shí)刻所對(duì)應(yīng)的輸出,建立如下模型[49]:
其中U和V分別表示從輸入層到隱層和隱層到輸出層的連接權(quán)值,W表示從隱層到隱層的循環(huán)連接權(quán)值,b和c分別表示輸入層和隱層的偏置,f和g是預(yù)先定義的激活函數(shù)。一般取 f為tanh或ReLU函數(shù),g為softmax函數(shù)。將 ht和 ht-1帶入Ot得[50]:
由上式可以看出:輸出值Ot依賴于 x(t),x(t-1),x(t-2),…,即存在長(zhǎng)期依賴問(wèn)題。
在訓(xùn)練RNN時(shí),仍使用反向傳播算法,且在每一個(gè)時(shí)刻均共享參數(shù)。每次的梯度不僅依賴于當(dāng)前時(shí)刻的值,也依賴于之前所有時(shí)刻的結(jié)果,稱此為時(shí)間的反向傳播(BPTT)[48-49]。BPTT導(dǎo)致參數(shù)與隱層狀態(tài)之間的高度不穩(wěn)定,從而對(duì)梯度下降產(chǎn)生直接影響,即出現(xiàn)“梯度消失問(wèn)題”。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)是RNN的一種修改結(jié)構(gòu)[50],在學(xué)習(xí)時(shí)仍具有長(zhǎng)期依賴性。LSTM通過(guò)門的開關(guān)來(lái)實(shí)現(xiàn)時(shí)間上的記憶功能,并防止了梯度消失問(wèn)題。對(duì)于多任務(wù)學(xué)習(xí),LSTM優(yōu)于RNN。目前,LSTM已被成功應(yīng)用于語(yǔ)音和手寫體識(shí)別中。
圖8是RNN在時(shí)間軸的展開示意圖,其中Lt表示t時(shí)刻所對(duì)應(yīng)的損失函數(shù)。在每一時(shí)步,RNN先接受一個(gè)輸入向量,再通過(guò)非線性函數(shù)來(lái)更新隱層狀態(tài),最后對(duì)輸出進(jìn)行預(yù)測(cè)。RNN常用的損失函數(shù)有均方誤差函數(shù)和交叉熵函數(shù)。
圖8 RNN在時(shí)間軸的展開圖
由于RNN在所有時(shí)刻都共享參數(shù)U、V和W,這極大地減少了需要學(xué)習(xí)的參數(shù)[2,51]。在應(yīng)用RNN時(shí),往往只需回顧之前的幾步,不需要每一刻的輸出。雖然RNN在理論上可以建立長(zhǎng)時(shí)間的間隔狀態(tài)之間的依賴關(guān)系,但由于梯度消失問(wèn)題,只能學(xué)習(xí)到短期的依賴關(guān)系。
DSN(或深度凸網(wǎng)絡(luò))強(qiáng)調(diào)學(xué)習(xí)網(wǎng)絡(luò)的凸性質(zhì)。它由多個(gè)模塊堆疊而成,每一個(gè)模塊都是一種特殊類型的神經(jīng)網(wǎng)絡(luò)且具有相同的結(jié)構(gòu),即線性輸入層、非線性隱層和線性輸出層。但每一個(gè)模塊的輸入有所不同,它們將原始輸入單元與低層模塊中的輸出單元連接起來(lái)[52-53]。
DSN的最底層模塊是構(gòu)建模型的基礎(chǔ),也由輸入單元的線性層、隱單元的非線性層和輸出單元的線性層組成[16,52]。記訓(xùn)練樣例x(i)為B維列向量,對(duì)應(yīng)的輸出標(biāo)簽t(i)為C維列向量。最底層模塊輸出的計(jì)算公式為[2]:
其中下層權(quán)值矩陣W1為B×A維,上層權(quán)值矩陣U1為A×C維,hi表示隱層的輸出單元,yi表示底部模塊的輸出,A為隱單元的數(shù)量。采用均方誤差來(lái)學(xué)習(xí)模型參數(shù)U1和W1,其公式如下[2]:
其中N表示訓(xùn)練樣例的總數(shù)目。在計(jì)算E之前,需要先對(duì)W1進(jìn)行經(jīng)驗(yàn)性設(shè)置,下面給出兩種方法:隨機(jī)生成各種分布,將結(jié)果用于設(shè)置W1;使用對(duì)比散度算法訓(xùn)練RBM,將權(quán)值用于設(shè)置W1。
令E關(guān)于U1的偏導(dǎo)數(shù)為0,得U1=F(W1)。而在傳統(tǒng)的反向傳播中,U1和W1是相互獨(dú)立的。構(gòu)造拉格朗日函數(shù)[2]:
通過(guò)最小化上述函數(shù),得到最優(yōu)化的參數(shù)W1。
圖9繪出了DSN示意圖,它由3個(gè)模塊相互堆疊而成,且構(gòu)造非常相似,僅在輸入層有一個(gè)擴(kuò)展。以塊堆疊的目的是從大數(shù)據(jù)中學(xué)習(xí)復(fù)雜的函數(shù),而學(xué)習(xí)復(fù)雜函數(shù)的方法是把簡(jiǎn)單函數(shù)組合在一起形成一個(gè)鏈[52-53]。
圖9 DSN示意圖
隨著深度學(xué)習(xí)的發(fā)展,不斷涌現(xiàn)出各種衍生模型。它們都基于深度學(xué)習(xí)的幾種典型模型,因此快速地理解深度學(xué)習(xí)典型模型及它們之間的關(guān)系是至關(guān)重要的。表2匯總了深度學(xué)習(xí)的幾種典型模型,該表包括模型、模型結(jié)構(gòu)、訓(xùn)練方式和相關(guān)算法等[54-59]。
神經(jīng)網(wǎng)絡(luò)(NN)是深度學(xué)習(xí)的基礎(chǔ);DBN的出現(xiàn)不僅掀起了深度學(xué)習(xí)的浪潮,而且加快了深度學(xué)習(xí)的發(fā)展;CNN是深度學(xué)習(xí)最具有代表性的模型。下面在MNIST數(shù)據(jù)集上對(duì)上述三種模型進(jìn)行評(píng)價(jià)和對(duì)比。
本文實(shí)驗(yàn)使用MNIST手寫體數(shù)字?jǐn)?shù)據(jù)集(http://yann.lecun.com/exdb/mnist/)。該數(shù)據(jù)集由Google實(shí)驗(yàn)室的Corinna和Facebook人工智能負(fù)責(zé)人Yann LeCun建立,其訓(xùn)練集和測(cè)試集分別由60 000和10 000個(gè)樣例組成[60-61]。每個(gè)樣本是一幅0~9的手寫體數(shù)字圖片,分辨率為28×28。本文主要使用DeepLearn Toolbox程序,其下載網(wǎng)址如下:https://github.com/rasmusbergpalm/DeepLearnToolbox。此程序使用MATLAB語(yǔ)言編寫,在2.9 GHz CPU的個(gè)人電腦上運(yùn)行。
NN由輸入層、隱層和輸出層組成,每層節(jié)點(diǎn)個(gè)數(shù)分別設(shè)置為784、100和10,其中“784”為輸入樣本的維數(shù)(28×28),“10”為類別數(shù)目。DBN由輸入層、第一隱層、第二隱層和輸出層等四層組成,每層節(jié)點(diǎn)個(gè)數(shù)分別設(shè)置為784、100、100和10。將 CNN設(shè)置為一個(gè)含輸入層在內(nèi)的五層網(wǎng)絡(luò),包含兩個(gè)卷積層和兩個(gè)下采樣層。CNN的卷積層C1和C3分別包含6個(gè)和12個(gè)大小均為5×5的卷積核,下采樣層S2和S4對(duì)應(yīng)的采樣核大小均為2×2。
5.3.1 不同策略下的NN
為了更好地驗(yàn)證NN的有效性,對(duì)NN采用了dropout技術(shù)[62]和權(quán)值衰減策略[61]。Dropout技術(shù)是指在模型訓(xùn)練時(shí)隨機(jī)讓網(wǎng)絡(luò)某些隱層節(jié)點(diǎn)的權(quán)值不工作,此處將dropout的概率設(shè)置為0.5。權(quán)值衰減是為了避免由于權(quán)值越來(lái)越大而出現(xiàn)的過(guò)擬合現(xiàn)象,設(shè)置懲罰因子為10-4。此外,令迭代次數(shù)epoch=1,批大小minibatch=100。
NN、NN+dropout技術(shù)、NN+權(quán)值衰減策略對(duì)應(yīng)的誤分率分別為7.41%、8.65%、1.86%。可以看出:采用權(quán)值衰減策略,誤分率降低了5.55%;而采用dropout技術(shù),誤分率反而增加了1.24%。因此,權(quán)值衰減策略可明顯提升神經(jīng)網(wǎng)絡(luò)的性能。
5.3.2 學(xué)習(xí)率和epoch對(duì)DBN的影響
學(xué)習(xí)率(LearnRate)是深度學(xué)習(xí)技術(shù)的重要參數(shù)[59],它決定了每次循環(huán)訓(xùn)練過(guò)程中所產(chǎn)生的權(quán)值變化量。學(xué)習(xí)率過(guò)大或過(guò)小都會(huì)對(duì)實(shí)驗(yàn)結(jié)果造成影響。通常需要多次調(diào)節(jié)學(xué)習(xí)率,或者基于先驗(yàn)知識(shí)對(duì)其進(jìn)行設(shè)置。一次迭代(epoch)就是將訓(xùn)練集中的全部樣例訓(xùn)練一次。分別考慮三種不同的學(xué)習(xí)率和epoch,DBN的識(shí)別率和運(yùn)行時(shí)間如表3所示。
表2 深度學(xué)習(xí)的典型模型匯總
表3 不同學(xué)習(xí)率和epoch下DBN的實(shí)驗(yàn)結(jié)果
表4 不同學(xué)習(xí)率和epoch下CNN的實(shí)驗(yàn)結(jié)果
從表3可以看出:當(dāng)epoch=1時(shí),網(wǎng)絡(luò)的誤分率隨學(xué)習(xí)率的增加而降低;當(dāng)學(xué)習(xí)率固定時(shí),網(wǎng)絡(luò)的識(shí)別能力隨epoch的增加而增強(qiáng);隨epoch或?qū)W習(xí)率的增加,實(shí)驗(yàn)運(yùn)行時(shí)間往往也變長(zhǎng)。
5.3.3 學(xué)習(xí)率和epoch對(duì)CNN的影響
對(duì)于CNN模型,同樣考慮不同學(xué)習(xí)率和epoch組合下的識(shí)別結(jié)果,如表4所示。從表4可以看出,當(dāng)學(xué)習(xí)率一定時(shí),網(wǎng)絡(luò)的誤分率隨著epoch的增加而降低;當(dāng)epoch固定時(shí),網(wǎng)絡(luò)的誤分率隨著學(xué)習(xí)率的增加而降低。當(dāng)LearnRate=1、epoch=50時(shí),網(wǎng)絡(luò)的識(shí)別效果最佳。
本文主要探討了深度學(xué)習(xí)的幾種典型模型,闡述了它們的模型結(jié)構(gòu)、建立、求解和評(píng)價(jià),并對(duì)這些典型模型進(jìn)行了總結(jié)和對(duì)比。DBN等無(wú)監(jiān)督學(xué)習(xí)模型通常用來(lái)協(xié)助隨后的監(jiān)督學(xué)習(xí),并為其提供預(yù)訓(xùn)練;預(yù)訓(xùn)練結(jié)束后,再使用監(jiān)督學(xué)習(xí)進(jìn)行反向微調(diào)。雖然深度學(xué)習(xí)已被成功應(yīng)用于語(yǔ)音、視頻、圖像、自然語(yǔ)言處理和信息檢索等諸多科學(xué)領(lǐng)域,但仍面臨一些挑戰(zhàn)[2,33,40,42,55,63-64]:
(1)數(shù)學(xué)理論的缺乏。對(duì)于深度學(xué)習(xí)框架,業(yè)界普遍存在一系列疑問(wèn),例如:算法的收斂性與穩(wěn)定性;深度學(xué)習(xí)需要多少隱層;在大規(guī)模網(wǎng)絡(luò)中,需要多少有效參數(shù)。不管是構(gòu)建更好的深度學(xué)習(xí)系統(tǒng),還是提供更好的解釋,深度學(xué)習(xí)都需要完善的理論支持。
(2)深度學(xué)習(xí)的應(yīng)用推廣。在應(yīng)用經(jīng)典的深度學(xué)習(xí)模型時(shí),實(shí)驗(yàn)結(jié)果可能不理想,這就要求根據(jù)特定的問(wèn)題與數(shù)據(jù)來(lái)制定和優(yōu)化深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)。
(3)深度網(wǎng)絡(luò)訓(xùn)練的求解問(wèn)題。這些問(wèn)題主要包括:隨網(wǎng)絡(luò)層數(shù)增加而帶來(lái)的梯度消失問(wèn)題;如何有效地設(shè)置深度學(xué)習(xí)的模型參數(shù)和進(jìn)行大規(guī)模并行訓(xùn)練。
(4)新模型對(duì)人工智能發(fā)展的影響。深度學(xué)習(xí)不斷涌現(xiàn)出新的模型,如:生成對(duì)抗網(wǎng)絡(luò)和膠囊網(wǎng)絡(luò)等。這些模型可能會(huì)從觀念上挑戰(zhàn)傳統(tǒng)的深度學(xué)習(xí),也可能會(huì)改變計(jì)算機(jī)視覺傳輸?shù)姆绞?,重塑人工智能?/p>
隨著人工智能的蓬勃發(fā)展,我國(guó)越來(lái)越多的學(xué)者開始關(guān)注深度學(xué)習(xí)。深度學(xué)習(xí)將智能技術(shù)從實(shí)驗(yàn)室?guī)У搅水a(chǎn)業(yè)及應(yīng)用層面,但許多學(xué)者仍將深度學(xué)習(xí)當(dāng)做一種工具來(lái)使用,忽略了它的分類及基礎(chǔ)概念、技術(shù)的歷史進(jìn)程和發(fā)展方向,從而導(dǎo)致人們對(duì)此人工智能技術(shù)的整體發(fā)展趨勢(shì)及可用性缺乏宏觀認(rèn)識(shí)。因此,為了加深對(duì)深度學(xué)習(xí)的理解,需要完善深度學(xué)習(xí)的數(shù)學(xué)理論,并將深度學(xué)習(xí)技術(shù)應(yīng)用于大數(shù)據(jù)相關(guān)問(wèn)題的求解上,尤其是數(shù)據(jù)的高維度、學(xué)習(xí)算法的可擴(kuò)展性及分布式計(jì)算等。
:
[1]Arel I,Rose D C,Karnowski T P.Deep machine learninga new frontier in artificial intelligence research[J].IEEE Computational Intelligence Magazine,2010,5(4):13-18.
[2]Deng L,Yu D.Deep learning:methods and applications[J].Foundations and Trends in Signal Processing,2014,7(3/4):197-387.
[3]王山海,景新幸,楊海燕.基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的孤立詞語(yǔ)音識(shí)別的研究[J].計(jì)算機(jī)應(yīng)用研究,2015,32(8):2289-2291.
[4]Lee H,Pham P,Largman Y,et al.Unsupervised feature learning for audio classification using convolutional deep belief networks[C]//Advances in Neural Information Processing Systems(NIPS),2009:1096-1104.
[5]許可.卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別上的應(yīng)用的研究[D].杭州:浙江大學(xué),2012.
[6]林奕鷗,雷航,李曉瑜,等.自然語(yǔ)言處理中的深度學(xué)習(xí):方法及應(yīng)用[J].電子科技大學(xué)學(xué)報(bào),2017,46(6):913-919.
[7]Deng L,He X,Gao J.Deep stacking networks for information retrieval[C]//IEEE InternationalConferenceon Acoustics,Speech and Signal Processing(ICASSP),2013:3153-3157.
[8]Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets[J].Neural Computation,2006,18(7):1527-1554.
[9]Bengio Y,Lamblin P,Popovici D,et al.Greedy layerwise training of deep networks[C]//Advances in Neural Information Processing Systems,2007:153-160.
[10]Abdel-Hamid O,Deng L,Yu D.Exploring convolutional neural network structures and optimization techniques for speech recognition[C]//Interspeech,2013:3366-3370.
[11]Martens J,Sutskever I.Learning recurrent neural networks with hessian-free optimization[C]//Proceedings of the 28th International Conference on Machine Learning(ICML),2011:1033-1040.
[12]Sainath T N,Kingsbury B,Ramabhadran B.Auto-encoder bottleneck features using deep belief networks[C]//IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2012:4153-4156.
[13]Vincent P,Larochelle H,Bengio Y,et al.Extracting and composing robust features with denoising autoencoder[C]//Proceedings of the 25th International Conference on Machine Learning(ICML),2008.
[14]Vincent P,Larochelle H,Lajoie I,et al.Stacked denoising autoencoders:Learning useful representations in a deep network with a local denoising criterion[J].Journal of Machine Learning Research,2010:3371-3408.
[15]Salakhutdinov R,Hinton G.Deep Boltzmann machines[C]//Artificial Intelligence and Statistics,2009:448-455.
[16]Deng L,Yu D,Platt J.Scalable stacking and learning forbuilding deep architectures[C]//IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2012:2133-2136.
[17]Goodfellow L,Pouget-Abadie J,Mirza M,et al.Generative adversarial networks[C]//Advances in Neural Information Processing Systems(NIPS),2014.
[18]Lee H,Grosse R,Ranganath R,et al.Unsupervised learning of hierarchical representations with convolutional deep belief networks[J].Communications of the ACM,2011,54(10):95-103.
[19]Ajith A.Artifical neural networks[M].Sydenham P H,Thorn R.Handbook of measuring system design.New York:John Wiley&Sons,2005.
[20]Bengio Y.Learning deep architectures for AI[J].Foundations and trends in Machine Learning,2009,2(1):1-127.[21]Hinton G.A practical guide to training restricted Boltzmann machines[J].Momentum,2012,9(1):926.
[22]Mohamed A R,Hinton G.Phone recognition using restricted Boltzmann machines[C]//IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2010:4354-4357.
[23]Larochelle H,Bengio Y.Classification using discriminative restricted Boltzmann machines[C]//Proceedings of the 25th International Conference on Machine Learning(ICML),2008:536-543.
[24]Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.
[25]Mohamed A R,Yu D,Deng L.Investigation of fullsequence training of deep belief networks for speech recognition[C]//Eleventh Annual Conference of the International Speech Communication Association,2010.
[26]Ngiam J,Chen Z.Learning deep energy models[C]//Proceedings of the 28th International Conference on Machine Learning(ICML),2011:1105-1112.
[27]Deng L,Seltzer M L,Yu D,et al.Binary coding of speech spectrograms using a deep auto-encoder[C]//Eleventh Annual Conference of the International Speech Communication Association,2010.
[28]Bengio Y,Courville A,Vincent P.Representation learning:A review and new perspectives[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1798-1828.
[29]Lawrence S,Giles C L,Tsoi A C,et al.Face recognition:A convolutional neural-network approach[J].IEEE Transactions on Neural Networks,1997,8(1):98-113.
[30]張晴晴,劉勇,王智超,等.卷積神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的應(yīng)用[J].網(wǎng)絡(luò)新媒體技術(shù),2014(6):39-42.
[31]Graves A.Sequence transduction with recurrent neural networks[J].arXiv:1211.3711,2012.
[32]Deng L.An overview of deep-structured learning for information processing[C]//Proceedings of Asian-Pacific Signal&Information Processing Annual Summit and Conference(APSIPA-ASC),2011.
[33]Bengio Y.Deep learning of representations for unsupervised and transferlearning[C]//ProceedingsofICML Workshop on Unsupervised and Transfer Learning,2012:17-36.
[34]Dahl G E,Yu D,Deng L,et al.Context-dependent pretrained deep neural networks for large vocabulary speech recognition[J].IEEE Transactions on Audio,Speech,and Language Processing,2012,20(1):30-42.
[35]Dahl G E,Yu D,Deng L,et al.Context-dependent DBNHMMs in large vocabulary continuous speech recognition[C]//Proceedings of International Conference on Acoustics,Speech and Signal Processing(ICASSP),2011.
[36]Mohamed A R,Dahl G E,Hinton G E.Acoustic modeling using deep belief networks[J].IEEE Transactions on Audio,Speech,and Language Processing,2012,20(1):14-22.
[37]Goodfellow L,Mirza M,Courville A,et al.Multi-prediction deep Boltzmann machines[C]//Advances in Neural Information Processing Systems(NIPS),2013:548-556.
[38]Salakhutdinov R R,Hinton G E.A better way to pretrain deep boltzmann machines[C]//Advances in Neural Information Processing Systems(NIPS),2012:2447-2455.
[39]Tzikas D G,Likas A C,Galatsanos N P.The variational approximation forBayesian inference[J].IEEE Signal Processing Magazine,2008,25(6):131-146.
[40]焦李成,趙進(jìn),楊淑媛,等.稀疏認(rèn)知學(xué)習(xí),計(jì)算與識(shí)別的研究進(jìn)展[J].計(jì)算機(jī)學(xué)報(bào),2016,39(4):835-851.
[41]Coates A,Ng A Y.The importance of encoding versus training with sparse coding and vector quantization[C]//Proceedings of the 28th International Conference on Machine Learning(ICML),2011:921-928.
[42]焦李成,趙進(jìn),楊淑媛,等.深度學(xué)習(xí)、優(yōu)化與識(shí)別[M].北京:清華大學(xué)出版社,2017:100-120.
[43]Bouvrie J.Notes on convolutional neural networks[J/OL].(2006).http://cogprints.org/5869/1/cnn_tutorial.pdf.
[44]Deng L,Abdel-Hamid O,Yu D.A deep convolutional neural network using heterogeneous pooling for trading acoustic invariance with phonetic confusion[C]//IEEE InternationalConferenceonAcoustics,Speech and Signal Processing(ICASSP),2013:6669-6673.
[45]Zeiler M D,F(xiàn)ergus R.Visualizing and understanding convolutional networks[C]//European Conference on Computer Vision(ECCV).Cham:Springer,2014:818-833.
[46]Goodfellow L,Bengio Y,Courvile A.Deep learning[M].[S.l.]:MIT Press,2016.
[47]李彥冬,郝宗波,雷航.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)應(yīng)用,2016,36(9):2508-2515.
[48]LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.
[49]Gulcehre C,Cho K,Pascanu R,et al.Learned-norm pooling for deep feedforward and recurrent neural networks[C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases.Berlin,Heidelberg:Springer,2014:530-546.
[50]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.
[51]鄧力,俞棟.深度學(xué)習(xí)方法及應(yīng)用[M].謝磊,譯.北京:機(jī)械工業(yè)出版社,2015:48-57.
[52]Huang P S,Deng L,Hasegawa-Johnson M,et al.Random features for kernel deep convex network[C]//IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2013:3143-3147.
[53]Hutchinson B,Deng L,Yu D.A deep architecture with bilinear modeling of hidden representations:Applicationsto phonetic recognition[C]//IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2012:4805-4808.
[54]馬世龍,烏尼日其其格,李小平.大數(shù)據(jù)與深度學(xué)習(xí)綜述[J].智能系統(tǒng)學(xué)報(bào),2016,11(6):728-742.
[55]劉帥師,程曦,郭文燕,等.深度學(xué)習(xí)方法研究新進(jìn)展[J].智能系統(tǒng)學(xué)報(bào),2016,11(5):567-577.
[56]孫志軍,薛磊,許陽(yáng)明,等.深度學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2012,29(8):2806-2810.
[57]Yu D,Deng L.Deep learning and its applications to signal and information processing[J].IEEE Signal Processing Magazine,2011,28(1):145-154.
[58]Schmidhuber J.Deep learning in neural networks:An overview[J].Neural Networks,2015,61:85-117.
[59]Huang F J,Boureau Y L,LeCun Y.Unsupervised learning of invariant feature hierarchies with applications to object recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2007:1-8.
[60]Deng L.The MNIST database of handwritten digit images for machine learning research[J].IEEE Signal Processing Magazine,2012,29(6):141-142.
[61]Palm R B.Prediction as a candidate for learning deep hierarchical models of data[J].Technical University of Denmark,2012,5.
[62]Ba J,F(xiàn)rey B.Adaptive dropout for training deep neural networks[C]//Advances in Neural Information Processing Systems(NIPS),2013:3084-3092.
[63]范竣翔,李琦,朱亞杰,等.基于RNN 的空氣污染時(shí)空預(yù)報(bào)模型研究[J].測(cè)繪科學(xué),2017,42(7):76-83.
[64]尹寶才,王文通,王立春.深度學(xué)習(xí)研究綜述[J].北京大學(xué)學(xué)報(bào),2015,41(1):49-58.