劉涵+賀霖+李軍
摘要:深度學(xué)習(xí)一般通過3種方式進行:有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和混合深度學(xué)習(xí)。以“無監(jiān)督或生成式特征學(xué)習(xí)”以及“有監(jiān)督特征學(xué)習(xí)和分類”為例,討論了深度學(xué)習(xí)及其在圖像處理等領(lǐng)域的進展及未來可能的研究方向。認(rèn)為深度學(xué)習(xí)打破了傳統(tǒng)機器學(xué)習(xí)和信號處理技術(shù)普遍基于淺層結(jié)構(gòu)的局限。得益于相關(guān)非凸優(yōu)化等問題的逐步解決,深度學(xué)習(xí)已經(jīng)在圖像處理等領(lǐng)域取得了一些突破性的進展。
關(guān)鍵詞: 深度學(xué)習(xí);圖像處理;分層結(jié)構(gòu)
在過去10年左右的時間里,深度學(xué)習(xí)對信息技術(shù)的許多方面都產(chǎn)生了重要影響。諸多關(guān)于深度學(xué)習(xí)的描述普遍存在兩個重要的共同點:包含多層或多階非線性信息處理的模型;使用了連續(xù)的更高、更抽象層中的監(jiān)督或無監(jiān)督學(xué)習(xí)特征表示的方法。深度學(xué)習(xí)是以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),包含人工智能、圖模型、最優(yōu)化等技術(shù)在內(nèi)的交叉領(lǐng)域。它之所以如此受關(guān)注,主要源于3個方面:芯片硬件處理性能的巨大提升,為深度網(wǎng)絡(luò)的復(fù)雜計算提供了基礎(chǔ);用于訓(xùn)練的數(shù)據(jù)呈爆炸性增長,為復(fù)雜網(wǎng)絡(luò)的學(xué)習(xí)提供了可能;機器學(xué)習(xí)和信息處理等方面研究取得了很大進展。
1 深度學(xué)習(xí)的發(fā)展
以前,絕大多數(shù)機器學(xué)習(xí)和信號處理技術(shù)都是基于淺層結(jié)構(gòu),如高斯混合模型(GMM)、線性或非線性動力系統(tǒng)、條件隨機場(CRF)、最大熵模型(MaxEnt)、支持向量機(SVM)、邏輯回歸(LR)、核回歸以及多層感知器(MLP)等。這些結(jié)構(gòu)一般包含最多一到兩層的非線性特征變換。已有研究表明:淺層結(jié)構(gòu)在解決簡單的或者約束較多的問題上效果明顯,但是由于其建模和表示能力有限,在對實際應(yīng)用中一些較為復(fù)雜自然信號(比如人類語音、自然聲音和語言、自然圖像和視覺景色)進行處理時會遇到一些困難。人類的聽覺和視覺信息等的處理機制一般可以用深度結(jié)構(gòu)描述,通過該結(jié)構(gòu)可以從感官輸入信息中提取復(fù)雜結(jié)構(gòu)并構(gòu)建內(nèi)部表示。如果能實現(xiàn)有效和高效的深度學(xué)習(xí)算法,那么對于各種自然信號的處理技術(shù)而言,其性能會得到很大提升。
深度學(xué)習(xí)的概念一般被認(rèn)為來源于對人工神經(jīng)網(wǎng)絡(luò)的研究。前饋神經(jīng)網(wǎng)絡(luò)或具有多隱層的多層感知器是深度神經(jīng)網(wǎng)絡(luò)(DNN)的典型模型。反向傳播(BP)算法是解決其學(xué)習(xí)問題的廣泛運用的典型算法。遺憾的是,僅僅使用BP算法在實際學(xué)習(xí)隱層數(shù)目較多的網(wǎng)絡(luò)時往往效果不是很好[1]。在優(yōu)化目標(biāo)為非凸函數(shù)的深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中,通常存在局部最優(yōu)解等問題。BP算法基于局部梯度信息,往往從一些隨機的初始點開始尋優(yōu),當(dāng)使用批量梯度下降或隨機梯度下降的BP算法時,目標(biāo)函數(shù)經(jīng)常會陷入局部最優(yōu)。隨著網(wǎng)絡(luò)層數(shù)的加深,局部最優(yōu)的情況也就會變得越來越嚴(yán)重。雖然相關(guān)研究者對小規(guī)模的神經(jīng)網(wǎng)絡(luò)的探究從未間斷過,但是在很多機器學(xué)習(xí)和信號處理方法中,研究者們將研究重點從對神經(jīng)網(wǎng)絡(luò)本身的研究轉(zhuǎn)移到對具有凸損失函數(shù)的淺層模型的研究,這些模型以降低建模準(zhǔn)確度為代價,達到快速高效地收斂到全局最優(yōu)化的目的。所以,深層網(wǎng)絡(luò)本身還存在著易于陷入局部最優(yōu)等缺陷,有待于進行更深入的研究。
Hinton等在2006年左右提出了一種高效的基于深度置信網(wǎng)絡(luò)(DBN)的無監(jiān)督學(xué)習(xí)算法[2-3],他們利用經(jīng)驗性的方法處理了與深度模型相關(guān)的最優(yōu)化難題。DBN是一種深度生成式模型,由一組受限玻爾茲曼機(RBMs)堆疊而成,它的核心部分是貪婪式的逐層學(xué)習(xí),這種算法可以最優(yōu)化DBN中的權(quán)重,且其時間復(fù)雜度與網(wǎng)絡(luò)的大小和深度呈線性關(guān)系。最近,相關(guān)研究者對于DNN與DBN進行了更加細(xì)致的研究,如可使用DBN來初始化DNN的權(quán)值等。在DNN中,多隱層的使用不僅顯著提高了網(wǎng)絡(luò)的表示能力,而且可得到一些較優(yōu)解。然而,在訓(xùn)練過程中使用深而寬的神經(jīng)網(wǎng)絡(luò)需要依賴于強大的計算性能。隨機梯度下降(SGD)算法就是一種在訓(xùn)練集較大且冗余的情況下較為有效的學(xué)習(xí)算法[4]。已有的研究表明:SGD可以有效地實現(xiàn)并行方式的運算。該并行運算主要通過兩種方式實現(xiàn):一種方式是通過異步模式使用多臺計算機[5];另一種方式是使用多圖形處理器(GPU)的流水線型的BP算法[6]。另外,從單個或小批量樣本中估計得到的隨機性梯度使得SGD通常能跳出局部最優(yōu)解。其他的一些學(xué)習(xí)算法,如Hessian free[7]、Krylov subspace[12]方法等,都表現(xiàn)出了類似的學(xué)習(xí)能力。對于DNN學(xué)習(xí)中涉及的非凸優(yōu)化問題,更好的參數(shù)初始化和學(xué)習(xí)技術(shù)都會學(xué)習(xí)出更好的模型。
DBN預(yù)訓(xùn)練并不是唯一可對DNN進行有效初始化的方法?;诮翟胱詣泳幋a器的方法對DNN進行逐層地預(yù)訓(xùn)練,將每兩層視為一個降噪自編碼器,該編碼器再通過將輸入節(jié)點的隨機子集設(shè)置為零進行正則化[1,8]。另一種方法則是使用壓縮自編碼器[14],該編碼器通過使輸入變量具有更好的魯棒性來達到同樣的目的。此外,Ranzato等開發(fā)了稀疏編碼對稱機(SESM)[9],其在構(gòu)建DBN模塊中具有和RBM非常類似的架構(gòu),它也可以用來有效地初始化DNN的訓(xùn)練過程。除了使用貪婪方法逐層地進行無監(jiān)督預(yù)訓(xùn)練,有監(jiān)督的預(yù)訓(xùn)練(有時稱為判別式預(yù)訓(xùn)練)也被證明是比較有效的[10-11]。有監(jiān)督的預(yù)訓(xùn)練的基本思路是從一個經(jīng)過BP算法訓(xùn)練的單個隱層MLP開始,每一次需要添加一個新的隱層時,用一個隨機初始化的新的隱層和輸出層替換輸出層,并用BP算法訓(xùn)練全新的MLP(或DNN)。在RBM發(fā)展的同時,出現(xiàn)了另外兩種較有代表性的非概率的、非生成式的深度模型:一種是基于自編碼器(AE)的改進模型,其使用與DBN訓(xùn)練相似的貪婪分層方法進行訓(xùn)練;另一種是基于能量的模型,其利用稀疏表示來進行非監(jiān)督學(xué)習(xí)。與DBN相似,其也可對深度神經(jīng)網(wǎng)絡(luò)進行高效的預(yù)訓(xùn)練。
2 3種深度學(xué)習(xí)網(wǎng)絡(luò)
深度學(xué)習(xí)是一類應(yīng)用廣泛的機器學(xué)習(xí)技術(shù)和架構(gòu),其特點是采用多層的非線性結(jié)構(gòu)進行信息處理,這種方法在本質(zhì)上是分層實現(xiàn)的。根據(jù)不同應(yīng)用領(lǐng)域的任務(wù)目標(biāo)及對應(yīng)的不同深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),我們可以大致把已有深度學(xué)習(xí)結(jié)構(gòu)分為3類:
(1)無監(jiān)督的或生成式學(xué)習(xí)的深度網(wǎng)絡(luò)。該結(jié)構(gòu)針對模式分析和合成任務(wù),用于在沒有目標(biāo)類標(biāo)簽信息的情況下捕捉可見數(shù)據(jù)的高階相關(guān)性。已有的無監(jiān)督特征學(xué)習(xí)或表達學(xué)習(xí)指的就是這一類深度網(wǎng)絡(luò)。
(2)有監(jiān)督學(xué)習(xí)的深度網(wǎng)絡(luò)。該種網(wǎng)絡(luò)直接提供用于模式分類目的的判別能力,它的特點是描述了在給定可見數(shù)據(jù)的條件下不同類別的后驗概率分布。對于這種有監(jiān)督的學(xué)習(xí),目標(biāo)數(shù)據(jù)的類別標(biāo)簽總是以直接或間接形式給出,所以它們也被稱作判別式深度網(wǎng)絡(luò)。
(3)混合式深度網(wǎng)絡(luò)。其目標(biāo)是實現(xiàn)判別式模型的效果,往往以生成式或無監(jiān)督深度網(wǎng)絡(luò)的結(jié)果作為重要輔助,通過更好地優(yōu)化和正則化以上類別(2)中的深度網(wǎng)絡(luò)來實現(xiàn),也可以通過使用判別式準(zhǔn)則對以上類別(1)中所述的深度生成式或無監(jiān)督深度網(wǎng)絡(luò)進行參數(shù)估計來實現(xiàn)。
從傳統(tǒng)機器學(xué)習(xí)的角度,深度學(xué)習(xí)模型可分為深度判別式模型和生成式/無監(jiān)督模型。然而這種模型分類方法忽略了深度學(xué)習(xí)研究中的一個重要觀點,即生成式和無監(jiān)督學(xué)習(xí)模型可通過更好地正則化與優(yōu)化來提高深度判別網(wǎng)絡(luò)的訓(xùn)練效果。因此,深度學(xué)習(xí)網(wǎng)絡(luò)有時會以混合式的結(jié)構(gòu)形式出現(xiàn)。
3 深度學(xué)習(xí)在圖像目標(biāo)識別和計算機視覺中的應(yīng)用
多年來,計算機視覺和圖像目標(biāo)識別等任務(wù)長期依賴人工設(shè)計的特征,如尺度不變特征變換(SIFT)和方向梯度直方圖(HOG)等。此類特征僅僅是對圖像中低級別的邊緣信息進行描述與表征,若要描述圖像中高級信息例如邊緣交叉和局部外觀等,其往往顯得力不從心。深度學(xué)習(xí)可以通過無監(jiān)督和有監(jiān)督的學(xué)習(xí)方法直接從數(shù)據(jù)中獲得層級化的視覺特征,從而提供一套更為有效的解決方案。深度學(xué)習(xí)方法經(jīng)??蓮臒o監(jiān)督和有監(jiān)督兩個角度進行討論:無監(jiān)督特征學(xué)習(xí),該類方法通常將深度學(xué)習(xí)用于特征提取,然后這些特征會被直接送入后續(xù)分類算法;有監(jiān)督的特征學(xué)習(xí),當(dāng)存在大量有標(biāo)簽樣本時,此類方法通過端到端的學(xué)習(xí)策略實現(xiàn)特征提取與分類器的聯(lián)合優(yōu)化。
3.1 無監(jiān)督或生成特征學(xué)習(xí)
當(dāng)有標(biāo)簽樣本相對缺乏時,無監(jiān)督學(xué)習(xí)算法可用于學(xué)習(xí)視覺特征層級結(jié)構(gòu)。如Hinton和Salakhutdinoy等最早提出將無監(jiān)督深度自編碼方法應(yīng)用于DBN模型的預(yù)訓(xùn)練[4]。他們利用該方法在僅有60 000個訓(xùn)練樣本的美國國家標(biāo)準(zhǔn)技術(shù)研究所修正(MNIST)數(shù)據(jù)庫上成功實現(xiàn)了圖像的識別和降維(編碼)任務(wù)。此外,Nair和Hinton提出了一種改進的DBN,該DBN的頂層使用了一個三階的RBM [12]。當(dāng)這種DBN被應(yīng)用于NORB數(shù)據(jù)庫(一個三維目標(biāo)識別任務(wù)數(shù)據(jù)庫)上時,其錯誤率幾乎下降到了目前所公布的最低水平,這再次表明了DBN在很大程度上是優(yōu)于類SVM這樣的淺層模型。隨后,還出現(xiàn)一些對DBN的改進文獻。其他的一些無監(jiān)督深度特征學(xué)習(xí)方法還包括稀疏自編碼器及基于深度稀疏編碼的模型等[13]。
3.2 有監(jiān)督特征學(xué)習(xí)和分類
CNN是一種受到廣泛關(guān)注的有監(jiān)督深度學(xué)習(xí)結(jié)構(gòu)。有監(jiān)督CNN結(jié)構(gòu)獲得廣泛關(guān)注始于2012年10月ImageNet競賽,這主要是由于大量的有標(biāo)簽樣本及高性能GPU計算平臺的出現(xiàn)使得大規(guī)模CNN的高效訓(xùn)練成為可能。圖1給出了文獻[14]中所描述的CNN的基本結(jié)構(gòu)。為了實現(xiàn)典型圖像像素的空間位置相對不變性這一特點,CNN使用了一個帶有局部連接和共享權(quán)值的卷積層,該層的輸出通過一個非線性激活函數(shù)來獲得激活響應(yīng),接著通過一個非線性池化層來減小數(shù)據(jù)量,最后再將池化層的輸出連接到若干個全連接層。這種結(jié)構(gòu)也常被稱作深度卷積神經(jīng)網(wǎng)絡(luò)。
CNN在2012年的ImageNet競賽中取得了矚目的成績。在該次比賽中,使用深度CNN進行建模的方法獲得了前所未有的低錯誤率。該深度CNN模型包含6千萬個權(quán)值,65萬個神經(jīng)元節(jié)點以及結(jié)合5個卷積層的最大池化層。此外,兩個全連接層也被用于這個CNN模型的最頂層。另外,還有兩個額外的因素也起到了很重要的作用:首先,是一個稱為“dropout”[15]的強大的正則化技術(shù);第二個重要因素是通過激活函數(shù)f(x)=max(x,0)所實現(xiàn)的整流線性單元(ReLU)的應(yīng)用,使得整個訓(xùn)練過程的效率被極大地提高,尤其是通過GPU并行運算實現(xiàn)后取得的效果更加明顯。其后,基于更大規(guī)模的模型以及更多的訓(xùn)練數(shù)據(jù),CNN得到了進一步的改進。不少深度CNN模型和方法的強大學(xué)習(xí)能力在各年的ImageNet競賽上得到了驗證。
深度CNN已被證明在圖像目標(biāo)識別任務(wù)中具有卓越的分類性能,關(guān)于其機理也逐漸有了一些解釋,如Zeiler等利用基于反卷積網(wǎng)絡(luò)的可視化技術(shù)對CNN的機理進行了一些討論[16]。圖2示意了反卷積機理,該反卷積網(wǎng)絡(luò)通過CNN中相應(yīng)前饋計算的相反連續(xù)操作,其中包括反池化、校正和濾波,使得特征圖譜之上的活動得以重建。在實現(xiàn)反池化的過程中,最大池化操作的非可逆性通過近似逆向逼近的方法得以解決。
除了深度CNN結(jié)構(gòu)外,DNN結(jié)構(gòu)也在大量的計算機視覺任務(wù)上獲得了成功[17-19]。目前,基于深度CNN結(jié)構(gòu)的有監(jiān)督學(xué)習(xí)模式及其相關(guān)的分類技術(shù)已在相關(guān)研究領(lǐng)域產(chǎn)生很大影響,這尤其體現(xiàn)在2012—2013年的ImageNet比賽中。這些方法不僅可以用于圖像目標(biāo)識別任務(wù),同樣還可以應(yīng)用于其他一些計算機視覺的任務(wù)中。當(dāng)然,關(guān)于CNN深度學(xué)習(xí)方法的機理及其局限性等,仍有很多問題需要探討。
4 結(jié)論及展望
深度學(xué)習(xí)作為當(dāng)前機器學(xué)習(xí)領(lǐng)域最熱門的技術(shù)之一,已經(jīng)在不少領(lǐng)域獲得了應(yīng)用,并且展現(xiàn)出巨大的前景。根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)的不同,它大致可以分為無監(jiān)督、有監(jiān)督和混合神經(jīng)網(wǎng)絡(luò)3種類別。作為一種從本質(zhì)上來說是分層非線性結(jié)構(gòu)的深度模型,它所構(gòu)建和學(xué)習(xí)的深層特征表示無疑極大地提升了傳統(tǒng)淺層模型的泛化能力;但是隨之而來的明顯非凸的優(yōu)化目標(biāo)形式卻長期困擾著該領(lǐng)域的研究者,如其導(dǎo)致的局部最優(yōu)化等問題,阻礙著基于梯度的BP算法的有效實施。得益于無監(jiān)督預(yù)訓(xùn)練方法對優(yōu)化初始點的改善,該問題有了一些經(jīng)驗性且行之有效的解決方案。雖然該類方法缺乏穩(wěn)固的理論基礎(chǔ),卻成功促成了深度學(xué)習(xí)方法在學(xué)術(shù)界和工業(yè)界的大規(guī)模成功應(yīng)用。通過最近的研究發(fā)現(xiàn),現(xiàn)有深度架構(gòu)在優(yōu)化技術(shù)等方面存在著巨大的提升空間[7,10,20-23]。
另一方面,如果訓(xùn)練數(shù)據(jù)集足夠大,理論上來講,模型的泛化能力將會得到較大的提升,那么通過深度置信網(wǎng)絡(luò)等預(yù)訓(xùn)練方法所帶來的良好優(yōu)化初始點的重要性必然會顯著降低。然而,要實施針對大規(guī)模數(shù)據(jù)集的應(yīng)用,強大的計算能力是必不可少的。當(dāng)前來看,有效且可拓展的并行算法是訓(xùn)練龐大數(shù)據(jù)集的關(guān)鍵所在。然而,常用的基于mini-batch的梯度下降技術(shù)很難并行實現(xiàn)。最近出現(xiàn)的異步梯度下降等技術(shù)為這一領(lǐng)域相關(guān)問題的解決帶來了一些新思路,并在CPU集群[7,13]和GPU集群[24]中得到了初步的實現(xiàn)。未來,對于并行學(xué)習(xí)和新型的大規(guī)模優(yōu)化算法仍需要進行有針對性的理論研究。
目前,阻礙深度模型發(fā)展的另一主要問題在于超參數(shù)的合理選擇。眾所周知,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)有著數(shù)量眾多且自由度極大的超參數(shù),如網(wǎng)絡(luò)架構(gòu)的層數(shù)以及每層的單元數(shù)、正則化強度、學(xué)習(xí)速率以及學(xué)習(xí)速率衰減率等。基于傳統(tǒng)的網(wǎng)格搜索等技術(shù)的解決方案無論從效率還是成本的角度上來講對于超參數(shù)的設(shè)定都是不可行的。此外,不同的超參數(shù)之間通常存在著相互依賴性,且微調(diào)代價巨大。這些問題決定了我們需要開展進一步的研究來探索更有效的解決方案。令人欣慰的是,近來以隨機采樣[25]和貝葉斯優(yōu)化過程[26]為代表的方法給我們帶來了一些新思路。雖然一些經(jīng)驗性的超參數(shù)設(shè)置即可在一定程度反映出深層結(jié)構(gòu)所具有的強大泛化能力,但是超參數(shù)的最優(yōu)化配置在對一些特定應(yīng)用方面進一步提高深度模型性能上仍具有很大的研究價值。
領(lǐng)域知識的應(yīng)用是深度學(xué)習(xí)方法成功的另一大關(guān)鍵因素。根據(jù)不同任務(wù)的特點設(shè)計不同的不變性特征提取方法以及正則化方法等是當(dāng)前所流行的一種應(yīng)用方式。研究者們也在基于域適應(yīng)的遷移學(xué)習(xí)對于深度學(xué)習(xí)的輔助作用方面進行了一些研究,但是能夠普遍適用于各類分類任務(wù)的深度學(xué)習(xí)技術(shù)仍然是不存在的,例如:當(dāng)前較為通用的生成式預(yù)訓(xùn)練伴隨判別式微調(diào)的學(xué)習(xí)策略在一些特定的任務(wù)(如語音識別)中表現(xiàn)并不理想。因此,更加有效的域適應(yīng)技術(shù)和新型的通用學(xué)習(xí)架構(gòu)對于圖像處理等領(lǐng)域中的一些較為復(fù)雜的問題而言是極其重要的。
深度學(xué)習(xí)理論還有其他一些方面的基礎(chǔ)性理論問題值得關(guān)注,例如:如何通過關(guān)注數(shù)據(jù)變化中潛在因素的分布式表示問題來設(shè)計更合理的深度學(xué)習(xí)架構(gòu),進而提取更高效的特征表示;在深度結(jié)構(gòu)的輸入輸出表示中同時引入結(jié)構(gòu)信息[27-29],使得大多數(shù)傳統(tǒng)的深度學(xué)習(xí)技術(shù)只能用于“扁平結(jié)構(gòu)”表示的缺陷得到改善。最后,為了實現(xiàn)理想中的“強人工智能”,從而實現(xiàn)具備類似人類大腦水平的智慧,傳統(tǒng)的以信號處理和機器學(xué)習(xí)為主要技術(shù)基礎(chǔ)的人工智能研究應(yīng)更多地尋求同神經(jīng)計算等領(lǐng)域的合作,通過借助于前沿生物領(lǐng)域?qū)θ祟惔竽X分層結(jié)構(gòu)的最新研究成果來改善當(dāng)前的系統(tǒng)計算模型。
參考文獻
[1] BENGIO Y. Learning Deep Architectures for AI [J]. Foundations and Trends? in Machine Learning, 2009, 2(1):1-127. DOI: 10.1561/2200000006
[2] HINTON G E, OSINDRO S, TEH Y. A Fast Learning Algorithm for Deep Belief Nets[J]. Neural Computation, 2006,18(7):1527-1554. DOI: 10.1162/neco.2006.18.7.1527
[3] HINTON G E, SALAKHUTDINOV R R. Reducing the Dimensionality of Data with Neural Networks[J]. science, 2006,313(5786):504-507. DOI: 10.1126/science.1127647
[4] BOTTOU L, CUN Y L. Large Scale online Learning[C]//Advances in Neural Information Processing Systems. USA: NIPS, 2004
[5] DEAN J, CORRADO G, MONGA R, et al. Large Scale Distributed Deep Networks[C]//Advances in Neural Information Processing Systems. USA: NIPS, 2004
[6] CHEN X, EVERSOLE A, LI G, et al. Pipelined Back-Propagation for Context-Dependent Deep Neural Networks[C]//Interspeech 2012. USA: IEEE,2012. DOI: 10.1.1.649.218
[7] MARTENS J. Deep Learning via Hessian-Free Optimization[C]//Proceedings of the 27th International Conference on Machine Learning (ICML-10).USA:IEEE, 2010. DOI: 10.1.1.170.2846
[8] VINCENT. Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion[J]. Journal of Machine Learning Research, 11(Dec): 3371-3408. DOI: 10.1561/2200000006
[9] BOUREAU Y, CUN Y L. Sparse Feature Learning for Deep Belief Networks[C]//Advances in Neural Information Processing Systems. USA: NIPS, 2008
[10] BENGIO Y. Greedy Layer-Wise Training of Deep Networks[C]//Advances in Neural Information Processing Systems.USA: NIPS, 2007:153
[11] YU K, LIN Y. Learning Image Representations from the Pixel Level via Hierarchical Sparse Coding[C]//2011 IEEE Conference on Computer Vision and Pattern Recognition. USA: IEEE, 2011. DOI: 10.1109/CVPR.2011.5995732
[12] MNIH V, KAVUKCUOGLU, SILVER D, et al, Playing Atari with Deep Reinforcement Learning[EB/OL].(2017-05-22). https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf
[13] LE Q V. Building High-Level Features Using Large Scale Unsupervised Learning[C]//2013 IEEE International Conference on Acoustics, Speech and Signal Processing. USA: IEEE, 2013. DOI: 10.1109/ICASSP.2013.6639343
[14] LE C Y. Gradient-Based Learning Applied to Document Recognition[J]. Proceedings of the IEEE, 1998. 86(11): 2278-2324. DOI: 10.1109/5.726791
[15] HINTON G E, SRIVASTAVA N, KRIZHEVSKY, et al, Improving Neural Networks by Preventing Co-Adaptation of Feature Detectors[EB/OL].(2017-05-22). https://arxiv.org/pdf/1207.0580.pdf
[16] ZEILER M D, FERGUS R. Visualizing and Understanding Convolutional Networks[C]//European Conference on Computer Vision. EU: Springer, 2014
[17] CIRESAN D C. Deep, Big, Simple Neural Nets for Handwritten Digit Recognition[J]. Neural Computation, 2010, 22(12): 3207-3220. DOI: 10.1162/NECO_a_00052
[18] CIRESAN D. Deep Neural Networks Segment Neuronal Membranes in Electron Microscopy Images[C]//Advances in Neural Information Processing Systems. USA: NIPS, 2012
[19] CIREGAN D and MEIER U. Multi-Column Deep Neural Networks for Image Classification[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. USA: IEEE, 2012. DOI:10.1.1.367.484
[20] MARTENS J, SUTSKEVER I. Learning Recurrent Neural Networks with Hessian-Free Optimization[C]//The 28th International Conference on Machine Learning. USA: IEEE, 2011
[21] LE V Q, NGUAN J, COATES A, et al. On Optimization Methods for Deep Learning[C]//The 28th International Conference on Machine Learning. USA: IEEE, 2011
[22] SAINATH T N. Optimization Techniques to Improve Training Speed of Deep Neural Networks for Large Speech Tasks[J]. IEEE Transactions on Audio, Speech, and Language Processing, 21(11): 2267-2276. DOI: 10.1109/TASL.2013.2284378
[23] WRIGHT S J. Optimization Algorithms and Applications for Speech and Language Processing[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(11): 2231-2243. DOI: 10.1109/TASL.2013.2283777
[24] COATES A, HUVAL B, WANG T, et al. Deep Learning with COTS HPC Systems[C]//International Conference on Machine Learning. USA: IEEE, 2013
[25] BERGSTRA J, BENGIO Y. Random Search for Hyper-Parameter Optimization [J]. Journal of Machine Learning Research, 2012, 13: 281-305. DOI: 10.2307/1268522
[26] SNOEK J, LAROCHELLE H, ADAMS P R. Practical Bayesian Optimization of Machine Learning Algorithms[C]//Advances in Neural Information Processing Systems. USA: IEEE, 2012
[27] SOCHER R. New Directions in Deep Learning: Structured Models, Tasks, and Datasets[C]//Neural Information Processing Systems. USA: NIPS, 2012
[28] DENG L. Design and Learning of Output Representations for Speech Recognition[C]//Neural Information Processing Systems. USA: NIPS, 2013
[29] SRIVASTAVA N, SALAKHUTDINOV R R. Discriminative Transfer Learning with Tree-Based Priors[C]//Advances in Neural Information Processing Systems. USA: NIPS, 2013