深度神經(jīng)網(wǎng)絡(luò)的發(fā)展現(xiàn)狀

2017-03-27 21:51胡聰叢

電子技術(shù)與軟件工程 2017年4期

胡聰叢

摘要深度神經(jīng)網(wǎng)絡(luò)已經(jīng)在語音、圖像、文本等信息處理領(lǐng)域取得了巨大的成果，本文簡述其起源及成果，并介紹現(xiàn)代深度神經(jīng)網(wǎng)絡(luò)模型的三種基本結(jié)構(gòu)：序列到序列神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、對抗式生成網(wǎng)絡(luò)，最后展望了深度神經(jīng)網(wǎng)絡(luò)研究領(lǐng)域所面臨的挑戰(zhàn)。

【關(guān)鍵詞】深度神經(jīng)網(wǎng)絡(luò) 序列到序列網(wǎng)絡(luò) 卷積網(wǎng)絡(luò) 對抗式生成網(wǎng)路

1 深度神經(jīng)網(wǎng)絡(luò)起源

人工神經(jīng)網(wǎng)絡(luò)（ArtificialNeuralNetworks，ANN）研究是人工智能領(lǐng)域的一個(gè)重要分支，在對生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及其機(jī)制研究的基礎(chǔ)上，構(gòu)建類似的人工神經(jīng)網(wǎng)絡(luò)，使得機(jī)器能直接從大量訓(xùn)練數(shù)據(jù)中學(xué)習(xí)規(guī)律。其研究最早可以追溯到1957年Frank Rosenblatt提出的感知機(jī)模型，他在《The Perceptron： A Probabilistic Model for Information Storage and Organization in the Brain》建立了第一個(gè)人工神經(jīng)網(wǎng)絡(luò)數(shù)學(xué)模型，19世紀(jì)80年代末期反向傳播（Back Propagation）算法的發(fā)明更是帶來了ANN的學(xué)習(xí)熱潮，但由于理論分析難度較大，訓(xùn)練方法及技巧尚不成熟，計(jì)算機(jī)運(yùn)算能力還不夠強(qiáng)大，這個(gè)時(shí)期ANN結(jié)構(gòu)較為簡單，大部分都可等價(jià)為單隱層神經(jīng)網(wǎng)絡(luò)，主要是進(jìn)行淺層學(xué)習(xí)（Shallow Learning）研究。

2006年Geoffrey Hinton在《A Fast Learning Algorithm for Deep Belief Nets》中提出了逐層貪婪預(yù)訓(xùn)練（layerwise greedy pretraining），顯著提高了MNIST手寫數(shù)字識別的準(zhǔn)確率，開創(chuàng)了深度學(xué)習(xí)的新方向；隨后又在《Reducing the Dimensionality of Data with Neural Networks》中提出了deep autoencoder結(jié)構(gòu)，在圖像和文本降維實(shí)驗(yàn)上明顯優(yōu)于傳統(tǒng)算法，證明了深度學(xué)習(xí)的正確性。以這兩篇論文為開端，整個(gè)學(xué)術(shù)界掀起了對深度學(xué)習(xí)的研究熱潮，由于更多的網(wǎng)絡(luò)層數(shù)和參數(shù)個(gè)數(shù)，能夠提取更多的數(shù)據(jù)特征，獲取更好的學(xué)習(xí)效果，ANN模型的層數(shù)和規(guī)模相比之前都有了很大的提升，被稱之為深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Networks，DNN）。

2 深度神經(jīng)網(wǎng)絡(luò)的現(xiàn)代應(yīng)用

2010年以來，隨著理論不斷創(chuàng)新和運(yùn)算能力的增長，DNN被應(yīng)用到許多領(lǐng)域并取得了巨大的成功。2011年微軟和谷歌的研究員利用DNN將語音識別的錯(cuò)誤率降低了20%～30%；2012年在ImageNet圖像識別挑戰(zhàn)賽（ILSVRC2012）中DNN更是將識別錯(cuò)誤率從26%降到了15%；2016年3月DeepMind團(tuán)隊(duì)研發(fā)的圍棋軟件AlphaGO以4：1的巨大優(yōu)勢戰(zhàn)勝了世界圍棋冠軍李世石，2017年1月初AlphaGO的升級版Master以60：0的戰(zhàn)績擊敗了數(shù)十位中日韓圍棋高手。當(dāng)前對DNN的研究主要集中在以下領(lǐng)域：

2.1 語音識別領(lǐng)域

微軟研究院語音識別專家鄧立和俞棟從2009年開始和深度學(xué)習(xí)專家Geoffery Hinton合作，并于2011年宣布推出基于DNN的識別系統(tǒng)，徹底改變了語音識別的原有技術(shù)框架；2012年11月，百度上線了第一款基于DNN的語音搜索系統(tǒng)，成為最早采用DNN技術(shù)進(jìn)行商業(yè)語音服務(wù)的公司之一；2016年微軟使用循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型（Recurrent Neural Network based Language Modeling，RNN-LM）將switchboard的詞識別錯(cuò)誤率降低到了6.3%。

2.2 圖像識別領(lǐng)域

早在1989年，YannLeCun和他的同事們就提出了卷積神經(jīng)網(wǎng)絡(luò)（Convolution Neural Networks，CNN）結(jié)構(gòu)。在之后的很長一段時(shí)間里，CNN雖然在諸如手寫數(shù)字問題上取得過世界最好的成功率，但一直沒有被廣泛應(yīng)用。直到2012年10月，Geoffrey Hinton在ILSVRC2012中使用更深的CNN將錯(cuò)誤率從26%降到15%，業(yè)界才重新認(rèn)識到CNN在圖像識別領(lǐng)域上的巨大潛力；2012年谷歌宣布基于CNN使得電腦直接從一千萬張圖片中自發(fā)學(xué)會(huì)貓臉識別；2013年DNN被成功應(yīng)用于一般圖片的識別和理解；2016年DeepMind團(tuán)隊(duì)基于CNN研發(fā)了圍棋AI，并取得了巨大成功。

2.3 自然語言處理領(lǐng)域

2003年YoshuaBengio等人提出單詞嵌入（word embedding）方法將單詞映射到一個(gè)矢量空間，然后用ANN來表示N-Gram模型；2014年10月NEC美國研究院將DNN用于自然語言處理（Natural language processing，NLP）的研究工作，其研究員Ronan Collobert和Jason Weston從2008年開始采用單詞嵌入技術(shù)和多層一維卷積的結(jié)構(gòu)，用于POS Tagging、Chunking、Named Entity Recognition、Semantic Role Labeling等四個(gè)典型NLP問題；2014年IlyaSutskever提出了基于LSTM的序列到序列（sequence to sequence，seq2seq）網(wǎng)絡(luò)模型，突破了傳統(tǒng)網(wǎng)絡(luò)的定長輸入向量問題，開創(chuàng)了語言翻譯領(lǐng)域的新方向；2016年谷歌宣布推出基于DNN的翻譯系統(tǒng)GNMT（Google Neural Machine Translation），大幅提高了翻譯的精確度與流暢度。

3 深度神經(jīng)網(wǎng)絡(luò)常見結(jié)構(gòu)

DNN能夠在各領(lǐng)域取得巨大成功，與其模型結(jié)構(gòu)是密不可分的，現(xiàn)代DNN大都可歸納為三種基本結(jié)構(gòu)：序列到序列網(wǎng)絡(luò)、卷積網(wǎng)絡(luò)、對抗式生成網(wǎng)絡(luò)，或由這三種基本網(wǎng)絡(luò)結(jié)構(gòu)相互組合而成。

3.1 序列到序列網(wǎng)絡(luò)

序列到序列網(wǎng)絡(luò)的最顯著特征在于，它的輸入張量和輸出張量長度都是動(dòng)態(tài)的，可視為一串不定長序列，相比傳統(tǒng)結(jié)構(gòu)極大地?cái)U(kuò)展了模型的適應(yīng)范圍，能夠?qū)π蛄修D(zhuǎn)換問題直接建模，并以端到端的方式訓(xùn)練模型。典型應(yīng)用領(lǐng)域有：自動(dòng)翻譯機(jī)（將一種語言的單詞序列轉(zhuǎn)換為另一種語言的單詞序列），語音識別（將聲波采樣序列轉(zhuǎn)換為文本單詞序列），自動(dòng)編程機(jī)研究（將自然語言序列轉(zhuǎn)換為語法樹結(jié)構(gòu)），此類問題的特點(diǎn)在于：

（1）輸入和輸出數(shù)據(jù)都是序列（如連續(xù)值語音信號/特征、離散值的字符）；

（2）輸入和輸出序列長度都不固定；

（3）輸入輸出序列長度沒有對應(yīng)關(guān)系。

其典型如圖1所示。

網(wǎng)絡(luò)由編碼器（encoder）網(wǎng)絡(luò)和解碼器網(wǎng)絡(luò)（decoder）兩部分連接構(gòu)成：

3.1.1 編碼器網(wǎng)絡(luò)

編碼器網(wǎng)絡(luò)通常是一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Networks，RNN），網(wǎng)絡(luò)節(jié)點(diǎn)一般使用長短期記憶模型（Long Short Term Memory，LSTM）實(shí)現(xiàn)，序列中里第t個(gè)張量xt的輸出yt依賴于之前的輸出序列（y0、y1…yt-1），輸入序列（x0、x1、x2…）從前至后依次輸入網(wǎng)絡(luò)，整個(gè)序列處理完后得到最終的輸出Y以及各層的隱藏狀態(tài)H。

3.1.2 解碼器網(wǎng)絡(luò)

解碼器網(wǎng)絡(luò)是一個(gè)與編碼器網(wǎng)絡(luò)結(jié)構(gòu)相同的RNN網(wǎng)絡(luò)，以解碼器的最終輸出（Y，H）為初始輸入，使用固定的開始標(biāo)記S及目標(biāo)序列G當(dāng)作輸入數(shù)據(jù)進(jìn)行學(xué)習(xí)，目標(biāo)是使得在X輸入下Y和G盡量接近，即損失度函數(shù)f（X）取得最小值。

解碼器網(wǎng)絡(luò)屬于典型的監(jiān)督學(xué)習(xí)結(jié)構(gòu)，可以用BP算法進(jìn)行訓(xùn)練，而編碼器網(wǎng)絡(luò)的輸出傳遞給了解碼器網(wǎng)絡(luò)，因此也能同時(shí)進(jìn)行訓(xùn)練。網(wǎng)絡(luò)模型學(xué)習(xí)完畢后，將序列X輸入編碼器，并將起始標(biāo)記S輸入解碼器，網(wǎng)絡(luò)就會(huì)給出正確的對應(yīng)序列。

3.2 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)將傳統(tǒng)圖像處理的卷積運(yùn)算和DNN相結(jié)合，屬于前饋神經(jīng)網(wǎng)絡(luò)，是在生物視覺皮層的研究基礎(chǔ)上發(fā)展而來的，在大型圖像處理上有出色表現(xiàn)。CNN一般由多個(gè)結(jié)構(gòu)相似的單元組成，每個(gè)單元包含卷積層（convolution layer）和池化層（poolinglayer），通常網(wǎng)絡(luò)末端還連接全聯(lián)通層（fully-connected layer，F(xiàn)C）及Softmax分類器。這種結(jié)構(gòu)使得CNN非常適合處理二維結(jié)構(gòu)數(shù)據(jù)，相比其它DNN在圖像處理領(lǐng)域上具有天然優(yōu)勢，CNN的另一優(yōu)勢還在于，由于卷積層共享參數(shù)的特點(diǎn)，使得它所需的參數(shù)數(shù)量大為減少，提高了訓(xùn)練速度。其典型結(jié)構(gòu)如圖2所示：

3.2.1 卷積層（Convolutional layer）

卷積層由若干卷積核構(gòu)成，每個(gè)卷積核在整個(gè)圖像的所有通道上同時(shí)做卷積運(yùn)算，卷積核的參數(shù)通過BP算法從訓(xùn)練數(shù)據(jù)中自動(dòng)獲取。卷積核是對生物視覺神經(jīng)元的建模，在圖像局部區(qū)域進(jìn)行的卷積運(yùn)算實(shí)質(zhì)上是提取了輸入數(shù)據(jù)的特征，越深層的卷積層所能提取到的特征也越復(fù)雜。例如前幾個(gè)卷積層可能提取到一些邊緣、梯度、線條、角度等低級特征，后續(xù)的卷積層則能認(rèn)識圓、三角形、長方形等稍微復(fù)雜的幾何概念，末尾的卷積層則能識別到輪子、旗幟、足球等現(xiàn)實(shí)物體。

3.2.2 池化層（Poolinglayer）

池化層是卷積網(wǎng)絡(luò)的另一重要部分，用于縮減卷積層提取的特征圖的尺寸，它實(shí)質(zhì)上是某種形式的下采樣：將圖像劃分為若干矩形區(qū)塊，在每個(gè)區(qū)塊上運(yùn)算池化函數(shù)得到輸出。有許多不同形式的池化函數(shù)，常用的有“最大池化”（maxpooling，取區(qū)塊中數(shù)據(jù)的最大值）和“平均池化”（averagepooling，取區(qū)塊中數(shù)據(jù)的平均值）。池化層帶來的好處在于：

（1）減小了數(shù)據(jù)尺寸，降低參數(shù)的數(shù)量和計(jì)算量；

（2）模糊了各“像素”相對位置關(guān)系，泛化了網(wǎng)絡(luò)識別模式。

但由于池化層過快減少了數(shù)據(jù)的大小，導(dǎo)致，目前文獻(xiàn)中的趨勢是在池化運(yùn)算時(shí)使用較小的區(qū)塊，甚至不再使用池化層。

3.3 生成式對抗網(wǎng)絡(luò)（Generative Adversarial Network，GAN）

生成式對抗網(wǎng)絡(luò)最初由Goodfellow等人在NIPS2014年提出，是當(dāng)前深度學(xué)習(xí)研究的重要課題之一。它的目的是收集大量真實(shí)世界中的數(shù)據(jù)（例如圖像、聲音、文本等），從中學(xué)習(xí)數(shù)據(jù)的分布模式，然后產(chǎn)生盡可能逼真的內(nèi)容。GAN在圖像去噪，修復(fù)，超分辨率，結(jié)構(gòu)化預(yù)測，強(qiáng)化學(xué)習(xí)中等任務(wù)中非常有效；另一重要應(yīng)用則是能夠在訓(xùn)練集數(shù)據(jù)過少的情況下，生成模擬數(shù)據(jù)來協(xié)助神經(jīng)網(wǎng)絡(luò)完成訓(xùn)練。

3.3.1 模型結(jié)構(gòu)

GAN網(wǎng)絡(luò)典型結(jié)構(gòu)如圖3所示，一般由兩部分組成，即生成器網(wǎng)絡(luò)（Generator）和識別器網(wǎng)絡(luò)（Discriminator）：

（1）生成器網(wǎng)絡(luò)的目標(biāo)是模擬真實(shí)數(shù)據(jù)的分布模式，使用隨機(jī)噪聲生成盡量逼真的數(shù)據(jù)。

（2）識別器的目標(biāo)是學(xué)習(xí)真實(shí)數(shù)據(jù)的有效特征，從而判別生成數(shù)據(jù)和真實(shí)數(shù)據(jù)的差異度。

3.3.2 訓(xùn)練方法

GAN采用無監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練，輸入向量z一般由先驗(yàn)概率概率pz（z）生成，通過生成器網(wǎng)絡(luò)產(chǎn)生數(shù)據(jù)G（z）。來自訓(xùn)練集的真實(shí)數(shù)據(jù)的分布為pdata （x），GAN網(wǎng)絡(luò)的實(shí)質(zhì)是學(xué)習(xí)該特征分布，因此生成的數(shù)據(jù)G（z）必然也存在對應(yīng)的分布pg （z），而識別器網(wǎng)絡(luò)則給出數(shù)據(jù)來自于真實(shí)數(shù)據(jù)的概率D（x）以及D（G（z））。整個(gè)訓(xùn)練過程的實(shí)質(zhì)就是生成器網(wǎng)絡(luò)和識別器網(wǎng)絡(luò)的博弈過程，即找到

4 深度神經(jīng)網(wǎng)絡(luò)研究展望

DNN雖然在各大領(lǐng)域都取得了重大的成功，甚至宣告了“智能時(shí)代”的來臨，但是與人類大腦相比，DNN在許多方面仍有顯著差距：

4.1 識別對抗樣本的挑戰(zhàn)

對抗樣本是指在數(shù)據(jù)集中添加微小的擾動(dòng)所形成的數(shù)據(jù)，這些數(shù)據(jù)能使網(wǎng)絡(luò)以極高的置信度做出錯(cuò)誤的判別。在網(wǎng)絡(luò)實(shí)際使用過程中會(huì)帶來非常大的問題，比如病毒制造者可能刻意構(gòu)造樣本來繞過基于DNN的安全檢查網(wǎng)絡(luò)。部分研究指出問題的根因可能在于DNN本身的高度非線性，微小的擾動(dòng)可能在輸出時(shí)產(chǎn)生巨大的差異。

4.2 構(gòu)造統(tǒng)一模型的挑戰(zhàn)

DNN雖然在很多領(lǐng)域都取得了巨大的成功，但無論是序列到序列網(wǎng)絡(luò)、卷積網(wǎng)絡(luò)、還是對抗式生成網(wǎng)絡(luò)都只適應(yīng)于特定領(lǐng)域，與此相對的則是，人類只用一個(gè)大腦就能完成語音、文本、圖像等各類任務(wù)，如何構(gòu)建類似的統(tǒng)一模型，對整個(gè)領(lǐng)域都是極大的挑戰(zhàn)。

4.3 提高訓(xùn)練效率的挑戰(zhàn)

DNN的成功依賴于大量訓(xùn)練數(shù)據(jù)，據(jù)統(tǒng)計(jì)要使得網(wǎng)絡(luò)學(xué)會(huì)某一特征，平均需要50000例以上的樣本，相比而言人類只需要少量的指導(dǎo)即可學(xué)會(huì)復(fù)雜問題，這說明我們的模型和訓(xùn)練方法都還有極大的提高空間。

參考文獻(xiàn)

[1]ROSENBLATT F.The perceptron：a probabilistic model for information storage and organization in the brain [M].MIT Press，1988.

[2]HINTON G E，OSINDERO S，TEH Y W.A fast learning algorithm for deep belief nets [J].Neural Computation，1989， 18（07）：1527-54.

[3]HINTON G E，SALAKHUTDINOV R R. Reducing the Dimensionality of Data with Neural Networks[J].Science， 2006，313（5786）：504.

[4]SEIDE F，LI G，YU D.Conversational Speech Transcription Using Context-Dependent Deep Neural Networks； proceedings of the INTERSPEECH 2011， Conference of the International Speech Communication Association， Florence，Italy，August，F(xiàn)，2011 [C].

[5]OQUAB M，BOTTOU L，LAPTEV I，et al. Learning and Transferring Mid-level Image Representations Using Convolutional Neural Networks； proceedings of the Computer Vision and Pattern Recognition，F(xiàn)，2014 [C].

[6]SILVER D，HUANG A，MADDISON C J，et al.Mastering the game of Go with deep neural networks and tree search [J].Nature，2016，529（7587）：484.

[7]XIONG W，DROPPO J，HUANG X，et al.The Microsoft 2016 Conversational Speech Recognition System[J].2016.

[8]LECUN Y，BOTTOU L，BENGIO Y，et al. Gradient-based learning applied to document recognition [J].Proceedings of the IEEE，1998，86（11）：2278-324.

[9]BENGIO Y，DELALLEAU O， LE R N，et al.Learning eigenfunctions links spectral embedding and kernel PCA [J].Neural Computation，2004，16（10）：2197-219.

[10]LEGRAND J，COLLOBERT R.Recurrent Greedy Parsing with Neural Networks [J].Lecture Notes in Computer Science，2014，8725（130-44.

[11]SUTSKEVER I，VINYALS O，LE Q V. Sequence to Sequence Learning with Neural Networks [J].Advances in Neural Information Processing Systems，2014，4（3104-12.

[12]WU Y，SCHUSTER M，CHEN Z，et al. Google's Neural Machine Translation System：Bridging the Gap between Human and Machine Translation [J]. 2016.

[13]GOODFELLOW I J，POUGETABADIE J，MIRZA M，et al.Generative Adversarial Networks [J].Advances in Neural Information Processing Systems，2014，3（2672-80.

作者單位

1.裝備學(xué)院昌平士官學(xué)校北京市 102200

2.遼寧大學(xué)生命科學(xué)院遼寧省沈陽市 110031

電子技術(shù)與軟件工程2017年4期

電子技術(shù)與軟件工程的其它文章: 汽車電子產(chǎn)業(yè)變革為半導(dǎo)體企業(yè)帶來四大發(fā)展機(jī)遇; 數(shù)據(jù)挖掘在高校學(xué)生學(xué)業(yè)預(yù)警中的應(yīng)用; APMI：一種同時(shí)優(yōu)化I/O與計(jì)算開銷的高維索引技術(shù); 一款鐵路客貨運(yùn)服務(wù)調(diào)查評價(jià)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn); 基于LDA模型的文本分類與觀點(diǎn)挖掘; 計(jì)算機(jī)安全與計(jì)算機(jī)病毒的預(yù)防

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

深度神經(jīng)網(wǎng)絡(luò)的發(fā)展現(xiàn)狀