深度學(xué)習(xí)結(jié)構(gòu)和算法比較分析

2012-12-09 07:04:44李海峰李純果

河北大學(xué)學(xué)報(bào)（自然科學(xué)版） 2012年5期

關(guān)鍵詞：機(jī)器神經(jīng)元卷積

李海峰，李純果

（1.河北大學(xué) 教務(wù)處，河北保定 071002；2.河北大學(xué) 數(shù)學(xué)與計(jì)算機(jī)學(xué)院，河北保定 071002）

深度學(xué)習(xí)結(jié)構(gòu)和算法比較分析

李海峰1，李純果2

（1.河北大學(xué) 教務(wù)處，河北保定 071002；2.河北大學(xué) 數(shù)學(xué)與計(jì)算機(jī)學(xué)院，河北保定 071002）

Hinton等人提出的深度機(jī)器學(xué)習(xí)，掀起了神經(jīng)網(wǎng)絡(luò)研究的又一個浪潮.介紹了深度機(jī)器學(xué)習(xí)的基本概念和基本思想.對于目前比較成熟的深度機(jī)器學(xué)習(xí)結(jié)構(gòu)深度置信網(wǎng)DBNs和約束Boltzmann機(jī)（RBM）的結(jié)構(gòu)和無監(jiān)督貪婪學(xué)習(xí)算法作了比較詳細(xì)的介紹和比較，并對算法的改進(jìn)方向提出了有建設(shè)性的意見，對深度機(jī)器學(xué)習(xí)的未來發(fā)展方向和目前存在的問題進(jìn)行了深刻的分析.

深度機(jī)器學(xué)習(xí)；無監(jiān)督貪婪學(xué)習(xí)算法；DBNs；RBMs

隨著電腦的普及與發(fā)展，智能化、機(jī)械化成為人們關(guān)注的熱點(diǎn).機(jī)器學(xué)習(xí)是仿照人類大腦工作的方式，讓電腦進(jìn)行計(jì)算，學(xué)習(xí)到類似于大腦的工作方式.為此，研究學(xué)者需要構(gòu)建計(jì)算機(jī)能夠運(yùn)作的模型，例如，神經(jīng)網(wǎng)絡(luò)就是根據(jù)人類的大腦神經(jīng)的激活或抑制的信號傳輸構(gòu)建的模型［1］.神經(jīng)網(wǎng)絡(luò)的基本組成單位就是神經(jīng)元，神經(jīng)元的構(gòu)造方式完全模擬了人類大腦細(xì)胞的結(jié)構(gòu)，如圖1.但是，顯而易見，人工神經(jīng)元只是簡單的結(jié)構(gòu)的模擬，要想達(dá)到與生物神經(jīng)元有相同的功能，還遠(yuǎn)遠(yuǎn)的不夠.科研工作者就其訓(xùn)練的方式對其進(jìn)行訓(xùn)練，試圖讓人工神經(jīng)網(wǎng)絡(luò)的運(yùn)算功能盡可能的與人類接近.簡單的網(wǎng)絡(luò)已經(jīng)可以進(jìn)行基本的運(yùn)算，甚至有2個隱含層的非線性神經(jīng)網(wǎng)絡(luò)已經(jīng)能夠?qū)θ我獾暮瘮?shù)進(jìn)行平滑的逼近.從1943年McCulloch和Pitts提出的簡單神經(jīng)元開始，神經(jīng)網(wǎng)絡(luò)經(jīng)歷了幾度興衰.神經(jīng)網(wǎng)絡(luò)已經(jīng)深入到各個領(lǐng)域，技術(shù)相對比較成熟，然而也很難再有新突破.人類完成的日常生活中的各種簡單的動作，如果讓計(jì)算機(jī)來完成，就需要高度復(fù)雜的神經(jīng)網(wǎng)絡(luò)來完成.因此，Hinton等人提出了深度學(xué)習(xí)，掀起了神經(jīng)網(wǎng)絡(luò)研究的又一次浪潮.

圖1 生物神經(jīng)元與人工神經(jīng)元Fig.1 Structure of biological and artificial neurons

1 深度學(xué)習(xí)

深度學(xué)習(xí)是為了能夠得到有助于理解圖片、聲音、文本等的數(shù)據(jù)所表述的意義而進(jìn)行的多層次的表示和抽取的學(xué)習(xí)［2］.例如，給定圖2中的圖片，大腦做出的反應(yīng)是：“許多黃色的郁金香.”同樣的圖片，輸入到計(jì)算機(jī)中，是描述圖片的最原始數(shù)據(jù)，那就是用向量表示的像素.用簡單的機(jī)器學(xué)習(xí)，例如用含2個或3個隱含層的神經(jīng)網(wǎng)絡(luò)，是不可能達(dá)到與人類類似的判別決策的.這就需要多層的學(xué)習(xí)器，逐層學(xué)習(xí)并把學(xué)習(xí)到的知識傳遞給下一層，以便下層能夠得到更高級別的表述形式，期望可以得到與人類類似的結(jié)論［2］.

1.1 學(xué)習(xí)的深度

學(xué)習(xí)器的深度，決定于學(xué)習(xí)器的構(gòu)造.假設(shè)學(xué)習(xí)器為一個有向流通圖，那么深度就是從開始結(jié)點(diǎn)到結(jié)束結(jié)點(diǎn)（或從輸入結(jié)點(diǎn)到輸出結(jié)點(diǎn)）的最長路徑.例如，一個支撐向量機(jī)的深度是2，是輸入經(jīng)過一個核變換到核空間，再加上一個線性組合.再如多層前傳神經(jīng)網(wǎng)絡(luò)的深度是隱含層層數(shù)加1（輸出層）.如果說學(xué)習(xí)到一次知識，就是一個深度的話，那么，學(xué)習(xí)的深度是原始數(shù)據(jù)被逐層學(xué)習(xí)的次數(shù).

根據(jù)學(xué)習(xí)的深度，機(jī)器學(xué)習(xí)可以分為淺度學(xué)習(xí)和深度學(xué)習(xí).對于簡單的計(jì)算，淺度學(xué)習(xí)可以有效地進(jìn)行計(jì)算，例如二進(jìn)制數(shù)據(jù)的邏輯運(yùn)算.顯然，如果想讓機(jī)器達(dá)到人腦的反應(yīng)效果，淺度學(xué)習(xí)是遠(yuǎn)遠(yuǎn)不夠的，必須要進(jìn)行深度的機(jī)器學(xué)習(xí)，才有可能得到與人腦反應(yīng)近似的結(jié)果.實(shí)際上，深度的機(jī)器學(xué)習(xí)正是模擬了人腦的工作方式.對于圖2中的圖片，先由視網(wǎng)膜接受數(shù)據(jù)信號，視網(wǎng)膜通過神經(jīng)鏈接，把看到的圖片轉(zhuǎn)化成腦波信號傳輸?shù)酱竽X中，由于大腦的不同部位處理不同的問題，信號不可能一下子就傳到相應(yīng)位置，需要層層傳輸.同時(shí)，在信號傳輸過程中，大腦會提取不同的信息，例如，花的顏色、形狀、個數(shù)、位置、個體差異等等.因此，深度的機(jī)器學(xué)習(xí)模型需要具備類似的特征，也即，深度的機(jī)器學(xué)習(xí)模型可以提取觀察對象的不同方面的特征.為此，深度的機(jī)器學(xué)習(xí)模型通常為分層結(jié)構(gòu)，每一層提取數(shù)據(jù)的1個或多個不同方面的特征，并把提取出的特征作為下一層的輸入.圖3是一個典型的深度學(xué)習(xí)模型.

圖2 待識別的圖片F(xiàn)ig.2 Picture for recognition

圖3 深度機(jī)器學(xué)習(xí)模型Fig.3 Deep learning model

1.2 深度學(xué)習(xí)的動機(jī)

從早期的神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)，到現(xiàn)在的深度學(xué)習(xí)，究其機(jī)制，都是從模擬大腦的構(gòu)架并輔以一定的學(xué)習(xí)算法，從而使計(jì)算機(jī)的工作方式盡可能地接近人類的工作方式.機(jī)器學(xué)習(xí)從僅有2層左右的學(xué)習(xí)構(gòu)架，要向有多層的結(jié)構(gòu)發(fā)展，不僅有生物神經(jīng)元的啟示，也是對現(xiàn)有的機(jī)器學(xué)習(xí)結(jié)構(gòu)的弊端的改進(jìn).

首先，人類大腦的神經(jīng)元系統(tǒng)是一個龐大的結(jié)構(gòu)，由無數(shù)個神經(jīng)元共同組成，完成一定的生理功能.例如，從視網(wǎng)膜到處理視網(wǎng)膜的大腦區(qū)域，需要經(jīng)過無數(shù)層的神經(jīng)元層層傳遞視覺信息，最終到達(dá)大腦的視覺處理區(qū)域，然后再經(jīng)過信息處理，把信息反饋到肌肉神經(jīng)，或語言區(qū)域.這個過程在生物神經(jīng)元系統(tǒng)只不過是瞬間的事情，但是，完成這個過程，是由已經(jīng)訓(xùn)練好的神經(jīng)系統(tǒng)完成的，神經(jīng)系統(tǒng)對整個過程的處理，與從出生到成人的認(rèn)知過程是分不開的.而這一切，要用電腦來完成，不是構(gòu)造簡單的人工神經(jīng)元就能夠完成的，需要大規(guī)模的神經(jīng)元組織和鏈接，并經(jīng)過來自于外界信息的不斷強(qiáng)化和訓(xùn)練.故從結(jié)構(gòu)上，神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)要加深.

由于其自身的復(fù)雜性，深度學(xué)習(xí)算法很多年都沒有新的進(jìn)展.就監(jiān)督的多層神經(jīng)網(wǎng)絡(luò)來說，無論是測試精度還是訓(xùn)練精度，深度學(xué)習(xí)的結(jié)果遠(yuǎn)遠(yuǎn)不如有1個或2個隱含層的神經(jīng)網(wǎng)絡(luò)的結(jié)果.直到2006年，Hinton等人提出了貪婪無監(jiān)督逐層學(xué)習(xí)算法［4］，深度學(xué)習(xí)的問題才有所突破.

2 深度學(xué)習(xí)的方法

同機(jī)器學(xué)習(xí)方法一樣，深度機(jī)器學(xué)習(xí)方法也有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)之分.不同的學(xué)習(xí)框架下建立的學(xué)習(xí)模型很是不同.例如，卷積神經(jīng)網(wǎng)絡(luò)（Convolutional neural networks，簡稱CNNs）就是一種深度的監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型，而深度置信網(wǎng)（Deep Belief Nets，簡稱DBNs）就是一種無監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型.

2.1 卷積神經(jīng)網(wǎng)絡(luò)

20世紀(jì)60年代，Hubel和Wiesel在研究貓腦皮層時(shí)，發(fā)現(xiàn)了一種獨(dú)特的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，可以有效地降低反饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜性，進(jìn)而提出了卷積神經(jīng)網(wǎng)絡(luò)［5］.現(xiàn)在，卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)發(fā)展成一種高效的圖像識別方法［6］.

其中，i和j標(biāo)注了該神經(jīng)元在特征平面上的位置.

圖4 用于圖像識別的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Convolution network for image recognition

圖5 卷積層的接受域Fig.5 Receptive field of one neuron in a convolution layer

每個卷積層都會緊跟1個次抽樣層.輸入數(shù)據(jù)經(jīng)過卷積后，進(jìn)入高維空間，換句話說，卷積層進(jìn)行了升維映射.如果不斷地進(jìn)行升維，則不可避免地陷入維數(shù)災(zāi)難.同卷積層類似，次抽樣層的每個特征平面上的神經(jīng)元也共享連接權(quán)重，且每個神經(jīng)元都從其接受域中接受數(shù)據(jù).卷積層的每個特征平面都對應(yīng)了次抽樣層的1個特征平面，次抽樣層中的神經(jīng)元對其接受域中的數(shù)據(jù)進(jìn)行抽樣（例如，取大，取小，取平均值，等等），因此次抽樣層的特征平面上的神經(jīng)元的個數(shù)往往會減半.

卷積層的每一個平面都抽取了前一層某一個方面的特征.每個卷積層上的每個結(jié)點(diǎn)，作為特征探測器，共同抽取輸入圖像的某個特征，例如45°角、反色、拉伸、翻轉(zhuǎn)、平移等.圖像經(jīng)過一層卷積，就由原始空間被影射到特征空間，在特征空間中進(jìn)行圖像的重構(gòu).卷積層的輸出，為圖像在特征空間中重構(gòu)的坐標(biāo)，作為下一層也就是次抽樣層的輸入.

LeCun從1998年開始，專注于卷積神經(jīng)網(wǎng)絡(luò)的研究，提出了LeNet模型［8］（如圖6），用于識別手寫和機(jī)打字體，逐漸已經(jīng)適用識別很多類圖形問題.由圖6所示，輸入層后有2組隱含層抽取輸入圖像的特征，最后有一個全連接的隱含層完成對輸入圖像的識別.LeNet模型在識別手寫數(shù)字上達(dá)到很高的識別率，而且具有拉伸、擠壓、反轉(zhuǎn)的不變性，而且抗噪能力很強(qiáng).模型用傳統(tǒng)的BP進(jìn)行訓(xùn)練.

圖6 LeNet模型Fig.6 LeNet Model

2.2 深度置信網(wǎng)

其中x是可見變量，描述可以觀察的數(shù)據(jù)；h是隱含變量，無法觀察到其實(shí)際取值；b和h分別是可見變量和隱含變量的閾值；W，U，V是結(jié)點(diǎn)之間的連接權(quán)重.如果對Boltzmann機(jī)加以約束條件，令其自身不與自身連接，則得到一個有向無環(huán)圖RBM（如圖7a），其能量函數(shù)定義為E（x，h）＝-b′x-c′h-x′Wh.

一個典型的置信網(wǎng)可以看成是由多個隨機(jī)變量組成的有向無環(huán)圖，也可以看成是多個RBM的累加，而深層置信網(wǎng)就是一個復(fù)雜度很高的有向無環(huán)圖.Hinton等人［3］認(rèn)為，一個有l(wèi)個隱含層的典型的DBN，可以用聯(lián)合概率分布刻畫輸入向量x和隱含向量h的關(guān)系

其中x＝h0，P（hk｜hk＋2）是條件概率分布.DBN學(xué)習(xí)的過程，就是學(xué)習(xí)聯(lián)合概率分布的過程.而聯(lián)合概率分布的學(xué)習(xí)是機(jī)器學(xué)習(xí)中的產(chǎn)生式學(xué)習(xí)方式.

圖7 深度學(xué)習(xí)模型Fig.7 Deep Learning Model

對于深度的機(jī)器學(xué)習(xí)，由于參數(shù)變量很多，所以合適的訓(xùn)練算法直接決定了學(xué)習(xí)器的性能.以往的基于最速梯度下降的BP算法，在經(jīng)典的神經(jīng)網(wǎng)絡(luò)中被廣泛應(yīng)用，可以得到泛化性能很好的網(wǎng)絡(luò)結(jié)構(gòu)，但是BP算法對于深度學(xué)習(xí)器的訓(xùn)練卻存在一定的困難.這主要是BP算法本身的約束所在.首先，BP算法是監(jiān)督學(xué)習(xí)，訓(xùn)練數(shù)據(jù)必須是有類標(biāo)數(shù)據(jù).但是，實(shí)際能得到的數(shù)據(jù)大都是無類標(biāo)數(shù)據(jù).其次，BP算法不適合有很多隱含層的學(xué)習(xí)結(jié)構(gòu)，一是計(jì)算偏導(dǎo)數(shù)很困難，二是誤差需要層層逆?zhèn)?，收斂速度很?最后，BP算法經(jīng)常會陷入到局部最優(yōu)解，不能到達(dá)全局最優(yōu)解.因此，Hinton等人提出了貪婪的逐層無監(jiān)督訓(xùn)練算法［4］.

貪婪無監(jiān)督學(xué)習(xí)算法的基本思想是，把一個DBN網(wǎng)絡(luò)分層，對每一層進(jìn)行無監(jiān)督學(xué)習(xí)，最后對整個網(wǎng)絡(luò)用監(jiān)督學(xué)習(xí)進(jìn)行微調(diào).把一個DBN網(wǎng)絡(luò)分層，每層都由若干計(jì)算單元（常常是幾百個或幾千個）組成（如圖7b），各自獨(dú)立計(jì)算該層接受到的數(shù)據(jù)，每個層的節(jié)點(diǎn)之間沒有連接.與外界環(huán)境連接的節(jié)點(diǎn)層為輸入層，輸入層接受來自于外界的輸入，例如圖像數(shù)據(jù).第1層（即輸入層）與第2層構(gòu)成一個典型的RBM，根據(jù)無監(jiān)督學(xué)習(xí)調(diào)節(jié)網(wǎng)絡(luò)參數(shù)，使得RBM達(dá)到能量平衡.然后，第1層的輸出作為第2層與第3層構(gòu)成一個新的RBM，第1層的輸出作為外界輸入，繼續(xù)調(diào)節(jié)參數(shù)，使當(dāng)前RBM結(jié)構(gòu)達(dá)到能量平衡.如此進(jìn)行下去，直到最后一層（如圖7c）.當(dāng)完成無監(jiān)督逐層訓(xùn)練學(xué)習(xí)后，再以原始外界輸入和目標(biāo)輸出對整個網(wǎng)絡(luò)進(jìn)行有監(jiān)督學(xué)習(xí)，以最大似然函數(shù)為目標(biāo)，精調(diào)網(wǎng)絡(luò)各層的參數(shù).

Gibbs抽樣技術(shù)是在訓(xùn)練每個RBM時(shí)采用的有效隨機(jī)抽樣技術(shù)［11］.設(shè)需要從未知的聯(lián)合概率分布f（x1，…，xk）中抽取n個樣本X（1），X（2），…，X（n）.由于

在貪婪學(xué)習(xí)算法中，也采用了Wake-Sleep算法的基本思想［12］.算法在覺醒階段，采用學(xué)習(xí)到的權(quán)重，按照自底朝上的順序，為下一層產(chǎn)生訓(xùn)練需要用的數(shù)據(jù)，而在睡眠階段，按照自頂朝下，用權(quán)重對數(shù)據(jù)進(jìn)行重建，如表1.

表1 貪婪學(xué)習(xí)算法實(shí)現(xiàn)步驟Tab.1 Implementing procedure of greedy layer-wise learning

3 總結(jié)

神經(jīng)網(wǎng)絡(luò)是人工智能領(lǐng)域的一個重要分支，利用神經(jīng)網(wǎng)絡(luò)可以任意精度逼近任意光滑的曲線，這使得神經(jīng)網(wǎng)絡(luò)成為人工智能、數(shù)據(jù)挖掘等領(lǐng)域的一個重要工具.本文主要是簡要介紹了深度機(jī)器學(xué)習(xí)的主要思想，以及有效的學(xué)習(xí)算法.深度機(jī)器學(xué)習(xí)是神經(jīng)網(wǎng)絡(luò)又一次興起的標(biāo)志.但是，深度機(jī)器學(xué)習(xí)的訓(xùn)練時(shí)間過長，常常需要幾個星期的訓(xùn)練時(shí)間，如果能合并訓(xùn)練，提高訓(xùn)練速度，則會大大提高深度機(jī)器學(xué)習(xí)的實(shí)用性.另外，深度機(jī)器學(xué)習(xí)學(xué)習(xí)到的知識表示的物理意義很不明確，如果能把各層學(xué)習(xí)到的知識表示成有物理意義的知識，則會增加學(xué)習(xí)到知識的可理解性.這些問題都有待解決.

［1］ HAYKIN S.Neural Networks：A comprehensive foundation［M］.2nd ed.New York：Prentice-Hall，1999.

［2］ BENGIO Y.Learning deep architectures for AI［J］.Foundations and Trends in Machine Learning，2009，2（1）：1-127.

［3］ HINTON G E，MCCLELLAND J L，RUMELHART D E.Distributed Representations［M］.Cambridge：MIT Press，1986.

［4］ HINTON G E，OSINDERO S.A fast learning algorithm for deep belief nets［J］.Neural Computation，2006，18：1527-1554.

［5］ HUBEL D，WIESEL T.Receptive fields，binocular interaction，and functional architecture in the cat's visual cortex［J］.Journal of Physiology，1962，160：106-154.

［6］ LECUNY，KAVUKCUOGLUK，F(xiàn)ARABET C.Convolutional networks and applications in vision［Z］.International Symposium on Circuits and Systems，Paris，2010.

［7］ LASERSON J.From neural networks to deep learning：zeroing in on the human brain［J］.XRDS，2011，18（1）：29-34.

［8］ LECUNY，BOTTOU L，BENGIO Y，et al.Gradient-based learning applied to document recognition［J］.Proceedings of IEEE，1998，86（11）：2278-2324.

［9］ ERHAND，BENGIO Y，COURVILE A，et al.Why does unsupervised pre-training help deep learning［J］.Journal of Machine Learning Research，2010，11：625-660.

［10］ BENGIO Y，LAMBLIN P，POPOVICI D，et al.Greedy layer-wise training of deep networks［J］.Advances in Neural Information Processing Systems，2007，19：153-160.

［11］ BISHOP C M.Pattern recognition and machine learning［M］.New York：Springer，2006.

［12］ HINTON G E，DAYAN P，F(xiàn)REY B，et al.The wake-sleep algorithm for unsupervised neural network［J］.Science，1995，268：1158-1161.

Note on deep architecture and deep learning algorithms

LI Haifeng1，LI Chunguo2
（1.Department of Academic Affairs，Hebei University，Baoding 071002，China；2.College of Mathematics and Computer Science，Hebei University，Baoding 071002，China）

Deep architectures proposed by Hinton et al stir up another study wave in neural networks.This paper introduced the idea and basic concepts in deep learning.DBNs and RBMs are the advanced structures of deep learning，whose structures and effective learning algorithm are also introduced in detail in this paper.In addition，open questions in deep learning are also briefly displayed so that researchers who are interested in can devote themselves into those questions and solve them.

deep learning；greedy learning algorithm；DBNs；RBMs

TP391

1000-1565（2012）05-0538-07

2012-04-05

保定市科學(xué)技術(shù)研究與發(fā)展指導(dǎo)計(jì)劃項(xiàng)目（12ZG005）；河北省高等學(xué)?？茖W(xué)研究計(jì)劃項(xiàng)目（JYGH2011011）

李海峰（1980-），男，河北唐縣人，河北大學(xué)講師，主要從事機(jī)器學(xué)習(xí)、教學(xué)信息化等研究.

E-mail：lihf＠hbu.edu.cn

孟素蘭）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

深度學(xué)習(xí)結(jié)構(gòu)和算法比較分析

1 深度學(xué)習(xí)

2 深度學(xué)習(xí)的方法

3 總結(jié)