程國建 郭文惠
摘要;如何提高圖像分類的準確度是圖像研究的重要課題,而圖像特征的提取在圖像分類準確度方面起決定性作用。該文詳細闡述了深度信念網(wǎng)絡(luò)結(jié)構(gòu)及其自動提取圖像特征的過程,并對其原理進行了詳細分析,說明了深度信念網(wǎng)絡(luò)應(yīng)用于圖像分類的可靠性。
關(guān)鍵詞:圖像分類;深度信念網(wǎng)絡(luò);特征提取
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2017)07-0173-02
隨著社會的不斷進步,圖像已經(jīng)成為重要的信息來源。而圖像分類是圖像處理中的一項重要工作,尤其對海量圖像進行分類并提高其準確度,是當前圖像處理領(lǐng)域中要解決的關(guān)鍵問題之一,包括張旭、付仲良x、Mariusz Myllarczuk等在內(nèi)的許多研究者在圖像處理方面做了大量研究。深度信念網(wǎng)絡(luò)是一種典型的深度學習算法,目前,已有很多研究者將深度信念網(wǎng)絡(luò)應(yīng)用于圖像分類中,可以用于多特征融合及深度信念網(wǎng)絡(luò)進行了植物葉片識別、深度信念網(wǎng)絡(luò)識別了手寫數(shù)字、深度神經(jīng)網(wǎng)絡(luò)在小圖像分類中的應(yīng)用等。
傳統(tǒng)的巖石圖像分類是人工提取特征的,具有一定的主觀性并且效率低下,而深度信念網(wǎng)絡(luò)能自動提取圖像的特征,克服了人工提取的不足,為圖像分類奠定堅實的基礎(chǔ),可用于大量圖像的分類并具有較高的準確度。
1受限玻爾茲曼機(RBM)
1.1受限玻爾茲曼機簡介
受限玻爾茲曼機可看作一個兩層的神經(jīng)網(wǎng)絡(luò),遵循神經(jīng)網(wǎng)絡(luò)的一般特性。相比于傳統(tǒng)玻爾茲曼,RBM的特點是層間神經(jīng)元全連接,而層內(nèi)神經(jīng)元無連接。它的結(jié)構(gòu)如圖1;
如圖1所示,RBM結(jié)構(gòu)由可見層v和隱含層h構(gòu)成,并且是對稱結(jié)構(gòu)。在一個RBM中,給定可見層,隱含層可以服從任意分布;相反地,給定隱含層,可見層也可服從任意分布。
1.2訓練受限玻爾茲曼機
1.2.1神經(jīng)元之間的獨立性
在RBM中,只有層間的對稱連接,故,若給定所有可視層節(jié)點的值,則每一個隱藏層節(jié)點的取值是互不相關(guān)的,即,反之亦然,即。
1.2.2RBM的使用
正向傳遞過程:
假設(shè)已經(jīng)訓練好一個可使用的RBM,權(quán)重矩陣為w。正向傳遞是在已知可見層節(jié)點值的條件下求隱含層節(jié)點開啟的概率。同普通神經(jīng)網(wǎng)絡(luò)一樣,首先計算出每個隱含層節(jié)點的激勵值。如圖2所示,以含有4個可見層節(jié)點、3個隱含層節(jié)點的RBM為例。每個可見層節(jié)點值x與其對應(yīng)的權(quán)重相乘,之后將這四個值(共四個輸入)相加后再與偏置6相加,以此作為該隱藏層節(jié)點的輸入,最后在該隱藏層節(jié)點上通過激勵函數(shù)的作用得到其輸出a。
然后,標準化每個隱層節(jié)點的激勵值。具體操作是用式1所示的sigmoid函數(shù)作用于該激勵值,將之轉(zhuǎn)化為0到1之間的數(shù),并用該值表示隱層節(jié)點開啟的概率。
(1)
最后,抽取隱層節(jié)點。將計算出來的隱層節(jié)點開啟概率與設(shè)定的u值進行比較,最終決定隱元開啟或關(guān)閉,如式2,其中u值是從0,1分布中隨機抽取的。
(2)
反向傳遞過程:
RBM最顯著的性質(zhì)就是無監(jiān)督地重構(gòu)數(shù)據(jù),即在可見層與隱藏層之間進行多次正向傳遞和反向傳遞,而不加大網(wǎng)絡(luò)深度。反向傳遞是對前一次正、反向傳遞后可見層結(jié)果的重構(gòu)過程。
如圖3所示,反向傳遞過程是在已知隱含層的條件下求可視層,將正向傳遞之后隱層節(jié)點的結(jié)果作為輸入,如正向傳遞過程一樣,這些輸入值又與同樣的權(quán)重相乘之后再相加,然后再與可見層的偏置相加,所得結(jié)果即為重構(gòu)值。
在RBM中,正向傳遞是通過初始值預測隱藏節(jié)點的值;反向傳遞則是通過隱藏節(jié)點的值重構(gòu)可視層節(jié)點值。通過重構(gòu)值與真實數(shù)據(jù)的對比為標準調(diào)節(jié)權(quán)重,使重構(gòu)值盡可能接近真實值,以此來提取原始數(shù)據(jù)的特征。
1.2.3對比散度算法訓練RRM
對于RBM來說,其訓練過程便是求得合適的層間權(quán)重。具體操作是通過多次正向傳遞和反向傳遞過程,得出可見層與隱藏層之間的聯(lián)合概率,將之作為連接權(quán)重。
目前常用的RBM訓練方法是G-hinton提出的對比散度(CD)算法,其訓練過程如下:
對于訓練集中的一個樣本,將之輸入到可見層口(0),使用式(1)計算每個隱層單元開啟的概率,并用上文方法從中抽取出樣本h(0)。
使用h(0)重構(gòu)出可視層并抽取出樣本v(1)。
再使用計算出隱層單元的開啟概率。并按式3更新權(quán)重;
(3)
重復上述步驟直到訓練完所有樣本。
2深度信念網(wǎng)絡(luò)(DBN)
2.1深度信念網(wǎng)絡(luò)簡介
深度信念網(wǎng)絡(luò)是由G_hinton在2006年提出的一種深度學習算法,它能較為快速、準確地提取樣本的本質(zhì)特征,可用于數(shù)據(jù)的分類與識別,克服了傳統(tǒng)方法中人工提取特征的盲目性以提高精度。其結(jié)構(gòu)可看作是若干個RBM的疊加,以三層DBN(兩個RBM疊加而成)結(jié)構(gòu)為例,其中RBM1的隱藏層可看作是RBM2的可視層。每個RBM的訓練方法同普通RBM一樣。
2.2DBN的訓練
DBN中前一層的輸出作為后一層的輸入。其訓練過程是采取貪心算法的思想分層進行的,即從輸入層開始,先訓練好一個刪,將其權(quán)重固定,將第一個RBM的輸出作為第二個RBM的輸入訓練好第二個RBM固定權(quán)重后,將之疊加在第一個RBM之上,依次類推,直到網(wǎng)絡(luò)最后一層。如此訓練之后,使用wake-sleep算法對整個DBN進行進一步調(diào)優(yōu)。
在圖像分類中,是將DBN最后一層的輸出連接到普通分類器中實現(xiàn)的??蓪ζ溥M行如下調(diào)優(yōu):在訓練完所有RBM之后,對整個網(wǎng)絡(luò)使用梯度下降法調(diào)整權(quán)重,此時,網(wǎng)絡(luò)就看作是一個普通神經(jīng)網(wǎng)絡(luò)。
3DBN的應(yīng)用
使用DBN進行圖像分類一般包括圖像預處理、DBN建模、使用訓練集數(shù)據(jù)訓練DBN模型、最后使用測試集進行測試幾個步驟。建模及訓練方法上文已詳細介紹,下面主要介紹數(shù)據(jù)集預處理過程。
數(shù)據(jù)集預處理首先是通過降采樣等方法將圖像大小調(diào)整至適合網(wǎng)絡(luò)訓練的規(guī)格。假設(shè)圖像為大小為28*28,那么網(wǎng)絡(luò)輸入層就需要28*28個節(jié)點。其次是采用數(shù)據(jù)歸一化和白化等操作對圖像進行去燥和去冗余操作。最后將數(shù)據(jù)集分為訓練集和測試集兩部分。
數(shù)據(jù)集預處理之后,使用訓練集數(shù)據(jù)進行網(wǎng)絡(luò)的訓練。首先是DBN的分層訓練,然后是將分類器連接到DBN上通過梯度下降法進一步調(diào)整網(wǎng)絡(luò),直到滿足要求。網(wǎng)絡(luò)訓練好后便可通過DBN自動提取特征,再將此特征輸入到普通分類器中對測試集數(shù)據(jù)進行分類。
目前DBN已成功應(yīng)用于圖像識別領(lǐng)域,如林妙真將其應(yīng)用于人臉超分辨圖像識別,并分別在不同的表情、分辨率及不同姿態(tài)下都取得了較好的識別率,通過實驗均取得了較好的結(jié)果,證明了DBN在圖像分類中的可靠性。
4結(jié)語
AiphaGo大戰(zhàn)圍棋高手李世石并取得勝利的事實證明了深度學習的巨大潛力,而深度信念網(wǎng)絡(luò)是深度學習中一個重要的網(wǎng)絡(luò),運行效率較高并能自動獲取圖像特征,可提高圖像分類效率和準確度,既可用于大規(guī)模數(shù)據(jù)的分類,也可用于小規(guī)模數(shù)據(jù)的分類。將深度學習算法應(yīng)用于圖像分類,可大大提高工作效率及分類準確性。