周立軍,劉 凱,呂海燕
(海軍航空大學(xué) 航空基礎(chǔ)學(xué)院,山東 煙臺 264001)(*通信作者電子郵箱jungle730@163.com)
目前,以受限玻爾茲曼機(jī)(Restricted Boltzmann Machine, RBM)為基礎(chǔ)的深度學(xué)習(xí)模型已經(jīng)廣泛應(yīng)用于數(shù)據(jù)維度處理[1]、圖像處理[2]、文本檢索[3]以及時間序列預(yù)測分析[4]等機(jī)器學(xué)習(xí)領(lǐng)域。
RBM的訓(xùn)練為無監(jiān)督訓(xùn)練方式,此類訓(xùn)練存在的重要問題是學(xué)習(xí)特征的同質(zhì)化[5-6],即RBM易受訓(xùn)練數(shù)據(jù)維度間共有因素的影響,導(dǎo)致提取的特征過于相似,從而影響模型對數(shù)據(jù)的泛化能力。為抑制這一問題,通常采用兩種方法。一種是改進(jìn)模型結(jié)構(gòu)。如:文獻(xiàn)[7-8]將類別信息引入模型中,設(shè)計(jì)了三階受限玻爾茲曼機(jī);文獻(xiàn)[9]在RBM的基礎(chǔ)上增加了部分可見單元間連接,從而抑制數(shù)據(jù)共有特性;文獻(xiàn)[10]設(shè)計(jì)了網(wǎng)絡(luò)結(jié)構(gòu)的隨機(jī)衰減機(jī)制(dropout);文獻(xiàn)[11]在dropout隨機(jī)網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上進(jìn)一步提出了多RBM組合模型,這類方法通過訓(xùn)練數(shù)據(jù)額外信息的加入,抑制數(shù)據(jù)維度間同有特性的影響,但存在的問題是,結(jié)構(gòu)的優(yōu)化多以特有模型為基礎(chǔ),對于其他無監(jiān)督訓(xùn)練方式模型較難適用。另一種是設(shè)計(jì)優(yōu)化策略優(yōu)化模型訓(xùn)練過程,優(yōu)點(diǎn)為優(yōu)化策略易推廣至其他無監(jiān)督訓(xùn)練模型,具有一定的適用性。例如文獻(xiàn)[12-14]將模擬退火、遺傳算法等全局優(yōu)化方法引入到RBM等無監(jiān)督訓(xùn)練中的吉布斯采樣內(nèi),改善模型訓(xùn)練效率。文獻(xiàn)[15-19]對訓(xùn)練目標(biāo)進(jìn)行優(yōu)化,引入多種正則化因子:文獻(xiàn)[15]限定隱單元平均激活概率與稀疏度系數(shù)的2范數(shù);文獻(xiàn)[16]提出基于交叉熵的稀疏懲罰因子;文獻(xiàn)[17]通過設(shè)計(jì)隱單元激活概率的1- 2范數(shù)組合對隱單元進(jìn)行分組稀疏;文獻(xiàn)[18]對文獻(xiàn)[17]進(jìn)行擴(kuò)展,增加范數(shù)混合因子以調(diào)節(jié)RBM組內(nèi)外稀疏度;文獻(xiàn)[19]對稀疏組受限玻爾茲曼機(jī)的單元分組進(jìn)行研究,設(shè)計(jì)了基于連接權(quán)值相似度的隱單元分組策略。上述正則化因子通過稀疏隱單元激活概率,從而弱化訓(xùn)練過程的數(shù)據(jù)共有特性影響,以提高模型泛化能力;但存在的問題是,額外增加的模型訓(xùn)練參數(shù)往往需要通過經(jīng)驗(yàn)進(jìn)行設(shè)置,不能依據(jù)訓(xùn)練過程中的隱單元稀疏程度進(jìn)行自適應(yīng)調(diào)整,導(dǎo)致模型訓(xùn)練效率不高。
基于競爭的自組織映射網(wǎng)絡(luò)(Self-Organizing feature Map, SOM)能夠通過其輸入樣本學(xué)會檢測其規(guī)律性和輸入樣本相互之間的關(guān)系,并且根據(jù)這些輸入樣本的信息自適應(yīng)調(diào)整網(wǎng)絡(luò),并可通過與其他模型結(jié)合對其訓(xùn)練進(jìn)行指導(dǎo)[20-21]。文獻(xiàn)[20]提出將SOM引入拓?fù)涞貓D制作中,減少了網(wǎng)絡(luò)的訓(xùn)練次數(shù),降低了系統(tǒng)復(fù)雜度;文獻(xiàn)[21]將脈沖神經(jīng)網(wǎng)絡(luò)的高效處理能力與自組織映射神經(jīng)網(wǎng)絡(luò)相結(jié)合,大幅度縮短了脈沖神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)訓(xùn)練時間。本文以SOM的競爭機(jī)制為基礎(chǔ),借鑒SOM網(wǎng)絡(luò)中最優(yōu)神經(jīng)元對其他神經(jīng)元的抑制作用,提出依據(jù)RBM中隱單元相關(guān)性對其進(jìn)行自適應(yīng)稀疏懲罰的方法,由此設(shè)計(jì)了基于競爭的稀疏受限玻爾茲曼機(jī)(Competition-Sparse Restricted Boltzmann Machine, C-SRBM),并應(yīng)用于深度玻爾茲曼機(jī)(Deep Boltzmann Machine, DBM)訓(xùn)練中。實(shí)驗(yàn)表明,相比以往的正則化因子,C-SRBM能夠進(jìn)一步優(yōu)化RBM,并可有效應(yīng)用于深度模型的構(gòu)建。
RBM是通過限定玻爾茲曼機(jī)(Boltzmann Machine, BM)層內(nèi)單元連接構(gòu)成的雙層神經(jīng)網(wǎng)絡(luò)。作為無向圖模型,RBM中可見單元層V為觀測數(shù)據(jù),隱單元層H為特征檢測器,其結(jié)構(gòu)如圖1所示。
圖1 RBM單元連接圖
設(shè)定RBM包含N個二值可見單元和M個二值隱單元,給定狀態(tài)(v,h)下的模型能量定義如式所示:
(1)
其中:vi代表第i個可見單元狀態(tài),hj為第j個隱單元狀態(tài),Wij表示可視單元i與隱單元j之間的連接權(quán)值,bi表示可視單元i偏置,cj表示隱單元j偏置。
稀疏受限玻爾茲曼機(jī)(Sparse Restricted Boltzmann Machine, SRBM)優(yōu)化了RBM的訓(xùn)練目標(biāo),即在RBM最大似然目標(biāo)函數(shù)的基礎(chǔ)上增加了稀疏懲罰因子,因此,SRBM的訓(xùn)練目標(biāo)函數(shù)如式(2)所示:
(2)
其中:N為訓(xùn)練樣本個數(shù),λ為用于控制稀疏度懲罰因子影響的正則化常量,v(n)代表第n個訓(xùn)練樣本,PE表示稀疏懲罰因子,P(v(n))為v(n)的條件概率。
從式(2)可看出,SRBM中隱單元的稀疏化,是在RBM訓(xùn)練過程中通過疊加稀疏懲罰因子,以此激勵隱單元平均激活概率接近稀疏度p實(shí)現(xiàn)的。SRBM對隱單元的稀疏性進(jìn)行調(diào)節(jié),迫使僅部分隱單元用來表示訓(xùn)練樣本,從而減少數(shù)據(jù)維度間共有特性對隱單元的影響,以提高模型的特征學(xué)習(xí)能力。
競爭型神經(jīng)網(wǎng)絡(luò)有很多具體形式和不同的學(xué)習(xí)算法,但最主要的特點(diǎn)體現(xiàn)在競爭層中神經(jīng)元之相互競爭,最終只有一個神經(jīng)元獲勝,以適應(yīng)訓(xùn)練樣本。
SOM網(wǎng)絡(luò)是競爭型神經(jīng)網(wǎng)絡(luò)的中應(yīng)用較為廣泛的一種。SOM網(wǎng)絡(luò)能夠自動找出訓(xùn)練數(shù)據(jù)間的類似度,并將相似的數(shù)據(jù)在網(wǎng)絡(luò)中就近配置,其訓(xùn)練步驟可歸納如下:
1)網(wǎng)絡(luò)初始化。
使用隨機(jī)數(shù)初始化輸入層與映射層之間的連接權(quán)值W。
2)計(jì)算映射層的權(quán)值向量和輸入向量的距離。
計(jì)算網(wǎng)絡(luò)中各神經(jīng)元權(quán)值向量和輸入向量之間的歐氏距離,得到具有最小距離的神經(jīng)元j,作為最優(yōu)神經(jīng)元。
3)權(quán)值學(xué)習(xí)。
依據(jù)最優(yōu)神經(jīng)元,對輸出神經(jīng)元及其鄰近神經(jīng)元權(quán)值進(jìn)行修改,如式(3)所示:
ΔWij=Wij(t+1)-Wij(t)=η(Xi(t)-Wij(t))
(3)
其中:Wij(t)為模型訓(xùn)練第t次迭代中輸入層單元i與映射層單元j之間的連接權(quán)值,η為模型學(xué)習(xí)梯度系數(shù),Xi(t)為第t次迭代中單元i對應(yīng)的訓(xùn)練數(shù)據(jù)。
針對以往正則化因子不能依據(jù)訓(xùn)練過程中的隱單元稀疏程度進(jìn)行自適應(yīng)調(diào)整的缺陷,提出C-SRBM以提高隱單元稀疏程度,提高模型訓(xùn)練效率。
C-SRBM采用了類似于SOM網(wǎng)絡(luò)的神經(jīng)元競爭機(jī)制對隱單元進(jìn)行稀疏化。在模型訓(xùn)練過程中,C-SRBM首先依據(jù)訓(xùn)練樣本選擇最優(yōu)匹配隱單元,然后依據(jù)最優(yōu)匹配隱單元激活狀態(tài)對其他隱單元進(jìn)行稀疏抑制,最后執(zhí)行參數(shù)更新,具體機(jī)制如下所示。
1)距離度量。
RBM將原始數(shù)據(jù)通過模型連接權(quán)值由原始維度空間映射至多維0- 1空間,樣本所生成的0- 1序列即為對應(yīng)的多特征組合。鑒于RBM模型連接權(quán)值為可見單位維數(shù)×隱單元維數(shù),即連接權(quán)值的列數(shù)等于隱單元個數(shù),且連接權(quán)值與樣本在單位刻度上并不一致,因此,C-SRBM沒有采用SOM網(wǎng)絡(luò)常用的歐氏距離作為度量標(biāo)準(zhǔn),而是選用神經(jīng)元權(quán)值向量與輸入向量之間的夾角余弦值評估兩者相似度,即樣本i與隱單元j之間余弦相似度Scos(i, j)的計(jì)算方法如式(4)所示:
(4)
其中:v(i)代表第i個訓(xùn)練樣本,W·j為模型連接權(quán)值的第j列。
2)最優(yōu)匹配隱單元選取。
依據(jù)樣本i與所有隱單元之間的余弦相似度,可確定針對樣本i的最優(yōu)匹配隱單元,即與樣本i相似度最高的隱單元hcos-max,如式(5)所示:
Scos(i,hcos-max)=Fmax(Scos(i, j));j=1,2,…,M
(5)
其中:M為隱單元個數(shù),F(xiàn)max為尋找最大值函數(shù)。
3)最優(yōu)神經(jīng)元稀疏抑制。
C-SRBM根據(jù)最優(yōu)神經(jīng)元狀態(tài)設(shè)置其他單元的稀疏化程度。最優(yōu)神經(jīng)元的稀疏抑制依據(jù)連接權(quán)值列間的余弦相似度,其過程為:
①計(jì)算對應(yīng)于最優(yōu)隱單元的連接權(quán)值列W·cos-max與W其他列的余弦相似度,得到相似度向量Scos;
RBM的訓(xùn)練為無監(jiān)督訓(xùn)練,其目標(biāo)為最大化訓(xùn)練數(shù)據(jù)出現(xiàn)的似然概率,采用的訓(xùn)練方法為對比散度(Contrastive Divergence, CD)算法。C-SRBM的競爭稀疏機(jī)制對參數(shù)W.j和隱單元偏置bj的更新如式(6)~(7)所示:
(6)
(7)
綜上所述,C-SRBM訓(xùn)練的偽代碼如下所示。
輸入:學(xué)習(xí)速率η,網(wǎng)絡(luò)連接權(quán)值W,可見單元偏置c,隱單元偏置b。
輸出:更新后的W,b,c。
訓(xùn)練步驟如下。
1)依據(jù)CD算法更新W,b,c:
wij=wij+η(〈vihj〉data-〈vihj〉recon)
ci=ci+η(〈vi〉data-〈vi〉recon)
bj=bj+η(〈hj〉data-〈hj〉recon)
2)依據(jù)式(5),查找當(dāng)前樣本p最優(yōu)匹配隱單元hp。
3)應(yīng)用式(6)、(7)計(jì)算并依據(jù)最優(yōu)神經(jīng)元稀疏抑制流程更新W,b:
wij=wij+ηΔW.j
bj=bj+ηΔbj
4)重復(fù)步驟1)~3)直至模型收斂或者超過訓(xùn)練迭代次數(shù)。
深度玻爾茲曼機(jī)(Deep Boltzmann Machine, DBM)和深度信念網(wǎng)絡(luò)(Deep Belief Network, DBN)是兩種常見的以RBM為基礎(chǔ)的深度學(xué)習(xí)模型,其共同特點(diǎn)為類似人腦的信息處理機(jī)制和多個RBM疊加組成的結(jié)構(gòu)體系。
考慮到DBM和DBN訓(xùn)練過程中,首先完成的是疊加RBM的貪婪逐層初始化訓(xùn)練,因此將C-SRBM的稀疏懲罰機(jī)制引入到深度學(xué)習(xí)模型訓(xùn)練中,形成基于競爭的稀疏深度學(xué)習(xí)模型。以DBM為例,本文將C-SRBM應(yīng)用于DBM的構(gòu)建中,組成基于競爭的稀疏深度玻爾茲曼機(jī)(Competition-Sparse Deep Boltzmann Machine, C-SDBM),并進(jìn)行實(shí)驗(yàn)驗(yàn)證。
小行星撞擊地球的過程如圖12所示。在能夠?qū)匦⌒行翘崆邦A(yù)警的前提下,將小行星分裂成碎片或者改變小行星軌道是避免其撞擊地球的兩種基本方式。根據(jù)防御技術(shù)的作用時間以及目標(biāo)小行星尺寸的不同,安全防御技術(shù)可分為3大類[38-39]:1)利用核爆炸摧毀小行星或者改變行星軌道,防止尺寸較大且預(yù)警時間較短的PHAs撞擊地球;2)利用航天器直接撞擊小行星改變其軌道,此方法適用于防御尺寸較小且預(yù)警時間較短,或者尺寸較大且預(yù)警時間較長的PHAs;3)利用長期作用力改變小行星軌道,通過接觸式或非接觸式作用使小行星產(chǎn)生微小速度變化,隨著時間推演進(jìn)而演化為極大的軌道變化。
實(shí)驗(yàn)采用MNIST手寫體字符識別數(shù)據(jù)集作為模型訓(xùn)練對象,該數(shù)據(jù)集共包括70 000幅0~9的10種手寫數(shù)字圖像,圖像大小統(tǒng)一為28×28[22]。在實(shí)驗(yàn)中,隨機(jī)選取MNIST數(shù)據(jù)集中60 000幅圖像作為模型訓(xùn)練樣本,其余圖像用于測試。為驗(yàn)證C-SRBM稀疏性能,實(shí)驗(yàn)包含2個部分,分別為單層RBM稀疏實(shí)驗(yàn)和深度模型DBM稀疏實(shí)驗(yàn)。
為有效測試不同正則化因子對RBM特征提取能力的影響,從兩個方面進(jìn)行實(shí)驗(yàn)對比,分別為:1)相比其他正則化因子,檢驗(yàn)C-SRBM是否能夠優(yōu)化模型特征提取能力;2)驗(yàn)證C-SRBM在增強(qiáng)隱單元稀疏度上是否優(yōu)于以往正則化因子。
實(shí)驗(yàn)設(shè)置:設(shè)定RBM中可見單元個數(shù)為784,參數(shù)的學(xué)習(xí)速率統(tǒng)一為η=0.01,循環(huán)次數(shù)K≤1 000,p=0.01;完成手寫字特征提取以后,采用LIBSVM[23]提供的徑向基支持向量機(jī)(Radial Basis Function-Support Vector Machine, RBF-SVM)和線性支持向量機(jī)(Linear Support Vector Machine, LSVM)作為最終分類器,其中參數(shù)設(shè)置除核函數(shù)不同外,其余均為默認(rèn)選擇。
3.1.1 實(shí)驗(yàn)1
設(shè)定不同的隱單元個數(shù)M,分別計(jì)算在兩種不同分類器下采用誤差平方和、交叉熵正則化因子的SRBM與C-SRBM的分類準(zhǔn)確率δ,其變化曲線如圖2所示。
圖2 分類準(zhǔn)確率隨隱單元個數(shù)變化曲線
3.1.2 實(shí)驗(yàn)2
為直觀顯示不同正則化因子對DBM特征的影響,對RBM的連接權(quán)值進(jìn)行可視化顯示。設(shè)置本實(shí)驗(yàn)M=16,對這16個1×784的列向量進(jìn)行變維,并將所得到的方塊矩陣依次排列。
經(jīng)過訓(xùn)練后的標(biāo)準(zhǔn)RBM、誤差平方和稀疏RBM、交叉熵稀疏RBM和C-SRBM的連接權(quán)值可視化顯示,如圖3所示。
圖3 RBM連接權(quán)值可視化顯示
從圖3中可以看出:圖3(a)的左列特征圖像基本一致,且很難發(fā)現(xiàn)其中的筆畫特點(diǎn),類似于白噪聲圖像,表明該列對應(yīng)的4個隱單元對手寫數(shù)字無效,無法完成訓(xùn)練數(shù)據(jù)的特征提取;圖3(b)和圖3(c)仍然存在特征圖像筆畫特點(diǎn)模糊以及若干圖像相似的問題;相反的,圖3(d)中特征圖像差異較大,且沒有出現(xiàn)類似于圖3(a)~(c)中接近于高斯白噪聲的圖像。這說明,相較于其他2種正則化因子,競爭稀疏機(jī)制對RBM特征的稀疏程度較好。
結(jié)合實(shí)驗(yàn)1結(jié)論,可以說明,采用競爭稀疏懲罰機(jī)制構(gòu)建的C-SRBM在特征提取能力和隱單元稀疏度上均優(yōu)于以往2種正則化因子。原因在于,C-SRBM能夠依據(jù)RBM訓(xùn)練過程中隱單元激活狀態(tài)自適應(yīng)調(diào)整稀疏懲罰力度,即隨著模型對數(shù)據(jù)擬合程度增強(qiáng),最優(yōu)匹配神經(jīng)元與樣本間的相似度越高,從而增強(qiáng)對其他隱單元的稀疏抑制,加深了隱單元稀疏程度,進(jìn)而弱化了特征同質(zhì)化問題并提高了模型提取特征的有效性,最終C-SRBM的分類準(zhǔn)確率得到提高。
在DBM稀疏實(shí)驗(yàn)中,主要驗(yàn)證C-SRBM是否能夠提高DBM模型性能,因此,本實(shí)驗(yàn)中DBM模型選用文獻(xiàn)[24]提出的網(wǎng)絡(luò)結(jié)構(gòu),即設(shè)置C-SRBM初始化可見單元個數(shù)784,中間隱單元個數(shù)500,頂層隱單元個數(shù)200的DBM網(wǎng)絡(luò)。待完成DBM的貪婪逐層初始化以后,使用BP算法對網(wǎng)絡(luò)參數(shù)進(jìn)行精調(diào),其分類準(zhǔn)確率δ如表1所示。
表1 不同DBM的分類準(zhǔn)確率δ %
從表1可以看出,使用C-SRBM優(yōu)化的DBM分類準(zhǔn)確率最高,達(dá)到99.75%,與文獻(xiàn)[15]依據(jù)誤差平方和稀疏懲罰因子優(yōu)化的稀疏DBM相比,提高了0.74%;與文獻(xiàn)[24]標(biāo)準(zhǔn)DBM準(zhǔn)確率相比,提高了0.9%。為比較三種不同稀疏懲罰機(jī)制對隱單元稀疏程度的影響,選取Hoyer提出的稀疏度度量HSparse[25]。對于D維向量v,HSparse如式(8)所示:
(8)
從式中可以看出,HSparse區(qū)間范圍為[0,1],且值越接近1代表向量v越稀疏。
結(jié)合實(shí)驗(yàn)1過程,3種DBM所有隱單元構(gòu)成的特征向量HSparse在測試集上的平均值如表2所示。
表2 不同DBM的平均稀疏度度量HSparse
從表2可以看出,C-SDBM的隱單元稀疏程度最好,其次是文獻(xiàn)[15]優(yōu)化的稀疏DBM,HSparse數(shù)值最低的為標(biāo)準(zhǔn)DBM。使用C-SRBM優(yōu)化的HSparse最高,與依據(jù)誤差平方和稀疏懲罰因子優(yōu)化的稀疏DBM相比,提高了5.6%;與標(biāo)準(zhǔn)DBM相比,提高了6%。結(jié)合表2數(shù)據(jù)可以證明,C-SRBM能夠進(jìn)一步稀疏優(yōu)化深度學(xué)習(xí)模型,并提高模型的特征提取能力。
本文采用基于競爭學(xué)習(xí)的受限玻爾茲曼機(jī)稀疏機(jī)制,實(shí)現(xiàn)了弱化模型特征同質(zhì)化和提高模型數(shù)據(jù)特征提取能力的目標(biāo)。相對于以往正則化因子,采用競爭學(xué)習(xí)策略,從而無需設(shè)置額外的稀疏系數(shù),并且能夠在RBM訓(xùn)練過程中自適應(yīng)地調(diào)節(jié)單元稀疏化懲罰程度,提高了模型訓(xùn)練效率;與此同時,將其成功應(yīng)用于深度模型DBM訓(xùn)練中,表明基于競爭學(xué)習(xí)的RBM稀疏化對其他以RBM為基礎(chǔ)的深度學(xué)習(xí)模型也具有良好的應(yīng)用前景。