国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于模糊劃分和模糊加權(quán)的集成深度信念網(wǎng)絡(luò)

2019-11-09 03:42張雄濤胡文軍王士同
智能系統(tǒng)學(xué)報 2019年5期
關(guān)鍵詞:子集集上分類器

張雄濤,胡文軍,王士同

(1. 江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無錫 214122; 2. 湖州師范學(xué)院 信息工程學(xué)院,浙江 湖州 313000)

近年來,深度學(xué)習(xí)在圖像識別和語音識別領(lǐng)域取得了突破性的進(jìn)展。深度學(xué)習(xí)逐漸成為機(jī)器學(xué)習(xí)最熱的研究方向之一。由于RBM(restricted boltzmann machine)[1-3]具有表達(dá)能力強(qiáng)、易于推理等優(yōu)點被成功用作深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)單元。當(dāng)前,以RBM[4-5]為基本構(gòu)成模塊的DBN(深度信念網(wǎng)絡(luò))、DBM(深度玻爾茲曼機(jī))等模型被認(rèn)為是最有效的深度學(xué)習(xí)算法。其中深度信念網(wǎng)絡(luò)(DBN)是深度學(xué)習(xí)的典型代表,通常DBN在進(jìn)行圖像及語音等模式識別上有較高的精度,但是訓(xùn)練一個DBN的復(fù)雜度非常高,因為DBN在微調(diào)階段使用了BP算法,這種算法很難做到多機(jī)并行,所以在大規(guī)模的數(shù)據(jù)上進(jìn)行學(xué)習(xí)會非常困難。綜上,DBN主要存在兩個問題:1)訓(xùn)練一個DBN的時間復(fù)雜度仍然較高;2)達(dá)到好的效果通常需要較多的隱含節(jié)點數(shù),然而當(dāng)隱含節(jié)點數(shù)較多時又易產(chǎn)生過擬合。雖然鄧力等[6-8]通過改進(jìn)DBN的網(wǎng)絡(luò)結(jié)構(gòu)來提升其性能,但仍然沒有突破以上問題。

分類是深度學(xué)習(xí)的核心問題,提高分類器的分類性能是分類器研究的主要目標(biāo)之一。通常將模糊理論與分類器相結(jié)合,用于處理不確定問題。在構(gòu)建分類模型時,為了對所構(gòu)建的目標(biāo)模型的局部細(xì)節(jié)有更好的逼近程度,通常的做法是將輸入空間劃分成多個模糊區(qū)域或模糊子空間,即模糊劃分[9-10],在各個子空間中分別構(gòu)建分類子模型,最后將各子模型的結(jié)果集成輸出[11-12]。有3種模糊劃分方法,即格狀劃分、樹狀劃分和散狀劃分。格狀劃分是將每一維度的輸入空間作劃分,求得其模糊集合,再根據(jù)模糊系統(tǒng)理論,將模糊集映射成模糊區(qū)域。樹狀劃分是,一次產(chǎn)生一個與模糊區(qū)域相對應(yīng)的一個劃分,每做一次劃分就會產(chǎn)生出劃分面。散狀劃分是,將輸入輸出的數(shù)據(jù)作分析,將預(yù)產(chǎn)生相似結(jié)果的輸入空間以模糊區(qū)域作劃分,每一模糊區(qū)域可作描述輸入輸出數(shù)據(jù)的行為。該劃分是一種較為靈活的劃分方法,吸收了前兩種方法的優(yōu)點,同時摒棄了它們存在的不足。在本文的研究中,采用散狀劃分這種方式。

為了更好地挖掘深度模型的表達(dá)能力,在實際應(yīng)用中進(jìn)一步提高DBN的精度并加快DBN的訓(xùn)練。受到上述思想的啟發(fā),本文提出了一種基于模糊劃分和模糊加權(quán)的集成深度信念網(wǎng)絡(luò),將對應(yīng)的集成分類算法命名為FE-DBN。首先通過模糊聚類算法FCM將訓(xùn)練數(shù)據(jù)劃分為多個子集;然后在各個子集上并行訓(xùn)練不同結(jié)構(gòu)的DBN;最后借鑒模糊集合理論的思想,將各個分類器的結(jié)果進(jìn)行模糊加權(quán)。該算法能夠有效且快速解決大樣本數(shù)據(jù)的分類問題,克服了單個DBN用于數(shù)據(jù)分類時時間復(fù)雜度較高等缺點;而且,F(xiàn)E-DBN可以避免過擬合問題,具有分類精度高等優(yōu)點;并在人工數(shù)據(jù)集、UCI數(shù)據(jù)集上得到了有效驗證。

1 RBM和DBN

受限玻爾茲曼機(jī)是由Hinton和Sejnowski于1986年提出的一種生成式隨機(jī)網(wǎng)絡(luò)[1],該網(wǎng)絡(luò)是一種基于能量的概率圖模型,它由一個可見層和一個隱含層組成,如圖1所示,v和h分別表示可見層與隱含層,W表示兩層之間的連接權(quán)值。對于可見層與隱含層,其連接關(guān)系為層間全連接,層內(nèi)無連接。注意,圖1中h有m個節(jié)點,v有n個節(jié)點,單個節(jié)點用和描述。可見層用于觀測數(shù)據(jù),隱含層用于提取特征。RBM的隱單元和可見單元可以為任意的指數(shù)族單元。本文只討論所有的可見層和隱含層單元均為伯努利分布,假設(shè)所有的可見單元與隱單元均為二值變量,即對。

圖1 RBM示意圖Fig. 1 The structure of RBM

RBM是一種能量模型,能量函數(shù)定義為

式中Z函數(shù)為歸一項。

多個RBM的堆棧組合構(gòu)成了DBN[5],前一個RBM的輸出作為后一個RBM的輸入。如圖2所示,最底層是輸入層,最頂層是輸出層,中間層是隱含層。DBN的學(xué)習(xí)包括兩個階段:預(yù)訓(xùn)練和微調(diào)。預(yù)訓(xùn)練是以貪婪的無監(jiān)督的方式逐層進(jìn)行訓(xùn)練的,將輸入層映射到輸出層從而學(xué)習(xí)到復(fù)雜的非線性函數(shù);微調(diào)是在監(jiān)督的方式下實現(xiàn)的,它使用反向傳播(BP)算法從最頂層到最底層對整個DBN網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào)。

圖2 DBN結(jié)構(gòu)Fig. 2 The structure of DBN

盡管DBN具有強(qiáng)大的知識表達(dá)能力,但是當(dāng)處理大規(guī)模數(shù)據(jù)甚至大數(shù)據(jù)時,DBN在微調(diào)階段需要花費大量的時間去訓(xùn)練模型,這樣導(dǎo)致訓(xùn)練時間特別長。

2 基于模糊劃分和模糊加權(quán)的DBN分類器集成

針對不同的子空間,從不同的角度來刻畫一個物體各個方面的性質(zhì),利用各種不同結(jié)構(gòu)分類器的組合來形成一個綜合的決策。大量的實驗和應(yīng)用證明:將多個分類器的決策結(jié)果按照一定的規(guī)則集成在一起,往往可以得到比其中最優(yōu)分類器還要好的性能[12-15]。針對經(jīng)典的DBN算法時間復(fù)雜度高,容易過擬合,本文將具有多個不同隱含層結(jié)構(gòu)的DBN分類器進(jìn)行集成,提出了一種基于模糊劃分和模糊加權(quán)的集成DBN,即FEDBN。提出的FE-DBN性能優(yōu)于經(jīng)典的DBN分類算法,主要有兩個原因:1)在分類之前首先進(jìn)行預(yù)處理、聚類,能夠更好地增強(qiáng)分類精度;2)將訓(xùn)練集分為多個子集,每個子集用不同結(jié)構(gòu)的DBN訓(xùn)練,最后將結(jié)果進(jìn)行模糊加權(quán)。根據(jù)集成學(xué)習(xí)原理,多個弱分類器的組合能夠組成一個強(qiáng)分類器。

2.1 FE-DBN結(jié)構(gòu)圖

FE-DBN結(jié)構(gòu)圖如圖3所示,首先利用模糊聚類算法FCM,將訓(xùn)練數(shù)據(jù)集劃分為K個子集,每個子集分別采用不同結(jié)構(gòu)的DBN模型進(jìn)行建模(每個DBN子模型中每層隱節(jié)點數(shù)不一樣,由此構(gòu)成了K個DBN模型),各模型獨立并行訓(xùn)練,最后將各模型所得結(jié)果進(jìn)行模糊加權(quán)形成最終輸出。在進(jìn)行模糊加權(quán)時,采用高斯型隸屬度函數(shù)進(jìn)行權(quán)值計算。在FE-DBN中,各DBN子模型并行訓(xùn)練,由于各個訓(xùn)練子集的數(shù)據(jù)規(guī)模遠(yuǎn)遠(yuǎn)小于原數(shù)據(jù)規(guī)模,需要較少的隱節(jié)點數(shù),因此訓(xùn)練時間較短。

圖3 FE-DBN結(jié)構(gòu)Fig. 3 The structure of FE-DBN

2.2 實現(xiàn)過程

首先,使用模糊聚類算法FCM對訓(xùn)練數(shù)據(jù)集進(jìn)行模糊分組。利用FCM算法進(jìn)行模糊聚類,F(xiàn)CM的目標(biāo)函數(shù)為[16-19]:

根據(jù)式(2)、式(3),當(dāng)?shù)K止后,所獲得的隸屬矩陣 U 在去模糊化后便得到空間劃分矩陣。

根據(jù)式(2)、式(3),計算寬度為

根據(jù)聚類中心和寬度的值,并利用式(4)對訓(xùn)練數(shù)據(jù)集進(jìn)行模糊劃分:

圖4 模糊劃分示意Fig. 4 Fuzzy partition

在式(1)中最關(guān)心的是聯(lián)合概率分布所確定的邊緣概率分布,由于RBM模型層內(nèi)無連接,因此當(dāng)給定可見單元的狀態(tài)時,各隱單元的激活狀態(tài)是條件獨立的。此時,第j個隱單元的激活概率為

RBM采用Hinton提出的CD-k(對比散度)算法進(jìn)行參數(shù)學(xué)習(xí),并證明,當(dāng)使用訓(xùn)練樣本初始化時,僅需較少的抽樣步數(shù)(一般k=1)就可以得到很好的近似。采用CD-k算法,各參數(shù)的更新準(zhǔn)則如下[3]:

劃分好樣本空間,每一個分類器在樣本子空間進(jìn)行運算,樣本在分類器中具有局部分類性能最好的,其所對應(yīng)的權(quán)值就越大。

最后,將各DBN分類器所得結(jié)果進(jìn)行模糊加權(quán),即

FE-DBN算法實現(xiàn)過程如下:

2)劃分子集。利用模糊聚類算法FCM求得每簇的中心點和寬度,根據(jù)式(4)將源數(shù)據(jù)集劃分為K個子集。

3)并行訓(xùn)練各子模型DBN1~DBNK,對于所有的可見單元,利用式(5)計算,并抽取且對于所有的隱單元,利用式(6)計算新RBM參數(shù)W,b,c的值,即

重復(fù)3),直到滿足迭代周期為止。

4)利用式(8)、式(9)計算每個測試數(shù)據(jù)對各個子集的隸屬度,將測試數(shù)據(jù)代入3)所得的K個子模型中并輸出K個分類結(jié)果。利用式(10)進(jìn)行集成得到最終輸出。

3 實驗與分析

本文在實驗部分將分別利用人工數(shù)據(jù)和UCI數(shù)據(jù)對所提的基于模糊劃分和模糊加權(quán)的集成DBN分類算法(FE-DBN)進(jìn)行驗證和評估。并將該算法的性能同深度信念網(wǎng)絡(luò)(DBN)[1-3]算法進(jìn)行比較。為了驗證本文所提出的算法FE-DBN的有效性,采用的對比算法有局部分類模型DBNK和全局分類模型DBN,其中DBNK表示將原數(shù)據(jù)集分為K個子集,在每個子集上構(gòu)建一個局部深度信念網(wǎng)絡(luò)分類模型。所有的實驗結(jié)果都采用五折交叉,運行10次取均值。

3.1 實驗設(shè)置

3.1.1 數(shù)據(jù)集

圖5 人工數(shù)據(jù)集Fig. 5 Artificial datasets

表1 人工數(shù)據(jù)集Table 1 Artificial datasets

表2 UCI數(shù)據(jù)集Table 2 UCI datasets

人工數(shù)據(jù)集生成兩種:左螺旋型、右高斯型,如圖5。兩種數(shù)據(jù)均生成4 000個樣本,螺旋型2類,2維;高斯型4類,2維。構(gòu)造的螺旋型數(shù)據(jù)集正負(fù)類樣本數(shù)各2 000,高斯型數(shù)據(jù)集每類樣本數(shù)1 000,高斯型各類的中心分別是:[7 8]、[15 13]、[15 5]、[23 8],協(xié)方差均為據(jù)集全部來自于UCI[21]。數(shù)據(jù)集詳細(xì)信息如表1、表2所示。調(diào)。DBN代碼參照http://www.cs.toronto.edu/~hinton/,RBM迭代周期maxepoch=20,用于控制RBM的預(yù)訓(xùn)練迭代次數(shù)和模型參數(shù)的微調(diào)次數(shù)。權(quán)重的學(xué)習(xí)率epsilonw=0.05;顯層偏置的學(xué)習(xí)率epsilonvb=0.05;隱層偏置的學(xué)習(xí)率epsilonhb=0.05;權(quán)損失系數(shù)weightcost=0.000 2;動量學(xué)習(xí)率 initialmomentum=0.5,finalmomentum=0.9。

本文使用平均測試精度、均方差、運行時間(訓(xùn)練時間+測試時間)進(jìn)行算法性能度量。實驗環(huán)境為intel(R) Core(TM) i3 3.40 GHz CPU,8 GB內(nèi)存,Windows10操作系統(tǒng),MATAB2016a。

3.2 實驗結(jié)果及分析

為進(jìn)一步探索數(shù)據(jù)集模糊劃分個數(shù)對提升分類精度及算法運行時間的重要性,本文將數(shù)據(jù)集劃分為不同的子集個數(shù),及采用不同的隱節(jié)點數(shù)組合分別進(jìn)行實驗比較。如表3所示,局部分類模型DBNK分別有3個子集和4個子集,“28+22+19”表示DBN1中第一層、第二層、第三層的隱節(jié)點數(shù)分別為28、22、19。

表3 在Swiss數(shù)據(jù)集上的分類精度及運行時間對比Table 3 Performance in terms of average testing accuracy and running time with their standard deviation on Swiss

3.2.1 人工數(shù)據(jù)集

該實驗部分主要是通過構(gòu)造模擬數(shù)據(jù)集來驗證本文提出的FE-DBN算法的有效性。從表3、表4的實驗結(jié)果可以看出:螺旋線數(shù)據(jù)集不太好區(qū)分,精度不高,但是FE-DBN仍有所提升;高斯型數(shù)據(jù)集精度,F(xiàn)E-DBN比各局部模型DBNK略高,和全局模型DBN基本持平,因為其精度已經(jīng)很高,故很難再有較大的提升。

表4 在Gauss數(shù)據(jù)集上的分類精度及運行時間對比Table 4 Performance in terms of average testing accuracy and running time with their standard deviation on Gauss

3.2.2 UCI數(shù)據(jù)集

本部分實驗選的UCI數(shù)據(jù)集,既有中等規(guī)模數(shù)據(jù),又有大規(guī)模數(shù)據(jù),既有二分類,也有多分類,3種算法在各UCI數(shù)據(jù)集上的對比實驗結(jié)果如表5~9所示。

表5 在Adult數(shù)據(jù)集上的分類精度及運行時間對比Table 5 Performance in terms of average testing accuracy and running time with their standard deviation on Adult

表6 在Magic_gamma_telescope數(shù)據(jù)集上的分類精度及運行時間對比Table 6 Performance in terms of average testing accuracy and running time with their standard deviation on Magic_gamma_telescope

表7 在pendigits數(shù)據(jù)集上的分類精度及運行時間對比Table 7 Performance in terms of average testing accuracy and running time with their standard deviation on pendigits

表8 在Waveform3數(shù)據(jù)集上的分類精度及運行時間Table 8 Performance in terms of average testing accuracy and running time with their standard deviation on Waveform3

表9 在shuttle數(shù)據(jù)集上的分類精度及運行時間Table 9 Performance in terms of average testing accuracy and running time with their standard deviation on shuttle

從表5~9的實驗結(jié)果,可以得出如下結(jié)論:

1)在測試精度上,和全局分類模型DBN相比,F(xiàn)E-DBN在數(shù)據(jù)集Adult、shuttle和Magic_gamma_telescope上增長較多,在數(shù)據(jù)集pendigits和waveform3上有略微上浮。在樣本劃分子集確定的情況下,F(xiàn)E-DBN高于任何一個局部分類模型DBNK。總的來看,F(xiàn)E-DBN算法的分類效果在三者中為最優(yōu)。從表5~9中還可以看出,在劃分的子集數(shù)確定時,具有不同隱節(jié)點數(shù)組合的各局部分類模型DBNK分類器的精度并無明顯差異。隨著劃分子集數(shù)的增加,F(xiàn)E-DBN的精度在不同數(shù)據(jù)集上基本均有增長的趨勢。其主要原因在于,根據(jù)集成原理[14,22-23],對于集成FE-DBN分類模型,增加各子模型的多樣性,能夠提高集成分類器的性能。

2)和全局模型DBN相比較,F(xiàn)E-DBN中每個局部分類模型需要較少的隱節(jié)點數(shù),就可以達(dá)到較高的精度,這主要是因為組成FE-DBN的每個局部分類器都是弱分類器。

3)對于所有數(shù)據(jù)集,在運行時間上,當(dāng)劃分子集數(shù)逐漸增多時,由于每個子集的樣本數(shù)在減少,隱節(jié)點數(shù)也在減少,運行時間相應(yīng)也會減少。由于要進(jìn)行模糊劃分和模糊集成,F(xiàn)E-DBN的運行時間比各局部分類模型DBNK要多,但是FE-DBN的運行時間要小于全局模型DBN的運行時間,因為在FE-DBN中各局部分類模型是并行運行的,且每個子模型的隱節(jié)點數(shù)均小于全局模型DBN的隱節(jié)點數(shù)。

無論是模擬數(shù)據(jù)集還是UCI數(shù)據(jù)集,基于模糊劃分和模糊加權(quán)的DBN集成分類器(FEDBN)比單分類器(DBN)的性能好,比最優(yōu)的局部分類模型DBNK也要高。由表3~9中結(jié)果,根據(jù)統(tǒng)計分析得出,樣本劃分粒度越細(xì),分類精度會越高,表明細(xì)劃分能得到更多的樣本特征信息。但也不是子集劃分得越多,精度就越高,數(shù)據(jù)集shuttle在劃分子集數(shù)為4時取得最大值。

4 結(jié)束語

采用集成的方法解決DBN訓(xùn)練時間復(fù)雜度高的問題。根據(jù)數(shù)據(jù)之間的相似性信息對數(shù)據(jù)進(jìn)行模糊分組,構(gòu)造樣本空間子集,然后在各樣本空間子集中訓(xùn)練具有不同結(jié)構(gòu)的DBN子分類器,最后使用模糊加權(quán)的方法,得到最終的集成分類器和分類結(jié)果。人工數(shù)據(jù)集和UCI數(shù)據(jù)集上的實驗結(jié)果顯示,F(xiàn)E-DBN算法可以得到比其他分類算法更好的分類結(jié)果。未來的研究工作將主要集中在如何確定樣本空間子集上。

猜你喜歡
子集集上分類器
GCD封閉集上的冪矩陣行列式間的整除性
拓?fù)淇臻g中緊致子集的性質(zhì)研究
基于樸素Bayes組合的簡易集成分類器①
Carmichael猜想的一個標(biāo)注
關(guān)于奇數(shù)階二元子集的分離序列
基于特征選擇的SVM選擇性集成學(xué)習(xí)方法
基于差異性測度的遙感自適應(yīng)分類器選擇
師如明燈,清涼溫潤
每一次愛情都只是愛情的子集
基于層次化分類器的遙感圖像飛機(jī)目標(biāo)檢測
宁陵县| 苗栗市| 宣武区| 页游| 韩城市| 东明县| 霍山县| 伽师县| 新化县| 玛纳斯县| 吉水县| 江孜县| 木里| 侯马市| 双城市| 宁远县| 北京市| 拜城县| 岐山县| 自治县| 谷城县| 榆社县| 博乐市| 望城县| 调兵山市| 开化县| 大姚县| 巢湖市| 杂多县| 全南县| 凤翔县| 石景山区| 清新县| 霸州市| 夏津县| 离岛区| 郯城县| 龙南县| 通化市| 鄂托克前旗| 昭平县|