劉 彬,劉 靜,吳 超,李雅倩,張亞茹,楊有恒
(1.燕山大學(xué) 電氣工程學(xué)院,河北 秦皇島 066004;2.燕山大學(xué) 信息科學(xué)與工程學(xué)院,河北 秦皇島 066004)
極端學(xué)習(xí)機(jī)(extreme learning machine, ELM)[1]是由Huang等提出的一種單隱層前饋型神經(jīng)網(wǎng)絡(luò),通過隨機(jī)初始化輸入層與隱藏層之間的連接權(quán)重和偏置,無需迭代調(diào)整即可求解出網(wǎng)絡(luò)的輸出權(quán)重。因其具有訓(xùn)練速度快、泛化能力強(qiáng)等特點(diǎn),被廣泛研究并應(yīng)用于數(shù)據(jù)分析、工業(yè)預(yù)測[2~5]和圖像分類等領(lǐng)域。其中,在圖像分類領(lǐng)域,學(xué)者們提出了一系列的改進(jìn)算法以提高網(wǎng)絡(luò)分類性能[6~8]。然而,這些改進(jìn)的ELM結(jié)構(gòu)無法像卷積神經(jīng)網(wǎng)絡(luò)一樣直接提取出圖像特征,限制了ELM在圖像中的應(yīng)用。
因此,在特征提取方面,Krizhevsky等受卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)[9]啟發(fā),通過提出局部感受野極端學(xué)習(xí)機(jī)(local receptive fields based extreme learning machine, ELM-LRF)[10]有效地解決了這一問題。ELM-LRF將局部感受野與ELM相結(jié)合,使得網(wǎng)絡(luò)可以直接對(duì)圖像進(jìn)行特征提取。由于ELM-LRF只有一層卷積池化層,其性能受到淺層結(jié)構(gòu)的限制。因此利用多個(gè)卷積池化層增強(qiáng)特征提取能力,以獲得更高級(jí)的特征表示,如深層卷積極端學(xué)習(xí)機(jī)(deep convolutional extreme learning machine, DC-ELM)[11]。為增強(qiáng)圖像特征提取的靈活性,Huang等[12]提出了多尺度局部感受野的極端學(xué)習(xí)機(jī)(extreme learning machine with multi-scale local receptive fields, ELM-MSLRF),將不同尺度的感受野結(jié)合以提取圖像特征。與單一感受野相比,不同尺度感受野相結(jié)合的方法在圖像分類中獲得了更好的效果。然而以上結(jié)構(gòu)均只考慮了局部細(xì)節(jié)特征,圖像全局輪廓特征未被充分利用到分類中,文獻(xiàn)[13]利用極端學(xué)習(xí)機(jī)自編碼器(extreme learning machine auto encode, ELM-AE)[14]訓(xùn)練出全局感受野,用于提取圖像全局輪廓特征,提取出更全面的圖像特征用于后續(xù)分類。為提高網(wǎng)絡(luò)性能,文獻(xiàn)[15]提出一種模仿人類視覺規(guī)律的方法,在執(zhí)行識(shí)別任務(wù)時(shí)能夠快速關(guān)注到圖像的主要部分。其輸入包含原始圖像和局部重要區(qū)域圖像2部分,使得輸入圖像中的重要部分被重復(fù)加強(qiáng),利用附加的重要信息可以提高分類器的分類效果。但是只選取中間部分圖像作為輸入的一部分,使得中心區(qū)域以外的輔助信息未被有效利用,無法進(jìn)一步提高網(wǎng)絡(luò)性能。
在分類方面,由于傳統(tǒng)的極端學(xué)習(xí)機(jī)存在隱藏層節(jié)點(diǎn)個(gè)數(shù)難以確定和過擬合等問題,文獻(xiàn)[16]將ELM擴(kuò)展到內(nèi)核學(xué)習(xí),解決了ELM參數(shù)隨機(jī)初始化造成分類性能不穩(wěn)定的問題,使得網(wǎng)絡(luò)具有較好的魯棒性。但是核函數(shù)的計(jì)算時(shí)間較長,當(dāng)樣本數(shù)量較多時(shí),計(jì)算量龐大,導(dǎo)致網(wǎng)絡(luò)復(fù)雜性增加。為解決這一問題,文獻(xiàn)[17]提出近似核映射的方法,以近似核映射(empirical kernel mapping, EKM)的形式對(duì)隱藏層進(jìn)行編碼,產(chǎn)生低秩隱藏層,可用于快速訓(xùn)練和低內(nèi)存存儲(chǔ)。在精度近乎相同的情況下,訓(xùn)練速度提高幾十倍,有效提高訓(xùn)練效率。然而,在一些復(fù)雜學(xué)習(xí)任務(wù)中,單核結(jié)構(gòu)僅能夠滿足模型在某一方向的要求,而對(duì)其他方向上可能存在的高維特征不能全面的表示[18]。多核結(jié)構(gòu)能夠充分利用不同核函數(shù)的不同映射性能,使得數(shù)據(jù)在高維空間得到更全面的表示,提高模型辨識(shí)度,有效解決非線性分類問題[19~22]。然而,當(dāng)樣本數(shù)量較多時(shí),多核結(jié)構(gòu)會(huì)顯著增加計(jì)算量,降低網(wǎng)絡(luò)訓(xùn)練效率。
本文基于ELM-LRF提出多核近似學(xué)習(xí)網(wǎng)(multiple kernel empirical learning network, MKELN)。首先,利用二維高斯分布預(yù)處理原始圖像,生成區(qū)域漸進(jìn)增強(qiáng)圖像。該圖像在保留局部中心區(qū)域的同時(shí),平滑地削減周圍區(qū)域像素值。將此圖像與原始圖像并行輸入網(wǎng)絡(luò),使得圖像中心區(qū)域被重復(fù)增強(qiáng),中心區(qū)域外圖像也能夠被合理利用。其次,將ELM-AE訓(xùn)練出的全局感受野與隨機(jī)賦值的局部感受野結(jié)合使用,分別提取圖像的全局輪廓特征和局部細(xì)節(jié)特征,并將所得特征矩陣串聯(lián)。最后,結(jié)合近似核映射編碼和多核結(jié)構(gòu)的優(yōu)點(diǎn),提出多核近似算法。利用多核特征矩陣的低階近似重新編碼隱藏層,進(jìn)而求解MKELN的輸出權(quán)重,解決網(wǎng)絡(luò)在多核結(jié)構(gòu)下的高維運(yùn)算問題,提高網(wǎng)絡(luò)訓(xùn)練效率。
為充分提取圖像中的特征信息,提高網(wǎng)絡(luò)分類性能,本文提出MKELN,如圖1所示,該網(wǎng)絡(luò)結(jié)構(gòu)主要由特征提取和多核近似分類2部分組成。
圖1 MKELN結(jié)構(gòu)Fig.1 Structure of MKELN
在特征提取部分,將經(jīng)過二維高斯分布預(yù)處理后的區(qū)域漸進(jìn)增強(qiáng)圖像與原始圖像并行輸入網(wǎng)絡(luò)。利用局部感受野和全局感受野分別提取圖像的局部和全局特征,并將其特征矩陣串聯(lián),最終獲得具有高辨識(shí)度的圖像特征。
考慮到人類在辨別圖像時(shí),能夠迅速關(guān)注到圖像中蘊(yùn)含的重要信息,而物體識(shí)別類圖像的重要信息一般分布在中心區(qū)域。因此,網(wǎng)絡(luò)將輸入圖像的中心區(qū)域作為注意力中心,將其完整保留,而圍繞中心的邊緣區(qū)域以低像素值提取信息。
由于高斯分布具有集中性、對(duì)稱性和均勻變動(dòng)性等特點(diǎn),越靠近中心,矩陣元素值越大;越遠(yuǎn)離中心,其值越小,圖2(a)即為原始高斯分布矩陣對(duì)應(yīng)曲面圖。因此,為保留圖像中心區(qū)域的原始像素值,可以通過設(shè)定閾值,令部分中心部分區(qū)域的值設(shè)為1,即可得到圖2(b),圖2(b)即為保留中心部分且均勻削弱周圍部分值的二維高斯分布對(duì)應(yīng)曲面圖,多核近似學(xué)習(xí)網(wǎng)輸入中的區(qū)域漸進(jìn)增強(qiáng)圖像即是由圖2(b)所示的二維高斯分布預(yù)處理生成。又由于高斯函數(shù)具有濾波特性,可以應(yīng)用于圖像濾波。因此,原始圖像經(jīng)過圖2(b)的高斯分布矩陣預(yù)處理后,圖像中心區(qū)域部分被局部保留,用于提取該部分的細(xì)節(jié)特征;中心區(qū)域外的圖像經(jīng)過高斯濾波,可以濾除噪聲干擾,邊緣輪廓變得更為顯著,用于提取圖像的全局輪廓特征。
圖2 二維高斯分布曲面圖Fig.2 2-D Gaussian distribution surface map
(1)
式中:xi+m-1,j+n-1為輸入圖像中第(i+m-1,j+n-1)個(gè)節(jié)點(diǎn)的像素值;am,n,k為該對(duì)應(yīng)節(jié)點(diǎn)的正交化權(quán)重值k=1,…,K;i,j=1,…,(d-r+1)。
池化大小e表示池化中心到圖像邊緣的距離,池化特征圖大小與卷積特征圖大小一致為(d-r+1)×(d-r+1),則第k個(gè)池化圖中組合節(jié)點(diǎn)(p,q)的值hp,q,k可計(jì)算為:
(2)
對(duì)于輸入樣本Y∈RNl×d2中每一個(gè)樣本按照式(1)和式(2)計(jì)算其對(duì)應(yīng)的卷積特征圖和池化圖的節(jié)點(diǎn)值,并將所有組合節(jié)點(diǎn)的值連接成行向量,即可獲得隱藏層輸出矩陣H1∈RNl×K·(d-r+1)2,由文獻(xiàn)[16]可知,可以采用正則化最小二乘法解析地計(jì)算輸出權(quán)重β1:
當(dāng)Nl≤K(d-r+1)2時(shí):
(3)
當(dāng)Nl>K(d-r+1)2時(shí):
(4)
利用ELM-AE原理編碼全局感受野,得到全局輪廓卷積特征。假設(shè)輸入Ng個(gè)ni維特征X∈RNg×ni,隨機(jī)生成輸入層與隱藏層輸入權(quán)重w∈Rni×nh,隱藏層偏置b∈RNg×nh,其隱藏層輸出矩陣為H2=g(Xw+b)∈RNg×nh,其中nh代表隱藏層輸出特征維數(shù)。為使輸入特征能夠在訓(xùn)練過程中等效地表示為輸出權(quán)重矩陣,令X作為輸出特征來訓(xùn)練網(wǎng)絡(luò)的輸出權(quán)重β2,即X=H2β2,故求解網(wǎng)絡(luò)輸出權(quán)值問題可轉(zhuǎn)化為求解約束條件下的優(yōu)化問題。
當(dāng)Ng≤K(d-r+1)2時(shí):
(5)
當(dāng)Ng>K(d-r+1)2時(shí):
(6)
式中C2為懲罰項(xiàng)系數(shù)。
在訓(xùn)練階段,原始圖像經(jīng)過局部感受野提取出的特征為X1,經(jīng)過全局感受野提取出的特征為X2,將兩者串聯(lián)為特征矩陣X11;對(duì)于區(qū)域漸進(jìn)增強(qiáng)圖像按照與原始圖像相同的方式提取特征并串聯(lián),得到串聯(lián)特征矩陣X22。
在測試階段,利用局部感受野和全局感受野分別提取出原始測試圖像的特征Xt1與Xt2,并將兩者串聯(lián)為特征矩陣Xt11;對(duì)于區(qū)域漸進(jìn)增強(qiáng)的測試圖像按照相同方式提取特征并串聯(lián),得到特征矩陣Xt22。
在分類部分,利用局部映射核函數(shù)(高斯核函數(shù))和全局映射核函數(shù)(多項(xiàng)式核函數(shù))的線性組合進(jìn)行多核映射,并調(diào)節(jié)2個(gè)核函數(shù)的比重系數(shù),以增強(qiáng)特征的表達(dá)能力和非線性可分程度。推導(dǎo)多核近似算法,求解MKELN的輸出權(quán)重,進(jìn)行最終分類。
假設(shè)多核近似算法中的核函數(shù)是由M個(gè)基本核函數(shù)線性組合而成,則MKELN的輸出表達(dá)式為:
(7)
式中:L為隱藏層節(jié)點(diǎn)個(gè)數(shù),βm為網(wǎng)絡(luò)輸出權(quán)重,hm(x)為隱藏層輸出,xi為輸入樣本,i=1,2,…,N,N為輸入樣本個(gè)數(shù);λm為第m個(gè)核函數(shù)的比重系數(shù),且λm≥0。
求解網(wǎng)絡(luò)中輸出權(quán)重β轉(zhuǎn)化為求解等式約束下的最小值優(yōu)化問題,即:
(8)
(9)
式中:C為懲罰項(xiàng)系數(shù),ξi為第i個(gè)數(shù)據(jù)實(shí)際輸出值與目標(biāo)輸出值之間的誤差,ti為第i個(gè)訓(xùn)練數(shù)據(jù)對(duì)應(yīng)標(biāo)簽。
由KKT條件及Mecrer條件,求解上式最小值等價(jià)于求解下式拉格朗日函數(shù),其表達(dá)式如下:
(10)
式中:α和τ為拉格朗日乘數(shù)因子。
為求得L最小值,對(duì)式(10)中變量分別求偏導(dǎo)并進(jìn)行化簡得到:
(11)
由式(11)可以得到:
(12)
則有:
(13)
式(13)的等價(jià)核函數(shù)可表示為:
(14)
假設(shè)最終生成的特征需要被映射為特征矩陣E=[Φ(x1),…,Φ(xN)]T∈RN×l, 其中l(wèi)為E的維度,Φ(xN)為在特征矩陣中任意抽取的行向量,由文獻(xiàn)[17]可知核矩陣可根據(jù)近似核矩陣原理進(jìn)行分解,得到其近似經(jīng)驗(yàn)核,以代替?zhèn)鹘y(tǒng)核矩陣,即:
(15)
(16)
式中:Λl∈Rl×l和Ul∈Rl×l即為l個(gè)特征值和其相對(duì)應(yīng)的特征向量,則可將式(15)寫為:
(17)
(18)
則其等價(jià)多核近似矩陣即為:
(19)
由式(19)可求得網(wǎng)絡(luò)輸出權(quán)重β為:
(20)
即可以得到多核近似學(xué)習(xí)網(wǎng)的輸出表達(dá)式為:
(21)
USPS是機(jī)器學(xué)習(xí)中常用的手寫數(shù)字識(shí)別數(shù)據(jù)庫,包含0到9的手寫數(shù)字。其中,訓(xùn)練圖像為7 500幅,測試圖像為3 500幅。圖像中數(shù)字居中,并被標(biāo)準(zhǔn)化為16×16像素。該數(shù)據(jù)庫樣本數(shù)量較少,因此用于驗(yàn)證本文網(wǎng)絡(luò)的有效性。本文選取全部訓(xùn)練樣本和測試樣本進(jìn)行實(shí)驗(yàn)。
針對(duì)USPS數(shù)據(jù)庫,首先選取合適的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù),包括感受野總數(shù)G(G=Gl+Gg,局部感受野個(gè)數(shù)為Gl、全局感受野個(gè)數(shù)為Gg)、懲罰項(xiàng)系數(shù)C、高斯核函數(shù)參數(shù)、多項(xiàng)式核參數(shù),高斯核函數(shù)與多項(xiàng)式核函數(shù)的比重系數(shù)λ1、λ2。卷積核尺寸為4×4,池化尺寸為3×3,懲罰項(xiàng)系數(shù)為{10-3,10-2,…,103},其余參數(shù)設(shè)置與文獻(xiàn)[10]一致。感受野個(gè)數(shù)G和懲罰項(xiàng)C變化時(shí)網(wǎng)絡(luò)正確率變化曲面如圖3所示,當(dāng)感受野總數(shù)為4時(shí),正確率達(dá)到99%左右,隨著感受野總數(shù)的增加,其正確率也在穩(wěn)定增加。
圖3 USPS數(shù)據(jù)庫參數(shù)變化正確率曲面圖Fig.3 USPS database correct rate surface map
將本文方法正確率與一些ELM改進(jìn)方法的正確率進(jìn)行對(duì)比,如表1所示。其中,本文結(jié)構(gòu)參數(shù)如下:局部感受野個(gè)數(shù)為14,全局感受野個(gè)數(shù)為14、懲罰項(xiàng)系數(shù)C為1 000,高斯核函數(shù)參數(shù)為106,多項(xiàng)式核函數(shù)參數(shù)為10-1,對(duì)應(yīng)比重系數(shù)為λ1=0.667、λ2=0.333。
表1 USPS數(shù)據(jù)庫各網(wǎng)絡(luò)時(shí)間和精度對(duì)比Tab.1 Comparison of accuracies and time on USPS database
由于感受野總數(shù)對(duì)正確率有較大影響,為公平比較,在同一實(shí)驗(yàn)條件下,選取MKELN、ELM-LRF和ELM-MSLRF這3個(gè)網(wǎng)絡(luò)各自最優(yōu)參數(shù),只改變感受野總數(shù)進(jìn)行比較,其正確率對(duì)比折線圖如圖4所示。從圖4中可以明顯看出,本文方法在感受野總數(shù)較少的情況下也能達(dá)到較高分類正確率。當(dāng)感受野總數(shù)為28時(shí),達(dá)到網(wǎng)絡(luò)最高正確率99.83%。表2列出了3種方法的正確率與時(shí)間,與ELM-LRF相比,訓(xùn)練時(shí)間減少0.05 s時(shí),正確率提高了1.31%;與ELM-MSLRF相比,訓(xùn)練時(shí)間增加0.05 s時(shí),正確率增加1.19%。由此可以證明在小樣本數(shù)據(jù)集上,本文網(wǎng)絡(luò)能夠有效地提取圖像特征,提高分類正確率。
圖4 3種方法在USPS數(shù)據(jù)庫上對(duì)比折線圖Fig.4 Three methods compared line charts on the USPS database
表2 統(tǒng)一實(shí)驗(yàn)平臺(tái)利用不同方法測試USPS數(shù)據(jù)庫Tab.2 The unified experimental environment uses different methods to test USPS database
為測試本文結(jié)構(gòu)在簡單大型數(shù)據(jù)庫的分類效果,選擇MNIST進(jìn)行實(shí)驗(yàn)。MNIST數(shù)據(jù)庫包含 70 000 幅0到9手寫數(shù)字灰度圖像,其中,訓(xùn)練圖像為60 000幅,測試圖像為10 000幅。圖像數(shù)字居中,且大小統(tǒng)一為28×28像素。本文選擇60 000幅圖像進(jìn)行訓(xùn)練,10 000幅圖像進(jìn)行測試。
各參數(shù)變化時(shí)MKELN分類正確率曲面如圖5所示,由圖5可以看出,隨著感受野總數(shù)的增加,網(wǎng)絡(luò)分類正確率也隨之增加;隨著懲罰項(xiàng)的變化,正確率在一定范圍內(nèi)上下波動(dòng)。在感受野總數(shù)大于24時(shí),平均正確率維持在98.5%左右。在感受野總數(shù)為48時(shí),能達(dá)到網(wǎng)絡(luò)最高正確率98.85%。
圖5 MNIST數(shù)據(jù)庫參數(shù)變化正確率曲面圖Fig.5 MNINST database correct rate surface map
將本文結(jié)構(gòu)與ELM系列方法進(jìn)行對(duì)比,本文結(jié)構(gòu)參數(shù)如下:局部感受野個(gè)數(shù)為24,全局感受野個(gè)數(shù)為24,懲罰項(xiàng)C為1,高斯核函數(shù)參數(shù)為105,多項(xiàng)式核函數(shù)參數(shù)為1,對(duì)應(yīng)比重系數(shù)為λ1=0.73、λ2=0.27。表3列出已發(fā)表ELM系列各結(jié)構(gòu)正確率。由表3可知,本文方法在訓(xùn)練時(shí)間較少的情況下,能夠達(dá)到最高正確率。
見我不信,他給我講了當(dāng)下各種扶貧政策,他屬于精準(zhǔn)扶貧一類的。我一時(shí)還有些聽不大明白,待他辦了出院手續(xù)回來收拾東西,我說“真的沒花錢?”
表3 MNIST數(shù)據(jù)庫各網(wǎng)絡(luò)時(shí)間和精度對(duì)比
為公平比較,在同一實(shí)驗(yàn)條件下,選取MKELN、ELM-LRF和ELM-MSLRF 3個(gè)網(wǎng)絡(luò)最優(yōu)參數(shù),只改變網(wǎng)絡(luò)感受野總數(shù)進(jìn)行比較,結(jié)果如圖6所示。
圖6 3種方法在MNINST數(shù)據(jù)庫上對(duì)比折線圖Fig.6 Three methods to compare line charts on MNIST database
由圖6可以看出,當(dāng)感受野總數(shù)較少時(shí),任意選取的特征向量無法使圖像得到準(zhǔn)確的分類,但當(dāng)感受野總數(shù)達(dá)到16時(shí)就有了明顯區(qū)分。在感受野總數(shù)相同時(shí),MKELN分類正確率明顯高于其它2種網(wǎng)絡(luò)。如表4所示,在感受野總數(shù)為48時(shí),與ELM-LRF相比,訓(xùn)練時(shí)間減少45.7 s,正確率增加0.95%;與ELM-MSLRF相比,訓(xùn)練時(shí)間減少68.6 s時(shí),正確率增加0.75%。由此可以得出結(jié)論,本文網(wǎng)絡(luò)對(duì)簡單大型數(shù)據(jù)集有良好的分類效果。
表4 統(tǒng)一實(shí)驗(yàn)平臺(tái)利用不同方法測試MNIST數(shù)據(jù)庫Tab.4 The unified experimental environment uses different methods to test MNIST database
USPS和MNIST均為手寫數(shù)字?jǐn)?shù)據(jù)集,整體圖像簡單,為測試MKELN在復(fù)雜圖像中的分類能力,本小節(jié)使用NORB數(shù)據(jù)集進(jìn)行測試。該數(shù)據(jù)集包含5大類圖像:人物、動(dòng)物、飛機(jī)、汽車和卡車。每一類包含10個(gè)實(shí)例,共50個(gè)實(shí)例,利用不同的視點(diǎn)和不同照明條件使得每個(gè)實(shí)例有972幅立體圖像,每幅立體圖像包含左右2幅圖像,實(shí)驗(yàn)時(shí)選擇每個(gè)類別中的5個(gè)實(shí)例,共計(jì)24 300幅圖像用于訓(xùn)練,使用每個(gè)類別剩下的5個(gè)實(shí)例共24 300個(gè)圖像進(jìn)行測試,并將所有圖像大小統(tǒng)一為32×32像素。本文使用24 300幅圖像進(jìn)行訓(xùn)練,24 300幅圖像進(jìn)行測試。
首先,為充分說明高斯分布矩陣預(yù)處理原始圖像的有效性,以此數(shù)據(jù)集為例,任選一張訓(xùn)練圖像利用圖2(b)高斯分布矩陣進(jìn)行預(yù)處理,生成區(qū)域漸進(jìn)圖像,并將此圖像對(duì)應(yīng)的二維矩陣顯示為曲面,如圖7所示。左側(cè)第一列為原始圖像及其對(duì)應(yīng)曲面圖,由曲面圖可知,像素值分布不均勻,錯(cuò)落明顯;而右側(cè)經(jīng)過高斯矩陣處理后的曲面圖,其中心部分仍維持原始像素值,但周圍部分像素值被均勻減小。
從圖7可以看出,圖像中心區(qū)域外的圖像經(jīng)過高斯濾波后,局部細(xì)節(jié)特征被模糊,但其輪廓特征相比之下變得顯著。結(jié)合全局感受野與局部感受野,提取出中心區(qū)域中的細(xì)節(jié)特征與整體圖像的輪廓特征。
圖7 原始圖像與區(qū)域漸進(jìn)增強(qiáng)圖像及二維曲面對(duì)比圖Fig.7 Comparison of original image and regional gradual enhancement image and its corresponding two-dimensional surface
其次,利用實(shí)例圖像驗(yàn)證MKELN卷積池化的效果,如圖8。第1和第2行是原始圖像進(jìn)行卷積和池化的特征圖像;第3和第4行是區(qū)域漸進(jìn)增強(qiáng)圖像卷積和池化的特征圖像。通過對(duì)比可看出,局部感受野提取出更多的圖像細(xì)節(jié)信息,而全局感受野則提取出更加顯著、平滑的整體輪廓信息。在MKELN結(jié)構(gòu)下,將2幅圖像生成的特征矩陣串聯(lián),使得中心區(qū)域的特征得到加強(qiáng),最終得到的特征矩陣將攜帶更多有關(guān)這些部分的圖像信息,而其余圖像作為輸入的輔助信息以增強(qiáng)該結(jié)構(gòu)的分類能力。
圖8 MKELN卷積池化特征圖Fig.8 Convolution feature map and pooling feature map of MKELN
為測試全局感受野和局部感受野對(duì)任務(wù)的分類能力,將全部使用局部感受野、全部使用全局感受野以及2種感受野結(jié)合使用這3種特征提取方式分別進(jìn)行測試。如圖9所示,從這三者的折線圖可以看出,2種感受野結(jié)合使用往往能夠得到更高的分類正確率。從折線趨勢(shì)來看,兩種感受野結(jié)合使用的網(wǎng)絡(luò)隨感受野增加時(shí),正確率增加更為穩(wěn)定、平緩,說明了在特征提取時(shí)將兩者結(jié)合使用是必要的。
圖9 3種類型感受野正確率對(duì)比折線圖Fig.9 Three types of receptive field correct rate comparison line chart
為進(jìn)一步說明本文網(wǎng)絡(luò)結(jié)構(gòu)的有效性,將MKELN結(jié)構(gòu)進(jìn)行拆分再依次加入進(jìn)行正確率和時(shí)間的對(duì)比,如圖10、圖11所示。由圖10可知,在區(qū)域漸進(jìn)增強(qiáng)(ELM-LRF+GER)、全局感受野(ELM-LRF+GER+G)及多核近似結(jié)構(gòu)(ELM-LRF+GER+G+MKE)分別依次加入時(shí),每一個(gè)感受野所對(duì)應(yīng)的正確率都有不同程度的增強(qiáng)。與其余幾種模型相比,本文提出的多核近似學(xué)習(xí)網(wǎng)正確率增加最明顯,相對(duì)應(yīng)的正確率增長曲線也更加穩(wěn)定。由圖11可知,由于MKELN中存在多核映射,使得在感受野個(gè)數(shù)較少時(shí),訓(xùn)練時(shí)間明顯高于其它3種方法。但是隨著感受野總數(shù)的增加,其余網(wǎng)絡(luò)訓(xùn)練時(shí)間明顯增長,而本文網(wǎng)絡(luò)仍然是抽取特定數(shù)量的特征矩陣訓(xùn)練,因而與其它3種方法時(shí)間差逐漸增加,在能達(dá)到最高正確率時(shí)所需要的時(shí)間相比其余網(wǎng)絡(luò)所需時(shí)間短。
圖10 4種網(wǎng)絡(luò)正確率對(duì)比折線圖Fig.10 Correct rate of four networks comparison line chart
圖11 4種網(wǎng)絡(luò)時(shí)間對(duì)比折線圖Fig.11 Time of four networks comparison line charts
各參數(shù)變化時(shí)MKELN的分類正確率曲線圖如圖12所示,由圖示可以看出,在多核函數(shù)的影響下,網(wǎng)絡(luò)正確率受懲罰項(xiàng)影響較大;隨著感受野的變化,正確率在一定范圍內(nèi)上下波動(dòng),在感受野總數(shù)大于32時(shí),平均正確率維持在97%左右,在感受野總數(shù)為44時(shí),能達(dá)到網(wǎng)絡(luò)最高正確率為97.75%。
圖12 NORB數(shù)據(jù)庫參數(shù)變化正確率曲面圖Fig.12 NORB database correct rate surface map
將本文結(jié)構(gòu)與ELM系列方法進(jìn)行對(duì)比,本文結(jié)構(gòu)參數(shù)如下:局部感受總數(shù)22,全局感受野總數(shù)22,懲罰項(xiàng)為1 000,高斯核函數(shù)參數(shù)為106,多項(xiàng)式核函數(shù)參數(shù)為10-1,對(duì)應(yīng)比重系數(shù)為λ1=0.76、λ2=0.24。表5列出文獻(xiàn)中ELM相關(guān)算法的時(shí)間和正確率。由表5可知,本文網(wǎng)絡(luò)在訓(xùn)練時(shí)間較少的情況下,能夠獲得最高正確率。
表5 NORB數(shù)據(jù)庫各網(wǎng)絡(luò)時(shí)間和精度對(duì)比Tab.5 Comparison of accuracies and time on NORB database
為公平比較,在同一實(shí)驗(yàn)條件上,將MKELN、ELM-LRF及ELM-MSLRF正確率隨感受野總數(shù)變化曲線如圖13所示,各網(wǎng)絡(luò)均選取各自最高正確率。由折線圖13可以看出,隨著感受總數(shù)增加,正確率增加趨勢(shì)穩(wěn)定。
圖13 3種方法正確率對(duì)比折線圖Fig.13 Three methods to compare line charts on the NORB database
由表6對(duì)比3種方法的正確率和時(shí)間,在感受野總數(shù)為44時(shí),與ELM-LRF相比,時(shí)間減少3.87 s時(shí),正確率增加1.23%;與ELM-MSLRF相比,訓(xùn)練時(shí)間減少1.81 s時(shí),正確率增加1.64%,取得的最高正確率為97.75%。由此,可以看出MKELN在時(shí)間和準(zhǔn)確率方面都具有優(yōu)勢(shì),表明了該網(wǎng)絡(luò)在處理復(fù)雜圖像分類問題上的有效性。
表6 統(tǒng)一實(shí)驗(yàn)平臺(tái)利用不同方法測試NOBR數(shù)據(jù)庫Tab.6 The unified experimental environment uses different methods to test the NORB database
通過以上實(shí)驗(yàn)可知,本文所提出的多核近似學(xué)習(xí)網(wǎng)能夠充分提取出圖像特征,當(dāng)訓(xùn)練時(shí)間保持不變或減少時(shí),在USPS、MNIST和NORB數(shù)據(jù)集上的分類正確率均得到有效提高,證明該網(wǎng)絡(luò)在解決圖像分類問題上具有一定優(yōu)勢(shì)。
本文在ELM-LRF基礎(chǔ)上進(jìn)行改進(jìn),提出多核近似學(xué)習(xí)網(wǎng)(MKELN),并將其應(yīng)用到圖像分類中。在特征提取時(shí),將經(jīng)過二維高斯分布預(yù)處理后的區(qū)域漸進(jìn)增強(qiáng)圖像與原始圖像并行輸入網(wǎng)絡(luò),局部感受野和全局感受野用于提取圖像的局部和全局特征,使得全局輪廓特征和局部細(xì)節(jié)特征均能夠被充分提取和利用。通過實(shí)例圖像進(jìn)行驗(yàn)證,此網(wǎng)絡(luò)能夠進(jìn)一步提取圖像中的可辨識(shí)信息,使更多的圖像特征可被用于分類。在分類時(shí),結(jié)合多核映射和近似核映射的優(yōu)點(diǎn),提出多核近似映射算法計(jì)算出網(wǎng)絡(luò)的輸出權(quán)重。實(shí)驗(yàn)表明,在訓(xùn)練時(shí)間相近或減少的情況下,提高了分類正確率,能夠有效提升網(wǎng)絡(luò)分類性能。然而,不同多核函數(shù)組合對(duì)于不同數(shù)據(jù)集需要不同的參數(shù)組合以獲得最好的結(jié)果,其參數(shù)選取需要進(jìn)行大量的實(shí)驗(yàn)。如何針對(duì)不同數(shù)據(jù)集提出更加高效的多核近似算法,將是下一步的研究方向。