国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

稀疏自編碼和Softmax回歸的快速高效特征學習*

2017-05-10 13:00:47徐德榮陳秀宏
傳感器與微系統(tǒng) 2017年5期
關鍵詞:正確率特征提取編碼

徐德榮, 陳秀宏, 田 進

(江南大學 數(shù)字媒體學院,江蘇 無錫 214122)

稀疏自編碼和Softmax回歸的快速高效特征學習*

徐德榮, 陳秀宏, 田 進

(江南大學 數(shù)字媒體學院,江蘇 無錫 214122)

針對特征學習效果與時間平衡問題,提出了一種快速高效的特征學習方法。將稀疏自編碼和Softmax回歸組合成一個新的特征提取模型,在提取原始圖像潛在信息的基礎上,利用多分類器返回值可以反映輸入信息的相似程度的特點,快速高效的學習利于分類的特征向量。鑒于標簽信息已知,該算法在圖像分類效果上明顯優(yōu)于幾種典型的特征學習方法。為了使所提算法具有更好的泛化能力,回歸模型的損失函數(shù)中加入了L2范數(shù)防止過擬合,同時,采用隨機梯度下降的方法得到模型的最優(yōu)參數(shù)。在4個標準數(shù)據(jù)集上的測試結(jié)果表明該算法是有效可行的。

稀疏自編碼; Softmax回歸; 特征學習; 圖像分類; 隨機梯度下降

0 引 言

在數(shù)字圖像處理與計算機視覺領域,圖像分類是一項重要的研究課題,其關鍵技術(shù)在于特征提取[1]。圖像特征提取,主要分為2個層次,一層是底層特征提取,另一層是高層特征提取。底層特征[2~4]一般分為顏色特征、紋理特征[2]和形狀特征[3]。

一般而言,底層特征具有良好的魯棒性,但是由于是人工設計的,因此,易受語義誤差影響。為了解決這一問題,一些學者嘗試通過機器學習的方法來提取高層次的特征。近年來,深度學習方法[5]已經(jīng)開始應用于提取圖像的高層次的語義信息,并取得了很好的效果。與底層特征提取方法相比,深度學習方法能夠自動提取語義層次上的特征,但是,它也存在一定的缺點,例如:模型層數(shù)過多導致耗時過多。

為了解決上述特征學習算法的局限性,且文獻[6]指出輸入特征經(jīng)過分類器所返回的返回值能夠用于檢測輸入特征的相似程度,本文提出了一種基于稀疏自編碼和Softmax回歸的有監(jiān)督特征學習(sparse autoencoder softmax regression,SAESR)算法。

1 典型的特征學習算法

1.1 尺度不變特征轉(zhuǎn)換及其延伸

由于尺度不變特征轉(zhuǎn)換(SIFT)特征在處理旋轉(zhuǎn)、亮度變化、尺度縮放以及仿射變換等方面明顯優(yōu)于其他特征,所以SIFT描述子一直是圖像識別領域的研究熱點。但是,為了匹配兩個物體之間的相似程度需要計算它們對應層次的SIFT特征,這將導致實現(xiàn)過程很繁瑣。因此,文獻[7]提出了一種特征詞袋(bag of feature,BOF)算法用于解決上述在圖像識別中的困難。

盡管BOF方法能夠成功計算局部特征,但是,其計算方式紊亂,導致其在一些圖像分類實驗中的判別能力降低。為了彌補BOF的局限性,文獻[8,9]提出了一種多分辨率版本的BOF,該方法通過組合不同分辨率上的BOFs來解決無序并且有不同數(shù)目的特征集之間的分類問題。綜上,SIFT及其延伸算法已經(jīng)成功應用于圖像識別領域,但是它們都是局部特征,由于是人工設計且沒有考慮標簽信息,容易導致語義誤差問題出現(xiàn)。

1.2 深層網(wǎng)絡學習

深度學習[10]是機器學習的一個重要的研究領域,深度學習是一個多層次的學習,其實質(zhì)就是通過建立、模擬人腦的分層結(jié)構(gòu),對外部輸入數(shù)據(jù)進行從低級到高級的特征提取,從而能夠解釋外部數(shù)據(jù)。近年來,深度學習開始廣泛應用于學習數(shù)字對象的表示。文獻[11,16]提出使用深度信念網(wǎng)絡(DBN)來構(gòu)造深度學習模型,從而來學習數(shù)據(jù)的高層次的表示。對于深度學習結(jié)構(gòu)而言,深度學習模型可以比淺層學習模型學習出更本質(zhì)的語義特征,如深度信念網(wǎng)絡和卷積神經(jīng)網(wǎng)絡。但是,訓練深度學習模型是一個困難且艱巨的任務,模型層數(shù)過多將導致處理時間過長。

2 SAESR算法

2.1 稀疏自編碼用于圖像預處理

稀疏自編碼器可以提取原始數(shù)據(jù)的潛在信息,降低數(shù)據(jù)維度,有助于最終提高預測的正確率。本文將其用于圖像預處理,從而獲得圖像更本質(zhì)的特征。

假設訓練數(shù)據(jù)集為

{(x(1),y(1)),…,(x(m),y(m))}

將其輸入具有n個神經(jīng)元的隱含層,通過一個非線性激活函數(shù) (如Sigmoid函數(shù)等)后輸出一個含m個神經(jīng)元的可視層,由式(1)、式(2)、式(3)得到相應的映射a(2)∈Rn×1,a(3)∈Rm×1,即

(1)

(2)

hW,b(x)=a(3)=f(z(3))

(3)

(4)

式中sl為第l層的節(jié)點數(shù)(不包括偏置單元);nl為網(wǎng)絡層數(shù);第二項為懲罰項,防止模型過擬合。

為了迫使隱藏神經(jīng)元發(fā)揮最大的潛力,學習到真正的特征,可以在自編碼的基礎上增加稀疏性約束條件,即稀疏自編碼。此時,稀疏自編碼重構(gòu)誤差函數(shù)為

(5)

本文采用BP算法[12,17,20]和L-BFGS優(yōu)化算法[13]來訓練稀疏自編碼模型,獲得最優(yōu)權(quán)重矩陣W(1)和偏置向量b(1)。

將原始數(shù)據(jù)輸入稀疏自編碼模型后所提取的潛在信息用于后續(xù)操作,表示如下

{(z(1),y(1)),…,(z(m),y(m))}

(6)

2.2Softmax回歸組合圖像特征

因為輸入特征經(jīng)過分類器所返回的預測值能夠用于檢測輸入特征的相似程度,所以,本文根據(jù)分類器所返回的預測值組成一個新的特征,用于后續(xù)的圖像分類。該特征由預測值組成,具有低的復雜性。同時,它由稀疏自編碼提取的潛在信息經(jīng)分類器得到,具有良好的語義表示能力。為了使該特征學習算法具有好的泛化能力,本文在Softmax回歸模型的代價函數(shù)中加入L2范數(shù)。同時,采用隨機梯度下降的方法得到Softmax回歸模型的最優(yōu)參數(shù)。

與稀疏自編碼預處理之后得到的潛在信息式(6)相對應的Softmax回歸函數(shù)為

(7)

由式(7)可知,樣本Z(i)屬于第j類的概率為

p(y(i)=j|z(i);θ)=φj

(8)

從而有

(9)

式中I(S)為一個指示函數(shù),當S為真時,I(S)=1;否則,為0。對應的似然函數(shù)為

(10)

(11)

取使其達到最大的參數(shù)θ作為最優(yōu)估計量,但是,如果僅最大化式(11),則易導致模型過擬合。為此,本文在該函數(shù)中添加一個L2范數(shù)作為懲罰項以抑制過擬合。這時,Softmax回歸模型的代價函數(shù)為

(12)

式中 第一項用于測試模型擬合訓練數(shù)據(jù)的程度;第二項則用來平滑模型,抑制過擬合問題。

為了使所提算法具有更好的泛化能力,本文在Softmax回歸模型的損失函數(shù)中加入L2范數(shù)防止過擬合,同時采用隨機梯度下降的方法得到特征學習模型的最優(yōu)參數(shù)。因為這個權(quán)重衰減項使代價函數(shù)變成了嚴格的凸函數(shù),可以保證梯度下降算法收斂到全局最優(yōu)解。由Softmax回歸模型的代價函數(shù)可知θj的梯度為

(13)

則參數(shù)迭代更新為

(14)

式中 α為學習率;φj=p(y(i)=j|z(i);θ)。

參數(shù)更新算法如下:

輸出:最佳模型參數(shù)θj

fort=1toTdo

fori=1tomdo

根據(jù)式(14)計算θ中的各值;

end

end

返回最佳參數(shù)θ

3 實現(xiàn)結(jié)果與分析

3.1 相關參數(shù)選擇

在每個數(shù)據(jù)集中,本文從每一類樣本中隨機選擇30 %的圖像作為測試樣本,而剩余的用于訓練特征提取模型。在BOFs算法中,首先從每一張圖像中提取128維的SIFT特征,然后通過基于k-means的BOW模型計算出K維的新特征。本文嘗試了對K 進行不同的取值(K=512,1 024,2 048,3 072),綜合考慮4個數(shù)據(jù)集上根據(jù)BOFs模型所得分類平均正確率和算法運算時間,本文采用了K=2 048用于后續(xù)分類效果比較。在SAESR,SAE,和DBN算法中,每一張圖像都將縮放成大小為64×64的灰度圖,最后將每張圖像的灰度圖以一行或者一列表示,用來代表原始圖像的輸入特征。

在SAE算法和SAESR的預處理階段,實驗設定隱含層數(shù)n=1 000,稀疏性參數(shù)ρ=0.1,懲罰項系數(shù)λ=1×10-3,稀疏懲罰因子的權(quán)重β=3。在SAESR算法的特征組合階段,學習率α可以通過線性搜索的方法獲得,而各個數(shù)據(jù)集(3Ddatase,ETH-8,RGB-D,NECAnimalDataset)對應的回歸模型的正則化系數(shù)λ則是通過實驗分別取值為10-4,10-5,10-6,10-5。在DBN算法中,設置了其具有4個隱含層,分別為1 024,512,256,64,在其預訓練和微調(diào)階段,設置其相應的迭代次數(shù)均為150。

3.2 圖像分類平均正確率比較

為了評價所提算法的性能好壞,本文將該特征提取算法應用在4個標準數(shù)據(jù)集(3Ddataset,ETH-8,RGB-D,NECAnimalDataset)上進行測試,并用K最近鄰分類器計算它們的平均正確率(averageprecision)。圖像分類的平均正確率越高表明所提取的特征越能反應圖像之間的相似程度。

由圖2可以發(fā)現(xiàn),SAESR算法在3Ddataset,ETH-8,RGB-D,NECAnimalDataset4個數(shù)據(jù)集上的分類平均正確率明顯優(yōu)于其他3種算法。SAESR算法在特征提取階段將標簽信息用于更新Softmax回歸模型,所以在分類效果上會優(yōu)于SAE算法。BOFs算法只是提取了底層特征,且沒有利用標簽信息,所以它的分類效果不是很突出。至于DBN算法,因為模型構(gòu)造能力和參數(shù)調(diào)試能力有限,圖示效果為實驗最優(yōu)值。

圖1 算法(BOF,DBN,SAE,SAESR)在標準數(shù)據(jù)集上用K最近鄰分類的平均正確率

3.3 特征提取時間比較

對于大部分在線應用而言,執(zhí)行算法所需時間越短越好。圖像識別大致可以分為兩個階段,特征提取和圖像分類。這意味著一個具有低復雜性的特征提取算法更適用于在線應用。例如BOFs,需要提取SIFT特征并計算BOFs特征,且每張圖像一般都具有幾百甚至幾千個SIFT特征,所以其特征提取是相對耗時的。表1給出了4種算法提取每張圖像特征所需的時間。

表1 相關算法特征提取時間 μs/張

4 結(jié)束語

本文提出了一種新的有深度的特征學習算法,考慮到標簽信息,該方法在分類正確率上明顯優(yōu)于典型的特征提取算法BOFs和DBN,而標簽信息完全可以通過現(xiàn)有的標簽技術(shù)來獲取。另外,本文采用了L-BFGS和隨機梯度下降的方法分別來更新稀疏自編碼器和Softmax回歸模型的參數(shù),從而獲得一個具有更好泛化能力的特征學習模型。

[1] Li C H,Ho H H,Kuo B C,et al.A semi-supervised feature extraction based on supervised and fuzzy-based linear discriminant analysis for hyperspectral image classification[J].Appl Math,2015,9(1L):81-87.

[2] Bagri N,Johari P K.A comparative study on feature extraction using texture and shape for content-based image retrieval[J].International Journal of Advanced Science and Technology,2015,80:41-52.

[3] Hong B W,Soatto S.Shape matching using multiscale integral invariants[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(1):151-160.

[4] Lowe D G.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.

[5] Schmidhuber J.Deep learning in neural networks:An overview[J].

Neural Networks,2015,61:85-117.

[6] Wang G,Hoiem D,Forsyth D.Learning image similarity from flick groups using fast kernel machines[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(11):2177-2188.

[7] Daoudi E M,Tadonki C.3D shape retrieval using bag-of-feature method basing on local codebooks in image and signal proces-sing[M].Berlin Heidelberg: Springer,2012:391-396.

[8] Grauman K,Darrell T.The pyramid match kernel:Discriminative classification with sets of image features[C]∥The Tenth IEEE International Conference on Computer Vision,ICCV 2005,IEEE,2005:1458-1465.

[9] Lazebnik S,Schmid C,Ponce J.Beyond bags of features:Spatial pyramid matching for recognizing natural scene categories[C]∥2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,IEEE,2006:2169-2178.

[10] Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets[J].Neural Computation,2006,18(7):1527-1554.

[11] Nair V,Hinton G E.3D object recognition with deep belief net-s[C]∥Advances in Neural Information Processing Systems,2009:1339-1347.

[12] 趙 映,陳小平.BP神經(jīng)網(wǎng)絡在紅外CO2體積分數(shù)測量中的應用[J].傳感器與微系統(tǒng),2015,34(3):151-153.

[13] Liu D C,Nocedal J.On the limited memory BFGS method for large scale optimization[J].Mathematical Programming,1989,45(1-3):503-528.

[14] Zinkevich M,Weimer M,Li L,et al.Parallelized stochastic gra-dient descent[C]∥Advances in Neural Information Processing Systems,2010:2595-2603.

[15] Chu C,Kim S K,Lin Y A,et al.Map-reduce for machine learning on multicore[J]. Advances in Neural Information Processing Systems,2007,19:281.

[16] 陽 武,李 倩,趙繼生,等.深度信念網(wǎng)絡在故障指示器檢測中的應用[J].傳感器與微系統(tǒng),2015,34(7):155-157.

[17] 劉 萍,簡家文,陳志蕓,等.偽逆BP神經(jīng)網(wǎng)絡在汽車尾氣檢測中的應用[J].傳感器與微系統(tǒng),2016,35(3):157-159.

徐德榮(1993- ),男,碩士研究生,主要研究方向為數(shù)字圖像處理。

陳秀宏(1964-),男,博士后,教授,主要從事模式識別,圖像處理,人工智能領域研究工作。

Fast and efficient feature learning algorithm based on sparse autoencoder and Softmax regression*

XU De-rong, CHEN Xiu-hong, TIAN Jin

(School of Digital Media,Jiangnan University,Wuxi 214122,China)

Aiming at equilibrium problem between the effectiveness and time of feature learning, a fast and efficient feature learning method is proposed.A new feature extraction model is combined with sparse autoencoder and softmax regression.After extracting the potential information of original image,the model take advantage of return value of multiple classifier which can respond the similarity of input information,learning feature vector for classification fastly and efficiently.In view of the label information is known,this algorithm is better than several typical feature learning methods in the image classification.In order to make the proposed algorithm has better generalization ability,addL2-norm into loss function of regression model to prevent overfitting.At the same time, use stochastic gradient descent method to get the optimal parameters of the model.The test results on four standard data sets show that the proposed algorithm is feasible and effective.

sparse autoencoder; Softmax regression; feature learning; image classification; stochastic gradient descent

10.13873/J.1000—9787(2017)05—0055—04

2016—06—18

國家自然科學基金資助項目(61373055)

TP 391.4

A

1000—9787(2017)05—0055—04

猜你喜歡
正確率特征提取編碼
基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達圖像配準
門診分診服務態(tài)度與正確率對護患關系的影響
《全元詩》未編碼疑難字考辨十五則
子帶編碼在圖像壓縮編碼中的應用
電子制作(2019年22期)2020-01-14 03:16:24
Genome and healthcare
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
Bagging RCSP腦電特征提取算法
生意
品管圈活動在提高介入手術(shù)安全核查正確率中的應用
天津護理(2016年3期)2016-12-01 05:40:01
生意
故事會(2016年15期)2016-08-23 13:48:41
大安市| 新化县| 上饶县| 平顺县| 通州区| 兰坪| 伊宁县| 唐海县| 龙门县| 凉山| 沂南县| 工布江达县| 砚山县| 尚志市| 西平县| 罗田县| 巨野县| 龙里县| 马龙县| 两当县| 英德市| 德化县| 洞头县| 扎鲁特旗| 巴林右旗| 唐海县| 重庆市| 虞城县| 承德市| 益阳市| 玛曲县| 黑山县| 会泽县| 阿坝| 河东区| 平江县| 临夏市| 绵竹市| 新郑市| 德兴市| 天长市|