国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Softmax分類器深度學(xué)習(xí)圖像分類方法應(yīng)用綜述

2019-02-10 08:54盛明偉秦洪德唐松奇
導(dǎo)航與控制 2019年6期
關(guān)鍵詞:編碼器分類器卷積

萬(wàn) 磊,佟 鑫,盛明偉,秦洪德,唐松奇

(哈爾濱工程大學(xué)水下機(jī)器人技術(shù)重點(diǎn)實(shí)驗(yàn)室,哈爾濱150001)

0 引言

圖像分類是把圖像中不同目標(biāo)區(qū)分出來的一種圖像處理方法,是計(jì)算機(jī)進(jìn)行視覺判讀的重要手段。隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展及計(jì)算機(jī)能力的大幅提升,圖像數(shù)據(jù)的規(guī)模逐漸壯大,對(duì)圖像分類算法的性能要求不斷提高。近幾年,基于深度學(xué)習(xí)的圖像分類方法取得了突破性進(jìn)展,并廣泛應(yīng)用于人臉識(shí)別[1]、衛(wèi)星遙感[2]、醫(yī)療診斷[3]、自主導(dǎo)航[4]及人機(jī)交互[5]等領(lǐng)域。基于深度學(xué)習(xí)的圖像分類方法實(shí)現(xiàn)了交通安全監(jiān)控與管理、意外事故檢測(cè)及處理、犯罪跟蹤、安全解鎖以及自主導(dǎo)航等功能,其具體應(yīng)用分類如表1所示。在深度學(xué)習(xí)圖像分類算法中,Softmax回歸(Softmax Re?gression,SR)起到了學(xué)習(xí)已知數(shù)據(jù)、預(yù)測(cè)未知數(shù)據(jù)的作用,是算法中必不可少的環(huán)節(jié)。

表1 基于深度學(xué)習(xí)的圖像分類應(yīng)用領(lǐng)域Table 1 Applications of image classification based on deep learning

傳統(tǒng)的圖像分類技術(shù)包括基于色彩、紋理、形狀及空間關(guān)系等特征的分類技術(shù),這些傳統(tǒng)技術(shù)對(duì)目標(biāo)間具有明顯特征區(qū)別的圖像有作用,但無法滿足當(dāng)前信息龐大的處理需求。2010年以后,深度學(xué)習(xí)逐漸成為圖像分類領(lǐng)域的熱門研究課題,國(guó)外的科研人員開展了大量研究工作。Ratle等[6]提出了基于神經(jīng)網(wǎng)絡(luò)的半監(jiān)督圖像分類框架,嵌入正則化產(chǎn)生一個(gè)操作分類器,用于解決遙感圖像分類問題。Vincent等[7]提出了一種堆疊去噪自動(dòng)編碼器(Stacked Denoising Autoencoders,SDA)無監(jiān)督分類算法,對(duì)輸入的損壞樣本去噪處理,采用無監(jiān)督訓(xùn)練提高了后續(xù)支持向量機(jī)(Support Vector Machine,SVM)分類器性能。Krizhevsky等[8]提出了大型深層卷積神經(jīng)網(wǎng)絡(luò)模型 AlexNet,包括5個(gè)卷積層、3個(gè)全連接層和Softmax分類層,是近年來最受歡迎的圖像分類模型之一,該成果在2012年獲得了ImageNet ILSVRC競(jìng)賽的冠軍。ImageNet ILSVRC 2014 年的冠軍由 Szegedy 等[9]獲得,他們提出了一個(gè)22層卷積神經(jīng)網(wǎng)絡(luò)模型GoogleNet,增加網(wǎng)絡(luò)深度的同時(shí)降低維度,并采用平均池化層代替全連接層與Softmx分類器連接,實(shí)現(xiàn)了用極深網(wǎng)絡(luò)進(jìn)行圖像分類。

國(guó)內(nèi)在圖像分類領(lǐng)域的技術(shù)發(fā)展同樣迅速,Zhang等[10]提出了一種新的基于Softmax回歸的深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)半監(jiān)督學(xué)習(xí)算法,用來解決標(biāo)簽數(shù)據(jù)不足時(shí)的人臉識(shí)別問題。He等[11]提出了一個(gè)殘差學(xué)習(xí)框架來簡(jiǎn)化大深度網(wǎng)絡(luò)訓(xùn)練(ResNet),該技術(shù)不僅獲得了ImageNet ILS?VRC 2015年競(jìng)賽的冠軍算法,也在同一年獲得了COCO競(jìng)賽的冠軍。Zhong等[12]提出了一種新的條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)模型,基于深度置信網(wǎng)絡(luò)聯(lián)合訓(xùn)練進(jìn)行高光譜圖像分類。除此之外,國(guó)內(nèi)越來越多的團(tuán)隊(duì)取得了優(yōu)秀成果并獲得了國(guó)際圖像分類算法類比賽的冠軍,如商湯和港中文、??低暤?。

分類器作為圖像分類的一項(xiàng)關(guān)鍵技術(shù),種類繁多,常見的有支持向量機(jī)(SVM)、K近鄰、隨機(jī)森林以及Softmax分類器,各分類器的優(yōu)缺點(diǎn)如表2所示。SVM雖然在處理小樣本、非線性及高維模式識(shí)別問題時(shí)表現(xiàn)出特有優(yōu)勢(shì),但是對(duì)于較復(fù)雜分類問題其分類精度不高,且對(duì)當(dāng)前大數(shù)據(jù)分類的處理代價(jià)太大[13];K近臨的算法過程簡(jiǎn)單且易于理解,但K近臨屬于一種懶散學(xué)習(xí)法,當(dāng)數(shù)據(jù)分布不均時(shí),分類誤差率將會(huì)增加,識(shí)別準(zhǔn)確率低,且其分類過程計(jì)算的復(fù)雜度大[14];隨機(jī)森林對(duì)于多維特征的數(shù)據(jù)集分類具有運(yùn)算能力強(qiáng)、精度高、訓(xùn)練速度快、丟失一些特征不影響結(jié)果等優(yōu)勢(shì),但隨機(jī)森林在某些噪音相對(duì)較大的分類問題上會(huì)產(chǎn)生過擬合,造成識(shí)別效果不佳,這限制了其在復(fù)雜圖像分類問題上的應(yīng)用[15]。這些弊端導(dǎo)致上述3種分類器在應(yīng)用上具有一定的局限性。

Softmax分類器具有分類種類多、應(yīng)用簡(jiǎn)單、準(zhǔn)確率高、好訓(xùn)練等優(yōu)點(diǎn)[16],其結(jié)合深度模型進(jìn)行圖像分類的算法逐漸占據(jù)了圖像分類算法的主流,使深度模型的分類準(zhǔn)確率不斷提高。目前,簡(jiǎn)單的圖像數(shù)據(jù)集如手寫數(shù)字庫(kù)(MNIST)的分類準(zhǔn)確率已達(dá)到99%以上,大部分圖像分類的準(zhǔn)確率也都在90%以上。取得如此高的分類準(zhǔn)確率,一方面是由于深度模型的出現(xiàn)和應(yīng)用,另一方面也是由于算法中包含的Softmax分類器效率較高。由此可見,Softmax在圖像分類領(lǐng)域占據(jù)重要位置,對(duì)其研究和改進(jìn)對(duì)提高圖像的分類效果具有十分重要的意義。

表2 多種分類器比較Table 2 Comparison of various classifiers

1 Softmax分類器原理

Softmax分類器原理較簡(jiǎn)單,是一個(gè)概率計(jì)算過程。神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行分類時(shí),輸入圖像經(jīng)過神經(jīng)網(wǎng)絡(luò)特征提取后傳入分類器,由Softmax分類器訓(xùn)練后可獲得參數(shù)矩陣θ,θ與圖像特征列向量相乘,輸出該圖像分屬各類的概率值。其中,最大值對(duì)應(yīng)類別即為該圖像的判定類別。

如圖1所示,所展示的是一個(gè)典型的簡(jiǎn)單三分類結(jié)構(gòu),該神經(jīng)網(wǎng)絡(luò)包含了輸入層、兩個(gè)特征提取層和分類輸出層。輸入特征經(jīng)過兩個(gè)特征提取層獲得提取后的特征向量,傳入Softmax分類器經(jīng)過矩陣相乘計(jì)算,輸出屬于三種類別的概率。這三個(gè)概率和為1準(zhǔn)則不變,若輸出概率為[0,0.14,0.86],則輸入的所屬類別為2。

Softmax回歸是邏輯回歸(Logistic Regression,LR)的一個(gè)擴(kuò)展,與類別標(biāo)簽只能取兩個(gè)的邏輯回歸分類不同,SR為類別標(biāo)簽提供了更多可能,適用于多分類問題。Softmax分類器將輸入矢量從N維空間映射到類別,結(jié)果以概率的形式給出,公式如下所示

式(1)中,θk=[θk1θk2… θkK]T為權(quán)值,是類別所對(duì)應(yīng)的分類器參數(shù),總模型參數(shù)θ如下

圖1 簡(jiǎn)單三分類網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Simple three classification network

θ由Softmax分類器訓(xùn)練獲得,作為參數(shù)可計(jì)算出待分類項(xiàng)的所有可能類別概率,進(jìn)而確定其所屬類別。給定一個(gè)包括n個(gè)訓(xùn)練樣本的數(shù)據(jù)集:{(x(1),y(1)),(x(2),y(2)),…,(x(n),y(n))},x代表輸入矢量,y為每個(gè)x的類別標(biāo)簽。對(duì)于一個(gè)給定的測(cè)試樣本x(i),用 Softmax分類器估計(jì)其屬于每種類別的概率,函數(shù)公式如下

式(4)中,1{·}是一個(gè)指示性函數(shù),值為真即等于1,值為假即等于0。令J(θ)最小化,即可得出分類器參數(shù)θ。

2 Softmax在深度學(xué)習(xí)圖像分類中的應(yīng)用

自Softmax分類器問世以來,其在圖像分類領(lǐng)域的應(yīng)用越來越廣泛,基于深度學(xué)習(xí)Softmax的圖像分類算法采用神經(jīng)網(wǎng)絡(luò)模型與Softmax分類器級(jí)聯(lián)的形式實(shí)現(xiàn)圖像分類[17]。近年來,多種深度學(xué)習(xí)分類技術(shù)被專家、學(xué)者們提出用以解決各種圖像的分類問題,有些模型已投入到實(shí)際應(yīng)用中,在某些類別的圖像分類領(lǐng)域,深度學(xué)習(xí)甚至令機(jī)器人的識(shí)別能力超過了肉眼。與Softmax分類器級(jí)聯(lián)的深度學(xué)習(xí)模型是對(duì)圖像進(jìn)行特征表達(dá)的一種方式,保留圖像的有用信息,使圖像分類變得更簡(jiǎn)單是模型的主要作用,下面詳細(xì)介紹幾種典型的深度學(xué)習(xí)分類技術(shù)。

2.1 Softmax在淺層神經(jīng)網(wǎng)絡(luò)中的應(yīng)用

淺層神經(jīng)網(wǎng)絡(luò)即構(gòu)造簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)模型,包含輸入層、隱含層和分類層三個(gè)部分。相鄰層的神經(jīng)元間全連接,層內(nèi)的神經(jīng)元互相不連接,采用有監(jiān)督或無監(jiān)督的方法訓(xùn)練以獲得分類結(jié)果。針對(duì)大數(shù)據(jù)圖像分類問題,淺層神經(jīng)網(wǎng)絡(luò)分類識(shí)別技術(shù)的模型結(jié)構(gòu)較簡(jiǎn)單,易理解,但數(shù)據(jù)流大,學(xué)習(xí)速度慢,訓(xùn)練容易陷入局部極小值。

BP神經(jīng)網(wǎng)絡(luò)就是一種典型的淺層神經(jīng)網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)模型是一種多層前饋神經(jīng)網(wǎng)絡(luò),包括信息的前向傳遞和誤差的反向傳播兩個(gè)過程。信息的前向傳遞過程中,輸入信號(hào)經(jīng)過輸入層、隱含層逐層傳遞到輸出層,計(jì)算誤差,與預(yù)測(cè)輸出進(jìn)行比較。若輸出與預(yù)測(cè)不同,進(jìn)入反饋狀態(tài),通過反向傳播調(diào)整權(quán)值和閾值來減小輸出的預(yù)測(cè)誤差,使結(jié)果逐漸逼近預(yù)測(cè)輸出。基于BP神經(jīng)網(wǎng)絡(luò)及Softmax回歸的分類方法的結(jié)構(gòu)模型如圖2所示,ωij是輸入層和隱含層間的權(quán)值,θjk是隱含層和分類層間的參數(shù),通過訓(xùn)練分類器獲得。網(wǎng)絡(luò)模型隱含層的激勵(lì)函數(shù)一般取Sigmod函數(shù),公式如下所示

激勵(lì)函數(shù)是指隱含層的每個(gè)神經(jīng)元的輸入和輸出間函數(shù)關(guān)系,由結(jié)點(diǎn)的輸入和權(quán)值、偏置參數(shù)計(jì)算,值在[0,1]之間,起到?jīng)Q定輸出的作用。

圖2 BP與Softmax級(jí)聯(lián)模型Fig.2 Cascade model of BP and Softmax

淺層神經(jīng)網(wǎng)絡(luò)分類識(shí)別通常采用多層感知器進(jìn)行特征提取,通過BP網(wǎng)絡(luò)算法進(jìn)行訓(xùn)練。汪海波等[18]就提出了一種基于主成份分析的人臉識(shí)別算法,其用到的模型通過 PCA層(感知器)與Softmax層連接,如圖3所示。在該結(jié)構(gòu)中,PCA層得出的特征值和特征向量經(jīng)過計(jì)算主要成分,得出保留特征向量后乘以權(quán)值W并加上截距b(W和b為PCA的訓(xùn)練參數(shù)),再進(jìn)行非線性變換作為SR層的輸入,采用反向傳播的訓(xùn)練方法及先訓(xùn)練Softmax分類器、再訓(xùn)練整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的方式進(jìn)行分類訓(xùn)練,得出訓(xùn)練參數(shù)。除此之外,Lei等[19]提出了一種被稱為稀疏濾波的無監(jiān)督兩層神經(jīng)網(wǎng)絡(luò)模型,與Softmax分類器級(jí)聯(lián)用來解決機(jī)械故障診斷問題。這些算法充分說明了Softmax分類器與其他分類器相比,在圖像分類領(lǐng)域上具有優(yōu)勢(shì),這也是其成為當(dāng)前主流分類器的原因。

圖3 PCA與Softmax級(jí)聯(lián)模型Fig.3 Cascade model of PCA and Softmax

淺層神經(jīng)網(wǎng)絡(luò)因網(wǎng)絡(luò)模型過于簡(jiǎn)單的限制,特征提取效果較差。對(duì)于處理數(shù)據(jù)量小、類別數(shù)量少、環(huán)境單一、圖像特征明顯的圖像,速度和準(zhǔn)確率可滿足實(shí)際需求。然而,其局限性在于在有限樣本和計(jì)算單元情況下對(duì)復(fù)雜函數(shù)的表示能力有限,針對(duì)復(fù)雜分類問題其泛化能力受到一定制約。

2.2 Softmax在深度置信網(wǎng)絡(luò)中的應(yīng)用

深度置信網(wǎng)絡(luò)(DBN)是在2006年由Hinton提出的,開啟了深度學(xué)習(xí)的復(fù)興時(shí)代,其屬于一種生成模型,不僅可以用于特征識(shí)別、數(shù)據(jù)分類,還可以用來生成數(shù)據(jù)。該技術(shù)的訓(xùn)練時(shí)間會(huì)顯著減少,只需要單個(gè)步驟就可以接近最大似然學(xué)習(xí),但該結(jié)構(gòu)也有可能會(huì)陷入局部最優(yōu)。DBN是由受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)堆疊組成的,RBM是一種二分類模型,只有一層可見層和一層隱藏層,是一種典型的基于能量的模型。所有可見層單元和隱藏層單元之間存在連接,而隱藏層內(nèi)部和可見層內(nèi)部不存在連接。經(jīng)RBM堆疊的DBN是一種層次化的無向圖模型,其訓(xùn)練過程主要是將第一個(gè)RBM的可見層作為輸入層,訓(xùn)練一個(gè)RBM并將隱層單元的激活概率(權(quán)值)作為下一層RBM的輸入來訓(xùn)練第二層RBM,第二層激活概率作為第三層RBM的可見層輸入,逐層訓(xùn)練。通過這種逐層貪婪學(xué)習(xí)的無監(jiān)督訓(xùn)練,可得到比較好的特征。

深度置信網(wǎng)絡(luò)雖然在大量多分類問題上很少使用,但解決固定圖像分類問題上還是具有很高的應(yīng)用價(jià)值。楊瑞等[20]在傳統(tǒng)深度置信網(wǎng)絡(luò)基礎(chǔ)上添加了一層Gabor特征融合層,對(duì)輸入圖像進(jìn)行Gabor濾波,在進(jìn)行卷積得到融合后特征再作為深度模型的輸入。深度模型結(jié)構(gòu)如圖4所示,包含1個(gè)輸入層、3個(gè)隱藏層和1個(gè)基于Softmax分類器的輸出層。然后訓(xùn)練第一層RBM,包括該層權(quán)值及類別標(biāo)簽,對(duì)人臉圖像進(jìn)行多尺度表達(dá),第一層RBM的隱層向量由最大似然估計(jì)獲得。作為可見層的輸入,可通過調(diào)整參數(shù)使該層RBM趨于穩(wěn)定,然后遞歸地逐層計(jì)算出每層RBM的隱層向量和權(quán)值以及各類別標(biāo)簽,得到圖像的DBN特征描述。最后將DBN的輸出作為Softmax分類器的輸入,激活分類器,輸出設(shè)定類別標(biāo)簽的概率。

圖4 DBN與Softmax級(jí)聯(lián)模型Fig.4 Cascade model of DBN and Softmax

此外,Liao等[21]提出了一種基于 DBN 和Softmax分類器的圖像二值圖像檢索方法,采用BP算法進(jìn)行權(quán)值調(diào)整,用Softmax分類器進(jìn)行圖像分類,查詢圖像輸入返回為與其相似的圖像。Alam等[22]利用DBN生成權(quán)重初始化深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN),建立DBM?DNN網(wǎng)絡(luò)模型,在頂部添加了Softmax分類層,解決了視聽生物特征識(shí)別問題。同時(shí),該算法論證了Softmax分類器相較于SVM和線性回歸分類器(Linear Regression Classifier,LRC)的錯(cuò)誤率更低,分類效果更好。而Ding等[23]針對(duì)DBN中普遍存在的過擬合問題,建立了基于最大似然估計(jì)的權(quán)重不確定性DBN模型,解決了過擬合問題的同時(shí),又提高了DBN的圖像識(shí)別能力。Rasche等[24]又提出了巴氏涂片圖像深度置信網(wǎng)絡(luò)分類算法,該方法同樣應(yīng)用Softmax分類器對(duì)巴氏涂片圖像分類,完成病灶判別。

DBN具有很高的靈活性,這使得它的拓展比較容易,在圖像分類的應(yīng)用上較廣泛。然而,DBN在大數(shù)據(jù)訓(xùn)練測(cè)試中的錯(cuò)誤率較高,有待進(jìn)一步研究。

2.3 Softmax在基于自編碼器網(wǎng)絡(luò)中的應(yīng)用

自動(dòng)編碼器于20世紀(jì)80年代被提出,是一種盡可能復(fù)現(xiàn)輸入信號(hào)的神經(jīng)網(wǎng)絡(luò)。自動(dòng)編碼器由編碼器和譯碼器組成,如圖5所示。將信息(input)輸入一個(gè)編碼器(encoder),就會(huì)得到一個(gè)代碼(code),若通過解碼器(decoder)輸出的信息和一開始的輸入信號(hào)信息很接近,這個(gè)代碼就屬于完全描述了圖像的。通過調(diào)整編碼器和解碼器的參數(shù),使得重構(gòu)誤差最小,誤差的來源就是直接重構(gòu)后與原輸入相比得到的。自動(dòng)編碼器屬于一種無監(jiān)督特征學(xué)習(xí)單元,可以建立多層編碼器,更優(yōu)化圖像信息特征,使圖像分類的特征更簡(jiǎn)單清晰。之后,Softmax分類器在自動(dòng)編碼器獲得圖像特征后,對(duì)這些信息進(jìn)行不同方法的分類訓(xùn)練以達(dá)到圖像分類的目的。例如,梯度下降法、最速下降法等。

圖5 自編碼器Fig.5 Autoencoder

自編碼器在圖像分類領(lǐng)域的應(yīng)用比2.1節(jié)和2.2節(jié)中的算法結(jié)構(gòu)相對(duì)廣泛一些,Chen等[25]針對(duì)表情識(shí)別提出了一種深度稀疏自編碼器(DSAN)與Softmax級(jí)聯(lián)的模型,該模型結(jié)構(gòu)如圖6所示。其中,hw,b(x)指Softmax分類器進(jìn)行類別預(yù)測(cè)時(shí)對(duì)深度稀疏自編碼器的輸出數(shù)據(jù)通過權(quán)重相乘、偏置相加的計(jì)算獲得預(yù)測(cè)結(jié)果,wij、bj分別指網(wǎng)絡(luò)中的權(quán)重和偏置。深度稀疏自編碼器在自編碼器基礎(chǔ)上添加了稀疏性,抑制網(wǎng)絡(luò)結(jié)構(gòu)隱層中的單元,可提高有用特征的提取能力。同時(shí),該算法可通過優(yōu)化稀疏參數(shù)來獲得隱藏層節(jié)點(diǎn)和隱藏層數(shù)以確定最佳網(wǎng)絡(luò)模型,通過GD方法訓(xùn)練SR的最優(yōu)模型參數(shù),用BP算法對(duì)整個(gè)DSAN進(jìn)行權(quán)重調(diào)整以增強(qiáng)面部情感識(shí)別性能。整個(gè)網(wǎng)絡(luò)自學(xué)習(xí)的特征在調(diào)整后看起來更加復(fù)雜,并且微調(diào)使總體成本函數(shù)收斂更快,克服了局部極值和梯度擴(kuò)散的自編碼器常見問題。DSAN是一種HRI中完成面部情緒識(shí)別的有效方法,已實(shí)現(xiàn)了高興和生氣兩種情緒識(shí)別的人機(jī)交互。

此外,Hassan[26]等于 2017年針對(duì)醫(yī)學(xué)影像圖像提出了一種基于堆疊稀疏自動(dòng)編碼器的分類結(jié)構(gòu)模型。疊加學(xué)習(xí)的未標(biāo)記圖像輸入像素的高級(jí)特征,區(qū)分包含各種局灶性肝臟疾病的圖像。所提出的系統(tǒng)由預(yù)處理階段以及使用水平集方法和模糊C均值聚類算法的肝臟病灶分割組成。最后,softmax層通過選擇每個(gè)類別的最高概率來區(qū)分不同的肝臟疾病。Badem等[27]又針對(duì)自動(dòng)編碼器分類模型提出了新的訓(xùn)練方法:基于混合人工蜂群的訓(xùn)練策略(HABCbTS),用來調(diào)整結(jié)構(gòu)參數(shù)。該策略將無導(dǎo)數(shù)的優(yōu)化算法 “ABC”與基于導(dǎo)數(shù)的算法 “L?BFGS”結(jié)合起來進(jìn)行訓(xùn)練,性能優(yōu)于L?BFGS、ABC和改進(jìn)的ABC訓(xùn)練的分類器。

圖6 DSAN與Softmax級(jí)聯(lián)模型Fig.6 Cascade model of DSAN and Softmax

自編碼器用于圖像分類一般采用堆疊形成深度模型,堆疊自動(dòng)編碼器就是用自編碼器替換DBN里面的RBM,這就使得可以通過與DBN相同的規(guī)則來堆疊產(chǎn)生深度多層神經(jīng)網(wǎng)絡(luò)架構(gòu),只是堆疊自編碼器缺少層的參數(shù)化的嚴(yán)格要求。與DBN不同的是,自動(dòng)編碼器使用了判別模型,這就使得網(wǎng)絡(luò)較難捕捉圖像的特征。不過降噪自動(dòng)編碼器卻能很好的避免這個(gè)問題,并且比傳統(tǒng)的DBN更優(yōu)。自動(dòng)編碼器同DBN一樣,同樣具有較好的開發(fā)空間。

2.4 Softmax在卷積神經(jīng)網(wǎng)絡(luò)中的應(yīng)用

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[28]與其他神經(jīng)網(wǎng)絡(luò)模型最大的區(qū)別是卷積神經(jīng)網(wǎng)絡(luò)在神經(jīng)網(wǎng)絡(luò)的輸入層前面連接了卷積層,這樣卷積層就變成了卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)輸入層。其學(xué)習(xí)過程是有監(jiān)督的,濾波器權(quán)重可以根據(jù)數(shù)據(jù)與任務(wù)不斷進(jìn)行調(diào)整,從而學(xué)習(xí)到更有意義的特征表達(dá)。卷積神經(jīng)網(wǎng)絡(luò)可處理數(shù)據(jù)流大,分類效果極佳,近幾年廣泛應(yīng)用于各個(gè)領(lǐng)域,甚至很多圖像分類競(jìng)賽的冠軍算法均以卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)。

卷積神經(jīng)網(wǎng)絡(luò)的基本網(wǎng)絡(luò)結(jié)構(gòu)可以分為四個(gè)部分:輸入層、卷積層、全連接層和輸出層。卷積層即為特征提取層,包括兩個(gè)部分:第一部分是真正的卷積層,主要作用是提取輸入數(shù)據(jù)特征;第二部分是pooling層,也叫下采樣層,主要目的是在保留有用信息的基礎(chǔ)上減少數(shù)據(jù)處理量,加快訓(xùn)練網(wǎng)絡(luò)的速度。全連接層的神經(jīng)節(jié)點(diǎn)都和前一層的每一個(gè)神經(jīng)節(jié)點(diǎn)連接,層內(nèi)神經(jīng)元節(jié)點(diǎn)之間不連接。輸出層神經(jīng)節(jié)點(diǎn)的數(shù)目是根據(jù)具體應(yīng)用任務(wù)來設(shè)定的,如果是分類任務(wù),卷積神經(jīng)網(wǎng)絡(luò)輸出層通常是一個(gè)分類器。如采用Softmax分類器進(jìn)行輸出分類,其神經(jīng)元節(jié)點(diǎn)數(shù)即為所分類別數(shù)。

李宇等[29]用卷積神經(jīng)網(wǎng)絡(luò)和Softmax級(jí)聯(lián)的模型進(jìn)行了遙感圖像的檢索分類,如圖7所示,級(jí)聯(lián)模型包含了4個(gè)卷積層、3個(gè)池化層和1個(gè)全連接層。在此結(jié)構(gòu)中的激活函數(shù)選用的是RELU函數(shù),采用了最大池化方法,并在網(wǎng)絡(luò)中引入了Dropout層以防止過擬合問題,輸出層采用Softmax分類器對(duì)圖像進(jìn)行分類,以識(shí)別出遙感圖像中的多個(gè)目標(biāo)。

圖7 CNN與Softmax級(jí)聯(lián)模型Fig.7 Cascade model of CNN and Softmax

在此基礎(chǔ)上,Zhao等[30]于2017年提出了基于超像素的多重局部卷積神經(jīng)網(wǎng)絡(luò)(SML?CNN)模型,提取有效的聯(lián)合特征表示,Softmax層將由多個(gè)CNN學(xué)習(xí)的特征分類成不同的類別。Choi[31]提出了一種卷積神經(jīng)網(wǎng)絡(luò)(CNN)輸出優(yōu)化方法來提高圖像分類中低精度類的精度。湯鵬杰等[32]設(shè)計(jì)了一種深度并行交叉CNN模型,該模型有兩條并行CNN提取深度特征,使用Softmax回歸對(duì)圖像進(jìn)行分類識(shí)別。除以上對(duì)卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化,近幾年出現(xiàn)了很多新的卷積神經(jīng)網(wǎng)絡(luò)模型,可實(shí)現(xiàn)大數(shù)據(jù)分類,且分類效果極佳,如VGG、LeNet、GoogleNet及ResNet等。這些網(wǎng)絡(luò)模型分別取得了圖像分類競(jìng)賽近幾年的冠軍,也是目前深度學(xué)習(xí)檢測(cè)算法最常應(yīng)用的網(wǎng)絡(luò)模型,且均采用Softmax作為分類器。

卷積神經(jīng)網(wǎng)絡(luò)在圖像分類上表現(xiàn)驚人,能較好適應(yīng)圖像結(jié)構(gòu),泛化能力強(qiáng),在圖像特征表達(dá)及大數(shù)據(jù)上的分類表現(xiàn)普遍超過了上述所述的三種網(wǎng)絡(luò)模型,是目前學(xué)術(shù)界最常采用的神經(jīng)網(wǎng)絡(luò)模型。該網(wǎng)絡(luò)模型深度及維度不易選擇定,圖像特征提取過程難以解讀,但這并不影響其在圖像分類上的優(yōu)秀表現(xiàn)。

3 深度學(xué)習(xí)圖像分類器展望

圖像分類算法在工程應(yīng)用上主要對(duì)目標(biāo)進(jìn)行特征識(shí)別,是目標(biāo)檢測(cè)、跟蹤、定位等工作的基礎(chǔ)。在應(yīng)用環(huán)境復(fù)雜多變、場(chǎng)景內(nèi)類別數(shù)較多時(shí),基于深度學(xué)習(xí)的圖像分類算法因其解決大數(shù)據(jù)多分類問題上的優(yōu)勢(shì)獲得了廣泛認(rèn)可。在場(chǎng)景固定、環(huán)境單一時(shí),基于色彩、紋理、形狀及空間關(guān)系等圖像特征的傳統(tǒng)分類算法可以處理這類簡(jiǎn)單圖像分類問題,但應(yīng)用深度學(xué)習(xí)效果更優(yōu)。在分類器方面,Softmax回歸分類器在圖像分類領(lǐng)域相比其他分類器表現(xiàn)出更好的性能:應(yīng)用簡(jiǎn)單、準(zhǔn)確率高、適合大樣本、具有多分類功能。

然而,現(xiàn)有算法多局限于針對(duì)特定環(huán)境下的圖像多分類,對(duì)圖像中的目標(biāo)特征要求高,較難實(shí)現(xiàn)對(duì)復(fù)雜環(huán)境下模糊、遠(yuǎn)距離目標(biāo)的識(shí)別。同時(shí),基于深度學(xué)習(xí)的圖像分類算法在實(shí)時(shí)性上也很難保證。另外,Softmax回歸分類器因類別標(biāo)簽每一維僅含有一個(gè)1的限制,導(dǎo)致其無法解決多標(biāo)簽圖像分類問題。多標(biāo)簽分類問題與多分類問題的主要區(qū)別在于:前者是每個(gè)實(shí)例對(duì)應(yīng)多個(gè)標(biāo)簽的分類問題,而后者指代每個(gè)實(shí)例對(duì)應(yīng)單個(gè)標(biāo)簽的分類問題。因此,復(fù)雜條件下的多分類、實(shí)時(shí)性保證及多標(biāo)簽分類仍然是需要繼續(xù)努力的目標(biāo)。據(jù)此,基于深度學(xué)習(xí)Softmax的圖像分類算法的主要發(fā)展趨勢(shì)如下:

(1)Softmax 回歸分類器

Softmax回歸分類器作為實(shí)現(xiàn)分類的關(guān)鍵步驟,起到了極其積極的作用,但仍需要繼續(xù)探索研究。在提高Softmax回歸分類器性能上,可從以下三方面著手:1)改進(jìn)Softmax回歸分類器以提高性能:增加網(wǎng)絡(luò)層以聯(lián)合其他分類函數(shù)進(jìn)行多層參數(shù)調(diào)整,提高精度;采用多個(gè)分類器搭建以解決多標(biāo)簽圖像分類問題。2)提高訓(xùn)練效果:調(diào)整Softmax函數(shù),使其更易收斂;調(diào)整損失函數(shù),增加訓(xùn)練效率;尋找新的訓(xùn)練算法以加快訓(xùn)練速度,同時(shí)在保證分類性能的前提下減少參數(shù)。3)優(yōu)化數(shù)據(jù)集:在對(duì)分類器進(jìn)行訓(xùn)練時(shí),采用的數(shù)據(jù)庫(kù)多為公開的圖像數(shù)據(jù)集,但這些庫(kù)的數(shù)據(jù)采集過程具有人為選擇性,尤其是大部分測(cè)試庫(kù)和訓(xùn)練庫(kù)都比較接近,用此類庫(kù)進(jìn)行訓(xùn)練和測(cè)試不具有代表性,其準(zhǔn)確度會(huì)偏高。所以,對(duì)于圖像分類,未來的數(shù)據(jù)庫(kù)應(yīng)盡量多元化、多清晰度、多來源、多數(shù)量,才能有效提高分類效果。

(2)深度學(xué)習(xí)網(wǎng)絡(luò)模型特征表達(dá)

深度學(xué)習(xí)應(yīng)用于圖像分類上具有強(qiáng)大的學(xué)習(xí)能力,可深度挖掘隱含在圖像中的目標(biāo)信息,卷積神經(jīng)網(wǎng)絡(luò)表現(xiàn)尤其突出,應(yīng)用廣泛。然而,深度學(xué)習(xí)網(wǎng)絡(luò)模型仍存在一些問題,如網(wǎng)絡(luò)模型的深度和維度如何確定、如何保證網(wǎng)絡(luò)模型的泛化能力、如何對(duì)模糊圖像進(jìn)行特征提取、如何通過少量樣本準(zhǔn)確抓取圖像特征等。因此,在模型上不僅要針對(duì)某指定問題找尋最佳網(wǎng)絡(luò)模型,還需提高模型的泛化能力及小樣本特征提取能力,使其不僅簡(jiǎn)單的區(qū)分幾類物品。未來應(yīng)像人眼一樣,對(duì)生活中遇到的所有類物品都具有學(xué)習(xí)識(shí)別以及跟蹤的能力,并不是像目前這樣針對(duì)某幾類圖像進(jìn)行分類,應(yīng)該達(dá)到真正意義上的人工智能。這方面的進(jìn)一步研究將推進(jìn)圖像處理領(lǐng)域的發(fā)展。

(3)高維數(shù)據(jù)分類

隨著圖像分類的領(lǐng)域發(fā)展,目前大數(shù)據(jù)多分類問題已不再是難題。隨著數(shù)據(jù)量的增加、多標(biāo)簽的出現(xiàn),高緯度數(shù)據(jù)的分類成為圖像分類領(lǐng)域又一個(gè)待攻克的課題,簡(jiǎn)單深度網(wǎng)絡(luò)學(xué)習(xí)模型已經(jīng)無法滿足要求。目前的普遍做法是考慮將多個(gè)分類器集成,以適應(yīng)數(shù)據(jù)的維度變化,但集成分類器如何保證分類性能還未可知,亟待研究。此外,可選擇構(gòu)建并行神經(jīng)網(wǎng)絡(luò)或三維神經(jīng)網(wǎng)絡(luò)以解決此類、甚至未來越發(fā)復(fù)雜的圖像處理問題。

4 結(jié)論

圖像分類技術(shù)在計(jì)算機(jī)視覺研究領(lǐng)域中具有十分重要的意義和應(yīng)用價(jià)值,基于深度學(xué)習(xí)的網(wǎng)絡(luò)模型和最后一層的分類器直接影響著圖像分類的結(jié)果。本文面向Softmax分類器在深度學(xué)習(xí)智能識(shí)別算法中的應(yīng)用,回顧了算法發(fā)展歷程,闡述了多種深度學(xué)習(xí)網(wǎng)絡(luò)模型及Softmax分類器在圖像分類上的具體表現(xiàn)。同時(shí),對(duì)深度學(xué)習(xí)及Softmax分類器在圖像分類技術(shù)方面的未來應(yīng)用與發(fā)展及其優(yōu)化方式進(jìn)行了展望。

猜你喜歡
編碼器分類器卷積
融合CNN和Transformer編碼器的變聲語(yǔ)音鑒別與還原
學(xué)貫中西(6):闡述ML分類器的工作流程
設(shè)定多圈絕對(duì)值編碼器當(dāng)前圈數(shù)的方法
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準(zhǔn)圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
一種并行不對(duì)稱空洞卷積模塊①
轉(zhuǎn)爐系統(tǒng)常用編碼器選型及調(diào)試
基于樸素Bayes組合的簡(jiǎn)易集成分類器①
舞臺(tái)機(jī)械技術(shù)與設(shè)備系列談(二)
——編碼器
基于動(dòng)態(tài)分類器集成系統(tǒng)的卷煙感官質(zhì)量預(yù)測(cè)方法
板桥市| 南安市| 博湖县| 文登市| 大余县| 永修县| 布尔津县| 三原县| 大悟县| 玉田县| 博罗县| 格尔木市| 安义县| 澄城县| 扎囊县| 甘谷县| 河曲县| 林西县| 白城市| 阿鲁科尔沁旗| 河池市| 黄平县| 海南省| 金寨县| 峡江县| 肥乡县| 德格县| 厦门市| 库尔勒市| 随州市| 丹东市| 五华县| 壶关县| 长垣县| 彭阳县| 平顺县| 长泰县| 峨眉山市| 马公市| 铜川市| 威远县|