楊濤
摘要:傳統(tǒng)圖像分類方法需要對(duì)圖像進(jìn)行手工特征設(shè)計(jì)和提取,而這些特征只是包含了圖像的部分信息,通過對(duì)卷積神經(jīng)網(wǎng)絡(luò)算法進(jìn)行特征進(jìn)行提取,采用不斷的訓(xùn)練大量不同組的卷積核來依次獲得圖像低級(jí)特征和高級(jí)特征。研究結(jié)果表明,傳統(tǒng)的分類算法的平均正確率在50%左右,而卷積神經(jīng)網(wǎng)絡(luò)的分類正確率能夠達(dá)到90%以上,基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類算法提升效果顯著。
關(guān)鍵詞:圖像分類;支持向量機(jī);卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào):TP391.4;TP18 ?文獻(xiàn)標(biāo)志碼:A ?文章編號(hào):1008-4657(2020)02-0027-08
0 引言
圖像分類是計(jì)算機(jī)視覺中基礎(chǔ)的一個(gè)任務(wù),也是幾乎所有的基準(zhǔn)模型進(jìn)行比較的任務(wù)。圖像分類就是使用給定的標(biāo)簽集合,當(dāng)輸入一幅圖像時(shí),在標(biāo)簽集合當(dāng)中尋找一個(gè)合適的類別標(biāo)簽,將分類標(biāo)簽分配給該輸入圖像。圖像在分類之前需要進(jìn)行預(yù)處理,原始圖像包含許多干擾、噪聲等,因此需要對(duì)圖像進(jìn)行裁剪,去噪,增強(qiáng)等操作。經(jīng)過預(yù)處理以后的圖像受到的干擾噪聲減少,有助于提高圖像的分類準(zhǔn)確度。
傳統(tǒng)的機(jī)器學(xué)習(xí)算法當(dāng)中,圖像分類需要提取圖像的特征來對(duì)圖像進(jìn)行描述。當(dāng)以整幅圖像作為分類算法的輸入時(shí),算法計(jì)算的數(shù)據(jù)量龐大,其次圖像包含背景等冗余信息,會(huì)導(dǎo)致分類效率降低,正確率下降。特征提取的主要目的是對(duì)原始圖像進(jìn)行降維,將原圖像映射到一個(gè)低維特征空間,得到最能反映圖像本質(zhì)或進(jìn)行區(qū)分的低維樣本特征。圖像的特征分為四大類:顏色特征,主要包括顏色直方圖、顏色集、顏色矩等不同特征;紋理特征[1],常用的有灰度共生矩陣[2](Gray-Level Co-occurrence Matrix,GLCM)、局部二值模式[3](Local Binary Pattern,LBP)特征、方向梯度直方圖[4](Histogram of Oriented Gradient,HOG)特征等;形狀特征,如霍夫曼變換、傅里葉變換、小波變換等;空間關(guān)系特征,如模型的姿態(tài)估計(jì)方法、學(xué)習(xí)的姿態(tài)估計(jì)方法等。
提取到不同的特征以后,需要將特征作為輸入送入到不同的機(jī)器學(xué)習(xí)算法當(dāng)中。傳統(tǒng)的圖像分類算法有很多,K鄰近分類算(K-Nearest Neighbor,KNN)法是數(shù)據(jù)挖掘分類技術(shù)中最簡(jiǎn)單的方法,也可以用在圖像分類的任務(wù)上,趙玉丹等[5]提出使用模糊KNN做刑偵場(chǎng)景圖像分類。貝葉斯分類器是一種基于條件概率的分類方法,通過給定對(duì)象的先驗(yàn)概率,利用貝葉斯公式求解出其后驗(yàn)概率。在劉曉等[6]提出使用樸素貝葉斯算法對(duì)遙感圖像分類。黃亦其等[7]提出用樸素貝葉斯的算法對(duì)甘蔗種芽進(jìn)行完好性進(jìn)行檢測(cè)。支持向量機(jī)(Support Vector Machine,SVM)是基于統(tǒng)計(jì)學(xué)習(xí)理論當(dāng)中一種二分類模型,因其堅(jiān)實(shí)的理論基礎(chǔ)及諸多良好特性而被廣泛使用。Cortes C等 [8]提出基于梯度直方圖(HOG)結(jié)合SVM的人體識(shí)別算法達(dá)到了很高的精度。BP神經(jīng)網(wǎng)絡(luò)是一種基于誤差反向傳遞的算法,其參照生物神經(jīng)元模型發(fā)展起來。卷積神經(jīng)網(wǎng)絡(luò)近年來使用廣泛的神經(jīng)網(wǎng)絡(luò)模型,在圖像分類方面,各種更加優(yōu)秀的網(wǎng)絡(luò)優(yōu)秀模型被提出,從最初的立昆楊網(wǎng)絡(luò)(Lecun Network,LeNet)、亞里克斯網(wǎng)絡(luò)(Alex Network,Alexnet)、視覺幾何群網(wǎng)絡(luò)[9](Visual Geometry Group Network,VggNet)到谷歌的擴(kuò)散網(wǎng)絡(luò)[10](Inception Network,InceptionNet)、殘差網(wǎng)絡(luò) [11](Residual Network,ResNet),卷積神經(jīng)網(wǎng)絡(luò)做圖像分類的精度不斷提升,甚至超過人類水平。
1 圖像特征提取
圖像的分類識(shí)別主要經(jīng)過圖像預(yù)處理、特征提取、分類器設(shè)計(jì)等步驟。其中特征提取是極為重要的環(huán)節(jié),圖像特征提取是核心問題,特征提取的方式以及結(jié)果將直接影響分類的精度。
1.1 顏色特征
顏色特征是一種全局特征,描述了圖像或者圖像局部區(qū)域所對(duì)應(yīng)的顏色信息。顏色特征中最常使用的顏色空間為RGB(Red Green Blue)顏色空間和HSV(Hue, Saturation,Value)顏色空間。描述顏色特征的方法有很多,主要分為顏色直方圖、顏色集、顏色矩、顏色聚合向量及顏色相關(guān)圖。
1.2 紋理特征
紋理特征描述了圖像中重復(fù)出現(xiàn)的局部模式與他們的排列規(guī)則,反映了圖像或圖像區(qū)域所對(duì)應(yīng)的表面性質(zhì)。紋理特征的優(yōu)勢(shì)在于,無論圖像怎么旋轉(zhuǎn)其紋理特征不會(huì)發(fā)生改變,又較強(qiáng)的抗干擾能力。但是當(dāng)圖像的分辨率發(fā)生變化時(shí)候,紋理特征則可能發(fā)生較大的變化,此外光照,反射也可能會(huì)影響紋理特征?;叶裙采仃嚕℅LCM,Gray-Level Co-occurrence Matrix)通過計(jì)算灰度圖像得到他的共生矩陣,然后通過計(jì)算共生矩陣來得到矩陣部分的特征值,來分別代表圖像的某些紋理特征。常用的基于灰度共生矩陣構(gòu)建的統(tǒng)計(jì)量的紋理特征有:能量,熵,對(duì)比度,相關(guān)性。
1.3 形狀特征
形狀特征采用一種基于圖像輪廓及區(qū)域邊界的特征描述。但由于其數(shù)學(xué)模型還是不夠完善,本文將主要使用顏色及紋理特征作為分類器的輸入。
2 分類算法
在機(jī)器學(xué)習(xí)的分類問題當(dāng)中,主要分為無監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí),監(jiān)督學(xué)習(xí)根據(jù)已有的數(shù)據(jù)集,知道輸入和輸出結(jié)果之間的關(guān)系,根據(jù)這種已知的關(guān)系,訓(xùn)練得到一個(gè)最優(yōu)的模型。即給定樣本的輸入和輸出標(biāo)簽,通過訓(xùn)練,分類算法可以找到輸入特征與輸出標(biāo)簽之間的聯(lián)系,當(dāng)給定一個(gè)未標(biāo)注新樣本時(shí),分類算法可以學(xué)習(xí)到的知識(shí)輸出一個(gè)類別標(biāo)簽。無監(jiān)督學(xué)習(xí)主要是根據(jù)數(shù)據(jù)特征之間的內(nèi)在關(guān)系,結(jié)構(gòu)特征的差異將數(shù)據(jù)分為不同的類別。
2.1 K近鄰算法
簡(jiǎn)稱KNN(K-Nearest Neighbor)是一種非常簡(jiǎn)單的機(jī)器學(xué)習(xí)預(yù)測(cè)、分類算法。當(dāng)給定一個(gè)測(cè)試樣例時(shí),如果離它最近的k個(gè)訓(xùn)練數(shù)據(jù)大多數(shù)屬于同一個(gè)類別,則認(rèn)為該測(cè)試數(shù)據(jù)也屬于這個(gè)類別。如何衡量?jī)蓚€(gè)樣本之間的距離是該算法的關(guān)鍵之處。常用的距離衡量方式主要有歐式距離、曼哈頓距離、余弦距離等等。其中歐式距離使用的最為廣泛。KNN作為一個(gè)實(shí)用的機(jī)器學(xué)習(xí)分類算法,其優(yōu)點(diǎn)在于模型簡(jiǎn)單、通俗易懂、對(duì)于簡(jiǎn)單問題分類準(zhǔn)確率較高、訓(xùn)練時(shí)間復(fù)雜度較低;但缺點(diǎn)也很明顯,該算法計(jì)算量大、占用較大的儲(chǔ)存空間,當(dāng)特征維數(shù)變多時(shí)算法效率低下。
2.2 樸素貝葉斯分類算法(Naive Bayes)
Bayes算法是一類利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類的算法,該算法核心思想基于貝葉斯定理,主要用于預(yù)測(cè)未知類別隸屬于各個(gè)類別的可能性,選擇其中可能性最大的一個(gè)類別作為該樣本的最終類別。在數(shù)據(jù)集較大的情況下能夠獲得較高的準(zhǔn)確率。在使用貝葉斯算法時(shí),為了方便建模計(jì)算,通常假定給定樣本的各個(gè)屬性之間相互條件獨(dú)立,這種假定一定程度上會(huì)降低算法的分類精度,但是在實(shí)際的應(yīng)用場(chǎng)景當(dāng)中,能夠有效降低算法的復(fù)雜性。根據(jù)貝葉斯定理,對(duì)于一個(gè)分類問題,給定具有m個(gè)特征維度的樣本的情況下,且假定各個(gè)特征之間相互獨(dú)立。
全概率公式(1)表征了樸素貝葉斯分類算法的具體計(jì)算方式。樸素貝葉斯分類算法的優(yōu)點(diǎn)是對(duì)于數(shù)據(jù)缺失不敏感,對(duì)待預(yù)測(cè)的樣本,分類過程快速高效;缺點(diǎn)是樸素貝葉斯算法分類時(shí)假設(shè)特征之間相互獨(dú)立,當(dāng)特征之間存在關(guān)聯(lián)性時(shí),會(huì)導(dǎo)致分類效果不好。
2.3 支持向量機(jī)
支持向量機(jī)(Support Vector Machine)是一種監(jiān)督式的學(xué)習(xí)方法,它是一種二分類的線性模型,目的是尋找一個(gè)超平面來對(duì)樣本進(jìn)行分割,分割的原則是正負(fù)樣本之間間隔最大化,最終轉(zhuǎn)化為一個(gè)凸二次規(guī)劃問題來求解。SVM是一種二分類的算法,如何實(shí)現(xiàn)用SVM對(duì)多個(gè)類別的劃分,主要有兩種不同的思路:分別是一對(duì)一方法和一對(duì)多的方法,一對(duì)多的方法是指在訓(xùn)練時(shí)依次把某個(gè)樣本歸為一類,其他剩余的樣本歸為另一類,這樣k個(gè)類別的樣本就構(gòu)建了k個(gè)SVM。一對(duì)一的方法,訓(xùn)練時(shí)對(duì)任意兩類樣本之間設(shè)計(jì)一個(gè)SVM,因此k個(gè)類別的樣本需要設(shè)計(jì)k(k-1)/2個(gè)SVM分類器。當(dāng)對(duì)一個(gè)未知樣本進(jìn)行分類時(shí),采用投票的方式,最后得票最多的類別即為該未知樣本的類別。在本研究中將采用一對(duì)一的方式訓(xùn)練SVM分類器。SVM不需要大量的訓(xùn)練樣本,只需少量樣本就可達(dá)到很好的分類效果。單樣本在低維平面類線性不可分時(shí),通過核函數(shù)映射到高維平面以后,樣本就能夠線性可分。但當(dāng)訓(xùn)練樣本過大時(shí)候,SVM算法的計(jì)算內(nèi)存和時(shí)間消耗巨大,效率變慢。
2.4 BP神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN),是一種模仿生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能的數(shù)學(xué)模型,用于對(duì)函數(shù)進(jìn)行估計(jì)和近似。BP[12](Back Propagation)神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)當(dāng)中的一種,廣泛的用于機(jī)器學(xué)習(xí)領(lǐng)域當(dāng)中。BP[13]神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程由信號(hào)的正向傳播與誤差的方向傳播兩個(gè)過程組成。信號(hào)正向傳播時(shí),輸入樣本從輸入層傳入,經(jīng)過隱藏逐層處理后,信號(hào)流入輸出層。當(dāng)輸出層的實(shí)際輸出與期望輸出不符,則將進(jìn)入輸出與期望之間的誤差反向傳播過程。該過程將輸出誤差的梯度通過隱藏層向輸入層逐層反傳,將誤差分配給各層的所有單元從而獲得各層單元的誤差信號(hào),該誤差信號(hào)將作為修正各個(gè)神經(jīng)元權(quán)值的依據(jù)。BP神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是能夠自適應(yīng)、自主學(xué)習(xí),且具有較強(qiáng)的非線性映射能力,以及較強(qiáng)的泛化能力。但BP神經(jīng)網(wǎng)絡(luò)由于是全連接結(jié)構(gòu),因此網(wǎng)絡(luò)參數(shù)較多,收斂速度較慢。BP神經(jīng)網(wǎng)絡(luò)由于采用梯度下降算法,容易陷入局部最優(yōu)解。
2.5 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(Conventional Neural Network,CNN)是一種前饋神經(jīng)網(wǎng)絡(luò),專門針對(duì)圖像識(shí)別問題設(shè)計(jì)而成,模仿人類識(shí)別圖像的多層過程:眼睛觀察圖像;大腦皮層某些細(xì)胞進(jìn)行初步處理,發(fā)現(xiàn)形狀邊緣、方向;抽象判定形狀;進(jìn)一步判定圖像類別。本文構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖如圖1所示。
其中輸入數(shù)據(jù)為圖像,以數(shù)字矩陣來表示。卷積層中包含大量的卷積濾波器,這些濾波器通過在原圖像中按照一定規(guī)律滑動(dòng),與原圖像對(duì)應(yīng)的區(qū)域做卷積運(yùn)算,每一個(gè)濾波器都可以得到一張?zhí)卣鲌D,每個(gè)卷積濾波器提取的圖像特征都不一樣,濾波器當(dāng)中的參數(shù)通過正態(tài)分布函數(shù)來初始化,通過當(dāng)前網(wǎng)絡(luò)輸出與真實(shí)輸出之間誤差的梯度反向傳遞,逐層更新濾波器當(dāng)中的參數(shù),最終結(jié)果讓網(wǎng)絡(luò)的輸出與真實(shí)輸出之間的誤差越小越好。卷積過程之后,通過一個(gè)激活函數(shù)來限定卷積輸出的范圍,通常采用的激活函數(shù)為Relu,Sigmoid,Tanh等函數(shù)。其中Sigmoid,Tanh激活函數(shù)容易導(dǎo)致神經(jīng)網(wǎng)絡(luò)當(dāng)中梯度消失或者爆炸[14]等問題。由于Relu函數(shù)為線性,非飽和,且其導(dǎo)數(shù)為一,輸出非負(fù),因此簡(jiǎn)化了神經(jīng)網(wǎng)絡(luò)的計(jì)算復(fù)雜度的同時(shí),也不會(huì)造成梯度消失或爆炸問題,能夠使神經(jīng)網(wǎng)絡(luò)快速收斂。
采樣層中數(shù)據(jù)采樣是為了降低數(shù)據(jù)的維度,以2*2個(gè)像素的正方形窗口,步長(zhǎng)為2,依次在特征圖中滑動(dòng),只保留窗口當(dāng)中最大的像素值或者窗口中的平均像素值,經(jīng)過該操作以后特征圖縮小至原來特征圖的面積的四分之一,大大減少了網(wǎng)絡(luò)的計(jì)算量。全連接層的輸出為列向量,可以將卷積神經(jīng)網(wǎng)絡(luò)理解成為一個(gè)編碼器,其中全連接層輸出的是該圖像的編碼向量。oftmax層輸出列向量,其中向量的長(zhǎng)度等于圖像需要分類的類別總數(shù),向量中的每一位都代表了一個(gè)分類類別。其數(shù)值大小代表輸入圖片為該類別的概率大小,該向量所有元素的值和為一。優(yōu)化的過程就是不斷更新卷積網(wǎng)絡(luò)當(dāng)中濾波器的參數(shù)值,使得最終的輸出向量的某個(gè)類別的概率最大,則該類別就是輸入圖像的真實(shí)類別。
卷積神經(jīng)網(wǎng)絡(luò)由于共享卷積核,大大減少了網(wǎng)絡(luò)模型的參數(shù)量,提高了計(jì)算效率。使用多個(gè)卷積核可以提取到圖像各種不同的特征,避免了單一特征對(duì)分類結(jié)果產(chǎn)生不利影響。低層的卷積核提取邊緣,線等語義較低的特征,高層的卷積核提取形狀,物體輪廓等特征。
但是卷積神經(jīng)網(wǎng)絡(luò)對(duì)物體的空間關(guān)系識(shí)別能力不強(qiáng),舉例來說,當(dāng)人臉肖像五官位置發(fā)生互換,而卷積神經(jīng)網(wǎng)絡(luò)判定為人臉的概率依然很高。當(dāng)圖像發(fā)生旋轉(zhuǎn)之后,卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別能力變差。
3 實(shí)驗(yàn)結(jié)果比較與分析
3.1 數(shù)據(jù)集介紹
本次實(shí)驗(yàn)選擇使用SIMPLIcity圖像數(shù)據(jù)集進(jìn)行分類實(shí)驗(yàn),該數(shù)據(jù)集一共包含了10個(gè)類別圖像:非洲土著居民、海灘、建筑、公共汽車、恐龍、大象、花、馬、雪山、菜肴,共包含1000幅圖像,其中每個(gè)類別包含100張圖像。本次實(shí)驗(yàn)將該圖像數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集兩個(gè)部分,其中訓(xùn)練集包含了每個(gè)類別70張圖像,共700張。測(cè)試集中包含了每個(gè)類別剩余的30張圖像,共300張圖像。
3.2 分類圖像特征及方法
在圖像特征方面,我們將選擇圖像顏色矩作為顏色特征,圖像的灰度直方圖和灰度共生矩陣作為紋理統(tǒng)計(jì)特征。特征提取以后進(jìn)行歸一化處理,歸一化的目的是讓分類算法均勻地考慮特征值,同時(shí)能夠消除奇異樣本數(shù)據(jù)帶來的不良影響,提高分類精度,還能夠加速神經(jīng)網(wǎng)絡(luò)收斂。
本實(shí)驗(yàn)將采用KNN,Naive_Bayes、SVM,全連接神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)算法來分別實(shí)現(xiàn)對(duì)圖像進(jìn)行分類。對(duì)各個(gè)算法的參數(shù)選擇如下:
KNN算法:k的取值為5,即選擇前五個(gè)與樣本距離最近的類別中最多的類別作為該樣本的分類類別。Naive_Bayes算法,選擇正態(tài)分布作為概率分布。SVM分類算法,多分類過程采用一對(duì)一的方法。全連接神經(jīng)網(wǎng)絡(luò)算法,將采用32個(gè)神經(jīng)元作為隱藏層,10個(gè)神經(jīng)元作為輸出層。卷積神經(jīng)網(wǎng)絡(luò)算法,使用TensorFlow框架構(gòu)建算法模型,卷積過濾器將使用截?cái)嗾龖B(tài)分布進(jìn)行初始化,包含兩個(gè)卷積層,兩個(gè)池化層,兩個(gè)全連接層,與一個(gè)Softmax層。其中第一個(gè)卷積層使用64個(gè)3*3的卷積核,第二個(gè)卷積層使用16個(gè)3*3的卷積核;第一個(gè)全連接層使用128個(gè)神經(jīng)元,第二個(gè)全連接網(wǎng)絡(luò)使用10個(gè)神經(jīng)元,使用Relu激活函數(shù)。學(xué)習(xí)率大小為0.000 1,每個(gè)批次大小為20,最大運(yùn)行次數(shù)為20 000次,輸入圖像大小為64*64個(gè)像素,采用批量梯度下降[15]的方法。
3.3 分類評(píng)價(jià)指標(biāo)及結(jié)果分析
混淆矩陣(Confuse Matrix)是機(jī)器學(xué)習(xí)中總結(jié)分類模型預(yù)測(cè)結(jié)果的情形分析表,以矩陣形式將數(shù)據(jù)集中的記錄按照真實(shí)的類別與分類模型預(yù)測(cè)的類別判斷兩個(gè)標(biāo)準(zhǔn)進(jìn)行匯總。其中矩陣的行表示真實(shí)值,矩陣的列表示預(yù)測(cè)值?;煜仃嚹軌蚯逦姆从撤诸惼鲗?duì)樣本的分類情況,每個(gè)類別分類結(jié)果的具體值。分類結(jié)果的正確率及結(jié)果比較分別如表1和圖2所示。
比較采用相同的圖像特征不同的分類算法時(shí),當(dāng)用灰度直方圖作為圖像分類特征時(shí),不同分類算法的分類準(zhǔn)確度差別較大,其中SVM與KNN算法的分類準(zhǔn)確率相差了18個(gè)百分點(diǎn)。當(dāng)用顏色矩作為分類特征時(shí),各種算法之間分類準(zhǔn)確率都穩(wěn)定65%左右,準(zhǔn)確率差別只有4個(gè)百分點(diǎn),說明在這個(gè)數(shù)據(jù)集當(dāng)中各種類別之間顏色差距較大,采用顏色矩能夠得到相對(duì)較好的分類效果。當(dāng)用灰度共生矩陣圖像特征分類時(shí),各種分類算法分類準(zhǔn)確度差別明顯。當(dāng)使用相同的分類算法,比較不同的圖像特征時(shí)候,可以看到在同一種分類算法當(dāng)中,提取不同特征作為輸入時(shí),分類的準(zhǔn)確度差別較大。說明不同的圖像特征適用不同的分類算法,圖像特征與分類算法之間存在一定的相關(guān)性。
比較傳統(tǒng)算法與卷積神經(jīng)網(wǎng)絡(luò)的算法,可以看到卷積神經(jīng)網(wǎng)絡(luò)的算法的分類正確率遠(yuǎn)遠(yuǎn)超過傳統(tǒng)算法,這是因?yàn)閭鹘y(tǒng)的圖像分類算法是通過提取圖像的單一特征作為輸入,僅僅只能表述圖像部分信息,無法準(zhǔn)確的描述這幅圖像。而卷積神經(jīng)網(wǎng)絡(luò)的每一個(gè)卷積濾波器都可以看作一個(gè)單獨(dú)的圖像特征提取器,底層的濾波器提取低語義的特征,高層的濾波器提取高層的語義特征。大量有層次結(jié)構(gòu)的濾波器提取的特征能夠較為完整的表達(dá)一幅圖像。分類準(zhǔn)確率得到了顯著的提升。而經(jīng)過精心設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)在分類準(zhǔn)確率上甚至超越人類水平。
各特征算法混淆矩陣如圖3~6所示。
由圖3~6可知,在CNN分類算法的混淆矩陣當(dāng)中,大部分類別的分類效果都很好,只有在建筑這個(gè)類別時(shí),分類器主要誤將建筑分為土著居民的樣本較多,這是因?yàn)樵谕林用耦悇e當(dāng)中大部分樣本中包含了建筑,而在建筑類別當(dāng)中有相當(dāng)?shù)臉颖颈尘爱?dāng)中包含了人類個(gè)體,因此導(dǎo)致了多數(shù)樣本誤分類。
可以看到在所有的混淆矩陣圖當(dāng)中只有恐龍這個(gè)類別的分類正確率最好,基本都在90%以上,這是因?yàn)樵诳铸堖@個(gè)類別當(dāng)中,樣本形式單一簡(jiǎn)單,輪廓明顯,背景基本為白色,背景中不存在對(duì)主體類別當(dāng)中的干擾項(xiàng),因此各種特征及算法對(duì)此類的分類效果最好。
4 結(jié)論
本研究對(duì)傳統(tǒng)圖像分類算法與深度學(xué)習(xí)分類算法做了比較研究。實(shí)驗(yàn)結(jié)果表明,在傳統(tǒng)圖像分類算法當(dāng)中,當(dāng)以相同的圖像特征作為輸入,使用不同的分類算法,得到的分類正確率相差較大。當(dāng)用不同的圖像特征作為輸入時(shí),采用相同的圖像分類算法時(shí),得到的分類正確率差別較小。傳統(tǒng)圖像分類算法中圖像特征的選取對(duì)分類結(jié)果的正確率的影響比分類算法的選擇要大的多。在深度學(xué)習(xí)分類算法中,本文采用了一個(gè)僅有兩個(gè)卷積層的神經(jīng)網(wǎng)絡(luò),其分類準(zhǔn)確率的達(dá)到90%以上,與傳統(tǒng)圖像分類算法相比,圖像分類結(jié)果的準(zhǔn)確率提升了近30%,遠(yuǎn)遠(yuǎn)超過傳統(tǒng)圖像的分類算法。可見,深度學(xué)習(xí)的圖像分類方法的在圖像分類這項(xiàng)任務(wù)中表現(xiàn)卓越。本研究對(duì)基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)圖像分類方法做了初步研究。而最新實(shí)驗(yàn)結(jié)果表明,經(jīng)過精心設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)的圖像分類正確率能夠達(dá)到98%以上,超越人類的識(shí)別水平。目前基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)圖像分類方法能夠達(dá)到很高的識(shí)別準(zhǔn)確率,但是該算法需要大量的訓(xùn)練數(shù)據(jù)集經(jīng)過多次訓(xùn)練,因此接下來的研究重點(diǎn)如何在小規(guī)模的數(shù)據(jù)集上實(shí)現(xiàn)高精度的分類準(zhǔn)確率。
參考文獻(xiàn):
[1] Castellano G,Bonilha L,Li L M,et al.Texture Analysis of Medical Images[J].Clin Radiol,2004,59(12):1 061-1 069.
[2] ?Walker R F,Jackway P T,Longstaff I D.Recent Developments in the Use of the Co-occurrence Matrix for Texture Recognition[C]//International Conference on Digital Signal Rocessing.IEEE Xplore,1997:63-65.
[3] ?Mehta R,Egiazarian K.Dominant Rotated Local Binary Patterns (DRLBP) for Texture Classification[J].Pattern Recognit Lett,2016,71:16-22.
[4] Deniz O,Buneo G,Salido J,et al.Face Recognition Using Histograms of Oriented Gradients[J].Pattern Recognition Letters,2011,32(12):1 598-1 603.
[5] ?趙玉丹,王倩,范九倫,等.基于模糊KNN的刑偵圖像場(chǎng)景分類[J].計(jì)算機(jī)應(yīng)用研究,2014,31(10):3 158-3 160,3 164.
[6] ?劉曉,蔣剛毅,葉錫恩.寧波市土地TM遙感圖像Bayes分類[J].科技通報(bào),2003(2):116-120.
[7] ?黃亦其,尹凱,黃媚章,等.基于Bayes決策的甘蔗種芽完好性檢測(cè)與試驗(yàn)[J].農(nóng)業(yè)工程學(xué)報(bào),2016,32(5):57-63.
[8] ?Cortes C,Vapnik V.Support-vector Networks[J].Mach Learn,1995,20(3):273-297.
[9] ?Karen S,Zisserman A.Very Deep Convolutional Networks for Large-scale Image Recognition[C].May 7-9,San Diego,CA: ICLR,2015.
[10] ?Gomez L.Special Issue on Computer Vision Applying Pattern Recognition Techniques[J].Pattern Recognit,2014,47(1):9-11.
[11] He K M,Zhang X Y,Ren S Q,et al.Deep Residual Learning for Image Recognition [C].Conference on Computer Vision and Pattern Recognition,June 27-30,2016.Las Vegas,USA: IEEE,2016.
[12] ?Lecun Y,Boser B,Denker J S,et al.Backpropagation Applied to Handwritten Zip Code Recognition[J].Neural Comput,1989,1(4):541-551.
[13] Legun Y,Bottou L,Orr G B,et al.Efficient Backpropagation in Neural Networks[J].Neural Network World,2006,16(4):9-50.
[14] Glorot X,Bengio Y.Understanding the Difficulty of Training Deep Feedforward Neural Networks[C].Thirteenth International Conference on Artificial Intelligence and Statistics,May 13-15.Sardinia,Italy: JMLR,2010.
[15] ?王功鵬,段萌,牛常勇.基于卷積神經(jīng)網(wǎng)絡(luò)的隨機(jī)梯度下降算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2018,39(2):441-445,462.
[責(zé)任編輯:許立群]