傳統(tǒng)圖像分類與深度學(xué)習(xí)分類算法比較研究

2020-08-14 10:11楊濤

荊楚理工學(xué)院學(xué)報(bào) 2020年2期

關(guān)鍵詞：圖像分類支持向量機(jī)卷積神經(jīng)網(wǎng)絡(luò)

楊濤

摘要：傳統(tǒng)圖像分類方法需要對(duì)圖像進(jìn)行手工特征設(shè)計(jì)和提取，而這些特征只是包含了圖像的部分信息，通過對(duì)卷積神經(jīng)網(wǎng)絡(luò)算法進(jìn)行特征進(jìn)行提取，采用不斷的訓(xùn)練大量不同組的卷積核來依次獲得圖像低級(jí)特征和高級(jí)特征。研究結(jié)果表明，傳統(tǒng)的分類算法的平均正確率在50%左右，而卷積神經(jīng)網(wǎng)絡(luò)的分類正確率能夠達(dá)到90%以上，基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類算法提升效果顯著。

關(guān)鍵詞：圖像分類;支持向量機(jī);卷積神經(jīng)網(wǎng)絡(luò)

中圖分類號(hào)：TP391.4;TP18 ?文獻(xiàn)標(biāo)志碼：A ?文章編號(hào)：1008-4657（2020）02-0027-08

0 引言

圖像分類是計(jì)算機(jī)視覺中基礎(chǔ)的一個(gè)任務(wù)，也是幾乎所有的基準(zhǔn)模型進(jìn)行比較的任務(wù)。圖像分類就是使用給定的標(biāo)簽集合，當(dāng)輸入一幅圖像時(shí)，在標(biāo)簽集合當(dāng)中尋找一個(gè)合適的類別標(biāo)簽，將分類標(biāo)簽分配給該輸入圖像。圖像在分類之前需要進(jìn)行預(yù)處理，原始圖像包含許多干擾、噪聲等，因此需要對(duì)圖像進(jìn)行裁剪，去噪，增強(qiáng)等操作。經(jīng)過預(yù)處理以后的圖像受到的干擾噪聲減少，有助于提高圖像的分類準(zhǔn)確度。

傳統(tǒng)的機(jī)器學(xué)習(xí)算法當(dāng)中，圖像分類需要提取圖像的特征來對(duì)圖像進(jìn)行描述。當(dāng)以整幅圖像作為分類算法的輸入時(shí)，算法計(jì)算的數(shù)據(jù)量龐大，其次圖像包含背景等冗余信息，會(huì)導(dǎo)致分類效率降低，正確率下降。特征提取的主要目的是對(duì)原始圖像進(jìn)行降維，將原圖像映射到一個(gè)低維特征空間，得到最能反映圖像本質(zhì)或進(jìn)行區(qū)分的低維樣本特征。圖像的特征分為四大類：顏色特征，主要包括顏色直方圖、顏色集、顏色矩等不同特征;紋理特征[1]，常用的有灰度共生矩陣[2]（Gray-Level Co-occurrence Matrix，GLCM）、局部二值模式[3]（Local Binary Pattern，LBP）特征、方向梯度直方圖[4]（Histogram of Oriented Gradient，HOG）特征等;形狀特征，如霍夫曼變換、傅里葉變換、小波變換等;空間關(guān)系特征，如模型的姿態(tài)估計(jì)方法、學(xué)習(xí)的姿態(tài)估計(jì)方法等。

提取到不同的特征以后，需要將特征作為輸入送入到不同的機(jī)器學(xué)習(xí)算法當(dāng)中。傳統(tǒng)的圖像分類算法有很多，K鄰近分類算（K-Nearest Neighbor，KNN）法是數(shù)據(jù)挖掘分類技術(shù)中最簡(jiǎn)單的方法，也可以用在圖像分類的任務(wù)上，趙玉丹等[5]提出使用模糊KNN做刑偵場(chǎng)景圖像分類。貝葉斯分類器是一種基于條件概率的分類方法，通過給定對(duì)象的先驗(yàn)概率，利用貝葉斯公式求解出其后驗(yàn)概率。在劉曉等[6]提出使用樸素貝葉斯算法對(duì)遙感圖像分類。黃亦其等[7]提出用樸素貝葉斯的算法對(duì)甘蔗種芽進(jìn)行完好性進(jìn)行檢測(cè)。支持向量機(jī)（Support Vector Machine，SVM）是基于統(tǒng)計(jì)學(xué)習(xí)理論當(dāng)中一種二分類模型，因其堅(jiān)實(shí)的理論基礎(chǔ)及諸多良好特性而被廣泛使用。Cortes C等 [8]提出基于梯度直方圖（HOG）結(jié)合SVM的人體識(shí)別算法達(dá)到了很高的精度。BP神經(jīng)網(wǎng)絡(luò)是一種基于誤差反向傳遞的算法，其參照生物神經(jīng)元模型發(fā)展起來。卷積神經(jīng)網(wǎng)絡(luò)近年來使用廣泛的神經(jīng)網(wǎng)絡(luò)模型，在圖像分類方面，各種更加優(yōu)秀的網(wǎng)絡(luò)優(yōu)秀模型被提出，從最初的立昆楊網(wǎng)絡(luò)（Lecun Network，LeNet）、亞里克斯網(wǎng)絡(luò)（Alex Network，Alexnet）、視覺幾何群網(wǎng)絡(luò)[9]（Visual Geometry Group Network，VggNet）到谷歌的擴(kuò)散網(wǎng)絡(luò)[10]（Inception Network，InceptionNet）、殘差網(wǎng)絡(luò) [11]（Residual Network，ResNet），卷積神經(jīng)網(wǎng)絡(luò)做圖像分類的精度不斷提升，甚至超過人類水平。

1 圖像特征提取

圖像的分類識(shí)別主要經(jīng)過圖像預(yù)處理、特征提取、分類器設(shè)計(jì)等步驟。其中特征提取是極為重要的環(huán)節(jié)，圖像特征提取是核心問題，特征提取的方式以及結(jié)果將直接影響分類的精度。

1.1 顏色特征

顏色特征是一種全局特征，描述了圖像或者圖像局部區(qū)域所對(duì)應(yīng)的顏色信息。顏色特征中最常使用的顏色空間為RGB（Red Green Blue）顏色空間和HSV（Hue， Saturation，Value）顏色空間。描述顏色特征的方法有很多，主要分為顏色直方圖、顏色集、顏色矩、顏色聚合向量及顏色相關(guān)圖。

1.2 紋理特征

紋理特征描述了圖像中重復(fù)出現(xiàn)的局部模式與他們的排列規(guī)則，反映了圖像或圖像區(qū)域所對(duì)應(yīng)的表面性質(zhì)。紋理特征的優(yōu)勢(shì)在于，無論圖像怎么旋轉(zhuǎn)其紋理特征不會(huì)發(fā)生改變，又較強(qiáng)的抗干擾能力。但是當(dāng)圖像的分辨率發(fā)生變化時(shí)候，紋理特征則可能發(fā)生較大的變化，此外光照，反射也可能會(huì)影響紋理特征?；叶裙采仃嚕℅LCM，Gray-Level Co-occurrence Matrix）通過計(jì)算灰度圖像得到他的共生矩陣，然后通過計(jì)算共生矩陣來得到矩陣部分的特征值，來分別代表圖像的某些紋理特征。常用的基于灰度共生矩陣構(gòu)建的統(tǒng)計(jì)量的紋理特征有：能量，熵，對(duì)比度，相關(guān)性。

1.3 形狀特征

形狀特征采用一種基于圖像輪廓及區(qū)域邊界的特征描述。但由于其數(shù)學(xué)模型還是不夠完善，本文將主要使用顏色及紋理特征作為分類器的輸入。

2 分類算法

在機(jī)器學(xué)習(xí)的分類問題當(dāng)中，主要分為無監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)，監(jiān)督學(xué)習(xí)根據(jù)已有的數(shù)據(jù)集，知道輸入和輸出結(jié)果之間的關(guān)系，根據(jù)這種已知的關(guān)系，訓(xùn)練得到一個(gè)最優(yōu)的模型。即給定樣本的輸入和輸出標(biāo)簽，通過訓(xùn)練，分類算法可以找到輸入特征與輸出標(biāo)簽之間的聯(lián)系，當(dāng)給定一個(gè)未標(biāo)注新樣本時(shí)，分類算法可以學(xué)習(xí)到的知識(shí)輸出一個(gè)類別標(biāo)簽。無監(jiān)督學(xué)習(xí)主要是根據(jù)數(shù)據(jù)特征之間的內(nèi)在關(guān)系，結(jié)構(gòu)特征的差異將數(shù)據(jù)分為不同的類別。

2.1 K近鄰算法

簡(jiǎn)稱KNN（K-Nearest Neighbor）是一種非常簡(jiǎn)單的機(jī)器學(xué)習(xí)預(yù)測(cè)、分類算法。當(dāng)給定一個(gè)測(cè)試樣例時(shí)，如果離它最近的k個(gè)訓(xùn)練數(shù)據(jù)大多數(shù)屬于同一個(gè)類別，則認(rèn)為該測(cè)試數(shù)據(jù)也屬于這個(gè)類別。如何衡量?jī)蓚€(gè)樣本之間的距離是該算法的關(guān)鍵之處。常用的距離衡量方式主要有歐式距離、曼哈頓距離、余弦距離等等。其中歐式距離使用的最為廣泛。KNN作為一個(gè)實(shí)用的機(jī)器學(xué)習(xí)分類算法，其優(yōu)點(diǎn)在于模型簡(jiǎn)單、通俗易懂、對(duì)于簡(jiǎn)單問題分類準(zhǔn)確率較高、訓(xùn)練時(shí)間復(fù)雜度較低;但缺點(diǎn)也很明顯，該算法計(jì)算量大、占用較大的儲(chǔ)存空間，當(dāng)特征維數(shù)變多時(shí)算法效率低下。

2.2 樸素貝葉斯分類算法（Naive Bayes）

Bayes算法是一類利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類的算法，該算法核心思想基于貝葉斯定理，主要用于預(yù)測(cè)未知類別隸屬于各個(gè)類別的可能性，選擇其中可能性最大的一個(gè)類別作為該樣本的最終類別。在數(shù)據(jù)集較大的情況下能夠獲得較高的準(zhǔn)確率。在使用貝葉斯算法時(shí)，為了方便建模計(jì)算，通常假定給定樣本的各個(gè)屬性之間相互條件獨(dú)立，這種假定一定程度上會(huì)降低算法的分類精度，但是在實(shí)際的應(yīng)用場(chǎng)景當(dāng)中，能夠有效降低算法的復(fù)雜性。根據(jù)貝葉斯定理，對(duì)于一個(gè)分類問題，給定具有m個(gè)特征維度的樣本的情況下，且假定各個(gè)特征之間相互獨(dú)立。

全概率公式（1）表征了樸素貝葉斯分類算法的具體計(jì)算方式。樸素貝葉斯分類算法的優(yōu)點(diǎn)是對(duì)于數(shù)據(jù)缺失不敏感，對(duì)待預(yù)測(cè)的樣本，分類過程快速高效;缺點(diǎn)是樸素貝葉斯算法分類時(shí)假設(shè)特征之間相互獨(dú)立，當(dāng)特征之間存在關(guān)聯(lián)性時(shí)，會(huì)導(dǎo)致分類效果不好。

2.3 支持向量機(jī)

支持向量機(jī)（Support Vector Machine）是一種監(jiān)督式的學(xué)習(xí)方法，它是一種二分類的線性模型，目的是尋找一個(gè)超平面來對(duì)樣本進(jìn)行分割，分割的原則是正負(fù)樣本之間間隔最大化，最終轉(zhuǎn)化為一個(gè)凸二次規(guī)劃問題來求解。SVM是一種二分類的算法，如何實(shí)現(xiàn)用SVM對(duì)多個(gè)類別的劃分，主要有兩種不同的思路：分別是一對(duì)一方法和一對(duì)多的方法，一對(duì)多的方法是指在訓(xùn)練時(shí)依次把某個(gè)樣本歸為一類，其他剩余的樣本歸為另一類，這樣k個(gè)類別的樣本就構(gòu)建了k個(gè)SVM。一對(duì)一的方法，訓(xùn)練時(shí)對(duì)任意兩類樣本之間設(shè)計(jì)一個(gè)SVM，因此k個(gè)類別的樣本需要設(shè)計(jì)k（k-1）/2個(gè)SVM分類器。當(dāng)對(duì)一個(gè)未知樣本進(jìn)行分類時(shí)，采用投票的方式，最后得票最多的類別即為該未知樣本的類別。在本研究中將采用一對(duì)一的方式訓(xùn)練SVM分類器。SVM不需要大量的訓(xùn)練樣本，只需少量樣本就可達(dá)到很好的分類效果。單樣本在低維平面類線性不可分時(shí)，通過核函數(shù)映射到高維平面以后，樣本就能夠線性可分。但當(dāng)訓(xùn)練樣本過大時(shí)候，SVM算法的計(jì)算內(nèi)存和時(shí)間消耗巨大，效率變慢。

2.4 BP神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Network，ANN），是一種模仿生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能的數(shù)學(xué)模型，用于對(duì)函數(shù)進(jìn)行估計(jì)和近似。BP[12]（Back Propagation）神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)當(dāng)中的一種，廣泛的用于機(jī)器學(xué)習(xí)領(lǐng)域當(dāng)中。BP[13]神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程由信號(hào)的正向傳播與誤差的方向傳播兩個(gè)過程組成。信號(hào)正向傳播時(shí)，輸入樣本從輸入層傳入，經(jīng)過隱藏逐層處理后，信號(hào)流入輸出層。當(dāng)輸出層的實(shí)際輸出與期望輸出不符，則將進(jìn)入輸出與期望之間的誤差反向傳播過程。該過程將輸出誤差的梯度通過隱藏層向輸入層逐層反傳，將誤差分配給各層的所有單元從而獲得各層單元的誤差信號(hào)，該誤差信號(hào)將作為修正各個(gè)神經(jīng)元權(quán)值的依據(jù)。BP神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是能夠自適應(yīng)、自主學(xué)習(xí)，且具有較強(qiáng)的非線性映射能力，以及較強(qiáng)的泛化能力。但BP神經(jīng)網(wǎng)絡(luò)由于是全連接結(jié)構(gòu)，因此網(wǎng)絡(luò)參數(shù)較多，收斂速度較慢。BP神經(jīng)網(wǎng)絡(luò)由于采用梯度下降算法，容易陷入局部最優(yōu)解。

2.5 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)（Conventional Neural Network，CNN）是一種前饋神經(jīng)網(wǎng)絡(luò)，專門針對(duì)圖像識(shí)別問題設(shè)計(jì)而成，模仿人類識(shí)別圖像的多層過程：眼睛觀察圖像;大腦皮層某些細(xì)胞進(jìn)行初步處理，發(fā)現(xiàn)形狀邊緣、方向;抽象判定形狀;進(jìn)一步判定圖像類別。本文構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖如圖1所示。

其中輸入數(shù)據(jù)為圖像，以數(shù)字矩陣來表示。卷積層中包含大量的卷積濾波器，這些濾波器通過在原圖像中按照一定規(guī)律滑動(dòng)，與原圖像對(duì)應(yīng)的區(qū)域做卷積運(yùn)算，每一個(gè)濾波器都可以得到一張?zhí)卣鲌D，每個(gè)卷積濾波器提取的圖像特征都不一樣，濾波器當(dāng)中的參數(shù)通過正態(tài)分布函數(shù)來初始化，通過當(dāng)前網(wǎng)絡(luò)輸出與真實(shí)輸出之間誤差的梯度反向傳遞，逐層更新濾波器當(dāng)中的參數(shù)，最終結(jié)果讓網(wǎng)絡(luò)的輸出與真實(shí)輸出之間的誤差越小越好。卷積過程之后，通過一個(gè)激活函數(shù)來限定卷積輸出的范圍，通常采用的激活函數(shù)為Relu，Sigmoid，Tanh等函數(shù)。其中Sigmoid，Tanh激活函數(shù)容易導(dǎo)致神經(jīng)網(wǎng)絡(luò)當(dāng)中梯度消失或者爆炸[14]等問題。由于Relu函數(shù)為線性，非飽和，且其導(dǎo)數(shù)為一，輸出非負(fù)，因此簡(jiǎn)化了神經(jīng)網(wǎng)絡(luò)的計(jì)算復(fù)雜度的同時(shí)，也不會(huì)造成梯度消失或爆炸問題，能夠使神經(jīng)網(wǎng)絡(luò)快速收斂。

采樣層中數(shù)據(jù)采樣是為了降低數(shù)據(jù)的維度，以2*2個(gè)像素的正方形窗口，步長(zhǎng)為2，依次在特征圖中滑動(dòng)，只保留窗口當(dāng)中最大的像素值或者窗口中的平均像素值，經(jīng)過該操作以后特征圖縮小至原來特征圖的面積的四分之一，大大減少了網(wǎng)絡(luò)的計(jì)算量。全連接層的輸出為列向量，可以將卷積神經(jīng)網(wǎng)絡(luò)理解成為一個(gè)編碼器，其中全連接層輸出的是該圖像的編碼向量。oftmax層輸出列向量，其中向量的長(zhǎng)度等于圖像需要分類的類別總數(shù)，向量中的每一位都代表了一個(gè)分類類別。其數(shù)值大小代表輸入圖片為該類別的概率大小，該向量所有元素的值和為一。優(yōu)化的過程就是不斷更新卷積網(wǎng)絡(luò)當(dāng)中濾波器的參數(shù)值，使得最終的輸出向量的某個(gè)類別的概率最大，則該類別就是輸入圖像的真實(shí)類別。

卷積神經(jīng)網(wǎng)絡(luò)由于共享卷積核，大大減少了網(wǎng)絡(luò)模型的參數(shù)量，提高了計(jì)算效率。使用多個(gè)卷積核可以提取到圖像各種不同的特征，避免了單一特征對(duì)分類結(jié)果產(chǎn)生不利影響。低層的卷積核提取邊緣，線等語義較低的特征，高層的卷積核提取形狀，物體輪廓等特征。

但是卷積神經(jīng)網(wǎng)絡(luò)對(duì)物體的空間關(guān)系識(shí)別能力不強(qiáng)，舉例來說，當(dāng)人臉肖像五官位置發(fā)生互換，而卷積神經(jīng)網(wǎng)絡(luò)判定為人臉的概率依然很高。當(dāng)圖像發(fā)生旋轉(zhuǎn)之后，卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別能力變差。

3 實(shí)驗(yàn)結(jié)果比較與分析

3.1 數(shù)據(jù)集介紹

本次實(shí)驗(yàn)選擇使用SIMPLIcity圖像數(shù)據(jù)集進(jìn)行分類實(shí)驗(yàn)，該數(shù)據(jù)集一共包含了10個(gè)類別圖像：非洲土著居民、海灘、建筑、公共汽車、恐龍、大象、花、馬、雪山、菜肴，共包含1000幅圖像，其中每個(gè)類別包含100張圖像。本次實(shí)驗(yàn)將該圖像數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集兩個(gè)部分，其中訓(xùn)練集包含了每個(gè)類別70張圖像，共700張。測(cè)試集中包含了每個(gè)類別剩余的30張圖像，共300張圖像。

3.2 分類圖像特征及方法

在圖像特征方面，我們將選擇圖像顏色矩作為顏色特征，圖像的灰度直方圖和灰度共生矩陣作為紋理統(tǒng)計(jì)特征。特征提取以后進(jìn)行歸一化處理，歸一化的目的是讓分類算法均勻地考慮特征值，同時(shí)能夠消除奇異樣本數(shù)據(jù)帶來的不良影響，提高分類精度，還能夠加速神經(jīng)網(wǎng)絡(luò)收斂。

本實(shí)驗(yàn)將采用KNN，Naive_Bayes、SVM，全連接神經(jīng)網(wǎng)絡(luò)，卷積神經(jīng)網(wǎng)絡(luò)算法來分別實(shí)現(xiàn)對(duì)圖像進(jìn)行分類。對(duì)各個(gè)算法的參數(shù)選擇如下：

KNN算法：k的取值為5，即選擇前五個(gè)與樣本距離最近的類別中最多的類別作為該樣本的分類類別。Naive_Bayes算法，選擇正態(tài)分布作為概率分布。SVM分類算法，多分類過程采用一對(duì)一的方法。全連接神經(jīng)網(wǎng)絡(luò)算法，將采用32個(gè)神經(jīng)元作為隱藏層，10個(gè)神經(jīng)元作為輸出層。卷積神經(jīng)網(wǎng)絡(luò)算法，使用TensorFlow框架構(gòu)建算法模型，卷積過濾器將使用截?cái)嗾龖B(tài)分布進(jìn)行初始化，包含兩個(gè)卷積層，兩個(gè)池化層，兩個(gè)全連接層，與一個(gè)Softmax層。其中第一個(gè)卷積層使用64個(gè)3*3的卷積核，第二個(gè)卷積層使用16個(gè)3*3的卷積核;第一個(gè)全連接層使用128個(gè)神經(jīng)元，第二個(gè)全連接網(wǎng)絡(luò)使用10個(gè)神經(jīng)元，使用Relu激活函數(shù)。學(xué)習(xí)率大小為0.000 1，每個(gè)批次大小為20，最大運(yùn)行次數(shù)為20 000次，輸入圖像大小為64*64個(gè)像素，采用批量梯度下降[15]的方法。

3.3 分類評(píng)價(jià)指標(biāo)及結(jié)果分析

混淆矩陣（Confuse Matrix）是機(jī)器學(xué)習(xí)中總結(jié)分類模型預(yù)測(cè)結(jié)果的情形分析表，以矩陣形式將數(shù)據(jù)集中的記錄按照真實(shí)的類別與分類模型預(yù)測(cè)的類別判斷兩個(gè)標(biāo)準(zhǔn)進(jìn)行匯總。其中矩陣的行表示真實(shí)值，矩陣的列表示預(yù)測(cè)值?；煜仃嚹軌蚯逦姆从撤诸惼鲗?duì)樣本的分類情況，每個(gè)類別分類結(jié)果的具體值。分類結(jié)果的正確率及結(jié)果比較分別如表1和圖2所示。

比較采用相同的圖像特征不同的分類算法時(shí)，當(dāng)用灰度直方圖作為圖像分類特征時(shí)，不同分類算法的分類準(zhǔn)確度差別較大，其中SVM與KNN算法的分類準(zhǔn)確率相差了18個(gè)百分點(diǎn)。當(dāng)用顏色矩作為分類特征時(shí)，各種算法之間分類準(zhǔn)確率都穩(wěn)定65%左右，準(zhǔn)確率差別只有4個(gè)百分點(diǎn)，說明在這個(gè)數(shù)據(jù)集當(dāng)中各種類別之間顏色差距較大，采用顏色矩能夠得到相對(duì)較好的分類效果。當(dāng)用灰度共生矩陣圖像特征分類時(shí)，各種分類算法分類準(zhǔn)確度差別明顯。當(dāng)使用相同的分類算法，比較不同的圖像特征時(shí)候，可以看到在同一種分類算法當(dāng)中，提取不同特征作為輸入時(shí)，分類的準(zhǔn)確度差別較大。說明不同的圖像特征適用不同的分類算法，圖像特征與分類算法之間存在一定的相關(guān)性。

比較傳統(tǒng)算法與卷積神經(jīng)網(wǎng)絡(luò)的算法，可以看到卷積神經(jīng)網(wǎng)絡(luò)的算法的分類正確率遠(yuǎn)遠(yuǎn)超過傳統(tǒng)算法，這是因?yàn)閭鹘y(tǒng)的圖像分類算法是通過提取圖像的單一特征作為輸入，僅僅只能表述圖像部分信息，無法準(zhǔn)確的描述這幅圖像。而卷積神經(jīng)網(wǎng)絡(luò)的每一個(gè)卷積濾波器都可以看作一個(gè)單獨(dú)的圖像特征提取器，底層的濾波器提取低語義的特征，高層的濾波器提取高層的語義特征。大量有層次結(jié)構(gòu)的濾波器提取的特征能夠較為完整的表達(dá)一幅圖像。分類準(zhǔn)確率得到了顯著的提升。而經(jīng)過精心設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)在分類準(zhǔn)確率上甚至超越人類水平。

各特征算法混淆矩陣如圖3～6所示。

由圖3～6可知，在CNN分類算法的混淆矩陣當(dāng)中，大部分類別的分類效果都很好，只有在建筑這個(gè)類別時(shí)，分類器主要誤將建筑分為土著居民的樣本較多，這是因?yàn)樵谕林用耦悇e當(dāng)中大部分樣本中包含了建筑，而在建筑類別當(dāng)中有相當(dāng)?shù)臉颖颈尘爱?dāng)中包含了人類個(gè)體，因此導(dǎo)致了多數(shù)樣本誤分類。

可以看到在所有的混淆矩陣圖當(dāng)中只有恐龍這個(gè)類別的分類正確率最好，基本都在90%以上，這是因?yàn)樵诳铸堖@個(gè)類別當(dāng)中，樣本形式單一簡(jiǎn)單，輪廓明顯，背景基本為白色，背景中不存在對(duì)主體類別當(dāng)中的干擾項(xiàng)，因此各種特征及算法對(duì)此類的分類效果最好。

4 結(jié)論

本研究對(duì)傳統(tǒng)圖像分類算法與深度學(xué)習(xí)分類算法做了比較研究。實(shí)驗(yàn)結(jié)果表明，在傳統(tǒng)圖像分類算法當(dāng)中，當(dāng)以相同的圖像特征作為輸入，使用不同的分類算法，得到的分類正確率相差較大。當(dāng)用不同的圖像特征作為輸入時(shí)，采用相同的圖像分類算法時(shí)，得到的分類正確率差別較小。傳統(tǒng)圖像分類算法中圖像特征的選取對(duì)分類結(jié)果的正確率的影響比分類算法的選擇要大的多。在深度學(xué)習(xí)分類算法中，本文采用了一個(gè)僅有兩個(gè)卷積層的神經(jīng)網(wǎng)絡(luò)，其分類準(zhǔn)確率的達(dá)到90%以上，與傳統(tǒng)圖像分類算法相比，圖像分類結(jié)果的準(zhǔn)確率提升了近30%，遠(yuǎn)遠(yuǎn)超過傳統(tǒng)圖像的分類算法。可見，深度學(xué)習(xí)的圖像分類方法的在圖像分類這項(xiàng)任務(wù)中表現(xiàn)卓越。本研究對(duì)基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)圖像分類方法做了初步研究。而最新實(shí)驗(yàn)結(jié)果表明，經(jīng)過精心設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)的圖像分類正確率能夠達(dá)到98%以上，超越人類的識(shí)別水平。目前基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)圖像分類方法能夠達(dá)到很高的識(shí)別準(zhǔn)確率，但是該算法需要大量的訓(xùn)練數(shù)據(jù)集經(jīng)過多次訓(xùn)練，因此接下來的研究重點(diǎn)如何在小規(guī)模的數(shù)據(jù)集上實(shí)現(xiàn)高精度的分類準(zhǔn)確率。

參考文獻(xiàn)：

[1] Castellano G，Bonilha L，Li L M，et al.Texture Analysis of Medical Images[J].Clin Radiol，2004，59（12）：1 061-1 069.

[2] ?Walker R F，Jackway P T，Longstaff I D.Recent Developments in the Use of the Co-occurrence Matrix for Texture Recognition[C]//International Conference on Digital Signal Rocessing.IEEE Xplore，1997：63-65.

[3] ?Mehta R，Egiazarian K.Dominant Rotated Local Binary Patterns （DRLBP） for Texture Classification[J].Pattern Recognit Lett，2016，71：16-22.

[4] Deniz O，Buneo G，Salido J，et al.Face Recognition Using Histograms of Oriented Gradients[J].Pattern Recognition Letters，2011，32（12）：1 598-1 603.

[5] ?趙玉丹，王倩，范九倫，等.基于模糊KNN的刑偵圖像場(chǎng)景分類[J].計(jì)算機(jī)應(yīng)用研究，2014，31（10）：3 158-3 160，3 164.

[6] ?劉曉，蔣剛毅，葉錫恩.寧波市土地TM遙感圖像Bayes分類[J].科技通報(bào)，2003（2）：116-120.

[7] ?黃亦其，尹凱，黃媚章，等.基于Bayes決策的甘蔗種芽完好性檢測(cè)與試驗(yàn)[J].農(nóng)業(yè)工程學(xué)報(bào)，2016，32（5）：57-63.

[8] ?Cortes C，Vapnik V.Support-vector Networks[J].Mach Learn，1995，20（3）：273-297.

[9] ?Karen S，Zisserman A.Very Deep Convolutional Networks for Large-scale Image Recognition[C].May 7-9，San Diego，CA： ICLR，2015.

[10] ?Gomez L.Special Issue on Computer Vision Applying Pattern Recognition Techniques[J].Pattern Recognit，2014，47（1）：9-11.

[11] He K M，Zhang X Y，Ren S Q，et al.Deep Residual Learning for Image Recognition [C].Conference on Computer Vision and Pattern Recognition，June 27-30，2016.Las Vegas，USA： IEEE，2016.

[12] ?Lecun Y，Boser B，Denker J S，et al.Backpropagation Applied to Handwritten Zip Code Recognition[J].Neural Comput，1989，1（4）：541-551.

[13] Legun Y，Bottou L，Orr G B，et al.Efficient Backpropagation in Neural Networks[J].Neural Network World，2006，16（4）：9-50.

[14] Glorot X，Bengio Y.Understanding the Difficulty of Training Deep Feedforward Neural Networks[C].Thirteenth International Conference on Artificial Intelligence and Statistics，May 13-15.Sardinia，Italy： JMLR，2010.

[15] ?王功鵬，段萌，牛常勇.基于卷積神經(jīng)網(wǎng)絡(luò)的隨機(jī)梯度下降算法[J].計(jì)算機(jī)工程與設(shè)計(jì)，2018，39（2）：441-445，462.

[責(zé)任編輯：許立群]

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

傳統(tǒng)圖像分類與深度學(xué)習(xí)分類算法比較研究