張松蘭
(蕪湖職業(yè)技術(shù)學(xué)院 電氣與自動(dòng)化學(xué)院,安徽 蕪湖 241006)
隨著信息化和人工智能的高速發(fā)展,包含文字、圖像及視頻的大量信息紛至沓來,而在靜態(tài)信息中圖像載體涵蓋的信息量大,如何在眾多的圖像中快速精準(zhǔn)地識(shí)別出目標(biāo)圖像需要運(yùn)用圖像識(shí)別技術(shù)。圖像識(shí)別是根據(jù)圖像本身所體現(xiàn)出的特征,利用計(jì)算機(jī)對(duì)圖像進(jìn)行分析處理,把目標(biāo)圖像區(qū)分出來,從而識(shí)別出目標(biāo)對(duì)象的技術(shù)。傳統(tǒng)的圖像識(shí)別流程有圖像預(yù)處理→特征提取→圖像識(shí)別三個(gè)步驟[1],圖像預(yù)處理部分[2]涉及圖像濾波(中值濾波[3]、均值濾波[4]、高斯濾波[5]等)和歸一化等處理,其作用是減小圖像中的噪聲,方便圖像的后續(xù)處理。圖像識(shí)別的三個(gè)步驟中每個(gè)環(huán)節(jié)都會(huì)影響識(shí)別結(jié)果,但圖像特征提取是圖像識(shí)別的重要環(huán)節(jié),合理選取圖像中最合適、有效的特征是關(guān)鍵因素。常用的傳統(tǒng)特征提取方法有色彩、紋理、形狀、空間關(guān)系等底層視覺特征。
色彩是物體呈現(xiàn)出的一種較為直觀的視覺特征,自然界中每類物體都有其獨(dú)特的顏色分布特點(diǎn),在圖像處理時(shí),各種顏色的像素值互不相同,由于顏色直方圖表示簡(jiǎn)單明了,受圖像的尺寸大小、視覺或旋轉(zhuǎn)角度的影響較小,因此可利用顏色直方圖特性來識(shí)別物體。
紋理特征也是圖像的重要特征之一,它反映了物體表面結(jié)構(gòu)的排列方式及像素在周圍領(lǐng)域的分布規(guī)則,與顏色特征一樣,可應(yīng)用于模式識(shí)別和計(jì)算機(jī)視覺等領(lǐng)域的圖像識(shí)別中。利用紋理所表現(xiàn)的不同屬性,不同學(xué)者采用抽取各異的屬性作紋理的特征。從結(jié)構(gòu)的排列方式出發(fā)著眼于紋理區(qū)域的距離和方向特性,侯群群等[6]提出灰度共生矩陣表示法來區(qū)分圖像。從對(duì)紋理的視覺感知出發(fā),候玉婷[7]提出粒度、對(duì)比度、粗糙度、方向性、均勻性和線型6個(gè)視覺屬性作為紋理特征來識(shí)別圖像。從紋理區(qū)域的分布統(tǒng)計(jì)特點(diǎn)出發(fā),有學(xué)者提出取圖像小波變換后的方差和平均值為紋理特征[8]。唐波等[9]結(jié)合圖像的色彩模型和紋理兩個(gè)特征,針對(duì)輸電線路圖像在色彩模型中設(shè)置顏色閾值分割出背景區(qū)域,再利用數(shù)學(xué)形態(tài)學(xué)和紋理特征得到最小外接水平的目標(biāo)區(qū)域,最后進(jìn)行紋理特征識(shí)別,定位出絕緣子串區(qū)域。
形狀反映了圖像中各物體或圖形所包圍的區(qū)域,突出了輪廓邊界特征,因此圖像識(shí)別可從形狀的輪廓和區(qū)域特征或兩個(gè)特征相結(jié)合采用sobel、Roberts等算子[10]進(jìn)行圖像的邊緣檢測(cè)。如有學(xué)者用線段和圓弧表達(dá)圖像的形狀輪廓,用不同的函數(shù)來定義形狀的邊界信息和區(qū)域信息,計(jì)算每個(gè)區(qū)域的質(zhì)心、周長(zhǎng)或面積值及整個(gè)形狀的位置特征,比較其異同,并對(duì)這些差異采用相應(yīng)的函數(shù)進(jìn)行加權(quán)求和[11]。
圖像中包含了豐富的信息,其內(nèi)部存在不同數(shù)量的子對(duì)象,各對(duì)象均有各自的空間位置,因此可以利用空間位置關(guān)系作為圖像識(shí)別的特征。不同的學(xué)者采用不同的表示形式來表述空間關(guān)系。美國(guó)匹茲堡大學(xué)常采用二維符號(hào)串2D-String表示圖像空間關(guān)系[12-13],但2D-String空間關(guān)系太簡(jiǎn)單,實(shí)際中的空間關(guān)系遠(yuǎn)比二維圖復(fù)雜得多,不能根據(jù)其2D-String重構(gòu)其符號(hào)圖;由于圖像投射在平面圖上,在x或y軸上存在投影區(qū)間,Jungert用圖像的平面投影區(qū)來表示空間關(guān)系[13],實(shí)際圖像中存在多個(gè)物體;隨后,又有人提出圖像分割的方法來表示空間關(guān)系[14],這種表示法適用于圖像中物體數(shù)量較少的情況,但當(dāng)圖像蘊(yùn)含了豐富的信息或子對(duì)象比較多時(shí),需要分割出的子對(duì)象較多,存儲(chǔ)容量大,難以確切地表述出復(fù)雜的圖像關(guān)系;張偉[15]針對(duì)圖像識(shí)別中的特征提取與描述問題,利用鄰接矩陣的特征值分解方法構(gòu)造圖像邊界和空間關(guān)系,與傳統(tǒng)算法相比可有效地減少計(jì)算量。
圖像識(shí)別就是按照所選取的特征來對(duì)目標(biāo)圖像進(jìn)行識(shí)別的一種算法,特征提取的準(zhǔn)確與否會(huì)影響識(shí)別性能優(yōu)劣。常見的傳統(tǒng)識(shí)別器包括K近鄰[16]、支持向量機(jī)[17]等分類器,對(duì)于一些簡(jiǎn)單圖像,這些分類器實(shí)現(xiàn)方法較簡(jiǎn)單效果較好,但對(duì)于復(fù)雜圖像或圖像干擾嚴(yán)重,其識(shí)別精度有待提高。隨著計(jì)算機(jī)技術(shù)的快速發(fā)展和計(jì)算性能的提高,深度學(xué)習(xí)技術(shù)應(yīng)運(yùn)而生,它能夠從大量的圖像數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征,并能將學(xué)習(xí)到的特征與分類器相關(guān)聯(lián),完成圖像的識(shí)別任務(wù)。在深度學(xué)習(xí)技術(shù)中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)已成為眾多學(xué)科領(lǐng)域的研究熱點(diǎn)之一,在圖像處理方面尤為突出[2],由于它對(duì)原始圖像預(yù)處理要求不高,直接輸入原始圖像通過卷積操作提取圖像特征即可完成圖像識(shí)別,因而得到了更為廣泛的應(yīng)用。
神經(jīng)元是生物神經(jīng)系統(tǒng)的生物基礎(chǔ),大量的神經(jīng)元相互連接組成了神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)具有感知和學(xué)習(xí)能力。為了建模需要,將神經(jīng)元的功能數(shù)學(xué)化,建立神經(jīng)元的數(shù)學(xué)模型,在神經(jīng)元上作用非線性激活函數(shù)組成非線性網(wǎng)絡(luò)系統(tǒng),整體上具有模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)的行為特征。在網(wǎng)絡(luò)的訓(xùn)練過程中通過調(diào)整神經(jīng)元節(jié)點(diǎn)之間連接關(guān)系,使之具備學(xué)習(xí)輸入樣本和自適應(yīng)的能力,從而實(shí)現(xiàn)對(duì)外部信息的感知能力,達(dá)到處理信息的目的。
經(jīng)典的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)一般包含輸入層、中間層(或隱藏層)和輸出層,隱藏層可根據(jù)實(shí)際情況設(shè)置多個(gè)。兩層間的節(jié)點(diǎn)以權(quán)重相連,代表兩節(jié)點(diǎn)間的輕重關(guān)系,每個(gè)神經(jīng)元節(jié)點(diǎn)通過一種特定的激勵(lì)函數(shù)映射后輸出。代表性的神經(jīng)網(wǎng)絡(luò)模型有BP網(wǎng)絡(luò)[18]、RBF網(wǎng)絡(luò)[19]、Hopfield網(wǎng)絡(luò)[20]等,運(yùn)用這些網(wǎng)絡(luò)模型可實(shí)現(xiàn)函數(shù)擬合、優(yōu)化處理、模式識(shí)別、目標(biāo)分類等功能,因此,神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用于工業(yè)生產(chǎn)過程、人工智能、機(jī)器人等領(lǐng)域的信息處理中。
卷積神經(jīng)網(wǎng)絡(luò)是網(wǎng)絡(luò)中含有卷積操作并具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)[21],本質(zhì)上是多層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),具有輸入層、中間層(層次較多的隱藏層)和輸出層[22]。網(wǎng)絡(luò)中的神經(jīng)元響應(yīng)一定范圍內(nèi)的領(lǐng)域神經(jīng)元,在圖像處理中表現(xiàn)尤為突出,多層網(wǎng)絡(luò)結(jié)構(gòu)將圖像的底層特征通過卷積操作逐漸組合形成高層特征,由局部信息抽取出高層語義信息,形成一個(gè)多層傳遞、逐步融合的過程,將特征提取與分類識(shí)別連聯(lián)在一起,從而實(shí)現(xiàn)圖像的識(shí)別任務(wù)。
2.2.1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)[23]的中間層可細(xì)化成卷積層、激活層、池化層和全連接層,是在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上發(fā)展起來的,其與普通神經(jīng)網(wǎng)絡(luò)的區(qū)別在于卷積層的卷積操作。輸入的圖像通過卷積層提取圖像的底層特征后,經(jīng)池化層降低圖像的維度,中間的卷積層和池化層可有多次重復(fù)堆疊,逐層傳遞輸入圖像信息,再到全連接層綜合圖像特征最后輸出結(jié)果。
2.2.2 卷積層
在卷積層中,卷積操作由一個(gè)或者多個(gè)卷積核(也稱過濾器)在前層圖像上選擇相應(yīng)的圖像區(qū)域做卷積運(yùn)算,然后按一定的步長(zhǎng)作滑動(dòng)運(yùn)算,依次提取圖像的像素級(jí)特征,圖像特征綜合后經(jīng)過激活函數(shù)激活,完成一次輸入到輸出的特征提取過程,卷積后的特征圖反映了前層圖像的融合特征。實(shí)際的圖像處理任務(wù)中卷積神經(jīng)網(wǎng)絡(luò)可以設(shè)計(jì)多層,逐層抽取前層的圖像信息,刻畫原始圖像的特征,直至傳遞到全連接層,實(shí)現(xiàn)特征提取過程。
2.2.3 激活層
早期的人工神經(jīng)網(wǎng)絡(luò)的非線性關(guān)系是通過神經(jīng)節(jié)點(diǎn)間的激活函數(shù)來實(shí)現(xiàn)的,同樣卷積神經(jīng)網(wǎng)絡(luò)在卷積操作后作用非線性激活函數(shù),實(shí)現(xiàn)對(duì)輸入信息的非線性變換,使網(wǎng)絡(luò)的輸入輸出產(chǎn)生非線性映射關(guān)系,激活層對(duì)卷積后的逐元素作用激活函數(shù),實(shí)現(xiàn)輸入和輸出信息的同維。常用的激活函數(shù)有以下幾種,激活函數(shù)圖形如圖1所示。
(1)sigmoid函數(shù)。常用的sigmoid函數(shù)[13]有兩種,Logistic-Sigmoid函數(shù)和Tanh-Sigmoid函數(shù),表達(dá)式分別如式(1)和式(2)所示。式(1)為回歸S函數(shù),式(2)為雙曲正切S函數(shù),兩個(gè)S函數(shù)均為非線性函數(shù),在零值附近雙曲正切S函數(shù)比回歸S函數(shù)曲線的斜率更大,因而在任務(wù)實(shí)現(xiàn)時(shí)其收斂速度更快。兩個(gè)激活函數(shù)里都含有冪指數(shù),會(huì)增加網(wǎng)絡(luò)的計(jì)算量;由于兩個(gè)激活函數(shù)都呈飽和現(xiàn)象,在反向傳播計(jì)算過程中會(huì)出現(xiàn)梯度消失,降低模型的訓(xùn)練速度,在深度神經(jīng)網(wǎng)絡(luò)中逐漸被淘汰。
(1)
(2)
(2)ReLU函數(shù)。由于S函數(shù)在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練中存在梯度消失或彌散現(xiàn)象,為克服此問題引入了線性校正單元ReLU,在x≥0時(shí)其值為x,它能有效解決S函數(shù)帶來的梯度消失問題,加快模型收斂,減少模型訓(xùn)練時(shí)間[24]。ReLU函數(shù)在時(shí),導(dǎo)數(shù)值為0,在網(wǎng)絡(luò)訓(xùn)練時(shí)會(huì)產(chǎn)生神經(jīng)元的消亡,因此在ReLU函數(shù)的基礎(chǔ)上進(jìn)行了改進(jìn)[24],其函數(shù)形式如式(3),當(dāng)α為0時(shí)即為ReLU激活函數(shù),α為固定參數(shù)時(shí)為L(zhǎng)eaky ReLU函數(shù),當(dāng)α為可調(diào)參數(shù)時(shí)為PReLU函數(shù)。
(3)
(3)ELU函數(shù)。在ReLU 函數(shù)基礎(chǔ)上,為解決 ReLU的問題提出了ELU函數(shù)[24]。在x≥0時(shí)其值為x,為線性函數(shù);而在x<0時(shí)其值為一指數(shù)函數(shù),使輸出對(duì)輸入信號(hào)的變化具有更強(qiáng)的魯棒性,其函數(shù)形式為:
(4)
2.2.4 池化層
池化層又稱下采樣層,對(duì)卷積后的特征圖用選定的步長(zhǎng)依次對(duì)一定大小的圖像區(qū)域進(jìn)行降采樣操作,取出該區(qū)域的典型特征值,特征值的選取通常有三種:最大值、平均值和隨機(jī)值[23]。對(duì)應(yīng)的池化方法分別為最大化池化、平均池化和隨機(jī)池化,隨機(jī)池化方法具有隨機(jī)性,按照概率矩陣依大小隨機(jī)選擇。池化操作將池化區(qū)域內(nèi)的多個(gè)值變?yōu)橐粋€(gè)值,特征圖的寬度和高度均降為原來的幾分之一,減少了卷積層輸出的特征向量,極大地減少了參數(shù)數(shù)量和卷積網(wǎng)絡(luò)中的計(jì)算量,同時(shí)能保證數(shù)據(jù)的平移不變性,經(jīng)池化操作后特征圖的通道數(shù)保持不變。
2.2.5 全連接層
全連接層是一種傳統(tǒng)的多層感知器,出現(xiàn)在網(wǎng)絡(luò)結(jié)構(gòu)的最后,層中每一個(gè)神經(jīng)元與前一層的神經(jīng)元均有連接關(guān)系,將輸入層圖像特征經(jīng)多層特征提取再經(jīng)高度融合后,得到圖像的高層表示,最后經(jīng)回歸分類模型計(jì)算得到相應(yīng)的響應(yīng)值送到輸出層。
對(duì)于有監(jiān)督的學(xué)習(xí)過程,在卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,網(wǎng)絡(luò)會(huì)自動(dòng)學(xué)習(xí)各層網(wǎng)絡(luò)中的參數(shù)值,一次訓(xùn)練過程包含有從輸入層到輸出層的信息提取學(xué)習(xí)過程和從輸出到輸入的誤差反向傳播實(shí)現(xiàn)參數(shù)更新過程。前向傳遞過程主要介紹卷積層的卷積運(yùn)算,誤差反向傳播見傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的BP過程。卷積操作的運(yùn)算式如式(5)所示:
(5)
在圖像識(shí)別中常用的卷積神經(jīng)網(wǎng)絡(luò)模型有LeNet[25]、AleXNet[26]、GoogLeNet[27]、VGGNet[28]、ResNet等模型。
LeNet模型由YAN L C于1998年首先提出[29],奠定了卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ),LeNet網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,由兩個(gè)卷積層、兩個(gè)全連接層和一個(gè)輸出層組成,又稱LeNet-5,基本模型結(jié)構(gòu)為input->conv1->pool1->conv2->pool2->fc1->fc2->output,中間有兩個(gè)卷積池化的堆疊,卷積核的大小均為55。卷積層用于提取圖像的空間特征,激活函數(shù)使用softmax;池化層采用平均池化,進(jìn)行下采樣降低圖像數(shù)據(jù)的維度;全連接層中每個(gè)節(jié)點(diǎn)與其輸入層的各節(jié)點(diǎn)均有連接關(guān)系,匯聚前面多層卷積圖提取的綜合特征信息。該模型早期主要用于手寫字符的識(shí)別與分類。
圖2 LeNet網(wǎng)絡(luò)結(jié)構(gòu)
Hinton和他的學(xué)生Alex提出AlexNet網(wǎng)絡(luò)模型[30],在2012年的ImageNet挑戰(zhàn)賽中獲得冠軍,它是在LeNet基礎(chǔ)上改進(jìn)得到的復(fù)雜網(wǎng)絡(luò),由5個(gè)卷積層、2個(gè)全連接層及1個(gè)輸出層組成的卷積神經(jīng)網(wǎng)絡(luò)。由于ImageNet中大多數(shù)圖像像素多,第一層的卷積塊較大,尺寸大小為11×11,通道數(shù)也較LeNet通道數(shù)多。AlexNet與LeNet的顯者區(qū)別在于:池化操作方面,全部使用最大池化方法,有效避免了平均池化的均化作用;激活函數(shù)方面,使用簡(jiǎn)單的分段線性ReLU函數(shù)作為激活函數(shù),減少了冪函數(shù)運(yùn)算,改善了S形函數(shù)在深度網(wǎng)絡(luò)產(chǎn)生的梯度彌散和消失問題。
Szegedy提出多層串并聯(lián)結(jié)構(gòu)的GoogLeNet網(wǎng)絡(luò)[31],獲得2014年ImageNet大賽的冠軍。GoogLeNet主體卷積部分中使用5個(gè)模塊,每個(gè)模塊間使用大小為3×3,步長(zhǎng)為2的最大池化層來降低輸出維度。在GoogLeNet中基礎(chǔ)卷積塊稱為Inception塊,Inception塊結(jié)構(gòu)如圖3所示,在網(wǎng)絡(luò)結(jié)構(gòu)上已明顯區(qū)別于LeNet。Inception塊由4種卷積方式合并而成,第1種方式為1×1的卷積核卷積;中間2種方式都先經(jīng)1×1的卷積,再分別經(jīng)3×3和5×5的卷積來抽取輸入層的信息;第4種方式則是先經(jīng)3×3最大池化層后,再接1×1卷積層。4種卷積方式都使用適當(dāng)?shù)奶畛浞绞绞馆敵龃笮”3忠恢?最后形成合并層,并輸入到下一層。Inception塊的引入能增強(qiáng)卷積模塊功能,可以在增加網(wǎng)絡(luò)深度和寬度的同時(shí)減少訓(xùn)練參數(shù)。
圖3 Inception塊結(jié)構(gòu)
DeepMind公司和牛津大學(xué)研發(fā)的VGGNet網(wǎng)絡(luò)[30]在2014年lmagenet比賽獲得亞軍。VGG版本常用的有VGG16和VGG19網(wǎng)絡(luò)。這里以VGG16為例,其基本結(jié)構(gòu)與AlexNet和LeNet一樣,但它由多個(gè)卷積層構(gòu)成卷積塊,包括五組卷積塊和3個(gè)全連接層,前2個(gè)卷積塊由兩個(gè)卷積層組成,而后3個(gè)卷積塊使用三個(gè)卷積層,一共有16個(gè)卷積層。五組卷積塊深度依次為64、128、256、512和512,每組卷積塊的深度相同。每個(gè)卷積塊由2~3個(gè)卷積層組成,能使網(wǎng)絡(luò)有更大感受野,同時(shí)能降低網(wǎng)絡(luò)參數(shù)。卷積核的大小為3×3,池化層使用大小為2×2,步長(zhǎng)為2的最大池化。
何愷明等針對(duì)訓(xùn)練誤差并不隨網(wǎng)絡(luò)層數(shù)過多的增加而下降的問題,提出了殘差網(wǎng)絡(luò)ResNet[31],在2015年的ImageNet比賽中摘得冠軍。ResNet的前兩層與GoogLeNet一樣,不同之處在于GoogLeNet網(wǎng)絡(luò)中使用了Inception塊,而ResNet引入了殘差塊結(jié)構(gòu)。殘差塊中有2條通道,一條通道將輸入層經(jīng)2個(gè)3×3卷積后與另一個(gè)輸入層通道直接相加(輸入層經(jīng)兩個(gè)卷積層的輸出與輸入層大小一樣),最后作用ReLU激活函數(shù)。
手寫數(shù)字識(shí)別是CNN在圖像識(shí)別中最早的應(yīng)用之一, LeNet網(wǎng)絡(luò)用在手寫字符的識(shí)別上準(zhǔn)確率可達(dá)到98%,并在實(shí)際系統(tǒng)中投入應(yīng)用。劉瀚駿等[32]用GoogLeNet模型的Inception設(shè)計(jì)卷積網(wǎng)絡(luò)模型,在MNIST數(shù)據(jù)集上驗(yàn)證,準(zhǔn)確率可以達(dá)到99.66%。呂浩等[33]結(jié)合SIP技術(shù)和FPGA技術(shù)采用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了微系統(tǒng)設(shè)計(jì),采用HLS來設(shè)計(jì)CNN中的卷積層和池化層,生成IP核分時(shí)復(fù)用構(gòu)建微系統(tǒng),實(shí)現(xiàn)了MicroVGGNet輕量化模型,在MNIST手寫數(shù)字?jǐn)?shù)據(jù)集識(shí)別準(zhǔn)確率達(dá)到98.1%。
卷積神經(jīng)網(wǎng)絡(luò)在人臉檢測(cè)中的運(yùn)用也是隨處可見,如門禁系統(tǒng)考勤管理系統(tǒng)等眾多場(chǎng)景中均有應(yīng)用。胡佳玲等[34]針對(duì)CNN訓(xùn)練參數(shù)多、計(jì)算量大等突出問題,在人臉識(shí)別算法上提出了輕量級(jí)MobileNet卷積神經(jīng)網(wǎng)絡(luò)模型,將改進(jìn)的MobileNet網(wǎng)絡(luò)和區(qū)域生成網(wǎng)絡(luò)RPN融合,在LFW人臉數(shù)據(jù)庫(kù)和自建的小型數(shù)據(jù)庫(kù)上訓(xùn)練測(cè)試,識(shí)別準(zhǔn)確率達(dá)到97.54%,較之前增加了0.2%,運(yùn)行速度提高了21.3%,模型的參數(shù)減少了88%。張鵬等[35]針對(duì)傳統(tǒng)CNN在臉部表情識(shí)別過程中存在的問題,提出一種基于多尺度特征注意力機(jī)制的人臉表情識(shí)別方法,在Inception基礎(chǔ)上并行加入空洞卷積,用來提取人臉表情的多尺度特征信息,引入通道注意力機(jī)制,提升模型對(duì)重要特征信息的表示能力,通過在公開數(shù)據(jù)集FER2013和CK+上進(jìn)行仿真實(shí)驗(yàn),分別取得了68.8%和96.04%的識(shí)別準(zhǔn)確率。
卷積神經(jīng)網(wǎng)絡(luò)在交通運(yùn)輸方面的圖像識(shí)別中也有廣泛應(yīng)用。李祥鵬等[36]使用深度學(xué)習(xí)Faster R-CNN 算法對(duì)特定自然場(chǎng)景下的車牌完成車牌定位,采用增強(qiáng)的AlexNet-L卷積神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)車牌字符的端對(duì)端識(shí)別,有效地提高車牌定位和車牌字符識(shí)別的準(zhǔn)確度和效率。李訥等[37]結(jié)合卷積神經(jīng)網(wǎng)絡(luò)在道路行駛車輛車標(biāo)識(shí)別中引入殘差網(wǎng)絡(luò)YOLOV4進(jìn)行車標(biāo)的一步定位,檢測(cè)算法的精度和速度有了較大的提高。廖光鍇等[38]將卷積神經(jīng)網(wǎng)絡(luò)和小波變換相結(jié)合對(duì)車輛重識(shí)別方法進(jìn)行了研究,在ResNet-50中增加小波分解層數(shù),整體模型的平均精度達(dá)到了63.90%,能有效提高車輛檢索精度。
卷積神經(jīng)網(wǎng)絡(luò)在醫(yī)學(xué)圖像診斷病理特征分析中也有大量的應(yīng)用。趙科甫等[39]在甲狀腺結(jié)節(jié)超聲檢查上采用U-Net主干網(wǎng)絡(luò)提取不同層的圖像特征并加入了SE注意力機(jī)制算法,實(shí)現(xiàn)了甲狀腺結(jié)節(jié)的圖像分割,并達(dá)到了0.798 7的Dice系數(shù)。黃江珊等[40]則在甲狀腺結(jié)節(jié)B超影像中采用卷積神經(jīng)網(wǎng)絡(luò)融入LSTM網(wǎng)絡(luò),提取高維特征,生成特征序列,將高維度深層次的醫(yī)學(xué)影像轉(zhuǎn)化為影像的文本診斷數(shù)據(jù)。馬巧梅等[41]在肺結(jié)節(jié)檢測(cè)上采用三維卷積神經(jīng)網(wǎng)絡(luò)3DCNN,融合殘差模塊獲取結(jié)節(jié)的空間信息,用于候選結(jié)節(jié)分類,有效地完成分割和檢測(cè)任務(wù)。
水果及農(nóng)作物檢測(cè)機(jī)器視覺方面也有卷積神經(jīng)網(wǎng)絡(luò)的大量應(yīng)用。傅隆生等[42]在多簇獼猴桃果實(shí)識(shí)別上采用LeNet網(wǎng)絡(luò)模型進(jìn)行圖像識(shí)別研究。周勝安等[43]使用MobileNetV3的輕量化卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)水果中小缺陷塊進(jìn)行檢測(cè),實(shí)驗(yàn)結(jié)果表明在訓(xùn)練時(shí)間、檢測(cè)速度和準(zhǔn)確率方面均衡性較好。周宏威等[44]在蘋果樹葉片病蟲害識(shí)別上構(gòu)建VGG16、ResNet50和Inception V3三種神經(jīng)網(wǎng)絡(luò)模型進(jìn)行試驗(yàn),使用遷移學(xué)習(xí)能夠提升模型的收斂速度以及準(zhǔn)確率。
本文首先介紹了傳統(tǒng)圖像識(shí)別技術(shù)及存在的問題,引入了卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法。卷積神經(jīng)網(wǎng)絡(luò)源于人工神經(jīng)網(wǎng)絡(luò),重點(diǎn)說明了中間層的結(jié)構(gòu)和特點(diǎn),然后介紹了經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)模型及相互間的區(qū)別,最后簡(jiǎn)要綜述卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別中的應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)在有監(jiān)督的學(xué)習(xí)中已有廣泛的應(yīng)用,但有監(jiān)督的學(xué)習(xí)需要大量的圖像標(biāo)注,耗費(fèi)工作量大,如何在這此工作上提升效率還有待研究[30]。然而,將無監(jiān)督的強(qiáng)化學(xué)習(xí)應(yīng)用到圖像識(shí)別還在研究中[2]。對(duì)于原始圖像中含有一定噪聲的圖片,進(jìn)一步提高模型的抗噪能力及泛化能力,也是亟待解決的問題。對(duì)于快速性要求較高的任務(wù)及提高圖像識(shí)別的速度(如疫情檢測(cè))場(chǎng)景,需要增加卷積神經(jīng)網(wǎng)絡(luò)的實(shí)時(shí)性能,設(shè)計(jì)出滿足實(shí)時(shí)性高的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò),同時(shí)兼顧模型準(zhǔn)確性能。