楊旺功,淮永建*,張福泉
(1.北京林業(yè)大學(xué)信息學(xué)院 北京 海淀區(qū) 100083;2.北京理工大學(xué)計(jì)算機(jī)學(xué)院 北京 海淀區(qū) 100081)
隨著國內(nèi)經(jīng)濟(jì)的快速發(fā)展,社會(huì)消費(fèi)能力和檔次也不斷提升。在我國,葡萄酒逐漸成為了一種高價(jià)值的天然飲品,具有抗氧化功效。我國的葡萄酒釀造產(chǎn)業(yè)已經(jīng)具有較大的經(jīng)濟(jì)產(chǎn)值和社會(huì)效益[1]。如何獲得優(yōu)質(zhì)葡萄酒的相關(guān)因素之一是準(zhǔn)確判定葡萄的收獲時(shí)間[2]。
傳統(tǒng)上,酚類成熟度估算由專家(釀酒師)通過樣品的感官檢查或通過實(shí)驗(yàn)室化學(xué)分析來完成。但是這種方法對(duì)人類專家的經(jīng)驗(yàn)和專業(yè)素養(yǎng)要求較高,導(dǎo)致工作效率較低,且準(zhǔn)確率無法得到保證[3-4]。最近,研究人員提出通過機(jī)器視覺技術(shù)來識(shí)別種子品種和品質(zhì)的方法[5-6]。文獻(xiàn)[7]將計(jì)算機(jī)圖像識(shí)別技術(shù)在小麥種子精選中進(jìn)行了應(yīng)用。文獻(xiàn)[8]提出了基于脈沖耦合神經(jīng)網(wǎng)絡(luò)的粘連玉米種子圖像分割方法,運(yùn)用直方圖均衡化和布特沃斯低通濾波器進(jìn)行頻域增強(qiáng)預(yù)處理,結(jié)合脈沖耦合神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)高精確度的種子圖像分割。傳統(tǒng)圖像目標(biāo)識(shí)別任務(wù)中,目標(biāo)特征的提取是十分重要的過程,其中比較常用的方法為主成分分析(principal component analysis,PCA)和小波分析。文獻(xiàn)[9]提出了一種基于PCA及競爭性神經(jīng)網(wǎng)絡(luò)的番茄種子品種識(shí)別方法,能夠以90.5%的準(zhǔn)確率完成5個(gè)品種的分類識(shí)別。而隨著小波分析理論的發(fā)展,Harr小波、樣條小波、Gabor小波等也得到廣泛應(yīng)用,基于Gabor小波提取特征的方法具有明顯的頻率特性和方向選擇性,能夠捕捉邊緣敏感局部結(jié)構(gòu)信息,并且光照變化和對(duì)比度變化具有較好的魯棒性。文獻(xiàn)[10]提出了基于Gabor小波和交叉協(xié)方差降維的人臉識(shí)別方法。文獻(xiàn)[11]提出了基于Gabor特征與卷積神經(jīng)網(wǎng)絡(luò)的人體輪廓提取方法。從文獻(xiàn)[10-11]的研究結(jié)果可以看出,Gabor小波在圖像特征提取方面具有一定的優(yōu)勢(shì),更有利于提升分類的準(zhǔn)確率。現(xiàn)階段,作為較先進(jìn)的機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)模型在圖像處理領(lǐng)域表現(xiàn)出色,具有強(qiáng)大的特征提取能力。因此,文獻(xiàn)[12]提出了一種結(jié)合小波變換與深度網(wǎng)絡(luò)的圖像超分辨率方法。上述方法中,文獻(xiàn)[9]的基于PCA特征提取的種子識(shí)別分類方法的準(zhǔn)確率仍不夠理想,存在一定的提升空間。文獻(xiàn)[11]的傳統(tǒng)Gabor小波變換方法,在選取的尺度和方向過多時(shí),計(jì)算復(fù)雜度過大。因此,借鑒文獻(xiàn)[12]的研究思路,本文用Gabor小波特征提取替換傳統(tǒng)的小波變換,并結(jié)合深度神經(jīng)網(wǎng)絡(luò),來實(shí)現(xiàn)具體的葡萄種子分類任務(wù)。從文獻(xiàn)[10-11]的研究結(jié)果可以看出,Gabor小波在圖像特征提取方面具有一定的優(yōu)勢(shì),更有利于提升分類的準(zhǔn)確率?,F(xiàn)階段,作為較先進(jìn)的機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)模型在圖像處理領(lǐng)域表現(xiàn)出十分出色的性能,具有強(qiáng)大的特征提取能力。因此,文獻(xiàn)[12]提出了一種結(jié)合小波變換與深度網(wǎng)絡(luò)的圖像超分辨率方法。
葡萄種子圖像的預(yù)處理是識(shí)別過程中必不可缺的操作,種子圖像具有各種問題,如陰影、高光和種子像素與陰影之間的低對(duì)比度。因此,需要消除光照、背景等與種子目標(biāo)識(shí)別無關(guān)的因素,以便為后續(xù)特征提取提供最佳條件,從而提高特征抽取、識(shí)別的可靠性。
首先對(duì)輸入目標(biāo)圖像進(jìn)行尺度歸一化,保證所有樣本大小相同。計(jì)算圖像的協(xié)方差矩陣M為:
式中,μij表示i+j階聯(lián)合中心矩。利用M的特征向量旋轉(zhuǎn)坐標(biāo)系,設(shè)M的特征值為 λ1和 λ2,特征向量的計(jì)算方式為[13]:
那么,e1=[e1x,e1y]T和e2=[e2x,e2y]T分別為 λ1和λ2對(duì)應(yīng)的特征向量,可以得出旋轉(zhuǎn)矩陣[14]為:
設(shè)特征向量彼此正交,即e1xe1y+e2xe2y=0,從而確保M為實(shí)對(duì)稱矩陣,則旋轉(zhuǎn)變換后的圖像坐標(biāo)為:
最終得到一個(gè)與坐標(biāo)無關(guān)的標(biāo)準(zhǔn)化圖像坐標(biāo)為:
對(duì)尺度歸一化的圖像進(jìn)行直方圖均衡化來實(shí)現(xiàn)圖像的灰度歸一化,從而增強(qiáng)圖像之間的對(duì)比度,加大圖像的動(dòng)態(tài)范圍,改善圖像的質(zhì)量。
假設(shè)數(shù)字圖像的像素總和為N,灰度級(jí)總數(shù)為L,nk是在圖像中出現(xiàn)第k級(jí)灰度的次數(shù),圖像中灰度級(jí)為rk的像素出現(xiàn)的概率為[15]:
變換操作可表示為[16]:
式中,s表示被變換圖像的單個(gè)灰度;r表示被變換后圖像的單個(gè)灰度。
在取值區(qū)間內(nèi)EN(r)是單調(diào)增加的,因此均衡化的變換函數(shù)為:
均衡化前后葡萄種的子圖像如圖1所示。
均衡化前后葡萄種子的直方圖如圖2所示。
在直方圖均衡化之后,采用背景差分法[17]將當(dāng)前興趣目標(biāo)與背景圖像分割,設(shè)背景模型為Bx,y:
式中,Ix,y(k)表示第k幀目標(biāo)圖像;n為確定的幀數(shù),分割后目標(biāo)區(qū)域Q為:
式中,fk(x,y)表示第k幀輸入圖像。式中背景表示小于閥值T時(shí)分割后的區(qū)域劃分為背景區(qū)域并設(shè)置為0。一個(gè)葡萄種子的目標(biāo)分割示例如圖3所示,圖3b為分割產(chǎn)生的二值圖像。從圖中可以看出,采用背景差分法可以有效的將直方圖均衡化之后的葡萄種子興趣目標(biāo),從輸入圖片背景中較為完整的分割出來,以便為后續(xù)的Gabor小波特征提取做準(zhǔn)備。
圖像中局部不規(guī)則、宏觀有規(guī)律的特性稱為紋理,Gabor小波特征提取的目標(biāo)就是紋理特性分析。設(shè)圖像的二維頻譜函數(shù)為S(r,θ),r表示頻率,θ表示方向,兩者的一維函數(shù)定義為:
式中,R表示以原點(diǎn)為中心的圓的半徑?,F(xiàn)階段廣泛采用的方法是通過多通道濾波器提取圖像局部的紋理頻譜能量特征信息。
二維Gabor小波是較為典型的圖像多分辨率分析方法,其函數(shù)能夠同時(shí)在空域和頻域中取得最優(yōu)分辨率。二維Gabor小波核函數(shù)的定義為[18]:
式中,ku,v表示濾波器中心頻率;u表示方向因子;σ表示與小波的頻率帶寬有關(guān)的常數(shù);v表示尺度因子;z為給定位置(x,y)的圖形坐標(biāo)??梢钥闯鍪?14)表示參數(shù)u和v變化的函數(shù),σ為Gabor濾波器的帶寬,決定了高斯窗寬與波長之比:
式中,φ為倍頻程表示的半峰帶寬; σ一般設(shè)置為2π。
Gabor小波濾波器可以分為實(shí)部和虛部[19]:
其中實(shí)部為:
虛部為:
幅值為:
濾波器的中心頻率ku,v控制著振蕩部分的波長、方向以及高斯窗口的寬度:
式中,kmax表示Gabor濾波器最大中心頻率,一般取值為 π /2;fv表示頻域內(nèi)該濾波器的空間因子;θu表示Gabor濾波器的方向選擇性。
二維Gabor小波實(shí)質(zhì)是通過選擇不同的kv、θu就會(huì)得到不同的Gabor濾波器,也就是通過尺度伸縮和旋轉(zhuǎn)產(chǎn)生多個(gè)濾波器組。但當(dāng)選取的尺度和方向過多時(shí),會(huì)造成大量的冗余,導(dǎo)致復(fù)雜度急劇增加。因此在采樣區(qū)間 θu∈[0,π]內(nèi),選取了5個(gè)尺度和8個(gè)方向的Gabor濾波器組,可表示為:
二維Gabor濾波器組的實(shí)部和虛部如圖4所示。
參數(shù)kv和 θu的取值為:
Gabor濾波器組中的每一個(gè)Gabor濾波器可以從不同尺度和方向上,反映不同頻率范圍內(nèi)的局部特征。
圖像經(jīng)過Gabor小波變換后,同一尺度不同方向上的8張圖含有較多冗余信息,導(dǎo)致特征維數(shù)成倍數(shù)的增加,產(chǎn)生了十分嚴(yán)重的‘?dāng)?shù)據(jù)災(zāi)難’,在增加計(jì)算復(fù)雜度的同時(shí)也在一定程度上影響了實(shí)際應(yīng)用最終的識(shí)別率。因此,對(duì)同一尺度不同方向的Gabor小波特征幅值進(jìn)行編碼融合,設(shè)圖像的原始Gabor特征表示為 {Gu,v(z)|u=0,1,···,7,v=0,1,···,4},融合編碼后的圖像表示為 {Rv(z)|v=0,1,···,4}。首先求得同一個(gè)尺度8個(gè)方向的Gabor特征幅值的均值為:
然后,利用 av gv為閾值對(duì)每個(gè)Gabor特征幅值進(jìn)行二值化變換,并給每位二進(jìn)制碼s(x)賦予一個(gè)權(quán)值2p,得到表示融合特征的十進(jìn)制編碼值Rv(z)∈[0,255]。
最后,采用類似旋轉(zhuǎn)不變LBP的方法進(jìn)行映射,結(jié)合分塊直方圖統(tǒng)計(jì),在不減少圖像紋理特征信息以便進(jìn)行多尺度分析的前提下,有效地降低了特征維數(shù)。
本文構(gòu)建的深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)主要是由輸入層、卷積層、激活函數(shù)、池化層、全連接層和輸出層組成,如圖5所示。
設(shè)輸入的葡萄種子圖像I(i,j),以每個(gè)像素點(diǎn)(i,j)作為中心,提取大小為Npatch×Npatch的圖像塊,深度卷積神經(jīng)網(wǎng)絡(luò)中可訓(xùn)練的參數(shù)表示為網(wǎng)絡(luò)中的原始輸入為矩陣X,那么網(wǎng)絡(luò)的公式表示為[20]:
式中,k表示該層網(wǎng)絡(luò)所處的層數(shù);表示第k卷積層包含的可訓(xùn)練的權(quán)值矩陣;f表示激勵(lì)函數(shù);pool表示池化函數(shù)表示第k卷積層包含的可訓(xùn)練的偏差。
卷積網(wǎng)絡(luò)的訓(xùn)練采用的是BP算法[21],輸出層L的權(quán)值WL的偏導(dǎo)數(shù)為:
式中,e(y)為類別標(biāo)簽;f′(·)為激勵(lì)函數(shù)的導(dǎo)數(shù)。
輸出層偏置的偏導(dǎo)數(shù):
Gabor小波與深度神經(jīng)網(wǎng)絡(luò)結(jié)合的葡萄種子分類識(shí)別的具體實(shí)驗(yàn)步驟,如圖6所示。
本文采用了一組由專家(釀酒師)挑選出來的5 000個(gè)種子樣本進(jìn)行了實(shí)驗(yàn)測(cè)試,該組種子包括兩個(gè)類別(未成熟和成熟)的樣本。實(shí)驗(yàn)硬件環(huán)境為:Windows 7 操作系統(tǒng),Intel(R) Core(TM) i5 CPU,4 GB RAM,500 G 硬 盤。實(shí)驗(yàn)軟 件 環(huán)境為:MATLAB R2016a。葡萄種子圖像的大小為480×560。輸入圖形塊的大小Npatch×Npatch設(shè)置為5×5,卷積層的節(jié)點(diǎn)的數(shù)目n設(shè)置為10。如圖5所示,網(wǎng)絡(luò)的層數(shù)k為5。
本文提出Gabor特征融合+深度神經(jīng)網(wǎng)絡(luò)的葡萄種子的分類識(shí)別結(jié)果,如圖7所示。圖7a和圖7b為分類為不成熟結(jié)果的兩個(gè)葡萄種子,圖7c和圖7d是分類為成熟結(jié)果的兩個(gè)葡萄種子,可以看出,提出的方法能夠完成自動(dòng)化的葡萄種子成熟度分類任務(wù),驗(yàn)證了其可行性和有效性。
首先對(duì)圖像樣本預(yù)處理過程的可靠性進(jìn)行分析,種子圖像尺度、灰度歸一化和目標(biāo)分割處理前后的實(shí)驗(yàn)結(jié)果如表1所示。從表1可以看出,無歸一化且無目標(biāo)分割預(yù)處理時(shí),種子的識(shí)別率最低,在歸一化后識(shí)別率或者歸一化后的識(shí)別率有所提升,而同時(shí)完成歸一化且分割的識(shí)別率最高,說明采用圖像預(yù)處理技術(shù)是有效的,有利于提升最終的甄別準(zhǔn)確率。
表1 有無圖像預(yù)處理的識(shí)別實(shí)驗(yàn)結(jié)果對(duì)比
針對(duì)網(wǎng)絡(luò)結(jié)構(gòu)中卷積層節(jié)點(diǎn)個(gè)數(shù)和輸入圖像塊大小不同的情況,對(duì)圖像分類的精度結(jié)果進(jìn)行了分析。其中,實(shí)驗(yàn)中所有網(wǎng)絡(luò)的層數(shù)k均為5,深度網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。當(dāng)輸入圖像塊大小Npatch×Npatch=7×7不變,隨著訓(xùn)練次數(shù)的增加,不同卷積層的節(jié)點(diǎn)個(gè)數(shù)n對(duì)應(yīng)的識(shí)別率曲線如圖8所示??梢钥闯?,隨著卷積層中節(jié)點(diǎn)數(shù)目的增加,種子的最終分類精度也不斷提升。但是,當(dāng)卷積層節(jié)點(diǎn)數(shù)目超過20后,種子識(shí)別率不再提升并出現(xiàn)波動(dòng),同時(shí)卷積層節(jié)點(diǎn)數(shù)目的增加會(huì)顯著提高網(wǎng)絡(luò)訓(xùn)練中的計(jì)算復(fù)雜度,因此最佳的卷積層節(jié)點(diǎn)的個(gè)數(shù)n為20。
當(dāng)卷積層節(jié)點(diǎn)的個(gè)數(shù)n=10不變,隨著訓(xùn)練次數(shù)的增加,不同輸入圖像塊大小Npatch對(duì)應(yīng)的識(shí)別率曲線如圖9所示。同樣可以看出,當(dāng)輸入圖像塊大小Npatch×Npatch=9×9時(shí)種子分類識(shí)別率曲線達(dá)到峰值后開始下降,最佳大小為9。這是因?yàn)殡S著輸入圖像塊尺寸的增加,圖像塊中包含的圖像信息越多就越有利于分析更加細(xì)節(jié)的紋理特征,但當(dāng)圖像塊數(shù)量太多時(shí),不完美背景分割導(dǎo)致的陰影和亮度干擾也會(huì)增多,從而混淆特征提取進(jìn)而影響最終的分類判決。此外,綜合分析圖8和圖9可以看出,識(shí)別率隨著網(wǎng)絡(luò)訓(xùn)練次數(shù)的增加而不斷增大,但在網(wǎng)絡(luò)訓(xùn)練次數(shù)達(dá)到120時(shí),分類識(shí)別率不再隨著其增加而明顯提高,因此,綜合以上分析可知,葡萄種子分類識(shí)別測(cè)試建議的卷積層節(jié)點(diǎn)的個(gè)數(shù)n為20,輸入圖像塊大小Npatch×Npatch為9×9,網(wǎng)絡(luò)訓(xùn)練次數(shù)為120。
為進(jìn)一步驗(yàn)證提出Gabor特征融合+深度神經(jīng)網(wǎng)絡(luò)分類算法的性能,將文獻(xiàn)[9]的PCA+競爭性神經(jīng)網(wǎng)絡(luò)、文獻(xiàn)[10]的PCA+交叉協(xié)方差降維、文獻(xiàn)[22]的LBP+SVM、文獻(xiàn)[23]的Gabor+PCA+SVM和文獻(xiàn)[11]的Gabor+卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了對(duì)比,識(shí)別率取10次實(shí)驗(yàn)的平均值,結(jié)果如圖10所示。本文Gabor特征融合+深度神經(jīng)網(wǎng)絡(luò)算法的實(shí)驗(yàn)參數(shù)與4.2節(jié)分析結(jié)果一致,即最佳性能參數(shù)。不同算法性能比較結(jié)果如表2所示。
從表2可以看出,本文Gabor特征融合+深度神經(jīng)網(wǎng)絡(luò)算法明顯降低了特征維數(shù),且具有最高的分類識(shí)別率,達(dá)到83.29%。此外,相比于其他基于Gabor小波特征提取的方法,本文算法還具備較好的時(shí)間性能。
表2 不同算法性能比較
本文提出了一種基于Gabor小波特征提取及深度神經(jīng)網(wǎng)絡(luò)的圖像分類算法,有效解決了實(shí)現(xiàn)高效的、準(zhǔn)確的葡萄種子成熟度分類識(shí)別問題。該方法包括三個(gè)階段:分割、特征提取和分類。首先利用背景差分法進(jìn)行圖像的分割預(yù)處理;然后通過改進(jìn)的Gabor小波特征提??;最后將深度卷積神經(jīng)網(wǎng)絡(luò)和提取到的紋理特征信息相結(jié)合進(jìn)行分類。葡萄種子圖像成熟度分類實(shí)驗(yàn)結(jié)果表明,相比于其他類似分類算法,本文提出的算法具有更高的分類精度,且有效降低了特征維數(shù),減少了Gabor小波特征提取時(shí)間。但是,本文算法仍舊存在模型的訓(xùn)練時(shí)間偏長且Gabor小波特征提取時(shí)間不夠理想的問題,因此后續(xù)將考慮利用GPU來實(shí)現(xiàn)深度學(xué)習(xí)模型訓(xùn)練,并對(duì)Gabor特征編碼做進(jìn)一步改進(jìn)。