劉嫚嫚 代琦
摘? 要: 為了進(jìn)一步提高蔬菜識別的精度,提出了基于Gibbs采樣和殘差卷積神經(jīng)網(wǎng)絡(luò)的蔬菜識別算法,本文將其命名為GiRAlexNet算法。根據(jù)馬爾科夫隨機場與吉布斯隨機場的等價性構(gòu)建圖像概率模型,用Gibbs采樣獲取最優(yōu)樣本點集合,隨機取點切割圖片。通過GoogleNet、ResNet和AlexNet模型實驗顯示,分類準(zhǔn)確率分別提升了9.22%,3.34%和9.19%。大量實驗表明,該GiRAlexNet算法對蔬菜識別的準(zhǔn)確率達(dá)到98.14%。
關(guān)鍵詞: 蔬菜識別; MRF; Gibbs采樣; Alexnet; 殘差結(jié)構(gòu); 切割圖像
中圖分類號:TP181? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ?文章編號:1006-8228(2023)09-43-05
AlexNet vegetable recognition algorithm based on Gibbs sampling and residual connection
Liu Manman, Dai Qi
(College of Computer Science and Technology, Zhejiang Sci-Tech University, Hangzhou, Zhejiang 310000, China)
Abstract: In order to further improve the accuracy of vegetable recognition, a vegetable recognition algorithm based on Gibbs sampling and residual convolution neural network, named GiRAlexNet algorithm, is proposed. The image probability model is constructed according to the equivalence of Markov random field and Gibbs random field. The Gibbs sampling is used to obtain the optimal sample points set, and the random points are taken to cut the image. The experiments of GoogleNet, ResNet and AlexNet models show that the classification accuracy is improved by 9.22%, 3.34% and 9.19%, respectively. Extensive experiments show that this GiRAlexNet algorithm can achieve 98.14% accuracy for vegetable recognition.
Key words: vegetable recognition; MRF; Gibbs sampling; Alexnet; residual structure; cutting image
0 引言
蔬菜自動分類技術(shù)非常適合用于自動化農(nóng)業(yè),通過構(gòu)建一種資源優(yōu)化利用系統(tǒng),把生產(chǎn)力最大化。利用圖像分類識別技術(shù)可以實現(xiàn)蔬菜識別,應(yīng)用價值比較高。本文提出基于Gibbs采樣和殘差網(wǎng)絡(luò)的蔬菜識別算法。通過馬爾科夫和吉布斯隨機場的等效性[1]處理圖像,獲得標(biāo)記結(jié)果,再使用Gibbs采樣方法得到最優(yōu)蔬菜目標(biāo)像素點樣本集合,抽取樣本集合中的像素點作為中心點切割若干圖像,將其作為訓(xùn)練、預(yù)測的數(shù)據(jù)。在圖像預(yù)測中,通過把原始圖像切割成若干圖像,分別識別切割后圖片的所屬類別,通過投票機制預(yù)測其所屬類別。在網(wǎng)絡(luò)模型中,本文在AlexNet卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,使用殘差連接和全連接層將得到的蔬菜特征作為依據(jù)進(jìn)行識別分類。通過多次實驗得出結(jié)論,本文GiRAlexNet算法可以對蔬菜進(jìn)行有效識別,提高了蔬菜識別在應(yīng)用中的準(zhǔn)確率。
1 MRF構(gòu)建問題模型
1.1 相關(guān)的研究
Markov隨機場是由S. Geman和D. Geman提出的[2]。MRF可以用來表達(dá)目標(biāo)像素點與其領(lǐng)域內(nèi)的其他像素點之間的關(guān)系[3]。如果把一幅圖像當(dāng)做一個二維網(wǎng)格的點集合,并且這個集合中的每個點都可以從標(biāo)簽空間中隨機給定一個值,而如果任意一個點上的標(biāo)簽值只和相鄰點上的標(biāo)簽值有關(guān),則該點集上的標(biāo)簽集合就是一個馬爾科夫隨機場。
1.2 MRF對圖像進(jìn)行問題描述
在MRF處理圖像主要問題:一張圖像上面的點集合假定是二維網(wǎng)格,[S={(i,j)|1≤i≤H,1≤j≤W}]其中H是圖像的高度,W為圖像的寬度。其滿足馬爾科夫當(dāng)前像素值只和他的領(lǐng)域的取值有關(guān)系,而與非領(lǐng)域像素的取值無關(guān)的性質(zhì)(通常假定為4領(lǐng)域或者8領(lǐng)域)。然后為圖像中的每一個像素點分配標(biāo)簽,經(jīng)過MRF處理圖像過后,我們就會得到一個標(biāo)記的圖像。本文把圖像的標(biāo)簽分為兩類別,每一個像素點的類別由m表示,表示的就是原始圖s的位置的像素屬于標(biāo)簽0或者1。
1.3 基于Bayesian估計的圖像模型
在MRF處理圖像的方法中是創(chuàng)建在Bayes定理之上的,假設(shè)我們觀察到的圖像設(shè)為Y,需要求“真實”圖像X,那么我們的圖像問題可以轉(zhuǎn)化為求標(biāo)記圖像X的問題,即求最大后驗概率[P(X|Y)]的問題[4]。
[P(X|Y)=Ρ(Y|X)Ρ(X)Ρ(Y)]? ⑴
其中,[P(Y|X)]是觀察值Y的條件概率分布,表示領(lǐng)域系統(tǒng)中的局部效應(yīng)的關(guān)系。[P(X)]是標(biāo)簽的先驗概率,式中[P(X|Y)]是后驗概率,[P(Y)]是我們觀察到的圖像,認(rèn)定為一個定值。因此如果要求最大后驗概率,則定義出先驗概率[P(X)]和似然函數(shù)[P(Y|X)],就可以把上述的圖像標(biāo)記問題轉(zhuǎn)化為如下的最優(yōu)化問題[5]:
[x=arg max,ΡX|ΡY|X]? ⑵
1.4 MRF和Gibbs隨機場的等效性
在MRF中,領(lǐng)域系統(tǒng)和勢能團是重要的概念,如圖1描述的就是二維網(wǎng)格S上的某一個像素格點的一階領(lǐng)域系統(tǒng)和勢能團。
一般來說,圖像中像素點之間的位置關(guān)系是通過領(lǐng)域系統(tǒng)來描述。圖1中深色目標(biāo)像素點[Si,j]有4個一階相鄰灰色像素點,則[Sij]的鄰域集為[Ni,j]有4個像素點。領(lǐng)域系統(tǒng)描述如下:設(shè)N為S上的一組子集[Nij]的集合,則[N={Ni,ji,j∈S,Ni,j?S}]被定義,其中N就是S的領(lǐng)域系統(tǒng)。根據(jù)Hammersley-Clifford定理,隨機場X的概率由一個吉布斯分布對鄰近系統(tǒng)[Nij]給出:
[Ρx=exp-Ux|TZ]? ⑶
其中,T是溫度參數(shù),Z為歸一化常數(shù),[U(x)]是標(biāo)記圖像x的能量函數(shù)。
假設(shè)圖像中的每個像素點都是獨立的,并且我們認(rèn)為每一類像素點里面的所有像素點均符合高斯分布,我們可以根據(jù)每一類的像素點構(gòu)建一個屬于這一類的高斯密度函數(shù)[6]。本文把類別設(shè)置為2,建立了兩個高斯密度函數(shù),那么每一個像素點屬于這兩類的概率可以分別代入這兩個高斯密度函數(shù)中進(jìn)行計算,高斯密度函數(shù)[7]如下:
[Ρy|x=m=12πσ2exp-y-μ22σ2]? ⑷
其中,m為像素點[si,j]在圖像處理中[x]的標(biāo)簽,當(dāng)像素[si,j]在圖像X中標(biāo)記為m的時候,[μ]和[σ2]為圖像Y中[si,j]對應(yīng)的均值和方差,y為像素值。
因此,MRF處理圖像問題的結(jié)果就是給實際圖像一個標(biāo)記,證明它屬于哪一類別。
2 采取最優(yōu)樣本點并分割圖像
2.1 Gibbs采樣獲取最優(yōu)樣本解
Gibbs采樣是利用條件分布進(jìn)行一系列運算最終近似得到聯(lián)合分布的一種采樣方法[8]。在圖像中,假如這個像素點標(biāo)記分類為0,計算周圍分布標(biāo)記信息的概率,就可確定這個像素點的分類標(biāo)記是否正確或須更新。由貝葉斯模塊可知,我們已經(jīng)把問題轉(zhuǎn)化成了求解式⑵的問題,[P(X)]用吉布斯分布表示,通過勢函數(shù)可以求出,滿足式⑷,式⑷中的[P(Y|X)]滿足高斯分布。如圖2所示,假設(shè)一個點的灰度值是100,從高斯分布圖中我們可以看出這個像素點的最優(yōu)可能是在標(biāo)簽1下的分類,以及對應(yīng)標(biāo)簽1下的概率。這樣像素點既有了一類標(biāo)記下的先驗概率和似然概率,相乘即可得到每個點屬于某一類標(biāo)簽的概率,我們選擇概率最大的點作為我們最終的所屬標(biāo)簽。
通過不斷的循環(huán),把采集到的像素點的所屬類別不斷地進(jìn)行更新,直到達(dá)到本文程序循環(huán)設(shè)置的最大值。本文設(shè)置1000為程序結(jié)束的條件。一般來說,我們認(rèn)為這兩部分的每一部分都組成了一個能量,換個說法就是能量函數(shù),可以表示如下:
[W=arg? minU1y,x+U2x]? ⑸
Gibbs采樣算法可以把條件概率作為依據(jù)從圖像Y中選取一個新的樣本值,它加入了隨機的想法抽取樣本,步驟闡述如下:
[算法:Gibbs抽樣算法 ⑴ 對圖像初始化,求出圖像的大小,設(shè)置分類數(shù),最大迭代數(shù),隨機初始化標(biāo)簽,對于不同的標(biāo)記,計算出均值和方差,通過訓(xùn)練的樣本得到似然函數(shù)[P(Y|X)]集合,這樣我們就得到相關(guān)的參數(shù)大小。
⑵ 根據(jù)似然概率[P(Y|X)]最大化的準(zhǔn)則,選取初始的標(biāo)記場,對于每個像素點,我們根據(jù)條件概率取[arg(max(U(x,y)))],完成了初始化的處理[W0]。
⑶ 設(shè)置K為程序結(jié)束的條件,對圖像中的每個像素點S,隨機選取一個像素點s,計算[PXs|Xt=PXs|XtNs],然后從中獲得[X*s]樣本,接受這個[X*s]代替[Xs],并且獲得[Xt+1]對[PXs=(0|1)|XNs]全部計算完畢,并且重復(fù)K次,我們得到的第K次的采樣的樣本接近最真實的聯(lián)合分布。 ]
經(jīng)過K次采樣得出的最優(yōu)樣本點在蔬菜圖片上的Gibbs采樣結(jié)果圖以苦菊為例,如圖3所示。從圖像顯示來看,通過Gibbs算法在圖片上選取樣本點進(jìn)行切割圖片,樣本點基本落在蔬菜的主體區(qū)域,和未使用Gibbs采樣算法的樣本點切割圖片結(jié)果相比,獲取的蔬菜圖片特征更多,降低了因切割背景而增加的誤差率。
2.2 隨機抽樣切割
本文通過馬爾科夫和吉布斯隨機場的等效性來處理圖像,獲得標(biāo)記結(jié)果,再使用Gibbs采樣方法得到最優(yōu)目標(biāo)像素點樣本集合,抽取樣本集合中的像素點作為中心點切割若干圖像,將其作為訓(xùn)練、預(yù)測的數(shù)據(jù)。在一張蔬菜圖像中,隨機取點并按照固定大小進(jìn)行切割,就得到了不同位置特征的蔬菜圖片,切割結(jié)果如圖4所示。圖4(a)是茼蒿切割結(jié)果圖,圖4(b)是胡蘿卜切割結(jié)果圖。在擴大了數(shù)據(jù)集的同時,蔬菜的局部特征也更為顯著,局部特征可以反映蔬菜的某些固定的特征,基于局部特征的變化,圖像的特征有足夠的顯著性,這些特征在訓(xùn)練的時候更高效,強化卷積神經(jīng)網(wǎng)絡(luò)的提取特征。預(yù)測同樣引入隨機切割的思想,在切割圖片的基礎(chǔ)上,充分考慮不同角度特征,基于投票機制設(shè)計多類別識別模型,提高蔬菜識別的準(zhǔn)確率。
3 基于殘差結(jié)構(gòu)的Alexnet卷積神經(jīng)網(wǎng)絡(luò)
通過對現(xiàn)有主要的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行查閱對比分析發(fā)現(xiàn),擁有較多層數(shù)的卷積神經(jīng)網(wǎng)絡(luò)擁有較高的識別能力,但網(wǎng)絡(luò)層數(shù)過深會導(dǎo)致訓(xùn)練和識別耗時較長。通過對AlexNet、GoogleNet、ResNet等幾大經(jīng)典模型綜合分析,考慮應(yīng)用場景的設(shè)備實際。本文選擇AlexNet網(wǎng)絡(luò)模型作為本文蔬菜識別算法的基礎(chǔ)結(jié)構(gòu)。
本文以Alexnet網(wǎng)絡(luò)模型為基礎(chǔ),在Alexnet模型上面添加了殘差學(xué)習(xí)的思想,構(gòu)建了基于殘差連接的卷積神經(jīng)網(wǎng)絡(luò),殘差模塊可以建立直連通道,將輸入信息直接傳遞到輸出端,這在一定程度上避免了蔬菜圖像信息丟失,提高了圖像信息的完整性。同時,在卷積層之后連接BN層,歸一化算法使得本文的網(wǎng)絡(luò)模型的收斂速度加快,最后一層卷積層采用全局池化算法+softmax進(jìn)行分類,全局池化算法可以降低參數(shù)量,同時全局池化部分地保留了輸入圖像的空間結(jié)構(gòu)信息,這加強了測試集圖像和測試集所屬類別的關(guān)聯(lián)。網(wǎng)絡(luò)模型殘差流程如圖5所示。
4 實驗
4.1 數(shù)據(jù)準(zhǔn)備
本文數(shù)據(jù)包括40種蔬菜種類,每種蔬菜類別包含300多張圖像,其中訓(xùn)練數(shù)據(jù)集占90%,測試數(shù)據(jù)集占10%。
4.2 切割圖片實驗分析
為了獲得最佳的分割圖片個數(shù),本文選取五種相似的蔬菜種類為實驗對象。本文采用Gibbs采樣把每張圖片分別切割成5、10、20、40、80、100張圖像,利用AlexNet、GoogleNet和ResNet網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練和預(yù)測實驗。實驗結(jié)果如圖6如示,圖(a)是GibbsAlexNet實驗結(jié)果圖、圖(b)是GibbsGoogleNet實驗結(jié)果圖、圖(c)是ResNetAlexNet實驗結(jié)果圖。
從圖6可知,當(dāng)每張圖片被切割為20張圖片時,識別準(zhǔn)確率較高,同時圖片數(shù)據(jù)量最少,性能最高,因此,本文選取20為最優(yōu)切割點數(shù)來構(gòu)建訓(xùn)練集。
為了分析切割圖像對于蔬菜識別的準(zhǔn)確率的影響,我們構(gòu)建了包含40種蔬菜的訓(xùn)練數(shù)據(jù)集,選取270張圖片作為預(yù)測數(shù)據(jù)。通過實驗可知,20為最佳分割訓(xùn)練數(shù),因此,本文利用Gibbs采樣把訓(xùn)練集切割個數(shù)設(shè)置為20。再利用Gibbs采樣,把預(yù)測集中每張圖片分別切割成5、10、20、40、60、80、100張圖像,結(jié)合AlexNet、GoogleNet和ResNet網(wǎng)絡(luò)模型進(jìn)行實驗,識別準(zhǔn)確率如圖7所示。
由圖7可知,利用Gibbs采樣分割數(shù)量會影響圖像分類的準(zhǔn)確率,基于Gibbs采樣切割的分類模型效率比傳統(tǒng)的高。可見,本文提出的GiRAlexNet算法應(yīng)用于蔬菜識別,通過切割圖片區(qū)域特征識別結(jié)果作為最終的正確率,繞過干擾因素,這在一定程度上給了圖片識別機會糾正錯誤,提高了圖像識別的容錯率。本文算法對AlexNet網(wǎng)絡(luò)模型提升最大,彌補了由AlexNet層數(shù)少而導(dǎo)致準(zhǔn)確率偏低的問題。
4.3 與現(xiàn)有方法比較
本文基于文獻(xiàn)[9]的標(biāo)準(zhǔn)數(shù)據(jù)集,與文獻(xiàn)[9]、文獻(xiàn)[10]、文獻(xiàn)[11]以及本文采用GiRAlexNet算法對蔬菜進(jìn)行分類識別,實驗結(jié)果如表1所示。
由表1可知,本文提出的GiRAlexNet蔬菜識別算法獲得了更高的準(zhǔn)確率。本文算法減少了訓(xùn)練對復(fù)雜網(wǎng)絡(luò)模型的依賴,增加了數(shù)據(jù)處理環(huán)節(jié),利用Gibbs采樣分割蔬菜圖片,放大了局部特征,降低復(fù)雜背景的干擾,支持了一定的容錯率,可以視為一種輕量級且實驗精度較高的模型。本文對AlexNet模型做出改進(jìn),通過層和層之間的直連設(shè)計殘差模塊,避免了蔬菜信息丟失或者損耗,也確保了數(shù)據(jù)的完整性。
5 結(jié)論
本文提出了一種基于Gibbs采樣和殘差A(yù)lexnet卷積神經(jīng)網(wǎng)絡(luò)的蔬菜識別算法,系統(tǒng)實驗表明,基于Gibbs采樣切割算法,使GoogleNet、ResNet和AlexNet模型的準(zhǔn)確率分別提升了9.22%、3.34%和9.19%。本文改進(jìn)AlexNet模型準(zhǔn)確率比現(xiàn)有AlexNet模型提高了10%,高于GoogleNet和ResNet網(wǎng)絡(luò)模型,而其訓(xùn)練和識別明顯低于GoogleNet和ResNet網(wǎng)絡(luò)模型??梢?,本文提出的GiRAlexNet蔬菜識別算法是一種精度高且層數(shù)較低的輕量級模型,可以較好地應(yīng)用于農(nóng)產(chǎn)品流通和銷售環(huán)節(jié)的硬件設(shè)備上,應(yīng)用于農(nóng)產(chǎn)品流通和銷售環(huán)節(jié),提升流通速度,滿足新型營銷模式。未來,將繼續(xù)研究如何把本文的算法移植到硬件設(shè)備上,將其真正的應(yīng)用于農(nóng)產(chǎn)品流通和銷售環(huán)節(jié)中。
參考文獻(xiàn)(References):
[1] 齊千慧.基于馬爾科夫隨機場的聲吶圖像分割[D].北京:北京印刷學(xué)院,2021(9).
[2] 曾強.具有分割健壯性的乳腺超聲圖像分類方法研究[D].黑龍江:哈爾濱工業(yè)大學(xué),2010(6).
[3] 楊玚,謝華成.基于馬爾科夫隨機場與模擬退火算法的圖像分割[J].軟件,2015,36(4):40-43.
[4] 李國友.基于廣義模糊集及主動輪廓線模型的圖像分割方法研究[D].河北:燕山大學(xué),2007(2).
[5] 陳波,賴劍煌.用于圖像分割的活動輪廓模型綜述[J].中國圖象圖形學(xué)報,2007(1):11-20.
[6] 陶啟放.基于Markov隨機場的機器視覺設(shè)計及應(yīng)用[D].四川:電子科技大學(xué),2018(8).
[7] 黃元康,李紅松,余鵬飛,等.基于Markov隨機場理論的眼底圖視盤輪廓的提取研究[J].云南大學(xué)學(xué)報(自然科學(xué)版),2016,38(4):530-535.
[8] S. Geman, and D. Geman, "Stochastic Relaxation, GibbsDistributions, and the Bayesian Restoration of Images", IEEE Trans. on PAMI, Vol.PAMI-6,1984(6):721-741.
[9] Ling,Zhu,Zhenbo.High performance vegetableclassificationfrom images based on AlexNet deep learning model[J]. International Journal of Agricultural,2018,11(4):217-223.
[10] Huo Z L, Wu H T, Hua X, Xu Y Y, Zhang Y X. Applicationof gray level co-occurrence matrix in vegetable species recognition. Journal of China University of Metrology,2015,26(1):105-109.
[11] 劉世健.基于深度學(xué)習(xí)的果蔬圖像分割和特征識別研究[D].甘肅:蘭州理工大學(xué),2021(3).