張富貴 葉 磊 李德倫 吳雪梅
(1.貴州大學(xué)機(jī)械工程學(xué)院 貴陽 550025)(2.貴州省煙草科學(xué)研究院 貴陽 550025)
烤煙是貴州省農(nóng)村地區(qū)一項重要的經(jīng)濟(jì)作物,煙葉的等級評定是煙草行業(yè)的一項基礎(chǔ)性生產(chǎn)環(huán)節(jié)。長期以來,傳統(tǒng)的煙葉分級形式都是依靠煙葉分級人員及手摸、眼看、鼻聞的方式來進(jìn)行,然后通過分級人員的感官評價對煙葉等級(比如葉片結(jié)構(gòu)、身份、油分等)進(jìn)行分類。由于在收購環(huán)節(jié)全部采用人工分級,存在分級效率低、受分級人員主觀性影響較大等問題,常常會出現(xiàn)物不符級情況,給煙草分級行業(yè)帶來了不良影響[1~3]。
隨著對機(jī)器視覺技術(shù)研究的不斷深入,利用機(jī)器視覺技術(shù)創(chuàng)建煙葉分級系統(tǒng)的研究成果豐富,其原理是在數(shù)字圖像的基礎(chǔ)上通過圖像處理手段提取用于表征煙葉屬性的特征,利用大量的樣本與特征結(jié)合多種分類器進(jìn)行學(xué)習(xí)訓(xùn)練,對煙葉等級進(jìn)行評判,以獲得較好的分級效果[4~5]。那么對于煙葉特征的選擇將直接影響分類系統(tǒng)的性能,大量冗余的特征會增加分類模型的復(fù)雜度。因此選擇有效特征的研究,對于煙葉分級系統(tǒng)具有重要意義。
本文針對煙葉分級模型的特征優(yōu)選問題,提出了一種利用隨機(jī)森林算法(RF)結(jié)合支持向量機(jī)(SVM)的方法,對煙葉特征按對分類模型的貢獻(xiàn)度排序,篩選出對分類模型準(zhǔn)確率影響較大的特征建立最優(yōu)特征子集,并利用PSO對SVM的C、g參數(shù)尋優(yōu),建立RF-PSO-SVM 分類模型,對篩選的特征子集進(jìn)行學(xué)習(xí)訓(xùn)練,實(shí)現(xiàn)更好的煙葉等級分類效果。
本文利用課題組提供的貴州省安順市平壩煙區(qū)烤煙樣本圖像,煙葉品種均為云煙87 型烤煙。所需樣本均由貴州省貴陽市煙草科學(xué)研究院專家定級,并在自制的黑色背景采集箱中,通過型號為MV-VD078SM/SC 的面陣CCD 工業(yè)相機(jī),在白色光源,光照為90lux,色溫為5000K-8000K的條件下采集煙葉等級為C2F、C3F、C4F、C2L、C3L 與C4L 的正反面圖像共215*2=430 張。每個等級煙葉樣本數(shù)量見表1。
表1 煙葉等級與數(shù)量
在煙葉圖像采集過程中,受外界光的影響,使得圖像亮暗區(qū)域不一致,導(dǎo)致重要的細(xì)節(jié)信息被覆蓋,嚴(yán)重影響煙葉特征參數(shù)提取。傳統(tǒng)的直方圖均衡在改善圖像對比度時都采用同一直方圖變換,這種方法對于有明顯亮暗差異的圖像不能起到很好的增強(qiáng)效果。因此本文采用自適應(yīng)的直方圖(AHE)均衡[6]來改善圖像的對比度,通過計算每一個顯著性區(qū)域的直方圖來增強(qiáng)圖像的邊緣信息,有利于后期的圖像背景分割以及特征提取。AHE 算法的缺點(diǎn)是當(dāng)鄰域過大時會過度增強(qiáng)均勻區(qū)域的噪音。由圖1 可知當(dāng)鄰域尺寸size=6 時,既能起到好的增強(qiáng)效果,且沒有引起均勻區(qū)域噪音的增強(qiáng)。
圖1 不同鄰域下均衡化圖像對比
CCD相機(jī)采集的圖像帶有大量的顏色信息,直接處理彩色圖像對硬件系統(tǒng)要求較高,因此需要將彩色圖片轉(zhuǎn)化為灰度圖像,轉(zhuǎn)換的方法主要有最大值法、分量法、加權(quán)平均法和平均值法等[7]?,F(xiàn)有的研究中發(fā)現(xiàn)利用加權(quán)平均法進(jìn)行灰度化最符合人類的視覺感受,加權(quán)公式為
其中式中R(x,y)、G(x,y)、B(x,y) 分別為像素(x,y)點(diǎn)的R、G、B 三個分量的值,G(x,y)為圖像的灰度值。
在提取煙葉特征時需要將煙葉圖像做二值化處理,本文借鑒文獻(xiàn)[8]中的最大類間方差法(Otsu)對濾波后的圖像進(jìn)行二值化處理,最大類間方差法(Otsu)簡單效果好,使用方便,可以直接在Matlab 軟件中調(diào)用graythesh()函數(shù),該函數(shù)根據(jù)煙葉區(qū)域與背景的灰度差異自動確定Otsu法的閾值,然后調(diào)用im2bw()函數(shù)實(shí)現(xiàn)Otsu 法二值化處理,利用imfill()函數(shù)進(jìn)行小范圍的孔洞填充,保證煙葉的完整性,最后將煙葉的原始顏色還原到二值化圖像上。
工業(yè)CCD 相機(jī)所獲取的煙葉圖像為RGB 圖像,使用RGB 模式來表示不同等級煙葉顏色特征的變化情況常常達(dá)不到理想的效果。因此本文采用更接近與人眼視覺感官的HSV 顏色空間模型提取煙葉圖像的顏色特征[9],分別計算H、S、V 三個通道的三個低階顏色矩來表達(dá)煙葉圖像的顏色分布情況,共提取三個通道的煙葉正反面顏色特征2*3*3=18個。計算公式如下:
LBP 算子具有灰度不變性和旋轉(zhuǎn)不變性等優(yōu)點(diǎn),常被用來描述灰度圖像的紋理特征[10],LBP 算子的基本原理是在灰度圖像中3*3 個像素的矩形圖像區(qū)域內(nèi),將像素區(qū)域中心點(diǎn)的灰度值視為該矩形區(qū)域閾值,并與四周8 個像素點(diǎn)區(qū)域的灰度值做差運(yùn)算,若差值大于零則記為1,反之為0,然后將得到的8 位二進(jìn)制數(shù)值順時針讀取,所得的值作為該局部區(qū)域的紋理值,其原理圖如圖2 所示。但使用LBP算子描述的紋理特征維度大、信息冗余度過高,運(yùn)算難度大,使用降維處理又容易造成紋理特征的損失。20 世紀(jì)70 年代初Haralick 等[11]提出一種描述灰度圖像的紋理特征統(tǒng)計方法—灰度共生矩陣(GLCM),灰度共生矩陣(GLCM)的原理就是統(tǒng)計灰度圖像中某個固定像素點(diǎn)的灰度值與相隔距離為d,位置方向?yàn)棣鹊南袼攸c(diǎn)的灰度值在圖像區(qū)域內(nèi)出現(xiàn)的概率Pij,其中θ取值為0°,45°,90°,135°[12]?;谝陨涎芯?,本文將二者結(jié)合提取圖像能量、熵、對比度、同質(zhì)性的均值與標(biāo)準(zhǔn)差等8 個參數(shù)來表征圖像的紋理特征可以有效的減少LBP 特征的信息冗余度,提高算法的魯棒性。其參數(shù)說明及計算公式如下所示。
圖2 LBP算子原理圖
1962 年Hu 提出二維不變矩理論,根據(jù)力學(xué)中矩的概念,將區(qū)域內(nèi)部的像素作為質(zhì)點(diǎn),像素坐標(biāo)作為力臂,利用不同階的矩來表示圖像區(qū)域的形狀特征,利用歸一化中心矩推導(dǎo)出7 個具有平移、旋轉(zhuǎn)和縮放不變性等優(yōu)點(diǎn)的不變矩特征[13]。故本文采用不變矩來描述煙葉的形狀特征。不變矩計算表達(dá)式如下:
隨機(jī)森林算法是一種以決策樹為基礎(chǔ)的集成學(xué)習(xí)算法,在特征工程中,隨機(jī)森林能從大量的樣本特征中識別出重要的特征,其原理是根據(jù)每個特征在隨機(jī)森林中每個決策樹貢獻(xiàn)度的大小,通常用基尼指數(shù)作為評價指標(biāo)來衡量[14]。本文利用RF-SVM 算法計算烤煙正反兩面9 個顏色矩特征、8 個紋理特征7 個不變矩特征共2*(9+8+7)=48 個煙葉特征對SVM分類模型的貢獻(xiàn)度排序如圖3。
圖中f表示煙葉的反面特征,由圖3 可知,烤煙正面V通道、反面S、V 通道三階顏色矩、同質(zhì)性與H通道的二階矩特征對模型較重要,不變矩特征貢獻(xiàn)度較少,對模型影響較小。
圖3 特征重要程度
支持向量機(jī)算法對于處理高維非線性模式識別問題時,具有一定優(yōu)勢,算法的核心是利用核函數(shù)映射的方法將線性不可分樣本數(shù)據(jù)轉(zhuǎn)化到高維空間,并在高維空間建立分類器[15]。在數(shù)學(xué)模型上SVM映射后的特征向量,在特征空間中劃分超平面的模型為
其最小化函數(shù)為
為了便于計算將其轉(zhuǎn)化為它的對偶問題:
求解可得到:
其中κ(xi,xj)為xi、xj在高維空間中的內(nèi)積,即核函數(shù)。
SVM 常用的核函數(shù)有線性核函數(shù)、Sigmoid 核函數(shù)、多項式核函數(shù)與RBF 核函數(shù),因?yàn)镽BF 核函數(shù)應(yīng)用較為廣泛,且效果較好,在此本文選用RBF核函數(shù)。
粒子群算法來源于對鳥群捕食活動的研究,它將每一只捕食的飛鳥看作一個隨機(jī)粒子,并用粒子的位置與速度來表示,粒子的初始位置與速度都是隨機(jī)的,粒子通過不斷的迭代來更新自身的位置,粒子位置的優(yōu)劣根據(jù)適應(yīng)度值來調(diào)整[16]。每迭代一次,在整個族群中會產(chǎn)生一個最優(yōu)解即全局極值,每個個體粒子的最優(yōu)解即個體極值。粒子速度與位置的更新公式如下:
式中:c1、c2為學(xué)習(xí)因子,r1、r2為隨機(jī)函數(shù),用以增加搜索隨機(jī)性,k 為迭代次數(shù),ω為慣性權(quán)重,調(diào)節(jié)搜索解的能力。
在RF-SVM 分類模型中將烤煙正反兩面的紋理,顏色與形狀共48 個特征作為輸入,經(jīng)RF-SVM算法得到影響SVM 模型預(yù)測效果貢獻(xiàn)度最高的特征子集,再將得到的特征子集作為PSO-SVM 分類模型的輸入對烤煙等級進(jìn)行分類。RF-PSO-SVM分類模型對烤煙等級預(yù)測流程如圖4所示。
圖4 RF-PSO-SVM烤煙分類流程圖
在RF-SVM 算法中,各個等級70%煙葉樣本被劃分為訓(xùn)練集,30%煙葉樣本被劃分為測試集,通過RF 算法特征選擇重要性度量,依次選取不同數(shù)量的特征組成不同子集來測試SVM 分類性能,圖5為不同特征子集下SVM的分類準(zhǔn)確率。
圖5 不同特征子集下SVM的分類準(zhǔn)確率
由圖5 可以看出大量的特征并沒有提高模型的分類性能,甚至?xí)档?。?dāng)子集數(shù)量小于15 時,隨著特征數(shù)量的增加,模型的分類性能整體趨勢向上,當(dāng)子集數(shù)量等于15 時,達(dá)到最高分類準(zhǔn)確率82.8125%,此時最優(yōu)子集由前15 個特征組成,當(dāng)子集數(shù)量達(dá)到21 時,模型最后一次達(dá)到最優(yōu),因此可以認(rèn)為前21個均為有效特征。
經(jīng)過多次實(shí)驗(yàn)最終確定使用PSO 尋優(yōu)SVM 分類模型的C、g 參數(shù)時,學(xué)習(xí)因子c1=1.5、c2=1.7,迭代次數(shù)為200 次,權(quán)重因子為2,C、g 優(yōu)化范圍[0.1,100]、[0.1,1000],得到適應(yīng)度曲線如圖10 所示,迭代到30 次以后達(dá)到最優(yōu)值,此時C=81.1461、g=0.2329。
圖6 PSO適應(yīng)度曲線
為了說明RF-PSO-SVM 分類模型的優(yōu)勢,本文將RF-PSO-SVM 分類模型與SVM、PSO-SVM 三種模型在全部特征子集與最優(yōu)子集中進(jìn)行測試,并比較分類結(jié)果。
表2 顯示經(jīng)過RF-SVM 特征篩選后,SVM 分類器的分類準(zhǔn)確率提高了9.375%,算法的運(yùn)行時間減少了13s,分類器的性能得到了提高;經(jīng)PSO-SVM 優(yōu)化C、g 參數(shù)后SVM 分類器的準(zhǔn)確率提高了14.0625%,但運(yùn)行時間增加了297s;本文提出RF-PSO-SVM 分類器相比SVM 分類器準(zhǔn)確率提高了17.1875%,運(yùn)行時間增加234s;相比PSO-SVM分類器準(zhǔn)確率提高了3.125%,運(yùn)行時間減少63s。
表2 不同特征子集下不同分類器性能對比
本文對烤煙圖像進(jìn)行處理,提取烤煙的煙葉特征、紋理特征與形狀特征,對RF 算法、PSO 算法與SVM 算法進(jìn)行理論介紹,提出并建立RF-PSOSVM烤煙分類模型,該模型首先使用RF-SVM對烤煙特征進(jìn)行篩選,然后將篩選的特征子集輸入到PSO優(yōu)化后的SVM分類器中,實(shí)現(xiàn)對烤煙等級的預(yù)測。本研究可得出以下結(jié)論:
1)利用自適應(yīng)直方圖均衡算法對煙葉圖像進(jìn)行對比度增強(qiáng)過程中,鄰域尺寸size=6 時,既能對圖像起到好的增強(qiáng)效果,并且不會引起均勻區(qū)域噪音的增強(qiáng)。
2)利用RF-SVM 對煙葉特征進(jìn)行貢獻(xiàn)度排序發(fā)現(xiàn),煙葉的反面顏色特征與紋理特征更有利于分類模型對煙葉進(jìn)行分級,而不變矩特征對分級模型分類準(zhǔn)確率影響較小。
3)利用RF-PSO-SVM 算法建立的煙葉分類模型可以在保證分類準(zhǔn)確率的情況下,降低分類算法的運(yùn)行時間,減少了數(shù)據(jù)集的特征維度,對煙葉的分類識別具有一定的參考價值。