陳 榮,李 旺,周文玉
(1銅仁學(xué)院 大數(shù)據(jù)學(xué)院,貴州 銅仁 554300;2銅仁市為拓網(wǎng)絡(luò)技術(shù)有限公司,貴州 銅仁 554300)
茶葉作為茶農(nóng)的重要經(jīng)濟(jì)支柱,在當(dāng)前精準(zhǔn)扶貧形勢(shì)下是茶農(nóng)脫貧的重要產(chǎn)業(yè)[1]。 消費(fèi)者更加注重茶葉的品質(zhì),“綠色、生態(tài)、有機(jī)”茶葉成為茶葉市場(chǎng)的新寵兒[2]。然而,因?yàn)椴荒苡行У卦\斷茶葉病害而濫用農(nóng)藥、化肥,嚴(yán)重地影響了茶葉的品質(zhì),損失了茶葉市場(chǎng)。因此,對(duì)茶葉病害進(jìn)行正確的診斷對(duì)提高茶葉的競(jìng)爭(zhēng)力極具重要意義。目前,茶葉的診斷主要靠茶農(nóng)的經(jīng)驗(yàn)和植物保護(hù)專家的病理知識(shí)進(jìn)行主觀、模糊的判斷[3],缺乏客觀的評(píng)估,即便有經(jīng)驗(yàn)的專家在診斷茶葉病害時(shí)也常常出現(xiàn)錯(cuò)誤。不同的茶葉病害由于致病的機(jī)理不同而使得茶葉病斑具有不同的紋理,因此可以利用提取茶葉病害的紋理特征和支持向量機(jī)技術(shù)來(lái)識(shí)別茶葉病害,提高茶葉病害診斷的科學(xué)性,促進(jìn)數(shù)字農(nóng)業(yè)的發(fā)展。
特征提取是茶葉病害圖像識(shí)別的前提,只有正確地提取出病害的特征才能進(jìn)行正確的識(shí)別。不同的茶葉病害有不同的紋理,灰度共生矩陣是分析紋理特征常用的二階統(tǒng)計(jì)方法,描述了灰度空間的相關(guān)性,能夠反映出紋理結(jié)構(gòu)的變換[4],是一種區(qū)分能力較強(qiáng)的特征。
灰度共生矩陣Pd表示灰度為i和j的兩個(gè)像素具有某種空間關(guān)系d的情況出現(xiàn)的次數(shù)[5]。常用的位置關(guān)系有0°、45°、90°、135°,也就是說(shuō)不同的位置關(guān)系可以確定不同的灰度共生矩陣[6],進(jìn)而不同的病害有不同的紋理特征。因此,本研究采用灰度共生矩陣提取了以下5種紋理特征。
1.1.1 對(duì)比度(Contrast)
對(duì)比度描述了紋理溝紋的深淺程度;值越大,紋理的溝紋越深,圖像越清晰。計(jì)算公式:
(1)
1.1.2 相關(guān)性(Correlation)
相關(guān)性描述了相鄰像素間灰度的線性關(guān)系,即像素間的相似度;當(dāng)灰度共生矩陣中各元素的值相差越大,則相關(guān)性就越小。計(jì)算公式:
(2)
1.1.3 能量(Energy)
能量描述了圖像灰度分布的均勻程度;當(dāng)灰度共生矩陣中各元素的值相差越大,則能量就越大。計(jì)算公式:
(3)
1.1.4 熵(Entropy)
熵是紋理圖像的信息度量,描述了圖像紋理的非均勻程度和復(fù)雜度;值越大,紋理越復(fù)雜。計(jì)算公式:
(4)
1.1.5 同質(zhì)性(Homogeneity)
同質(zhì)性描述了圖像的局部平滑性。計(jì)算公式:
(5)
支持向量機(jī)(Support Vector Machine,SVM)是一種分類性能好的分類識(shí)別技術(shù),能夠兼顧訓(xùn)練誤差和測(cè)試誤差,能夠有效地解決小樣本、高維、非線性等方面的識(shí)別問(wèn)題[7]。
對(duì)于線性可分的問(wèn)題,可以被一個(gè)分類線(二維空間)或分類面(多維空間)無(wú)差錯(cuò)的分開(kāi),使分類間隔最大的分類線(面)為最優(yōu)分類線(面)。如圖1(a)所示。設(shè)線性可分的樣本集{(xi,yi),i=1,2,…,N;j=1,2},求出最優(yōu)分類判決函數(shù)為[8]:
(6)
式中,α*為支持向量對(duì)應(yīng)的拉格朗日乘數(shù);b*為分類閾值;x為待分類的測(cè)試樣本;xi(i=1,2,…,N)為N個(gè)訓(xùn)練樣本。
對(duì)于線性不可分的問(wèn)題,如圖1(b)所示。允許個(gè)別樣本分類錯(cuò)誤近似實(shí)現(xiàn)可分,權(quán)衡考慮最大分類間隔和最小錯(cuò)分樣本數(shù),引入正松弛項(xiàng)ξi和代價(jià)系數(shù)C兩個(gè)參數(shù),最終求出最優(yōu)分類判決函數(shù)與式(6)同。
對(duì)于非線性可分的問(wèn)題,如圖1(c)所示。利用核函數(shù)將低維空間中的非線性問(wèn)題轉(zhuǎn)換到高維空間中的線性可分問(wèn)題,在高維空間中求最優(yōu)分類面。求出最優(yōu)分類判決函數(shù)為[9]:
(7)
式中,α*、b*、x、xi與式(6)同;SV為支持向量的集合。
圖1 不同情況下的SVM分類識(shí)別模型Fig.1 SVM classification and recognition modelsunder different conditions
茶葉病害的識(shí)別屬于多特征的非線性可分問(wèn)題,不同的核函數(shù)表現(xiàn)不同的SVM算法,對(duì)茶葉病害的正確識(shí)別有比較大的影響。常用的核函數(shù)為[10]:
1)線性核函數(shù)(Linear):
K(x,y)=x·y
(8)
2)多項(xiàng)式核函數(shù)(Polynomial):
K(x,y)=[γ(x·y)+c]d
(9)
式中,d為確定映射空間的維度。
3)徑向基核函數(shù)(RBF):
(10)
4)Sigmoid核函數(shù):
K(x,y)=tanh[γ(x·y)+c]
(11)
貴州省梵凈山區(qū)茶葉資源極其豐富,有野生茶樹(shù),有實(shí)生茶樹(shù),也有無(wú)性系茶園,非常利于茶葉病害樣本的采集,采集時(shí)間為3月至5月早晨6∶00~8∶00的生長(zhǎng)旺盛、病癥明顯的時(shí)間段,自然光照條件下采用Canon G35X110Z數(shù)碼相機(jī)進(jìn)行采集,圖像大小為2200×1836像素,存儲(chǔ)格式為JPG,采集了茶炭疽病、茶餅病和白星病3種較為常見(jiàn)的病害3×60共180幅圖片,從每種病害中分別選取包含病斑、大小為90×90dpi的子圖像80幅。
由于紋理特征是灰度圖像在空間以一定形式變換產(chǎn)生的圖案,因此在提取紋理特征前需要對(duì)采集的彩色圖像進(jìn)行灰度處理;為了抑制噪聲對(duì)圖像質(zhì)量的影響,要對(duì)病害圖像進(jìn)行中值濾波平滑處理。如圖2所示。
圖2 茶葉病害圖像預(yù)處理Fig.2 Preprocessing of tea disease images
采用Matlab 8.0實(shí)現(xiàn)編程,采用Matlab圖像處理工具箱進(jìn)行圖像處理。Matlab SVM工具箱主要通過(guò)svmtrain()函數(shù)實(shí)現(xiàn)識(shí)別模型的訓(xùn)練和svmclassify()函數(shù)實(shí)現(xiàn)模型的分類識(shí)別功能。但是它是一個(gè)二分器,只能用于兩類樣本的識(shí)別,為了解決多類樣本的識(shí)別問(wèn)題,本研究提出投票最大策略建立SVM多分類識(shí)別器。算法如下:
1)將茶炭疽病、茶餅病和白星病3類樣本兩兩組成訓(xùn)練集,得到3個(gè)SVM二分類器,即(炭疽病,茶餅病)、(炭疽病,白星病)、(茶餅病,白星病)。
2)將炭疽病、茶餅病和白星病3類樣本的票數(shù)初始化為0。
3)將測(cè)試樣本x使用(炭疽病,茶餅病)分類,如果分類器將x判定為炭疽病,則炭疽病的票數(shù)增1,否則茶餅病的票數(shù)增1;將測(cè)試樣本x使用(炭疽病,白星病)分類,如果分類器將x判定為炭疽病,則炭疽病的票數(shù)增1,否則白星病的票數(shù)增1;將測(cè)試樣本x使用(茶餅病,白星病)分類,如果分類器將x判定為茶餅病,則茶餅病的票數(shù)增1,否則白星病的票數(shù)增1。
4)最后,計(jì)算將測(cè)試樣本x分別判定為炭疽病、茶餅病和白星病的票數(shù),誰(shuí)的票數(shù)最大,該測(cè)試樣本x就最終判定為該類病害。
從每種茶葉病害的紋理特征數(shù)據(jù)中隨機(jī)選取100個(gè)樣本作為訓(xùn)練集、30個(gè)樣本作為測(cè)試集。上述5種紋理特征作為特征向量,分別采取徑向基核函數(shù)、線性核函數(shù)、Sigmoid核函數(shù)、多項(xiàng)式核函數(shù)的SVM。訓(xùn)練參數(shù)設(shè)置:松弛項(xiàng)ξi=0.0038、代價(jià)系數(shù)C=26,其中:RBF核函數(shù)中的γ=1/3;Sigmoid核函數(shù)中γ=1/2,c=1;Polynomial核函數(shù)中的d=3,γ=1,c=1。識(shí)別結(jié)果如表1。
表1 不同核函數(shù)的SVM識(shí)別性能Tab.1 Recognition performance of SVM based ondifferent kernel functions
實(shí)驗(yàn)結(jié)果表明:不同核函數(shù)的SVM識(shí)別性能不同。徑向基核函數(shù)對(duì)茶葉病害的識(shí)別性能最好,總識(shí)別率達(dá)到了86.67%,線性核函數(shù)和多項(xiàng)式核函數(shù)稍差,Sigmoid核函數(shù)的性能最低。所以,徑向基核函數(shù)的SVM比較適合于茶葉炭疽病、茶餅病和白星病紋理特征下的識(shí)別。
從每種茶葉病害的紋理特征數(shù)據(jù)中隨機(jī)選取120、90、60、30個(gè)樣本作為訓(xùn)練集,每種茶葉病害另外分別選取30個(gè)作為測(cè)試集。采取徑向基核函數(shù)的SVM型,識(shí)別結(jié)果如表2。訓(xùn)練參數(shù)設(shè)置:松弛項(xiàng)ξi=0.0038、代價(jià)系數(shù)C=26,RBF核函數(shù)中的γ=1/3。
表2 不同訓(xùn)練樣本數(shù)的SVM識(shí)別性能Tab.2 Recognition performance of SVM based ondifferent numbers of training samples
從表2可以看出,不同訓(xùn)練樣本數(shù)的SVM識(shí)別性能不同。當(dāng)訓(xùn)練樣本在120和90的時(shí)候,識(shí)別率差別不是很大,都有比較高的識(shí)別率;當(dāng)訓(xùn)練樣本減到60和30的時(shí)候,識(shí)別率稍微下降,還在可以接受的范圍內(nèi)。這表明減少訓(xùn)練樣本數(shù)對(duì)識(shí)別結(jié)果的影響不是很大,SVM穩(wěn)定性好,在解決小樣本分類的問(wèn)題上有獨(dú)特的優(yōu)勢(shì)。這是因?yàn)橛?xùn)練樣本數(shù)快速的減少對(duì)支持向量數(shù)(即圖1(a)(b)中H1和H2上面的樣本點(diǎn)數(shù))的減少影響比較小,只要樣本中占少數(shù)的支持向量不變,分類模型基本保持不變,不會(huì)嚴(yán)重的影響到最優(yōu)分類面,即分類判決正確率不會(huì)有太大的變化。
本文利用紋理特征和SVM的識(shí)別方法對(duì)茶葉病害進(jìn)行識(shí)別,以灰度共生矩陣構(gòu)造了5個(gè)紋理特征參數(shù),茶葉病害識(shí)別結(jié)果表明:以對(duì)比度、相關(guān)性、能力、熵和同質(zhì)性為紋理特征比較適合于茶葉病害的識(shí)別,識(shí)別率比較高;RBF核函數(shù)的SVM識(shí)別性能最好;SVM識(shí)別方法比較適合于訓(xùn)練樣本數(shù)較少的病害識(shí)別。
本文以Matlab 8.0作為數(shù)據(jù)處理工具,對(duì)茶葉病害的SVM識(shí)別方法進(jìn)行編程和實(shí)驗(yàn),不能做到在茶園中實(shí)時(shí)識(shí)別。采用Python語(yǔ)言進(jìn)行算法編程并移植到機(jī)器中以對(duì)茶葉病害進(jìn)行實(shí)時(shí)診斷,促進(jìn)機(jī)器學(xué)習(xí)和人工智能在農(nóng)作物病害識(shí)別中的應(yīng)用,這將是以后研究的重點(diǎn)。