呂晨曦 楊冬風(fēng)
(黑龍江八一農(nóng)墾大學(xué)電氣與信息工程學(xué)院,黑龍江 大慶 163311)
玉米種子是當(dāng)今我國農(nóng)業(yè)生產(chǎn)中不可或缺的生產(chǎn)資料。不同品種的玉米在抗倒伏、抗病蟲害、產(chǎn)量、營養(yǎng)成分等方面存在明顯差異。傳統(tǒng)的玉米種子識(shí)別方法有以識(shí)別種子形態(tài)、幼苗形態(tài)和植株形態(tài)為主的形態(tài)學(xué)方法,以電泳法測定化學(xué)成分為主的生理生化鑒定法,依靠種子分子水平DNA和RNA等之間差異實(shí)現(xiàn)品種鑒別的分子生物學(xué)鑒定法。但隨著市場中玉米品種的不斷增加,為了保證玉米種子的純度,避免種子摻假現(xiàn)象的出現(xiàn),研究人員正研究一種可以準(zhǔn)確無損地識(shí)別玉米品種的新方法。相對于傳統(tǒng)人工識(shí)別,機(jī)器視覺識(shí)別具有省時(shí)、省力、識(shí)別準(zhǔn)確率高等優(yōu)點(diǎn)。利用機(jī)器視覺對玉米種子進(jìn)行識(shí)別,可以脫離人工識(shí)別的束縛,為不同品種玉米種子的識(shí)別提供新的可行方法。
目前,我國對常規(guī)種子的品種檢驗(yàn)方法主要有田間種植鑒定、色譜分析技術(shù)、利用卡尺和天平等手動(dòng)測量。汪勇利用人工神經(jīng)網(wǎng)絡(luò)法對5個(gè)玉米品種共250粒種子的品種進(jìn)行了識(shí)別,準(zhǔn)確率高達(dá)92.4%。馮朝麗等結(jié)合偏最小二乘判別分析法對所選玉米種子樣本進(jìn)行識(shí)別分類,樣本的識(shí)別精度也達(dá)到了94.66%。李奔等對玉米種子圖像的顏色特征進(jìn)行了研究,提出了新的顏色指標(biāo),即RGB和HSV顏色模型中各個(gè)分量所占的比例以及單位面積的占比,運(yùn)用神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到很好的分類識(shí)別效果,3個(gè)品種總的識(shí)別率為93.3%。上述試驗(yàn)基本采用特征提取對數(shù)據(jù)進(jìn)行處理,忽略了特征值過多帶來的冗余性,由此導(dǎo)致識(shí)別的準(zhǔn)確率下降。對特征數(shù)據(jù)進(jìn)行數(shù)據(jù)降維可以提高品種識(shí)別的準(zhǔn)確率,縮短識(shí)別處理時(shí)間。
為了降低特征數(shù)據(jù)的冗余性,提高品種識(shí)別的效率,筆者在試驗(yàn)中采用了主成分分析(PCA)對提取后的特征數(shù)據(jù)進(jìn)行特征降維。針對玉米種子品種識(shí)別效率低的問題,利用支持向量機(jī)(SVM)對玉米種子進(jìn)行分類識(shí)別。針對機(jī)器視覺技術(shù)需要訓(xùn)練的特征數(shù)據(jù)不足的問題,對玉米種子進(jìn)行顏色、幾何及紋理等特征提取,從而達(dá)到提高識(shí)別準(zhǔn)確率的目的。此次試驗(yàn)將主成分分析(PCA)、線性判別分析(LDA)、等距特征映射(ISOMAP)、T分布隨機(jī)近鄰嵌入(T-SNE)、多維尺度變換算法(MDS)5種降維方法與2種分類器貝葉斯(Bayes)與支持向量機(jī)(SVM)分別結(jié)合,通過對比測試集準(zhǔn)確率得知,PCA-SVM模型在對玉米種子品種識(shí)別方面有較高的準(zhǔn)確率,為玉米種子的品種識(shí)別提供了新方法。
試驗(yàn)材料包括3個(gè)玉米品種(甜糯黃玉米、甜妃、昌甜)成熟且飽滿的種子各50粒,手機(jī)原相機(jī),黑色桌子1張。
甜糯黃玉米:由北京市農(nóng)林科學(xué)院玉米研究中心選育出的新品種“京科2000”,在北京市及周邊地區(qū)春、夏播均可,籽粒白色,硬粒,品質(zhì)好,穩(wěn)產(chǎn)性好。
甜妃:穗筒形,長粗,籽粒淡黃色,粒大飽滿,具有良好的抗病蟲害能力。
昌甜:籽粒呈紅色,種子飽滿,具有良好的抗倒伏能力。
為完成對甜糯黃玉米、甜妃、昌甜3種玉米種子的識(shí)別,采用手機(jī)原相機(jī)對玉米種子進(jìn)行拍照,共拍攝150張圖片。圖像的采集在黑色桌面上進(jìn)行。為了防止反光現(xiàn)象的發(fā)生,在圖片采集過程中盡量保持垂直拍攝,在燈光稍暗的地方進(jìn)行。
首先,對采集的原始圖像進(jìn)行裁剪,分辨率為454像素×454像素。為了簡化圖像分割的過程,將多粒玉米種子放在鏡頭中指定位置進(jìn)行拍攝(一次拍攝放置10~12粒種子),將圖片輸入預(yù)先設(shè)計(jì)好的算法中進(jìn)行圖像分割,以此完成對單個(gè)玉米種子的圖像分割。其次,對圖像分割完成后的單粒玉米種子進(jìn)行灰度處理,消除在拍攝時(shí)曝光過高帶來的影響。最后,使用高斯濾波器對單粒種子圖像進(jìn)行降噪處理。
為了提高識(shí)別的準(zhǔn)確度及模型的泛化力,測試在對分類器讀取不同環(huán)境背景下拍攝的單粒玉米種子圖片時(shí)分類器是否具有更好的學(xué)習(xí)能力。試驗(yàn)通過調(diào)整玉米種子圖像的對比度、亮度及銳化程度將玉米種子圖像進(jìn)行數(shù)據(jù)擴(kuò)增,圖片數(shù)量擴(kuò)增為原來的2倍,使試驗(yàn)的圖像樣本數(shù)目達(dá)到300張。
試驗(yàn)共提取15種特征,其中包括幾何特征8種(周長、面積、顏色、長度、寬度、圓形度、矩形度和長軸長)、紋理特征7種(二階矩、熵、對比度、逆差矩、差異性、能量和相關(guān)性)。
1.5.1 顏色特征。顏色特征是一種全局特征,主要用來表示圖像中物體的表面性質(zhì)。顏色特征是計(jì)算機(jī)視覺技術(shù)發(fā)揮作用的基礎(chǔ)特征。種子顏色的細(xì)微變化可在一定程度上反映其新舊程度。
在試驗(yàn)中分別提取每一張圖像的R、G、B 3個(gè)分量,并分別計(jì)算三者的平均值作為這張圖像的顏色特征,再計(jì)算每一種類種子R、G、B的平均值,用作后期驗(yàn)證試驗(yàn)的對比數(shù)據(jù)。
1.5.2 幾何特征。筆者將經(jīng)灰度處理且降噪后的圖像進(jìn)行閾值分割,利用單個(gè)玉米種子圖像的區(qū)域和邊緣特性提取幾何特征,提取的幾何特征包括以下幾個(gè)部分。
正交投影面積:利用Python中的cv2.contourArea函數(shù)計(jì)算分割后單個(gè)玉米種子的面積。
正交投影周長:利用Laparoscopic算子計(jì)算圖像梯度,使用Canny算法對玉米種子圖像進(jìn)行邊緣檢測,得到圖像的邊緣像素,計(jì)算邊緣像素點(diǎn)和。
矩形度:用正交投影面積除以最小外接矩形面積,以此來計(jì)算該玉米種子的矩形度。
長軸長:通過計(jì)算玉米種子外接矩形的對角線長度來定義長軸長。
長度:通過計(jì)算玉米種子外接矩形的長度來定義種子長度。
寬度:通過計(jì)算玉米種子外接矩形的寬度來定義種子的寬度。
圓形度:通過面積與周長的運(yùn)算得到單個(gè)玉米種子的圓形度。
1.5.3 紋理特征。紋理特征是通過灰度共生矩陣提取出來的一個(gè)值,對區(qū)域內(nèi)部灰度級(jí)變化的特征進(jìn)行量化。圖片的紋理特征具有旋轉(zhuǎn)不變性,并且對于噪聲有較強(qiáng)的抵抗能力,可以很好地詮釋圖像表面性質(zhì)的全局特征。試驗(yàn)采用灰度共生矩陣(GLCM)對特征矩陣進(jìn)行紋理特征分析,提取出熵(ENT)、對比度(CON)、逆差矩(HOMO)、差異性(DISL)、能量(NRG)、相關(guān)性(COR)和二階矩(ASM)共計(jì)7種特征值。其中,熵是主要的紋理特征。
為了提高數(shù)據(jù)的泛化性,試驗(yàn)時(shí)將每張圖片分別采用原圖像、原圖像旋轉(zhuǎn)45°、原圖像旋轉(zhuǎn)90°、原圖像旋轉(zhuǎn)135°4種方式進(jìn)行紋理特征的提取。
熵是用來衡量選取圖像信息量的大小,圖像中的元素越分散,熵越大,選取圖像紋理的均勻程度越高。對比度反映了圖像灰度的變化程度,圖像中灰度值差別越大,表明圖像邊緣越銳利。逆差矩用來測量灰度圖像局部強(qiáng)度的均勻性,局部越均勻,逆差矩越大。差異性對于局部特點(diǎn)衡量性較好,局部對比度越大,差異性越大。能量是對圖像紋理的灰度變化穩(wěn)定程度的度量,反映圖像灰度分布均勻程度和紋理粗細(xì)度。相關(guān)性表示目標(biāo)圖像的灰度像素成線性關(guān)系的度量,代表灰度共生矩陣行列灰度關(guān)系的相似度。二階矩反映圖像的均勻性,值越大,圖像灰度分布越均勻。
第一步:對玉米種子圖像進(jìn)行圖像預(yù)處理,得到大小統(tǒng)一、清晰度高的圖像。第二步:提取玉米種子圖像的顏色特征、幾何特征、紋理特征共15個(gè)特征向量。第三步:采用主成分分析法(PCA)將特征向量從15維降至2維。第四步:采用支持向量機(jī)對降維后的數(shù)據(jù)進(jìn)行分類,其中70%的數(shù)據(jù)用于訓(xùn)練集,30%的數(shù)據(jù)用于測試集。第五步:將以上的數(shù)據(jù)模型與其他的組合模型進(jìn)行模型對比,通過測試集準(zhǔn)確率判斷模型的優(yōu)劣。
分別使用5種降維方法對提取出的15種特征向量進(jìn)行數(shù)據(jù)降維,再將降維后的數(shù)據(jù)分別放入2種分類器中進(jìn)行模型訓(xùn)練與結(jié)果測試。在對比5種降維方法的散點(diǎn)圖后發(fā)現(xiàn),利用主成分分析法(PCA)進(jìn)行降維后的散點(diǎn)圖樣本之間分布的距離較大,對于特征數(shù)據(jù)的分類較為明顯。圖1中不同的幾何形狀分別表示了3種玉米種子特征向量的分布。相同種類之間重疊部分相對較少,可以明顯地區(qū)分出不同種類種子之間的差別。
圖1 特征數(shù)據(jù)降維圖
通過主成分分析法(PCA)將玉米種子的15維特征數(shù)據(jù)降至2維,經(jīng)過PCA降維后數(shù)據(jù)的第1主成分貢獻(xiàn)率為99.12%,第2主成分貢獻(xiàn)率為0.88%,累積貢獻(xiàn)率為100%。而其他4種特征數(shù)據(jù)降維后的樣本數(shù)據(jù)分布較為密集,分類效果不明顯,精度不高,樣本之間的間距較小,在結(jié)合分類器進(jìn)行分類時(shí)無法明確表現(xiàn)出3種種子之間的特征差別,從而導(dǎo)致模型測試集準(zhǔn)確率較低。由此可見,PCA可以最大限度地提取特征數(shù)據(jù)的相關(guān)性,體現(xiàn)出種類之間的差異性,從而把高維數(shù)據(jù)降維至低維空間內(nèi)。但這僅能證明主成分分析法(PCA)在一定范圍內(nèi)具有較高的數(shù)據(jù)降維能力,并不能適應(yīng)所有的樣本容量。
將經(jīng)主成分分析法降維后的數(shù)據(jù)分別結(jié)合支持向量機(jī)(SVM)和貝葉斯分類器,構(gòu)建玉米種子分類模型PCA-SVM和PCA-Bayes。對比兩種分類器對PCA降維后數(shù)據(jù)的分類準(zhǔn)確率。
由試驗(yàn)可知,PCA-Bayes模型對甜糯黃玉米的種類識(shí)別率達(dá)到了86.35%,對甜妃的識(shí)別率為57.69%,而對昌甜的識(shí)別率僅為53.57%,總體來看識(shí)別率較低。而PCA-SVM 模型對3類種子的平均識(shí)別率達(dá)到了95.97%。相對于PCA-Bayes模型,PCA-SVM模型有著較高的識(shí)別準(zhǔn)確率,可以更準(zhǔn)確地區(qū)分3類種子之間的差別。
對分類而言,單一的貝葉斯分類器更適合于樣本數(shù)據(jù)二分類。上述試驗(yàn)中導(dǎo)致貝葉斯分類模型準(zhǔn)確率降低的原因是圖像數(shù)據(jù)量不足,未能使模型得到充分的多分類訓(xùn)練,所以僅能保證對單一種類的玉米種子完成識(shí)別。
綜上所述,在特征數(shù)據(jù)的降維階段,主成分分析法可以更好地完成對特征向量的篩選,進(jìn)而達(dá)到降維的目的,而其他4種降維方法在試驗(yàn)樣本容量范圍內(nèi)未能清晰地劃分出3個(gè)品種之間的差別。在分類器的選擇上,通過試驗(yàn)得知PCA-SVM模型具有較高的品種識(shí)別準(zhǔn)確率,可以無損、快速地完成對3個(gè)品種玉米種子的識(shí)別,準(zhǔn)確率可以達(dá)到95.97%。
對圖像進(jìn)行特征提取,并對數(shù)據(jù)進(jìn)行特征降維,可以有效提高圖像識(shí)別的準(zhǔn)確率,并且極大地縮短識(shí)別時(shí)長。為了提高噪聲干擾圖像的準(zhǔn)確識(shí)別能力,嚴(yán)宇宸提出基于紋理特征提取的圖像識(shí)別方法,利用機(jī)器學(xué)習(xí)方法對提取干擾圖像的紋理特征,提高了模型對圖像的識(shí)別能力。不同的特征數(shù)據(jù)需要經(jīng)過測試去發(fā)現(xiàn)適合的降維方法。筆者提取了玉米種子的幾何和紋理特征共15個(gè)特征向量,通過測試比對散點(diǎn)圖發(fā)現(xiàn)主成分分析法降維對特征數(shù)據(jù)具有較好的分類效果。過量提取特征數(shù)據(jù)會(huì)增大分類器的識(shí)別難度,加大運(yùn)算負(fù)荷,因此,對特征值進(jìn)行合理的特征降維尤為關(guān)鍵。楊博雄等提取VGG-16神經(jīng)網(wǎng)絡(luò)fc3層的4096維特征后,使用PCA法將數(shù)據(jù)維度降至64維,不僅可以高效地提取特征數(shù)據(jù),而且可以充分利用系統(tǒng)資源。曹靖城提出一種基于PCA降維的海量數(shù)據(jù)特征抽取技術(shù),減少數(shù)據(jù)處理對系統(tǒng)計(jì)算資源的消耗,通過PCA將原始數(shù)據(jù)映射到若干主成分,以實(shí)現(xiàn)數(shù)據(jù)壓縮。
將主成分分析法(PCA)與支持向量機(jī)(SVM)相結(jié)合是機(jī)器視覺領(lǐng)域常提及的一種模型。令曉明等通過試驗(yàn),分析了不同維度的分類識(shí)別率和識(shí)別時(shí)間對模型的影響;選擇一些分類能力強(qiáng)的,基于行人顏色頻率特征和膚色特征檢測的block作為級(jí)聯(lián)的特征向量,減少了冗余block的干擾影響,突出行人特征,并結(jié)合支持向量機(jī)進(jìn)行識(shí)別,在行人檢測中的準(zhǔn)確率比單一特征提高了將近23%。
大多數(shù)的分類器只能進(jìn)行二分類。對此,可以通過組合多個(gè)二分類器來讓分類器多次反復(fù)輸出,從而實(shí)現(xiàn)品種多分類,如可以采用one-against-one和one-against-all兩種方法來實(shí)現(xiàn)。此試驗(yàn)在訓(xùn)練時(shí)依次把每個(gè)類別的樣本分別歸為一類,其他剩余的樣本歸為另一類,這樣3個(gè)類別的樣本就構(gòu)造出了3個(gè)SVM分類器。黃興華等提出一種紋理特征融合與支持向量機(jī)(SVM)相結(jié)合的分類識(shí)別方法,完成了對道路垃圾圖像識(shí)別及提取,在此試驗(yàn)中采用了oneagainst-one方法進(jìn)行分類器的構(gòu)建。
筆者在試驗(yàn)中提及的其他4種降維方法在結(jié)合支持向量機(jī)進(jìn)行分類模型的構(gòu)建時(shí),準(zhǔn)確率雖然不如PCA-SVM模型,但是在改變樣本容量的大小后,準(zhǔn)確率呈增長趨勢。這說明PCA降維只是在這一樣本數(shù)量的區(qū)間內(nèi)具有較為明顯的特征降維能力,后期還可以通過增加樣本容量進(jìn)一步進(jìn)行降維準(zhǔn)確性的驗(yàn)證。
此試驗(yàn)結(jié)果表明,PCA-Bayes分類模型對玉米種子的品種識(shí)別具有較高的準(zhǔn)確率,可為后期構(gòu)建玉米種子品種識(shí)別系統(tǒng)提供依據(jù)。
此試驗(yàn)提取了玉米種子圖像的15個(gè)特征向量,對其采用包括PCA、LDA等在內(nèi)的5種降維方法對數(shù)據(jù)進(jìn)行特征降維,通過對比試驗(yàn)結(jié)果發(fā)現(xiàn),PCA-SVM模型具有較高的分類準(zhǔn)確率,準(zhǔn)確率可達(dá)95.97%。