趙 晨,趙浩斌,路曉崇,張曉陽,白 濤,毛 嵐,宋朝鵬,王 濤
(1. 河南農(nóng)業(yè)大學(xué) 煙草學(xué)院,河南 鄭州 450002;2. 河南省煙草公司,河南 鄭州 450018;3. 山東中煙工業(yè)有限責(zé)任公司,山東 濟南 250014;4. 云南省煙草公司曲靖市公司,云南 曲靖 655000)
烤煙作為一種重要的經(jīng)濟作物,其著生部位對烤后煙葉的物理特性[1-2]、化學(xué)成分[3-4]和感官質(zhì)量[5-6]均有較大影響,同時也是烤煙烘烤工藝制定的重要依據(jù)[7]。目前生產(chǎn)中對采收鮮煙葉的部位判斷多采用眼觀、手摸等經(jīng)驗性方法,對于鮮煙葉部位特征的語言描述存在較高的模糊性和誤差性[8]。因此,提出一種快速、準確、無損的鮮煙葉部位客觀判別方法,對提升煙葉烘烤工藝的精準控制具有一定的意義。
目前,國內(nèi)外研究人員多采用計算機視覺技術(shù)提取植物葉片形狀輪廓特征[9]及紋理特征[10-11],構(gòu)建植物葉片分類識別模型。BEGHIN 等[12]研究發(fā)現(xiàn),與單一特征相比,輪廓與紋理融合特征可有效提升葉片的分類識別效果。在煙草檢測領(lǐng)域,煙葉分類多采用形狀、紋理和顏色特征參數(shù),李翠英等[13]提取了能表征不同部位的煙葉輪廓特征,基于煙葉邊緣擬合的二元正交多項式實現(xiàn)烤后煙葉部位分類;魏揚帆[14]通過煙葉圖像尺寸大小進行預(yù)分級,基于Lab 顏色模型實現(xiàn)煙葉等級判別;莊珍珍等[15]采用煙葉形狀與顏色融合特征,基于模糊數(shù)學(xué)方法實現(xiàn)了烤后煙葉分級。這些研究很好地推動了計算機視覺技術(shù)在烤煙分級中的應(yīng)用,但此類方法對烤煙分級的準確度要求較高,受煙葉品種、產(chǎn)區(qū)、專家經(jīng)驗等因素影響,人工分組定級過程中容易出現(xiàn)誤分現(xiàn)象,對于模型分級結(jié)果影響較大。因此,有學(xué)者采用神經(jīng)網(wǎng)絡(luò)權(quán)重與圖像特征相結(jié)合的方法,對烤后煙葉進行分級。申振宇等[16]提取了烤后煙葉圖像的形狀、顏色和紋理特征,基于GRNN 模型分別構(gòu)建烤后煙葉的部位、顏色、等級網(wǎng)絡(luò),通過3 次分級篩選實現(xiàn)烤后煙葉等級劃分。但基于計算機視覺技術(shù)對烤煙部位的研究集中于烤后煙葉分級,在鮮煙葉部位識別方面鮮見報道,且對輪廓與紋理融合特征參數(shù)應(yīng)用較少。因此,提出了一種基于輪廓紋理特征的鮮煙葉部位識別方法,通過對所采集鮮煙葉圖像進行預(yù)處理,提取鮮煙葉形狀特征和紋理特征參數(shù),使用線性判別分析(LDA)進行特征降維,構(gòu)建鮮煙葉特征數(shù)據(jù)集,利用輪廓紋理融合特征數(shù)據(jù)和K 近鄰分類器對鮮煙葉所屬部位進行分類,以期能夠?qū)崿F(xiàn)鮮煙葉部位的快速、無損識別。
試驗于2020—2021 年在河南農(nóng)業(yè)大學(xué)試驗基地進行。供試品種為云煙116、云煙87 和翠碧1 號。選取當(dāng)?shù)毓芾硪?guī)范的煙田、具有代表性的煙株,成熟期采收,上部葉采收位置為15~18葉位,中部葉采收位置為9~12葉位,下部葉采收位置為5~7葉位。
共采集900個鮮煙葉樣本,其中,下部葉296個,中部葉298 個,上部葉306 個。將采收鮮煙葉平鋪放置在黑色背景布中央,將奧林巴斯XZ-1 CCD 相機固定在三腳架上,距地面約1.5 m,利用水平儀調(diào)節(jié)鏡頭與地面垂直,采集圖像。鮮煙葉原始圖像為24位真彩色圖像,分辨率為3 648像素×2 736像素。
為實現(xiàn)鮮煙葉著生部位的快速、無損識別,提出了一種基于輪廓-紋理特征和LDA 的方法實現(xiàn)鮮煙葉部位判別,算法流程如圖1所示。
圖1 鮮煙葉部位識別方法流程Fig.1 Process of green tobacco site identification method
圖像預(yù)處理:為減少圖像處理的時間和成本,將所采集煙葉圖像按照原始圖像的寬高比,縮放至304像素×228像素。并將上部葉、中部葉、下部葉分別以1、2、3進行標注。
特征提?。夯邗r煙葉圖像提取輪廓特征參數(shù)和紋理特征參數(shù),進行特征融合,采用LDA 方法進行降維,獲得鮮煙葉輪廓-紋理特征數(shù)據(jù)集。以4∶1的比例隨機選取訓(xùn)練集和測試集。
鮮煙葉部位分類:采用K 近鄰算法(KNN)構(gòu)建鮮煙葉部位分類模型,通過測試集對模型進行評估,實現(xiàn)鮮煙葉部位識別。
采用Origin 2021 繪制鮮煙葉輪廓-紋理特征參數(shù)分布圖,使用Python 3 編程語言,基于Anaconda 3集成開發(fā)環(huán)境,實現(xiàn)輪廓-紋理特征提取、特征降維和識別模型構(gòu)建。
1.4.1 輪廓特征提取 為準確識別鮮煙葉著生部位,對鮮煙葉的輪廓特征參數(shù)[17]進行提取。以圖像預(yù)處理縮放后的圖像作為原始圖像,通過灰度二值化預(yù)處理實現(xiàn)圖像中葉片與背景的分離,然后采用Canny 算子對煙葉輪廓特征進行邊緣提取[18],構(gòu)建葉片輪廓的外接矩形[19],提取葉片的邊緣特征參數(shù)。葉片邊緣特征參數(shù)提取過程如圖2所示。參數(shù)提取方法及釋義如下。
圖2 煙葉邊緣特征參數(shù)提取過程Fig.2 Process of leaf edge feature extraction
由于樣本圖像采集過程中,受拍攝角度、拍攝距離等因素影響,輪廓特征參數(shù)應(yīng)當(dāng)具有縮放、旋轉(zhuǎn)、平移不變性,鮮煙葉的葉長、葉寬、面積等邊緣參數(shù)不足以作為分類依據(jù)[20]。故而選取4 項葉片輪廓特征:狹長度、矩形度、圓形度、葉寬軸與質(zhì)心夾角弧度,計算方法[18,20]如下:
狹長度(AR):葉長和葉寬的比值,用于描述葉片圓形程度。
矩形度(RECT):葉片與其外接矩形的面積比,反映葉片對其外接矩形的充滿程度。
圓形度(CIR):周長的平方與面積的比值,描述葉片邊界復(fù)雜程度。
葉寬軸與質(zhì)心夾角弧度(RAD):點L(p1,q1)與質(zhì)心O(X,Y)連線LO和點R(p2,q2)與質(zhì)心連線RO所成夾角α對應(yīng)的弧度值。
其中,LMER為葉片輪廓上下距離最大的2 個點之間連線的像素點數(shù)量,2 個點分別為T、B;WMER為葉片輪廓上與TB 連線垂直、且距離最遠的2個點之間連線的像素點數(shù)量,2 個點分別為L、R;A為葉片輪廓包含的像素點個數(shù);P為外輪廓所占像素點個數(shù);AMER為提取鮮煙葉輪廓的最小外接矩形包含的像素點個數(shù);O為質(zhì)心坐標,通過輪廓矩計算。
1.4.2 紋理特征提取 灰度共生矩陣(Gray level co-occurrence matrix,GLCM)是一種通過檢測像素空間關(guān)系,表征圖像紋理特征的統(tǒng)計方法,是分析圖像的局部模式和排列規(guī)則的基礎(chǔ)[21-22],鮮煙葉圖像的紋理特征可以反映鮮煙葉部位間的皺縮程度變化情況[23]。基于RGB 顏色通道,選取位移矢量為1,方向為0°、45°、90°、135°的6 個GLCM 特征向量,計算公式[21-23]及具體描述如下:
相關(guān)性(Corr):反映度量圖像的灰度級在行或列方向上的相似程度。
同質(zhì)性(Homo):反映圖像局部灰度均勻性。
紋理慣性(F):反映圖像灰度分布的復(fù)雜程度。
對比度(Con):反映圖像的清晰度和紋理溝紋深淺的程度。
紋理熵(Entr):反映圖像非均勻程度或混亂程度。
紋理能量(Ener):反映圖像灰度分布均勻程度和紋理粗細。
其中μi,μj,σi,σj的計算公式為:
式中,N:圖像灰度級數(shù)目;Pi,j:歸一化后的灰度共生矩陣元素,i、j分別表示2 個像素的灰度等級,i= 0,1,…,N- 1。
1.4.3 特征降維 LDA[24]算法的基本思想是將煙葉輪廓-紋理特征數(shù)據(jù)集,通過低維度投影尋找到最優(yōu)投影矩陣,實現(xiàn)分類信息提取和特征數(shù)據(jù)降維,投影后的樣本在新空間達到類間數(shù)據(jù)離散度最大、類內(nèi)數(shù)據(jù)離散度最小的標準[25],即3 個部位的數(shù)據(jù)集在該空間中具有最優(yōu)的可分離性。
KNN 算法[26]的核心思想是對于給定的煙葉測試樣本xt,通過測量不同特征向量之間的歐式距離,獲取測試樣本與待測樣本距離最近的前k個標簽特征,以出現(xiàn)次數(shù)最多的標簽特征作為待測樣本的標簽特征來預(yù)測其部位類別。歐式距離的計算公式[11]為:
其中,xtk、xik分別為xt、xi的特征值。
KNN 分類器對于輪廓-紋理特征存在交叉或相似性較高的烤煙相鄰部位,識別準確度高,所需時間較短,因此,選用KNN分類器構(gòu)建識別模型,實現(xiàn)鮮煙葉部位分類。
針對鮮煙葉輪廓-紋理特征數(shù)據(jù),采用未經(jīng)處理、主成分分析(PCA)降維和LDA 降維3 種處理方法,對比基于KNN、SVM 和BP 神經(jīng)網(wǎng)絡(luò)的模型識別結(jié)果。選擇模型的精確率、召回率、F1 分數(shù)和準確率來評價鮮煙葉部位識別模型的性能。
基于輪廓特征,提取狹長度、矩形度、圓形度和葉寬軸與質(zhì)心夾角弧度4 個特征參數(shù);基于紋理特征,提取相關(guān)性、同質(zhì)性、紋理慣性、對比度、紋理熵和紋理能量6個特征參數(shù)。將所提取輪廓特征和紋理特征結(jié)合,對10 個特征參數(shù)進行歸一化,采用LDA 降維處理形成新的特征矩陣。將融合特征經(jīng)LDA 處理投影到二維圖像(圖3),結(jié)果表明,對融合特征進行LDA 降維處理可以保留訓(xùn)練樣本的類別和特征信息之間的關(guān)系,經(jīng)LDA 降維后的特征矩陣在3個部位類別間有較好的區(qū)分度。
圖3 輪廓-紋理融合特征提取流程及結(jié)果Fig.3 Process and result of contour-texture blend feature extraction
隨著采收部位上升,鮮煙葉葉片由寬大逐漸轉(zhuǎn)變?yōu)楠M長,葉面皺縮程度增大[2]。輪廓特征和紋理特征能夠區(qū)分不同采收部位鮮煙葉,可以將煙葉輪廓、光滑性、皺縮性等特性數(shù)字化,表征鮮煙葉部位變化。
為驗證提取輪廓-紋理特征在部位識別模型中的有效性,對輪廓特征、紋理特征及輪廓-紋理特征這3種特征數(shù)據(jù),分別采用未經(jīng)降維處理、PCA 降維和LDA降維方法,比較其分類準確度。圖4和圖5分別為輪廓特征、紋理特征和輪廓-紋理特征經(jīng)PCA、LDA降維處理后,在二維空間下3個部位的類別分布圖??梢钥闯?,經(jīng)LDA 降維處理后的特征離散程度較經(jīng)PCA 降維處理后的特征離散程度更高,基于LDA降維方法所構(gòu)建的模型可以有效提升鮮煙葉部位識別準確率。通過對比圖4a 與5a、4b 與5b、4c 與5c可以看出,在二維空間下,對輪廓特征和紋理特征進行PCA 和LDA 降維處理后,上部葉和下部葉的離散性較強,但相鄰部位間仍有較高的重疊性;圖5c中同部位特征點的聚合性強,且不同部位間呈現(xiàn)較強的離散性,能夠較好地進行鮮煙葉部位區(qū)分。
圖4 不同特征經(jīng)PCA 處理后的可視化展示Fig.4 Visual display of various features processed by PCA
圖5 不同特征經(jīng)LDA處理后的可視化展示Fig.5 Visual display of various features processed by LDA
表1為輪廓特征、紋理特征及輪廓-紋理特征數(shù)據(jù)經(jīng)未經(jīng)降維處理、PCA 降維和LDA 降維處理后,在BP、SVM 和KNN 模型上的部位識別結(jié)果。就不同識別模型而言,采用未經(jīng)降維處理的特征數(shù)據(jù),基于SVM 的模型識別準確率最高,基于BP 神經(jīng)網(wǎng)絡(luò)的模型識別準確率最低。采用PCA 降維后的特征數(shù)據(jù),輪廓特征和輪廓-紋理特征采用基于SVM的模型識別準確率最高,紋理特征采用基于KNN 的模型識別準確率最高。采用LDA 降維后的特征數(shù)據(jù),基于KNN 的模型識別準確率最高,基于BP 神經(jīng)網(wǎng)絡(luò)的模型識別準確率略高于SVM。
表1 不同特征選擇方法下鮮煙葉圖像特征的識別準確率對比Tab.1 Comparative identification accuracy of multiple green tobacco features by different feature selection methods
與未經(jīng)降維處理和PCA 降維方法相比,LDA 降維處理可以有效提升部位模型的識別準確率。LDA 降維后的數(shù)據(jù)與未經(jīng)降維處理數(shù)據(jù)相比,在輪廓特征下,LDA-KNN、LDA-SVM、LDA-BP 的分類準確率由0.56、0.66、0.61 分別提高至0.67、0.67、0.67。在紋理特征下,LDA-KNN、LDA-SVM、LDABP 的分類準確率由0.73、0.75、0.67 分別提高至0.87、0.83、0.87。在輪廓-紋理特征下,LDA-KNN、LDA-SVM、LDA-BP 的分類準確率由0.83、0.83、0.82 分別提高至0.99、0.95、0.97。采用PCA 降維處理后的特征數(shù)據(jù)所構(gòu)建的模型,與采用未經(jīng)降維處理的特征數(shù)據(jù)所構(gòu)建的模型識別結(jié)果相比,存在識別結(jié)果不增反降的現(xiàn)象,說明針對本試驗中的特征數(shù)據(jù)集,LDA 降維處理可以對數(shù)據(jù)起到較好的優(yōu)化效果。
采用不同參數(shù)特征所構(gòu)建的鮮煙葉部位識別模型,其識別效果差異較大。3種模型均在輪廓-紋理融合特征下的識別準確率最高。在輪廓-紋理融合特征下的分類效果最好,這可能是因為融合的鮮煙葉輪廓和紋理特征數(shù)據(jù)包含了更全面的特征信息,所以分類結(jié)果最優(yōu)?;诩y理特征的模型識別結(jié)果優(yōu)于基于輪廓特征的模型識別結(jié)果,這可能是因為烤煙生長過程中受品種、環(huán)境等外界因素影響,其煙葉輪廓差異性較小,所以基于輪廓特征的部位識別效果最差。
為了進一步證明該方法的性能,將提取的輪廓-紋理特征與經(jīng)過PCA、LDA 降維處理后的特征,分別在基于KNN、SVM、BP 神經(jīng)網(wǎng)絡(luò)模型上針對分類指標與評估時間進行對比分析,結(jié)果見表2。其中模型評估時間為模型訓(xùn)練和分類結(jié)果預(yù)測的處理時間總和。從表2 可以看出,LDA 降維方法較PCA 方法能顯著提高部位分類的各項指標性能,在KNN 識別模型中,經(jīng)LDA 處理后模型精確率較PCA提高了0.23,在SVM 識別模型中精確率提高了0.14,BP 神經(jīng)網(wǎng)絡(luò)識別模型中精確率提高了0.19。在3 種識別模型中,采用PCA 處理后特征構(gòu)建的識別模型效果較差,采用LDA 處理特征構(gòu)建的3 種識別模型的召回率、F1分數(shù)和準確率較PCA處理和未經(jīng)降維處理的特征識別結(jié)果均有較大提高,基于SVM 和BP 神經(jīng)網(wǎng)絡(luò)模型的識別準確率達到了0.95和0.97。采用LDA 降維處理后的特征所構(gòu)建的KNN識別模型處理時間最短,為0.01 s。
表2 不同預(yù)測模型的驗證結(jié)果Tab.2 Validation results of different predictive models
本研究針對鮮煙葉的部位識別問題,采用機器視覺技術(shù),采集了不同品種不同部位的鮮煙葉圖像數(shù)據(jù)進行試驗,提出了基于輪廓-紋理特征和LDA的鮮煙葉部位無損檢測方法。通過比較不同特征選擇方法對鮮煙葉部位圖像特征的影響,在基于KNN、SVM、BP神經(jīng)網(wǎng)絡(luò)模型下分別進行試驗,采用LDA 處理后的特征所構(gòu)建的模型準確率均高于經(jīng)PCA 處理和未經(jīng)降維處理的模型準確率,經(jīng)LDA 處理的輪廓-紋理特征模型分類準確率分別為0.99、0.95、0.97,均高于輪廓特征和紋理特征的最優(yōu)分類準確率,基于輪廓-紋理特征、LDA處理和KNN算法所構(gòu)建的鮮煙葉部位識別模型,其精確率、召回率、F1 分數(shù)、準確率均達到0.99,且算法處理時間更短,能夠較好地識別鮮煙葉著生部位。
本研究為鮮煙葉采收部位的快速、無損識別提供了一種技術(shù)參考,所提出的基于輪廓-紋理特征和LDA 處理后獲得的高質(zhì)量鮮煙葉特征,能夠很好地表征鮮煙葉部位分類,可有效提升烤煙鮮煙葉素質(zhì)的判別準確度。本研究的技術(shù)方法是基于完整的單片煙葉圖像,對于掛竿鮮煙葉圖像的特征提取及其部位分類還需要進一步研究。