李嘉康,陶智麟 ,徐 波 ,徐大勇 ,堵勁松 ,李華杰
(1.中國(guó)煙草總公司鄭州煙草研究院,鄭州 450001;2.鄭州益盛煙草工程設(shè)計(jì)咨詢有限公司,鄭州 450001;3.福建中煙工業(yè)有限責(zé)任公司,福建 廈門(mén) 361021)
煙葉分級(jí)中,煙葉紋理特征是較少被研究和應(yīng)用的一個(gè)關(guān)鍵指標(biāo)。煙葉表面的油分含量、褶皺度、組織緊密程度、含梗率、油分等指標(biāo)是煙葉分級(jí)的重要因素,同時(shí)也與煙葉紋理特征相關(guān)。因此,研究不同煙葉下的紋理特征提取算法為煙葉智能分級(jí)提供依據(jù)具有重要意義。
煙葉的紋理特征相關(guān)研究較少,但是紋理作為數(shù)字圖像的特質(zhì)屬性,能夠真實(shí)反映物體表面的粗糙度、方向等屬性,其作用在紋理描述中體現(xiàn)得尤為明顯。為取得大多數(shù)自然景物的更多信息,通過(guò)分析其組成結(jié)構(gòu)的細(xì)微紋理而獲得[1]。在目標(biāo)識(shí)別與自動(dòng)檢測(cè)領(lǐng)域,Kumar 等[2]、Chan 等[3]采用紋理分析方法檢測(cè)原木中不合格的部分;在圖像檢索領(lǐng)域,施智平等[4]提出了一種新的紋理譜描述,并應(yīng)用于圖像檢索中。基于紋理特征的視覺(jué)檢測(cè)技術(shù)也被應(yīng)用于煙葉分級(jí)中,張帆等[5]研究在標(biāo)準(zhǔn)煙葉數(shù)據(jù)庫(kù)的圖像檢索中使用了紋理計(jì)算方法來(lái)分析煙葉;杜東亮等[6]使用小波分析煙葉紋理,提出基于灰色系統(tǒng)理論通過(guò)煙葉的其他外觀特征來(lái)綜合描述煙葉的成熟度和油分。
在煙葉分級(jí)研究中,較多通過(guò)紋理提取算法得到紋理特征值后直接作為評(píng)價(jià)指標(biāo),而本研究利用兩種紋理提取方法,以不同梯度參數(shù)提取煙葉紋理參數(shù)進(jìn)行降維和重要度分析,以得出能夠表征煙葉紋理的參數(shù),作為評(píng)價(jià)煙葉紋理的特征值。
樣本集:貴州遵義地區(qū)種植品種為中煙100 的鮮煙葉,其中有效煙葉數(shù)字圖像136 張,無(wú)效煙葉數(shù)字圖像 116 張。研究平臺(tái):python3.7.0;opencv4.4.0;scikit-learn0.23.2。
圖1 中煙100 樣本
將鮮煙葉置于恒溫恒濕(溫度:21 ℃,相對(duì)濕度:70%)環(huán)境下平衡1~2 d;以Canon EOS 5D Mark IV 數(shù)字相機(jī)為主體的圖像采集器,在暗箱內(nèi)標(biāo)準(zhǔn)光源下,調(diào)整圖像采集器的白平衡和18°灰板的測(cè)光,確保符合采集過(guò)程中的光照環(huán)境參數(shù)。將平衡后的鮮煙葉放置圖像采集系統(tǒng)黑色背景下依次拍照獲取鮮煙葉數(shù)字圖像。
1.3.1 灰度共生矩陣 灰度共生矩陣(GLCM)的統(tǒng)計(jì)方法由Haralick 等[7]提出,是基于圖像中像素的空間分布包含圖像紋理信息的假設(shè),提出了一種綜合的紋理分析方法。共生矩陣由兩個(gè)像素的聯(lián)合概率密度定義,不僅反映了亮度的分布特性,而且還反映了亮度相同或接近亮度的像素之間的分布特性,是圖像亮度變化的二階統(tǒng)計(jì)特征,其是定義一組紋理特征的基礎(chǔ)。由于紋理是由灰度在空間位置上的重復(fù)出現(xiàn)而形成的,因此圖像空間中一定距離的兩個(gè)像素之間會(huì)存在一定的灰度關(guān)系,即圖像中灰度的空間相關(guān)性特征。灰度共生矩陣是通過(guò)研究灰度的空間相關(guān)性來(lái)描述紋理的一種常用方法[7]。
歸一化后的灰度共生矩陣如下:
圖2 灰度共生矩陣紋理特征圖
通過(guò)基于灰度共生矩陣的紋理特征提取可知,能量(ASM,energy)是灰度共生矩陣元素值的平方和,也稱(chēng)能量,反映了圖像灰度分布均勻程度和紋理粗細(xì)度。對(duì)比度(contrast)反映了某個(gè)像素值及其領(lǐng)域像素值的亮度的對(duì)比情況。如果偏離對(duì)角線的元素有較大值,即圖像亮度值變化很快,會(huì)有較大取值,反映了圖像的清晰度和紋理溝紋深淺的程度。紋理溝紋越深,其對(duì)比度越大,視覺(jué)效果越清晰。熵(entropy)是圖像所具有的信息量的度量,紋理信息也屬于圖像的信息,是一個(gè)隨機(jī)性的度量,當(dāng)共生矩陣中所有元素有最大的隨機(jī)性、空間共生矩陣中所有值幾乎相等時(shí),共生矩陣中元素分散分布時(shí),熵較大。它表示了圖像中紋理的非均勻程度或復(fù)雜程度。自相關(guān)(correlation)反映了圖像紋理的一致性,度量空間灰度共生矩陣元素在行或列方向上的相似程度,因此,相關(guān)值大小反映了圖像中局部灰度相關(guān)性[8]。
1.3.2 Gabor 小波變換 Gabor 小波核類(lèi)似于哺乳動(dòng)物視皮層細(xì)胞的感受野,具有良好的空間局部性、空間頻率和方向選擇性,能夠提取圖像局部區(qū)域的多尺度、多方向的顯著特征[9]。因此,Gabor 小波變換對(duì)光照等外部環(huán)境的變化具有很強(qiáng)的魯棒性。
二維 Gabor 小波函數(shù)定義為[10,11]:
其中,實(shí)數(shù)部分與虛數(shù)部分為:
x,y分別表示像素坐標(biāo)位置;λ表示濾波的波長(zhǎng);θ表示Gabor核函數(shù)圖像的傾斜角度;ψ表示相位偏移量,范圍是-180°~180°;σ表示高斯函數(shù)的標(biāo)準(zhǔn)差;γ表示長(zhǎng)寬比,決定Gabor核函數(shù)圖像的橢圓率。
圖3 波長(zhǎng)為8 的八個(gè)角度Gabor 濾波器
圖4 由8 個(gè)Gabor 濾波器提取的紋理特征圖
采取灰度共生矩陣算法中4 個(gè)不同距離梯度,4個(gè)不同方向梯度下的6 個(gè)紋理值、對(duì)比度、相異性、同次性、相關(guān)性、能量和ASM 能量共96 個(gè)維度特征;采取Gabor 小波算法中8 個(gè)不同角度下的兩個(gè)紋理值,均值和方差共16 個(gè)維度。綜上每張煙葉圖共有112 維度特征,為確定能表征此煙葉的紋理特征,運(yùn)用主元降維的方式確定區(qū)分度最大的主元來(lái)確定數(shù)據(jù)是否可區(qū)分,同時(shí)通過(guò)各個(gè)高維向量的主元荷載圖來(lái)確定最具貢獻(xiàn)維度。
隨機(jī)森林是一種有監(jiān)督的學(xué)習(xí)算法,也是一種基于決策樹(shù)的集成學(xué)習(xí)算法。隨機(jī)森林簡(jiǎn)單,易實(shí)現(xiàn),計(jì)算開(kāi)銷(xiāo)小,它在分類(lèi)和回歸方面具有良好的性能。由于采用集成算法,其精度優(yōu)于大多數(shù)單一算法,因此具有較高的精度。隨機(jī)森林在測(cè)試集中表現(xiàn)良好,由于兩種隨機(jī)性的引入,隨機(jī)森林不易陷入過(guò)擬合,可以處理高維數(shù)據(jù),無(wú)需特征選擇,對(duì)數(shù)據(jù)集的適應(yīng)性強(qiáng),具有一定的參考意義。通過(guò)隨機(jī)森林算法對(duì)共252 個(gè)樣品112 維度特征進(jìn)行分類(lèi)識(shí)別。
通過(guò)可視化有效鮮煙葉和無(wú)效鮮煙葉在主元分析中結(jié)果,將兩種煙葉的相同維度的數(shù)據(jù)貼標(biāo)簽后融合進(jìn)行主元分析。在前5 個(gè)主元中,主元的分布如圖5 所示,前5 個(gè)主元總貢獻(xiàn)率為99.92%,其解釋了大多數(shù)維度紋理特征。由于其分布在主元1 和主元2 下具有聚類(lèi)特征,如圖5 所示,藍(lán)點(diǎn)代表無(wú)效煙葉的分布,紅點(diǎn)代表有效煙葉的分布,主元分布圖通常能夠展示數(shù)據(jù)集的內(nèi)部信息。由圖5a 所示,其具有可區(qū)分性。
圖5 2D PCA 點(diǎn)圖主元 1 與主元 2(a)、主元 2 與主元 3(b)
雖然數(shù)據(jù)集具有聚類(lèi)特性,但是由于數(shù)據(jù)維度過(guò)高,冗余信息過(guò)多,因此通過(guò)主元荷載圖可以選擇最有效的特征信息與后續(xù)建立分類(lèi)模型具有對(duì)比性。由于其只在PC1 和PC2(圖5a)中具有明顯特征,圖6 僅展示PC1 和PC2 的荷載圖,通過(guò)荷載圖可以得知,其在第52 維度至第63 維度下具有顯著的有效性?;叶裙采仃囁惴ǖ牟介L(zhǎng)為4、8、16 下的0°、45°、90°和 135°共 12 維度,因此,初步認(rèn)為此參數(shù)下的紋理值能夠表征此數(shù)據(jù)集煙葉。
圖6 PCA 荷載圖 PC1(a)、PC2(b)
基于全維度的隨機(jī)森林判別模型,選擇20%的樣本集作為測(cè)試集,80%的樣本集作為訓(xùn)練集,到88%的分類(lèi)精度,通過(guò)10 次交叉驗(yàn)證得到其分類(lèi)精度在86%左右,具有較好的分類(lèi)表現(xiàn)(圖7)。
圖7 10 次交叉驗(yàn)證結(jié)果
在隨機(jī)森林判別模型中,確定最具重要性的紋理特征維度,作為評(píng)估煙葉紋理的定量分析指標(biāo),圖8 為選擇重要性大于0.03 的維度特征分別為灰度共生矩陣下距離4,角度45°的能量值;距離8,角度45°的能量值;距離8,角度90°的能量值;距離16,角度90°的能量值;距離 16,角度 90°的相關(guān)性值;Gabor小波紋理下波長(zhǎng)5,角度122.5°的標(biāo)準(zhǔn)差。樣品集中的煙葉擺放方式為煙梗朝上,葉尖朝下。
圖8 紋理維度重要度
選用貴州遵義中煙100 的鮮煙葉,經(jīng)專(zhuān)家挑選識(shí)別后,分為有效煙葉和無(wú)效煙葉兩類(lèi),其中無(wú)效煙葉包含過(guò)熟煙葉、帶病煙葉、殘損煙葉等。通過(guò)自主搭建的圖像采集系統(tǒng),在規(guī)范的色溫色差曝光等參數(shù)設(shè)定條件下,通過(guò)分析有效煙葉和無(wú)效煙葉的數(shù)字圖像,經(jīng)過(guò)預(yù)處理背景掩膜,提取無(wú)背景數(shù)值的鮮煙葉圖像,采用灰度共生矩陣法和Gabor 小波下的不同參數(shù)提取紋理特征值,通過(guò)主元分析得出最具區(qū)分度的紋理特征,同時(shí)采用隨機(jī)森林判別模型對(duì)樣本集分類(lèi),獲取能夠表征煙葉紋理值的定性指標(biāo)。
在灰度共生矩陣算法下,步長(zhǎng)參數(shù)為4、8、16 和提取角度為 0°、45°、90°和 135°共 12 維度的紋理值在第一主成分下有較好的聚類(lèi)效果,分別對(duì)應(yīng)的方向?yàn)橐詿煿5綗熑~尖為垂直方向,順時(shí)針0°、45°、90°和135°下的紋理方向有較好的表征。在隨機(jī)森林判別算法下,同時(shí)包含以上參數(shù)且分類(lèi)結(jié)果交叉驗(yàn)證為86%,得到較好的驗(yàn)證。因此,紋理參數(shù)下的紋理值能夠表征此數(shù)據(jù)集煙葉。本研究選用的參數(shù)為紋理數(shù)值,采用灰度共生矩陣算法和Gabor 小波變換得到的紋理圖,通過(guò)卷積網(wǎng)絡(luò)進(jìn)行紋理圖全局特征提取,再連接全連接層進(jìn)行分類(lèi)研究。