常金強(qiáng),張若宇,龐宇杰,張夢(mèng)蕓,扎 亞
石河子大學(xué)機(jī)械電氣工程學(xué)院/農(nóng)業(yè)農(nóng)村部西北農(nóng)業(yè)裝備重點(diǎn)實(shí)驗(yàn)室,新疆 石河子 832003
近年來棉花全程機(jī)械化生產(chǎn)比例增加,機(jī)采籽棉需要在后續(xù)加工過程中進(jìn)行多道清理工藝,但是清理機(jī)械會(huì)對(duì)棉花纖維造成損失,降低加工所得皮棉的品質(zhì),影響最終產(chǎn)品價(jià)格和經(jīng)濟(jì)效益。因此對(duì)棉花雜質(zhì)進(jìn)行檢測(cè),并將雜質(zhì)進(jìn)行分類判別,為調(diào)整棉花清理機(jī)械加工參數(shù)和工序提供參考依據(jù),對(duì)提升皮棉品質(zhì)具有重要實(shí)際生產(chǎn)價(jià)值和意義。
由于皮棉中異纖含量對(duì)價(jià)格影響較大,國內(nèi)的研究主要集中在異性纖維檢測(cè)[1-2]。張志峰等[3]提出了一種基于改進(jìn)的自適應(yīng)迭代閾值法皮棉疵點(diǎn)快速檢測(cè)方法;張林等[4]采用LED與線激光的雙光源一次成像方法,可以檢測(cè)出各種顏色的異性纖維;張成梁等[5-6]、王昊鵬等[7]提取機(jī)采籽棉可見光圖像中雜質(zhì)的顏色、形狀和紋理特征,對(duì)各類植物雜質(zhì)進(jìn)行分類檢測(cè);倪超等[8]采用深度學(xué)習(xí)方法對(duì)短波近紅外高光譜圖像中的地膜進(jìn)行檢測(cè)。
國外的研究主要集中在植物性雜質(zhì)的檢測(cè),Wang等[9]采用基于自動(dòng)視覺檢測(cè)系統(tǒng)的偽異性纖維檢測(cè)方法,提高了棉花中異性纖維的分類精度。Fortier等[10]建立棉花中植物雜質(zhì)的近紅外光譜庫,進(jìn)行雜質(zhì)光譜分類識(shí)別。Li等[11-15]基于高光譜成像技術(shù),采用反射、透射和熒光等成像方式,應(yīng)用降維、特征波段選擇、分類判別算法等分析方法,對(duì)皮棉中多種植物和異纖雜質(zhì)進(jìn)行檢測(cè)。
上述研究對(duì)象主要是皮棉,由于皮棉經(jīng)過雜質(zhì)清理和軋花去籽處理,雜質(zhì)含量小,棉層均勻易于圖像中雜質(zhì)的檢測(cè);而機(jī)采籽棉中不僅含有較多雜質(zhì),且棉籽導(dǎo)致棉層不均勻,使得圖像檢測(cè)難度增大,使用傳統(tǒng)的檢測(cè)方法無法有效檢測(cè)各類雜質(zhì)。
基于高光譜成像檢測(cè)技術(shù),根據(jù)棉花和各類雜質(zhì)的光譜特征,針對(duì)機(jī)采籽棉中存在的植物和殘膜雜質(zhì)建立分類判別模型;并充分利用光譜圖像的空間信息,實(shí)現(xiàn)對(duì)機(jī)采籽棉各類雜質(zhì)的像素等級(jí)分類判別,為棉花加工設(shè)備提供快速信息反饋。
共取樣籽棉10 kg,其中籽棉取自棉花加工企業(yè),地膜取自采收后的棉花地。將籽棉和雜質(zhì)手動(dòng)混合均勻,每個(gè)樣本(30±0.5)g,使用電子天平稱重(量程1 000 g,分度值0.01 g),共120個(gè)籽棉樣本。樣本中檢測(cè)的雜質(zhì)有棉葉,棉枝,鈴殼(內(nèi)和外)和地膜共5種雜質(zhì),如圖1所示。
圖1 機(jī)采籽棉和主要雜質(zhì)
高光譜圖像采集系統(tǒng)如圖2所示,由成像光譜儀(Imspectral V10E-QE,F(xiàn)inland)、CCD相機(jī)(C8484-05G, Hamamatsu Photonics,Japan)、鏡頭、光源(150 W鹵素?zé)簦珻hina)、電動(dòng)位移平臺(tái)(PSA200-11-X,Zolix)和電動(dòng)位移平臺(tái)控制器(CS300-1A,Zolix)、暗箱、PC計(jì)算機(jī)等組成;在PC上用Spectral軟件進(jìn)行圖像采集軟件控制。高光譜成像系統(tǒng)光譜范圍為360~1 000 nm,光譜分辨率為2.7 nm,采集的圖像有256個(gè)波段。
圖2 高光譜圖像采集系統(tǒng)
為保證視野足夠,調(diào)節(jié)鏡頭和樣本的間距為25.5 cm;為矯正速度不匹配帶來的空間畸變,使用一張打印有一個(gè)圓圈的A4紙調(diào)試平臺(tái)的速度,轉(zhuǎn)速設(shè)定為940 pulses·s-1;曝光時(shí)間為3.5 ms。
將樣本置于內(nèi)部大小為15 cm×20 cm×3 cm的樣本盒中,分布均勻,將樣本盒固定于移動(dòng)平臺(tái)上進(jìn)行圖像采集。樣本盒覆蓋有黑色背景紙,有利于后期掩膜去除背景以及后續(xù)處理。
為減少光源光強(qiáng)分布不均勻?qū)е碌膱D像信息噪聲影響,使用的高光譜成像系統(tǒng)在采集圖像之前需要進(jìn)行黑白校正。掃描聚四氟乙烯白板獲得白校正圖像;鏡頭擰上鏡頭蓋并關(guān)閉光源采集黑校正圖像,該圖像包含有相機(jī)暗電流噪聲信息。圖像采集后用軟件SpecView(V2.9.2.7)按式(1)進(jìn)行校正
(1)
其中:I為原始圖像,Ib為黑校正圖像,Iw為白校正圖像,Ia為獲取校正后的圖像。
使用PCA(principal component analysis,PCA)對(duì)平均光譜數(shù)據(jù)進(jìn)行分析,將成百個(gè)相互高度相關(guān)波段數(shù)據(jù)降維至少數(shù)個(gè)新的主成分變量上,用來代替原來數(shù)據(jù)的大部分信息,并通過繪制分布散點(diǎn)圖體現(xiàn)原光譜數(shù)據(jù)的分類識(shí)別可行性。
采用LDA,SVM和ANN三種有監(jiān)督的分類判別分析方法建立機(jī)采籽棉雜質(zhì)多分類判別模型。模型訓(xùn)練的過程為:首先將提取的平均光譜數(shù)據(jù)按照7∶3的比例,隨機(jī)劃分為訓(xùn)練集和測(cè)試集;然后根據(jù)不同模型的參數(shù)特點(diǎn)和數(shù)據(jù)特性,使用訓(xùn)練集采用5折交叉驗(yàn)證,確定最佳的模型參數(shù), 并使用測(cè)試集對(duì)模型結(jié)果進(jìn)行評(píng)估。
2.1.1 平均光譜曲線提取與變化規(guī)律
經(jīng)過黑白校正后的圖像,在可見至近紅外波段上,共有256個(gè)波段。意味著在空間域上每個(gè)像素具有256個(gè)特征,這些特征組成該像素對(duì)應(yīng)的光譜曲線。因高光譜圖像中存在噪聲,單一像素對(duì)應(yīng)的光譜曲線可能在噪聲的影響下,表現(xiàn)出較大的變化。因?yàn)楣庾V成像儀的特性,高光譜圖像在首尾的波段圖像噪聲較大,有用信息較少,所以將這些波段剔除,即去除395 nm以前和970 nm以后的光譜圖像波段,將395~970 nm區(qū)間共226個(gè)光譜波段的數(shù)據(jù)作為后續(xù)分析數(shù)據(jù)。
從每幅圖像中提取10條平均光譜曲線,共1 200條光譜曲線,其中棉葉、殘膜、鈴殼外、鈴殼內(nèi)、棉枝和棉花分別為457,173,88,193,63和226條。繪制機(jī)采籽棉中具有代表性的棉花和各類雜質(zhì)的平均光譜曲線,如圖3所示:各類物質(zhì)在430 nm處附近反射率均為最小,吸收最強(qiáng);棉花的反射率較其他物質(zhì)在大部分波段范圍高;殘膜整體上和棉花變化趨勢(shì)一致,但是數(shù)值比棉花低,驗(yàn)證了從圖像上檢測(cè)殘膜的難度較大;鈴殼內(nèi)的反射率在750 nm前低于棉花和殘膜,但是在750 nm后超過了棉花和殘膜;棉葉、棉枝和鈴殼外在趨勢(shì)和數(shù)值上都比較相似,但是棉葉在680 nm處出現(xiàn)了吸收峰,此現(xiàn)象對(duì)應(yīng)了葉綠素的吸收波段。從630 nm開始到近紅外波段范圍內(nèi),鈴殼外的反射率比棉葉和棉枝都高。
圖3 機(jī)采棉和各類雜質(zhì)平均光譜曲線
綜上所述,雖然棉花和各類雜質(zhì)的光譜曲線趨勢(shì)相同,但還是體現(xiàn)出不同的吸收和反射特性。不同種類物質(zhì)(棉花、化學(xué)纖維和植物)之間的差異大于同類物質(zhì)之間的光譜差異,同種物質(zhì)之間的差異不能通過單個(gè)波段進(jìn)行判別,所以需要進(jìn)行數(shù)據(jù)分析和建模。
2.1.2 機(jī)采籽棉光譜曲線PCA分析
對(duì)提取的平均光譜曲線進(jìn)行PCA變換,如圖4所示,前2個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到了97.2%,前6個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到了99.9%,能夠代表原始光譜數(shù)據(jù)的大部分信息。PCA前兩個(gè)主成分的散點(diǎn)圖如圖5所示,6類物質(zhì)光譜變換后的新變量分布于整個(gè)空間中。由圖可知,棉花、殘膜和鈴殼外與其他三類相比,有較好的聚集性和可分性,但是由于棉葉、鈴殼內(nèi)和棉枝三類的物質(zhì)組成(纖維素和木質(zhì)素)相似性較高,光譜特征相似,導(dǎo)致相互疊加在一起,空間分布存在嚴(yán)重交叉,無法有效區(qū)分類別。由于PCA為無監(jiān)督降維方法,無法有效利用分類信息,因此需要使用有監(jiān)督的數(shù)據(jù)建模方法,對(duì)光譜分類數(shù)據(jù)進(jìn)行學(xué)習(xí)擬合,實(shí)現(xiàn)對(duì)雜質(zhì)類別的準(zhǔn)確識(shí)別。
圖4 前6個(gè)主成分的特征值和累計(jì)貢獻(xiàn)率
圖5 前2個(gè)主成分分類散點(diǎn)圖
2.2.1 線性判別分析(LDA)模型
線性判別分析(linear discriminant analysis, LDA)是將原始數(shù)據(jù)投影到更低的維度上,減少特征之間的線性相關(guān)性導(dǎo)致的特征冗余問題。通過LDA進(jìn)行降維,可以達(dá)到提升分類準(zhǔn)確率的目的。
與PCA中的分布相比,圖6(a)中棉花、殘膜和鈴殼外有更好的聚集性和可分性,表明有監(jiān)督的LDA模型降維方法變換后的數(shù)據(jù)具有更好的可分性;但是棉葉、鈴殼內(nèi)和棉枝這三類還是相互疊加在一起,空間分布存在嚴(yán)重交叉,無法有效區(qū)分類別。因此針對(duì)該三類重新進(jìn)行了LDA降維,見圖6(b)中的棉葉、鈴殼內(nèi)和棉枝表現(xiàn)出了較高的可分性,驗(yàn)證了LDA模型在機(jī)采籽棉多分類上的可行性。
圖6 LDA前兩個(gè)特征的類別散點(diǎn)圖
因LDA易出現(xiàn)過擬合,因此在LDA模型構(gòu)件中采用正則化防止過擬合,建立分類模型,得到訓(xùn)練集準(zhǔn)確率為86.4%,測(cè)試集準(zhǔn)確率為86.2%,其差值較小,未出現(xiàn)過擬合現(xiàn)象。
2.2.2 支持向量機(jī)(SVM)模型
支持向量機(jī)(support vector machine, SVM)廣泛應(yīng)用于建立分類判別模型。在SVM分類模型構(gòu)建中采用RBF徑向基函數(shù)構(gòu)建了分類模型,對(duì)gamma(g)和cost(C)兩個(gè)參數(shù)進(jìn)行尋優(yōu),將Lg(g)和-Lg(c)參數(shù)區(qū)間設(shè)置為[0,10]。由圖7可知,在C=105、gamma=0.1時(shí),交叉驗(yàn)證集的準(zhǔn)確率最高達(dá)到95.19%。根據(jù)最優(yōu)參數(shù)模型得出訓(xùn)練集準(zhǔn)確率為83.42%,測(cè)試集準(zhǔn)確率為83.40%,兩者差值較小,未出現(xiàn)過擬合現(xiàn)象。
圖7 SVM模型尋優(yōu)結(jié)果
2.2.3 人工神經(jīng)網(wǎng)絡(luò)(ANN)模型
人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)是一種影響強(qiáng)、分類效果好的神經(jīng)網(wǎng)絡(luò)分類算法,在解決非線性問題上具有較強(qiáng)能力。在ANN分類模型構(gòu)建中,設(shè)置隱含層層數(shù)區(qū)間為[1,10],隱含層神經(jīng)元個(gè)數(shù)區(qū)間為[1,18],激活函數(shù)選擇Relu函數(shù)進(jìn)行參數(shù)尋優(yōu)。由圖8可知,在隱含層層數(shù)為2,隱含層神經(jīng)元個(gè)數(shù)為17,交叉驗(yàn)證集的準(zhǔn)確率達(dá)到最高為73.92%。以尋優(yōu)所得到的參數(shù),建立ANN分類模型并輸出,訓(xùn)練集準(zhǔn)確率為82.9%,測(cè)試集準(zhǔn)確率為81.8%,沒有發(fā)生過擬合。
圖8 ANN參數(shù)尋優(yōu)結(jié)果
對(duì)上述的多分類模型準(zhǔn)確率性能進(jìn)行對(duì)比,如表1所示,結(jié)果顯示LDA模型的準(zhǔn)確率高于SVM模型和ANN模型,訓(xùn)練集和預(yù)測(cè)集的準(zhǔn)確率達(dá)到了86.4%和86.2%。由于高光譜波段之間有較高的相關(guān)性,分類模型無法有效篩選信息,會(huì)引起誤差的產(chǎn)生。LDA在分類前對(duì)光譜特征進(jìn)行了降維,減少了特征之間的相關(guān)性,保留了大部分類間信息,因此在多分類問題中,相較于SVM和ANN具有更好的效果。
表1 光譜曲線分類模型準(zhǔn)確率和時(shí)間
三個(gè)模型預(yù)測(cè)效果如圖9所示。在LDA模型中,地膜、鈴殼(內(nèi)和外)和棉花的準(zhǔn)確率較高,均高于90%;棉葉和棉枝的準(zhǔn)確率較低,分別為59.84%和77.08%,其中有26.77%的棉葉被識(shí)別為棉枝,9.72%的棉枝被識(shí)別為棉葉,9.72%的棉枝和8.66%的棉葉被識(shí)別為鈴殼內(nèi);與LDA模型相比較,SVM模型和ANN模型的鈴殼內(nèi)準(zhǔn)確率有所降低,誤差類別分布一致但較高。分析認(rèn)為這些識(shí)別錯(cuò)誤的原因主要是棉葉、棉枝和鈴殼內(nèi)的物質(zhì)成分相似度高,導(dǎo)致在波段范圍內(nèi)表現(xiàn)出光譜曲線相似的特點(diǎn)。
圖9 分類模型預(yù)測(cè)集效果
根據(jù)三種算法對(duì)120個(gè)高光譜圖像進(jìn)行檢測(cè)分類,并將運(yùn)行時(shí)間進(jìn)行平均,得到每個(gè)模型檢測(cè)高光譜圖像所需運(yùn)行時(shí)間。結(jié)果如表1所示,SVM,LDA和ANN的運(yùn)行時(shí)間分別為73.65,1.86和2.58 s,綜合比較,LDA的分類準(zhǔn)確率較高且運(yùn)行時(shí)間少,確定LDA分類模型為最優(yōu)模型。
使用訓(xùn)練的LDA模型對(duì)高光譜圖像進(jìn)行像素等級(jí)分類,分類效果如圖10所示。可看出棉花識(shí)別效果較好;部分棉葉和棉枝不能有效識(shí)別;地膜雖然被檢測(cè)出來,但因地膜的光譜曲線在大部分波段上和棉花相似,亮度較棉花低,所以部分棉花中表面不平導(dǎo)致的亮度較低的區(qū)域被識(shí)別為地膜。上述分類效果與雜質(zhì)光譜的分類判別模型結(jié)果一致。
圖10 高光譜圖像像素等級(jí)分類識(shí)別結(jié)果
(1)通過參數(shù)優(yōu)化,建立了三種機(jī)采籽棉雜質(zhì)分類判別模型。其中LDA的分類準(zhǔn)確率較高,訓(xùn)練集和測(cè)試集的準(zhǔn)確率分別為86.4%和86.2%。由于棉葉和棉枝的物質(zhì)成分相似,光譜曲線相似,導(dǎo)致棉葉和棉枝雜質(zhì)的分類準(zhǔn)確率較低。
(2)對(duì)于像素等級(jí)雜質(zhì)檢測(cè),該方法能夠識(shí)別大部分雜質(zhì),檢測(cè)效果明顯。LDA算法需要的時(shí)間約為1.86 s,少于ANN的2.58 s,且遠(yuǎn)少于SVM的73.65 s,能夠滿足實(shí)際生產(chǎn)對(duì)于檢測(cè)的需求,因此LDA為最佳模型。
(3)在后續(xù)研究中可以基于該方法,增加樣本數(shù)量,選擇覆蓋范圍更大的波段和加入紋理特征,提升棉葉和棉枝的檢測(cè)效果;并根據(jù)光譜圖像數(shù)據(jù)分析提取特征波段,開發(fā)多光譜成像檢測(cè)系統(tǒng),實(shí)現(xiàn)更高效率的機(jī)采籽棉雜質(zhì)實(shí)時(shí)檢測(cè)。