吳永清 李 明 賀媛媛 郭波莉 張 波 巨明月 張影全 孫倩倩
(中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)產(chǎn)品加工研究所;農(nóng)業(yè)農(nóng)村部農(nóng)產(chǎn)品加工重點(diǎn)實(shí)驗(yàn)室,北京 100193)
小麥?zhǔn)侵匾募Z食作物之一,產(chǎn)量?jī)H次于水稻位居第二位,是中國(guó)主要糧食作物之一[1]。小麥品種鑒別在作物育種、市場(chǎng)流通、糧食加工等領(lǐng)域均具有十分重要的意義。高光譜成像結(jié)合圖像(形態(tài)、紋理等特征)和光譜信息,可同時(shí)快速、無損檢測(cè)樣品的物理(顏色、大小、形狀和質(zhì)地等)和內(nèi)部組成成分的化學(xué)和分子信息(水分、脂肪、蛋白及其他氫鍵物質(zhì))[2],已廣泛用于水稻[3,4]、玉米[5,6]、大豆[7,8]的鑒別研究,在實(shí)現(xiàn)小麥籽粒品種快速無損鑒別方面具有可行的理論基礎(chǔ)。
近年來,國(guó)內(nèi)外已有基于高光譜成像技術(shù)對(duì)小麥品種鑒別方面的研究報(bào)道,但仍處于初步探索階段。Mahesh等[9]采集了加拿大西部種植的8個(gè)小麥品種籽粒的960~1 700 nm波長(zhǎng)范圍的高光譜信息,比較不同比例的訓(xùn)練集、測(cè)試集和驗(yàn)證集的建模效果,研究發(fā)現(xiàn),模型性能隨著訓(xùn)練集比例增大而提高。董高等[10]利用最小二乘-支持向量機(jī)(LS-SVM)和最小二乘判別(PLS-DA)算法對(duì)單粒小麥850~1 700 nm波長(zhǎng)范圍的高光譜信息建立分類模型,實(shí)現(xiàn)了強(qiáng)筋、中筋、弱筋3個(gè)單籽粒小麥類型之間的分類。丁秋[11]等采集了10個(gè)品種共500個(gè)小麥籽粒388~1 009 nm波長(zhǎng)范圍的高光譜圖像,運(yùn)用主成分分析法提取3個(gè)特征波長(zhǎng),提取特征波長(zhǎng)下小麥籽粒圖像的形態(tài)特征和紋理特征,應(yīng)用貝葉斯(Bayes)判別分析法進(jìn)行建模,訓(xùn)練集和預(yù)測(cè)集的整體正確判別率分別為98%和100%。張航等[2]基于400~1 000 nm和900~1 700 nm波長(zhǎng)范圍的高光譜信息建立了小麥品種的主成分分析-支持向量機(jī)(PCA-SVM)分類模型,結(jié)果發(fā)現(xiàn)900~1 700 nm波長(zhǎng)范圍建模效果優(yōu)于400~1 000 nm,其中3個(gè)品種間種子分類正確率平均達(dá)到95%以上,4個(gè)品種間種子分類準(zhǔn)確率在80%左右,6個(gè)品種間種子分類準(zhǔn)確率在66%左右。Bao等[12]采集了5個(gè)小麥品種874~1 734 nm波長(zhǎng)范圍的高光譜信息,采用變量標(biāo)準(zhǔn)化算法(SNV)、多元散射校正(MSC)和小波變換(WT)等進(jìn)行光譜預(yù)處理,應(yīng)用主成分分析(PCA)、連續(xù)投影法(SPA)和隨機(jī)森林(RF)提取特征波長(zhǎng),基于全波長(zhǎng)和特征波長(zhǎng)建立線性判別(LDA)、支持向量機(jī)(SVM)和極限學(xué)習(xí)機(jī)(ELM)分類模型。發(fā)現(xiàn)基于全波長(zhǎng)的ELM模型性能最佳,訓(xùn)練集和預(yù)測(cè)集分別為91.3%和86.26%。目前高光譜成像技術(shù)應(yīng)用于小麥籽粒品種鑒別的模型正確判別率、穩(wěn)定性以及重現(xiàn)性等問題尚需要進(jìn)一步的研究和探討。
為明確高光譜成像技術(shù)對(duì)小麥籽粒品種鑒別的可行性和有效性,本研究利用高光譜成像技術(shù)采集小麥籽粒光譜和圖像信息,優(yōu)選不同部位光譜、預(yù)處理方法和特征波長(zhǎng)提取方法;在此基礎(chǔ)上,建立基于光譜信息、形態(tài)特征信息、光譜和形態(tài)特征信息結(jié)合的分類模型,構(gòu)建小麥品種快速、無損、有效、穩(wěn)定的鑒別技術(shù)。
選取黃淮冬麥區(qū)的6個(gè)主栽品種:師欒02-1、濟(jì)麥22、周麥27、藁優(yōu)2018、鄭麥366、矮抗58 的籽粒作為實(shí)驗(yàn)材料,同一品種各選100粒勻稱、完好無損的籽粒作為實(shí)驗(yàn)樣本,完成后將每種樣本單獨(dú)密封于標(biāo)記好的自封袋保存。
1.2.1 高光譜信息采集
實(shí)驗(yàn)所用儀器為高光譜圖像采集系統(tǒng)(Hyperspec?VNIR-E),其有效光譜的范圍為400~1 000 nm,共184個(gè)波段。采集高光譜圖像信息時(shí),小麥腹溝朝下,統(tǒng)一采集小麥籽粒背面的信息。
1.2.2 光譜信息和形態(tài)特征提取
運(yùn)用ENVI軟件中的ROI工具提取感興趣區(qū)域和形態(tài)特征。在胚、胚乳部位各選擇一個(gè)邊長(zhǎng)為20像素的正方形區(qū)域作為感興趣區(qū)域(如圖1所示),選擇的胚、胚乳、胚和胚乳部位混合感興趣區(qū)域的平均反射值作為樣品的原始光譜信息。形態(tài)特征包含小麥籽粒長(zhǎng)、寬和長(zhǎng)寬比,其中長(zhǎng)是小麥籽粒上距離最長(zhǎng)的兩端點(diǎn)之間長(zhǎng)度的像素?cái)?shù),寬是小麥籽粒上垂直于長(zhǎng)度兩端點(diǎn)之間連線中最長(zhǎng)線長(zhǎng)度的像素?cái)?shù),長(zhǎng)寬比是小麥籽粒長(zhǎng)度和寬度像素?cái)?shù)的比值。
圖1 小麥籽粒不同部位ROI提取示意圖
1.2.3 光譜數(shù)據(jù)分析方法1.2.3.1 光譜預(yù)處理和特征波長(zhǎng)提取
本實(shí)驗(yàn)選取移動(dòng)窗口平滑法(MA)、歸一化(NL)、一階求導(dǎo)(1stDer)、基線校正(BL)、變量標(biāo)準(zhǔn)化算法(SNV)5種方法對(duì)胚乳區(qū)域的原始光譜進(jìn)行預(yù)處理,采用競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(CARS)和連續(xù)投影算法(SPA)進(jìn)行特征波長(zhǎng)提取,分別建立LDA、SVM和K最鄰近(KNN)模型并進(jìn)行預(yù)測(cè),篩選最優(yōu)的光譜預(yù)處理和特征波長(zhǎng)提取方法。
1.2.3.2 樣本集劃分
6個(gè)小麥品種樣本共600粒,根據(jù)Kennard-Stone算法按照3∶1劃分訓(xùn)練集和預(yù)測(cè)集,訓(xùn)練集450粒小麥籽粒用于判別模型的建立,預(yù)測(cè)集150粒小麥籽粒用于判別模型的驗(yàn)證。
本研究采用ENVI 5.1、The Unscramber X 10.3、Matlab R2019b等軟件進(jìn)行光譜數(shù)據(jù)分析。
由表1可知,基于胚乳和胚、胚乳部位混合光譜建立的LDA模型的預(yù)測(cè)集正確判別率均為79.3%,但基于胚乳部位光譜建立的SVM和KNN模型的預(yù)測(cè)集正確判別率均高于胚、胚乳部位混合光譜所建模型。因此,確定基于小麥胚乳部位光譜建立的模型性能最佳。故后續(xù)的研究均基于胚乳部位的光譜進(jìn)行。
表1 基于不同小麥籽粒部位光譜建立的模型判別結(jié)果
由表2可知,與基于原始光譜(RAW)建模效果相比,研究采用的大部分光譜預(yù)處理方法能提高LDA和SVM的建模效果,但只有4種方法或組合對(duì)KNN建模效果有提高作用。單一預(yù)處理方法整體上優(yōu)于組合預(yù)處理方法,其中單一處理的1STDer最優(yōu),基于其處理的光譜建立的SVM模型訓(xùn)練集和預(yù)測(cè)集的正確判別率分別為83.6%和84.0%。因此,基于原始光譜和1STDer處理后的光譜進(jìn)行后續(xù)特征波長(zhǎng)提取方法篩選的研究。
2.3.1 競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法
CARS算法(設(shè)置蒙特卡羅采樣次數(shù)N=100,五折交叉檢驗(yàn))在MatlabR2019b軟件中運(yùn)行的結(jié)果如圖2所示,圖2中表示為波長(zhǎng)變量?jī)?yōu)選過程中各波長(zhǎng)變量回歸系數(shù)的變化趨勢(shì),“*”所對(duì)應(yīng)的位置即為RMSECV值最小處對(duì)應(yīng)波長(zhǎng)變量子集最優(yōu),子集中分別包含了34和41個(gè)波長(zhǎng)變量,即基于原始光譜和1STDer處理后的光譜進(jìn)行CARS特征波長(zhǎng)提取的特征波長(zhǎng)分別為34和41個(gè)。
圖2 CARS算法提取特征波長(zhǎng)
2.3.2 連續(xù)投影算法
本研究采用SPA算法基于原始光譜和1STDer處理后的光譜進(jìn)行特征波長(zhǎng)提取,結(jié)果發(fā)現(xiàn)當(dāng)特征波長(zhǎng)數(shù)為33和39個(gè)時(shí),RMSE值達(dá)到最小值分別為1.083 7和1.176 6,即基于原始光譜和1STDer處理后的光譜進(jìn)行CARS特征波長(zhǎng)提取的特征波長(zhǎng)分別為33和39個(gè)。
2.3.3 判別模型的建立與預(yù)測(cè)分析
由表3可知,基于特征波長(zhǎng)建立的模型的效果整體上優(yōu)于全波長(zhǎng)。SPA的降維程度高于CARS,但建模效果CARS優(yōu)于SPA。由2.3.2可知,光譜1STDer預(yù)處理能提高建模的效果。但由表3可知,基于原始光譜進(jìn)行特征波長(zhǎng)提取的建模效果優(yōu)于經(jīng)過1STDer預(yù)處理的光譜,其中建模效果最佳的為RAW-CARS-LDA模型,其訓(xùn)練集和預(yù)測(cè)集的正確判別率均為84.7%。故采用RAW-CARS提取的特征波長(zhǎng)的光譜進(jìn)行后續(xù)的基于光譜信息、形態(tài)特征、二者結(jié)合建立的模型對(duì)小麥籽粒品種鑒別的影響研究。
表3 基于不同特征波長(zhǎng)提取方法建立的模型判別結(jié)果
由表4可知,基于特征波長(zhǎng)的光譜信息建立的模型中,LDA模型效果最佳,其訓(xùn)練集和預(yù)測(cè)集的整體正確判別率均為84.7%?;谛螒B(tài)特征建立的模型整體效果比基于特征波長(zhǎng)的光譜信息建立的模型差,其中KNN模型最佳,其訓(xùn)練集和預(yù)測(cè)集的整體正確判別率分別為55.8%和50.7%。基于特征波長(zhǎng)的光譜信息和形態(tài)特征結(jié)合建立的模型,其訓(xùn)練集和預(yù)測(cè)集的整體判別率分別為91.8%和86.0%,分類效果優(yōu)于單一使用光譜信息或形態(tài)特征建模效果。因此,結(jié)合光譜信息和形態(tài)特征結(jié)合建立的LDA模型能夠有效的實(shí)現(xiàn)小麥籽粒品種鑒別。
表4 基于光譜信息、形態(tài)特征、二者結(jié)合建立的模型判別結(jié)果
本研究比較了基于胚、胚乳、胚和胚乳混合部位光譜所建模型效果,發(fā)現(xiàn)胚乳部位光譜所建模型性能略優(yōu)于胚部位以及胚和胚乳混合部位光譜,與董高等[10]的研究一致。這可能由于小麥籽粒胚和胚乳表面紋理不同所致,胚部位表面凹凸不平,反射光的不規(guī)律性使得胚區(qū)域的光譜數(shù)據(jù)存在一定隨機(jī)誤差,其光譜不能很好的反映胚區(qū)域的物質(zhì)特性。此外,不同部位光譜所建模型性能的差異也可能由于小麥籽粒胚和胚乳部分化學(xué)成分不同。小麥籽粒胚部纖維含量高,而胚乳主要由蛋白和淀粉粒組成[13,14]。
不同預(yù)處理方法對(duì)模型的判別精度有較大影響,本研究比較了MA、NL、BL、1STDer、SNV對(duì)小麥籽粒光譜預(yù)處理的效果,其中經(jīng)過1STDer預(yù)處理之后的模型判別效果最好。這可能由于本研究中的6個(gè)小麥品種的原始光譜波段差異小且中存在大量與樣本自身性質(zhì)無關(guān)的冗余信息,這會(huì)干擾到所建模型的判別精度和預(yù)測(cè)模型的效果,而1STDer能消除基線平移、背景的干擾、分辨重疊峰、提高分辨率和靈敏度[15]。Bao等[12]的研究發(fā)現(xiàn),與原始光譜建立的小麥品種鑒別模型相比,WT、SNV、MSC 3種預(yù)處理方法對(duì)模型性能均沒有提高作用。因此,應(yīng)根據(jù)光譜特征選擇適當(dāng)?shù)念A(yù)處理方法,也突出了進(jìn)行預(yù)處理方法篩選的重要性。
特征波長(zhǎng)提取不僅可以簡(jiǎn)化小麥品種鑒別研究中模型結(jié)構(gòu),而且可以剔除不相關(guān)、低貢獻(xiàn)的波長(zhǎng),提高運(yùn)算速度,降低設(shè)備開發(fā)成本。CARS算法將每一個(gè)波長(zhǎng)作為單獨(dú)的個(gè)體,利用自適應(yīng)重加權(quán)采樣技術(shù)篩選出PLS模型中的回歸系數(shù)絕對(duì)值大的波長(zhǎng),淘汰回歸系數(shù)絕對(duì)值小的波長(zhǎng),并采用交叉驗(yàn)證選出PLS模型中均方根誤差值最小的變量子集,即為最優(yōu)波長(zhǎng)變量子集[16]。SPA是一種采用前向選擇特征波長(zhǎng)的算法,通過SPA提取到的特征波長(zhǎng)具有共線性小和冗余度低的性能,但卻可以代表大多數(shù)樣本的光譜信息[17]。本研究中SPA的降維程度高于CARS,但建模效果CARS優(yōu)于SPA,因?yàn)榻?jīng)SPA法剔除了過多信息,其中包含了大量有用信息。CARS算法基于胚乳部位原始光譜提取了34個(gè)特征波長(zhǎng),僅用了全波長(zhǎng)的18.5%波段,但訓(xùn)練集和預(yù)測(cè)集的正確判別率分別提高了6%和5.4%,說明CARS是基于高光譜技術(shù)的小麥品種鑒別研究有效的特征波長(zhǎng)提取方法。而Bao等[12]研究采用SPA、主成分分析載荷(PCA loading)和隨機(jī)蛙跳(RF)3種方法提取了全波長(zhǎng)5%、18%、25%的波長(zhǎng),相比基于全波長(zhǎng)的光譜建立的ELM模型的預(yù)測(cè)集正確判別率86.26%,基于SPA、PCA loading、RF 3種方法提取的波長(zhǎng)建立的模型的正確判別率分別降低了15.72%、14.26%、3.02%。因此,應(yīng)根據(jù)特定光譜選擇適當(dāng)?shù)奶卣鞑ㄩL(zhǎng)提取方法。
本研究基于特征波長(zhǎng)的光譜信息和形態(tài)特征結(jié)合建立的模型,預(yù)測(cè)集正確判別率為86.0%,比單一使用光譜信息、形態(tài)特征所建LDA模型分別提高1.3%和45.3%,董高等[10]分別基于6個(gè)品種小麥籽粒的胚和胚乳光譜信息和形態(tài)特征結(jié)合建立的LS-SVM模型的正確判別率分別為98.89%和100%,比僅使用光譜信息建立的LS-SVM模型分別提高3.33%和1.11%。同是進(jìn)行6個(gè)小麥品種的品種鑒別,本研究的判別正確率低于董高等[10]研究,而影響進(jìn)一步提高正確率的原因可能在于:其一,采用的形態(tài)特征參數(shù)數(shù)量較少,本研究?jī)H采用長(zhǎng)、寬和長(zhǎng)寬比3個(gè)參數(shù),而董高等[10]的研究采用了小麥籽粒長(zhǎng)、寬、長(zhǎng)寬比、離心率、矩形度、圓形度、周長(zhǎng)、面積、胚乳面積、胚面積以及二者面積比等12個(gè)參數(shù);其二,光譜采集的波長(zhǎng)范圍不同,張航等[2]的研究表明900~1 700 nm波長(zhǎng)范圍所建模型的小麥品種鑒別效果優(yōu)于400~1 000 nm波長(zhǎng)范圍所建模型。本研究采用的波長(zhǎng)范圍為400~1 000 nm,而董高等[10]采用的波長(zhǎng)范圍為850~1 700 nm。故后續(xù)研究可增加形態(tài)特征參數(shù)的數(shù)量以及將波長(zhǎng)范圍擴(kuò)大至2 500 nm,以獲得更多的化學(xué)成分的光譜信息,從而進(jìn)一步提高本研究的6個(gè)小麥品種鑒別模型的正確判別率。
本研究基于高光譜成像技術(shù)進(jìn)行6個(gè)小麥品種的品種鑒別研究,得到以下結(jié)論。
基于胚、胚乳和胚、胚乳部位混合光譜所建模型中,胚乳部位的建模效果最佳,其訓(xùn)練集和預(yù)測(cè)集的正確判別率分別為78.7%和79.3%。
采用MA、NL、BL、1STDer、SNV 5種預(yù)處理方法以單一和組合的方法對(duì)光譜進(jìn)行預(yù)處理,所建模型中,單一處理建模效果優(yōu)于組合,其中1STDer效果最佳,其訓(xùn)練集和預(yù)測(cè)集的正確判別率分別為83.6%和84.0%。
利用CARS和SPA算法進(jìn)行特征波長(zhǎng)提取,CARS建模效果優(yōu)于SPA,基于原始光譜進(jìn)行特征波長(zhǎng)提取的建模效果優(yōu)于經(jīng)過1STDer預(yù)處理的光譜,其中RAW-CARS-LDA建模效果最佳,其訓(xùn)練集和預(yù)測(cè)集的正確判別率均為84.7%。
基于特征波長(zhǎng)的光譜信息和形態(tài)特征結(jié)合建立的LDA模型,分類效果優(yōu)于單一使用光譜信息或形態(tài)特征信息建模效果,訓(xùn)練集和預(yù)測(cè)集的正確判別率分別為91.8%和86.0%。