葛春靖,張淑娟,孫海霞
(山西農(nóng)業(yè)大學(xué)工程學(xué)院,山西太谷 030801)
玉露香梨是山西省農(nóng)科院果樹所用庫爾勒香梨作母本、雪花梨為父本雜交培育出的優(yōu)質(zhì)、耐貯藏梨新品種。2010年山西省政府確定隰縣為 “ 一縣一業(yè) ” 玉露香梨生產(chǎn)示范基地縣,截至2018年底,該縣玉露香梨種植面積23萬畝,掛果面積達(dá)到4.3萬畝,產(chǎn)量2.5億公斤,果品產(chǎn)值9億元,成為中國最大的玉露香梨生產(chǎn)基地[1]。玉露香梨于每年9月中旬成熟,其肉質(zhì)鮮嫩、口味香甜、石細(xì)胞極少、汁多味甜、營養(yǎng)豐富[2]。玉露香梨因皮薄核小、可食率大、香甜多汁深受消費(fèi)者的喜愛[3]。
梨果理化指標(biāo)主要有可溶性固形物、果實(shí)硬度、總酸量、固酸比等,可溶性固形物含量(soluble solids content,SSC)是一種綜合參數(shù),它影響果實(shí)的口感、風(fēng)味和貨架期。其中可溶性糖類是單糖、雙糖、多糖等的總稱,是衡量玉露香梨口感品質(zhì)和成熟度的內(nèi)部品質(zhì)之一[4]。傳統(tǒng)的SSC榨汁后采用折射法測定,這種方法檢測過程繁瑣,損壞樣本,難以滿足大宗水果采后分級分選的需求,所以尋找一種快速、準(zhǔn)確的檢測方法具有十分重要的意義。
高光譜成像技術(shù)是近幾年出現(xiàn)的一種快速無損檢測技術(shù),被廣泛用于農(nóng)產(chǎn)品內(nèi)部品質(zhì)的檢測。在水果SSC檢測方面,國內(nèi)外已進(jìn)行了大量的研究,李雄等[5]采用高光譜成像技術(shù)對酥梨的貨架期進(jìn)行預(yù)測和判別,分別建立偏最小二乘判別和最小二乘支持向量機(jī)判別模型。Xiaoli Li等[6]利用高光譜成像技術(shù)區(qū)分不同成熟度的櫻桃,建立了櫻桃果實(shí)PH值的預(yù)測模型。ElMasry等[7]采用高光譜成像技術(shù)檢測了草莓含水量、酸度,基于全波段建立偏最小二乘回歸(PLSR)模型,基于特征波長建立多元線性回歸模型(MLR)。李瑞等[8]采用近紅外光譜儀(900~1700 nm)檢測了藍(lán)莓果實(shí)的糖度和酸度,建立糖度和酸度的PLSR預(yù)測模型。孫海霞等[9]利用可見/近紅外光譜技術(shù)研究SSC檢測模型在儀器間的傳遞方法,結(jié)果發(fā)現(xiàn)基于全波段進(jìn)行模型傳遞時(shí),預(yù)測結(jié)果較差,基于共性變量傳遞后的結(jié)果好于單一變量和融合變量。Baiano等[10]采用高光譜技術(shù)測定7個(gè)品種鮮食葡萄的內(nèi)部品質(zhì)指標(biāo),并獲得較好的檢測效果。然而,上述研究中大部分是利用光譜信息建立PLSR和MLR等線性回歸模型,研究發(fā)現(xiàn),高光譜數(shù)據(jù)與待測品質(zhì)間存在明顯的非線性關(guān)系,非線性模型在蘋果和梨[11]等水果的內(nèi)部品質(zhì)檢測中更具有優(yōu)勢。人工神經(jīng)網(wǎng)絡(luò)可逼近任意非線性函數(shù),BP神經(jīng)網(wǎng)絡(luò)是具有代表性的人工神經(jīng)網(wǎng)絡(luò),但這種網(wǎng)絡(luò)應(yīng)用時(shí)容易陷入局部極小值和發(fā)生過擬合[12]。對于這些缺陷,Mohamad等[13]采用粒子群算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò),顯著提高巖石硬度檢測模型的預(yù)測精度和泛化能力。秦浩森等[14]采用蟻群算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)對盆地的基巖、泥質(zhì)砂、砂質(zhì)泥三種底質(zhì)類型進(jìn)行分類,網(wǎng)絡(luò)的預(yù)測平均誤差大大降低。洪亮等[15]基于模擬退火算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值進(jìn)行色差預(yù)測,與未優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)模型相比,優(yōu)化后的網(wǎng)絡(luò)對噴墨打印機(jī)色彩空間轉(zhuǎn)換具有較高的預(yù)測準(zhǔn)確性。但這些算法存在早熟收斂和全局尋優(yōu)能力弱等缺陷。遺傳算法具有全局尋優(yōu)能力,對優(yōu)化問題的數(shù)學(xué)要求較少,具有極大的靈活性,廣泛用于信號處理、機(jī)器學(xué)習(xí)等方面。但是,采用遺傳算法優(yōu)化玉露香梨SSC光譜檢測模型的研究少有報(bào)道。
為此,本文研究利用遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)以建立玉露香梨SSC檢測模型,并與傳統(tǒng)的PLSR以及BP神經(jīng)網(wǎng)絡(luò)作對比,然后采用不同數(shù)量的樣本訓(xùn)練GA-BP網(wǎng)絡(luò)進(jìn)而優(yōu)化SSC預(yù)測結(jié)果。
1.1 樣本采集
試驗(yàn)所用的玉露香梨樣本采集于山西省農(nóng)科院果樹所,挑選形狀規(guī)則、大小相近、完好無損的玉露香梨137個(gè)。采后當(dāng)天運(yùn)達(dá)實(shí)驗(yàn)室,將玉露香梨表面擦拭干凈并逐一編號,將其置于室溫保存12 h。
1.2 高光譜數(shù)據(jù)采集及校正
采用北京卓立漢光儀器有限公司生產(chǎn)的 “ 蓋亞 ” 高光譜分選儀采集高光譜信息,儀器主要由Image-λ-N1 0E光譜相機(jī)、CCD相機(jī)、光源、電控位移平臺(tái)、暗箱和計(jì)算機(jī)等組成,整個(gè)采集系統(tǒng)置于暗室里。設(shè)定曝光時(shí)間為20 ms,平臺(tái)移動(dòng)速度為1.5 cm/s,樣本與鏡頭距離為22 cm。
由于光強(qiáng)的變化和鏡頭中的暗電流都會(huì)使采集的光譜數(shù)據(jù)包含一定的噪聲,需要對高光譜數(shù)據(jù)進(jìn)行黑白校正。通過掃描標(biāo)準(zhǔn)白板和遮蓋鏡頭分別獲得全白標(biāo)定圖像Iw和全黑圖像Id,采集玉露香梨的原始光譜數(shù)據(jù)為Ir,通過式(1)獲得校正后的光譜數(shù)據(jù)[16]。
式中:S為校正后的光譜數(shù)據(jù)。
圖1 玉露香梨樣本和對應(yīng)的光譜曲線圖Fig.1 “ Yuluxiang ” pear sample and the corresponding spectral curve
采集每個(gè)果實(shí)果頂、赤道、果底三個(gè)部位(見圖1a)的光譜曲線,并求得整果的平均光譜曲線,如圖1b所示。從圖1b中可知,玉露香梨不同部位的光譜曲線變化趨勢一致,赤道部位的光譜曲線高于果頂和果底,果頂略高于果底。
1.3 玉露香梨SSC的測量
根據(jù)NY/T 2637-2014《水果、蔬菜制品可溶性固形物含量的測定-折射儀法》,采用上海鼎冷實(shí)業(yè)發(fā)展有限公司生產(chǎn)的BK-506型手持折光儀測定樣本的SSC。
1.4 建模方法與模型評價(jià)
1.4.1 BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的非線性映射能力,能很好的對光譜數(shù)據(jù)和理化值進(jìn)行擬合。但是每次訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)時(shí),各個(gè)神經(jīng)元的權(quán)值和閾值會(huì)被隨機(jī)賦值,這影響神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)和訓(xùn)練效果[17],使網(wǎng)絡(luò)輸出不穩(wěn)定。
1.4.2 GA算法
遺傳算法(Genetic AlgorithmGA)借鑒了達(dá)爾文生物進(jìn)化論中的 “ 物競天擇、適者生存 ” 演化法則,通過遺傳算子模擬生物遺傳過程中的選擇、交叉和變異等操作,獲得最優(yōu)個(gè)體[18]。
1.4.3 GA-BP模型
圖2 GA-BP模型流程圖Fig.2 Flowchart of GA-BP model
BP神經(jīng)網(wǎng)絡(luò)操作簡單,但算法的預(yù)測能力差。G A算法具有較強(qiáng)的全局搜索能力。在BP神經(jīng)網(wǎng)絡(luò)中引入GA算法優(yōu)化神經(jīng)元的權(quán)值和閾值。在訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)時(shí),采用mapminmax函數(shù)[19]對輸入數(shù)據(jù)進(jìn)行歸一化處理,可以加速模型的收斂速度。
構(gòu)建GA-BP網(wǎng)絡(luò)的主要步驟如下:
(1)確定BP神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu),包括輸入變量個(gè)數(shù),隱含層結(jié)構(gòu),輸出量個(gè)數(shù)。
(2)初始化種群。隨機(jī)生成N個(gè)染色體,在這里每個(gè)染色體為問題的一個(gè)解。
(3)染色體編碼。將解空間的初始值通過編碼轉(zhuǎn)換為遺傳空間的基因型數(shù)據(jù),基因數(shù)據(jù)的不同組合會(huì)形成不同的染色體編碼。
(4)計(jì)算適應(yīng)度值。GA算法的搜索目標(biāo)是朝著適應(yīng)度函數(shù)值增大的方向進(jìn)化,BP神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中,通過計(jì)算網(wǎng)絡(luò)的預(yù)測誤差平方和Se來更新神經(jīng)元的權(quán)值和閾值,在這里取誤差平方和的倒數(shù)作為適應(yīng)度函數(shù),為了避免除數(shù)為零引入一個(gè)足夠小的正數(shù)[20],最終的適應(yīng)度函數(shù)為:
(5)采用遺傳算子對種群的個(gè)體進(jìn)行選擇、交叉和變異操作。
(6)進(jìn)行迭代。根據(jù)所設(shè)定的最大迭代次數(shù),多次循環(huán)尋找最佳個(gè)體。
(7)判斷是否達(dá)到最大迭代次數(shù)或達(dá)到優(yōu)化目標(biāo),若滿足結(jié)束條件轉(zhuǎn)至步驟8,否則轉(zhuǎn)回步驟4。
(8)輸出GA算法搜素到的最優(yōu)個(gè)體,對其解碼并代入BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。GA-BP建模流程如圖2所示。
為對所建模型的性能進(jìn)行評價(jià),采用建模集決定系數(shù)(Rc2)、建模集均方根誤差(RMSEC)、預(yù)測集決定系數(shù)(Rp2)、預(yù)測集均方根誤差(RMSEP)、剩余預(yù)測偏差RPD(residual predictive deviation)[21]進(jìn)行評價(jià)。
1.4.4 數(shù)據(jù)處理
高光譜圖像經(jīng)黑白校正后,選擇圖1a所示的果頂、赤道和果底作為感興趣區(qū)域,在ENVI 4.7軟件中提取上述區(qū)域的高光譜數(shù)據(jù),然后在Matlab 2012a軟件上編寫程序計(jì)算感興趣區(qū)域內(nèi)全部像素點(diǎn)光譜的平均值、剔除異常樣本和建立預(yù)測模型,通過Unscrambler X 10.1軟件對光譜數(shù)據(jù)預(yù)處理,采用OriginPro 8.5軟件畫出光譜反射曲線。
2.1 蒙特卡羅偏最小二乘法剔除異常樣本
采用蒙特卡羅偏最小二乘法(monte carlo-partial least squares,MCPLS)篩選異常樣本時(shí),設(shè)置重復(fù)次數(shù)為N=5000。計(jì)算樣本集的預(yù)測殘差平均值(Me an)和預(yù)測殘差方差(standard deviation,STD),將Mean作為橫坐標(biāo),STD為縱坐標(biāo)畫出散點(diǎn)圖。如圖3所示,以Mean=2,STD=0.44為界限,共剔除37個(gè)異常樣本,分別為1、2、3、4、7、8、12、15、16、17、20、23、24、26、28、32、33、37、42、43、44、45、48、49、54、57、70、89、93、95、97、101、1 05、113、116、131、133號。用同樣的方法剔除果頂、果底各37個(gè)異常值,最終果頂、赤道和果底部位各有樣本100個(gè)。
圖3 蒙特卡羅偏最小二乘法剔除異常值Fig.3 Monte Carlo-partial least for removing outliers
2.2 樣本劃分和SSC分析
表1 樣本SSC結(jié)果的統(tǒng)計(jì)Table 1 Statistics of sample SSC
采用光譜-理化值共生距離(sample set partitio ning based on joint X-Y distance,SPXY)算法[22]按照3:1的比例劃分樣本,三個(gè)部位樣本集的劃分及SS C統(tǒng)計(jì)結(jié)果見表1,從表中可知建模集和預(yù)測集的平均值和標(biāo)準(zhǔn)差比較接近,且預(yù)測集的SSC分布范圍處于建模集的范圍之中,數(shù)據(jù)分布一致,說明樣本的劃分合理[23]。
不同位置玉露香梨的SSC變化趨勢如圖4所示。從果頂?shù)焦?,隨著位置的變化SSC值逐漸增加,顯然位置會(huì)影響玉露香梨SSC的分布。
圖4 位置對玉露香梨可溶性固形物含量的影響Fig.4 Effect of position on SSC of “ Yuluxiang ” pear
2.3 光譜數(shù)據(jù)預(yù)處理
表2 不同預(yù)處理方法的玉露香梨可溶性固形物PLSR模型Table 2 PLSR models of “ Yuluxiang ” pear SSC based on different pretreatment methods
采用中值濾波(median filter,MF),卷積平滑(Savitzky-Golay),基線校正(baseline correction),標(biāo)準(zhǔn)歸一化(standard normal variate,SNV),去趨勢法(De-trending),多元散射校正(multiplicative scatter correction,MSC)等方法進(jìn)行光譜數(shù)據(jù)預(yù)處理。將赤道部位原始光譜數(shù)據(jù)、不同預(yù)處理后的光譜數(shù)據(jù)與理化值建立PLSR模型,表2中的結(jié)果表明,MF預(yù)處理后所建PLSR模型的最優(yōu)預(yù)測結(jié)果Rp2為0.84。
2.4 玉露香梨SSC檢測模型的建立與分析
2.4.1 GA-BP模型的建立
將MF預(yù)處理后的光譜信息建立GA-BP模型進(jìn)行SSC預(yù)測,GA-BP模型最優(yōu)個(gè)體適應(yīng)度值的變化曲線如圖5所示。本研究中適應(yīng)度曲線的變化和模型的誤差成反比,圖中紅色和藍(lán)色兩條線分別表示迭代過程中不同的個(gè)體沿著不同的路徑達(dá)到相同的最大適應(yīng)度值,此時(shí)模型的誤差最小,性能最優(yōu)。
圖5 模型的適應(yīng)度曲線Fig.5 Fitness curve of the model
采用GA-BP、BP、PLSR建立的玉露香梨赤道部位的SSC模型的結(jié)果如表3所示,所建的GA-BP模型效果最好。GA-BP模型預(yù)測集的Rp2為0.86,RMSEP為0.43,RPD為2.45,預(yù)測精度最高。PLSR在三個(gè)模型中表現(xiàn)中等,BP模型最差。這說明GA算法能增強(qiáng)BP神經(jīng)網(wǎng)絡(luò)的尋優(yōu)能力和預(yù)測精度。然而GA-BP神經(jīng)網(wǎng)絡(luò)的預(yù)測精度雖高但存在過擬合現(xiàn)象,分析樣本可知,訓(xùn)練集和測試集分布一致,并經(jīng)MF預(yù)處理后去除了噪聲的影響,因此數(shù)據(jù)量較少是引起過擬合的原因。
表3 不同模型的預(yù)測結(jié)果Table 3 Prediction results of different models
2.4.2 不同樣本量下GA-BP模型的預(yù)測結(jié)果
為分析樣本量對所建GA-BP模型的影響,增加樣本果頂、果底的光譜信息和SSC,使得訓(xùn)練樣本量擴(kuò)增至300個(gè),分別取100、200、300個(gè)樣本,采用SPXY算法劃分建模集和測試集,然后建立GA-BP模型,試驗(yàn)結(jié)果如表4所示。
由表4可知,隨著樣本數(shù)量的增加,GA-BP模型的建模集決定系數(shù)和預(yù)測集的決定系數(shù)都在增加,并且比值Rp2/Rc2逐漸增大,通過增加樣本量可以使模型的過擬合現(xiàn)象得到明顯改善,樣本量為300所建GA-BP模型的預(yù)測結(jié)果如圖6所示。300個(gè)樣本所建GA-BP模型的預(yù)測集決定系數(shù)為0.98,均方根誤差為0.20,預(yù)測集決定系數(shù)和建模集決定系數(shù)的比值為0.98。
表4 不同樣本數(shù)下GA-BP模型的預(yù)測結(jié)果Table 4 The prediction results of GA-BP model under different numbers of samples
圖6 300個(gè)樣本的GA-BP模型的預(yù)測結(jié)果Fig.6 The prediction results of the GA-BP model for 300 samples
2.5 對比分析
對水果SSC進(jìn)行光譜檢測時(shí),高光譜技術(shù)的應(yīng)用十分廣泛。研究發(fā)現(xiàn)采用不同的建模方法其預(yù)測精度會(huì)有一定的差異,從表4和圖6可知,在足量的玉露香梨樣本下,基于遺傳算法改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)對SSC的預(yù)測精度為0.98,而高升等[24]基于高光譜成像技術(shù)建立紅提糖度的最優(yōu)PLSR模型,其預(yù)測精度為0.94;建立的最優(yōu)LSSVM模型,其預(yù)測精度為0.95,均低于GA-BP神經(jīng)網(wǎng)絡(luò)的預(yù)測精度。原因是GA-BP模型具有很好的非線性映射能力,經(jīng)過GA算法的優(yōu)化可找到最佳的權(quán)值和閾值。
本研究利用高光譜成像技術(shù)采集玉露香梨的光譜信息,建立了玉露香梨SSC的PLSR、BP、GA-BP模型,得到如下結(jié)論:
3.1 經(jīng)MF預(yù)處理后的光譜信息建立的玉露香梨SSC的PLSR預(yù)測模型性能最好。在相同樣本建模時(shí),GA-BP模型預(yù)測精度最高,Rp2為0.86,RMSEP為0.43,RPD為2.45,GA算法具有很好的全局尋優(yōu)功能。
3.2 樣本量不足導(dǎo)致GA-BP模型出現(xiàn)過擬合。采用不同的樣本量訓(xùn)練GA-BP模型,樣本量為300時(shí),GA-BP模型的過擬合現(xiàn)象得到改善同時(shí)預(yù)測精度得到提升,所建SSC檢測模型的Rc2為0.99,RMSEC為0.22,Rp2為0.98,RMSEP為0.20,證明采用GA-BP模型可有效提高玉露香梨SSC的檢測精度,為玉露香梨SSC的檢測提供了理論基礎(chǔ)。