蘋果貨架期GAN-BP-ANN預測模型研究

2021-12-07 05:36:52馬惠玲曹夢柯邱凌雨任小林

農業(yè)機械學報 2021年11期

馬惠玲曹夢柯王棟邱凌雨任小林

(1.西北農林科技大學生命科學學院，陜西楊凌 712100; 2.西北農林科技大學園藝學院，陜西楊凌 712100)

0 引言

我國蘋果年產量約占世界總產量的50%[1]。準確預測貨架期能有效減少貯藏損失，保障上市果實品質。在蘋果保鮮技術的研究中，通常測定失重率、可溶性固形物含量、可滴定酸含量、硬度、色值、抗壞血酸含量等品質指標來衡量保鮮效果[2-5]。因此，有望從中篩選特征指標或組合來用于采后蘋果的貨架期預測。目前在一些果蔬上已成功運用品質指標來構建貨架期預測模型[6-8]。

廣泛應用于貨架期預測的模型主要包括傳統(tǒng)的動力學模型以及機器學習模型等。前人對蘋果采后品質指標變化也進行了探究，以及建立了Arrhenius貨架期預測方程，但預測準確率較低[9]，說明常用的動力學模型難以表征蘋果采后品質綜合變化的復雜性，從而使其預測誤差率較高。機器學習模型如反向傳播人工神經網絡(Back propagation-artificial neural networks, BP-ANN)已經廣泛應用于農產品[10-12]的貨架期預測問題上。然而，由于機器學習模型的復雜性，小樣本數據集容易造成過擬合、欠擬合現象。擴充數據集，可以在一定程度上降低過擬合現象，提高模型預測的準確率。SMOTE(Synthetic minority over-sampling technique)及其改進算法的數據合成方法屬于線性插值法，其合成的數據和實際數據相關性不強[13]。生成式對抗網絡(GAN)模型是一種基于深度學習的數據生成方法，其基于博弈理論的數據生成原理，并采用無監(jiān)督的學習方法，能自動對數據集進行學習，生成高質量的數據[14]。目前GAN已經應用于在一些小規(guī)模樣本生成問題上[13,15-17]，暫未發(fā)現其用于果蔬理化指標數據的生成。

“富士”作為蘋果中的優(yōu)良品種，在我國和日本的種植比例都高達50%以上[18]。本文使用GAN提升BP-ANN模型的預測性能，基于蘋果貯藏期間的真實數據來生成采后“富士”蘋果的理化品質指標、貯藏溫度及貨架期數據，擴大BP-ANN的訓練樣本集數量，結合不同的變量排序方式對品質指標進行排序，分別建立品質指標和貯藏溫度作為輸入變量的貨架期預測模型。

1 材料與方法

1.1 材料與處理

分別于2016—2018年10月10—11日在陜西省渭南市白水縣某果園采收達到商品成熟期的套袋栽培的“富士”蘋果(采收前7 d脫去最后一層半透明果袋)，選取果形規(guī)整、表面光潔、大小均勻的套袋果，去果袋，單果套發(fā)泡網，運回西北農林科技大學(3 h)。于0℃冷庫預冷24 h，散去田間熱量，再分別在溫度0、5、15、25℃和相對濕度 85%～90%的條件下貯藏，所有果實均裝于加有厚度11 μm塑料內襯袋的果框內，袋口松散折疊以保濕。0℃貯藏果前72 d每12 d取樣一次，后198 d每24 d取樣一次；5℃貯藏果前63 d每9 d取樣一次，后108 d每18 d取樣一次；15℃果每6 d取樣一次，25℃果每3 d一次。每次取樣隨機抽取12個果實，以4個為一組建立3個生物學重復，用于在貯藏期間的各品質指標測定。

1.2 貨架期蘋果理化品質測定

1.2.1顏色參數

使用白板校準后的CR-400型色差計 (日本Konica Minolta公司)，分別用果實赤道線均勻的5個點來測定果實的顏色參數(亮度L、紅綠度a、黃藍度b)?？偵瞀和飽和度C計算公式為

(1)

(2)

式中L0、a0、b0——顏色參數初始值

1.2.2硬度

沿蘋果果實赤道線的陰陽兩面各取兩點削去1 cm×1 cm果皮，然后采用GY-3型果蔬硬度計(意大利Aldo Brue公司)測定硬度，單位為N/cm2。

1.2.3可溶性固形物含量、可滴定酸含量和固酸比

沿果實的赤道面，隨機選取3個點，每個點去皮后各取10 g果肉，用榨汁機榨出汁，用吸管吸取3滴果汁，使用SW-LB32T型折光儀測定蘋果的可溶性固形物含量，用質量分數表示。取剩余的果汁，采用酸堿滴定法測定可滴定酸含量[19]，用質量分數表示。固酸比為可溶性固形物與可滴定酸質量分數的比值。

1.2.4抗壞血酸含量

隨機稱取蘋果鮮樣5 g,采用鉬藍比色法[20]測定果實中還原型抗壞血酸的質量比，單位為mg/kg。

1.2.5淀粉含量

隨機稱取蘋果鮮樣1.5 g,采用硫酸蒽酮法[21]測定果實中淀粉質量比,單位為g/kg。

1.2.6質量損失率

每次取樣時稱取蘋果的鮮質量，以質量隨時間下降的百分比計算質量損失率。

1.3 貨架期蘋果感官品質的觀測與評定

請10名經過專業(yè)培訓的人員，對每次取樣的12個果實進行品嘗和感官品質評分，參照文獻[22]的評定項目和權重，每批果實的得分值為10個品嘗員評分的平均值。

1.4 數據處理

1.4.1理化品質指標排序

(1)稀疏主成分分析

稀疏主成分分析是在主成分分析的基礎上引入帶有稀疏度的懲罰系數或者不同的系數約束條件，使得到的部分載荷向量為零，從而得到稀疏的主成分[23]。

(2)ReliefF算法

ReliefF算法最早由文獻[24]提出,最早用于解決二分類問題，ReliefF算法是公認的效果較好的Filter式特征評估算法。其關鍵思想是根據屬性的值對實例的區(qū)分程度去估計這個特征區(qū)分鄰近樣本的能力，特征選擇的思路是選取一個特征子集，使得特征子集上的分類錯誤率最小[25-26]。預測的品質指標權重通常取決于最近鄰的數量，在本研究中，一共有12個品質指標，將最近鄰分別設置為從2到11的數，計算預測權重平均值來作為最終結果，其權重即代表品質屬性的重要程度，權重越大，則該品質屬性越重要。

1.4.2附加GAN的BP-ANN貨架期預測模型

生成式對抗網絡(GAN)是由文獻[27]提出的基于博弈論的生成式深度學習算法。GAN的一般結構如圖1所示，主要由生成器和判別器兩部分組成。由生成器接收隨機噪聲數據，真實數據的標簽為0，生成數據的標簽為1，由判別器判別是真實數據還是生成器生成的數據，判別器的損失函數為一個二分類模型，可通過交叉熵計算目標函數，其損失函數為

(3)

式中G、D——生成器和判別器的可微函數

E——目標函數的期望值

x——真實樣本數據

z——隨機噪聲

G(z)——判別器的生成數據

下角標x～Pdata(x)表示x采樣于真實數據分布Pdata(x)，z～Pz(z)表示z采樣于真實數據分布Pz(z)。

第1項代表D判斷出x是真實數據的情況，第2項代表D判斷數據是否是由生成器G將噪聲矢量z映射而成的生成數據。G和D進行二元零和博弈，GAN算法的流程為先固定生成器優(yōu)化判別器，使得判別器的判別準確率最大化，然后固定判別器，優(yōu)化生成器使得判別器的判別準確率最小。當且僅當Pdata(判別真實數據的準確率)等于Pg(判別生成數據的準確率)時達到全局最優(yōu)解。

生成器和判別器均采用全連接網絡結構。生成器是由兩層感知機組成，其輸入為隨機噪聲，第1層其激活函數為ReLU，由 25個隱藏層神經元組成，第2層其激活函數為Linear，輸出維度為14的數據。判別器也是由兩層感知機組成，其輸入為真實數據和生成器生成的假數據，第1層由25個神經元組成，其激活函數為ReLU，第2層由1個神經元組成，其激活函數為Sigmoid。每訓練3 000次，保存一次模型。文獻[15]通過直接觀察生成的菌菇表型圖像數據來選擇GAN生成的圖像；文獻[13]根據鴨蛋的蛋形指數來選擇GAN生成的數據；文獻[17]根據模型預測的準確率來判斷GAN模型對于長短期記憶網絡(LSTM)的改進作用，從而選擇GAN生成的數據。在本研究中，蘋果的品質指標取值均隨著貯藏時間的變化而變化，而且品質指標無法像圖像一樣可以直接觀察，因此通過GAN的判別器判別真實數據和生成數據的準確率對生成數據進行初次選擇，并通過繪圖的形式，將生成數據和真實數據的取值范圍進行比較，再通過 GAN-BP-ANN模型預測貨架期的準確性來再次判斷GAN生成數據的質量。試驗平臺為Windows 10系統(tǒng)，8 GB內存，500GB SSD，1TB HD，Intel Core i5-5200U，2.20 GHz，Nvidia GeForce 930M,2 GB。算法采用Tensorflow V1.1GPU框架和Python 3.7實現。

BP-ANN模型是一種誤差反向傳播的模型，其通常由輸入層、隱藏層和輸出層3層組成。在此研究中，將品質屬性和貯藏溫度作為輸入層，貨架期作為輸出層。將得到的品質指標，按照其排序結果，從1到12逐一疊加，再組合貯藏溫度，作為輸入變量分別建立擴充數據集的GAN-BP-ANN和未擴充數據集的BP-ANN貨架期預測模型。從圖2可以看出，基于GAN改進的BP-ANN模型結構將GAN生成的最優(yōu)解和真實測定的數據同時作為BP-ANN的輸入層，BP-ANN模型第1層的激活函數為Tansig，第2層的激活函數為Purelin，若在最大迭代次數內未達到訓練目標，則根據相應規(guī)則對參數進行優(yōu)化，如果達到訓練目標，則保存模型，并根據保存的模型對驗證集進行預測。訓練目標為0.000 1，學習率為0.01，最大迭代次數為1 000。由于其初始化的權值和閾值對網絡的性能具有較大的影響，在此研究中通過多次建模來選擇最優(yōu)的權值和閾值。

采用平均相對誤差和決定系數(R2)作為模型準確性的評價標準，建模過程通過Matlab 2019a軟件實現，在進行建模前，將所有數據進行歸一化處理。

2 結果與分析

2.1 不同溫度下蘋果品質指標的變化趨勢

考慮到生產上采用冷藏、氣調貯藏蘋果的溫度通常在0℃，采用自然低溫貯藏時在5～15℃，消費者在室溫存放又常為20～25℃，因此，蘋果采后可能存在的環(huán)境溫度為0～25℃范圍內的任意溫度，本研究選定其中的4種特征溫度進行仿真試驗。

從圖3可看出，0℃下貯藏的蘋果12種品質指標變化速率最慢，隨著溫度的升高，變化速率加快。各指標在不同溫度下的變化總趨勢一致，表現為3種類型：①漸降型。首先是可溶性固形物含量，各組可溶性固形物含量在第2個觀測點均出現短暫上升，這是果實采后初期淀粉等多糖降解量較大，可溶性糖的積累大于消耗，使其總量增加所致。而采后可溶性糖主要是作為呼吸底物而被消耗[28]，因此，貯藏(貨架)全程呈現總體下降趨勢。其次，可滴定酸和還原型抗壞血酸含量也全程下降?？箟难嶙鳛橐环N抗氧化劑，能清除機體內活性氧，延緩衰老[29-30]，其在中性和堿性環(huán)境下極易被氧化，它和可滴定酸總量的含量逐漸減少意味著蘋果果實貯藏過程中除了酸味會變淡外，果實營養(yǎng)品質也在下降；淀粉作為果實細胞重要的貯藏性物質，其降解與果實的軟化有關[31]。②上升型。質量損失率呈現上升趨勢，導致果實質量損失的原因主要是水分的喪失和呼吸消耗[32]。隨著貯藏溫度的升高和貯藏時間的延長，黃藍度b、總色差ΔE、色彩飽和度C總體呈現上升狀態(tài)，主要是由于在貯藏期間葉綠素逐漸被降解[33]，反映了蘋果的底色逐漸黃化，光澤變暗。③起伏+漸變型。硬度在前7個觀測點和a、L在前3～5個觀測點取值均呈起伏式變化，以后緩慢下降，雖然隨著貯藏時間的延長，果膠物質逐漸被細胞壁酶降解，細胞壁結構逐漸發(fā)生變化，果實的硬度總體下降[32]，但是，不同蘋果采后硬度下降快慢不同，“富士”蘋果以其“寧爛不綿”而著稱，此文結果從數據上展示了該品種硬度在貯藏全程下降慢的屬性；5～25℃組的前3個觀測點均表現a先上升再下降，對應地，L先下降再上升，可見，蘋果采后在貨架期紅度短暫增大，亮度短暫下降，這與果實采后后熟有關[33]?！案皇俊碧O果果實的這種變化特性在其它研究中也有所報道[29，34]。0℃組可溶性固形物含量和a的初期變化幅度小，L卻也先急降后上升，表明除了與紅度有關外，L還受到果面其它屬性，如果粉厚度等影響，是與糖分、紅綠度不完全相關的獨立屬性。

2.2 品質指標重要性排序結果

在建立貨架期預測模型時，用簡化的數據集作為模型的輸入變量可以節(jié)省運算時間和預算。稀疏主成分分析(SPCA)和ReliefF算法對品質指標進行排序的標準不同，SPCA算法是將高維數據向低維子空間映射降維，ReliefF算法側重于自變量對因變量的區(qū)分程度。表1列出這2種分析方法對品質屬性的排序結果，可以看出，兩種排序結果有很大區(qū)別，SPCA中，當k=1時，得到的排序第一的品質指標為質量損失率。ReliefF算法中，與貨架期關聯(lián)度最大的為L。

表1 2種特征提取方法得到的品質指標排序結果Tab.1 Ranking of quality attributes obtained by three feature extraction methods

2.3 附加GAN的BP-ANN貨架期預測模型構建

2.3.1GAN生成的有效數據

在構建預測模型時，數據集越大，預測模型能學習到的特征越多并且越準確，從而越能避免模型的過擬合和欠擬合現象，使得模型的預測準確性越高。而實際上，經常由于試驗材料、經費等眾多問題使試驗獲得的數據集較小。生成式對抗網絡(GAN)是一種深度學習算法，其通過生成器和判別器互相博弈來提高生成數據的準確性。隨著迭代次數的增加，GAN的生成器會生成不同的數據。在此研究中，為了使品質屬性的取值更加可靠，將年份之間作為重復，獲得的理化指標和對應貨架期的平均值數據為51組，判別器對此真實數據和生成數據判別準確率如圖4所示?？梢钥闯?，隨著迭代次數的增加，判別準確率逐漸接近于0.50，當迭代次數為33 000次時，判別真實數據的準確率為0.51，判別生成數據的準確率也為0.51，均最接近于0.50，繼續(xù)增大迭代次數至2.0×105，判別器對兩組數據判別準確率偏差增大，說明迭代次數為33 000時的生成器和判別器之間已經接近納什均衡，即生成數據與真實數據已經非常相似。由圖5(圖中參數序號1～14分別表示硬度(N/cm2)、可溶性固形物質量分數(%)、可滴定酸質量分數(%)、固酸比、還原型抗壞血酸質量比(mg/kg)、淀粉質量比(g/kg)、質量損失率(%)、L、a、b、ΔE、C、貯藏溫度、貨架期)顯示，生成數據各指標取值均在真實數據取值范圍之內，直觀表現了二者的相似性。由于前人的研究均沒有對GAN生成數據的合理量有具體約定[13-15]，故選擇迭代次數33 000次時生成的38組數據作為通過GAN進行數據生成的結果，用于后續(xù)的模型構建。

按訓練集和驗證集為3∶1的比例進行建模和驗證，訓練集經生成式對抗網絡(GAN)擴充得到的38組生成數據不用于驗證集驗證，即分別采用真實數據的3/4(38組)、真實數據+生成數據(76組)作為訓練集，選取每個貯藏溫度下的剩余的1/4組數據(其中25℃共4組數據，其它3個溫度各3組)，共13組真實數據作為驗證集來構建BP-ANN和GAN-BP-ANN貨架期預測模型。

2.3.2GAN對ReliefF-BP-ANN預測貨架期準確性的影響

為了評估GAN對于 BP-ANN貨架期預測模型的改進作用，分別按照ReliefF排序方法的結果，將1～12個品質指標依次累加，再加上貯藏溫度作為輸入層變量，分別建立經過訓練集擴充的ReliefF-GAN-BP-ANN模型和未經訓練集擴充的ReliefF-BP-ANN模型。為了有效評估GAN的作用，均將各個模型重復訓練100次，取其平均值作為最后的結果，模型的最大訓練次數、學習率和激活函數均相同。由表2可知，ReliefF-GAN-BP-ANN模型其訓練集平均相對誤差在0～0.095之間，ReliefF-BP-ANN模型其訓練集平均相對誤差在0～0.112之間，ReliefF-GAN-BP-ANN相比ReliefF-BP-ANN模型，其建模效率沒有明顯的改善。由圖6可直觀地看出，采用ReliefF-GAN-BP-ANN模型其驗證集的平均相對誤差均低于ReliefF-BP-ANN模型，決定系數均高于ReliefF-BP-ANN模型，表明附加GAN的BP-ANN模型(ReliefF-GAN-BP-ANN)對本研究中建模較單獨采用ReliefF-BP-ANN的準確度有明顯提高，有效地增加了模型的預測準確率，說明GAN生成數據的有效性及增大數據集改進BP-ANN預測貨架期的準確性。由圖6可知，用ReliefF對品質指標進行排序后，分別構建ReliefF-BP-ANN和ReliefF-GAN-BP-ANN模型，當采用排序前8的8個品質指標即L、還原型抗壞血酸含量、a、C、ΔE、可滴定酸含量、硬度、b和貯藏溫度作為ReliefF-GAN-BP-ANN的輸入變量時，驗證集中13組數據的預測值與真實值的平均相對誤差最小，為0.154，決定系數為0.957。

表2 采用ReliefF排序方法構建GAN-BP-ANN和BP-ANN模型訓練集的平均相對誤差Tab.2 Mean relative error of GAN-BP-ANN and BP-ANN model training set based on ReliefF

2.3.3GAN對SPCA-BP-ANN預測貨架期準確性的影響

按照SPCA排序方法的結果，將1～12個品質指標依次累加，再加上貯藏溫度作為輸入層變量，分別建立經過訓練集擴充的SPCA-GAN-BP-ANN模型和未經訓練集擴充的SPCA-BP-ANN模型。均將各個模型重復訓練100次，取其平均值作為最后的結果，模型的最大訓練次數、學習率和激活函數均相同。由表3可知，SPCA-GAN-BP-ANN模型其訓練集平均相對誤差在0～0.018之間，SPCA-BP-ANN模型其訓練集平均相對誤差在0～0.019之間，均小于ReliefF-GAN-BP-ANN和ReliefF-BP-ANN模型，SPCA-GAN-BP-ANN相比SPCA-BP-ANN模型，其建模效率沒有明顯的改善。由圖7可見，采用SPCA-GAN-BP-ANN模型其驗證集的平均相對誤差也均低于SPCA-BP-ANN模型，決定系數也均高于BP-ANN模型。當采用排序第1的品質指標即質量損失率和貯藏溫度(D1組)一起作為GAN-BP-ANN的輸入變量時，驗證集中13組數據的預測值與真實值的平均相對誤差最小，為0.052，決定系數為0.989。當采用排序前2的兩個品質指標和貯藏溫度作為輸入層時，即質量損失率、b和貯藏溫度(D2組)作為GAN-BP-ANN的輸入變量時，驗證集中13組數據的預測值與真實值的平均相對誤差為0.064，決定系數為0.990。當采用排序前6的6個品質指標即質量損失率、b、淀粉含量、可滴定酸含量、還原型抗壞血酸含量、ΔE和貯藏溫度(D3組)作為GAN-BP-ANN的輸入變量時，驗證集中13組數據的預測值與真實值的平均相對誤差為0.070，決定系數為0.992。綜合可知，2種特征選擇方法中，SPCA通過特征累加所構建的模型其驗證集平均相對誤差最小，通過SPCA挑選出3組GAN-BP-ANN建模的特征品質指標，即：質量損失率和貯藏溫度(D1組)；質量損失率、b和貯藏溫度(D2組)；質量損失率、b、淀粉含量、可滴定酸含量、還原型抗壞血酸含量、ΔE和貯藏溫度(D3組)，其驗證集中13組數據的相對誤差分別為0.052、0.064和0.070，低于BP-ANN的0.109、0.104和0.115，即附加GAN的模型把預測準確度從平均0.891提高到0.938，提高了0.047；驗證集中預測值和真實值決定系數R2分別為0.989、0.990和0.992，大于等于未附加GAN模型的0.989、0.963和0.991。這說明輸入層為D1、D2和D3組所構建的GAN-BP-ANN模型可以較為準確地預測采后蘋果的貨架期。

表3 SPCA排序方法構建GAN-BP-ANN和BP-ANN模型訓練集的平均相對誤差Tab.3 Mean relative error of GAN-BP-ANN and BP-ANN model training set based on SPCA

2.3.4GAN-BP-ANN模型與其它貨架期預測模型的比較

常用的貨架期預測模型還包括多元線性回歸(MLR)、決策樹(DT)和支持向量機(SVM)等。分別建立品質屬性與貨架期之間的多元線性回歸(MLR)、決策樹(DT)模型和支持向量機(SVM)等，使用上述通過SPCA得到的最優(yōu)模型的輸入變量作為輸入變量，即分別使用質量損失率和貯藏溫度(D1組)；質量損失率、b和貯藏溫度(D2組)；質量損失率、b、淀粉含量、可滴定酸含量、還原型抗壞血酸含量、ΔE和貯藏溫度(D3組)作為輸入變量，其訓練集和驗證集平均相對誤差和決定系數如表4所示,可以看出其訓練集和驗證集的平均相對誤差均比較高，決定系數均比較低。上述選出的最優(yōu)模型其性能均優(yōu)于MLR、DT和SVM。

表4 多元線性回歸(MLR)、決策樹(DT)和支持向量機(SVM)貨架期預測模型訓練集和驗證集的平均相對誤差和決定系數Tab.4 Mean relative error and determination coefficient of training set and validation set of multiple linear regression (MLR), decision tree (DT) and support vector machine (SVM) shelf-life prediction models

3 結論

(1)采用GAN法對觀測數據集進行擴充，迭代次數33 000次時生成器和判別器之間接近納什均衡，生成數據均在真實數據的分布范圍之內。

(2) 2種變量排序法下，均以附加GAN的BP-ANN所建模型對貨架期的預測準確度高。且以SPCA法排序結果構建GAN-BP-ANN模型的平均相對誤差較ReliefF更低，部分驗證集的平均相對誤差均在0.07以內，比未附加GAN的BP-ANN模型預測準確度提升了0.047。結合SPCA法特征變量選擇的GAN-BP-ANN模型被確定為預測蘋果貨架期的有效方法。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡