郭海如,李春生,崔雪梅,成 俊,陳 馳
(1. 湖北工程學院計算機與信息科學學院/湖北省新農(nóng)村發(fā)展研究院智慧農(nóng)業(yè)重點實驗室,湖北 孝感 432000; 2. 湖北工程學院生命科學技術學院,湖北 孝感 432000; 3. 湖北理工學院計算機學院,湖北 黃石 435003)
【研究意義】近年來,全國土壤污染狀況調查公報顯示,土壤污染總超標率為16.1 %,鎘(Cd)的點位超標率高達7.0 %,是表層土壤中污染最嚴重的重金屬。由于Cd更容易進入食物鏈并在土壤-動植物-人體之間進行富集轉移,最終危害人體健康,是相對于其他重金屬更具有危害性的重金屬元素[1]。研究發(fā)現(xiàn)十字花科植物對Zn元素具有較強的吸收和富集作用[2],油菜屬于十字花科, 是我國主要的油料作物,種植面積和產(chǎn)量均為世界第一位[3]。減少油菜對鎘的吸收和累積是農(nóng)業(yè)、生態(tài)和環(huán)境科學研究的重要內容[4]。鋅(Zn)是植物生長必需的微量元素,也是一種常見的對環(huán)境有毒的重金屬元素。由于Zn和Cd 具有相似的地球化學和環(huán)境特性,在土壤-作物系統(tǒng)中鎘、鋅常常發(fā)生頡頏作用[5]。因此,通過施用 Zn 肥來緩解Cd對植物的脅迫成為研究熱點。【前人研究進展】在研究油菜指標信息處理問題方面,大多數(shù)采用傳統(tǒng)的數(shù)理統(tǒng)計方法[6-7],主要對油菜指標數(shù)據(jù)進行方差分析[8-9]、顯著性分析[10-11]、多重比較[12]等。主成分分析法可以在原始大量指標中抽取部分不相關的新指標,但新指標包含原始指標的絕大多數(shù)信息,采用主成分分析法可以對油菜各指標進行綜合評價,并分析出各指標的影響程度[13-15]。也有少數(shù)文獻采用模糊數(shù)學隸屬函數(shù)法[16]對油菜各指標的耐鹽性進行綜合評價?!颈狙芯壳腥朦c】本研究提出一種PCANN(主成分神經(jīng)網(wǎng)絡)評價方法,綜合主成分分析和神經(jīng)網(wǎng)絡的優(yōu)點,對油菜的各項生長指標進行綜合分析。本研究選用油菜品種—油霸旺作為研究對象,采用盆栽實驗培養(yǎng)至壯苗,研究300 μmol/L的Zn對不同濃度的鎘(0、150、300、500、700 μmol/L)脅迫下油菜的生長特征、抗逆性及抗氧化酶活性的影響[17]?!緮M解決的關鍵問題】采用PCANN分析各指標在不同處理下的變化規(guī)律,進一步探明修復油菜對重金屬耐受機制和植物在重金屬Cd脅迫下外源鋅對油菜的解毒機理提供理論依據(jù)。
實驗于2017年10月至2018年2月在湖北工程學院生科樓進行,不同Cd、Zn濃度實驗設計如表1所示,供試油菜品種為油霸旺。
挑選顆粒飽滿的種子,先用1.0 %的次氯酸鈉消毒10 min,清水洗凈后,再用蒸餾水浸泡24 h,選沉于底部的種子,均勻撒在鋪有濾紙的托盤內,將托盤置于25 ℃的MJX-250B-Z型恒溫箱內進行催芽,定期(每天2次)澆蒸餾水讓種子保持充足水分,6 d后將幼苗均勻移栽于裝有貧瘠沙土的30個小花盆內,每盆12株。每天定時澆2次等量的Hoagland’s營養(yǎng)液,持續(xù)添加至幼苗生長出4~5片真葉后,改用Cd、Zn處理液繼續(xù)培養(yǎng)。Cd處理液用CdCl2·5H2O配制,濃度的的分別為0、150、300、500、700 μmol/L一共5個濃度梯度,Zn處理液用ZnSO4配制,濃度為300 μmol/L,每個處理3次重復。脅迫處理17 d后,測定油菜各項指標。
表1 實驗設計Table 1 Design of experiment
注:Cd1Cd2Cd3Cd4表示鎘濃度為150、300、500、700 μmol/L;CK為對照,下同。
Note: Cd1Cd2Cd3Cd4:The Cd concentration of 150, 300, 500, 700 μmol/L;CK: The contrast. The same as below.
為了反映Cd、Zn脅迫對油菜的綜合影響,測定指標選擇3類,一類是代表根系生長情況的根長指標;二類是代表抗逆性能的丙二醛(MDA)、過氧化氫(H2O2)含量;三類是代表抗氧化能力的超氧化物歧化酶(SOD)、過氧化物酶(POD)及過氧化氫酶(CAT)活性。各個指標測定方法[18]如表2所示。
所有數(shù)據(jù)均為3次重復的平均值,在 MATLAB環(huán)境下采用PCANN處理數(shù)據(jù)[19-21]。
1.4.1 PCANN概述 PCANN首先采用主成分分析法對各項指標進行優(yōu)化,并分析得到評價結果。然后將主成分分析法優(yōu)化后的指標作為BP網(wǎng)絡的輸入,將主成分分析法的評價結果作為神經(jīng)網(wǎng)絡的輸出。對樣本進行訓練學習,并選定幾個典型樣本作為測試樣本。在神經(jīng)網(wǎng)絡訓練學習過程中,擬合精度很高,但測試樣本的測試誤差比較大,BP網(wǎng)絡的泛化能力不強。為增強BP網(wǎng)絡的泛化能力,采用遺傳算法對BP網(wǎng)絡的權閾值進行優(yōu)化,經(jīng)過優(yōu)化后的神經(jīng)網(wǎng)絡,泛化能力得到大大提高。
1.4.2 主成分分析法優(yōu)化樣本 主成分分析主要包括以下幾個過程:對原始數(shù)據(jù)進行標準化處理,計算相關系數(shù)矩陣,求出各個指標之間的相關系數(shù),計算特征值和特征向量,選擇幾個主成分,計算綜合評價值,計算各指標在主成分中的權重。
采用主成分分析法優(yōu)化神經(jīng)網(wǎng)絡的樣本時,根據(jù)各指標之間的相關系數(shù)值確定是否刪除某些不必要的指標,若某些指標相關系數(shù)很大,達到0.98以上時,再比較指標的權重,刪除權重比較小的指標。刪除其中的幾項指標后,再重新用新的指標進行分析,若分析結果跟優(yōu)化指標之前的結果一致,則采用優(yōu)化后的指標作為神經(jīng)網(wǎng)絡的樣本。
表2 各指標測定方法Table 2 Measurement methods for each index
1.4.3 遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡 采用遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡的權閾值主要過程如下。
(1)確定訓練樣本和測試樣本,并根據(jù)樣本確定神經(jīng)網(wǎng)絡結構。
(2)建立神經(jīng)網(wǎng)絡,確定神經(jīng)網(wǎng)絡的訓練步數(shù)、誤差要求等。
(3)求測試值的均方誤差,并將其作為遺傳算法的適應度函數(shù)。
(4)確定遺傳算法代溝、二進制編碼長度、初始種群等參數(shù)。其中初始種群的維數(shù)根據(jù)神經(jīng)網(wǎng)絡神經(jīng)元的權閾值個數(shù)確定。
(5)將遺傳算法的初始種群個體作為神經(jīng)網(wǎng)絡的權閾值賦值給BP網(wǎng)絡。
(6)神經(jīng)網(wǎng)絡訓練。
(7)根據(jù)適應度函數(shù)值記下神經(jīng)網(wǎng)絡的最優(yōu)權閾值。
(8)遺傳算法的代數(shù)gen=0。
(9)選擇、重組、變異遺傳操作。
(10)遺傳算法個體值作為權閾值重新賦值給神經(jīng)網(wǎng)絡。
(11)神經(jīng)網(wǎng)絡訓練。
(12)新的適應度值是否最優(yōu),若最優(yōu)則記下當前權閾值。
(13)遺傳算法代數(shù)gen+1,進入第(9)步,即下一代遺傳。
(14)遺傳代數(shù)達到要求,遺傳算法停止。
該優(yōu)化方法難點在于適應度函數(shù)的確定,神經(jīng)網(wǎng)絡的權閾值由遺傳算法隨機產(chǎn)生,經(jīng)過神經(jīng)網(wǎng)絡學習訓練之后,再跟測試樣本比較,求其均方誤差,并將測試值的均方誤差作為適應度函數(shù)值。由于在第?步中,每次都記下最優(yōu)權閾值,所以,遺傳算法結束后,最終將得到最優(yōu)適應度值,即測試值的均方誤差最小。當測試結果滿足要求時,表示神經(jīng)網(wǎng)絡建模成功,可以采用該模型對研究對象進行綜合評價。
神經(jīng)網(wǎng)絡的權閾值來自于遺傳算法的初始種群,需要將種群個體值作為權閾值賦值給神經(jīng)網(wǎng)絡,其賦值核心代碼如下。
net.iw{1,1}(i1,i2)=x(i,k);
net.b{1}(i1,1)=x(i,k);
net.lw{2,1}(1,i1)=x(i,k);
net.b{2}(1,1)=x(i,k);
在每一代遺傳過程中,遇到最優(yōu)解時,需要記錄當前神經(jīng)網(wǎng)絡的權閾值,記錄權閾值核心代碼如下。
if (ms>ObjV(i,1))
ms=ObjV(i,1);
iw=net.iw{1,1};
b1=net.b{1};
lw=net.lw{2,1};
b2=net.b{2};
end
脅迫處理結束后,測定油菜幼苗根長、丙二醛含量、H2O2含量、SOD活性、POD活性、CAT活性等指標,結果見表3。
從表3中可以看出,單施Cd時,油菜根長隨著Cd濃度的增加而降低,單施300 μmol/L的Zn時,根長為對照的138 %;Cd、Zn配施時根長均比單施Cd時長;說明300 μmol/L的 Zn對油菜根長有較好的促進作用。
單施Cd時,丙二醛含量和H2O2質量濃度均隨著Cd濃度的增加而增加;單施300 μmol/L的 Zn時,丙二醛含量和H2O2質量濃度均低于對照,Cd、Zn配施時,丙二醛含量和H2O2質量濃度均低于單施Cd時的含量,說明300 μmol/L的Zn有效抑制了丙二醛、H2O2的產(chǎn)生,能提高油菜的抗逆性。
單施Cd時,SOD活性、CAT活性、POD 活性均隨著Cd濃度的增加先增加后降低,且在Cd濃度為300 μmol/L時達到最高值,在Cd濃度為700 μmol/L達最低值,且低于對照,說明適量鎘對3種酶活性均有促進作用,濃度過高則產(chǎn)生抑制作用。Cd、Zn配施時,3種酶活性均比單獨施Cd時要高,說明300 μmol/L的Zn對Cd脅迫有較好的緩解作用。
在MATLAB環(huán)境下編寫程序,采用zscore()對表3中的數(shù)據(jù)進行標準化,并且采用corrcoef()函數(shù)求出標準化后的相關系數(shù)矩陣,相關系數(shù)矩陣如表4所示。
其中,x1~x7分別表示:根長、丙二醛含量、H2O2含量、SOD活性、CAT活性、POD活性。從相關系數(shù)矩陣的值可以看出,丙二醛含量和H2O2含量相關性很強,SOD活性、CAT活性和POD活性相互之間相關性也很強,根長與丙二醛含量、H2O2含量的負相關性比較強,SOD活性與丙二醛含量、H2O2含量的負相關性也比較強,其他指標相關性比較弱。
表3 Cd、Zn脅迫下油菜各項指標統(tǒng)計結果Table 3 Statistical results for each rape index under the stress of Cd and Zn
表4 相關系數(shù)矩陣Table 4 Correlation matrix
采用pcacov()函數(shù)計算表4中相關系數(shù)矩陣的特征值、方差貢獻率和累積貢獻率如表5所示。前2個成分的累計貢獻率達到97.654247 %,濃縮了源數(shù)據(jù)的絕大部分信息,因此提取前2個成分作為分析不同鹽濃度下各指標的特征。
分別以2個主成分的貢獻率為權重,構建主成分綜合模型表達式如下:
Z=0.6635597y1+0.3129828y2
把不同Cd、Zn處理下的2個主成分值代入上式,以各自的貢獻率為權數(shù)進行加權求和,求出不同Cd、Zn處理下各指標的綜合排名,如表6所示。從表中可以看出,300 μmol/L的Cd和300 μmol/L的 Zn配施時綜合權重最高,各項指標最好;其次是單施300 μmol/L的Cd,綜合權重排名第2,說明低濃度的Cd對油菜生長有一定的促進作用,也是油菜對逆境的適應調節(jié)機制,300 μmol/L的Zn與低濃度的Cd配施對油菜有促進作用。單施700 μmol/L的Cd時各項指標的綜合權重最低,且低于Cd4Zn組合,說明300 μmol/L的Zn對高濃度的Cd脅迫也有較好的緩解作用。
最后,進一步計算各指標在主成分中的權重,并對各指標的權重進行排序,反過來可以分析不同鋅、鎘處理濃度對各指標的影響程度。各指標在主成分中的權重及排序如表7所示,從表中可以看出,不同鋅鎘濃度對POD活性影響最大。其次是CAT活性和SOD活性,對H2O2含量和丙二醛含量影響最小。
表5 各成分的特征值、貢獻率和累計貢獻率
Table 5 Characteristic root, contribution rate and cumulative contribution rate of each main components
特征根yCharacteristicroot貢獻率zContributionrate累計貢獻率Cumulativecontributionrate3.98135866.3559766.3559651.87789731.2982897.6542470.1083521.80585999.4601060.0180040.30007499.760180.0118440.19740499.9575830.0025450.042417100
表6 不同鋅、鎘處理下各指標綜合排名
Table 6 Comprehensive ranking of various indexes from different treatment of Zn and Cd
不同處理Treatment綜合權重Comprehensiveweight排名RankingCK-0.2701177Cd1-0.0169976Cd21.16307942Cd3-0.2879258Cd4-2.45625310Zn0.04496455Cd1Zn1.02749783Cd2Zn1.98185461Cd3Zn0.8564144Cd4Zn-2.0425199
超氧化物歧化酶(SOD)、過氧化物酶(POD)、過氧化氫酶(CAT)等在協(xié)調自由基的清除中起著重要作用。
從表4可知,丙二醛含量和H2O2含量的相關性很強,數(shù)值為0.978,再根據(jù)表7中指標權重的排名可以看出,丙二醛含量權重比較H2O2大,因此保留該指標,刪除H2O2含量指標。另外,從表4中可以看出CAT活性和POD活性2個指標相互之間相關性也極強,數(shù)值為0.986,也可刪除其中一個指標,從表7中可以看出, CAT活性權重較小,也可刪除。因此,只保留根長、丙二醛含量、SOD活性和POD活性4個指標,這樣可以達到優(yōu)化神經(jīng)網(wǎng)絡結構的目的,神經(jīng)網(wǎng)絡結構得到優(yōu)化后,其計算量會減少1/3。同時,在下次進行實驗研究時,可以不檢測H2O2含量和CAT活性2項指標,可以大大節(jié)省人力物力以及檢測時間。
保留4個指標后,重新采用主成分法分析數(shù)據(jù),得到不同Cd、Zn處理下各指標新的綜合排名,如表8所示。從表6、8中可以看出,去掉H2O2含量和CAT活性2項指標后,不同處理下綜合權重的排名完全一致,說明可以采用簡化后的指標代替原來的指標,因此,可以用優(yōu)化后的指標作為神經(jīng)網(wǎng)絡的樣本。
表7 各指標權重及排序Table 7 Ranking for weight of each index
表8 不同鋅、鎘處理下各指標新的綜合排名
Table 8 New comprehensive ranking of various indexes from different treatment of boron and copper
不同處理Treatment綜合權重Comprehensiveweight排名RankingCK-0.1114852097Cd10.0469770636Cd20.8463618432Cd3-0.2680567018Cd4-1.97361795410Zn0.2168582715Cd1Zn0.7946812693Cd2Zn1.6561332771Cd3Zn0.5225409824Cd4Zn-1.7303928419
結合表3(刪除H2O2含量和CAT活性2項指標)和表8中的綜合權重數(shù)據(jù)(也可以選擇表6的綜合權重),構建神經(jīng)網(wǎng)絡的訓練樣本和測試樣本,將表3中的數(shù)據(jù)作為神經(jīng)網(wǎng)絡的輸入,表8中數(shù)據(jù)作為神經(jīng)網(wǎng)絡的輸出。典型數(shù)據(jù)(表8中綜合權重排名第1和第2)作為測試樣本,測試誤差的大小是衡量神經(jīng)網(wǎng)絡建模是否成功的標準。對表3、8中數(shù)據(jù)進行無量綱化處理后,得到神經(jīng)網(wǎng)絡的訓練樣本和測試樣本,如表9、10所示,其中表10中的數(shù)據(jù)不參與神經(jīng)網(wǎng)絡的訓練。
根據(jù)油菜指標個數(shù)以及評價結果,BP網(wǎng)絡的輸入層節(jié)點數(shù)為4,每個節(jié)點代表一個油菜指標,輸出層節(jié)點數(shù)為1,表示指標綜合評價的權重。中間層節(jié)點數(shù)根據(jù)實際試驗設為2比較合適。因此,建立BP網(wǎng)絡結構如圖1所示。其中輸入層x1~x4代表油菜生長的4個指標,y表示評價結果。采用newff()函數(shù)創(chuàng)建BP神經(jīng)網(wǎng)絡,傳遞函數(shù)均采用S型正切函數(shù),采用Levenberg-Marquardt BP訓練函數(shù),訓練步數(shù)設為150,均方誤差為10-6。
根據(jù)神經(jīng)網(wǎng)絡各層節(jié)點的個數(shù),得到遺傳算法種群的維數(shù)為(4+1+1)×2+1=13個,種群個體數(shù)為40個,遺傳算法變量二進制位數(shù)設為20,代溝為0.85,遺傳代數(shù)為20。采用crtbp()函數(shù)隨機產(chǎn)生初始種群,將初始種群每個個體的13個數(shù)據(jù)作為BP網(wǎng)絡的權閾值。神經(jīng)網(wǎng)絡得到權閾值后,對訓練樣本進行學習訓練。經(jīng)過學習之后,神經(jīng)網(wǎng)絡對測試樣本進行測試,求出測試樣本的均方誤差,并將均方誤差作為遺傳算法的適應度函數(shù)。經(jīng)過遺傳算法20代遺傳,一共訓練800次,找出適應度函數(shù)值最小的數(shù)據(jù),并記下此時神經(jīng)網(wǎng)絡的權閾值。
表9 神經(jīng)網(wǎng)絡訓練樣本Table 9 Training samples of neural network
表10 神經(jīng)網(wǎng)絡測試樣本Table 10 Testing samples of neural network
圖1 BP神經(jīng)網(wǎng)絡結構Fig.1 Structure of neural network
在遺傳算法每一代遺傳中分別采用select()、recombin ()和mut () 3個函數(shù)進行選擇、交叉和變異操作,其中交叉概率選擇0.7。經(jīng)過20代遺傳后,得到各代種群的最優(yōu)解和均值的變化如圖2所示。從圖中可以看出,種群均值逐步減少,在第7代種群的均值基本上達到最小并趨于穩(wěn)定,隨著代數(shù)的增加,逐步得到最優(yōu)解。
圖2 各代種群最優(yōu)解和種群均值的變化Fig.2 Changes of optimal solution and mean value from each generation population
經(jīng)過遺傳算法優(yōu)化神經(jīng)網(wǎng)絡后,最終得到神經(jīng)網(wǎng)絡的最優(yōu)權閾值,將權閾值賦值給神經(jīng)網(wǎng)絡,對表9中的訓練樣本進行擬合,擬合結果如圖3所示,擬合誤差如表11所示,從圖3和表10中可以看出神經(jīng)網(wǎng)絡學習能力非常強,基本上是100 %擬合。
最后,將表10中測試樣本的輸入作為神經(jīng)網(wǎng)絡的輸入,得到2個測試結果,其測試誤差分別為2.93 %、-1.82 %,最大測試誤差為2.93 %,說明可以用該神經(jīng)網(wǎng)絡模型評價油菜生長情況,通過遺傳算法優(yōu)化神經(jīng)網(wǎng)絡權閾值后,神經(jīng)網(wǎng)絡泛化能力得到很大地提高。
圖3 神經(jīng)網(wǎng)絡擬合曲線圖Fig.3 Fitting curve of neural network
表11 神經(jīng)網(wǎng)絡擬合誤差
Table 11 Fitting errors of neural network
序號Serialnumber誤差(%)Error序號Serialnumber誤差(%)Error10.95670250.244060120.123484560.07326873-0.23614567-0.18627334-0.050763280.0107062
為進一步說明遺傳算法優(yōu)化神經(jīng)網(wǎng)絡權閾值的效果,不采用遺傳算法,隨機產(chǎn)生初始權閾值,重復試驗3000次,記下最優(yōu)測試誤差,得到測試誤差在15 %左右,即使隨機產(chǎn)生初始權閾值,重復訓練10 000次以上,也很難得到理想結果。
(1)采用PCANN模型確定評價等級,可以避免人工主觀干預,能夠更加客觀地對Zn、Cd脅迫下油菜各項指標進行評價。各項指標的綜合權重排名顯示,300 μmol/L的Cd和300 μmol/L的Zn配施時綜合權重最高,其次是單施300 μmol/L的Cd和150 μmol/L的Cd、300 μmol/L 的Zn配施時的情況,說明低濃度的Cd對油菜生長有一定的促進作用,300 μmol/L的Zn與低濃度的Cd配施對油菜有促進作用。單施700 μmol/L的Cd時各項指標的綜合權重最低,說明300 μmol/L 的Zn對高濃度的Cd脅迫也有較好的緩解作用。
(2)采用PCANN模型分析不同Zn、Cd處理濃度對各指標的影響程度,表明不同Zn、Cd濃度對對POD活性影響最大,其次是CAT活性和SOD活性,對H2O2含量和丙二醛含量影響最小。
(3)PCANN模型跟單純的主成分分析評價相比具有自適應能力,可以采用該模型用于實際的油菜種植實踐。該模型除了可以進行評價之外,還能夠根據(jù)結果自動識別Zn、Cd的配置情況,在實際油菜種植過程中,只要檢測出油菜生長的相關指標,可以根據(jù)評價結果給出解決辦法,用此模型指導油菜種植將更加科學高效。
(4)主成分分析能夠優(yōu)化評價指標,減少神經(jīng)網(wǎng)絡輸入層節(jié)點數(shù),進而可以優(yōu)化神經(jīng)網(wǎng)絡的結構,給出如何采用主成分分析法優(yōu)化神經(jīng)網(wǎng)絡結構的具體實現(xiàn)方法。優(yōu)化指標后,能極大減輕后續(xù)研究中檢測樣本的工作量,減少神經(jīng)網(wǎng)絡的運算量。
(5)神經(jīng)網(wǎng)絡訓練學習過程中,采用遺傳算法優(yōu)化其權閾值,能夠大大提高BP網(wǎng)絡的泛化能力。