完香蓓,簡麗蓉,辛萍萍,單慧勇,胡 瑾
(西北農(nóng)林科技大學機械與電子工程學院,楊凌 712100)
近年來,水培技術(shù)因具有營養(yǎng)均衡、可循環(huán)使用、無污染等優(yōu)點,已成為設施栽培產(chǎn)業(yè)新的研究熱點和發(fā)展趨勢[1-2]。光是光合作用中反應能的唯一來源,是影響植物生長發(fā)育最重要的環(huán)境因子之一[3]。由于受到墻體材料的遮擋等因素的影響,設施水培生產(chǎn)中光照明顯不足,因此面向水培種植的光環(huán)境調(diào)控將成為設施水培調(diào)控技術(shù)中新的研究熱點。其中,光環(huán)境智能調(diào)控模型可實現(xiàn)不同條件下光飽和點的動態(tài)獲取,為光環(huán)境高效調(diào)控提供依據(jù),是整個調(diào)控系統(tǒng)的核心。水培種植根溫動態(tài)調(diào)控相較于原有的土壤和基質(zhì)種植形式,成本明顯降低、可行性明顯提高,而且水培中根溫控制對植物光合作用有顯著影響[4]。因此,如何在現(xiàn)有光調(diào)控的基礎上,融合水培根溫等多環(huán)境因素對光合速率的影響,研究面向嵌入式調(diào)控裝備的水培蔬菜光環(huán)境優(yōu)化調(diào)控模型,成為水培技術(shù)發(fā)展中的關(guān)鍵問題。
現(xiàn)有光環(huán)境調(diào)控模型研究主要集中在日光溫室土培作物上。王智永等[5]通過設計多因子嵌套試驗獲得不同光量子通量密度、CO2濃度、溫度組合條件下的光合速率值,利用支持向量機算法建立光合速率模型,設計基于連續(xù)蟻群尋優(yōu)算法獲取光飽和點并以其為調(diào)控目標,建立了全范圍溫度、CO2濃度下的光環(huán)境優(yōu)化調(diào)控模型。胡瑾等[6]針對光溫耦合條件下番茄光環(huán)境調(diào)控目標值難以快速、精確獲取的問題,在光溫嵌套光合速率試驗結(jié)果基礎上,提出了改進型魚群算法的光溫耦合尋優(yōu)方法,對不同溫度下光飽和點進行快速精準尋優(yōu),建立了番茄光環(huán)境調(diào)控目標值模型。但由于以土培作物為研究對象所建模型均未考慮根溫對光飽和點影響,加之原有模型大多采用非線性回歸方式擬合,在加入根溫影響后模型必然會出現(xiàn)精確度顯著下降、復雜度明顯上升的問題,故采用原有方法構(gòu)建的模型必然不能滿足需求。隨機森林算法是Leo Breiman提出的Bagging集成學習理論[7]與Tin Kam Ho 提出的隨機子空間方法[8]相結(jié)合的一種監(jiān)督學習算法。它利用bootsrap重抽樣方法從原始樣本中抽取多個樣本并進行決策樹建模,再通過組合多棵決策樹的預測,由投票得出最終預測結(jié)果[9-10]。隨機森林回歸算法在一定的樣本含量下,能夠在高維數(shù)據(jù)中有效地分析具有交互作用和非線性關(guān)系的數(shù)據(jù)[11],滿足處理根溫、氣溫、CO2濃度與光飽和點數(shù)據(jù)樣本的需求。且隨機森林算法作為一種人工智能算法可以實現(xiàn)對多元數(shù)據(jù)的擬合,具有參數(shù)較少、預測準確率高、對異常值和噪聲有很好的穩(wěn)健性、可移植性好且不容易出現(xiàn)過擬合等優(yōu)點。岳繼博等[12]利用隨機森林算法對冬小麥生物量進行了回歸試驗,探討了利用隨機森林算法估算冬小麥生物量的最佳方法。李健麗等[13]為監(jiān)測小麥白粉病,基于隨機森林算法建立模型,提高了大數(shù)據(jù)下的監(jiān)測精度。但是模型中子樹棵數(shù)、特征子集參數(shù)選取等仍存在問題。
本研究在已有光調(diào)控模型研究基礎上,針對水培生菜設計多因子嵌套試驗,建立面向嵌入式控制終端的光調(diào)控目標值模型,以期為面向嵌入式系統(tǒng)的光環(huán)境高效精準調(diào)控提供理論依據(jù)。
試驗于2016年9月15日—10月15日在西北農(nóng)林科技大學北校機械與電子工程學院智能農(nóng)業(yè)實驗室進行。試驗生菜品種為‘波士頓奶油生菜’。植株生長至4、5片真葉時移植于MD1400培養(yǎng)箱(荷蘭sinder公司)內(nèi),進行正常的水培栽培管理。營養(yǎng)液采用華南農(nóng)業(yè)大學葉菜配方A(包括濃縮液A、濃縮液B與徽肥。A液主要成分為四水硝酸鈣、硝酸鉀與硝酸銨,B液主要成分為磷酸二氫鉀、硫酸鉀、七水硫酸鎂,A液與B液按照1∶200分別稀釋后混合,再滴入1∶500濃度稀釋的徽肥,混合而成水培營養(yǎng)液),不噴施任何農(nóng)藥和激素。隨機選取健康、長勢一致、苗齡一致的長至5、6片真葉的生菜幼苗進行試驗。
為避免作物午休效應影響,選取9:00—11:00和14:00—17:00兩個時間段對植物的各項參數(shù)進行測量和獲取。利用美國LI-COR公司生產(chǎn)的LI-6800便攜式光合速率測試儀的不同子模塊設定測量時所需要的各項環(huán)境參數(shù)。水培試驗營養(yǎng)液溫度設置為13℃、15℃、17℃、21℃、25℃、29℃共6個梯度;葉室溫度控制模塊設置為15℃、20℃、25℃、30℃共4個梯度;LED光源光強模塊設置為700μmol(m2·s)、600μmol(m2·s)、550μmol(m2·s)、500μmol(m2·s)、400μmol(m2·s)、300μmol(m2·s)、100μmol(m2·s)、50μmol(m2·s)、20μmol(m2·s)、0 μmol(m2·s)共10個光子通量密度梯度;CO2濃度設置為400μmolmol、800μmolmol、1 200μmolmol共3個梯度。得到以根溫、氣溫、光量子通量密度、CO2濃度為自變量,凈光合速率為因變量,容量為648的試驗樣本集。項目前期利用支持向量機-量子遺傳算法進行光飽和點尋優(yōu),尋優(yōu)模型決定系數(shù)為0.9454,得到以根溫梯度為13℃、15℃、17℃、21℃、25℃、29℃、氣溫梯度為15℃、20℃、25℃、30℃,CO2濃度梯度為400μmolmol、800μmolmol、1 200μmolmol 嵌套下的107組光飽和點值。由圖1可知,在生菜生長過程中,存在適宜的根溫區(qū)間,過低或過高的根溫均對光飽和點存在限制作用;隨著氣溫升高,光飽和點值逐漸升高但增長速率逐漸減緩;CO2濃度增加使得光飽和點值得到提升。
綜上所述,根溫、氣溫、CO2濃度與光飽和點之間存在顯著耦合關(guān)系,故基于隨機森林算法構(gòu)建模型更適宜。
圖1 光飽和點與根溫、氣溫的關(guān)系圖Fig.1 The relationship between light saturation point and root temperature and air temperature
圖2 基于隨機森林算法的建模過程Fig.2 Model construction flowchart with random forest algorithm
采用Python scikit-learn 算法包集成方法中的Random Forest Regressor,以根溫、氣溫、CO2濃度為輸入,光飽和點為輸出進行光飽和點預測模型的構(gòu)建。模型構(gòu)建過程主要分為訓練集與測試集的選取、特征子集選擇、最優(yōu)決策樹棵數(shù)選取、模型構(gòu)建及驗證。具體模型構(gòu)建流程如圖2所示。
基于試驗材料與方法部分所述的試驗過程及結(jié)論,將試驗所獲取的數(shù)據(jù)進行分類,以根溫、氣溫,CO2濃度為自變量,光飽和點為因變量的107組試驗樣本作為本模型的數(shù)據(jù)源。隨機選取85組樣本數(shù)據(jù)作為訓練集,約占總樣本數(shù)據(jù)的80%。剩余的22組樣本數(shù)據(jù)作為測試集,約占總樣本數(shù)據(jù)的20%。使用bootstrap抽樣方法從訓練集中隨機產(chǎn)生k個子集θ1,θ2,…,θk,,構(gòu)造對應的決策樹{T(x,θ1)},{T(x,θ2)},…, {T(x,θk)}。
由于random_state是隨機數(shù)生成器,n_estimators參數(shù)及max_feature參數(shù)改變對模型預測結(jié)果的影響將被隨機性掩蓋。因此,在參數(shù)選擇階段,首先設定初始尋優(yōu)范圍為random_state∈[250,450]、n_estimators∈[25,500]、max_feature∈[1,2]進行網(wǎng)格預搜索,得到參數(shù)值為random_state為320、n_estimators∈[96,105]、max_feature為2時模型較優(yōu)。再設定random_state為320,分析模型精度隨max_feature和n_estimators參數(shù)變化趨勢。將特征子集參數(shù)max_feature尋優(yōu)范圍設定為[1,2]、對數(shù)化處理后的子樹棵數(shù)參數(shù)lg(n_estimators) 尋優(yōu)范圍為[1.982,2.021],選取lg(MSE)為模型評價指標作等高線圖,結(jié)果如圖3所示。
圖3 訓練樣本均方差隨參數(shù)變化情況圖Fig.3 Variation of mean square error with model parameter for training sample
由圖3可知,當max_feature為2時,對于所有n_estimators范圍,模型評價指標lg(MSE)均比max_feature為1時好;在max_feature為2時,lg(n_estimators)∈[1.995,2.010]時,lg(MSE)≤1.3,模型精度較高。在此范圍內(nèi)重新進行網(wǎng)格搜索,結(jié)果為當參數(shù)值random_state為320、max_feature為2、n_estimators為101時,模型均方誤差(MSE)為19.1498、平均絕對誤差(MAE)為2.9396、決定系數(shù)r2為0.9973、程序運行時間t為0.1014 s,模型性能最優(yōu)。
隨機森林算法特征子集與子樹棵數(shù)對模型回歸性能具有顯著影響[14]。通過分析上述參數(shù)在模型建立過程中的意義,對比選取不同參數(shù)時模型誤差、決定系數(shù)及運行時間差異來綜合分析不同參數(shù)對模型性能的影響。
光調(diào)控目標值模型中需要考慮的特征有根溫、氣溫、CO2濃度3項。為了使模型不被隨機性影響,此處設定隨機數(shù)生成器random_state為整數(shù)320。當訓練101棵決策樹時,設定不同特征子集,得到結(jié)果如表1所示。
表1 不同特征子集評價指標對比
由表1可以看出,不同特征子集的選擇對于回歸模型性能影響很大,max_feature為2時模型性能明顯更優(yōu),而該參數(shù)對模型運行時間沒有影響。通過網(wǎng)格搜索、參考Brieman及多個文獻對于回歸問題的max_feature參數(shù)選取建議[15],選取max_feature參數(shù)為2,即不重復地隨機從特征集中選取2個特征,使用選定的特征對決策樹節(jié)點進行劃分,結(jié)果表明此時模型性能最優(yōu)?;谝陨嫌柧殯Q策樹,每棵樹都會產(chǎn)生對應的預測值。而單棵決策樹的預測通過因變量的觀測值Yi(i=1,2,…,n)的加權(quán)平均得到[16],即:
(1)
其中,ωi(x)為每個觀測值Yi∈(1,2,…,n)的權(quán)重。
隨機森林算法將所有決策樹預測的平均值作為最終預測結(jié)果,因此決策樹的數(shù)量對模型回歸性能具有很大影響。其中,Random Forest Regressor中的n_estimators參數(shù)指定決策樹數(shù)目。對不同決策樹棵數(shù)分別進行光調(diào)控目標值模型構(gòu)建,計算模型均方誤差(MSE)、平均絕對誤差(MAE)、決定系數(shù)r2及程序運行時間t并進行分析比較。選取隨機數(shù)生成器random_state為整數(shù)320,當max_feature參數(shù)為2時,選取子樹棵樹為101時所建模型性能最優(yōu)(表2)。
表2 不同棵數(shù)評價指標對比
圖4可知,隨機森林算法模型受決策樹棵數(shù)影響較明顯,均方誤差(MSE)、平均絕對誤差(MAE)隨著棵數(shù)增加先降低后逐漸趨于平穩(wěn)。同時,決定系數(shù)r2隨子樹棵數(shù)增加而增加后趨于平穩(wěn)。random_state設定不同可能導致不同結(jié)果,但決策樹棵數(shù)增加將導致模型更加復雜,使得模型時間、空間開銷增加。
圖4 不同棵數(shù)模型結(jié)果對比Fig.4 Comparsion for different n_estimators on model performance
利用2.1節(jié)剩余22組試驗樣本作為測試集進行模型精度驗證。按圖1步驟完成光飽和點預測建模并驗證,結(jié)果如圖5所示。
圖5 光調(diào)控目標值模型驗證Fig.5 Verification of the light environment regulation target model
基于隨機森林算法的光調(diào)控目標值模型測試集擬合公式為:
f(x)=0.9617x+11.59
(2)
其中,決定系數(shù)為 0.9955,擬合直線斜率為0.9617,縱軸截距為11.59,均方根誤差為5.677,平均絕對誤差為5.3475,運行時間為0.0990s。表明光飽和實測值與預測值相關(guān)性高,模型泛化能力強,模型具有較高的預測精度。綜上所述,基于隨機森林算法的光調(diào)控目標值模型可實現(xiàn)不同環(huán)境參數(shù)下光飽和精準預測。
水培作物生長過程中根溫對光合作用存在顯著影響,在已有光調(diào)控的基礎上,本研究設計多因子嵌套試驗方案,獲得以根溫、氣溫、CO2濃度為自變量,光飽和點為因變量的試驗樣本集。項目前期利用支持向量機-量子遺傳算法獲取不同環(huán)境因子下的光飽和點,以此為基礎提出了一種基于隨機森林算法的面向嵌入式控制終端可高精度移植的光調(diào)控目標值模型。
具體結(jié)論如下:(1)在建模過程中,為獲得更好的模型效果,本研究通過網(wǎng)格搜索方法獲得隨機數(shù)生成器、特征子集及子樹棵樹的最優(yōu)組合為[320,2,101]。通過分析不同參數(shù)對模型回歸性能的影響,獲知特征子集和子樹棵數(shù)的選擇對模型精度具有較大影響,前者對程序運行時間無影響,但后者隨著子樹棵數(shù)的增加,程序運行時間增加。(2)模型驗證結(jié)果表明,模型預測值與實測值相關(guān)系數(shù)為0.9955,平均絕對誤差為5.3475。采用隨機森林算法進行水培作物光調(diào)控目標值模型構(gòu)建精度較高,為面向嵌入式系統(tǒng)的模型高精度移植提供了一種有效方案。