周修理,張萍萍,秦 娜,霍東旭,喬金友*
(1.東北農(nóng)業(yè)大學(xué)電氣與信息學(xué)院,哈爾濱 150030;2.東北農(nóng)業(yè)大學(xué)工程學(xué)院,哈爾濱 150030;3.黑龍江省主要農(nóng)作物生產(chǎn)機(jī)械化材料化技術(shù)創(chuàng)新中心,哈爾濱 150030)
黑土性狀好、肥力高,是適宜大豆生長的優(yōu)質(zhì)土壤。黑龍江省位于世界三大黑土區(qū)之一的東北平原,大豆種植面積與產(chǎn)量均居全國首位,在保障國家糧食安全中具有不可替代地位[1]。近年來,隨著我國農(nóng)業(yè)現(xiàn)代化水平提高,黑龍江地區(qū)農(nóng)業(yè)機(jī)械化程度快速發(fā)展,農(nóng)業(yè)機(jī)械作業(yè)對黑土壓實(shí)風(fēng)險(xiǎn)也隨之上升。過度壓實(shí)導(dǎo)致土壤結(jié)構(gòu)破壞、水滲透能力減弱、作物根系生長受阻,影響糧食綜合生產(chǎn)能力提升和農(nóng)業(yè)可持續(xù)發(fā)展[2]。
農(nóng)業(yè)機(jī)械作業(yè)造成土壤壓實(shí)已成為制約世界各國農(nóng)業(yè)發(fā)展的重要問題,國內(nèi)外學(xué)者就機(jī)械壓實(shí)對土壤物理特性、作物生長發(fā)育影響等展開大量研究。在機(jī)械壓實(shí)對土壤物理特性影響上,Kumar等通過研究不同耕作系統(tǒng)壓實(shí)狀況發(fā)現(xiàn),機(jī)械壓實(shí)破壞土壤結(jié)構(gòu),導(dǎo)致土壤容重與土壤堅(jiān)實(shí)度增加,耕作可在一定程度上緩解壓實(shí)影響,疏松土壤[3];Sivarajan等研究輪式機(jī)械作業(yè)對土壤壓實(shí)影響得出,機(jī)械作業(yè)對測區(qū)土壤壓實(shí)作用顯著,壓實(shí)后表層土壤易于恢復(fù)而深層土壤恢復(fù)較慢[4];喬金友等在使用JD-904型拖拉機(jī)進(jìn)行壓實(shí)試驗(yàn)基礎(chǔ)上,結(jié)合多因素方差分析,發(fā)現(xiàn)土壤深度與壓實(shí)次數(shù)為影響土壤堅(jiān)實(shí)度最主要因素,隨壓實(shí)次數(shù)增加,土壤受壓實(shí)作用范圍及程度均增加[5]。關(guān)于機(jī)械壓實(shí)對作物生長發(fā)育影響,肖芬芳等通過不同壓強(qiáng)下水田土壤壓實(shí)試驗(yàn),結(jié)合單因素方差分析及線性回歸擬合得出,機(jī)械壓實(shí)對水稻根系發(fā)育及產(chǎn)量造成顯著影響,土壤受壓實(shí)強(qiáng)度與甘蔗成根數(shù)量、主根長度、單穴產(chǎn)量之間為負(fù)相關(guān)[6];Alvarez等研究表明,不同作物受壓實(shí)影響狀況不同,機(jī)械壓實(shí)導(dǎo)致土壤密度增加進(jìn)而玉米干物質(zhì)含量降低,與大豆相比,土壤堅(jiān)實(shí)度對玉米根系發(fā)育影響更明顯[7];Tesfaye等研究發(fā)現(xiàn),隨壓實(shí)次數(shù)增加,土壤體積密度與滲透阻力均呈非線性增長,壓實(shí)地塊甘蔗產(chǎn)量較未壓實(shí)地塊出現(xiàn)大幅下降[8];齊紅志等通過研究機(jī)械壓實(shí)作業(yè),對玉米植株生長發(fā)育影響發(fā)現(xiàn),0~20 cm深度土壤受大型農(nóng)業(yè)機(jī)械壓實(shí)作業(yè)影響最大,耕層土壤緊實(shí)度增加對玉米根系起到抑制作用,影響莖、葉生長,最終使玉米減產(chǎn)幅度達(dá)20%以上[9]。
各國學(xué)者針對機(jī)械壓實(shí)問題開展大量研究,但大多基于簡單統(tǒng)計(jì)分析與線性擬合,未建立機(jī)械壓實(shí)對作物產(chǎn)量影響預(yù)測模型,無法科學(xué)指導(dǎo)機(jī)械壓實(shí)問題消減研究。隨著人工智能興起,機(jī)器學(xué)習(xí)算法發(fā)展迅速。相較于傳統(tǒng)模型,機(jī)器學(xué)習(xí)算法可深入挖掘數(shù)據(jù)內(nèi)部關(guān)系,具有更強(qiáng)數(shù)據(jù)擬合能力與預(yù)測精度[10]。結(jié)合農(nóng)業(yè)生產(chǎn)機(jī)械化實(shí)際引入機(jī)器學(xué)習(xí)方法以探究機(jī)械作業(yè)造成土壤壓實(shí)對黑土區(qū)大豆產(chǎn)量影響具有重要理論意義。
隨機(jī)森林(Random forest,RF)是基于Bagging集成學(xué)習(xí)思想分類器,具有訓(xùn)練樣本數(shù)量需求少、分類精度高等優(yōu)點(diǎn),在作物識別、地塊分類、機(jī)械故障診斷等領(lǐng)域應(yīng)用廣泛[11-12],但壓實(shí)對作物產(chǎn)量影響預(yù)測尚缺乏研究。本文利用隨機(jī)森林實(shí)現(xiàn)不同深度土壤堅(jiān)實(shí)度對大豆產(chǎn)量影響預(yù)測,針對隨機(jī)森林超參數(shù)選擇主觀性強(qiáng)、泛化能力差問題,使用遺傳優(yōu)化算法(Genetic algorithm,GA)對隨機(jī)森林進(jìn)行改進(jìn),構(gòu)建基于GA-RF土壤堅(jiān)實(shí)度對大豆產(chǎn)量影響預(yù)測模型,可有效識別因受機(jī)械壓實(shí)影響而導(dǎo)致大豆減產(chǎn)嚴(yán)重地塊,對提高大豆品質(zhì),保護(hù)土壤資源,促進(jìn)農(nóng)業(yè)機(jī)械化向全程全面高質(zhì)高效發(fā)展具有重要意義。
試驗(yàn)地點(diǎn)位于黑龍江省哈爾濱市東北農(nóng)業(yè)大學(xué)向陽試驗(yàn)示范基地(44°04′N,125°42′E)。試驗(yàn)區(qū)處于第一積溫帶,氣候?yàn)橹袦貛Т箨懠撅L(fēng)性氣候,年平均溫度3.5~4.5℃,大于10℃有效積溫為2 600~2 700℃,年均降雨量400~600 mm,集中在7~8月,無霜期為135~145 d,土壤類型為典型黑土,土壤質(zhì)地為粉壤土(砂粒5.3%,粉粒68.5%,黏粒28.9%)。
針對當(dāng)前黑土區(qū)大豆生產(chǎn)作業(yè)中多種經(jīng)營規(guī)模并存、不同規(guī)模農(nóng)業(yè)機(jī)械同時(shí)使用情況,設(shè)計(jì)基于不同類型拖拉機(jī)、不同壓實(shí)次數(shù)的梯度壓實(shí)試驗(yàn)。在春適期播種大豆,選用凱斯210大型拖拉機(jī)、約翰迪爾904中型拖拉機(jī)、約翰迪爾280小型拖拉機(jī)分別進(jìn)行2、4、6、8、10、12次壓實(shí)試驗(yàn),以模擬不同機(jī)械化程度土壤受壓實(shí)情況。為盡可能消除地塊差異對試驗(yàn)結(jié)果的影響,每組壓實(shí)處理設(shè)置3次重復(fù),設(shè)置未經(jīng)壓實(shí)地塊為對照組(CK),試驗(yàn)過程中控制拖拉機(jī)行駛速度保持勻速且一致。
土壤因機(jī)械作業(yè)導(dǎo)致壓實(shí)情況可通過土壤堅(jiān)實(shí)度、土壤含水率、土壤容重等進(jìn)行表征[13],其中土壤堅(jiān)實(shí)度又稱土壤滲透阻力,是基于土壤硬度合成指標(biāo),由柱塞壓入土壤時(shí)所受土壤摩擦力、壓縮力和抗剪力等構(gòu)成,對作物種子發(fā)芽、幼苗出土、根系生長影響較大;相較于其他土壤物理特性指標(biāo),土壤堅(jiān)實(shí)度通過土壤堅(jiān)實(shí)度儀獲取,簡單易行,故選用不同深度土壤堅(jiān)實(shí)度衡量土壤受機(jī)械壓實(shí)作業(yè)影響情況。壓實(shí)完成,在每個(gè)試驗(yàn)區(qū)拖拉機(jī)壓實(shí)輪轍中線處隨機(jī)選取3個(gè)測點(diǎn),使用由荷蘭Eijkelkamp公司生產(chǎn)PV6.08土壤堅(jiān)實(shí)度測定儀測定0~80 cm土層深度土壤堅(jiān)實(shí)度(MPa),該儀器每1 cm自動(dòng)記錄一個(gè)土壤堅(jiān)實(shí)度數(shù)值。土壤堅(jiān)實(shí)度測量時(shí),雙手握持PV6.08型貫穿阻力測試儀勻速插入土壤,以避免因受力不均對測量結(jié)果產(chǎn)生干擾。
大豆成熟后,采集壓實(shí)輪轍兩側(cè)2 m2大豆樣本,脫粒,測定籽粒含水率,計(jì)算標(biāo)準(zhǔn)含水率[14]大豆產(chǎn)量(kg·hm-2)。
土壤堅(jiān)實(shí)度測量與大豆樣本采集現(xiàn)場,分別如圖1和2所示。
圖1 土壤堅(jiān)實(shí)度測量Fig.1 Soil penetration resistance measurement
圖2 大豆樣本采集Fig.2 Soybean sample collection
為探究不同深度層次土壤堅(jiān)實(shí)度對大豆產(chǎn)量影響,將采集的0~80 cm共80個(gè)土壤堅(jiān)實(shí)度數(shù)據(jù)按層次進(jìn)行劃分,計(jì)算各試驗(yàn)小區(qū)0~10,11~20,…,71~80 cm土壤堅(jiān)實(shí)度平均值作為輸入特征xi,i=1,…,N,N為樣本個(gè)數(shù),本試驗(yàn)共54個(gè)試驗(yàn)小區(qū),每個(gè)試驗(yàn)小區(qū)設(shè)置3處土壤堅(jiān)實(shí)度測定點(diǎn),N值為162。經(jīng)計(jì)算得CK組大豆產(chǎn)量為2 529.95 kg·hm-2,試驗(yàn)組大豆產(chǎn)量為1 816.48~2 518.85 kg·hm-2,較CK組產(chǎn)量下降0.44%~28.20%,即不同機(jī)械壓實(shí)作業(yè)組合均對大豆造成減產(chǎn)影響。依據(jù)式(1)計(jì)算各試驗(yàn)組同CK組大豆產(chǎn)量變化率ci(%),將其按照表1離散化為正常、輕度影響、較嚴(yán)重影響、嚴(yán)重影響4類狀況作為待預(yù)測類別yi,以分類評估不同深度土壤堅(jiān)實(shí)度對大豆產(chǎn)量影響狀況[15]。
表1 類別劃分Table 1 Category division
式(1)中,mi為地塊i大豆產(chǎn)量;m′為CK組大豆產(chǎn)量。
為消除由地塊差異及人為因素帶來的誤差,將原始數(shù)據(jù)基于3σ法則作異常值處理。當(dāng)土壤堅(jiān)實(shí)度數(shù)據(jù)滿足式(2)時(shí)視為正常值,否則視為異常值,予以剔除,式中σ為標(biāo)準(zhǔn)差,μ為均值。
異常值剔除導(dǎo)致數(shù)據(jù)集中部分?jǐn)?shù)據(jù)出現(xiàn)缺失,對此使用拉格朗日插值法進(jìn)行插補(bǔ)[16]。拉格朗日插值法可依據(jù)現(xiàn)有數(shù)據(jù)點(diǎn)分布構(gòu)造插值函數(shù)L(x),實(shí)現(xiàn)對未知樣本點(diǎn)預(yù)測。對有n+1個(gè)取值點(diǎn)且分布互異土壤堅(jiān)實(shí)度數(shù)據(jù)D={(x0,y0),(x1,y1),…,(xn,yn)而言,設(shè)x為土層深度,y為其對應(yīng)土壤堅(jiān)實(shí)度值,對于其中存在缺失值求解過程如下:
①根據(jù)已知土壤堅(jiān)實(shí)度土層數(shù)據(jù)求解拉格朗日基函數(shù)lj(x):
②根據(jù)式(3)中拉格朗日基函數(shù)構(gòu)造拉格朗日插值多項(xiàng)式:
③將缺失函數(shù)值對應(yīng)點(diǎn)帶入式(4)求解得到對未知點(diǎn)土壤堅(jiān)實(shí)度值L(x)估計(jì)值,完成缺失值填補(bǔ)工作。
原始數(shù)據(jù)經(jīng)異常值與缺失值處理后,依照大豆受影響狀況類別整理試驗(yàn)數(shù)據(jù),結(jié)果如表2所示。
表2 試驗(yàn)數(shù)據(jù)Table 2 Experimental data
皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient)又稱皮爾遜積矩相關(guān)系數(shù),通過待評估的兩組數(shù)據(jù)與各自離差相乘反映兩組數(shù)據(jù)之間相關(guān)程度,其計(jì)算公式如式(5)所示。
式(5)中,X、Y為待確定相關(guān)程度的兩組數(shù)據(jù),分別有n個(gè)元素;和分別為兩組數(shù)據(jù)平均值。皮爾遜相關(guān)性系數(shù)取值介于-1與1之間,取值為正時(shí)代表X與Y為正相關(guān),值為負(fù)時(shí)代表負(fù)相關(guān)。
使用皮爾遜相關(guān)系數(shù)法衡量不同深度土壤堅(jiān)實(shí)度與大豆產(chǎn)量之間相關(guān)性,篩選不同大豆產(chǎn)量關(guān)聯(lián)度高的特征作為分類模型輸入。
改進(jìn)隨機(jī)森林通過引入遺傳算法對隨機(jī)森林模型優(yōu)化。遺傳算法也稱進(jìn)化算法,通過不斷選擇、交叉、變異等操作,演化產(chǎn)生近似解,具有全局搜索能力[17]。利用遺傳算法對隨機(jī)森林中決策樹個(gè)數(shù)、決策樹最大深度、葉子節(jié)點(diǎn)含有最小樣本數(shù)、節(jié)點(diǎn)可分最小樣本數(shù)4個(gè)關(guān)鍵參數(shù)進(jìn)行尋優(yōu)[18],解決隨機(jī)森林中超參數(shù)設(shè)置盲目性、泛化性能差問題,實(shí)現(xiàn)土壤堅(jiān)實(shí)度對大豆產(chǎn)量影響預(yù)測。
圖3為GA-RF模型執(zhí)行過程,步驟如下:
圖3 GA-RF模型流程Fig.3 GA-RF model flow
①將采集到的土壤堅(jiān)實(shí)度與大豆產(chǎn)量數(shù)據(jù)進(jìn)行預(yù)處理,按照3∶1隨機(jī)劃分訓(xùn)練集和驗(yàn)證集,使用訓(xùn)練集數(shù)據(jù)用于模型建立;
②初始化遺傳算法種群參數(shù),設(shè)置隨機(jī)森林中待優(yōu)化超參數(shù)取值范圍,采用實(shí)數(shù)編碼方式隨機(jī)產(chǎn)生一組初始參數(shù)編碼,用于模型初始化;
③以模型分類誤差為適應(yīng)度函數(shù),計(jì)算種群中個(gè)體適應(yīng)度;
④根據(jù)適應(yīng)度選擇個(gè)體,淘汰適應(yīng)度低個(gè)體,保留適應(yīng)度高個(gè)體作交叉、變異等操作,產(chǎn)生下一代;
⑤重復(fù)步驟③~④,直至滿足終止條件(迭代次數(shù)或停滯代數(shù)達(dá)到設(shè)定值),輸出隨機(jī)森林中決策樹個(gè)數(shù)、決策樹最大深度、葉子節(jié)點(diǎn)含有最小樣本數(shù)、節(jié)點(diǎn)可分的最小樣本數(shù)作為最優(yōu)超參數(shù)組合,建立GA-RF模型;
⑥使用構(gòu)建的GA-RF模型對驗(yàn)證集進(jìn)行驗(yàn)證,輸出預(yù)測結(jié)果。
選擇準(zhǔn)確率(Accuracy)以及宏平均(Macro average)后查準(zhǔn)率(Precision)、召回率(Recall)、F1值(F-Measure)作為評價(jià)標(biāo)準(zhǔn)[19],衡量模型分類效果,計(jì)算公式分別如式(6)~式(9)所示。
式(6)~(9)中,n為類別數(shù),N為數(shù)據(jù)集樣本數(shù),TP為正確分類為正例的正樣本數(shù),F(xiàn)P為錯(cuò)誤分類為正例的負(fù)樣本數(shù),F(xiàn)N為錯(cuò)誤分類為負(fù)例的正樣本數(shù),TN為正確分類為負(fù)例的負(fù)樣本數(shù)。
準(zhǔn)確率為正確分類樣本占總樣本比例;查準(zhǔn)率為所有預(yù)測結(jié)果為正例中真正為正例比例;召回率為所有為正例中被正確預(yù)測的樣本比例;F1值為查準(zhǔn)率和召回率的加權(quán)調(diào)和平均,綜合評價(jià)模型性能;宏平均即在多分類問題中計(jì)算每一類樣本性能指標(biāo)的算術(shù)平均值作為最終評價(jià)結(jié)果,上述評價(jià)指標(biāo)接近于1代表模型分類性能越好。
試驗(yàn)共采集162組數(shù)據(jù),依據(jù)3σ法則與拉格朗日插值法對數(shù)據(jù)異常值及缺失值進(jìn)行處理,用皮爾遜相關(guān)系數(shù)法計(jì)算不同深度土壤堅(jiān)實(shí)度與黑土區(qū)大豆產(chǎn)量相關(guān)系數(shù)并進(jìn)行相關(guān)性排序,結(jié)果如表3所示。
由表3可知,不同深度土壤堅(jiān)實(shí)度與大豆產(chǎn)量之間均為負(fù)相關(guān),其中負(fù)相關(guān)性最強(qiáng)為11~20 cm土壤堅(jiān)實(shí)度,相關(guān)系數(shù)為-0.935;0~10 cm與21~30 cm土壤堅(jiān)實(shí)度相關(guān)系數(shù)分別為-0.909和-0.872,不同大豆產(chǎn)量之間存在極強(qiáng)負(fù)相關(guān);31~40 cm、41~50 cm與51~60 cm土壤堅(jiān)實(shí)度與大豆產(chǎn)量相關(guān)系數(shù)絕對值為0.6~0.8,為強(qiáng)相關(guān);61~70 cm與71~80 cm等深層次土壤堅(jiān)實(shí)度與大豆產(chǎn)量相關(guān)性較低。選取與黑土區(qū)大豆產(chǎn)量之間存在強(qiáng)相關(guān)性土壤堅(jiān)實(shí)度特征,作為GA-RF模型輸入?yún)⒘浚越档湍P蛷?fù)雜度,提高計(jì)算效率。
表3 不同深度土壤堅(jiān)實(shí)度與大豆產(chǎn)量相關(guān)性Table 3 Correlation between soil penetration resistance at different depths and soybean yield
3.2.1 基于GA的RF參數(shù)尋優(yōu)
根據(jù)皮爾遜相關(guān)系數(shù)分析結(jié)果,選擇0~10 cm、11~20 cm、21~30 cm、31~40 cm、41~50 cm、51~60 cm 6個(gè)與黑土區(qū)大豆產(chǎn)量相關(guān)性強(qiáng)的土壤堅(jiān)實(shí)度特征,作為預(yù)測模型輸入?yún)⒘?,預(yù)測大豆產(chǎn)量受影響狀況。將預(yù)處理及特征選擇數(shù)據(jù)按3∶1隨機(jī)作訓(xùn)練集與驗(yàn)證集劃分,輸入訓(xùn)練集數(shù)據(jù)到GARF模型中用于模型建立。使用GA對RF超參數(shù)尋優(yōu)時(shí),GA種群規(guī)模設(shè)置為20,交叉變異概率設(shè)置為0.1,終止條件為最大迭代次數(shù)為150或停滯代數(shù)為10;RF中待確定的4個(gè)超參數(shù)尋優(yōu)范圍設(shè)置與最終尋優(yōu)結(jié)果見表4。
表4 GA-RF尋優(yōu)結(jié)果Table 4 GA-RF optimization results
根據(jù)表4尋優(yōu)結(jié)果可知,當(dāng)RF中決策樹個(gè)數(shù)設(shè)置為11、決策樹最大深度為7,葉節(jié)點(diǎn)含有最小樣本數(shù)為2、節(jié)點(diǎn)可分最小樣本數(shù)為5時(shí),GA-RF模型性能最優(yōu)。
3.2.2 GA-RF與RF對黑土區(qū)大豆產(chǎn)量影響預(yù)測性能比較
將訓(xùn)練集數(shù)據(jù)分別應(yīng)用于GA-RF與RF模型中進(jìn)行訓(xùn)練,使用驗(yàn)證集數(shù)據(jù)驗(yàn)證土壤堅(jiān)實(shí)度對黑土區(qū)大豆產(chǎn)量影響狀況預(yù)測模型性能,繪制RF與GA-RF模型訓(xùn)練集與驗(yàn)證集預(yù)測結(jié)果與真實(shí)類別對比曲線,如圖4和5所示,圖中,X軸為樣本編號,Y軸為樣本類別,實(shí)線為大豆產(chǎn)量受影響狀況真實(shí)類別,虛線為預(yù)測類別。
圖4 RF預(yù)測結(jié)果Fig.4 RF prediction results
計(jì)算GA-RF與RF模型在訓(xùn)練集與驗(yàn)證集上準(zhǔn)確率及宏平均后查準(zhǔn)率、召回率、F1值等評價(jià)指標(biāo)并作對比,結(jié)果如表5所示。
圖5 GA-RF預(yù)測結(jié)果Fig.5 GA-RF prediction results
表5 GA-RF與RF模型性能對比Table 5 Comparison between GA-RF and RF model
分析圖4、5及表5可知,RF與GA-RF模型在訓(xùn)練集中均有較好預(yù)測性能,對大豆產(chǎn)量受影響類別預(yù)測準(zhǔn)確率分別為95.04%、97.52%;但在應(yīng)用驗(yàn)證集時(shí),RF模型準(zhǔn)確率較訓(xùn)練集出現(xiàn)大幅下降,GA-RF模型準(zhǔn)確率下降幅度較小,具有更好的泛化性與魯棒性。GA-RF模型在驗(yàn)證集中宏平均后準(zhǔn)確率、查準(zhǔn)率、召回率和F1值,較RF模型分別提高7.31%、8.47%、7.50%和8.15%,在實(shí)現(xiàn)土壤堅(jiān)實(shí)度對大豆產(chǎn)量影響狀況分類預(yù)測時(shí),表現(xiàn)更佳。
在實(shí)際生產(chǎn)應(yīng)用中,更重要的是對受壓實(shí)作業(yè)影響導(dǎo)致產(chǎn)量大幅下降樣本的識別,比較圖4和5兩種模型預(yù)測結(jié)果可知,RF對正常類別樣本預(yù)測性能較好,但針對其他受影響類別樣本識別能力弱,對于嚴(yán)重影響類別其識別準(zhǔn)確率僅為75%,這將對實(shí)際生產(chǎn)造成嚴(yán)重誤判,不利于后續(xù)壓實(shí)緩解方案實(shí)施。結(jié)合改進(jìn)GA算法的RF模型對不同類別樣本區(qū)分度更好,其在驗(yàn)證集中對嚴(yán)重影響類別預(yù)測準(zhǔn)確率達(dá)到100%,可有效識別因壓實(shí)作業(yè)使大豆產(chǎn)量受嚴(yán)重影響的樣本,可為機(jī)械壓實(shí)消減提供正確指導(dǎo)。
3.2.3 GA-RF與其他機(jī)器學(xué)習(xí)模型對黑土區(qū)大豆產(chǎn)量影響預(yù)測性能比較
為進(jìn)一步評估GA-RF模型在土壤堅(jiān)實(shí)度對大豆產(chǎn)量影響預(yù)測性能上優(yōu)越性,分別使用支持向量機(jī)(Support vector machines,SVM)、K近鄰(Knearest neighbors,KNN)、決策樹(Decision tree,DT)和梯度提升樹(Gradient boosting decision tree,GBDT)等常用機(jī)器學(xué)習(xí)算法進(jìn)行建模并同GA-RF驗(yàn)證集結(jié)果進(jìn)行對比分析,結(jié)果見圖6。
圖6 不同模型驗(yàn)證集結(jié)果對比Fig.6 Comparison of results of different model validation sets
由圖6可見,在驗(yàn)證集中,KNN模型表現(xiàn)最差,其準(zhǔn)確率、宏平均查準(zhǔn)率、召回率、F1值分別為80.49%、77.99%、75.42%、76.52%;SVM與DT準(zhǔn)確率均為85.37%,但在查準(zhǔn)率與F1值上SVM略優(yōu)于DT;GBDT在準(zhǔn)確率上和傳統(tǒng)RF模型接近,但召回率僅為81.67%,整體性能不如隨機(jī)森林模型。本文提出改進(jìn)后隨機(jī)森林模型性能較SVM、KNN、DT、GBDT更為優(yōu)異,其準(zhǔn)確率及宏平均查準(zhǔn)率、召回率和F1值分別為95.12%、95.97%、96.25%、95.96%,較其他模型分別提高7.31%、5.63%、9.38%和10.91%,在對大豆產(chǎn)量受土壤堅(jiān)實(shí)度影響狀況預(yù)測上具有更好識別能力與魯棒性。
目前針對機(jī)械壓實(shí)對作物產(chǎn)量影響研究多基于簡單線性擬合,缺乏相關(guān)預(yù)測模型構(gòu)建,通過GA-RF模型將機(jī)器學(xué)習(xí)方法引入機(jī)械壓實(shí)領(lǐng)域,可有效評估壓實(shí)風(fēng)險(xiǎn),為機(jī)械化調(diào)整方案提供指導(dǎo)。GA-RF模型在土壤堅(jiān)實(shí)度對黑土區(qū)大豆產(chǎn)量影響預(yù)測上準(zhǔn)確率達(dá)95.12%,較傳統(tǒng)RF模型提高7.31%,有效克服傳統(tǒng)隨機(jī)森林模型參數(shù)選擇主觀性、泛化能力弱的問題,可有效識別受壓實(shí)影響地塊,評估壓實(shí)風(fēng)險(xiǎn),為機(jī)械壓實(shí)對作物影響預(yù)測提供新思路。
皮爾遜相關(guān)分析結(jié)果表明,表層(0~30 cm)土壤堅(jiān)實(shí)度增加對黑土區(qū)大豆帶來減產(chǎn)效應(yīng)最為明顯,與Bottinelli等研究結(jié)果一致[20]。在實(shí)際生產(chǎn)作業(yè)中,農(nóng)機(jī)壓實(shí)效應(yīng)直接作用于表層土壤,使表層土壤堅(jiān)實(shí)度增幅較大,阻礙作物根系生長發(fā)育,導(dǎo)致作物減產(chǎn)。因此,在黑土區(qū)大豆機(jī)械化生產(chǎn)過程中,應(yīng)做好表層土壤疏松工作,避免在土壤含水量較高時(shí)進(jìn)行機(jī)械作業(yè)[21],同時(shí)通過增施有機(jī)肥等方式改善土壤結(jié)構(gòu),提高土壤抗壓能力。
試驗(yàn)過程中樣本數(shù)據(jù)量較少,試驗(yàn)結(jié)果存在一定局限性,導(dǎo)致分析結(jié)果可能存在偏差;構(gòu)建土壤堅(jiān)實(shí)度對大豆產(chǎn)量影響預(yù)測模型,僅針對單一年份數(shù)據(jù)進(jìn)行訓(xùn)練及驗(yàn)證,對不同年份機(jī)械壓實(shí)作業(yè)對大豆產(chǎn)量影響以及不同受影響程度樣本壓實(shí)緩解措施需進(jìn)一步研究。
本文以黑土區(qū)大豆為研究對象進(jìn)行不同梯度土壤壓實(shí)試驗(yàn),通過皮爾遜相關(guān)系數(shù)評估不同深度土壤堅(jiān)實(shí)度與大豆產(chǎn)量之間相關(guān)性,結(jié)合遺傳算法對隨機(jī)森林超參數(shù)作優(yōu)化,構(gòu)建基于GA-RF模型土壤堅(jiān)實(shí)度對大豆產(chǎn)量影響預(yù)測模型,結(jié)果表明:
a.所測8個(gè)土層深度土壤堅(jiān)實(shí)度與大豆產(chǎn)量均呈負(fù)相關(guān);不同深度層次土壤堅(jiān)實(shí)度對大豆產(chǎn)量影響效應(yīng)不同。表層0~30 cm土壤堅(jiān)實(shí)度對大豆產(chǎn)量影響最大,其相關(guān)性超過0.8;71~80 cm土壤堅(jiān)實(shí)度與大豆產(chǎn)量相關(guān)性最小。
b.GA-RF模型引入遺傳算法對傳統(tǒng)RF模型超參數(shù)作優(yōu)化,克服傳統(tǒng)RF模型中魯棒性差,泛化能力低的問題;采用GA-RF模型實(shí)現(xiàn)土壤堅(jiān)實(shí)度對黑土區(qū)大豆產(chǎn)量影響預(yù)測準(zhǔn)確率達(dá)95.12%,較傳統(tǒng)RF模型提高7.31%,可更好預(yù)測土壤堅(jiān)實(shí)度對黑土區(qū)大豆產(chǎn)量影響狀況。
c.GA-RF模型實(shí)現(xiàn)土壤堅(jiān)實(shí)度對大豆產(chǎn)量影響預(yù)測效果較好,其宏平均后查準(zhǔn)率、召回率和F1值分別為95.97%、96.25%和95.96%,較支持向量機(jī)、K近鄰、決策樹和梯度提升樹等常用機(jī)器學(xué)習(xí)算法中最優(yōu)模型,分別提高5.63%、9.38%和10.91%,分類性能更佳。