国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Bayesian-LightGBM模型的糧食產(chǎn)量預測研究

2024-06-17 03:42:20陳曉玲張聰黃曉宇
中國農(nóng)機化學報 2024年6期
關鍵詞:糧食安全

陳曉玲 張聰 黃曉宇

摘要:目前用于糧食產(chǎn)量預測模型如灰色關聯(lián)模型普遍存在訓練速度較慢、預測精度較低等問題。為解決該問題,以輕量級梯度提升機(LightGBM)模型為基礎,將其損失函數(shù)修正為Huber損失函數(shù),同時引入貝葉斯優(yōu)化算法確定出最優(yōu)超參數(shù)組合并輸入該模型。以廣西的早、晚水稻產(chǎn)量及16個糧食產(chǎn)量影響因素為數(shù)據(jù)集進行仿真試驗,結果表明:基于線性回歸的預測模型的平均絕對值誤差為1.255,基于決策樹的預測模型的平均絕對值誤差為0.426,基于隨機森林的預測模型的平均值誤差為0.315,基于Bayesian-LightGBM的預測模型的平均絕對值誤差為0.049。相比其他預測模型,Bayesian-LightGBM糧食產(chǎn)量預測模型能夠更有效地實現(xiàn)糧食產(chǎn)量預測,預測精度更高。

關鍵詞:糧食產(chǎn)量預測;糧食安全;輕量級梯度提升機;貝葉斯優(yōu)化

中圖分類號:S126; TP18

文獻標識碼:A

文章編號:2095-5553 (2024) 06-0163-07

收稿日期:2022年8月1日

修回日期:2022年9月29日

*基金項目:湖北省重大科技專項(2018ABA099);教育部科技發(fā)展中心重點項目(2018A01038)

第一作者:陳曉玲,女,1996年生,廣東汕頭人,碩士研究生;研究方向為人工智能技術及其應用。E-mail: cxl9612@163.com

通訊作者:張聰,男,1968年生,上海人,博士,教授;研究方向為基于農(nóng)業(yè)和糧油食品領域的人工智能技術。E-mail: hb_wh_zc@163.com

Research on grain yield prediction based on Bayesian-LightGBM model

Chen Xiaoling1, Zhang Cong2, Huang Xiaoyu1

(1. School of Mathematics & Computer Science, Wuhan Polytechnic University, Wuhan, 430023, China;2. School of Electrical and Electronic Engineering, Wuhan Polytechnic University, Wuhan, 430023, China)

Abstract: At present, the grain yield prediction models, such as the grey relational model, generally have problems such as slow training speed and low prediction accuracy. In order to solve the above problems, this paper is based on the Lightweight Gradient Boosting Machine (LightGBM) model, and its loss function is modified to a Huber loss function, and a Bayesian optimization algorithm is introduced to determine the optimal hyperparameter combination and input into the model. Simulation experiments were carried out on the data sets of early and late rice yields and 16 grain yield influencing factors in Guangxi. The results showed that the average absolute error of the prediction model based on linear regression was 1.255, the average absolute error of the prediction model based on decision tree was 0.426, the average absolute error of the prediction model based on random forest was 0.315, and the average absolute error of the prediction model based on Bayesian LightGBM was 0.049. Compared with other prediction models, Bayesian LightGBM grain yield prediction model can realize grain yield prediction more effectively, with higher prediction accuracy.

Keywords: grain yield prediction; food security; Lightweight Gradient Boosting Machine; Bayesian optimization

0 引言

近年來,糧食安全問題已引起了世界各國的廣泛關注,中國作為世界人口第一大國,確保糧食產(chǎn)量充足是國家發(fā)展的頭等大事。為保證中國人口糧食供給充足,更好地規(guī)劃糧食產(chǎn)量,科學有效預測糧食產(chǎn)量從而合理安排糧食的生產(chǎn)是解決糧食安全問題的關鍵手段[1-3]。

從現(xiàn)有文獻來看,越來越多的學者開始圍繞農(nóng)業(yè)糧食產(chǎn)量問題展開探究。早期的糧食產(chǎn)量的預測模型效果不佳,如Donohue等[4]根據(jù)遙感農(nóng)作物的吸收光合有效輻射、總太陽輻照度、漫射太陽輻照度和氣溫,建立C-Crop模型預測油菜和小麥的產(chǎn)量,但數(shù)據(jù)采集成本極高,且農(nóng)作物識別精度不穩(wěn)定,模型泛化能力差。韓書成等[5]利用線性模型和三點滑動平均發(fā)對糧食產(chǎn)量進行預測,但不足處是不能考慮其后要素突變對產(chǎn)量的影響,導致不能客觀地反映氣候變化對糧食產(chǎn)量的影響。孫東升等[6]運用HP濾波分析法將糧食產(chǎn)量數(shù)據(jù)分離為時間趨勢序列和波動序列,并對趨勢序列建立關于時間的趨勢模型,提出由時間序列影響變動的因素構建的時間序列法,但時間序列法在建模過程中,不適合用在數(shù)據(jù)復雜的環(huán)境。Li等[7]提出一種灰色關聯(lián)分析和BP神經(jīng)網(wǎng)絡結合的變量優(yōu)化選擇算法,采用灰色關聯(lián)分析方法對輸入變量的重要性排序,然后通過BPNN模型的多次訓練和學習,得到關鍵變量和最佳BPNN模型結構,但缺點是模型結構復雜,存在大量的計算,模型訓練速度慢。

為解決上述問題,本文采用LightGBM為基礎模型,通過修正損失函數(shù)優(yōu)化LightGBM模型,同時引入貝葉斯優(yōu)化算法確定改進模型的超參數(shù),以此建立Bayesian-LightGBM模型。以廣西省早、晚水稻產(chǎn)量數(shù)據(jù)作為研究對象,將Bayesian-LightGBM模型應用于水稻產(chǎn)量預測中,并與機器學習領域常用的回歸模型對比,驗證Bayesian-LightGBM模型的有效性。

1 LightGBM模型

梯度提升決策樹[8](Gradient Boosting Decision Tree,GBDT)是一種決策樹[9]的算法,在各種領域的預測業(yè)務上發(fā)揮了重要的作用,但也存在訓練時間過長、泛化能力弱等問題。針對這些問題,Ke等[10]對該算法做出了一系列的改進,并于2017年提出了一個支持高效率的并行訓練GBDT算法框架——輕量級梯度提升機(LightGBM)。LightGBM因其高準確性、低內(nèi)耗、運行速率快等優(yōu)勢被廣泛應用于工業(yè)界。LightGBM模型通過使用直方圖算法和帶深度限制的按葉子分裂生長策略,提高了面對高緯度數(shù)據(jù)集的訓練速度,解決了過擬合問題和預測精度低的問題。同時,LightGBM模型通過互斥特征捆綁算法,降低了特征維度,提高了了創(chuàng)建直方圖的效率。

1.1 直方圖算法

直方圖算法將數(shù)據(jù)離散化,算法思路是把連續(xù)的浮點特征值離散化成K個整數(shù),構造出一個寬帶為K的直方圖。直方圖算法如圖1所示。將遍歷的數(shù)據(jù)根據(jù)離散化后的整數(shù)值作為索引在直方圖中累計統(tǒng)計量,然后遍歷直方圖的離散值,找出決策樹的最優(yōu)的分割點。

特征值被離散化后,找出的分割點并不精確。由于決策樹屬于弱模型,分割點不精確并不影響最終模型訓練的結果,但能減少大量的運算,降低內(nèi)存的占用,提高訓練的速度。

1.2 帶深度限制的按葉子分裂生長策略

決策樹的生長策略分為兩類,一類是按層分裂生長策略;另一類是按葉子分裂生長策略。

1) 按層分裂的生長策略是分裂時將決策樹中當前層的所有節(jié)點都進行分裂。該生長策略容易進行多線程優(yōu)化,方便控制模型的復雜度,不容易過擬合,但有些分裂的節(jié)點增益很小,對這些節(jié)點分裂會導致該生長策略的效率不高。按層分裂生長策略如圖2所示。

2) 按葉子分裂的生長策略是分裂時每次只選擇增益最大的節(jié)點進行分裂。在分裂次數(shù)相同的情況,雖然按葉子分裂的生長策略比按層分裂的生長策略能降低更多的誤差,獲得更好的精度,但缺點是可能生長成深度較大的決策樹,產(chǎn)生過擬合。因此LightGBM在選擇按葉子分裂的生長策略時加上了最大深度的限制,通過最大深度來避免過擬合,按葉子分裂的生長策略如圖3所示。

1.3 互斥特征捆綁

互斥特征捆綁(Exclusive Feature Bundling,EFB)算法目的是將數(shù)據(jù)集中互斥的特征捆綁一起,形成低維的特征集合,減少特征個數(shù)使數(shù)據(jù)規(guī)模進一步變小,有效地降低創(chuàng)建直方圖的時間復雜度。通常為了不丟失信息,被捆綁特征都是互斥的,若兩個特征不完全互斥,則用沖突比率衡量特征不互斥程度。當沖突比率較小時,可以把不完全互斥的兩個特征捆綁,算法步驟具體如下:(1)將特征按非零值的個數(shù)進行排序;(2)計算不同特征之間得沖突比率;(3)遍歷每個特征并嘗試合并特征,使沖突比率最小化。

2 Bayesian-LightGBM模型

傳統(tǒng)的LightGBM模型存在兩點局限性,第一,真實場景下的糧食產(chǎn)量數(shù)據(jù)集含離群值,使用傳統(tǒng)的回歸模型損失函數(shù)會導致模型訓練精度低等問題;第二,LightGBM模型在進行糧食產(chǎn)量預測時,需要確定最優(yōu)超參數(shù)組合。不同的超參數(shù)對模型的性能有不同的影響。為增強模型對糧食產(chǎn)量預測的能力,具體改進如下。

2.1 修正損失函數(shù)

損失函數(shù)表示預測值與真實值的差距程度。傳統(tǒng)的回歸模型常用的損失函數(shù)有平均絕對值誤差函數(shù)(MAE)、均方誤差函數(shù)(MSE)。

1) 平均絕對值誤差是指模型預測值f(x)與樣本真實值y之間距離的平均值。

MAE=1m∑mi=1yi-f(xi)(1)

式中:m——樣本數(shù)量;

yi——第i個樣本真實值;

f(xi)——第i個樣本預測值。

使用平均絕對值誤差作為損失函數(shù)的優(yōu)點是平均絕對誤差對離群點不敏感,更有包容性,但是當梯度值較大時,該損失函數(shù)收斂性能較差且不利于模型的學習。

2) 均方誤差是指預測值f(x)與樣本真實值y直接距離平方的平均值。

MSE=1m∑mi=1[yi-f(xi)]2(2)

使用均方誤差作為損失函數(shù)的優(yōu)點是隨著誤差的減小,梯度也減小,有利于函數(shù)的收斂,但缺點是如果樣本存在離群點,MSE會給離群點賦予更高的權重,這一方式犧牲了其他正常數(shù)據(jù)點的預測效果,導致模型整體性能降低。

3) Huber函數(shù)。針對數(shù)據(jù)存在離群點的問題[11, 12],上述傳統(tǒng)回歸模型常用的損失函數(shù)都存在一定的不足,因此,本文通過引入Huber損失函數(shù),降低離群點的影響,增強模型的穩(wěn)定性。Huber損失函數(shù)如式(3)所示。

Lδ(y,f(x))=12[y-f(x)]2y-f(x)≤δδy-f(x)-12δ2y-f(x)>δ(3)

式中:δ——Huber函數(shù)超參數(shù)。

δ值的大小決定了Huber損失函數(shù)側(cè)重MAE還是MSE。當δ趨于0,Huber損失函數(shù)趨向于MAE;當δ趨于∞,Huber損失函數(shù)趨向于MSE。Huber損失函數(shù)同時具備了MSE和MAE的優(yōu)點,降低了對離散值的敏感度,更有利于函數(shù)的收斂。

2.2 貝葉斯優(yōu)化算法

在使用LightGBM模型進行訓練的過程中需要確定出最優(yōu)超參數(shù)組合。模型的超參數(shù)設定會直接影響模型性能。傳統(tǒng)的自動調(diào)參方法有網(wǎng)格搜索、隨機網(wǎng)格搜索與Halving網(wǎng)格搜索。網(wǎng)格優(yōu)化超參數(shù)的本質(zhì)都是在一個大參數(shù)空間中,盡量對所有點進行驗證,再返回最優(yōu)損失函數(shù)值,顯然這種方法無法滿足復雜模型的效率快和精度高的要求,且會耗費大量的計算資源和時間。貝葉斯優(yōu)化算法[13]被認為是當前最為先進的優(yōu)化框架,針對未知黑盒函數(shù),貝葉斯優(yōu)化[14]能夠有效地利用歷史信息,效率明顯高于其他尋優(yōu)方法。貝葉斯優(yōu)化算法有兩個很重要的組成部分,分別是概率代理模型和采集函數(shù)[15]。因此本文引入貝葉斯優(yōu)化算法,對改進后的LightGBM模型參數(shù)尋優(yōu)。

2.2.1 概率代理模型

概率代理模型包含先驗概率模型和觀測模型,其計算公式如式(4)所示。

p(f|D1:t)=p(D1:t|f)p(f)p(D1:t)(4)

式中:f——未知目標函數(shù);

D1:t——已觀測集合;

p(f)——先驗概率模型;

p(D1:t|f)——觀測模型。

當樣本數(shù)據(jù)x為一維數(shù)據(jù)時,x服從高斯分布,其概率密度函數(shù)如式(5)所示。

p(x|θ)=12πσexp-(x-μ)22(5)

式中:x——樣本值;

μ——數(shù)據(jù)期望;

σ——數(shù)據(jù)標準差。

當樣本數(shù)據(jù)x為多維數(shù)據(jù)時,x服從高斯分布,其概率密度函數(shù)如式(6)所示。

p(x|θ)=1(2π)D2|∑|12

exp-(x-μ)T1(x-μ)2(6)

式中:D——數(shù)據(jù)維度;

∑——協(xié)方差。

高斯混合模型由k個單高斯模型構成,如式(7)所示。

p(x)=∑Kk=1αkp(x|k)(7)

式中:k——高斯模型的個數(shù);

αk——第k個高斯模型的權重;

p(x|k)——第k個高斯模型的概率密度函數(shù)。

2.2.2 采集函數(shù)

采集函數(shù)則是根據(jù)后驗概率分布p(f|D1:t)構造的,是確定下一個評估點的基準,本文選擇置信度上界算法(Upper Confidence Bound,簡稱UCB)作為采集函數(shù)。具體如式(8)所示。

xt+1=argmax{μλ(x)+βσλ(x)}(8)

式中:μλ(x)——x的期望;

σλ(x)——x的標準差;

β——使在樣本空間的開發(fā)和探索保持平衡[12]。

2.3 Bayesian-LightGBM模型訓練過程

經(jīng)優(yōu)化損失函數(shù)的LightGBM模型,隨機生成一組超參數(shù),將訓練集數(shù)據(jù)代入模型訓練,使用貝葉斯優(yōu)化算法調(diào)整模型的超參數(shù)。通過貝葉斯優(yōu)化算法得到了最優(yōu)超參數(shù)組合,將最優(yōu)超參數(shù)輸入模型得到Bayesian-LightGBM模型。具體過程如下:(1)隨機生成一組超參數(shù)輸入模型計算損失函數(shù)數(shù)值作為觀測點;(2)通過觀測點和混合高斯過程得到不同的置信區(qū)間;(3)用采集函數(shù)UCB計算概率密度估計,選取最大的置信度為新的超參數(shù)數(shù)值,將新超參數(shù)重新代入模型訓練;(4)重復步驟2和步驟3,直到迭代次數(shù)達到預設值。選擇模型預測準確率最高的超參數(shù)組合;(5)將最優(yōu)超參數(shù)組合代入優(yōu)化后的LightGBM模型,得到Bayesian-LightGBM模型。Bayesian-LightGBM模型流程如圖4所示。

3 試驗與分析

本研究采用的樣本數(shù)據(jù)為2015—2018年廣西壯族自治區(qū)的81縣早、晚稻產(chǎn)量相關數(shù)據(jù)。本文運用平臺為Intel(R) Core(TM) i7-6700HQ CPU,運用編程語言Python對數(shù)據(jù)進行處理、模型的構建和數(shù)據(jù)預測。試驗過程中,采用線性回歸、決策樹、隨機森林、XGboost、LightGBM作為對比模型,驗證改進后的LightGBM模型的優(yōu)越性。

3.1 試驗數(shù)據(jù)

數(shù)據(jù)來源于廣西壯族自治區(qū)大數(shù)據(jù)發(fā)展局提供的最新數(shù)據(jù),由廣西壯族自治區(qū)農(nóng)業(yè)農(nóng)村廳、廣西壯族自治區(qū)氣象局協(xié)助完成的數(shù)據(jù)特征采樣。影響水稻耕作產(chǎn)量的因素眾多,普遍認為生產(chǎn)措施、種子品種、灌溉施肥是影響水稻產(chǎn)量的因素,鮮有人研究氣象對水稻產(chǎn)量的影響,因廣西地塊相對破碎,種植結構復雜,農(nóng)業(yè)統(tǒng)計調(diào)查工作量大,通過預測天氣和農(nóng)作物生長的關系,為三農(nóng)提供服務,對產(chǎn)業(yè)收割期意義重大。因此選取2015年1月—2018年12月總共132 951組檢測的數(shù)據(jù)為原始樣本,數(shù)據(jù)包含16個字段,其字段含義和數(shù)據(jù)類型具體如表1所示。

3.2 試驗流程

原始數(shù)據(jù)劃分為99 736個樣本的訓練集和33 215個樣本的測試集。因原始數(shù)據(jù)存在數(shù)值差異較大和非數(shù)值型數(shù)據(jù)的情況,需經(jīng)過預處理才能輸入模型使用。對日照時數(shù)、日均風速、日降水量、日最高溫度、日平均溫度、日相對濕度和日平均氣壓用最大-最小標準化來歸一化連續(xù)的特征處理,避免出現(xiàn)數(shù)據(jù)差較大的數(shù)據(jù),使數(shù)據(jù)更平滑。區(qū)縣id做獨熱編碼處理。對4個時間段的風向特征數(shù)據(jù)做二維向量映射處理,由于風向一共有17種風向,如果對風向特征數(shù)據(jù)做獨熱編碼處理會導致計算量太大,并弱化模型對其他特征的學習能力,因此按照每個風向?qū)慕嵌扔谜抑岛陀嘞抑当硎荆?個時間段的風向特征經(jīng)處理后統(tǒng)一為8個正余弦風向特征。年份、月份和日期三個特征的數(shù)據(jù)轉(zhuǎn)用歸一化的索引代表數(shù)據(jù),將其合并成一個時間特征。為對比本文模型與其他機器學習模型在數(shù)據(jù)維度較高的情況下,能達到更好的預測效果,本文選取了數(shù)據(jù)集的16個特征作為原始數(shù)據(jù)集,經(jīng)數(shù)據(jù)處理后為18個特征的數(shù)據(jù)。處理好的數(shù)據(jù)輸入到Bayesian-LightGBM模型中,再通過貝葉斯優(yōu)化算法對模型的超參數(shù)調(diào)優(yōu)得出最優(yōu)超參數(shù)組合,得到水稻產(chǎn)量預測最終模型。試驗流程如圖5所示。

3.3 評估指標

為驗證糧食產(chǎn)量預測模型的有效性,選取平均絕對誤差MAE、均方根誤差RMSE、平均絕對百分比誤差MAPE和決定系數(shù)R24個指標對模型評估,如式(9)~式(11)所示。

RMSE=1m∑mi=1(fi-yi2(9)

MAPE=∑mi=1fi-yiyi×100m(10)

R2=1-∑mi=1(fi-yi2∑mi=1(yi-yi2(11)

式中:yi——水稻產(chǎn)量真實值;

yi——水稻產(chǎn)量真實值的平均值;

fi——模型輸出水稻產(chǎn)量預測值。

3.4 模型性能對比分析

3.4.1 不同損失函數(shù)對比

在模型訓練的過程,使用了不同的函數(shù)作為LightGBM的損失函數(shù),試驗結果如表2所示。

由表2可知,在迭代次數(shù)都是100次的情況下,MSE函數(shù)和Huber函數(shù)效果較好。在早水稻數(shù)據(jù)集下比較MAE指標,Huber函數(shù)比MSE函數(shù)要高0.9%,在RMSE指標中,Huber函數(shù)效果最好,為0.161。MAE函數(shù)作為LightGBM模型的損失函數(shù),在水稻數(shù)據(jù)集的MAE指標和RMSE指標中都高達14以上,因MAE函數(shù)沒有二階導數(shù),不合適作為LightGBM模型的損失函數(shù)。

3.4.2 不同超參數(shù)尋優(yōu)方法對比

在模型訓練的過程,使用了貝葉斯優(yōu)化算法和網(wǎng)格搜索法進行對比,對模型的葉子節(jié)點數(shù)和樹的最大深度進行優(yōu)化。從表3可知,在優(yōu)化方法迭代次數(shù)相同的情況下,早水稻數(shù)據(jù)集的MAE指標對比,貝葉斯優(yōu)化方法為4.1%,網(wǎng)格搜索方法為5.6%。RMSE指標中,貝葉斯優(yōu)化方法為6.1%,網(wǎng)格搜索為7.4%。綜合來看,貝葉斯優(yōu)化方法比傳統(tǒng)的網(wǎng)格搜索方法在優(yōu)化模型超參數(shù)上效果更好。

為驗證本文提出的Bayesian-LightGBM模型的泛化能力和性能,將Bayesian-LightGBM模型與當前研究領域的經(jīng)典的機器學習模型作對比試驗。

對比圖6與圖7可知,圖7中真實值與預測值的走勢圖比圖6更接近,部分線是重合的,說明決策樹模型預測的結果比線性模型預測的效果好,但真實值與預測值之間仍存在較大差距。

再將圖7和圖8對比觀察,圖8真實值與預測值的重合度比圖7高,說明隨機森林模型預測效果比決策樹模型有所提高,但部分預測值與真實值存在差距,有待提高預測效果。將圖9與圖8對比,可以看到Bayesian-LightGBM模型預測點的真實值與預測值基本重合,說明Bayesian-LightGBM模型在預測時,預測點的真實值與預測值的差值比隨機森林模型小。把圖6~圖9對比,可以看到在這4個圖中水稻產(chǎn)量真實值與預測值重復度最高的是圖9,說明Bayesian-LightGBM模型與另外3個對比試驗模型的預測效果更好,預測值更接近真實值。

為更清楚地說明4個模型預測效果,根據(jù)試驗評估指標,分別得到4個模型在早水稻數(shù)據(jù)集和晚水稻數(shù)據(jù)集的評估結果,具體如表4、表5所示。由表4可看出,在早水稻數(shù)據(jù)集的結果中,對比MAE值,Bayesian-LightGBM模型的MAE指標值最低為0.049,其次是隨機森林模型0.315,最大值為線性回歸模型,值為1.255。對于RMSE指標,Bayesian-LightGBM是4個模型中的最低值0.072。MAPE指標中,線性回歸模型高達10.023,效果最好的模型是Bayesian-LightGBM,值為0.389。除了線性回歸模型,其余3個模型在決定系數(shù)指標的值處于0.9~0.998之間,Bayesian-LightGBM模型高達0.998,其余模型均在0.96以下。根據(jù)表5的數(shù)據(jù)也可以得出與表4相似的結論。綜合對比早晚水稻數(shù)據(jù)集的模型預測結果,Bayesian-LightGBM模型的預測性能最好,其次是隨機森林模型,線性回歸在4個模型中的預測能力最差。

3.5 水稻產(chǎn)量特征重要性分析

為了探究不同特征變量對模型的影響,以廣西水稻數(shù)據(jù)作為數(shù)據(jù)集,使用18個特征變量作為特征集訓練Bayesian-LightGBM水稻產(chǎn)量模型。由表6可知,水稻產(chǎn)量特征重要性的分布。在Bayesian-LightGBM模型利用特征訓練過程中,區(qū)縣id和日平均氣壓的重要度數(shù)值較高,說明這區(qū)縣id特征和日平均氣壓特征對于水稻產(chǎn)量影響程度很大,其次是日平均風壓特征和日最低溫度特征。而日照時數(shù)特征和日均降水量特征的重要性相對較低,說明日照時數(shù)特征和日均降水量特征對于預測水稻產(chǎn)量的貢獻較小。每個時間段的風向的特征重要性差距不大,說明各個風向?qū)τ谒井a(chǎn)量的影響程度相差不大。

4 結論

1) 針對糧食產(chǎn)量數(shù)據(jù)規(guī)模大、影響因子眾多導致糧食產(chǎn)量預測模型訓練速度慢、預測效果不佳,為了合理高效的規(guī)劃糧食生產(chǎn),本文以LightGBM模型為基礎模型,采用Huber函數(shù)作為模型的損失函數(shù),引進貝葉斯算法對模型進行優(yōu)化,構建Bayesian-LightGBM糧食產(chǎn)量預測模型。

2) LightGBM模型存在超參數(shù)尋優(yōu)問題,因此本文通過超參優(yōu)化算法,改進LightGBM模型存在超參數(shù)的問題,具體作為是使用貝葉斯優(yōu)化算法對LightGBM模型進行超參數(shù)尋優(yōu),得到最優(yōu)超參數(shù)組合,試驗結果表明,該方法提升模型的預測精度。

3) 結合實際數(shù)據(jù)驗證,Bayesian-LightGBM模型預測效果良好,該模型的預測平均絕對誤差為0.049,均方根誤差為0.072,預測水稻產(chǎn)量結果與真實值比較接近,體現(xiàn)了其工程應用的價值。本文模型對比線性回歸、決策樹和隨機森林模型,預測水稻產(chǎn)量的平均絕對誤差分別降低1.206、0.377和0.266,證明Bayesian-LightGBM模型有效性,為糧食產(chǎn)量預測提供新的途徑和方法。

參 考 文 獻

[1]趙桂芝, 趙華洋, 李理, 等. 基于混沌-SVM-PSO的糧食產(chǎn)量預測方法研究[J]. 中國農(nóng)機化學報, 2019, 40(1): 179-183.

Zhao Guizhi, Zhao Huayang, Li Li, et al. Study on method for food yield prediction based on chaotic Theory-SVM-PSO [J]. Journal of Chinese Agricultural Mechanization, 2019, 40(1): 179-183.

[2]胡程磊, 劉永華, 高菊玲. 基于IPSO-BP模型的糧食產(chǎn)量預測方法研究[J]. 中國農(nóng)機化學報, 2021, 42(3): 136-141.

Hu Chenglei, Liu Yonghua, Gao Juling. Research on prediction method of grain yield based on IPSO-BP model [J]. Journal of Chinese Agricultural Mechanization, 2021, 42(3): 136-141

[3]施瑤, 陳昭. 基于SAFA優(yōu)化LSSVM的糧食產(chǎn)量預測[J]. 中國農(nóng)機化學報, 2019, 40(3): 144-148.

Shi Yao, Chen Zhao. Prediction of grain yield based on LSSVM optimized by SAFA [J]. Journal of Chinese Agricultural Mechanization, 2019, 40(3): 144-148.

[4]Donohue R J, Lawes R A, Mata G, et al. Towards a national, remote-sensing-based model for predicting field-scale crop yield [J]. Field Crops Research, 2018, 227: 79-90.

[5]韓書成, 李丹, 熊建華, 等. 廣州市耕地資源數(shù)量變化及其對糧食安全的影響[J]. 農(nóng)林經(jīng)濟管理學報, 2016, 15(6): 648-654.

Han Shucheng, Li Dan, Xiong Jianhua, et al. Changes in cultivated land amount and their impacts on food security in Guangzhou [J]. Journal of Agro-Forestry Economics and Management, 2016, 15(6): 648-654.

[6]孫東升, 梁仕瑩. 我國糧食產(chǎn)量預測的時間序列模型與應用研究[J]. 農(nóng)業(yè)技術經(jīng)濟, 2010(3): 97-106.

Sun Dongsheng, Liang Shiying. Research on time series model and application of grain yield prediction in my country [J]. Journal of Agrotechnical Economics, 2010(3): 97-106.

[7]Li Bingjun, Zhang Yifan, Zhang Shuhua, et al. Prediction of grain yield in Henan Province based on Grey BP Neural Network Model [J]. Discrete Dynamics in Nature and Society, 2021, 2021.

[8]Friedman J H. Greedy function approximation: A gradient boosting machine [J]. Annals of Statistics, 2001: 1189-1232.

[9]Quinlan J R. Induction of decision trees [J]. Machine Learning, 1986, 1: 81-106.

[10]Ke G, Meng Q, Finley T, et al. LightGBM: A highly efficient gradient boosting decision tree [J]. Advances in Neural Information Processing Systems, 2017, 30.

[11]Liang J, Gan Y, Song W, et al. Thermal-Electrochemical simulation of electrochemical characteristics and temperature difference for a battery module under two-stage fast charging [J]. Journal of Energy Storage, 2020, 29: 101307.

[12]Li X, Zhang L, Wang Z, et al. Remaining useful life prediction for lithium-ion batteries based on a hybrid model combining the long short-term memory and Elman neural networks [J]. Journal of Energy Storage, 2019, 21: 510-518.

[13]李亞茹, 張宇來, 王佳晨. 面向超參數(shù)估計的貝葉斯優(yōu)化方法綜述[J]. 計算機科學, 2022, 49(S1): 86-92.

Li Yaru, Zhang Yulai, Wang Jiachen. Survey on Bayesian optimization methods for hyper-parameter tuning [J]. Computer Science, 2022, 49(S1): 86-92.

[14]Mockus J B, Mockus L J. Bayesian approach to global optimization and application to multiobjective and constrained problems [J]. Journal of Optimization Theory and Applications, 1991, 70: 157-172.

[15]崔佳旭, 楊博. 貝葉斯優(yōu)化方法和應用綜述[J]. 軟件學報, 2018, 29(10): 3068-3090.

Cui Jiaxu, Yang Bo. Survey on Bayesian optimization methodology and applications [J]. Journal of Software, 2018, 29(10): 3068-3090.

猜你喜歡
糧食安全
我國的糧食安全及對策探討
卷宗(2016年10期)2017-01-21 18:41:25
我國的糧食安全及對策探討
卷宗(2016年10期)2017-01-21 18:40:53
城市化背景下的耕地保護
廣義水資源利用效率綜合評價指數(shù)的
城鎮(zhèn)化加速背景下河北省糧食儲備形式轉(zhuǎn)變分析
強化農(nóng)田水利改革 確保糧食生產(chǎn)安全
農(nóng)村科學儲糧與糧食安全研究
農(nóng)地流轉(zhuǎn)“非糧化”及對糧食安全影響研究述評
人民論壇(2016年17期)2016-07-15 10:40:31
中國農(nóng)業(yè)需避免落入產(chǎn)業(yè)化陷阱
人民論壇(2016年12期)2016-05-04 11:31:13
云南省糧食安全視角下馬鈴薯產(chǎn)業(yè)發(fā)展
商(2016年6期)2016-04-20 18:39:31
上林县| 如东县| 玉溪市| 嵩明县| 鄱阳县| 乌什县| 泸溪县| 阿合奇县| 石林| 始兴县| 莫力| 乌拉特前旗| 元谋县| 宁城县| 寿宁县| 鄄城县| 昂仁县| 河北区| 新河县| 鹤岗市| 霍山县| 莱芜市| 九江市| 沁源县| 宜兰市| 北碚区| 青田县| 手游| 巫溪县| 灌南县| 武隆县| 金寨县| 酒泉市| 沈丘县| 贵南县| 平湖市| 小金县| 新河县| 湘西| 香河县| 克山县|