基于改進(jìn)GBDT算法的農(nóng)產(chǎn)品冷鏈物流資源需求預(yù)測(cè)的研究

2022-07-06 03:57黃成明胡堅(jiān)

中國(guó)儲(chǔ)運(yùn) 2022年7期

文/黃成明胡堅(jiān)

隨著“互聯(lián)網(wǎng)+”的不斷發(fā)展，農(nóng)產(chǎn)品電商發(fā)展迅速。但當(dāng)前農(nóng)產(chǎn)品冷鏈物流面臨調(diào)度效率低下問(wèn)題，這不但對(duì)企業(yè)效益造成損失，還會(huì)引發(fā)農(nóng)產(chǎn)品健康安全問(wèn)題，如何提升農(nóng)產(chǎn)品冷鏈物流智能化程度，是全社會(huì)亟需解決的問(wèn)題。針對(duì)上述問(wèn)題，本文提出了一種基于改進(jìn)GBDT（Gradient Boosting Decision Tree，梯度提升決策樹(shù)）算法的農(nóng)產(chǎn)品冷鏈物流資源需求預(yù)測(cè)模型，創(chuàng)新性的提出了一種新的-Huber損失函數(shù)，能在提高收斂速度的同時(shí)，降低對(duì)異常值的懲罰，從而提高預(yù)測(cè)精度。通過(guò)實(shí)驗(yàn)證明該模型能對(duì)物流節(jié)點(diǎn)的需求進(jìn)行精準(zhǔn)預(yù)測(cè)。

引言。

近年來(lái)，隨著消費(fèi)升級(jí)步伐的加快，農(nóng)產(chǎn)品質(zhì)量的新鮮與健康，成為消費(fèi)者對(duì)農(nóng)產(chǎn)品選購(gòu)的主要要求。而傳統(tǒng)以地區(qū)為主的農(nóng)產(chǎn)品運(yùn)輸、銷(xiāo)售與保存模式，會(huì)在基礎(chǔ)物流環(huán)節(jié)損失25%～30%的經(jīng)濟(jì)利益，大量保鮮期短的肉類(lèi)、含水量高的蔬果等農(nóng)產(chǎn)品在物流運(yùn)輸過(guò)程中腐爛變質(zhì)，對(duì)廣大人民的利益造成損失、健康造成威脅。在此背景下，農(nóng)產(chǎn)品流通對(duì)冷鏈物流的要求和依賴(lài)越來(lái)越高。在引入專(zhuān)業(yè)的農(nóng)產(chǎn)品冷鏈物流儲(chǔ)藏設(shè)備的基礎(chǔ)上，還要不斷研發(fā)新技術(shù)，不斷形成與優(yōu)化冷鏈物流建設(shè)體系，以保障農(nóng)產(chǎn)品在物流運(yùn)輸中的新鮮、健康與安全。

1.研究現(xiàn)狀。

隨著近年來(lái)移動(dòng)互聯(lián)網(wǎng)的崛起和大數(shù)據(jù)技術(shù)的發(fā)展，在房?jī)r(jià)預(yù)測(cè)、各電商平臺(tái)銷(xiāo)售額預(yù)測(cè)、電影票房預(yù)測(cè)、人口增長(zhǎng)分析等問(wèn)題上預(yù)測(cè)算法具有很高的預(yù)測(cè)精確度和泛化能力。當(dāng)前，在需求預(yù)測(cè)上主要采用的算法有線性回歸、時(shí)間序列算法、BP神經(jīng)網(wǎng)絡(luò)算法、GBDT算法等。而GBDT算法在實(shí)際應(yīng)用中由于表現(xiàn)出突出的預(yù)測(cè)精確度和泛化能力，被業(yè)界使用最為廣泛，在改進(jìn)GBDT算法方面的相關(guān)研究也一直在進(jìn)行。有研究者提出了一種改進(jìn)GBDT算法，即使用多棵決策樹(shù)和Boosting算法結(jié)合彌補(bǔ)單棵決策樹(shù)算法的缺陷，有效的提升了分類(lèi)的精確[1]；貴州大學(xué)電氣工程學(xué)院的學(xué)者基于LightGBM梯度提升框架結(jié)合histogram決策樹(shù)算法尋找決策樹(shù)的最優(yōu)分割點(diǎn)應(yīng)用于短期負(fù)荷預(yù)測(cè)和數(shù)據(jù)挖掘領(lǐng)域，有效提高了預(yù)測(cè)精度和運(yùn)行速度[2]；華北電力大學(xué)的研究者將灰色投影法和GBDT算法結(jié)合創(chuàng)造了PG相似日選法用于解決在天氣因素導(dǎo)致的光伏發(fā)電功率預(yù)測(cè)不準(zhǔn)確問(wèn)題，同時(shí)提升了算法的預(yù)測(cè)精度和防止過(guò)擬合的能力[3]；廣西大學(xué)的研究者提出了一種在隨機(jī)森林算法和GBDT算法的基礎(chǔ)上構(gòu)建的RF-GB算法，并與多因子模型相結(jié)合，一定程度上提升了GBDT算法的性能[4]。

2.GBDT算法原理。

梯度提升樹(shù)GBDT算法屬于集成學(xué)習(xí)，是擬合殘差作為提升樹(shù)，并將多個(gè)弱學(xué)習(xí)器進(jìn)行線性組合的加法模型。而在基學(xué)習(xí)器的選取上，梯度提升樹(shù)GBDT算法以決策樹(shù)作為基分類(lèi)器，而其中C4.5、ID3、CART是三種較為常見(jiàn)的決策樹(shù)算法，且由于CART(Classification and Regression Tree)算法具有無(wú)需進(jìn)行特征標(biāo)準(zhǔn)化、可以不必計(jì)算特征之間的相關(guān)性而自動(dòng)挑選特征進(jìn)行訓(xùn)練，故通常以CART算法作為GBDT算法的基學(xué)習(xí)器。CART回歸樹(shù)的生成過(guò)程是以損失函數(shù)的最小化為衡量標(biāo)準(zhǔn)，假定數(shù)據(jù)集為

其中和分別表示樣本空間中的輸入和輸出變量。我們將樣本空間分為訓(xùn)練集和測(cè)試集后，遞歸地將訓(xùn)練數(shù)據(jù)集的輸入空間劃分為兩個(gè)子區(qū)域，計(jì)算每個(gè)子區(qū)域的輸出值，構(gòu)建出一顆決策樹(shù)。在這個(gè)過(guò)程中，通常以平方損失函數(shù)作為選擇最優(yōu)切分變量j與切分點(diǎn)s的依據(jù)，通過(guò)求解：

其中，c1、c2分別為訓(xùn)練數(shù)據(jù)集的兩個(gè)子區(qū)域R1、R2的均值。找到使式（1）取最小值的參數(shù)（j，s），即為最優(yōu)的切分變量j與切分點(diǎn)s。使用（j，s）進(jìn)行區(qū)域劃分并計(jì)算對(duì)應(yīng)的子區(qū)域的輸出值，迭代這個(gè)過(guò)程，直到達(dá)到誤差最小或樹(shù)的深度滿(mǎn)足停止條件時(shí)結(jié)束，最終生成決策回歸樹(shù)。GBDT算法首先初始化弱學(xué)習(xí)器，再對(duì)每個(gè)樣本計(jì)算負(fù)梯度即殘差，并將殘差作為樣本新的真實(shí)值構(gòu)成新的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練，由此得到一棵新的回歸樹(shù)。由于GBDT算法在迭代過(guò)程中擬合的是負(fù)梯度，所以使用CART回歸樹(shù)作為基學(xué)習(xí)器。然后對(duì)該回歸樹(shù)葉子區(qū)域計(jì)算最佳擬合值并更新強(qiáng)學(xué)習(xí)器得到最終學(xué)習(xí)器。最終學(xué)習(xí)器表達(dá)式為決策樹(shù)的加法模型：

其中f（x）為梯度提升樹(shù)函數(shù)表達(dá)式；I為決策回歸樹(shù)函數(shù)表達(dá)式，由擬合殘差計(jì)算得到；Rm為樣本空間；cm為樣本空間中輸入樣本xi對(duì)應(yīng)的輸出yi的均值；M為決策回歸樹(shù)的棵數(shù)。GBDT是一種提升思想的算法，可以應(yīng)用于分類(lèi)問(wèn)題和回歸問(wèn)題。在實(shí)際中采用此算法時(shí)主要有三個(gè)難點(diǎn)問(wèn)題，第一是每次學(xué)習(xí)得到一個(gè)基學(xué)習(xí)器后，在下一次迭代前需要考慮改變樣本的權(quán)重；第二是如何計(jì)算基學(xué)習(xí)器的權(quán)重并累加成為強(qiáng)學(xué)習(xí)器；第三是如何選取合適的損失函數(shù)。本文主要解決第三個(gè)問(wèn)題，提出一種改進(jìn)的損失函數(shù)以提升GBDT算法的預(yù)測(cè)精度。

3.基于-Huber損失函數(shù)改進(jìn)GBDT算法

為了提高算法的魯棒性，降低異常值對(duì)損失函數(shù)的影響，1964年P(guān).J.Huber等人提出了Huber損失函數(shù)，其定義如下：

其中參數(shù)δ是一個(gè)非負(fù)數(shù)，當(dāng)樣本值和預(yù)測(cè)值之差的絕對(duì)值即殘差小于該參數(shù)時(shí)，Huber損失函數(shù)即為平方損失函數(shù)，當(dāng)殘差大于等于該參數(shù)時(shí)，Huber損失函數(shù)即為平均絕對(duì)誤差，這是兩個(gè)常用的損失函數(shù)的表達(dá)形式。因此，Huber損失函數(shù)兼具了兩者的優(yōu)點(diǎn)。本文基于γ-Huber損失函數(shù)改進(jìn)GBDT算法，即在構(gòu)建GBDT算法的決策回歸樹(shù)的過(guò)程中，使用γ-Huber損失函數(shù)作為選擇最優(yōu)切分變量j與切分點(diǎn)s的依據(jù)。此時(shí)，在式（1）所表示的數(shù)據(jù)集下，我們需要求解表達(dá)式（6）：

通過(guò)式（6）求得最優(yōu)切分變量j與切分點(diǎn)s，生成GBDT算法中的決策回歸樹(shù)。

4.冷鏈物流需求預(yù)測(cè)與結(jié)果分析。

本文將在農(nóng)產(chǎn)品冷鏈物流的資源需求預(yù)測(cè)上使用基于-Huber損失函數(shù)的改進(jìn)GBDT算法。通過(guò)采集物流節(jié)點(diǎn)的農(nóng)產(chǎn)品冷鏈物流歷史數(shù)據(jù)，進(jìn)行數(shù)據(jù)清洗、特征工程、建立模型、需求預(yù)測(cè)等步驟，對(duì)物流節(jié)點(diǎn)未來(lái)一段時(shí)間內(nèi)的資源需求進(jìn)行預(yù)測(cè)分析。本文通過(guò)爬蟲(chóng)等多種方式采集了某物流節(jié)點(diǎn)馬鈴薯產(chǎn)品相關(guān)數(shù)據(jù)，數(shù)據(jù)集包含了疫情狀況、產(chǎn)品價(jià)格、產(chǎn)量、氣候、歷年各月份產(chǎn)品物流量等數(shù)據(jù)。其中歷年各月份產(chǎn)品物流量數(shù)據(jù)作為數(shù)據(jù)集中的標(biāo)簽數(shù)據(jù)，在數(shù)據(jù)清洗階段我們?nèi)《鄠€(gè)年份的產(chǎn)品物流量數(shù)據(jù)的平均值作為標(biāo)簽數(shù)據(jù)。為了驗(yàn)證本文提出方法的有效性，本文在構(gòu)建GBDT算法的決策回歸樹(shù)過(guò)程中使用-Huber損失函數(shù)并取不同的值進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)獲得參數(shù)γ取不同值時(shí)GBDT算法的預(yù)測(cè)準(zhǔn)確率如表1所示。

表1參數(shù)取不同值時(shí)GBDT算法的預(yù)測(cè)準(zhǔn)確率

在具有相同的決策回歸樹(shù)深度時(shí)，實(shí)驗(yàn)結(jié)果表明，-Huber損失函數(shù)改進(jìn)GBDT算法在預(yù)測(cè)效果上有較高的預(yù)測(cè)準(zhǔn)確率，且隨著參數(shù)的取值不同而略有不同，在參數(shù)取值為1時(shí)具有較好的預(yù)測(cè)效果。

5.結(jié)語(yǔ)。

我們?cè)诒疚闹刑岢隽艘环N新的可以降低傳統(tǒng)平方損失函數(shù)懲罰的-Huber損失函數(shù)并基于此損失函數(shù)對(duì)GBDT算法進(jìn)行了改進(jìn)。通過(guò)采集冷鏈物流節(jié)點(diǎn)的物流商品數(shù)據(jù)，并利用基于-Huber損失函數(shù)的改進(jìn)GBDT算法對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練。最后算法模型預(yù)測(cè)結(jié)果顯示，基于-Huber損失函數(shù)的改進(jìn)GBDT算法在有異常值的情況下能明顯降低損失函數(shù)對(duì)異常值的懲罰強(qiáng)度且具有更優(yōu)的預(yù)測(cè)效果和算法魯棒性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于改進(jìn)GBDT算法的農(nóng)產(chǎn)品冷鏈物流資源需求預(yù)測(cè)的研究

引言。

1.研究現(xiàn)狀。

2.GBDT算法原理。

3.基于-Huber損失函數(shù)改進(jìn)GBDT算法

4.冷鏈物流需求預(yù)測(cè)與結(jié)果分析。

5.結(jié)語(yǔ)。

引言。

1.研究現(xiàn)狀。

2.GBDT算法原理。

5.結(jié)語(yǔ)。