文/黃成明 胡堅(jiān)
隨著“互聯(lián)網(wǎng)+”的不斷發(fā)展,農(nóng)產(chǎn)品電商發(fā)展迅速。但當(dāng)前農(nóng)產(chǎn)品冷鏈物流面臨調(diào)度效率低下問(wèn)題,這不但對(duì)企業(yè)效益造成損失,還會(huì)引發(fā)農(nóng)產(chǎn)品健康安全問(wèn)題,如何提升農(nóng)產(chǎn)品冷鏈物流智能化程度,是全社會(huì)亟需解決的問(wèn)題。針對(duì)上述問(wèn)題,本文提出了一種基于改進(jìn)GBDT(Gradient Boosting Decision Tree,梯度提升決策樹(shù))算法的農(nóng)產(chǎn)品冷鏈物流資源需求預(yù)測(cè)模型,創(chuàng)新性的提出了一種新的-Huber損失函數(shù),能在提高收斂速度的同時(shí),降低對(duì)異常值的懲罰,從而提高預(yù)測(cè)精度。通過(guò)實(shí)驗(yàn)證明該模型能對(duì)物流節(jié)點(diǎn)的需求進(jìn)行精準(zhǔn)預(yù)測(cè)。
近年來(lái),隨著消費(fèi)升級(jí)步伐的加快,農(nóng)產(chǎn)品質(zhì)量的新鮮與健康,成為消費(fèi)者對(duì)農(nóng)產(chǎn)品選購(gòu)的主要要求。而傳統(tǒng)以地區(qū)為主的農(nóng)產(chǎn)品運(yùn)輸、銷(xiāo)售與保存模式,會(huì)在基礎(chǔ)物流環(huán)節(jié)損失25%~30%的經(jīng)濟(jì)利益,大量保鮮期短的肉類(lèi)、含水量高的蔬果等農(nóng)產(chǎn)品在物流運(yùn)輸過(guò)程中腐爛變質(zhì),對(duì)廣大人民的利益造成損失、健康造成威脅。在此背景下,農(nóng)產(chǎn)品流通對(duì)冷鏈物流的要求和依賴(lài)越來(lái)越高。在引入專(zhuān)業(yè)的農(nóng)產(chǎn)品冷鏈物流儲(chǔ)藏設(shè)備的基礎(chǔ)上,還要不斷研發(fā)新技術(shù),不斷形成與優(yōu)化冷鏈物流建設(shè)體系,以保障農(nóng)產(chǎn)品在物流運(yùn)輸中的新鮮、健康與安全。
隨著近年來(lái)移動(dòng)互聯(lián)網(wǎng)的崛起和大數(shù)據(jù)技術(shù)的發(fā)展,在房?jī)r(jià)預(yù)測(cè)、各電商平臺(tái)銷(xiāo)售額預(yù)測(cè)、電影票房預(yù)測(cè)、人口增長(zhǎng)分析等問(wèn)題上預(yù)測(cè)算法具有很高的預(yù)測(cè)精確度和泛化能力。當(dāng)前,在需求預(yù)測(cè)上主要采用的算法有線性回歸、時(shí)間序列算法、BP神經(jīng)網(wǎng)絡(luò)算法、GBDT算法等。而GBDT算法在實(shí)際應(yīng)用中由于表現(xiàn)出突出的預(yù)測(cè)精確度和泛化能力,被業(yè)界使用最為廣泛,在改進(jìn)GBDT算法方面的相關(guān)研究也一直在進(jìn)行。有研究者提出了一種改進(jìn)GBDT算法,即使用多棵決策樹(shù)和Boosting算法結(jié)合彌補(bǔ)單棵決策樹(shù)算法的缺陷,有效的提升了分類(lèi)的精確[1];貴州大學(xué)電氣工程學(xué)院的學(xué)者基于LightGBM梯度提升框架結(jié)合histogram決策樹(shù)算法尋找決策樹(shù)的最優(yōu)分割點(diǎn)應(yīng)用于短期負(fù)荷預(yù)測(cè)和數(shù)據(jù)挖掘領(lǐng)域,有效提高了預(yù)測(cè)精度和運(yùn)行速度[2];華北電力大學(xué)的研究者將灰色投影法和GBDT算法結(jié)合創(chuàng)造了PG相似日選法用于解決在天氣因素導(dǎo)致的光伏發(fā)電功率預(yù)測(cè)不準(zhǔn)確問(wèn)題,同時(shí)提升了算法的預(yù)測(cè)精度和防止過(guò)擬合的能力[3];廣西大學(xué)的研究者提出了一種在隨機(jī)森林算法和GBDT算法的基礎(chǔ)上構(gòu)建的RF-GB算法,并與多因子模型相結(jié)合,一定程度上提升了GBDT算法的性能[4]。
梯度提升樹(shù)GBDT算法屬于集成學(xué)習(xí),是擬合殘差作為提升樹(shù),并將多個(gè)弱學(xué)習(xí)器進(jìn)行線性組合的加法模型。而在基學(xué)習(xí)器的選取上,梯度提升樹(shù)GBDT算法以決策樹(shù)作為基分類(lèi)器,而其中C4.5、ID3、CART是三種較為常見(jiàn)的決策樹(shù)算法,且由于CART(Classification and Regression Tree)算法具有無(wú)需進(jìn)行特征標(biāo)準(zhǔn)化、可以不必計(jì)算特征之間的相關(guān)性而自動(dòng)挑選特征進(jìn)行訓(xùn)練,故通常以CART算法作為GBDT算法的基學(xué)習(xí)器。CART回歸樹(shù)的生成過(guò)程是以損失函數(shù)的最小化為衡量標(biāo)準(zhǔn),假定數(shù)據(jù)集為
其中和分別表示樣本空間中的輸入和輸出變量。我們將樣本空間分為訓(xùn)練集和測(cè)試集后,遞歸地將訓(xùn)練數(shù)據(jù)集的輸入空間劃分為兩個(gè)子區(qū)域,計(jì)算每個(gè)子區(qū)域的輸出值,構(gòu)建出一顆決策樹(shù)。在這個(gè)過(guò)程中,通常以平方損失函數(shù)作為選擇最優(yōu)切分變量j與切分點(diǎn)s的依據(jù),通過(guò)求解:
其中,c1、c2分別為訓(xùn)練數(shù)據(jù)集的兩個(gè)子區(qū)域R1、R2的均值。找到使式(1)取最小值的參數(shù)(j,s),即為最優(yōu)的切分變量j與切分點(diǎn)s。使用(j,s)進(jìn)行區(qū)域劃分并計(jì)算對(duì)應(yīng)的子區(qū)域的輸出值,迭代這個(gè)過(guò)程,直到達(dá)到誤差最小或樹(shù)的深度滿(mǎn)足停止條件時(shí)結(jié)束,最終生成決策回歸樹(shù)。GBDT算法首先初始化弱學(xué)習(xí)器,再對(duì)每個(gè)樣本計(jì)算負(fù)梯度即殘差,并將殘差作為樣本新的真實(shí)值構(gòu)成新的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,由此得到一棵新的回歸樹(shù)。由于GBDT算法在迭代過(guò)程中擬合的是負(fù)梯度,所以使用CART回歸樹(shù)作為基學(xué)習(xí)器。然后對(duì)該回歸樹(shù)葉子區(qū)域計(jì)算最佳擬合值并更新強(qiáng)學(xué)習(xí)器得到最終學(xué)習(xí)器。最終學(xué)習(xí)器表達(dá)式為決策樹(shù)的加法模型:
其中f(x)為梯度提升樹(shù)函數(shù)表達(dá)式;I為決策回歸樹(shù)函數(shù)表達(dá)式,由擬合殘差計(jì)算得到;Rm為樣本空間;cm為樣本空間中輸入樣本xi對(duì)應(yīng)的輸出yi的均值;M為決策回歸樹(shù)的棵數(shù)。GBDT是一種提升思想的算法,可以應(yīng)用于分類(lèi)問(wèn)題和回歸問(wèn)題。在實(shí)際中采用此算法時(shí)主要有三個(gè)難點(diǎn)問(wèn)題,第一是每次學(xué)習(xí)得到一個(gè)基學(xué)習(xí)器后,在下一次迭代前需要考慮改變樣本的權(quán)重;第二是如何計(jì)算基學(xué)習(xí)器的權(quán)重并累加成為強(qiáng)學(xué)習(xí)器;第三是如何選取合適的損失函數(shù)。本文主要解決第三個(gè)問(wèn)題,提出一種改進(jìn)的損失函數(shù)以提升GBDT算法的預(yù)測(cè)精度。
為了提高算法的魯棒性,降低異常值對(duì)損失函數(shù)的影響,1964年P(guān).J.Huber等人提出了Huber損失函數(shù),其定義如下:
其中參數(shù)δ是一個(gè)非負(fù)數(shù),當(dāng)樣本值和預(yù)測(cè)值之差的絕對(duì)值即殘差小于該參數(shù)時(shí),Huber損失函數(shù)即為平方損失函數(shù),當(dāng)殘差大于等于該參數(shù)時(shí),Huber損失函數(shù)即為平均絕對(duì)誤差,這是兩個(gè)常用的損失函數(shù)的表達(dá)形式。因此,Huber損失函數(shù)兼具了兩者的優(yōu)點(diǎn)。本文基于γ-Huber損失函數(shù)改進(jìn)GBDT算法,即在構(gòu)建GBDT算法的決策回歸樹(shù)的過(guò)程中,使用γ-Huber損失函數(shù)作為選擇最優(yōu)切分變量j與切分點(diǎn)s的依據(jù)。此時(shí),在式(1)所表示的數(shù)據(jù)集下,我們需要求解表達(dá)式(6):
通過(guò)式(6)求得最優(yōu)切分變量j與切分點(diǎn)s,生成GBDT算法中的決策回歸樹(shù)。
本文將在農(nóng)產(chǎn)品冷鏈物流的資源需求預(yù)測(cè)上使用基于-Huber損失函數(shù)的改進(jìn)GBDT算法。通過(guò)采集物流節(jié)點(diǎn)的農(nóng)產(chǎn)品冷鏈物流歷史數(shù)據(jù),進(jìn)行數(shù)據(jù)清洗、特征工程、建立模型、需求預(yù)測(cè)等步驟,對(duì)物流節(jié)點(diǎn)未來(lái)一段時(shí)間內(nèi)的資源需求進(jìn)行預(yù)測(cè)分析。本文通過(guò)爬蟲(chóng)等多種方式采集了某物流節(jié)點(diǎn)馬鈴薯產(chǎn)品相關(guān)數(shù)據(jù),數(shù)據(jù)集包含了疫情狀況、產(chǎn)品價(jià)格、產(chǎn)量、氣候、歷年各月份產(chǎn)品物流量等數(shù)據(jù)。其中歷年各月份產(chǎn)品物流量數(shù)據(jù)作為數(shù)據(jù)集中的標(biāo)簽數(shù)據(jù),在數(shù)據(jù)清洗階段我們?nèi)《鄠€(gè)年份的產(chǎn)品物流量數(shù)據(jù)的平均值作為標(biāo)簽數(shù)據(jù)。為了驗(yàn)證本文提出方法的有效性,本文在構(gòu)建GBDT算法的決策回歸樹(shù)過(guò)程中使用-Huber損失函數(shù)并取不同的值進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)獲得參數(shù)γ取不同值時(shí)GBDT算法的預(yù)測(cè)準(zhǔn)確率如表1所示。
表1參數(shù)取不同值時(shí)GBDT算法的預(yù)測(cè)準(zhǔn)確率
在具有相同的決策回歸樹(shù)深度時(shí),實(shí)驗(yàn)結(jié)果表明,-Huber損失函數(shù)改進(jìn)GBDT算法在預(yù)測(cè)效果上有較高的預(yù)測(cè)準(zhǔn)確率,且隨著參數(shù)的取值不同而略有不同,在參數(shù)取值為1時(shí)具有較好的預(yù)測(cè)效果。
我們?cè)诒疚闹刑岢隽艘环N新的可以降低傳統(tǒng)平方損失函數(shù)懲罰的-Huber損失函數(shù)并基于此損失函數(shù)對(duì)GBDT算法進(jìn)行了改進(jìn)。通過(guò)采集冷鏈物流節(jié)點(diǎn)的物流商品數(shù)據(jù),并利用基于-Huber損失函數(shù)的改進(jìn)GBDT算法對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練。最后算法模型預(yù)測(cè)結(jié)果顯示,基于-Huber損失函數(shù)的改進(jìn)GBDT算法在有異常值的情況下能明顯降低損失函數(shù)對(duì)異常值的懲罰強(qiáng)度且具有更優(yōu)的預(yù)測(cè)效果和算法魯棒性。