国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

ARIMA-RF 組合模型的銷售預(yù)測研究

2021-09-28 11:22郭天添
軟件導(dǎo)刊 2021年9期
關(guān)鍵詞:決策樹銷售森林

袁 遠,郭天添

(江蘇科技大學(xué) 計算機學(xué)院,江蘇 鎮(zhèn)江 212100)

0 引言

隨著人們消費水平的提高,服裝行業(yè)的銷售量呈爆炸式增長,這些數(shù)據(jù)中往往隱藏了大量有價值的客戶信息。企業(yè)要想維系新老客戶的關(guān)系,掌握客戶需求,就要從這些數(shù)據(jù)中獲取用戶喜好,從而更有效地預(yù)測客戶期望并及時作出反應(yīng)。因此,從海量信息中獲取有價值的數(shù)據(jù)并加以利用成為企業(yè)提高核心競爭力的必要手段之一[1]。

銷售預(yù)測研究具有一定的商業(yè)應(yīng)用價值和學(xué)術(shù)研究價值。銷售預(yù)測不僅能幫助企業(yè)合理制定銷售計劃、去除庫存,還能減少不必要的支出,提升利潤空間。在為企業(yè)創(chuàng)造利潤的同時,可避免大量不必要的資源浪費。因此,銷售預(yù)測一直都是研究熱點,很多學(xué)者對銷售預(yù)測方法進行了研究,并提出一系列改進方法,以提高預(yù)測的準(zhǔn)確性,如文獻[2]通過時間序列模型ARMA 先進行月預(yù)測,然后通過PERT(計劃評審技術(shù))獲得月預(yù)測的期望值,再對兩者結(jié)果進行加權(quán),得到最終預(yù)測結(jié)果;文獻[3]通過使用魯棒損失函數(shù)和小波核函數(shù)解決數(shù)據(jù)集呈正態(tài)高斯分布以及幅值波動較大的問題,以有效減少銷售時序中的噪音和奇異點問題,并增強其魯棒性;文獻[4]通過對歷史銷售數(shù)據(jù)特征的觀察,發(fā)現(xiàn)其包括線性和非線性兩部分,結(jié)合AR?MA 模型預(yù)測數(shù)據(jù)集的線性部分和BP_AdaBoost 模型預(yù)測數(shù)據(jù)集的非線性部分,然后疊加兩者預(yù)測結(jié)果作為新的預(yù)測值,可避免ARMA 模型預(yù)測精度低的問題,同時解決了神經(jīng)網(wǎng)絡(luò)模型導(dǎo)致局部極小值的問題。銷售預(yù)測的核心算法一直在改進,通過閱讀國內(nèi)外文獻,發(fā)現(xiàn)相關(guān)算法在銷售預(yù)測方面存在的問題,并對其進行改進,對于提高銷售預(yù)測模型質(zhì)量與預(yù)測準(zhǔn)確性具有重要意義[5]。本文通過學(xué)習(xí)與借鑒國內(nèi)外文獻,采用時間序列模型中預(yù)測效果較好的ARIMA 模型對線性信息進行預(yù)測,然后利用對非線性信息學(xué)習(xí)能力較強的隨機森林對ARIMA 模型預(yù)測殘差進行矯正,通過構(gòu)建ARIMA-RF 組合模型對歷史銷售數(shù)據(jù)的線性和非線性特征進行預(yù)測。

銷量預(yù)測方法通??煞譃槎ㄐ苑治龇ㄅc定量分析法,目前主流預(yù)測算法包括神經(jīng)網(wǎng)絡(luò)算法[6]、遺傳算法[7]、時間序列算法[8]、隨機森林算法等[9]。本文采用結(jié)合時間序列算法中自回歸綜合移動平均模型與隨機森林模型的組合模型,根據(jù)歷史數(shù)據(jù)進行銷售預(yù)測[10-11],利用隨機森林算法較強的線性學(xué)習(xí)能力優(yōu)化時間序列模型的預(yù)測結(jié)果殘差。通過構(gòu)建的組合模型與單個模型對比結(jié)果,發(fā)現(xiàn)組合模型的預(yù)測結(jié)果更加精確。

1 相關(guān)理論

1.1 ARIMA 模型

ARIMA(自回歸—滑動平均混合模型)是一種時間序列方法[12]。ARIMA 是包括非平穩(wěn)情況的ARMA 模型,也是對ARMA 模型的擴展。由于銷售數(shù)據(jù)受節(jié)假日、電商節(jié)等因素影響,歷史銷售數(shù)據(jù)并非相對平穩(wěn)的時間序列數(shù)據(jù),實際場景下很多序列因為與社會經(jīng)濟和商業(yè)有關(guān),從而表現(xiàn)出非平穩(wěn)行為,包含趨勢和季節(jié)模式的序列在本質(zhì)上也是非平穩(wěn)的,因此提出了ARIMA 模型,通過應(yīng)用數(shù)據(jù)點的有限差分處理使序列平穩(wěn)化,并把移動平均模型、自回歸模型與差分法相結(jié)合,從而得到ARIMA 模型(p、d、q)。p、d和q 為整數(shù),分別為ARIMA 模型的自回歸、進行差分的階數(shù)和移動平均,具體公式如式(1)所示。

其中,L 是滯后算子,d∈?,d>0。

雖然ARIMA 模型可能在某些特殊情況下表現(xiàn)不佳,但其可在構(gòu)建過程中進行優(yōu)化,以體現(xiàn)針對不同時間序列的靈活性,仍使其成為一種非常優(yōu)秀的預(yù)測方法[13]。ARIMA不僅考慮了數(shù)據(jù)特征在時間序列方面的規(guī)律性,而且減輕了其他影響因子對實驗結(jié)果的影響,所以ARIMA 模型針對長短期預(yù)測結(jié)果的準(zhǔn)確率都表現(xiàn)較為優(yōu)異[14]。其中心思想是把歷史數(shù)據(jù)集的時間序列作為變量,其取值隨著時間而變化,雖然某個時間序列的值具有不確定性,但從宏觀角度來看,完整的時間序列還是表現(xiàn)出一定規(guī)律性。因此,首先將不平穩(wěn)的時間序列轉(zhuǎn)換為平穩(wěn)的時間序列,然后通過因變量對模型的滯后值、隨機誤差項值和隨機誤差項的滯后值進行回歸[15]。建模公式如式(2)所示。

其中,φ表示AR 的系數(shù),θ表示MA 的系數(shù),其建模流程如圖1 所示。

Fig.1 Time series ARIMA modeling process圖1 時間序列ARIMA 建模流程

首先進行平穩(wěn)性檢驗,通過對時間序列散點圖的觀察初步進行判斷;然后進一步對單位根進行檢驗,判斷其是否平穩(wěn),若不平穩(wěn)則需要利用差分等方式將其平穩(wěn)化;之后進行模型識別與定階,確定滯后系數(shù)和模型??赏ㄟ^檢驗?zāi)P蜌埐钚蛄校?6]判斷其有效性,因為在模型構(gòu)建過程中,容易在滯后項階數(shù)選擇時出現(xiàn)偏差。模型構(gòu)建完成后,再根據(jù)歷史銷售數(shù)據(jù)預(yù)測未來一段時期的銷售量。此外,通常會利用一些固定指標(biāo)對模型進行判斷。ARIMA(p,d,q)模型的判斷指標(biāo)為AIC,具體公式如式(3)所示。

式中,L 為極大似然估計值,懲罰函數(shù)為2k,如果模型中有截距或常數(shù)項,k=p+q+1,否則k=p+q。

1.2 隨機森林模型

隨機森林模型通過訓(xùn)練多棵決策樹,將每棵決策樹的投票結(jié)果匯總作為預(yù)測值,其中每棵樹都是基于一個獨立隨機向量的值產(chǎn)生的[17],森林中每棵樹的建立都涉及兩次隨機過程:第一次隨機過程是在訓(xùn)練集構(gòu)造過程中使用Bootstrap 方式從原始數(shù)據(jù)中進行有放回的抽樣,這樣獲得訓(xùn)練集的最大特點在于有一部分數(shù)據(jù)會重復(fù)出現(xiàn)在訓(xùn)練子集中,有一部分則不會出現(xiàn),不會出現(xiàn)的這部分數(shù)據(jù)稱為袋外數(shù)據(jù)OOB(Out-of-Bag),大概占到原始數(shù)據(jù)的三分之一,也被用來估計森林的強度和相關(guān)度;第二次隨機過程在于特征選擇的隨機性,在基分類器決策樹構(gòu)建過程中不斷從所有屬性特征中選擇一部分按照一定衡量標(biāo)準(zhǔn)進行排序,組成決策樹的每一個節(jié)點,從而大大增加了決策樹構(gòu)建的隨機性。兩次隨機過程帶來的優(yōu)勢在于:第一次隨機過程使得構(gòu)建的決策樹對數(shù)據(jù)有了不同側(cè)重點,保證樹與樹之間盡可能相對獨立;第二次隨機過程使得每棵樹的特征組合呈現(xiàn)多樣性,基分類決策樹對不同特征有了不同的關(guān)注度,更能作出準(zhǔn)確判斷[18]。兩次隨機性的加入,使得隨機森林能夠防止過擬合情況出現(xiàn),模型泛化能力更強,對噪聲更具魯棒性,從而使整體預(yù)測精度得以提升。

隨機森林模型是對多棵決策樹的集成算法,模型利用Bootstrap 隨機抽樣以及節(jié)點隨機劃分完成對多棵決策樹的構(gòu)建,然后由這些決策樹進行投票,以投票結(jié)果作為最終分類或回歸結(jié)果。主要流程如圖2 所示。

Fig.2 Random forest generation and decision process圖2 隨機森林生成及決策流程

Gini 系數(shù)是隨機森林的重要性度量指標(biāo)[19]。每棵決策樹投票結(jié)果都為其所對應(yīng)特征的投票結(jié)果,在解決分類問題時,以Gini 系數(shù)和信息增益劃分特征值,而處理回歸問題時,則采用最小二乘擬合法或計算方差法劃分數(shù)據(jù)集中的特征。Gini 系數(shù)衡量樹節(jié)點的不純性公式如式(4)所示。

其中,t為決策樹節(jié)點特征,p2(j/t)表示j類目標(biāo)在其對應(yīng)節(jié)點的比例。最小二乘偏差法適合回歸樹構(gòu)建,誤差公式如式(5)所示。

式中,nt為節(jié)點數(shù)據(jù)實例數(shù),kt為實例數(shù)據(jù)目標(biāo)值,kt=(∑yi)/nt,節(jié)點t的最小二乘偏差標(biāo)準(zhǔn)為使式(6)最大。

2 組合模型

2.1 組合模型原理

對于現(xiàn)實背景下的問題,組合模型通??商岣哳A(yù)測結(jié)果的準(zhǔn)確率[20]。常見組合模型方法有:①平均法。對于組合模型中的輸出值取平均值;②投票法。根據(jù)模型對應(yīng)的投票數(shù)決定是否采用該模型或?qū)Χ鄠€模型進行組合等[21-22]。時間序列模型受非線性特征及隨機變量等影響因子影響較大,而對于商家地理位置、外部天氣情況、客流量等非線性信息無法很好地進行處理,所以大部分時間序列預(yù)測模型都是根據(jù)歷史趨勢預(yù)測未來走向。機器學(xué)習(xí)模型對數(shù)據(jù)量較大、特征維度較高的歷史銷售數(shù)據(jù)能處理得更好,其中隨機森林更是經(jīng)典的機器學(xué)習(xí)模型,近年來在處理現(xiàn)實背景下的實際問題中具有更好的效果。實驗通過對隨機森林模型不斷調(diào)參,增強其學(xué)習(xí)能力。隨機森林模型是從分類拓展到回歸應(yīng)用的集成模型,其按照輸入的最小誤差進行劃分,對于外部天氣情況、是否節(jié)假日、客流量等非線性特征的影響更為重視,而這些影響體現(xiàn)在時間序列預(yù)測模型殘差中,需要對ARIMA 預(yù)測模型殘差進行優(yōu)化,以提高實驗?zāi)P偷念A(yù)測準(zhǔn)確度。

ARIMA 模型對于特征維度多、需要預(yù)測未來較長時間周期的情況相比其他時間序列模型表現(xiàn)更佳[23],因此本文選擇ARIMA 時間序列模型預(yù)測銷量,并對其品牌的歷史銷量數(shù)據(jù)進行預(yù)測分析。隨機森林模型在機器學(xué)習(xí)模型中的表現(xiàn)也尤為出色,可綜合兩者優(yōu)勢組合成ARIMA-RF 模型以提高預(yù)測精度。

2.2 ARIMA-RF 組合模型設(shè)計

整個組合模型主要分為以下幾部分:數(shù)據(jù)預(yù)處理、ARIMA 模型預(yù)測、隨機森林訓(xùn)練和ARIMA 預(yù)測數(shù)據(jù)矯正。組合模型設(shè)計如圖3 所示。

Fig.3 Combinatorial model design圖3 組合模型設(shè)計

首先在數(shù)據(jù)預(yù)處理部分,對于銷售預(yù)測而言,一批干凈、完整的優(yōu)良數(shù)據(jù)是保證模型準(zhǔn)確、可靠的基石,而獲取的歷史數(shù)據(jù)通常不規(guī)則,且包含異常值和噪聲干擾,因此需要事先對現(xiàn)有數(shù)據(jù)進行一系列預(yù)處理。通過調(diào)研業(yè)務(wù),深入理解變量間的關(guān)系,清洗數(shù)據(jù)集并處理缺失值、離散值和分類變量,并根據(jù)數(shù)據(jù)特征選擇合適的模型作小范圍的數(shù)據(jù)驗證,之后再針對性地對模型進行優(yōu)化。首先針對實際業(yè)務(wù)場景,構(gòu)建合適的預(yù)測模型;然后觀察銷量突變現(xiàn)象,分析相關(guān)影響因子;最后處理異常離散值,降低不良影響。取數(shù)據(jù)集中2015 年一整年的測試數(shù)據(jù)觀察銷售量時序分布情況,如圖4 所示。

Fig.4 Time series distribution under day dimension圖4 以天為周期維度的時間序列分布

通過觀察發(fā)現(xiàn),以天為統(tǒng)計周期的歷史銷售數(shù)據(jù)過于分散,天與天之間并沒有明顯的周期性特征,難以捕捉相關(guān)規(guī)律。出于對業(yè)務(wù)數(shù)據(jù)的理解,考慮挖掘以周為循環(huán)周期的變化趨勢。對于周的劃分,在銷售時間上將銷售數(shù)據(jù)的日期換算成對應(yīng)農(nóng)歷周。這是由于服裝與其他快銷產(chǎn)品不同,其銷售情況受溫度季節(jié)影響較大。而農(nóng)歷24 節(jié)氣對應(yīng)地球公轉(zhuǎn)周期,農(nóng)歷周相比公歷的月份周更能準(zhǔn)確反映不同階段的氣溫變化,這在以年為周期維度擬合趨勢時能更明顯地體現(xiàn)出隱藏的溫度變化趨勢。因此,新建農(nóng)歷周換算表,映射具體date 對應(yīng)的農(nóng)歷周份。

ARIMA 模型預(yù)測則是將歷史銷售數(shù)據(jù)的n 個特征用時間序列表示,針對這些歷史時間序列進行特征根校驗,在判斷平穩(wěn)性后構(gòu)建AIC 指標(biāo)最小時的ARIMA 模型,預(yù)測未來某一階段的時間序列集合,最后計算模型預(yù)測結(jié)果與實際值的誤差。之后,通過訓(xùn)練隨機森林模型對誤差值進行矯正優(yōu)化,在隨機森林訓(xùn)練過程中,可發(fā)現(xiàn)特征之間的聯(lián)系,從而判斷哪些特征對預(yù)測結(jié)果的影響微乎其微,并將這些無關(guān)特征值去除。最后通過實驗發(fā)現(xiàn),一些重要特征對預(yù)測值影響較大,數(shù)據(jù)特征相關(guān)圖如圖5 所示,其中像素塊越紅,代表相關(guān)性越強。

實驗最后通過訓(xùn)練完成的隨機森林模型提純ARIMA模型的誤差值,修正ARIMA 模型預(yù)測結(jié)果,得出新的預(yù)測值,根據(jù)本文設(shè)計好的評價指標(biāo)對比單個實驗?zāi)P皖A(yù)測結(jié)果,以期達到更高的預(yù)測精度。

Fig.5 Data feature correlation graph圖5 數(shù)據(jù)特征相關(guān)圖

3 實驗與分析

3.1 實驗數(shù)據(jù)處理

本文以某快銷服飾品牌上海門店2015 年1 月-2019 年12 月的實際銷售數(shù)據(jù)作為分析數(shù)據(jù),同時利用Python 通過網(wǎng)絡(luò)爬蟲從國家氣象局網(wǎng)站抓取了上海市2015 年1 月-2019 年12 月的歷史天氣數(shù)據(jù)。基于上述數(shù)據(jù)建立預(yù)測模型,預(yù)測該品牌在上海市未來一年每日的銷售數(shù)據(jù)。企業(yè)可根據(jù)預(yù)測數(shù)據(jù)優(yōu)化運營,降低庫存與成本,并提升流程效率。原始數(shù)據(jù)如表1 所示。每條數(shù)據(jù)都是一件服裝完整的銷售記錄,例如sku 標(biāo)識了服裝唯一id,color 標(biāo)識顏色,season 標(biāo)識服裝目標(biāo)售賣季節(jié),salenum 標(biāo)識服裝售賣件數(shù),tag_price 標(biāo)識吊牌銷售價格,saleprice 標(biāo)識實際銷售價格,以及產(chǎn)品庫存、是否節(jié)假日、是否為電商款等多種屬性。將2015-2018 年的數(shù)據(jù)作為訓(xùn)練集,2019 年全年的數(shù)據(jù)作為測試集。訓(xùn)練集用來對組合模型進行訓(xùn)練,測試集的預(yù)測結(jié)果用來與真實銷售數(shù)據(jù)進行銷量對比分析,從而計算組合模型的預(yù)測精度。

Table 1 Raw data overview表1 原始數(shù)據(jù)概覽

3.2 評價指標(biāo)

模型建立后需要通過一定方法進行評估,以衡量該模型是否高效。在實際應(yīng)用中,通常將驗證數(shù)據(jù)集代入模型中運行,獲取實驗結(jié)果并與實際值作比較,根據(jù)不同指標(biāo)衡量模型表現(xiàn),以此評估模型優(yōu)劣。通常采用如下指標(biāo):

(1)平均絕對誤差。MAE(平均絕對誤差)表示預(yù)測結(jié)果與實際結(jié)果之間差值絕對值的平均數(shù),該評價指標(biāo)是對絕對誤差損失的預(yù)期值。計算公式如式(7)所示,其中a代表預(yù)測值,b代表實際值。

(2)均方根誤差。RMSE(均方根誤差)表示預(yù)測結(jié)果與實際結(jié)果誤差的平方同序列長度之比的平方根,該指標(biāo)對應(yīng)于平方誤差的期望。計算公式如式(8)所示。

其中,n 為預(yù)測序列長度,a 為真實銷售數(shù)量,b 為預(yù)測值。雖然RMSE 可以評判模型預(yù)測結(jié)果平方誤差大小,為衡量模型優(yōu)劣提供一定的科學(xué)依據(jù),但其不能作為衡量模型優(yōu)劣的決定性指標(biāo),理應(yīng)同時考慮其他指標(biāo)情況,綜合比對模型,從而得到更具說服力的結(jié)論。

3.3 實驗結(jié)果對比

Table 2 Comparison of prediction results of different experimental models表2 不同實驗?zāi)P皖A(yù)測結(jié)果比較

從表2 中可以看出,ARIMA-RF 組合模型相比單一模型,平方絕對誤差與均方根誤差都有所下降,銷量預(yù)測精度總體上優(yōu)于單一模型。說明ARIMA-RF 組合預(yù)測模型發(fā)揮了兩種模型的優(yōu)勢,相較于單一模型預(yù)測效果更佳,更適用于本文的商業(yè)環(huán)境。

4 結(jié)語

本文以某快銷服飾品牌上海門店近5 年的銷售數(shù)據(jù)為基礎(chǔ),依次構(gòu)建了RF 模型、ARIMA 模型以及優(yōu)化后的ARI?MA-RF 組合模型。在相同數(shù)據(jù)集的基礎(chǔ)上通過實驗比較預(yù)測結(jié)果的各項評價指標(biāo),發(fā)現(xiàn)ARIMA-RF 組合模型的RMSE(均方根誤差)和MAE(平均絕對誤差)均優(yōu)于單一模型的實驗結(jié)果,證明了ARIMA-RF 模型對于商業(yè)環(huán)境下的服飾銷售預(yù)測具有更高精度,同時分析其實用性,以期在更多領(lǐng)域加以應(yīng)用。由于實際銷售情況會受到很多其他外界情況影響,所以實驗效果還存在進一步提升的空間。

猜你喜歡
決策樹銷售森林
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應(yīng)用
這四個字決定銷售成敗
給人帶來快樂的襪子,一年銷售1億美金
哈Q森林
哈Q森林
哈Q森林
基于決策樹的出租車乘客出行目的識別
哈Q森林
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
休宁县| 巫溪县| 社会| 图片| 信丰县| 阿图什市| 桂平市| 贺兰县| 上虞市| 万安县| 常德市| 大渡口区| 天峻县| 海城市| 新田县| 泸水县| 思茅市| 浏阳市| 额尔古纳市| 化德县| 宣汉县| 夏津县| 迁安市| 峨眉山市| 桦甸市| 仁化县| 望都县| 天柱县| 凤城市| 梁平县| 南安市| 双峰县| 罗平县| 行唐县| 泰顺县| 云霄县| 京山县| 康定县| 招远市| 莱阳市| 宜春市|