桂思思 孫 偉 徐曉鋒
(1.武漢智慧生態(tài)科技投資有限公司 武漢 430119)(2.神龍汽車有限公司 武漢 430056)(3.武漢昱升光器件有限公司 武漢 430073)
隨著汽車的逐漸普及,汽車在人們的出行消費(fèi)中占有越來越重要的地位,而汽車行業(yè)的飛速發(fā)展與激烈競爭,也給各個(gè)品牌的主機(jī)廠提出了更高的要求,實(shí)時(shí)掌握品牌未來的汽車銷量,能夠更好按需安排生產(chǎn)計(jì)劃,控制汽車庫存量,更能有效地為市場部門提供有針對(duì)性的營銷數(shù)據(jù)支撐。
我們可以在各類文獻(xiàn)中找到關(guān)于汽車銷量的預(yù)測模型研究,如文獻(xiàn)[1]基于汽車市場的月度銷量進(jìn)行中長期預(yù)測,提出了基于結(jié)構(gòu)關(guān)系識(shí)別的汽車銷量預(yù)測方法。文獻(xiàn)[2]分析了我國汽車銷量的主要影響因素,如經(jīng)濟(jì)環(huán)境、汽車價(jià)格、基礎(chǔ)設(shè)施環(huán)境等因素,并計(jì)算出各影響因素的灰色關(guān)聯(lián)分析,提出了基于回歸分析的汽車銷量預(yù)測模型。文獻(xiàn)[3]根據(jù)我國汽車市場的月度銷量數(shù)據(jù),并基于具有季節(jié)調(diào)整的ARIMA進(jìn)行汽車銷量預(yù)測。
筆者進(jìn)行調(diào)研發(fā)現(xiàn),各類預(yù)測模型并未在各品牌的汽車主機(jī)廠得到廣泛應(yīng)用,分析原因主要為:1)主機(jī)廠更關(guān)注于面向單品牌的汽車銷量預(yù)測,而現(xiàn)有預(yù)測模型大都根據(jù)汽車市場的總體情況,分析汽車行業(yè)的宏觀影響因素進(jìn)行建模,與面向單品牌的銷量預(yù)測影響因素存在差異;2)部分模型選取的預(yù)測數(shù)據(jù)對(duì)主機(jī)廠來說比較難以獲取,如有些模型需要統(tǒng)計(jì)全國公路里程,有些涉及品牌情感因素的分析需要抓取外部網(wǎng)站的數(shù)據(jù)。本文根據(jù)主機(jī)廠的數(shù)據(jù)現(xiàn)狀,分析面向品牌汽車銷量預(yù)測的主要因素,提出一種基于ARIMA與線性回歸組合模型的單品牌汽車銷量預(yù)測模型的建立方法。
在汽車行業(yè),面向普通大眾的單品牌汽車銷售流程大體為
1)單品牌的銷售線索搜集。主機(jī)廠從各大垂直網(wǎng)站、自媒體、以及進(jìn)4S店的用戶登記數(shù)據(jù)獲取銷售線索,銷售線索記錄的往往是有購車意向的客戶信息。
2)對(duì)銷售線索進(jìn)行跟進(jìn)。這個(gè)過程主要是銷售人員和客戶進(jìn)行溝通,跟進(jìn)、價(jià)格談判等。
3)銷售線索的成交。銷售線索成交后將轉(zhuǎn)化為銷售訂單,也就是普遍意義上的汽車銷售。
從上述流程流程中可以看出,銷售線索是影響汽車銷售的一個(gè)重要因素,也是汽車品牌主機(jī)廠真正掌握的售前數(shù)據(jù)之一。另外,普通的單品牌汽車銷售會(huì)受到近期或去年同期銷售情況的影響,因此歷史銷量也是進(jìn)行銷量預(yù)測的另一重要指標(biāo)。下文中我們根據(jù)某汽車品牌提供的2014年~2018年銷售線索及歷史銷量數(shù)據(jù),對(duì)影響因素進(jìn)行具體分析與建模。
模型的建立方法如下四步。
步驟1提取相關(guān)因素。檢驗(yàn)相關(guān)因素的相關(guān)性,提取相關(guān)性較高的相關(guān)因素作為多元線性回歸的自變量。
步驟2提取自回歸自變量。建立自回歸序列,對(duì)序列進(jìn)行差分,并根據(jù)自相關(guān)和偏相關(guān)參數(shù)進(jìn)一步對(duì)ARIMA模型定階。
步驟3結(jié)合步驟1和步驟2提取的自變量建立多元線性回歸模型。
步驟4對(duì)模型進(jìn)行擬合、驗(yàn)證及調(diào)整,對(duì)各參數(shù)顯著性進(jìn)行檢驗(yàn),得到較完備的最終模型。
回歸分析是研究一個(gè)變量關(guān)于另一些變量的具體依賴關(guān)系的計(jì)算方法和理論,根據(jù)自變量的變化來預(yù)測因變量的變化,變化關(guān)系一般為相關(guān)關(guān)系,是統(tǒng)計(jì)學(xué)中一個(gè)常用的方法,被廣泛地應(yīng)用于社會(huì)經(jīng)濟(jì)現(xiàn)象變量之間的影響因素和關(guān)聯(lián)的研究。
通過R語言將該品牌的銷售線索數(shù)據(jù)與銷量數(shù)據(jù)進(jìn)行相關(guān)因素分析,計(jì)算Pearson相關(guān)系數(shù)為0.8052126,可以看出該品牌的銷售線索與汽車銷量之間的相關(guān)性很高。建立以銷售線索Xi為自變量,銷量Yi為因變量的線性回歸模型如下
上式中β0為截距項(xiàng),βi為模型的參數(shù),誤差項(xiàng)εi是隨機(jī)變量。
該品牌汽車銷量的月度數(shù)據(jù)具有長期趨勢、季節(jié)變動(dòng),隨機(jī)波動(dòng)的特點(diǎn),我們選擇通過自回歸模型進(jìn)行分析,自回歸模型被廣泛地應(yīng)用于包含銷量預(yù)測在內(nèi)的時(shí)間序列的分析與預(yù)測中。
ARIMA模型是對(duì)非平穩(wěn)時(shí)間序列進(jìn)行分析的方法,在對(duì)序列進(jìn)行差分后建立自回歸移動(dòng)平均模型,季節(jié)性的ARIMA模型是在ARIMA模型的基礎(chǔ)上加入了季節(jié)的考慮而改進(jìn)的模型,假設(shè)對(duì)于Yt的隨機(jī)時(shí)間序列,經(jīng)過d階差分后為平穩(wěn)序列,模型滿足如下模型結(jié)構(gòu):
其中B為延遲算子,有BpYt=Yt-p,誤差項(xiàng)是當(dāng)期的隨機(jī)干擾εt,為零均值白噪聲序列。其中:
稱該模型為AR IM A(p,d,q)(P,D,Q) m
首先建立該品牌以月為單位的銷量數(shù)據(jù)的原始序列Yt,t=1,2,3,…對(duì)銷量數(shù)據(jù)進(jìn)行平穩(wěn)性檢查,時(shí)序圖如圖1,可以看出時(shí)序圖有明顯的遞減趨勢,單位根檢驗(yàn)統(tǒng)計(jì)量對(duì)應(yīng)的p值為0.2904,顯著大于0.05,該序列是非平穩(wěn)序列,自相關(guān)圖圖2顯示,自相關(guān)系數(shù)長期大于零,說明序列間有相關(guān)性。
圖2 自相關(guān)圖
對(duì)序列進(jìn)行一階差分?yt=?yt-?yt-1,如圖3顯示一階差分之后序列的時(shí)序圖在均值附近比較平穩(wěn)的波動(dòng),進(jìn)行單位根檢驗(yàn),p值為0.01,表明一階差分之后序列是平穩(wěn)的。
圖3 一階差分時(shí)序圖
對(duì)一階差分后的序列進(jìn)行自相關(guān)和偏相關(guān)判斷如圖4和圖5,從自相關(guān)圖和偏自相關(guān)圖可以看出,acf拖尾,pacf截尾,并且可以看出lag值延遲12階處,自相關(guān)和偏自相關(guān)系數(shù)都顯著非零,說明一階差分后序列具有季節(jié)效應(yīng)。
圖4 一階差分自相關(guān)圖
圖5 一階差分偏自相關(guān)圖
圖6 兩次差分后自相關(guān)圖
圖7 兩次差分后偏相關(guān)圖
將ARIMA(1,1,0)(0,1,0)12模型各值帶入到式(2)中,可得該品牌基于歷史銷量的時(shí)間序列表達(dá)式為
自回歸模型本身就是多元線性回歸模型的一種,通過式(3)可以確認(rèn)t時(shí)刻的隨機(jī)變量Yt是Yt-1、Yt-2、Yt-12、Yt-13、Yt-14的多元線性回歸。因此將上述自變量結(jié)合式(1),形成多元線性回歸方程(8),如下:
β0為截距項(xiàng),β1~β6為模型的參數(shù),Xt為t時(shí)刻銷售線索,Yt-1、Yt-2、Yt-12、Yt-13、Yt-14為對(duì)應(yīng)t-1、t-2、t-12、t-13、t-14時(shí)刻的歷史銷售數(shù)據(jù),誤差項(xiàng)εt為t時(shí)刻隨機(jī)變量。
通過R語言進(jìn)行模型驗(yàn)證及參數(shù)調(diào)整,首先驗(yàn)證只有銷售線索變量的模型,根據(jù)式(1)進(jìn)行擬合優(yōu)度檢驗(yàn),提取可決系數(shù)R2為0.5003,Rˉ2為0.4897,可以看出樣本擬合度不高,根據(jù)式(8)對(duì)組合后的模型進(jìn)行擬合度檢驗(yàn),提取可決系數(shù)R2為0.8288,Rˉ2為0.8043,可決系數(shù)明顯提高,對(duì)模型進(jìn)行單個(gè)變量的顯著性檢驗(yàn),各項(xiàng)t檢驗(yàn)的p值如表1,可以看出截距項(xiàng)的t檢驗(yàn)結(jié)果為不顯著。
表1 式(4)各變量的t檢驗(yàn)p值
剔除截距項(xiàng),得到式(9):
根據(jù)式(9)對(duì)進(jìn)行擬合度檢驗(yàn),提取可決系數(shù)R2為0.9833,Rˉ2為0.981,可決系數(shù)進(jìn)一步提高,對(duì)模型進(jìn)行單個(gè)變量的顯著性檢驗(yàn),各項(xiàng)t檢驗(yàn)的p值如表2,均小于0.05,模型整體顯著性檢驗(yàn)F檢驗(yàn)統(tǒng)計(jì)量為421.8,兩個(gè)自由度為6和43,對(duì)應(yīng)的檢驗(yàn)P值為2.2e-16,說明模型整體是顯著的。
表2 式(5)各變量的t檢驗(yàn)p值
根據(jù)該模型預(yù)測值的百分比誤差RPE如表3。其中RPE計(jì)算公式如式(10),其中y^t為t時(shí)刻預(yù)測值,yt真實(shí)值。
表3 預(yù)測值的百分比誤差
該模型在對(duì)2018年4月~2018年11月的銷量預(yù)測中,除了7月RPE值較大,其他預(yù)測偏差均在8%以內(nèi),預(yù)測效果較為理想,證明了該模型建立方法的可行性。
銷售線索及歷史銷量數(shù)據(jù)是影響單品牌銷量預(yù)測的重要因素,在模型的建立過程中不可相同對(duì)待,銷售線索與銷量密切相關(guān),可直接作為線性回歸模型的因變量處理,而歷史銷量具有趨勢性和季節(jié)性的特點(diǎn)對(duì)銷量預(yù)測的影響更加復(fù)雜,因此需要通過非平穩(wěn)時(shí)間序列的分析進(jìn)行模型因變量的提取,最后再將各個(gè)因變量進(jìn)行模型組合。整個(gè)模型建立過程中線性回歸模型是建模的基礎(chǔ)模型,各個(gè)因變量的提取是模型建立的關(guān)鍵。本文提出建模思路及方法符合大多數(shù)汽車品牌的數(shù)據(jù)基礎(chǔ),較易實(shí)現(xiàn),可為面向單品牌的汽車銷量預(yù)測提供參考。