劉璐 丁福利 孫立民
摘 要:煙草銷售量預(yù)測(cè)能為煙草生產(chǎn)、運(yùn)輸、配送提供指導(dǎo),使煙草行業(yè)能更好地適應(yīng)市場(chǎng)需求。煙草銷售量受眾多因素的影響,具有季節(jié)性和周期性規(guī)律,傳統(tǒng)的線性模型難以進(jìn)行準(zhǔn)確的預(yù)測(cè)。基于支持向量機(jī)建立煙草銷售量的多維時(shí)間序列模型,實(shí)驗(yàn)結(jié)果表明,該模型具有較高的預(yù)測(cè)精度,能夠準(zhǔn)確地反映煙草銷售量的變化趨勢(shì)。對(duì)比實(shí)驗(yàn)也表明,所提出的方法比其它幾種方法預(yù)測(cè)精度高,可以為煙草行業(yè)的銷售管理提供科學(xué)依據(jù),具有實(shí)用價(jià)值。
關(guān)鍵詞:煙草銷售量預(yù)測(cè);支持向量機(jī);多維時(shí)間序列
DOIDOI:10.11907/rjdk.162026
中圖分類號(hào):TP319
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào)文章編號(hào):16727800(2016)011013403
0 引言
中國(guó)是世界上最大的煙草生產(chǎn)國(guó)和消費(fèi)國(guó)[1]。煙草銷售是煙草行業(yè)管理中最為關(guān)鍵的部分,準(zhǔn)確的煙草銷售預(yù)測(cè)能為煙草生產(chǎn)、運(yùn)輸、配送提供指導(dǎo),而要進(jìn)行準(zhǔn)確的煙草銷售預(yù)測(cè)必須找到合適的預(yù)測(cè)方法。因此,如何設(shè)計(jì)高精度的煙草銷售預(yù)測(cè)方法是煙草行業(yè)管理的重要課題。
傳統(tǒng)煙草銷售量預(yù)測(cè)方法的研究主要集中在對(duì)煙草零售經(jīng)營(yíng)者訂單的管理分析中,而且采用銷售人員意見匯總法、德爾菲法(經(jīng)理及員工的意見)等為主的人工預(yù)測(cè)方法[2]。這種人工預(yù)測(cè)方法業(yè)務(wù)流程較多,浪費(fèi)大量的人力、物力,并且還可能引起煙草資源分配的不公平,難以滿足市場(chǎng)需求。從機(jī)器學(xué)習(xí)的角度上看,煙草銷售量的預(yù)測(cè)屬于回歸問題[3],而回歸包括線性回歸和非線性回歸。文獻(xiàn)[4]在對(duì)煙草銷售量數(shù)據(jù)進(jìn)行分析的基礎(chǔ)上,提出了一種線性預(yù)測(cè)模型,但由于煙草銷售量受季節(jié)、人口、市場(chǎng)、節(jié)假日等一系列因素的共同影響,并不適合采用線性回歸方法進(jìn)行預(yù)測(cè)。在非線性回歸方法中,較為常用的有神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)(SVM)。文獻(xiàn)[5]基于BP神經(jīng)網(wǎng)絡(luò)對(duì)煙草銷售量進(jìn)行建模并預(yù)測(cè),而神經(jīng)網(wǎng)絡(luò)是基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化,不僅泛化能力較差,而且存在局部極小點(diǎn)問題[6],因此神經(jīng)網(wǎng)絡(luò)雖然對(duì)原始數(shù)據(jù)的擬合能力較強(qiáng),但對(duì)未來數(shù)據(jù)的推廣能力較差,而對(duì)未來數(shù)據(jù)的推廣能力往往更能反映學(xué)習(xí)機(jī)器的實(shí)用價(jià)值。支持向量機(jī)基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化,泛化能力強(qiáng)且預(yù)測(cè)精度高。因此,本文采用支持向量機(jī)方法對(duì)煙草銷售量進(jìn)行建模預(yù)測(cè)。
1 支持向量回歸機(jī)
2 預(yù)測(cè)方法
2.1 數(shù)據(jù)預(yù)處理
本文收集到了云煙品牌一個(gè)品類2006年1月~2011年10月共6年的銷售數(shù)據(jù),銷售數(shù)據(jù)信息中包括銷售量、銷售日期(年月日)、倉(cāng)庫(kù)編號(hào)、發(fā)票信息、審核人信息等,其中對(duì)銷售量預(yù)測(cè)影響最大的是銷售日期及對(duì)應(yīng)的銷售量。由于中國(guó)的香煙銷售對(duì)陰歷呈現(xiàn)出更強(qiáng)的規(guī)律性,因此將銷售統(tǒng)計(jì)數(shù)據(jù)轉(zhuǎn)換為以陰歷月為標(biāo)準(zhǔn)。
2.2 數(shù)據(jù)歸一化處理
由表1可以看出,各列數(shù)據(jù)屬性不同,數(shù)值范圍相差較大。為避免數(shù)值范圍較大的屬性控制數(shù)值范圍較小的屬性,使數(shù)據(jù)具有統(tǒng)一性和可比性,將屬性值都?xì)w一化[10]為[0,1]之間。歸一化所用公式為:
2.3 模型定階
由于煙草銷售量預(yù)測(cè)屬于經(jīng)濟(jì)預(yù)測(cè),因此它不僅與當(dāng)前日期有關(guān),更與之前的銷售信息有關(guān)。為確定當(dāng)前銷售量與前多少個(gè)月的銷售信息關(guān)系最大,需要通過拓階[11]的方法來確定。
設(shè)煙草銷售量數(shù)據(jù)的一個(gè)樣本為{yi,yeari,monthi},yi為第i個(gè)樣本中的煙草銷售量,yeari為當(dāng)前年份,monthi為當(dāng)前月份。其中,yeari和monthi為樣本的自變量,yi為樣本的因變量。通過拓階能夠更為準(zhǔn)確地得到自變量和因變量的函數(shù)依賴關(guān)系。當(dāng)階數(shù)為n時(shí),表示將前n個(gè)樣本中的信息添加到當(dāng)前樣本中的自變量中。即用前n個(gè)月的銷售信息和當(dāng)前年月來預(yù)測(cè)當(dāng)前銷售量。此時(shí),自變量總數(shù)為(3×n+2),其中n為階數(shù)。通過SVM由低階到高階逐步進(jìn)行拓階,模型每拓一階,自變量相應(yīng)地增加 3個(gè)。對(duì)于每一次的拓階,以MSE最小為標(biāo)準(zhǔn)決定是否接受拓階。設(shè)SVM(n)為拓階n次后的模型,SVM(n+1)為拓階n+1次后的模型,比較兩者的MSE大小,如果SVM(n+1)的MSE小于SVM(n)的MSE,表示接受本次拓階,并進(jìn)行下一步拓階;如果SVM(n+1)的MSE大于SVM(n)的MSE,表示不接受本次拓階,并停止拓階,最終得到最優(yōu)階數(shù)n。通過對(duì)煙草數(shù)據(jù)的拓階,得到拓階結(jié)果如圖2所示。
2.4 回歸模型的參數(shù)選擇
當(dāng)訓(xùn)練模型確定后,通過支持向量回歸機(jī)進(jìn)行預(yù)測(cè)。由于徑向基核函數(shù)的準(zhǔn)確率較高,并且大多數(shù)SVM默認(rèn)的核函數(shù)也是徑向基核函數(shù)[12],本文亦采用徑向基核函數(shù)。
3 實(shí)驗(yàn)結(jié)果與分析
以云煙數(shù)據(jù)集為例,選擇2006年1月-2010年12月的銷售量數(shù)據(jù)為訓(xùn)練樣本,以2011年1-10月的銷售量數(shù)據(jù)為測(cè)試樣本。在本文算法實(shí)現(xiàn)過程中,實(shí)驗(yàn)環(huán)境配置如表2所示。
4 結(jié)語(yǔ)
通過預(yù)測(cè)煙草銷售量可以提前了解煙草的銷售動(dòng)態(tài),為煙草物流、倉(cāng)儲(chǔ)等部門提供決策依據(jù)。本文基于支持向量機(jī)建立煙草銷售預(yù)測(cè)的多維時(shí)間序列模型。實(shí)驗(yàn)證明,根據(jù)本文方法建立的模型所預(yù)測(cè)的結(jié)果與實(shí)際結(jié)果基本一致,能夠比較準(zhǔn)確地反映煙草銷售量的變化趨勢(shì)。對(duì)比實(shí)驗(yàn)也證明,與其它幾種方法相比,本文方法預(yù)測(cè)誤差最小。綜上,本文所述方法是合理有效的,可以應(yīng)用到實(shí)際煙草銷售量預(yù)測(cè)中。
參考文獻(xiàn):
[1] 蔣德珺.我國(guó)煙草業(yè)國(guó)際化戰(zhàn)略研究[J].北方經(jīng)濟(jì),2012(14):9495.
[2] 利普·科特勒,洪瑞云,梁紹明,等.市場(chǎng)營(yíng)銷管理 [M].亞洲版·2版.北京:中國(guó)人民大學(xué)出版社,2001.
[3] 鄭逢德,張鴻賓.拉格朗日支持向量回歸的有限牛頓算法[J].計(jì)算機(jī)應(yīng)用,2012,32(9):25042507.
[4] 張素平.基于乘法模型的內(nèi)蒙古烏蘭察布市卷煙總銷量預(yù)測(cè)研究[J].內(nèi)蒙古科技與經(jīng)濟(jì),2012(21):3335.
[5] 仲東亭,張玥.BP神經(jīng)網(wǎng)絡(luò)對(duì)煙草銷售量預(yù)測(cè)方法的改進(jìn)研究[J].工業(yè)技術(shù)經(jīng)濟(jì),2007,26(9):115118.
[6] 劉蘇蘇,孫立民.支持向量機(jī)與RBF神經(jīng)網(wǎng)絡(luò)回歸性能比較研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32(12):42024205.
[7] 鄧乃揚(yáng),田英杰.數(shù)據(jù)挖掘的新方法——支持向量機(jī)[M].北京:科學(xué)出版社,2004
[8] 肖建,于龍,白裔峰.支持向量回歸中核函數(shù)和超參數(shù)選擇方法綜述[J].西南交通大學(xué)學(xué)報(bào),2008,43(3):297303.
[9] 單黎黎,張宏軍,張睿,等.基于主導(dǎo)因子法的裝備維修保障人員調(diào)度值預(yù)測(cè)[J].計(jì)算機(jī)應(yīng)用,2012,32(8):23642368.
[10] 彭麗芳,孟志青,姜華,等.基于時(shí)間序列的支持向量機(jī)在股票預(yù)測(cè)中的應(yīng)用[J].計(jì)算技術(shù)與自動(dòng)化,2006,25(3):8891.
[11] 向昌盛,周子英.基于支持向量機(jī)的害蟲多維時(shí)間序列預(yù)測(cè)[J].計(jì)算機(jī)應(yīng)用研究,2010,27(10):36943697.
[12] 譚征,孫紅霞,王立宏,等.中文評(píng)教文本分類模型的研究[J].煙臺(tái)大學(xué)學(xué)報(bào):自然科學(xué)與工程版,2012,25(2):122126.
[13] CHERKASSKY V,MULIER F.Learning from data: concepts,theory and methods[M].NY:JohnViley&Sons,1997.
[14] YONG M,XIAOBO Z,DAOYING P,et al.Parameters selection in gene selection using Gaussian kernel support vector machines by genetic algorithm[J].Journal of zhejiang university science B,2005,6(10):961973.
[15] 王興玲,李占斌.基于網(wǎng)格搜索的支持向量機(jī)核函數(shù)參數(shù)的確定[J].中國(guó)海洋大學(xué)學(xué)報(bào):自然科學(xué)版,2005,35(5):859862.
[16] ITO K,NAKANO R.Optimizing support vector regression hyperparameters based on crossvalidation[C].Proceedings of the International Joint Conference on Neural Networks, 2003:20772082.
[17] HSU C W,CHANG C CLIN C J.LIBSVM:a library for support vector machines[EB/OL].http://www.csie.ntu.edu.tw/~cjlin/libsvm.
(責(zé)任編輯:孫 娟)