国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Holt—Winters時(shí)間序列的圖書(shū)選題預(yù)測(cè)模型

2017-05-17 10:26林海康寶中
關(guān)鍵詞:R語(yǔ)言數(shù)據(jù)挖掘

林海++康寶中

摘要:針對(duì)出版選題策劃依賴主觀經(jīng)驗(yàn)的問(wèn)題,提出了采用Holt-Winters時(shí)間序列預(yù)測(cè)模型按圖書(shū)類別預(yù)測(cè)圖書(shū)銷量的方法。為出版單位作出合理的選題策劃提供依據(jù)。通過(guò)選題預(yù)測(cè)可有效把握市場(chǎng)規(guī)律,迎合用戶消費(fèi)傾向,有效減少因錯(cuò)過(guò)最佳銷售時(shí)機(jī)造成庫(kù)存積壓導(dǎo)致人力物力的消耗。

關(guān)鍵詞:圖書(shū)銷售預(yù)測(cè);數(shù)據(jù)挖掘;R語(yǔ)言;圖書(shū)選題

中圖分類號(hào):TM73 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2017)03-0051-03

圖書(shū)選題作為圖書(shū)出版的最初環(huán)節(jié),歷來(lái)被出版單位所重視。本文主要解決出版單位確定某一時(shí)間出版選題類別的問(wèn)題。如提供未來(lái)幾個(gè)月內(nèi),某些類別的圖書(shū)將會(huì)有較好的收益。出版行業(yè)選題策劃的基本流程包括信息篩選、選題設(shè)計(jì)、選題論證、選題優(yōu)化等[1],圖書(shū)銷售數(shù)據(jù)直觀反應(yīng)市場(chǎng)規(guī)律與用戶消費(fèi)傾向,對(duì)選題策劃有著至關(guān)重要的影響。近年來(lái)隨著圖書(shū)銷售數(shù)據(jù)管理的規(guī)范化、信息化,選題策劃人員面對(duì)書(shū)城近期銷售排行榜,銷售月報(bào)以及《開(kāi)卷圖書(shū)調(diào)查報(bào)告》等眾多報(bào)表,進(jìn)行深度研究、定量分析,獲得的結(jié)果極有價(jià)值,是未來(lái)圖書(shū)市場(chǎng)調(diào)查研究的趨勢(shì)。[2]

鑒于圖書(shū)市場(chǎng)具有短期的波動(dòng)性與中長(zhǎng)期的周期性、銷售數(shù)量巨大與銷售品種的繁多同時(shí)并存的特點(diǎn),給出版機(jī)構(gòu)進(jìn)行選題策劃帶來(lái)很大的困難。根據(jù)圖書(shū)市場(chǎng)中長(zhǎng)期周期性特點(diǎn),提出了使用時(shí)間序列方法預(yù)測(cè)圖書(shū)銷量,可為出版單位推薦選題類別和選題規(guī)劃的最佳時(shí)段。

1 基于Holt-Winters模型的銷售預(yù)測(cè)分析

1.1 預(yù)測(cè)模型應(yīng)用

Holt-Winters模型是較常見(jiàn)的預(yù)測(cè)模型,由Winters(1960)提出的,又由后人不斷改進(jìn)(如Hyndman et al.(2002),Cipra and Romera(1997),Cipra et al.(1995)),才有了現(xiàn)在的形式[3]。Holt指數(shù)平滑法加入了趨勢(shì)指數(shù)作為修正而建立的模型,無(wú)論用在什么領(lǐng)域,Holt指數(shù)平滑法都被有效的驗(yàn)證,并且具有優(yōu)秀的預(yù)測(cè)能力(Holt,2004;Eddie & Everette,2010;Luis,2011)[4]。Holt-Winters模型通常分加法模型和乘法模型,分別適用于季節(jié)變動(dòng)大致相等和長(zhǎng)期趨勢(shì)大致成正比的情形。

時(shí)間序列預(yù)測(cè)方法在眾多預(yù)測(cè)領(lǐng)域得到了應(yīng)用廣泛,文獻(xiàn)通過(guò)運(yùn)用時(shí)間序列對(duì)黃河徑流量等水文數(shù)據(jù)預(yù)測(cè),為黃河防汛作出預(yù),進(jìn)而減弱自然災(zāi)害的影響;文獻(xiàn)[6]同樣采用時(shí)間序列方法對(duì)自動(dòng)售貨機(jī)的銷量進(jìn)行預(yù)測(cè)分析,可提出一個(gè)快速的銷售方案,減少人力物力不必要的耗費(fèi)。

通過(guò)大量論文例證表明時(shí)間序列預(yù)測(cè)方法不僅廣泛應(yīng)用于各預(yù)測(cè)領(lǐng)域,而且適用于銷售數(shù)據(jù)的預(yù)測(cè)分析,鑒于圖書(shū)銷售市場(chǎng)具有一般普遍性,故本文選用的時(shí)間序列方法對(duì)圖書(shū)銷售數(shù)據(jù)進(jìn)行預(yù)測(cè)是切實(shí)可行的。

1.2 Holt-Winters三參數(shù)指數(shù)平滑方法原理

指數(shù)平滑法是移動(dòng)平均法的改進(jìn)和發(fā)展,Holt-Winters三參數(shù)指數(shù)平滑模型本質(zhì)上是一種高級(jí)指數(shù)平滑模型,可同時(shí)處理趨勢(shì)和季節(jié)性變化,可適當(dāng)?shù)剡^(guò)濾隨機(jī)波動(dòng)的影響,對(duì)兼有長(zhǎng)期趨勢(shì)和季節(jié)模式的數(shù)據(jù)進(jìn)行預(yù)測(cè)。

當(dāng)時(shí)間序列圖顯示的時(shí)間序列的季節(jié)變動(dòng)大致相等時(shí),采用加法模型;當(dāng)時(shí)間序列的長(zhǎng)期趨勢(shì)大致成正比時(shí),應(yīng)該采用乘法模型。鑒于本文討論的數(shù)據(jù)規(guī)律與加法模型相符合,故本文選擇季節(jié)和趨勢(shì)為加法模型,假設(shè)要進(jìn)行指數(shù)平滑的序列為{xt},則Holt-Winters三參數(shù)指數(shù)平滑模型構(gòu)造如下:

at=α(xt-st-π)+(1-α)(at-1+bt-1) (1)

bt=β(at-at-π)+(1-β)bt-1 (2)

st=γ(xt-at)+(1-γ)st-π (3)

其中:π為季節(jié)性時(shí)間的長(zhǎng)度π=12,對(duì)于月度數(shù)據(jù);s季節(jié)調(diào)整因素;xt為現(xiàn)行數(shù)值;at為平滑值;bt為長(zhǎng)期趨勢(shì)值;γ為加權(quán)值;α,β為調(diào)整因子;t為當(dāng)前時(shí)間。(1)式中xt為圖書(shū)銷售數(shù)據(jù)的序列值,經(jīng)過(guò)參數(shù)α的平滑處理得到平滑序列at,同理長(zhǎng)期趨勢(shì)序列bt與周期序列st經(jīng)過(guò)參數(shù)β與γ的處理后得到。

預(yù)測(cè)值由下式計(jì)算:

y= at+ kbt+ st+k-π

其中k表示向后平滑期數(shù),即決定預(yù)測(cè)未來(lái)幾個(gè)月份的序列的參數(shù),y值即所預(yù)測(cè)圖書(shū)銷量序列。

1.3 數(shù)據(jù)清洗

以《開(kāi)卷圖書(shū)銷售報(bào)告》(2013-2016)為例,該數(shù)據(jù)覆蓋全國(guó)2000余家實(shí)體書(shū)店門(mén)市,20余家獨(dú)立網(wǎng)店及天貓書(shū)城,具有良好的連續(xù)性、代表性和完整性。采用2012-2013連續(xù)2年的圖書(shū)零售市場(chǎng)逐月觀測(cè)數(shù)據(jù)作為訓(xùn)練集,2014-2015年為測(cè)試集,銷售總碼洋31.77億元、銷售圖書(shū)總計(jì)2300余萬(wàn)本。

首先對(duì)原始銷售數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,剔除冗余字段、缺失字段后,保留規(guī)范化和有效的數(shù)據(jù),如銷售分類、銷售量、售價(jià)、時(shí)間等字段;然后按年份與銷售分類分組統(tǒng)計(jì)。篩選后對(duì)各圖書(shū)銷售分類數(shù)據(jù)分析,包括銷售類別、碼洋與市場(chǎng)占有率。

鑒于每本圖書(shū)作品在圖書(shū)出版過(guò)程中都要進(jìn)行ISBN號(hào)申請(qǐng),申請(qǐng)目的主要是為了圖書(shū)市場(chǎng)更好的管理與規(guī)范,確保出版發(fā)行高質(zhì)量圖書(shū)。申請(qǐng)時(shí)長(zhǎng)作為一個(gè)重要因素影響出版單位出版選題的規(guī)劃,ISBN的平均申領(lǐng)時(shí)長(zhǎng)是一個(gè)需要獲取的重要指標(biāo)。

1.4 確定預(yù)測(cè)模型

圖書(shū)銷量的訓(xùn)練和預(yù)測(cè)過(guò)程大致如下所示,首先在(1)式之前將數(shù)據(jù)dataframe1準(zhǔn)備就緒,通過(guò)(2)式建立預(yù)測(cè)模型,將測(cè)試集帶入預(yù)測(cè)模型由plot函數(shù)比對(duì)擬合程度后,確定參數(shù)后即可由(3)式預(yù)測(cè)圖書(shū)銷量。

s1=ts(dataframe1,frequency=12, start=c(2012,1)) (1)

bookforecasts <- HoltWinters(s1,alpha=TRUE,beta=0, gamma=0.1) (2)

forecasts <- forecast.HoltWinters(bookforecasts, h=4)(3)

采取對(duì)少兒類圖書(shū)舉例分析,其它類別圖書(shū)分析方法類似,在此不再贅述。首先通過(guò)對(duì)Holt模型與Holt-Winters模型進(jìn)行對(duì)比分析,如圖1所示橫軸表示年份,縱軸表示銷售碼洋,圖中黑色曲線表示實(shí)際圖書(shū)銷售碼洋變化規(guī)律,粗體曲線為模型對(duì)訓(xùn)練集的擬合效果。

根據(jù)訓(xùn)練集選取的時(shí)間序列預(yù)測(cè)模型,對(duì)測(cè)試集做時(shí)間序列預(yù)測(cè)。對(duì)比效果如圖2所示,橫軸表示年份,縱軸表示銷售碼洋,圖中黑色曲線表示實(shí)際圖書(shū)銷售碼洋變化規(guī)律,粗體曲線為模型對(duì)測(cè)試集的擬合效果。由圖2可表明Holt-Winters模型擬合效果優(yōu)于Holt模型,所以選取Holt-Winters模型進(jìn)行銷量預(yù)測(cè)。

通常評(píng)估模型擬合程度與誤差分析,通過(guò)預(yù)測(cè)誤差殘差偏移做自相關(guān)和偏相關(guān)分析,可判定預(yù)測(cè)模型的統(tǒng)計(jì)學(xué)意義。然后對(duì)Holt-Winter時(shí)間序列模型預(yù)測(cè)結(jié)果的誤差殘差偏移做自相關(guān)ACF和偏相關(guān)PACF分析,如圖3所示,圖3中第一部分橫軸表示時(shí)間,縱軸表示誤差殘差偏移量,曲線描述了預(yù)測(cè)值與實(shí)際值波動(dòng)范圍的差值。圖3中的第二部分和第三部分表示殘差自相關(guān)圖與殘差偏相關(guān)圖,ACF與PACF隨著階數(shù)的升高,殘差均在意義界限虛線之內(nèi),表示預(yù)測(cè)結(jié)果符合統(tǒng)計(jì)學(xué)意義。由此表明選定的預(yù)測(cè)模型符合預(yù)期要求。

2 實(shí)驗(yàn)結(jié)果及應(yīng)用

2.1 預(yù)測(cè)圖書(shū)銷量

因?yàn)闀r(shí)間序列預(yù)測(cè)隨受近期數(shù)據(jù)影響因子較大,預(yù)測(cè)時(shí)間較長(zhǎng)會(huì)丟失預(yù)測(cè)精確度,所以選取預(yù)測(cè)模型預(yù)測(cè)未來(lái)四個(gè)月的各類別圖書(shū)銷量。預(yù)測(cè)結(jié)果如圖4所示,其中橫軸表示時(shí)間,縱軸表示銷售碼洋,黑色曲線為實(shí)際銷售碼洋的值,其中圓點(diǎn)表示2016年1月只4月的月銷售碼洋,深灰色區(qū)域表示85%的置信區(qū)間,灰色區(qū)域表示95%的置信區(qū)間。

預(yù)測(cè)得到的預(yù)測(cè)結(jié)果如表1所示,時(shí)間表示預(yù)測(cè)時(shí)間,為2016年1月至4月,預(yù)測(cè)結(jié)果為各月份的銷售碼洋數(shù)值。

同理可得其余類別圖書(shū)未來(lái)4個(gè)月的銷售預(yù)測(cè)和所占比例。

2.2 預(yù)測(cè)結(jié)果分析與應(yīng)用

根據(jù)本文預(yù)測(cè)數(shù)據(jù),可以通過(guò)用戶輸入一定范圍內(nèi)的年月信息(輸入的年月信息跨度較大會(huì)有較大的誤差,造成推薦方案的不準(zhǔn)確性),由表2中的數(shù)據(jù)可以為出版單位提供出版選題比例結(jié)果推薦方案;如輸入2016年1月后,可以推薦給用戶該月份的選題比例,如推薦可提供較多盈利的類別TOP 8(排名前8種類別),如法律、文學(xué)、傳記、政治經(jīng)濟(jì)與管理、少兒以及這六種類別選題的推薦比例,出版單位用戶可以由此可獲得各類別選題的結(jié)構(gòu)比例推薦方案。

另一方面,由出版單位提供選題基本信息,可根據(jù)分類圖書(shū)平均申領(lǐng)時(shí)間表為出版單位選題規(guī)劃日期給出精確到日的信息。如出版單位提供的選題類別、頁(yè)數(shù)、開(kāi)本、裝訂形式、首印量等信息,可以根據(jù)類別得到選題的ISBN申領(lǐng)時(shí)長(zhǎng);因?yàn)椴煌?yè)數(shù)、開(kāi)本、裝訂形式的圖書(shū)作品印刷周期不同,如頁(yè)數(shù)較多并且裝訂形式是精裝版的圖書(shū)耗費(fèi)的印刷時(shí)間也比較長(zhǎng),所以根據(jù)頁(yè)數(shù)、開(kāi)本、裝訂形式、首印量等信息可以估算出印刷時(shí)耗。由以上兩部分時(shí)長(zhǎng)可較為準(zhǔn)確的得到該類選題的時(shí)耗,出版單位便可根據(jù)選題耗費(fèi)時(shí)長(zhǎng)提前規(guī)劃相應(yīng)類別選題。

通過(guò)以上分析,從數(shù)據(jù)層面提供了選題預(yù)測(cè)的可靠性,并且從數(shù)量給予出版單位用戶直觀的反應(yīng),為出版單位某一時(shí)間出版什么類別選題提供了依據(jù)。由此使用以上方法可以建立起一整套根據(jù)圖書(shū)銷售數(shù)據(jù)對(duì)圖書(shū)選題規(guī)劃的應(yīng)用,為圖書(shū)出版行業(yè)建立大數(shù)據(jù)分析的奠定基礎(chǔ)。

3 結(jié)語(yǔ)

本文運(yùn)用時(shí)間序列的方法,基于圖書(shū)銷售數(shù)據(jù)采用數(shù)據(jù)挖掘分析方法,預(yù)測(cè)出各銷售類別圖書(shū)的銷售碼洋,進(jìn)而為出版單位提供未來(lái)一段時(shí)間內(nèi)某一類選題的推薦方案,并針對(duì)選題規(guī)劃周期時(shí)長(zhǎng)提供預(yù)測(cè),為出版單位選題規(guī)劃周期提供精確到日的推薦方案,為實(shí)現(xiàn)出版單位收益最大化提供良好的保障。

參考文獻(xiàn)

[1]傅祚華.選題策劃與出版流程[J].中國(guó)編輯,2016.2.

[2]李長(zhǎng)青.如何透視圖書(shū)銷售數(shù)據(jù)背后的奧秘——圖書(shū)銷售數(shù)據(jù)定量分析方法淺探[J].科技與出版,2008(03).

[3]沙川.Holt-Winters時(shí)間序列模型參數(shù)估計(jì)和預(yù)測(cè)[D].南京大學(xué),2011.

[4]廈瑞鴻,鄭博文.醫(yī)院衛(wèi)材需求預(yù)測(cè)與存貨管理[J].國(guó)立云林科技大學(xué)全球運(yùn)籌管理所碩士論文,2013.1.

猜你喜歡
R語(yǔ)言數(shù)據(jù)挖掘
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
基于GPS軌跡數(shù)據(jù)進(jìn)行分析改善城市交通擁擠
基于R語(yǔ)言的Moodle平臺(tái)數(shù)據(jù)挖掘技術(shù)的研究
注重統(tǒng)計(jì)思維培養(yǎng)與應(yīng)用為主導(dǎo)的生物統(tǒng)計(jì)學(xué)課程建設(shè)
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘的分析與探索
基于GPGPU的離散數(shù)據(jù)挖掘研究
蓬溪县| 伽师县| 九江市| 丰都县| 浠水县| 瑞金市| 靖州| 始兴县| 长丰县| 临潭县| 大关县| 大庆市| 竹溪县| 融水| 汤原县| 泌阳县| 贡觉县| 长治县| 濉溪县| 阜阳市| 平昌县| 天柱县| 府谷县| 泸州市| 成都市| 吴川市| 临沭县| 唐河县| 德兴市| 读书| 增城市| 闻喜县| 西林县| 江西省| 张家川| 永康市| 汕尾市| 丽江市| 尼玛县| 儋州市| 韶关市|