国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于聚類分析和決策樹算法的服裝銷售預(yù)測模型

2015-09-18 07:36孫曉靜
中國管理信息化 2015年9期
關(guān)鍵詞:決策樹銷售額聚類

孫曉靜,高 慧,陳 云

(上海財經(jīng)大學(xué)a.信息化辦公室;b.信息管理與工程學(xué)院,上海200433)

基于聚類分析和決策樹算法的服裝銷售預(yù)測模型

孫曉靜a,高慧b,陳云a

(上海財經(jīng)大學(xué)a.信息化辦公室;b.信息管理與工程學(xué)院,上海200433)

服裝生產(chǎn)企業(yè)需要了解市場需求的變化趨勢,以做出正確的生產(chǎn)和銷售決策。因此,對服裝銷售狀況進(jìn)行準(zhǔn)確的預(yù)測,成為企業(yè)有效制定發(fā)展戰(zhàn)略的重要依托。服裝的銷售受銷售渠道、地域、文化、經(jīng)濟(jì)等眾多因素的影響,呈現(xiàn)復(fù)雜的非線性特征,導(dǎo)致需求預(yù)測難度較大。本文綜合考慮各種影響因素,結(jié)合聚類分析和CART決策樹算法構(gòu)建銷售預(yù)測模型,既實現(xiàn)了較高的預(yù)測精度,又可轉(zhuǎn)化為易于理解的規(guī)則。最后以某服裝運營企業(yè)為例驗證了方法的有效性和可解釋性。

服裝銷售預(yù)測;系統(tǒng)聚類;CART決策樹

0 引言

在多元化競爭的服裝市場上,顧客對服裝需求的多變性也使企業(yè)常常同時面臨暢銷產(chǎn)品短缺和滯銷產(chǎn)品積壓的問題。服裝銷售除了受到銷售渠道數(shù)量、分布等企業(yè)自身營業(yè)狀況的影響,還受到地域、氣象、文化、經(jīng)濟(jì)等多種因素的影響,導(dǎo)致難以對市場需求加以準(zhǔn)確預(yù)測,無法對運營決策提供有效支持。

目前對銷售額預(yù)測的研究主要可以分成兩類。一類是基于個人判斷法或德爾菲法的定性預(yù)測。個人判斷法即銷售管理人員基于個人經(jīng)驗,對銷售量進(jìn)行預(yù)測。此類方法往往以銷售、管理人員對銷售數(shù)據(jù)的主觀判斷為基礎(chǔ),受較多人為因素的影響,缺乏客觀性和可靠性。另一類是基于現(xiàn)有數(shù)理模型的定量預(yù)測方法,有移動平均法、指數(shù)平滑法、季節(jié)性指數(shù)法、一元回歸或多云回歸法、時間序列模型預(yù)測、馬爾科夫鏈預(yù)測模型等。

隨著研究的深入,研究者們開始采用不同的定量方法實現(xiàn)需求的預(yù)測,如Haper提出的德爾菲法是一種專家預(yù)測方法;Richard B.Chase提出的移動平均法是利用移動平均數(shù)消除偶然性因素的影響來進(jìn)行預(yù)測;R.G Brown提出的指數(shù)平滑法是根據(jù)更近的經(jīng)驗不斷修正預(yù)測值的方法;John Neter提出的回歸模型則運用回歸方程式來進(jìn)行預(yù)測等[1]。此外,如在《基于時間序列和PERT的服裝銷售預(yù)測方法研究》[2]一文中從服裝銷售的實際特點出發(fā),通過引入PERT模型和時間序列模型,借鑒兩模型的各自優(yōu)勢,實現(xiàn)了對銷售必然性和偶然性預(yù)測的有機(jī)結(jié)合,用完全量化的時間序列模型克服了預(yù)測過程中對歷史數(shù)據(jù)的主觀性判斷。喻琳艷在《需求隨機(jī)型服裝產(chǎn)品的灰色預(yù)測模型》一文中將服裝需求分為需求確定型、隨機(jī)型和季節(jié)型,提出運用灰色控制理論有關(guān)預(yù)測的理論[3],針對需求確定型和隨機(jī)型服裝產(chǎn)品建立預(yù)測模型,避免了以往僅憑經(jīng)驗進(jìn)行管理的盲目性,得到了較好的預(yù)測結(jié)果。薛美君、沈劍劍、楊以雄在《服裝銷售定量預(yù)測方法新探》一文中對受季節(jié)銷售影響敏感且有較長銷售周期的服裝銷量進(jìn)行預(yù)測,采用季節(jié)因子處理數(shù)據(jù),結(jié)合最小二乘法進(jìn)行時間與銷售量的統(tǒng)計分析[4],建立時間和銷售量之間的函數(shù)關(guān)系,此方法對預(yù)測服裝企業(yè)未來銷售需求有較好的準(zhǔn)確度。通過分析國內(nèi)外服裝銷售預(yù)測的研究狀況,不難發(fā)現(xiàn)目前關(guān)于預(yù)測方法方面的研究已經(jīng)比較完善,但是預(yù)測方法的研究大多偏重于將多種預(yù)測方法綜合運用得出最后的預(yù)測值。然而對于服裝企業(yè)的管理者來說,關(guān)注的另一個焦點是哪些因素影響了銷售額,而上述模型在銷售影響因素上沒有做相關(guān)分析。

針對此不足,本文首先結(jié)合服裝業(yè)特點,從地域、文化、經(jīng)濟(jì)、氣象、企業(yè)發(fā)展等角度尋找影響銷售的不同因素,然后用系統(tǒng)聚類法實現(xiàn)銷售數(shù)據(jù)的聚類,即將企業(yè)的歷史銷售數(shù)據(jù)按照企業(yè)關(guān)注的類別進(jìn)行相應(yīng)的聚類,最后運用CART算法建立影響因素與目標(biāo)銷售額之間的分類規(guī)則,進(jìn)而運用規(guī)則對銷售進(jìn)行預(yù)測。

此方法不僅可以有效預(yù)測服裝銷售需求,而且易于轉(zhuǎn)化為關(guān)聯(lián)規(guī)則,幫助管理者了解服裝銷售的主要影響要素,制定合理的生產(chǎn)、營銷策略。

1 系統(tǒng)聚類法和CART算法

系統(tǒng)聚類法是目前使用最多的一種聚類方法。決策樹學(xué)習(xí)是以實例為基礎(chǔ)的監(jiān)督歸納學(xué)習(xí)算法,通過一組無次序、無規(guī)則的實例推理出決策樹表示形式的分類規(guī)則,其中最著名的決策樹算法有ID3、C415、CART等[5-10]??紤]到本模型的輸入數(shù)據(jù)集并不完全服從某類特定分布,而且不同指標(biāo)體系對應(yīng)的數(shù)據(jù)類型也不同,既有連續(xù)變量又有離散變量,因此采用CART算法[10]。

系統(tǒng)聚類算法能夠?qū)Ψb銷售中的目標(biāo)銷售額進(jìn)行聚類,并能得到較好的結(jié)果,將此結(jié)果作為CART決策樹算法的輸出。然后尋找與目標(biāo)銷售額相關(guān)的外界影響因素與企業(yè)內(nèi)部的影響因素,將這些因素作為決策樹的輸入。運用CART算法形成影響因素與目標(biāo)銷售額之間的分類規(guī)則,最后運用規(guī)則對銷售進(jìn)行預(yù)測。

2 基于聚類和決策樹的服裝銷售預(yù)測模型

2.1整體模型

為了更有效地配置現(xiàn)有資源,實現(xiàn)企業(yè)利潤最大化,需要借助科學(xué)的方法分析不同銷售網(wǎng)點所處的具體市場環(huán)境,針對不同的市場環(huán)境制定不同的銷售額指標(biāo),同時對各類市場環(huán)境下,不同網(wǎng)點的未來銷售額進(jìn)行預(yù)測。

決策樹算法可以通過對輸入數(shù)據(jù)的分析,在學(xué)習(xí)的基礎(chǔ)上得到分類規(guī)則,因此,可以先尋找與目標(biāo)銷售額相關(guān)的外界影響因素與企業(yè)內(nèi)部的影響因素,將這些因素作為決策樹的輸入,運用決策樹算法形成影響因素與目標(biāo)銷售額之間的分類規(guī)則,從而幫助管理者了解目前的銷售受到了哪些外部因素的影響。同時,還可以運用已有規(guī)則對未來市場的銷售進(jìn)行預(yù)測。

基于上述分析,本文提出了聚類分析與決策樹算法相結(jié)合的銷售預(yù)測模型。該方法首先從服裝的整體銷售入手,通過聚類分析,將歷史記錄中的人均銷售額分組,結(jié)合企業(yè)實際分析要求,劃分成3大類區(qū)間,表示銷售業(yè)績的“可觀,一般,較差”3個層級;然后建立包括地域因素、經(jīng)濟(jì)因素、文化因素以及企業(yè)自身因素等一系列可能對銷售產(chǎn)生影響的屬性集合,決策樹將這些屬性和從聚類中得到的3大銷售區(qū)間聯(lián)系起來,得出屬性集合與人均銷售額之間的關(guān)聯(lián)規(guī)則;最后通過決策樹就可以將未來銷售網(wǎng)點的人均銷售額和用屬性描述的銷售原型聯(lián)系在一起,預(yù)測出未來屬性發(fā)生變化時所對應(yīng)網(wǎng)點的人均銷售額,以此指導(dǎo)管理者進(jìn)行科學(xué)的決策。整個模型主要包括聚類分析,建立指標(biāo)體系和建立決策樹模型3步,主要流程如圖1所示。

圖1 基于聚類分析和決策樹算法的服裝銷售預(yù)測模型流程圖

(1)聚類分析:運用系統(tǒng)聚類法對研究時期內(nèi)對應(yīng)的人均銷售額進(jìn)行聚類,形成若干類銷售區(qū)間,作為決策樹模型的分類目標(biāo);

(2)建立影響因素指標(biāo)體系:尋找影響服裝銷售的各類影響因素,即包括各類外部影響因素,也包括企業(yè)自身的影響因素,建立完善的影響因素指標(biāo)體系;

(3)建立決策樹模型:將影響因素對應(yīng)的屬性向量作為決策樹模型的輸入,人均銷售額的聚類區(qū)間作為決策樹的分類目標(biāo),訓(xùn)練決策樹模型,挖掘出影響因素和人均銷售額之間的關(guān)聯(lián)規(guī)則,用建立的規(guī)則對新網(wǎng)點的人均銷售額進(jìn)行預(yù)測,同時通過對最終決策樹的分析,指導(dǎo)企業(yè)分析市場環(huán)境。

2.2基于聚類分析的銷售數(shù)據(jù)聚類分析模型

本文使用系統(tǒng)聚類法實現(xiàn)銷售需求的聚類。聚類過程主要包括3個步驟:距離計算,合并聚類,決定類的個數(shù)和類,整個過程如圖2所示。

圖2 系統(tǒng)聚類過程圖

2.2.1距離計算

計算N個銷售數(shù)據(jù)任意兩者間的距離 {dij},即銷售額的差值,記為D={dij},構(gòu)造N個類,每個類中只有1個樣本,其中:

xi表示第i個銷售額,xj表示第j個銷售額,i,j∈(1,2,…,N)。

2.2.2類的合并

對以上數(shù)據(jù)用平均距離法進(jìn)行聚類分析。平均距離法是將類與類之間的距離定義為兩類中所有樣品對之間的平均距離,假設(shè)用G表示某一類,即本項目中的銷售區(qū)間。G中有k個元素,i、j表示G中第i、j個因素;令Gp和Gq中分別有p和q個樣品,類與類之間平均距離D(p,q)定義為Gp和Gq中所有兩個樣品對之間距離的平均??梢愿鶕?jù)式(2)計算類之間的平均距離,然后將平均距離最近的兩類進(jìn)行合并,得到新類,再計算新類與各類直接的平均距離,依次重復(fù),直至所有樣本聚類完畢。

式中,i、j表示G中第i、j個銷售額;令Gp和Gq中分別有p 和q個銷售額數(shù)據(jù)。

2.2.3類個數(shù)的確定

Milligan(1984)和Cooper(1985)提出了以下3個最好準(zhǔn)則:①偽F統(tǒng)計量;②偽統(tǒng)計量;③立方聚類準(zhǔn)則CCC。通過判斷這3個值在聚類數(shù)為多少時達(dá)到峰值來選擇類的個數(shù)。

2.2.4聚類結(jié)果

通過上述方法,企業(yè)的N個歷史銷售記錄可以聚成K類(K≤N),每一類代表一個銷售區(qū)間,對應(yīng)不同的銷售情況,表示為Ω∈{SCL1,SCL2,SCLK}。

2.3基于決策樹算法的銷售需求預(yù)測模型

本文采用CART決策樹模型實現(xiàn)影響因素和銷售區(qū)間之間的映射,挖掘出兩者之間的關(guān)聯(lián)規(guī)則。具體流程如圖3所示。

圖3 CART決策樹模型流程圖

2.3.1訓(xùn)練和測試數(shù)據(jù)集的建立

對于經(jīng)營品牌的企業(yè),其直接銷售的是產(chǎn)品商標(biāo),經(jīng)過生產(chǎn)廠商和各級經(jīng)銷商最終售給消費者。因此,企業(yè)當(dāng)前的商標(biāo)銷售量反映的是后續(xù)時期的市場需求。因此,本文將T時期的影響因素與T+1時期的銷售區(qū)間配對,形成數(shù)據(jù)集T={Ai,SCLi+1},i∈[1,2,…,N]。其中,Ai表示第i時期的屬性向量,SCLi+1表示第i+ 1時期的銷售情況,N表示歷史數(shù)據(jù)的總時間長度。然后,選取其中的TRD個數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),則剩余的N-TRD個為測試數(shù)據(jù)。

2.3.2銷售影響因素獲取

本項目綜合考慮了影響銷售的地域角度、氣象角度、文化角度、經(jīng)濟(jì)角度和企業(yè)角度,確定了各類因素所對應(yīng)的具體屬性集合。根據(jù)文獻(xiàn)《地域性文化影響下的服裝分析》《淺談地域差異對服裝設(shè)計的影響》《我國女裝市場營銷環(huán)境分析及評價研究》,《女性品牌服裝消費心理的實證研究》《淺談地域差異對服裝設(shè)計的影響》以及企業(yè)自身關(guān)注的指標(biāo)。綜上可得本文中所提出的44個影響因素屬性集合(見表1),表示為Ai=(A1,A2,…,A44)。

2.3.3決策樹的訓(xùn)練

采用數(shù)據(jù)集T中的TRD個訓(xùn)練數(shù)據(jù)對決策樹進(jìn)行訓(xùn)練,以第i時期的銷售影響因素Ai為輸入,以第i+1時期的銷售類SCLi+1為輸出,得到一棵初始決策樹。

其中,CART決策樹的分支生成規(guī)則如下:從眾多的輸入屬性Ai中選擇GINI系數(shù)最小的一個或多個屬性,作為樹節(jié)點的分裂變量,把測試變量分到各個分枝中,重復(fù)該過程建立一棵充分大的分類樹,然后用剪枝算法剪枝,得到一系列嵌套的分類樹,最后用測試數(shù)據(jù)進(jìn)行測試,選擇最優(yōu)分類樹。其中GINI系數(shù)的計算公式如下:

A(j/h)是從訓(xùn)練樣本集Ai中隨機(jī)抽取一個樣本,當(dāng)某一測試變量值為h時屬于第J類的概率;nj(h)為訓(xùn)練樣本中測試變量值為h時屬于第J類的樣本個數(shù);n(h)為訓(xùn)練樣本中該測試變量值為h的樣本個數(shù);J為類別個數(shù)。

2.3.4冗余因素刪選

如果初始決策樹將所有的影響因素均篩選出來,則說明不存在冗余因素;此時,需要分析預(yù)測精度是否理想,如果不理想,則需要調(diào)整初始屬性集合,可以通過增減屬性,逐次進(jìn)行實驗,觀察預(yù)測精度是否提高。

表1 銷售影響因素

如果初始決策樹未將全部的影響因素篩選出來,說明原始屬性集合中存在冗余因素,此時需要進(jìn)一步觀察表1中對應(yīng)的各個角度,如果整個角度內(nèi)的所有因素均未被篩選出來,說明該角度內(nèi)所有因素對規(guī)則的形成均不起作用,刪除整個角度;如果所有角度內(nèi)均有屬性被篩選出來,說明各個角度均對規(guī)則形成起作用,此時各個角度內(nèi)未被篩選出來的屬性即為冗余屬性,繼而按照各個角度逐次去掉冗余屬性,并觀察每次改進(jìn)后的預(yù)測精度是否提高,直至刪除四大角度內(nèi)的所有冗余因素。然后觀察預(yù)測精度是否理想,如果不理想,則通過增加屬性或者增加其他角度,重復(fù)上述步驟進(jìn)行實驗,直至到達(dá)理想預(yù)測精度。

2.3.5最終決策樹的生成

使用所有的數(shù)據(jù)進(jìn)行訓(xùn)練,形成對樣本解釋度最高的決策樹。根據(jù)該決策樹進(jìn)行預(yù)測和相關(guān)分析。

3 實證分析

本項目中針對某知名絨線廠家的銷售情況進(jìn)行分析,運用系統(tǒng)聚類分析與CART決策樹算法相結(jié)合的銷售預(yù)測方法。該方法首先從絨線產(chǎn)品的人均銷售入手,通過聚類分析,將歷史記錄中的人均銷售額劃分成“可觀,一般,較差”3個層級;然后建立包括地域因素、經(jīng)濟(jì)因素、文化因素以及企業(yè)自身因素等一系列可能對銷售產(chǎn)生影響的屬性集合,CART決策樹將這些屬性和從聚類中得到的3大銷售區(qū)間聯(lián)系起來,得出屬性集合與人均銷售額之間的關(guān)聯(lián)規(guī)則,并用不同年份的銷售數(shù)據(jù)進(jìn)行測試,檢驗決策樹的預(yù)測精度;最后用所有的數(shù)據(jù)進(jìn)行訓(xùn)練和測試,得到一棵完全解釋樹(如圖4),對企業(yè)目前的市場銷售進(jìn)行分析解釋。

圖4 最終決策樹

對最終決策樹的分析如下:

(1)對企業(yè)銷售起重要影響的因素包括是否屬于江南區(qū)域(上海,江蘇,浙江,安徽,江西,湖南,湖北),網(wǎng)點到達(dá)率,人均網(wǎng)點數(shù),人均GDP等因素;

(2)運用這棵樹進(jìn)行人均銷售額的預(yù)測,一方面,當(dāng)獲取第N年的影響因素的所有數(shù)據(jù)后,將其做為這棵決策數(shù)的輸入數(shù)據(jù)集,即可得出新的規(guī)則,從而幫助預(yù)測出新的不同規(guī)則下對應(yīng)的銷售區(qū)間;

(3)這棵樹通過對影響因素與人均銷售額的關(guān)聯(lián)分析,挖掘出一系列的規(guī)則,這些規(guī)則對企業(yè)更好地了解當(dāng)前市場環(huán)境有重要的指導(dǎo)意義。

4 結(jié)論

影響因素的多變使得服裝銷售的預(yù)測越來越復(fù)雜。本文提出了一種基于聚類分析和決策樹算法的服裝銷售預(yù)測模型。聚類分析將銷售額進(jìn)行分類,決策樹找到了影響因素和銷售額之間的關(guān)聯(lián)規(guī)則,基于規(guī)則對未來的銷售進(jìn)行預(yù)測,構(gòu)成了本文的銷售預(yù)測模型。通過實證分析,該模型的預(yù)測準(zhǔn)確率與其他預(yù)測模型相比有了很大的提高。然而,在決策樹的分類中出現(xiàn)了一些錯誤,這些錯誤的產(chǎn)生是由于對服裝銷售影響因素的掌握不充分造成的??紤]到服裝銷售市場的復(fù)雜性,可以將決策樹算法與其他算法相結(jié)合,如遺傳算法,神經(jīng)網(wǎng)絡(luò)等智能算法,這些算法有待于進(jìn)一步的討論。

主要參考文獻(xiàn)

[1]Celia Frank,Ashish Garg,Amar Raheja,et al.ForecastingWomen’s Apparel Sales Using Mathematical Modeling[J].International Journal of Clothing Science and Technology,2003,15(2):107-125.

[2]萬艷敏,陳勝,戴淑嬌.基于時間序列和PERT的服裝銷售預(yù)測方法研究[J].絲綢,2006(11).

[3]喻琳艷.需求隨機(jī)型服裝產(chǎn)品的灰色預(yù)測模型[J].國際紡織導(dǎo)報,2006(8):78-80.

[4]薛美君,沈劍劍,楊以雄.服裝銷售定量預(yù)測方法新探[J].東華大學(xué)學(xué)報,2004,30(6):75-77.

[5]劉棟,宋國杰.面向多維時間序列的過程決策樹模型[J].計算機(jī)應(yīng)用,2011,31(5):1374-1377.

[6]汪海銳,李偉.基于關(guān)聯(lián)規(guī)則的決策樹算法[J].計算機(jī)工程,2011,37 (9):104-109.

[7]琚春華,肖亮.基于地域因素的連鎖商業(yè)分布式?jīng)Q策樹算法[J].系統(tǒng)工程理論與實踐,2011,31(6):1126-1133.

[8]劉映池,張毅.運用系統(tǒng)聚類法對高校學(xué)生進(jìn)行分類[J].教育與教學(xué)研究,2009,23(9):69-70.

[9]張琳,陳燕,李桃迎,牟向偉.決策樹分類算法研究[J].計算機(jī)工程,2011,37(13):66-70.

[10]陳輝林,夏道勛.基于CART決策樹數(shù)據(jù)挖掘算法的應(yīng)用研究[J].煤炭技術(shù),2011,30(10):164-166.

10.3969/j.issn.1673-0194.2015.09.031

F270.7

A

1673-0194(2015)09-0064-04

2015-01-29

猜你喜歡
決策樹銷售額聚類
金佰利2022財年第三季度凈銷售額為51億美元
2020年美國玩具總銷售額增至326億美元,上升16.7%
美泰公司今年一季度凈銷售額8.74億美元,同比增長47%
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
基于DBSACN聚類算法的XML文檔聚類
基于高斯混合聚類的陣列干涉SAR三維成像
基于決策樹的出租車乘客出行目的識別
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
阜新市| 武定县| 民县| 陆川县| 乐至县| 吉首市| 基隆市| 隆回县| 和田县| 孙吴县| 成都市| 满城县| 曲沃县| 清流县| 亳州市| 罗田县| 铜陵市| 杭锦旗| 桃园市| 申扎县| 安陆市| 安福县| 文水县| 察雅县| 广东省| 崇文区| 醴陵市| 襄汾县| 武功县| 邵东县| 马公市| 临沭县| 河北区| 武平县| 镇远县| 湖州市| 东莞市| 仁化县| 神农架林区| 越西县| 周口市|