王瑞 費(fèi)樹岷
基于數(shù)據(jù)挖掘的紡織企業(yè)成本預(yù)測
王瑞,費(fèi)樹岷
(東南大學(xué) 自動化,江蘇 南京 210096)
摘要:成本核算是企業(yè)成本控制的基礎(chǔ),其中成本預(yù)測是關(guān)鍵。在成本核算系統(tǒng)中,利用數(shù)據(jù)挖掘技術(shù),尋找與企業(yè)成本相關(guān)的數(shù)據(jù)之間的規(guī)律,預(yù)測企業(yè)成本,為企業(yè)管理者進(jìn)行有效地成本控制提供依據(jù),實(shí)現(xiàn)準(zhǔn)確的成本預(yù)測。該文提出了紡織企業(yè)原料成本的數(shù)據(jù)倉庫模型,分析了如何使用合理的數(shù)據(jù)挖掘算法實(shí)現(xiàn)原料成本的預(yù)測,最后以實(shí)例闡述了數(shù)據(jù)挖掘技術(shù)在紡織企業(yè)成本核算系統(tǒng)的應(yīng)用。
關(guān)鍵詞:成本預(yù)測;數(shù)據(jù)挖掘;紡織企業(yè);模型
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2014)05-0890-04
Cost Prediction Based on Data Mining Techniques in Textile Company
WANG Rui,F(xiàn)EI Shu-min
( School of Automation,Southeast University, Nanjing 210096, China)
Abstract: Cost Accounting which is the most basis step of a company doing cost control, while cost forecasting is the most important part. Now, we achieve these cost tasks better by using date mining techniques in a cost accounting system. This paper throws out a data warehouse model of material costs and a date mining algorithms to achieve material cost prediction. Finally, we expound these problems above with an example of a textile company.
Key words: cost prediction; data mining; textile company; model
隨著信息化的不斷發(fā)展,紡織企業(yè)也向著無紙化辦公的方向不斷發(fā)展。企業(yè)通過引進(jìn)購買相應(yīng)的財(cái)務(wù)軟件,幫助實(shí)現(xiàn)企業(yè)信息化,代替手工核算,然而這些軟件僅僅是從表面代替了人工的計(jì)算功能,并沒有實(shí)現(xiàn)成本預(yù)測的功能[1]。成本核算由人工手動計(jì)算向計(jì)算機(jī)計(jì)算的轉(zhuǎn)換,導(dǎo)致企業(yè)成本核算系統(tǒng)中存儲了大量的與成本相關(guān)的數(shù)據(jù)。如何從這些海量的數(shù)據(jù)中提取出有意義的信息,幫助企業(yè)管理者分析數(shù)據(jù)并以合理的架構(gòu)模型實(shí)現(xiàn)成本預(yù)測,控制成本的發(fā)生成為如今企業(yè)使用成本核算系統(tǒng)最為關(guān)注的問題。文中主要通過數(shù)據(jù)挖掘的神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)對紡織企業(yè)原料成本的預(yù)測。
1 數(shù)據(jù)挖掘的方法
數(shù)據(jù)挖掘,即從現(xiàn)實(shí)世界大量含噪聲的數(shù)據(jù)中通過算法發(fā)現(xiàn)有意義的知識的過程,是數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge-Discovery in Databases)的一個基本步驟,在整個知識發(fā)現(xiàn)過程中起著至關(guān)重要的作用。KDD的過程如圖1所示。
圖1
1.1數(shù)據(jù)清理與集成
現(xiàn)實(shí)的數(shù)據(jù)庫中的數(shù)據(jù)必然是不完整的、含噪聲的,數(shù)據(jù)填入數(shù)據(jù)庫后通過填寫遺漏值、平滑噪聲來清理數(shù)據(jù),集成不同數(shù)據(jù)庫中概念、屬性一致而命名不同所導(dǎo)致的數(shù)據(jù)冗余[2]。
1.2數(shù)據(jù)選擇與轉(zhuǎn)換
選擇經(jīng)過數(shù)據(jù)清理和集成后與挖掘任務(wù)相關(guān)的數(shù)據(jù),通過數(shù)據(jù)方塊集、維歸約、數(shù)據(jù)壓縮、數(shù)值壓縮和離散化和概念分層產(chǎn)生的方法對數(shù)據(jù)進(jìn)行歸約處理,得到大型原始數(shù)據(jù)集的歸約表示。
1.3數(shù)據(jù)挖掘階段
數(shù)據(jù)經(jīng)過一系列的預(yù)處理操作后,我們使用這些數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘:
首先,確定挖掘的任務(wù)以及用戶感興趣的知識,比如成本各元素之間的相關(guān)分析,成本的短期或長期預(yù)測等等。
其次,確定數(shù)據(jù)挖掘的算法。選擇合適的算法完成一個挖掘任務(wù)需要從以下幾個方面考慮:一是挖掘任務(wù)的類型(預(yù)測或分析),二是數(shù)據(jù)集的大小。
整個數(shù)據(jù)挖掘的過程就是在發(fā)現(xiàn)與評估中尋找有效的算法,發(fā)現(xiàn)有趣模式,完善與提高挖掘系統(tǒng)效率的過程。
2 數(shù)據(jù)挖掘技術(shù)在紡織企業(yè)的應(yīng)用
2.1 成本核算系統(tǒng)分析
紡織企業(yè)的成本一般由生產(chǎn)成本與非生產(chǎn)成本組成。生產(chǎn)成本部分主要包括:原料、能源、薪資和固定資產(chǎn)折舊等費(fèi)用;非生產(chǎn)成本部分由銷售費(fèi)用、財(cái)務(wù)費(fèi)用和管理費(fèi)用組成。薪資(僅與出勤相關(guān))、固定資產(chǎn)折舊、財(cái)務(wù)費(fèi)用和管理費(fèi)用屬于固定成本,這部分成本不隨產(chǎn)量的變化而變化,因而無需對其進(jìn)行成本預(yù)測;其它的成本因素都屬于變動成本,其中原料成本為企業(yè)成本的關(guān)鍵,是企業(yè)生產(chǎn)成本的基礎(chǔ),也是本文進(jìn)行成本預(yù)測的對象。
2.2數(shù)據(jù)倉庫模型研究與建立
數(shù)據(jù)倉庫是一個面向主題的、集成的、時(shí)變的、非易失的數(shù)據(jù)集合,是基于多維數(shù)據(jù)模型實(shí)現(xiàn)的。面向原料成本預(yù)測主題的數(shù)據(jù)模型,如圖2所示。該文把原料成本作為事實(shí)表,并將其與各個數(shù)據(jù)維緊密相連,構(gòu)成了原料成本的結(jié)構(gòu)信息,包括:日期、分廠、原料、原料采購成本、原料耗用成本等。進(jìn)行實(shí)際成本統(tǒng)計(jì)時(shí),若以部門、車間為統(tǒng)計(jì)單位,則需要引入維的概念分層,假設(shè)分廠維由屬性車間、部門和分廠定義,這些屬性形成一個層次,即“車間<部門<分廠”,依據(jù)這樣的概念分層,將低層的概念(車間,部門)映射到更一般的高層概念(分廠)。
圖2
將此原料成本預(yù)測數(shù)據(jù)模型看作是一個3-D的數(shù)據(jù)方,給出形成維日期、原料和分廠的數(shù)據(jù)方的方體格,如圖3所示。將對事實(shí)表的查詢與維表的查詢結(jié)合起來,維表的屬性包含在數(shù)據(jù)庫查詢語句(SQL語句)的group by子句中,就可以檢索大量的成本信息。此3-D的數(shù)據(jù)方計(jì)算的方體格總數(shù)為23=8個,可能存在的分組為{(日期,原料,分廠),(日期,分廠),(日期,原料),(分廠,原料),(日期),(分廠),(原料),()},其中()是指按空集合分組(即不對任何維分組)。
圖3
2.3 數(shù)據(jù)倉庫到數(shù)據(jù)挖掘
數(shù)據(jù)倉庫是一個過程、一個環(huán)境,它提供了用戶決策所需的歷史和當(dāng)前數(shù)據(jù),為數(shù)據(jù)挖掘工具的運(yùn)行提供了高質(zhì)量、有價(jià)值的數(shù)據(jù)源 [3]。文中所建立的數(shù)據(jù)倉庫不再是存放日常成本的各個細(xì)節(jié),而是各個部門的原料成本的匯總數(shù)據(jù),有助于提高數(shù)據(jù)挖掘的效率。
3 挖掘算法分析與實(shí)例
成本預(yù)測是基于對歷史數(shù)據(jù)的研究,實(shí)現(xiàn)對未來成本趨勢的預(yù)測。神經(jīng)網(wǎng)絡(luò)算法、多元線性回歸算法、時(shí)序算法、決策樹算法等等都可以用來實(shí)現(xiàn)對成本的預(yù)測??紤]到成本預(yù)測是一個非線性的數(shù)據(jù)預(yù)測,該文選用徑向基函數(shù)(Radical Basis Function,RBF)神經(jīng)網(wǎng)絡(luò)算法來實(shí)現(xiàn)對原料成本的預(yù)測。相比于誤差后向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò),其具有以下優(yōu)點(diǎn):局部收斂性更好,RBF神經(jīng)網(wǎng)絡(luò)使用高斯函數(shù)作為激活函數(shù),而BP神經(jīng)使用全局性函數(shù)sigmoid()作為激活函數(shù);學(xué)習(xí)速度更快,RBF神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)加快了學(xué)習(xí)速度且避免了局部極小問題,而BP神經(jīng)網(wǎng)絡(luò)的輸入在很大范圍內(nèi)對每個節(jié)點(diǎn)輸出都有影響;隱含層結(jié)點(diǎn)易確定,RBF神經(jīng)網(wǎng)絡(luò)可通過算法確定隱含層結(jié)點(diǎn)數(shù),而BP神經(jīng)網(wǎng)絡(luò)隱含層結(jié)點(diǎn)的確定更多依賴于經(jīng)驗(yàn) [4]。RBF神經(jīng)網(wǎng)絡(luò)是一個単隱含層的三層前饋網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu),如圖4所示。文中選取原料采購量和庫存量作為網(wǎng)絡(luò)的輸入單元,以原料的消耗量作為網(wǎng)絡(luò)的輸出單元,根據(jù)文[5]中提出的算法,確定隱含層的結(jié)點(diǎn)數(shù)為15個。
圖4
RBF神經(jīng)網(wǎng)絡(luò)的輸入層至隱含層是非線性的變換,而隱含層至輸出層是依據(jù)式(1)進(jìn)行線性疊加:
其中{
Ci為徑向基函數(shù)的中心,與輸入樣本x維數(shù)相同,σi是徑向基函數(shù)的寬度。當(dāng)一個輸入樣本遠(yuǎn)離基函數(shù)中心時(shí),Ri(x)會迅速衰減到零,那么此隱含元的輸出也近似為零。
3.1學(xué)習(xí)訓(xùn)練過程
網(wǎng)絡(luò)的訓(xùn)練分兩個階段:首先,進(jìn)行無導(dǎo)師學(xué)習(xí),根據(jù)網(wǎng)絡(luò)的輸入得出隱含層和輸入層之間的權(quán)值,使用k-均值法:
求出k個子集中的各類樣本u與其所屬樣本ci間的誤差平方和,再對所有k類求和。樣本分類的不同Je的值也不同,當(dāng)Je的值最小時(shí),得到最佳的分類。其次,進(jìn)行有導(dǎo)師學(xué)習(xí),確定網(wǎng)絡(luò)的輸出層和隱含層之間的權(quán)值。給出一組樣本輸入及理想輸出,利用無導(dǎo)師學(xué)習(xí)得到的輸出層與隱含層的權(quán)值,訓(xùn)練推出隱含層與輸出層的權(quán)值矩陣[6]。
3.2 算法實(shí)例
讀取某紡織企業(yè)數(shù)據(jù)倉庫中的相關(guān)數(shù)據(jù),考慮到棉花不同于其他原料(如:滌綸,黏膠等),具有特殊的生命周期性,該文以棉花為研究對象,每10天進(jìn)行一次核算,得到表1所示 的數(shù)據(jù)。
表1
[日期\&庫存(t)\&采購(t)\&消耗(t)\&2011.04.10\&1053.83\&127.89\&197.7\&2012.9.20\&1262.42\&466.69\&216.6\&2012.9.30\&1115.26\&0\&239.26\&…\&…\&…\&…\&2013.1.20\&2501.66\&83.81\&223.68\&]
設(shè)計(jì)一個RBF神經(jīng)網(wǎng)絡(luò),庫存和采購作為網(wǎng)絡(luò)的輸入,消耗為網(wǎng)絡(luò)的輸出,選取50組樣本數(shù)據(jù)作為訓(xùn)練樣本,另外15組樣本數(shù)據(jù)作為測試樣本,以高斯函數(shù)為徑向基函數(shù)建立RBF神經(jīng)網(wǎng)絡(luò)模型。經(jīng)過網(wǎng)絡(luò)訓(xùn)練得到如表2所示的預(yù)測結(jié)果。
表2
[庫存(t)\&采購(t)\&實(shí)際(t)\&RBF預(yù)測\&多元回歸預(yù)測\&1053.83 \&127.89\&197.7
\&192.82\&203.69\&1262.42 \&466.69\&216.6\&215.23\&220.60\&1115.26 \&0\&239.26\&238.2\&200.12\&1049.34 \&168.13\&221.11\&219.74\&205.12\&1077.50 \&242.96\&230.97\&229.55\&208.50\&1063.02 \&212.10\&259.98\&258.29\&207.04\&…\&…\&…\&…\&…\&2501.66 \&83.81\&223.68\&221.48\&230.99\&]
3.3 結(jié)論
依據(jù)表2 的結(jié)果可以發(fā)現(xiàn),RBF神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果要比多元回歸算法的預(yù)測結(jié)果誤差更小,同時(shí)也證實(shí)了通過原料的庫存量與采購量來預(yù)測原料消耗的可行性,可以幫助企業(yè)通過本期的原料庫存與采購,結(jié)合原料的使用單價(jià),預(yù)測下一期原料的耗用價(jià)格。
4 結(jié)束語
文中建立的面向原料成本主題的數(shù)據(jù)倉庫模型,在實(shí)際應(yīng)用過程中,維表的信息還有待繼續(xù)研究。在已建立的數(shù)據(jù)倉庫的基礎(chǔ)上,選擇RBF神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法,通過學(xué)習(xí)訓(xùn)練,確定輸入層、隱含層及輸出層各結(jié)點(diǎn)之間的權(quán)值,實(shí)現(xiàn)對原料成本的預(yù)測。結(jié)合本文提出的數(shù)據(jù)挖掘模型與算法,可以幫助管理者實(shí)現(xiàn)原料成本的預(yù)測,減少工作人員對于經(jīng)驗(yàn)的依賴性。數(shù)據(jù)挖掘技術(shù)必將在紡織企業(yè)成本核算系統(tǒng)中獲得更大地應(yīng)用。
參考文獻(xiàn):
[1] 翟坤.基于數(shù)據(jù)挖掘的成本管理方法研究[D].大連:大連理工大學(xué),2011.
[2] 韓家煒.Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007.
[3] 陳文偉.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社,2011.
[4] 段路平.基于RBF神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘研究[D].哈爾濱:哈爾濱理工大學(xué),2007.
[5] 吳成茂. 確定RBF神經(jīng)網(wǎng)絡(luò)隱層節(jié)點(diǎn)數(shù)的最大矩陣元法[J].計(jì)算機(jī)工程與應(yīng)用,2004.
[6] 侯媛彬,杜京義,汪梅.神經(jīng)網(wǎng)絡(luò)[M].西安:西安電子科技大學(xué)出版社,2007.