耿鵬云+安磊+王鑫
摘 要: 針對(duì)目前輸電工程造價(jià)技術(shù)指標(biāo)過(guò)多,影響因素比較復(fù)雜,導(dǎo)致輸電工程造價(jià)估算困難,設(shè)計(jì)概算審查難以達(dá)到理想效果的問(wèn)題。建立基于數(shù)據(jù)挖掘技術(shù)的輸變電工程造價(jià)預(yù)測(cè)模型,其采用數(shù)據(jù)挖掘技術(shù)來(lái)判斷不同工程技術(shù)指標(biāo)對(duì)工程造價(jià)所造成的影響級(jí)別,同時(shí)能夠自動(dòng)查詢(xún)錯(cuò)誤、異?;蛘卟缓侠淼臄?shù)據(jù),降低了人為因素的影響,并通過(guò)支持向量機(jī)來(lái)對(duì)樣本數(shù)據(jù)進(jìn)行樣本學(xué)習(xí),從而建立輸變電工程造價(jià)預(yù)測(cè)模型。測(cè)試結(jié)果表明,該模型預(yù)測(cè)結(jié)果相對(duì)誤差低,其能夠準(zhǔn)確預(yù)測(cè)輸變電工程的造價(jià),且對(duì)于造價(jià)預(yù)算具有一定的參考價(jià)值。
關(guān)鍵詞: 數(shù)據(jù)挖掘; 輸電工程; 造價(jià)預(yù)測(cè)模型; 支持向量機(jī); 樣本學(xué)習(xí); 概算審查
中圖分類(lèi)號(hào): TN913?34; TP393 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2018)04?0157?04
Abstract: As there are too many cost technical indicators and complicated influencing factors in the current power transmission project, it is difficult to evaluate the cost of power transmission project and achieve the desired effect of budget review. Therefore, a cost forecast model for power transmission and transformation project based on data mining technology is established. The data mining technology is used in the model to judge the impact level of different engineering technical indicators on project cost, with which the wrong, abnormal or unreasonable data can be automatically queried, the impact of human factors can be reduced, and the sample learning of the sample data can be performed by means of support vector machine. The test results show that the forecasting results of the model have low relative error, and the model can accurately predict the cost of power transmission and transformation project, which have a certain reference value for other cost budgets.
Keywords: data mining; power transmission project; cost forecast model; support vector machine; sample learning; budget review
由于通過(guò)輸變電工程概算定額來(lái)建立造價(jià)指標(biāo)方案有限,同時(shí)實(shí)際執(zhí)行中又會(huì)因技術(shù)和工藝的更新?lián)Q代而不斷發(fā)展,設(shè)計(jì)概算審查難以達(dá)到理想效果[1?4]。因此,建立一個(gè)科學(xué)有效的輸變電工程造價(jià)預(yù)測(cè)模型來(lái)對(duì)輸變電工程的造價(jià)進(jìn)行預(yù)測(cè)非常重要。
本文建立了基于數(shù)據(jù)挖掘技術(shù)的輸變電工程造價(jià)預(yù)測(cè)模型,采用數(shù)據(jù)挖掘技術(shù)來(lái)判斷不同工程技術(shù)指標(biāo)對(duì)工程造價(jià)所造成的影響級(jí)別。同時(shí)能夠自動(dòng)查詢(xún)錯(cuò)誤、異?;蛘卟缓侠淼臄?shù)據(jù),降低了人為因素的影響。通過(guò)支持向量機(jī)來(lái)對(duì)樣本數(shù)據(jù)進(jìn)行樣本學(xué)習(xí),從而建立輸變電工程造價(jià)預(yù)測(cè)模型。
1 輸電線工程造價(jià)技術(shù)指標(biāo)體系建立
通過(guò)主成分以及偏相關(guān)的分析方法,并利用SPSS軟件對(duì)某輸電線工程的歷史數(shù)據(jù)進(jìn)行分析[5],尋找出對(duì)輸變電工程造價(jià)影響較大的技術(shù)指標(biāo),從而構(gòu)建出其預(yù)測(cè)模型的技術(shù)指標(biāo)。
1.1 主成分分析法
主成分分析法指在保證低數(shù)據(jù)損失情況下,將高維變量空間維數(shù)降低的一種方法。首先,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理以保證數(shù)據(jù)挖掘的執(zhí)行及結(jié)果的正確性??上韧ㄟ^(guò)屬性選擇方法對(duì)數(shù)據(jù)集進(jìn)行壓縮,將電力部門(mén)所收集到的原始數(shù)據(jù)中屬性與數(shù)據(jù)挖掘任務(wù)無(wú)關(guān)的數(shù)據(jù)剔除掉,并通過(guò)屬性轉(zhuǎn)換和量化處理等進(jìn)一步壓縮數(shù)據(jù)。處理后得出最后的數(shù)據(jù)集有27個(gè)屬性,144條記錄;其次是對(duì)數(shù)據(jù)做標(biāo)準(zhǔn)化處理,這里主要采用均值標(biāo)準(zhǔn)方差法,即先求出各個(gè)指標(biāo)的標(biāo)準(zhǔn)差,然后將標(biāo)準(zhǔn)差作為新的樣本數(shù)據(jù),如式(1)~式(3)所示:
式中:[Xij]表示數(shù)據(jù)中第i個(gè)工程所相對(duì)的第j項(xiàng)屬性的值;[Zij]表示第i個(gè)工程所相對(duì)的第j項(xiàng)屬性的標(biāo)準(zhǔn)值。經(jīng)過(guò)標(biāo)準(zhǔn)化處理后得到新的數(shù)據(jù)集維數(shù)為27×144。
利用SPSSI軟件對(duì)數(shù)據(jù)集進(jìn)行主成分分析,得出12個(gè)能夠代表原始數(shù)據(jù)結(jié)構(gòu)的屬性,包括基材、桿塔數(shù)、桿塔鋼材、混凝土、土石方、線路長(zhǎng)度、鐵塔數(shù)、單回長(zhǎng)度、接地鋼材、汽車(chē)、人力運(yùn)輸距離以及導(dǎo)線數(shù)等。
1.2 偏相關(guān)分析法
偏相關(guān)分析是在除去其他變量的影響后來(lái)探究?jī)蓚€(gè)變量之間的關(guān)系,通過(guò)SPSS軟件對(duì)以上屬性做偏相關(guān)分析,以0.4作為偏相關(guān)系數(shù)的界限,篩選出9個(gè)屬性,如表1所示。將篩選出的屬性作為輸電線工程造價(jià)預(yù)測(cè)的基本屬性,得到一個(gè)9×144的數(shù)據(jù)集。
2 基于支持向量機(jī)的造價(jià)預(yù)測(cè)模型endprint
2.1 支持向量機(jī)理論
支持向量機(jī)是Vapnik等人提出的一種機(jī)器學(xué)習(xí)方法,其在小樣本學(xué)習(xí)、非線性以及高維模式識(shí)別上具有較大的優(yōu)勢(shì),適用于數(shù)據(jù)挖掘[6?8]。支持向量機(jī)的主要工作原理為升高維數(shù)及線性化處理,假設(shè)本訓(xùn)練集D:
2.2 輸變電造價(jià)模型建立
在所有相似的144個(gè)工程中選取其中20個(gè)工程的數(shù)據(jù)作為樣本來(lái)進(jìn)行訓(xùn)練,并選取8個(gè)指標(biāo)作為支持向量機(jī)的輸入,輸出為單位靜態(tài)投資(萬(wàn)元/km),如表2所示。另外,選取5個(gè)工程的數(shù)據(jù)作為測(cè)試數(shù)據(jù)以檢測(cè)本文樣本數(shù)據(jù)訓(xùn)練得到模型的準(zhǔn)確性。
在Matlab軟件中打開(kāi)支持向量機(jī)軟件工具包,編制基于支持向量機(jī)的輸變電工程預(yù)測(cè)程序,并將訓(xùn)練樣本數(shù)據(jù)輸入到支持向量機(jī)中進(jìn)行訓(xùn)練學(xué)習(xí)。同時(shí)將測(cè)試樣本數(shù)據(jù)作為輸入進(jìn)行測(cè)試得到預(yù)測(cè)結(jié)果,如表3所示[10]。
由表3可以看出,前4個(gè)工程造價(jià)預(yù)期結(jié)果誤差較小,均在3%以?xún)?nèi)。而第5個(gè)工程由于土方石量較大,且汽車(chē)與人力運(yùn)輸距離遠(yuǎn),造成誤差大。因此,該預(yù)測(cè)模型基本滿(mǎn)足輸變電工程預(yù)測(cè)要求。
為了對(duì)本模型的合理性進(jìn)行驗(yàn)證,本文在相同的數(shù)據(jù)樣本以及測(cè)試樣本下采用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行仿真。上述8個(gè)指標(biāo)作為輸入神經(jīng)元,輸出為單位長(zhǎng)度輸電線投資金額。在Matlab軟件中采用基于BP算法的神經(jīng)網(wǎng)絡(luò)對(duì)樣本數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí),樣本誤差分析輸出結(jié)果如圖1所示。從圖1可以看出,樣本數(shù)據(jù)經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練后,輸出值與實(shí)際值較為接近。緊接著對(duì)測(cè)試樣本進(jìn)行測(cè)試,輸出結(jié)果見(jiàn)表4。從表4中可看出,采用人工神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型所得到的預(yù)測(cè)值與實(shí)際值相對(duì)誤差較大,除了第三個(gè)工程預(yù)測(cè)值與實(shí)際值相對(duì)誤差在4%以?xún)?nèi),其他工程均高達(dá)10%以上,相對(duì)誤差最高達(dá)18.34%。
由此可得,本文采用基于支持向量機(jī)的預(yù)測(cè)模型預(yù)測(cè)相對(duì)誤差較低,其能夠準(zhǔn)確預(yù)測(cè)輸變電工程的造價(jià),且對(duì)輸變電工程的造價(jià)預(yù)算有一定的參考價(jià)值。
3 結(jié) 語(yǔ)
針對(duì)目前輸電工程造價(jià)技術(shù)指標(biāo)過(guò)多,影響因素比較復(fù)雜,導(dǎo)致輸電工程造價(jià)估算困難,設(shè)計(jì)概算審查難以達(dá)到理想效果的問(wèn)題。本文建立基于數(shù)據(jù)挖掘技術(shù)的輸變電工程造價(jià)預(yù)測(cè)模型,其采用數(shù)據(jù)挖掘技術(shù)來(lái)判斷不同工程技術(shù)指標(biāo)對(duì)工程造價(jià)所造成的影響級(jí)別,同時(shí)能夠自動(dòng)查詢(xún)錯(cuò)誤、異常或者不合理的數(shù)據(jù),降低了人為因素的影響。并通過(guò)支持向量機(jī)來(lái)對(duì)樣本數(shù)據(jù)進(jìn)行樣本學(xué)習(xí),從而建立輸變電工程造價(jià)預(yù)測(cè)模型。測(cè)試結(jié)果表明,該模型預(yù)測(cè)結(jié)果相對(duì)誤差低,其能夠準(zhǔn)確預(yù)測(cè)輸變電工程的造價(jià),對(duì)輸變電工程的造價(jià)預(yù)算有一定的參考價(jià)值。
參考文獻(xiàn)
[1] 楊永明,王燕,范秀君,等.基于灰關(guān)聯(lián)?神經(jīng)網(wǎng)絡(luò)的電力工程造價(jià)估算[J].重慶大學(xué)學(xué)報(bào),2013,36(11):15?20.
YANG Yongming, WANG Yan, FAN Xiujun, et al. Cost estimation of power engineering based on grey relational neural network [J]. Journal of Chongqing University, 2013, 36(11): 15?20.
[2] 張吉?jiǎng)?,梁?基于改進(jìn)BP模型的我國(guó)社會(huì)物流總成本預(yù)測(cè)[J].統(tǒng)計(jì)與決策,2014(6):61?63.
ZHANG Jigang, LIANG Na. The total cost prediction of China′s social logistics based on the improved BP model [J]. Statistics & decision, 2014(6): 61?63.
[3] 周成杰.基于BP神經(jīng)網(wǎng)絡(luò)的工程投資估算方法探討[J].鐵路工程造價(jià)管理,2015,30(5):6?9.
ZHOU Chengjie. Discussion of project investment estimation method based on BP neural network [J]. Railway engineering cost management, 2015, 30(5): 6?9.
[4] 郝勝蘭.基于模糊神經(jīng)網(wǎng)絡(luò)的房產(chǎn)軟件項(xiàng)目成本估算研究[D].大連:大連海事大學(xué),2012.
HAO Shenglan. Research on the cost estimation of real estate software project based on fuzzy neural network [D]. Dalian: Dalian Maritime University, 2012.
[5] 王蘇斌,鄭海濤,邵謙謙,等.SPSS統(tǒng)計(jì)分析[M].北京:機(jī)械工業(yè)出版社,2003.
WANG Subin, ZHENG Haitao, SHAO Qianqian, et al. SPSS statistical analysis [M]. Beijing: China Machine Press, 2003.
[6] 郭濤,馬林東,葛智平.基于EMD和神經(jīng)網(wǎng)絡(luò)的短期電力負(fù)荷預(yù)測(cè)[J].電子設(shè)計(jì)工程,2013, 21(21):105?106.
GUO Tao, MA Lindong, GE Zhiping. Forecasting of short?term power load based on EMD and neural network [J]. Electronic design engineering, 2013, 21(21): 105?106.
[7] 馬立新,鄭曉棟,尹晶晶.基于粗糙特征量的短期電力負(fù)荷預(yù)測(cè)[J].電子科技,2016,29(1):40?43.
MA Lixin, ZHENG Xiaodong, YIN Jingjing. Short?term load forecasting based on rough characteristic?component algorithm [J]. Electronic science and technology, 2016, 29(1): 40?43.
[8] 杜軍崗,魏汝祥,劉寶平.基于PSO優(yōu)化LS?SVM的小樣本非線性協(xié)整檢驗(yàn)與建模研究[J].系統(tǒng)工程理論與實(shí)踐,2014,34(9):2322?2331.
DU Jungang, WEI Ruxiang, LIU Baoping. Nonlinear cointegration test and error correction modeling based on LS?SVM optimized by PSO in small sample [J]. Systems engineering?theory & practice, 2014, 34(9): 2322?2331.
[9] ACHIMUGU P, SELAMAT A. A hybridized approach for prioritizing software requirements based on K?means and evolutionary algorithms [J]. Computational intelligence applications in modeling and control, 2015, 575: 73?79.
[10] CHEN S, XU Z, TANG Y. A hybrid clustering algorithm based on fuzzy C?means and improved particle swarm optimization [J]. Arabian journal for science and engineering, 2014, 39(12): 8875?8887.endprint