李謨興,何永秀,柳 洋,陳威君,李存斌
(華北電力大學,北京 102206)
配電網工程是國民經濟和社會發(fā)展的重要公共基礎設施,具有建設規(guī)模大、點多、面廣、設備種類繁多等特點[1-2],加之配電網工程階段多、控制對象廣,建設過程中產生海量的電力數據,且數據變化快,關系復雜,導致配電網工程項目造價管控難度大,造價預測難度大大增加[3-4]。因此,分析和篩選出配電網工程造價的重要影響因素,尋找合適的預測方法進行造價預測,對于推動配電網造價精益化管控向更優(yōu)、更強、更精、更準的方向發(fā)展具有重要意義。
文獻[5]利用人工蜂群算法對支持向量機參數進行了參數優(yōu)化,但沒有在造價大數據中篩選出重要造價影響因素;文獻[6]結合建筑工程項目分析了模糊綜合評價方法在土建工程造價預測中具體應用,但沒有建立合理的預測模型;文獻[7]根據道路施工需求,基于最小二乘支持向量機算法提出一種新的道路工程施工階段造價預測方法,但同樣缺少在造價大數據中篩選出重要造價影響因素;文獻[8]選取支持向量機算法構建住宅工程造價預測模型,但沒有對模型的關鍵參數進行尋優(yōu);文獻[9-14]提出了利用人工神經網絡、遺傳算法等構建輸電線路工程造價預測模型,但同樣缺少對重要造價影響因素的篩選;其他學者提出的造價預測方法中,也同樣存在預測模型和方法待完善等問題[15-20]。上述研究結果表明,多數文獻作者所提出的工程造價分析方法和預測模型不夠完善,且缺乏對重要造價影響因素的提取,在大數據技術和人工智能學習算法快速發(fā)展的背景下,其預測方法和模型還有待完善。
針對配電網工程造價預測精度不高的問題,提出一種基于大數據與機器學習算法的配電網電纜線路工程造價組合預測模型,該方法首先基于灰色關聯(lián)分析法從造價大數據中選取重要造價影響因素,其次基于交叉驗證與網格搜索算法對最小二乘向量機算法進行關鍵參數尋優(yōu),最后利用尋優(yōu)之后的最小二乘支持向量機算法進行造價預測,將預測結果與造價實際值對比可知,本文提出的預測方法與實際工程造價費用的偏差較小,能有效提升配電網電纜線路工程造價的預測精度,有利于實現(xiàn)配電網造價精益化管控。
配電網工程項目數量龐大、種類各異,工程建設過程中產生海量的造價數據,從這些數據中選取重要工程造價影響因子有利于提高工程造價估算的準確性。根據數據資料統(tǒng)計,初步確定配電網電纜線路工程相關造價影響因素,包括電壓等級、建設性質、電纜材質、電纜芯截面積、電纜敷設總長度、電纜綜合價格、電纜終端頭數量、電纜中間接頭數量、人力運距總量、汽車運距總量、電纜橋架數量、基礎鋼筋數量、電纜溝敷設長度、頂管敷設長度、排管敷設長度、地形條件、地質類型、土石方總量和建設場地征用及清理費等19 個造價影響因素。電壓等級越高、線路越長,其對應的技術水平和施工要求越高,實際造價值也越大;鋁質電纜造價水平低于銅質電纜;電纜芯截面積越大,其造價成本越高;電纜敷設長度與電纜綜合價格和造價水平成正相關關系;電纜終端頭數量、電纜中間接頭數量、電纜橋架數量和基礎鋼筋數量越多,實際造價值越大;人力運距、汽車運距和土石方的總量也會影響造價水平高低;電纜溝敷設長度、頂管敷設長度和排管敷設長度會影響實際工程中人工、材料和機械的成本,進而影響工程造價成本;不同地形的工程造價成本不同(如工程施工途經山地、平原、高山、丘陵等不同地形),不同的地質條件(如工程施工途經凍土、普通土、堅土、松砂石等不同地質),造成線路施工中人材機等費用不同,造價水平也會受到影響;工程實際造價值也會受到建設場地征用及清理費的影響,線路施工補償等費用越高,電纜線路工程造價水平就越高。
灰色關聯(lián)分析(Grey Relational Analysis,GRA)可以計算不同的造價影響因素和工程實際造價值之間的關聯(lián)系數,來反映二者的關聯(lián)程度,通常用于分析各個影響因素對結果的影響程度,通過灰關聯(lián)分析篩選出最主要的造價影響因素,其分析如下。
1)確定比較序列和參考序列。
比較序列和參考序列如式(1)所示。
式中:Xi為比較序列,在本文中為第i個配電網電纜線路工程中的造價影響因素;Xi(j)為第i個配電網電纜線路工程中第j個造價影響因素;Yi為參考序列,在本文中為第i個配電網電纜線路工程實際造價值;Yi(j)為第i個配電網電纜線路工程中第j個項目的實際造價值;m為配電網電纜線路工程總數;n為造價影響因素總數。
2)序列無量綱化處理。
由于序列中不同影響因素量綱差異較大,無法準確比較,因此,在進行造價影響因素的灰色關聯(lián)分析時,須進行無量綱化處理,如式(2)所示。
式中:X′i(j)為無量綱化之后的比較序列的值;Y′i(j)為無量綱化之后的參考序列的值。
3)計算參考序列與比較序列的差值。
計算參考序列與比較序列的差值如式(3)所示。
式中:k為結構風險系數;Δij(k)為參考序列與比較序列的差值,i=1,2,…,m,j=1,2,…,n;G為兩序列極差最大值;H為兩序列極差最小值。
4)計算灰色關聯(lián)系數?;疑P聯(lián)系數為
式中:εij為灰色關聯(lián)系數;δ為分辨系數,本文取0.5。
5)計算灰色關聯(lián)度。
灰色關聯(lián)度為
最小二乘支持向量機(Least Squares Support Vector Machine,LSSVM)是對標準支持向量機的一種重要改進,其通過將支持向量機中的不等式約束改為等式約束,避免了求解復雜的二次規(guī)劃問題,在計算過程中能加快預測模型的訓練速度和提高預測精度,具體實現(xiàn)過程如下。
首先在高維特征空間中,將變量(xi,yi),通過非線性映射函數ζ(x)進行轉換,其中xi為第i個配電網電纜線路工程的造價影響因素,即模型的輸入向量,yi為第i個配電網電纜線路工程實際造價值,即模型的輸出向量;建立線性回歸函數為
式中:ζ(x)為非線性映射函數;λ為權值向量;w為偏置項。
其次根據結構風險最小化原則,選擇損失函數為誤差的二次項,LSSVM問題可表示為:
式中:β和b為算法參數;C為懲罰因子;ei為第i個樣本預測值與真實值間的誤差。
然后對目標函數建立拉格朗日等式如式(9)所示。
式中:θ為拉格朗日乘子,θ∈R。
最后對LSSVM 函數中的各變量求偏導,從而得到配電網電纜線路工程造價LSSVM 預測函數如式(10)所示。
式中:h(x)為配電網電纜線路工程造價LSSVM 預測函數;K(x,xi)為核函數;φ為徑向基核函數參數;x為工程造價影響因素。
2.3.1 交叉驗證
交叉驗證(Cross Validation,CV)是一種驗證分類器性能的統(tǒng)計分析方法。本文運用s折十字交叉驗證法(s-fold Cross Validation)進行參數優(yōu)化,下文將s折十字交叉驗證法簡寫為s-fold-CV,其基本原理是將配電網電纜線路工程造價數據先均勻分割成s份,選其中s-1 份為訓練數據去建立模型,留下最后一份數據做測試,可得到一個分類準確率。重復上述步驟可得到s個模型,依次將s份不同的測試數據輸入模型可得到s個分類準確率,將s個分類準確率取平均數作為最終的分類準確率。
2.3.2 網格搜索算法
網格搜索可以在特定的空間范圍內將最小二乘支持向量機模型中的懲罰因子C和核函數寬度g構成的參數空間劃分為若干長短相同的網格,網格中每個點都代表一對參數,依次遍歷網格中的每一個點并計算其對應模型的均方誤差值,最后通過對比找出最優(yōu)參數組合。
本文運用網格搜索和交叉驗證算法進行最小二乘支持向量機模型自學習參數尋優(yōu),在特定的網格范圍內使(C,g)遍歷所有取值,并用s-fold-CV 求每組參數對應的分類準確率,將最高數值作為(C,g)取值,最終獲得網格中全局最優(yōu)解。具體步驟如下:
1)網格搜索參數組取值。對于初始搜索區(qū)間(a,b),取網格點為參數對[C,g],其中C=ea,g=eb。
2)利用s-fold 劃分數據集。將配電網電纜線路工程造價數據訓練集等分成s個子集,每次以任意一個子集作為測試數據,其余s-1份作為訓練數據。
3)確定最優(yōu)參數組。遍歷網格搜索得到的所有參數組,運用s-fold-CV 計算訓練模型的均方誤差并對比,取使均方誤差最小的參數組取值為最優(yōu)參數并更新最小二乘支持向量機預測模型。
本研究將GRA算法優(yōu)化選擇重要造價影響因素的能力、CV和網格搜索算法對LSSVM中參數C和g的全局尋優(yōu)能力、LSSVM解決小樣本及非線性等問題的優(yōu)勢結合在一起,構建GRA-CV-LSSVM配電網電纜線路工程造價預測模型,構建流程如下圖1所示。
圖1 基于GRA-CV-LSSVM 的配電網電纜線路工程造價組合預測模型
為了驗證GRA-CV-LSSVM 模型的預測效果,本文運用均方根誤差(Root Mean Square Error,RMSE)和平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)兩個評價指標對各造價預測模型的優(yōu)劣性進行評價,如式(11)、式(12)所示。
式中:zi為配電網電纜線路工程造價實際值;z′i為造價預測值;v為配電網電纜線路工程總數。
從某電力公司近年來已完工項目中隨機選取400 組配電網電纜線路工程造價數據對造價預測模型進行訓練和測試,其中定性指標數據有2 400 條,其余5 200 條數據為定量指標數據,用320 組工程數據進行訓練,其余80 組工程數據進行測試。首先對定性指標進行量化處理:如電壓等級、電纜材質、建設性質、地形類型、地質類型等,利用數字標識進行代替,如在電壓等級10 kV取值為1,0.4 kV取值為2;其他定性變量同理進行處理。對于工程中若有同一變量不同類別的數據,則采取加權平均的方式進行取值,轉化過的樣本數據如表1所示。
表1 配電網電纜線路工程樣本數據1
結合現(xiàn)有文獻中針對灰色關聯(lián)度閾值的研究,并考慮配電網電纜線路工程的造價影響因素的特點,初步設定將灰色關聯(lián)度在0.75 以上的13 個配電網電纜線路工程造價影響因素確定為造價主要影響因素,并作為CV-LSSVM 預測模型的輸入變量,根據式(1)—式(5)計算灰關聯(lián)度的結果如圖2所示。
圖2 造價影響因素灰關聯(lián)分析
由圖2 可以看出,灰色關聯(lián)度在0.75 以上的配電網電纜線路工程造價影響因素有電纜敷設總長度、電纜材質、電纜綜合價格、電纜終端頭數量、電壓等級、基礎鋼筋數量、地形條件、地質類型、電纜中間接頭數量、汽車運距總量、電纜橋架數量、建設性質、建設場地征用及清理費等13 個重要造價影響因素,本文在LSSVM 模型中選取這13 個造價影響因素作為預測模型的輸入變量。
采用網格搜索和交叉驗證法對(C,g)參數進行尋優(yōu)。設定C和g的范圍,令C∈[2-8,28],g∈[2-10,210],C和g都選取0.05 作為其步長,取k=10 代入k-fold-CV 中進行十字交叉驗證。LSSVM 參數尋優(yōu)的結果見圖3 所示,由圖3 可以得出最佳參數組合C=128.18,g=0.156 73。
圖3 LSSVM參數選擇的三維視圖
將最優(yōu)參數組合C=128.18,g=0.156 73 代入到LSSVM 模型中,對訓練樣本中的工程造價進行預測,達到預測精度之后,再對模型的預測擬合結果進行檢驗,通過可視化繪圖輸出訓練樣本和測試樣本的擬合結果如圖4所示。
圖4 訓練樣本及測試樣本擬合預測結果
由圖4 可知,在灰關聯(lián)分析篩選出重要造價影響因素后,利用網格搜索和交叉驗證進行尋優(yōu),對LSSVM 建模來訓練樣本,工程造價預測值與實測值貼近,訓練和測試效果理想。
為進一步測試GRA-CV-LSSVM 模型的預測效果,分別進行兩種不同情景下的造價預測效果的對比。情景1:利用相同的測試樣本數據分別對未經過GRA 選取重要造價影響因素,未利用網格搜索與交叉驗證CV 算法進行參數尋優(yōu)的LSSVM 模型進行預測。情景2:同樣利用相同的測試樣本數據分別與主成分分析法(Principal Component Analysis,PCA)、遺傳算法(Genetic Algorithm,GA)、人工神經網絡算法(Bank Propagation,BP)以及粒子群算法(Particle Swarm Optimization,PSO)構成的GRA-BP-LSSVM 模型、PCA-BP-LSSVM模型等其他組合造價模型進行對比。兩情景下的預測效果如圖5(a)和圖5(b)所示,RMSE和MAPE的對比結果分別如圖5(c)和圖5(d)所示。
圖5 兩種不同情景下各模型預測結果曲線及評價結果對比
由圖5(a)和(b)可知,情景1 中各預測模型優(yōu)劣效果依次為:GRA-CV-LSSVM 模型>CV-LSSVM 模型>GRA-LSSVM 模型>LSSVM 模型;情景2 中各模型的優(yōu)劣順序依次為:GRA-CV-LSSVM 模型>PCA-PSO-LSSVM模型>PCA-BP-LSSVM模型>GRA-BP-LSSVM模型。兩種情景下RF-CV-LSSVM 模型的預測效果均為最優(yōu)。
由圖5(c)和(d)可知:兩種不同情景下GRA-CVLSSVM 造價預測模型的RMSE 為87 965,MAPE 計算結果為5.68%,相比其他預測模型誤差最低。說明本文設計的GRA-CV-LSSVM造價預測模型相較其他預測模型算法可以更有效提升配電網電纜線路工程造價預測的準確性,為配電網電纜線路造價精益化管控提供方法參考。
針對配電網電纜線路工程造價影響因素眾多、預測精度不高等問題,提出一種基于大數據與機器學習的配電網電纜線路工程造價組合預測模型。
通過GRA 算法提取重要造價影響因素來作為LSSVM 造價預測模型的輸入變量,能夠篩選出預測模型中最重要的造價影響因素,提高了預測模型的訓練速度。
通過運用交叉驗證和網格搜索算法優(yōu)化LSSVM模型中的參數C和g,提高了LSSVM 模型預測的精度,能得到具有泛化能力好、適應范圍廣、預測精度高的配電網電纜線路工程造價預測模型。
基于大數據與機器學習的配電網電纜線路工程造價預測模型,相較于其他造價預測模型的預測結果更接近實際值,將為配電網電纜線路工程造價精益化管控提供一種重要手段。