丁靚瑋(中國人民解放軍92981 部隊 北京 100161)
碼頭工程投資估算不僅是碼頭工程建設(shè)項目前期決策的重要數(shù)據(jù)依據(jù),也是工程項目可行性研究報告經(jīng)濟評價的重要依據(jù)。工程決策的正確與否,直接關(guān)系到整個工程建設(shè)項目的成敗,也關(guān)系到工程造價的高低。由于在工程決策階段已知的工程信息量較少,給工程造價的估算工作帶來一定困難。以往是利用專家法、單位生產(chǎn)能力指數(shù)法等方法估算決策階段的工程造價。近些年,機器學(xué)習成為國內(nèi)預(yù)測方法研究的熱點,嘗試利用多層感知器(MLP)神經(jīng)網(wǎng)絡(luò)模型對決策階段的碼頭投資估算進行預(yù)測,以提高決策階段投資估算的精確度。
多層感知器(Multi-layer Perception,MLP)是一個前饋式結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò),它可以根據(jù)預(yù)測變量的值生成一個或多個因變量的預(yù)測模型。由于其結(jié)構(gòu)簡單以及較強的可塑性,MLP 神經(jīng)網(wǎng)絡(luò)模型在數(shù)據(jù)信息分類、函數(shù)逼近、費用的預(yù)測等領(lǐng)域得到了廣泛的應(yīng)用。
人工神經(jīng)網(wǎng)絡(luò)通過對生物神經(jīng)系統(tǒng)的仿真,模擬神經(jīng)元輸入輸出、神經(jīng)元的連接方式、突觸聯(lián)系強度來進行數(shù)據(jù)、信息的處理,它具有以下特點:
(1) 并行性。傳統(tǒng)的計算方法是基于串行處理思想發(fā)展起來的,而神經(jīng)網(wǎng)絡(luò)的神經(jīng)元為并行機制,所以其運算速度相較傳統(tǒng)計算方法更快,效率更高。
(2) 自學(xué)習性。神經(jīng)網(wǎng)絡(luò)的學(xué)習過程是一個不斷完善自身、創(chuàng)造性的過程,自學(xué)習能力是神經(jīng)網(wǎng)絡(luò)相比其他方法最具優(yōu)勢的特征之一。
(3)較強的魯棒性和容錯性。在神經(jīng)網(wǎng)絡(luò)中,由于信息的儲存分布于網(wǎng)絡(luò)各個相互連接的權(quán)值上,因此即使少數(shù)幾個神經(jīng)元或?qū)?yīng)的突觸損壞,只會導(dǎo)致存儲模式的質(zhì)量有所降低,不會對整體結(jié)構(gòu)帶來影響。
本文運用SPSS 統(tǒng)計分析軟件進行MLP 神經(jīng)網(wǎng)絡(luò)的學(xué)習訓(xùn)練,具體操作步驟如下:
(1) 選擇變量:完成了樣本數(shù)據(jù)進行收集、整理后,創(chuàng)建多層感知器網(wǎng)絡(luò),選擇至少一個因變量、因子和協(xié)變量,選擇將數(shù)據(jù)進行標準化(將樣本數(shù)據(jù)值介于0 和1 之間)、調(diào)整標準化(將樣本數(shù)據(jù)值介于-1 和1 之間)。
(2) 設(shè)置分區(qū):將樣本數(shù)據(jù)集劃分為訓(xùn)練樣本、檢驗樣本、堅持樣本。訓(xùn)練樣本用于神經(jīng)網(wǎng)絡(luò)的學(xué)習訓(xùn)練;檢驗樣本用于跟蹤訓(xùn)練過程中的錯誤以防止超額訓(xùn)練;堅持樣本用于評估最終神經(jīng)網(wǎng)絡(luò)的獨立數(shù)據(jù)集。
(3) 體系結(jié)構(gòu):軟件可選擇自動體系結(jié)構(gòu)選擇以及自定義體系結(jié)構(gòu),自動體系結(jié)構(gòu)選擇構(gòu)建具有1 個隱藏層的網(wǎng)絡(luò)結(jié)構(gòu),指定隱藏層中允許存在的最小或最大單位量,使用隱藏層和輸出層的缺省激活函數(shù)。輸出層的激活函數(shù)可選擇恒等、Softmax、雙曲正切、Sigmoid 函數(shù)。
(4) 培訓(xùn):培訓(xùn)類型可選擇批處理、在線處理、袖珍型批處理,批處理培訓(xùn)使用的是數(shù)據(jù)集中所有記錄信息,批處理培訓(xùn)的缺陷是可能需要多次更新權(quán)重,因此適用于較小的數(shù)據(jù)集;對于預(yù)測較大的數(shù)據(jù)集,在線培訓(xùn)優(yōu)于批處理;袖珍型批處理適用于“中型”數(shù)據(jù)集。
(5) 輸出、保存、到處:針對根據(jù)樣本數(shù)據(jù)預(yù)測估計值,則能夠輸出的信息有圖表、鍵結(jié)值、模型匯總圖、觀察預(yù)測圖、殘差分析圖、個案處理摘要、自變量重要性分析圖。
碼頭工程項目具有建設(shè)規(guī)模大、施工工藝復(fù)雜等特點,為避免更為復(fù)雜的因素對碼頭工程項目投資估算的預(yù)測造成偏差,選取重力式沉箱結(jié)構(gòu)碼頭工程主體部分作為研究對象。在工程項目的可行性報告階段,可獲取的已知信息較少,為充分提取決策階段影響碼頭工程造價的影響因子,收集了大量決策階段的歷史文獻資料和可行性報告,并對碼頭的基本結(jié)構(gòu)進行剖析,篩選出“碼頭長度、碼頭寬度、水深、基床挖泥體積、挖泥船的選擇、基床拋石體積、沉箱預(yù)制、沉箱安裝、沉箱回填體積、墻后方回填體積、碼頭附屬設(shè)施、胸墻體積、基床拋石、原材料價格、原材料運距、氣象條件、水文條件、地質(zhì)條件”18 個影響碼頭工程造價的因素作為初選影響因子集。
初選的影響因子集可能存在重復(fù)性、相似性的影響因子,同時存在描述性因子需要進一步量化,所以利用專家咨詢法對初選的影響因子集進一步篩選,通過對工程設(shè)計單位相關(guān)專家發(fā)放調(diào)查問卷的形式,從初選影響因子集中剔除了相似性較強以及對估算影響相對較弱的因子,并通過定性因子定量化的方法,最終篩選出11 個影響因子作為可行性報告階段重力式沉箱結(jié)構(gòu)碼頭工程投資估算模型的影響因子集,為方便起見,分別記X1 為碼頭長度(米),X2 為碼頭寬度(米),X3為設(shè)計水深(米),X4 為水上運距(千米),X5 為陸上運距(千米),X6 為挖泥體積(方),X7 為基床拋石體積(方),X8 為沉箱體積(方),X9 為鋼材綜合指數(shù),X10 為全國水泥指數(shù),X11 為地區(qū),Y 為碼頭工程造價(萬元)。
通過港口設(shè)計單位收集了15 個重力式沉箱結(jié)構(gòu)碼頭主體部分資料數(shù)據(jù),為充分考慮考慮時間對價格的影響作用,模型中的“鋼材價格綜合指數(shù)、全國水泥價格指數(shù)”影響因子的數(shù)據(jù)來自我的鋼鐵網(wǎng)和中國水泥網(wǎng),在對模型的影響影響因子進行篩選和量化后,為便于數(shù)據(jù)的學(xué)習和加速訓(xùn)練過程,采用歸一化法對原始數(shù)據(jù)進行處理,限于篇幅所限,進行歸一化處理后的數(shù)據(jù)表略,處理后的樣本數(shù)據(jù)集作為MLP 神經(jīng)網(wǎng)絡(luò)的輸入量,歸一化后的樣本中作為神經(jīng)網(wǎng)絡(luò)的輸出量進行訓(xùn)練,最后再對輸出結(jié)果進行還原。
利用SPSS 統(tǒng)計分析軟件中的神經(jīng)網(wǎng)絡(luò)的“多層感受器”進行MLP 神經(jīng)網(wǎng)絡(luò)分析,具體參數(shù)設(shè)置及操作如下:
(1)選擇Y(工程造價)為因變量,X11(地區(qū))作為因子,X2-X10 作為協(xié)變量,協(xié)變量重標度選擇為標準化,標準化值即利用歸一化法將值介于0 和1 之間;
(2)在“目標變量”文本框輸入partition,在“數(shù)值表達式”中輸入2*rv.bernoulli(0.8)-1,此操作是將分區(qū)值設(shè)置為隨機生成概率參數(shù)為0.8 的Bernoulli 變量,修改之后取值為1 或-1。選擇使用分區(qū)變量分配個案,在“分區(qū)變量”對話框選擇partition,則分區(qū)為“1”的約80%的樣本數(shù)據(jù)用于創(chuàng)建模型,分區(qū)為“-1”的約20%的數(shù)據(jù)作為檢驗樣本用于驗證模型預(yù)測結(jié)果。對15 個樣本數(shù)據(jù)進行分區(qū)后,項目13、14、15 被隨機作為檢驗樣本,其余12 個項目作為模型的訓(xùn)練樣本,限于篇幅訓(xùn)練樣本數(shù)據(jù)表略,檢驗樣本見表1。
表1 歸一化后的模型檢驗樣本
(3) 在優(yōu)化算法的選擇上,相較于梯度下降法、牛頓法等其他優(yōu)化算法,共軛梯度法的優(yōu)點在于其收斂速度優(yōu)于梯度下降法,在優(yōu)化算法上選擇“共軛梯度法”,初始Lambda 取值為0.0000005,
初始Sigma 取值為0.00005,間隔中心點取值0,間隔偏移量取值±0.5;
(4)“輸出”界面選擇描述、圖標、模型匯總、觀察預(yù)測圖、殘差分析圖、個案處理摘要、自變量重要性分析;
圖1 模型匯總圖
(5)其余選項為系統(tǒng)默認值,單擊“確定”后,分析結(jié)果如下:
表3.2 模型匯總表
表3.2 給出了訓(xùn)練樣本的相對錯誤率、檢驗樣本相對錯誤率以及訓(xùn)練時間,可以看出,訓(xùn)練的相對錯誤較低,檢驗樣本預(yù)測的相對錯誤為3.2%。
圖2 MLP 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
圖2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖可以看出,MLP 神經(jīng)網(wǎng)絡(luò)模型包括1 個輸出層、1 個隱藏層以及1 個輸出層,輸入層的神經(jīng)元個數(shù)為12 個,隱藏層的神經(jīng)元為7 個,利用雙曲正切法激活函數(shù)。
圖3 工程造價殘差分析圖
表3 實際工程造價與預(yù)測結(jié)果相對誤差表
經(jīng)過MLP 神經(jīng)網(wǎng)絡(luò)分析后得出殘差分析圖3.2,表3.3 為工程造價的實際值與預(yù)測值的相對誤差表,檢驗樣本13、14、15 的預(yù)測相對誤差分別為7.82%、-4.94%、-4.74%,檢驗樣本相對誤差的絕對平均值為5.83%。圖3 為工程造價殘差分析圖,圖上顯示Y 軸的殘差(殘差=觀察值-預(yù)測值)與X 軸上的預(yù)測值的散點圖,結(jié)合表3.3 相對誤差表可以看出,預(yù)測相對誤差為5.83%,而工程可行性研究階段投資估算精度要求一般在±10%,預(yù)測效果較好。
碼頭工程決策階段的投資估算是碼頭工程項目方案選取和決策的重要經(jīng)濟指標和依據(jù),在可行性研究階段可獲取的工程信息較少的情況下,本文利用MLP 多層感知器神經(jīng)網(wǎng)絡(luò),分析了工程造價與其主要影響因素之間的非線性關(guān)系,結(jié)合歷史碼頭工程數(shù)據(jù)資料,建立模型并通過了檢驗,誤差在可行范圍內(nèi),滿足快速估算、提高估算精度的要求。