楊建新 唐海英
(湖南省核工業(yè)地質(zhì)局三0二大隊,湖南郴州 423000)
隨著城市化建設(shè)的高速發(fā)展[1],地下空間的開發(fā)利用不斷深化,基坑的開挖規(guī)模日益增長。與此同時,在基坑開挖的過程中,其往往會對其周邊環(huán)境產(chǎn)生影響,影響周邊建筑物及基坑自身安全。而基坑工程在大型工程建設(shè)當(dāng)中,能夠保證周圍土體穩(wěn)定性,因此具有重要意義。在進(jìn)行基坑建設(shè)當(dāng)中,基坑的變形預(yù)測及其監(jiān)測顯得至關(guān)重要[2]。
一般而言,常見的基坑變形研究方法,主要包括數(shù)值模擬[3]、理論計算[4]以及智能算法預(yù)測[5]等。在數(shù)值模擬方面,Liu Haiming等[6]利用基于有限差分算法的FLAC3D軟件,選用2種本構(gòu)模型,對地面沉降進(jìn)行了模擬,通過與現(xiàn)場監(jiān)測數(shù)據(jù)進(jìn)行對比,研究了基坑開挖影響范圍。劉冰冰[7]采用ABAQUS數(shù)值軟件,對西安地鐵四號線基坑工程沉降進(jìn)行了模擬分析,研究了基坑開挖降水對相鄰建筑物的影響。在理論計算方面,國外學(xué)者Peck[8]基于大量的基坑工程數(shù)據(jù),提出了基坑地表沉降的計算公式,并得到了廣泛應(yīng)用。此后,段紹偉等[9]根據(jù)長沙市地鐵開挖的實測數(shù)據(jù),采用回歸分析方法對Peck沉降計算公式進(jìn)行了修正。數(shù)值模擬及理論計算為現(xiàn)場基坑建設(shè)提供了理論指導(dǎo),但是由于基坑變形的復(fù)雜性及隨機(jī)性,導(dǎo)致現(xiàn)場實際沉降與理論計算具有一定的偏差,而智能算法能夠避開基坑變形的內(nèi)在機(jī)理,具有良好的預(yù)測能力,目前已經(jīng)成為基坑變形預(yù)測的主要技術(shù)手段[10]。
基于此,本文將主要利用隨機(jī)森林、決策樹、支持向量機(jī)3種機(jī)器學(xué)習(xí)算法,結(jié)合上海某深基坑實測數(shù)據(jù),對基坑的變形量進(jìn)行預(yù)測,分析了基坑沉降的影響因素。
決策樹算法是目前最常見的機(jī)器學(xué)習(xí)算法之一,其通過信息熵作為判別標(biāo)準(zhǔn),將決策樹葉節(jié)點(diǎn)上的值為輸出樣本信息,而非葉節(jié)點(diǎn)上的值為數(shù)據(jù)樣本中某個屬性的劃分點(diǎn),樣本數(shù)據(jù)根據(jù)該屬性上的不同分割點(diǎn)而被劃分為多個子數(shù)據(jù)集[11]。建立決策樹的核心在于非葉節(jié)點(diǎn)上屬性的選擇,即如何選擇適當(dāng)?shù)膶傩约皩傩缘姆指铧c(diǎn)對樣本數(shù)據(jù)進(jìn)行劃分。
對于回歸問題,常用的算法為CART決策樹算法。對于給定的訓(xùn)練T={(x1,y1),(x2,y2),...(xn,yn)},根據(jù)訓(xùn)練數(shù)據(jù)集中的幾個或者全部特征,按一定的方法對樣本數(shù)據(jù)進(jìn)行分割,從而建立相應(yīng)決策樹,使得決策樹中葉子結(jié)點(diǎn)上的值與訓(xùn)練樣本中的值相等或接近。決策樹建立過程中的核心問題是非子葉節(jié)點(diǎn)上特征的選擇。假如選擇訓(xùn)練集T中的j號特征中的s分量作為分割訓(xùn)練集的閾值,原數(shù)據(jù)集將分為R1={x|Rj≤s},R2={x|Rj>s}兩部分,分割后模型的輸出值與實際y值的均方誤差可表示為:
式中,f(xi)代表模型的輸出值,其越接近實際值y,說明模型精度越高。
隨機(jī)森林的基本思想是通過Bagging集成,將多個弱決策樹求解結(jié)果取平均值,從而獲得具有較高精確度和泛化性能的算法[12]。模型如圖1所示,通過Bootstrap重采樣技術(shù),從原始訓(xùn)練數(shù)據(jù)集D中有放回地重復(fù)隨機(jī)抽取k個樣本,生成新的訓(xùn)練數(shù)據(jù)集,然后基于新生成的k個訓(xùn)練集建立k顆決策樹,將這k顆決策樹組成隨機(jī)森林。隨機(jī)森林的計算結(jié)果等于每顆決策樹的計算結(jié)果求的平均值。
圖1 隨機(jī)森林示意圖
支持向量機(jī)是將實際問題通過非線性變換Φ(x)轉(zhuǎn)換到高維的特征空間,再利用各種優(yōu)化算法求得最大分類間隔,以使樣本點(diǎn)能夠線性可分地轉(zhuǎn)換到所得到的高維空間。在這些樣本點(diǎn)中,有一部分位于最大分類間隔的超平面之上,即支持向量點(diǎn)[13]。
支持向量機(jī)原理如圖2所示,設(shè)待求解的數(shù)據(jù)集為(x1,y1),(x2,y2)…(xn,yn),x∈R,y∈R,i=1…N。xn為輸入數(shù)據(jù),y為輸出數(shù)據(jù),通過使所有的樣本點(diǎn)離超平面的總偏差最小,此時可建立如下關(guān)系式:
圖2 支持向量機(jī)示意圖
式中,C、ε為懲罰因子和不敏感損失參數(shù),w,b最優(yōu)決策函數(shù)的函數(shù)系數(shù),其映射關(guān)系為y=wTΦ(x)+b,K(xi,xj)為核函數(shù),常見的核函數(shù)包括線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)等。通過KKT對線性規(guī)劃進(jìn)行求解,其中ai、ain為拉格朗日乘子,系數(shù)ai-ain不為0,因此映射關(guān)系可以轉(zhuǎn)換為:
基坑開挖對于周邊地面變形的影響不可忽視,其往往是多因素的共同作用的結(jié)果。主要包括:施工工況、巖土層參數(shù)、支護(hù)結(jié)構(gòu)剛度以及支撐形式等,每種因素對于周邊地面變形的影響程度及方式不同,應(yīng)用傳統(tǒng)的理論計算方法,難以考慮多種因素建立準(zhǔn)確的基坑沉降預(yù)測模型,機(jī)器學(xué)習(xí)方法為此提供了可靠途徑。
以上海某基坑工程為例,在現(xiàn)場施工過程中,通過記錄基坑開挖深度、開挖面以上地層內(nèi)摩擦角值、土體粘聚力值、土體重度、地層滲透系數(shù)、監(jiān)測點(diǎn)距離及監(jiān)測點(diǎn)沉降的實測值。圖3為選取的輸入變量與基坑變形量的Pearson相關(guān)系數(shù)圖,可以衡量變量之間的線性相關(guān),數(shù)值的取值范圍為[-1,1]。其中,-1表示為負(fù)相關(guān),1表示為正相關(guān)。當(dāng)數(shù)值越接近1或-1時,表示相關(guān)度越強(qiáng),越接近0時,則表示相關(guān)度越弱??梢钥闯?,輸入變量與輸出變量之前存在一定的相關(guān)性。
圖3 輸入變量與輸出變量相關(guān)系數(shù)圖
基于此,本文選取100組監(jiān)測數(shù)據(jù)作為訓(xùn)練樣本和測試樣本建立預(yù)測模型,選取的監(jiān)測數(shù)據(jù)涵括開挖前、開挖中及基坑施工后全周期,隨機(jī)抽取80%的數(shù)據(jù)作為訓(xùn)練集,剩下20%的數(shù)據(jù)作為測試集,分別基于決策樹算法、隨機(jī)森林算法及支持向量機(jī)算法進(jìn)行模型預(yù)測。
通過調(diào)整模型超參數(shù),以獲得最優(yōu)化模型,提高機(jī)器學(xué)習(xí)模型的預(yù)測準(zhǔn)確性。本文基于網(wǎng)格搜索交叉驗證方法(GridSearchCV)進(jìn)行超參數(shù)調(diào)整[14]。如圖4所示為5折交叉驗證示意圖,其原理為通過將超參數(shù)數(shù)據(jù)集分為n個子集,以一個子集作為驗證集,其余n-1個子集作為訓(xùn)練集,得到模型的結(jié)果,并通過循環(huán)變換驗證集,重復(fù)上述過程,選取模型表現(xiàn)最優(yōu)的超參數(shù)數(shù)據(jù)集作為模型的超參數(shù)。
圖4 交叉驗證示意圖
本文采用擬合優(yōu)度R2和均方根誤差RMSE統(tǒng)計指標(biāo)作為本文機(jī)器學(xué)習(xí)預(yù)測模型精確度的評價指標(biāo),其定義如下式所示:
在機(jī)器學(xué)習(xí)中,使用網(wǎng)格搜索交叉驗證獲得的最佳超參數(shù)組合進(jìn)行建模,各模型在測試集上的性能表現(xiàn)見表1所示。可以看出,支持向量機(jī)具有較差的預(yù)測效果,隨機(jī)森林和決策樹算法具有較高的預(yù)測精度,其擬優(yōu)度都超過了0.9,且均方根誤差在2以下。其中隨機(jī)森林算法預(yù)測能力最好,這主要是由于輸入數(shù)據(jù)與輸出數(shù)據(jù)具有高度非線性,因此集成算法能夠具有較高的表現(xiàn)能力。
表1 機(jī)器學(xué)習(xí)預(yù)測結(jié)果對比
通過上述分析,利用3種機(jī)器學(xué)習(xí)模型對整個數(shù)據(jù)集進(jìn)行建模分析,最終的結(jié)果如圖5所示??梢钥闯?,基于隨機(jī)森林模型和決策樹模型的預(yù)測值均較好地分布在理想擬合線附近,其最大相對誤差為0.35%,具有較高的穩(wěn)定性。而基于支持向量機(jī)模型的預(yù)測值則表現(xiàn)較差,其最大相對誤差為10.34%,難以滿足工程實際要求??偟膩碚f,不同機(jī)器學(xué)習(xí)算法,由于其內(nèi)核計算方法的差別,在同一工程數(shù)據(jù)的預(yù)測應(yīng)用中表現(xiàn)出精度差異。
圖5 隨機(jī)森林預(yù)測結(jié)果
基坑周邊沉降實測值和基于隨機(jī)森林模型的預(yù)測值如表2所示,可以看出,對于本文所研究的基坑,基于隨機(jī)森林模型的預(yù)測結(jié)果雖有一定的波動,但仍在可接受的范圍之內(nèi),其相對誤差范圍為0.13%~2.01%,平均相對誤差為0.97%,對于基坑變形預(yù)測來說其精度滿足要求[15]。
表2 位移實測值與預(yù)測值的比較
影響基坑沉降的因素很多,但是不同的因素對沉降的影響程度不一樣。在機(jī)器學(xué)習(xí)算法中,函數(shù)“feature_importance_”對各影響因素的重要性給出了定量解釋,具體數(shù)學(xué)過程如下[16]:
(1)對每一顆決策樹,建立決策樹前將數(shù)據(jù)集分為訓(xùn)練集和預(yù)測集,選擇沒有參與建立決策樹的預(yù)測集數(shù)據(jù)進(jìn)行預(yù)測,計算出預(yù)測值與試驗值的誤差,記為err1。(2)隨機(jī)對預(yù)測集數(shù)據(jù)中樣本的影響因素(因變量)X加入噪聲干擾(即隨機(jī)改變樣本在特征X的值),再次計算預(yù)測值與試驗值之間的誤差,記為err2。(3)假設(shè)森林中有N棵樹,則影響因素(因變量)X的重要性為:
當(dāng)加入隨機(jī)噪聲后,模型的精度會發(fā)生變化(即err2改變),err2改變的幅度即反映出輸出結(jié)果對X變量的敏感性,假如X變量對結(jié)果無影響,則err2與err1相等,即是ERRX等于0,ERRX越大,說明X變量對于樣本的預(yù)測結(jié)果有很大影響,進(jìn)而說明該特征的重要程度比較高。進(jìn)一步基于隨機(jī)森林模型分析了各影響因素對于基坑沉降的敏感性影響如圖6所示。圖6中所有的重要性系數(shù)總和為1,從中可以看出內(nèi)摩擦角、粘聚力和檢測點(diǎn)距離的相對重要性系數(shù)分別為0.245、0.231和0.22,為所有影響因素中較高的3個得分值。在隨機(jī)森林模型中,影響因素的重要性排名為內(nèi)摩擦角>粘聚力>監(jiān)測點(diǎn)距離>土體重度>基坑開挖深度>土體滲透系數(shù),證明了土層本身性質(zhì)對于基坑的沉降影響至關(guān)重要。
圖6 隨機(jī)森林模型生成的特征重要性
本文基于機(jī)器學(xué)習(xí)中的決策樹、隨機(jī)森林和支持向量機(jī)算法對基坑沉降進(jìn)行預(yù)測,得出主要結(jié)論如下:
(1)傳統(tǒng)的模型一般難以考慮基坑的復(fù)雜性,本文基于基坑實測數(shù)據(jù),建立了基坑沉降預(yù)測的機(jī)器學(xué)習(xí)模型,并通過與實測數(shù)據(jù)進(jìn)行對比分析,結(jié)果表明基于隨機(jī)森林的預(yù)測模型表現(xiàn)優(yōu)于其他2種模型,其最大相對誤差為2.01%。(2)影響因素分析結(jié)果表明,眾多影響因素中,內(nèi)摩擦角對基坑沉降的影響最顯著,但土層力學(xué)性質(zhì)等特征的影響較為平均,而土層滲透系數(shù)對于基坑沉降的影響較小。本文研究結(jié)果為基坑工程建設(shè)提供有益參考。