国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于高斯混合聚類算法的西安市人工填土空間分布研究

2022-06-24 06:23:50劉梁石衛(wèi)張曉平韓冰董欣袁琳
西北地質(zhì) 2022年2期
關(guān)鍵詞:西安市高斯準(zhǔn)則

劉梁,石衛(wèi),張曉平,韓冰,董欣,袁琳

(1.西安市勘察測(cè)繪院,陜西 西安 710059;2.陜西省水工環(huán)地質(zhì)調(diào)查中心,陜西 西安 710068;3.地質(zhì)災(zāi)害防治與地質(zhì)環(huán)境保護(hù)國(guó)家重點(diǎn)實(shí)驗(yàn)室(成都理工大學(xué)),四川 成都 610059;4.陜西省城市地質(zhì)與地下空間工程技術(shù)研究中心,陜西 西安 710068)

城市開發(fā)過(guò)程中,一些具有特殊性質(zhì)的巖土體,如人工填土、濕陷性黃土、砂土、卵礫石等,對(duì)工程建設(shè)具有較大影響,查明這類巖土體的空間分布特征,有助于做好城市規(guī)劃、保障建設(shè)安全。目前,特殊巖土體的空間分布研究方法主要是根據(jù)地形、地貌及地質(zhì)作用進(jìn)行經(jīng)驗(yàn)判斷(西安市城市規(guī)劃管理局,1998),利用地質(zhì)鉆孔資料進(jìn)行空間插值建立三維模型進(jìn)行預(yù)測(cè)(李豪,2018),以及利用遙感手段和其他相關(guān)性參數(shù)進(jìn)行分析推斷(郭培虹等,2010)。經(jīng)驗(yàn)判斷的方法十分依賴于研究人員對(duì)該區(qū)域的熟悉程度和經(jīng)驗(yàn)水平;模型預(yù)測(cè)則依賴于插值方法的準(zhǔn)確性和三維模型的精度;遙感推斷與輔助參數(shù)的相關(guān)性和分析人員的技術(shù)水平關(guān)聯(lián)甚密。

機(jī)器學(xué)習(xí)的主要內(nèi)容是研究從數(shù)據(jù)中產(chǎn)生模型的算法,并將經(jīng)驗(yàn)數(shù)據(jù)提供給這些算法,使其能夠基于數(shù)據(jù)產(chǎn)生數(shù)學(xué)模型(周志華,2016)。機(jī)器學(xué)習(xí)是一種大數(shù)據(jù)分析方法,能夠很好地利用已有數(shù)據(jù),且在接受經(jīng)驗(yàn)數(shù)據(jù)指導(dǎo)的同時(shí)降低人為因素的影響。由于地學(xué)數(shù)據(jù)割裂嚴(yán)重,難以形成大數(shù)據(jù)集合,因而機(jī)器學(xué)習(xí)的方法在地學(xué)領(lǐng)域應(yīng)用較少。近年來(lái),也有許多學(xué)者通過(guò)數(shù)據(jù)收集,開展了相關(guān)的研究,如滑坡敏感性分析及空間預(yù)測(cè)(Park Inhye et al., 2014)、土壤流失等級(jí)預(yù)測(cè)(Moller Anders Bjorn,et al.,2019)、地面沉降致因量化評(píng)價(jià)(Zhou Chaofan et al.,2019)、地下水生產(chǎn)潛力制圖(Lee Saro et al., 2015)及滑坡易發(fā)性評(píng)價(jià)(邱維蓉等,2020)等,取得了一定的成果。機(jī)器學(xué)習(xí)中的聚類算法通常被用于對(duì)無(wú)標(biāo)記訓(xùn)練樣本進(jìn)行學(xué)習(xí),以揭示數(shù)據(jù)內(nèi)在的性質(zhì)和規(guī)律,為進(jìn)一步的數(shù)據(jù)分析提供基礎(chǔ),這種方法不存在客觀標(biāo)準(zhǔn),給定一個(gè)數(shù)據(jù)集,總能從某個(gè)角度找到以往算法未覆蓋的某種標(biāo)準(zhǔn)。常見的聚類算法有k均值算法(Jain,1998,2009)、學(xué)習(xí)向量量化(Kohonen,2001)和高斯混合聚類(McLachlan,2000)等。

目前常用的空間插值方法均存在主觀性強(qiáng)、數(shù)據(jù)利用率低和通用性差的缺點(diǎn)。因此,筆者選用機(jī)器學(xué)習(xí)中的聚類算法來(lái)開展人工填土的分布研究。在各種聚類算法中,高斯混合聚類雖然通常被歸類為聚類算法,但它本質(zhì)上是一個(gè)密度估計(jì)算法,從技術(shù)角度考慮,高斯混合模型描述了數(shù)據(jù)分布的生成概率模型,它試圖找到多維高斯概率分布的混合體,從而獲得任意數(shù)據(jù)集最好的模型,因而更適合用作土體分布研究。

1 研究區(qū)范圍及地質(zhì)背景

以西安市三環(huán)內(nèi)主城區(qū)約4 00 km2為研究區(qū)域,收集并整理研究區(qū)內(nèi)工程地質(zhì)鉆孔20 793個(gè)。研究區(qū)內(nèi)出露地層以新生界(Kz)為主,其中第四系厚度為600~1 000 m,對(duì)工程建設(shè)影響較大的主要地層有人工填土(雜填土、素填土)、粉質(zhì)黏土、黃土狀土、黃土、古土壤和砂土等。

西安市的人工填土在城區(qū)和近郊廣為分布。目前所見的人工填土大多是近400~500年以來(lái)所形成的。西安市的人工填土不僅分布廣泛,厚度大(多在3~10 m,局部地區(qū)最大厚度可達(dá)十幾米),土層產(chǎn)狀和厚度在平面上變化十分迅速,而且性質(zhì)非常復(fù)雜。就其物質(zhì)組成及工程性質(zhì)而言,可將西安市的人工填土分為雜填土和素填土2類。西安市的雜填土顏色多而雜,結(jié)構(gòu)疏松,物質(zhì)組成是以各個(gè)時(shí)期的建筑垃圾為主,部分地區(qū)的雜填土夾有少量植物根系,土的均勻性極差,工程建設(shè)中不能直接選作天然地基的持力層。在西安市主城區(qū),素填土一般伏于雜填土之下,在城郊則多直接出露地表。西安市的素填土多由黏性土組成,一般含有少量磚、瓦塊碎屑等,具有大孔結(jié)構(gòu)和輕微濕陷性,可以作為一些次要或臨時(shí)性建筑的地基持力層,對(duì)二級(jí)建筑及以上建筑一般均應(yīng)進(jìn)行地基的加固處理。

2 空間分布特征的研究方法

2.1 高斯混合聚類

高斯混合聚類(Mixture of Gaussian)采用概率模型來(lái)表達(dá)聚類原型,在多元高斯分布定義中,對(duì)n維樣本空間χ中的隨機(jī)向量x,若x服從高斯分布,其概率密度函數(shù)如下。

(1)

其中μ是n維均值向量,∑是n×n的協(xié)方差矩陣。由式(1)可以看出,高斯分布完全由均值向量μ和協(xié)方差矩陣∑這2個(gè)參數(shù)確定。為了明確顯示高斯分布與相應(yīng)參數(shù)的依賴關(guān)系,將概率密度函數(shù)記為p(x)|μ,∑)。因此,筆者可以將高斯混合分布定義如式(2)

(2)

假設(shè)樣本的生成過(guò)程由高斯混合分布給出:首先,根據(jù)α1,α2,…,αk定義的先驗(yàn)分布選擇高斯混合成分,其中αi為選擇第i個(gè)混合成分的概率,然后根據(jù)被選擇的混合成分的概率密度函數(shù)進(jìn)行采樣,從而生成相應(yīng)的樣本。

若訓(xùn)練集D={x1,x2,…,xm}由上述過(guò)程生成,令隨機(jī)變量zj∈{1,2,…,k}表示生成樣本xj的高斯混合成分,其取值未知。顯然,zj的先驗(yàn)概率P(zj=i)對(duì)應(yīng)于αi(i=1,2,…,k)。根據(jù)貝葉斯定理,zj的后驗(yàn)分布對(duì)應(yīng)于式(3)

pM(zj=i|xj)=

(3)

換言之,pM(zj=i|xj)給出了樣本xj由第i個(gè)高斯混合成分生成的后驗(yàn)概率。為方便敘述,將其簡(jiǎn)記為γji(i=1,2,…,k)。

當(dāng)高斯混合分布(2)已知時(shí),高斯混合聚類將把樣本集D劃分為k個(gè)簇C={C1,C2,…,Ck},每個(gè)樣本xj的簇標(biāo)記λj如下確定。

λj=argmaxi∈{1,2,…,k}γji

(4)

因此,從原型聚類的角度來(lái)看,高斯混合聚類是采用概率模型(高斯分布)對(duì)原型進(jìn)行刻畫,簇劃分則由原型對(duì)應(yīng)后驗(yàn)概率確定。

(5)

即每個(gè)高斯成分的混合系數(shù)由樣本屬于該成分的平均后驗(yàn)概率確定。

由上述分析即可獲得高斯混合模型的EM算法,即在每步迭代中,先根據(jù)當(dāng)前參數(shù)來(lái)計(jì)算每個(gè)樣本屬于每個(gè)高斯成分的后驗(yàn)概率γji(E步),再更新模型參數(shù){αi,μi,∑i|1≤i≤k}(M步)。

高斯混合聚類算法描述見圖1。算法第1行對(duì)高斯混合分布的模型參數(shù)進(jìn)行初始化,然后,在第2~12行基于EM算法對(duì)模型參數(shù)進(jìn)行迭代更新。若EM算法的停止條件滿足(例如已達(dá)到最大迭代輪數(shù),或似然函數(shù)LL(D)增長(zhǎng)很少甚至不再增長(zhǎng)),則在第14~17行根據(jù)高斯混合分布確定簇劃分,在第18行返回最終結(jié)果。

圖1 高斯混合聚類算法圖

2.2 聚類算法的檢驗(yàn)

高斯混合模型采用似然函數(shù)作為目標(biāo)函數(shù),當(dāng)訓(xùn)練數(shù)據(jù)足夠多時(shí),可以不斷提高模型精度,但是以提高模型復(fù)雜度為代價(jià)的,同時(shí)帶來(lái)一個(gè)機(jī)器學(xué)習(xí)中非常普遍的問(wèn)題——過(guò)擬合。所以,模型選擇問(wèn)題在模型復(fù)雜度與模型對(duì)數(shù)據(jù)集描述能力(即似然函數(shù))之間尋求最佳平衡。人們提出許多信息準(zhǔn)則,通過(guò)加入模型復(fù)雜度的懲罰項(xiàng)來(lái)避免過(guò)擬合問(wèn)題,常用的2個(gè)模型選擇方法——赤池信息準(zhǔn)則(Akaike Information Criterion,AIC)和貝葉斯信息準(zhǔn)則(Bayesian Information Criterion,BIC)。

2.2.1 赤池信息準(zhǔn)則

AIC是衡量統(tǒng)計(jì)模型擬合優(yōu)良性的一種標(biāo)準(zhǔn),由日本統(tǒng)計(jì)學(xué)家赤池弘次在1974年提出,它建立在熵的概念上,提供了權(quán)衡估計(jì)模型復(fù)雜度和擬合數(shù)據(jù)優(yōu)良性的標(biāo)準(zhǔn)。

通常情況下,它是擬合精度和參數(shù)未知個(gè)數(shù)的加權(quán)函數(shù),AIC定義為:

AIC=2k-2ln(L)

(6)

其中,k是參數(shù)的數(shù)量,L是似然函數(shù)。當(dāng)在2個(gè)模型之間存在著相當(dāng)大的差異時(shí),這個(gè)差異出現(xiàn)于式(6)的第二項(xiàng),而當(dāng)?shù)诙?xiàng)不出現(xiàn)顯著性差異時(shí),第一項(xiàng)起作用,從而參數(shù)個(gè)數(shù)少的模型是好的模型。

假設(shè)模型的誤差服從獨(dú)立正態(tài)分布,讓n為觀察數(shù),RSS為剩余平方和,那么AIC變?yōu)椋?/p>

AIC=2k+nln(RSS/n)

(7)

一般而言,當(dāng)模型復(fù)雜度提高(k增大)時(shí),似然函數(shù)L也會(huì)增大,從而使AIC變小,但是k過(guò)大時(shí),似然函數(shù)增速減緩,導(dǎo)致AIC增大,模型過(guò)于復(fù)雜容易造成過(guò)擬合現(xiàn)象。目標(biāo)是選取AIC最小的模型,AIC不僅要提高模型擬合度(極大似然),而且引入了懲罰項(xiàng),使模型參數(shù)盡可能少,有助于降低過(guò)擬合的可能性??梢夾IC準(zhǔn)則有效且合理地控制了參數(shù)的維數(shù)k。赤池信息準(zhǔn)則的方法是尋找可以最好地解釋數(shù)據(jù)但包含最少自由參數(shù)的模型。

2.2.2 貝葉斯信息準(zhǔn)則

貝葉斯信息準(zhǔn)則與AIC相似,用于模型選擇,1978年由Schwarz提出。訓(xùn)練模型時(shí),增加參數(shù)數(shù)量,也就是增加模型復(fù)雜度,會(huì)增大似然函數(shù),但是也會(huì)導(dǎo)致過(guò)擬合現(xiàn)象。針對(duì)該問(wèn)題,AIC和BIC均引入了與模型參數(shù)個(gè)數(shù)相關(guān)的懲罰項(xiàng),BIC的懲罰項(xiàng)比AIC的大,考慮了樣本數(shù)量,樣本數(shù)量過(guò)多時(shí),可有效防止模型精度過(guò)高造成的模型復(fù)雜度過(guò)高。

BIC=kln(n)-2ln(L)

(8)

其中,k為模型參數(shù)個(gè)數(shù),n為樣本數(shù)量,L為似然函數(shù)。式(8)中第一項(xiàng)為懲罰項(xiàng),在維數(shù)過(guò)大且訓(xùn)練樣本數(shù)據(jù)相對(duì)較少的情況下,可以有效避免出現(xiàn)維度災(zāi)難現(xiàn)象。

3 西安市人工填土空間分布研究

3.1 數(shù)據(jù)準(zhǔn)備

在研究區(qū)范圍內(nèi),鉆孔數(shù)據(jù)集中包含雜填土的鉆孔共有13 687個(gè),包含素填土的鉆孔共有7 106個(gè)。區(qū)內(nèi)雜填土層底埋深在0.1~24 m,素填土層底埋深在0.1~16.5 m。按照城市地下空間開發(fā)層次將人工填土數(shù)據(jù)劃分為厚度小于3 m、厚度介于3~10 m、厚度大于3 m 3種分類,分別進(jìn)行聚類計(jì)算及制圖。

土體分布研究中常常使用土體平面坐標(biāo)及層厚作為分布計(jì)算的屬性。土體平面坐標(biāo)(x坐標(biāo)、y坐標(biāo))及層厚屬性均為連續(xù)屬性,可以直接參與聚類任務(wù)的距離計(jì)算。在本次研究中,筆者增加了土體時(shí)代成因?qū)傩詤⑴c到聚類任務(wù)中,以優(yōu)化聚類過(guò)程,從而得到更貼切土體分布要求的聚類結(jié)果。土體的時(shí)代成因?qū)儆陔x散屬性,在其定義域上是有限個(gè)取值。在距離計(jì)算時(shí),土體的地質(zhì)時(shí)代屬性為有序?qū)傩裕梢驅(qū)傩詣t為無(wú)序?qū)傩?。因此,直接使用土體地質(zhì)年代作為其標(biāo)準(zhǔn)化結(jié)果(Q4->4;Q3->3;Q2->2;Q1->1),同時(shí)使用一組連續(xù)正整數(shù)對(duì)土體成因進(jìn)行編碼處理(表1)。

表1 土體成因編碼表

3.2 聚類計(jì)算

將準(zhǔn)備好的數(shù)據(jù)導(dǎo)入事先編制好的計(jì)算程序中,利用前述的高斯混合模型進(jìn)行聚類計(jì)算。輸入的訓(xùn)練集數(shù)據(jù)為一系列5維數(shù)組,每單個(gè)數(shù)據(jù)包含了該鉆孔的x坐標(biāo)、y坐標(biāo)、層厚、地質(zhì)時(shí)代和成因?qū)傩浴?/p>

聚類計(jì)算首先要進(jìn)行試算以確定最優(yōu)的聚類簇?cái)?shù),即先假定聚類簇?cái)?shù)n,再分別計(jì)算當(dāng)聚類簇?cái)?shù)為n時(shí),赤池信息準(zhǔn)則AIC值及貝葉斯信息準(zhǔn)則BIC值,比較各聚類簇?cái)?shù)對(duì)應(yīng)的AIC和BIC值,選擇合適的聚類簇?cái)?shù)為最終計(jì)算參數(shù)。如圖2所示,筆者首先從聚類簇?cái)?shù)n=1時(shí)開始試算,雜填土的試算終點(diǎn)為n=280,素填土的試算終點(diǎn)為n=200,試算步長(zhǎng)為1。由于聚類簇?cái)?shù)過(guò)小時(shí),雜填土聚類計(jì)算的AIC和BIC值過(guò)大,因此,為了曲線美觀便于觀察,將雜填土的計(jì)算從聚類簇?cái)?shù)n=50開始繪制分析曲線。從雜填土聚類簇?cái)?shù)分析曲線(圖2a)中可以看出,雜填土數(shù)據(jù)的AIC值程持續(xù)下降趨勢(shì),即聚類簇?cái)?shù)越大,赤池信息準(zhǔn)則模型評(píng)價(jià)越精確,在n≥140后,曲線下降趨于平緩。而其BIC值有明顯的“底部”,即120≤n≤140時(shí),BIC值更小,表明n在這個(gè)區(qū)間范圍內(nèi)取值時(shí),貝葉斯信息準(zhǔn)則模型評(píng)價(jià)最精確。從素填土聚類簇?cái)?shù)分析曲線(圖2b)中可以看出,素填土數(shù)據(jù)的AIC值程持續(xù)下降趨勢(shì),即聚類簇?cái)?shù)越大,赤池信息準(zhǔn)則模型評(píng)價(jià)越精確,在n≥140后,曲線下降趨于平緩。其BIC值與AIC值趨勢(shì)相似,n≥120后曲線趨于平緩,表明n在這個(gè)區(qū)間范圍內(nèi)取值時(shí),貝葉斯信息準(zhǔn)則模型評(píng)價(jià)最精確。綜合2種評(píng)價(jià)準(zhǔn)則,取雜填土和素填土的聚類簇?cái)?shù)n=140。

圖2 人工填土聚類簇?cái)?shù)分析曲線圖

3.3 分布特征

研究區(qū)人工填土分布廣泛,厚度多在3~10 m,局部地區(qū)最大厚度可達(dá)十幾米,土層產(chǎn)狀和厚度在平面上變化迅速,性質(zhì)較為復(fù)雜,主要可分為雜填土和素填土2類。雜填土顏色多且雜,結(jié)構(gòu)疏松,物質(zhì)組成是以各個(gè)時(shí)期的建筑垃圾為主,土的均勻性極差,工程建設(shè)中不能直接選作天然地基的持力層。研究區(qū)內(nèi)雜填土廣泛分布,埋深多在3 m以內(nèi),部分地區(qū)埋深可達(dá)3~10 m,極少數(shù)區(qū)域雜填土層底深度達(dá)到10 m以上。研究區(qū)內(nèi)素填土與雜填土相似,均廣泛分布于城區(qū)各處,埋深多在3 m以內(nèi),部分地區(qū)埋深可達(dá)3~10 m,極少數(shù)區(qū)域素填土層底深度達(dá)到10 m以上(圖3)。

圖3 西安市人工填土空間分布圖

4 結(jié)論

(1)高斯混合模型采用似然函數(shù)作為目標(biāo)函數(shù),當(dāng)訓(xùn)練數(shù)據(jù)足夠多時(shí),可以不斷提高模型精度,能夠準(zhǔn)確而快速的表達(dá)土體的分布特征,但需要借助赤池信息準(zhǔn)則和貝葉斯信息準(zhǔn)則來(lái)避免出現(xiàn)模型過(guò)擬合的問(wèn)題。

(2)赤池信息準(zhǔn)則(AIC)及貝葉斯信息準(zhǔn)則(BIC)檢驗(yàn)試算結(jié)果表明,在聚類簇?cái)?shù)n=140時(shí),高斯混合聚類模型能更為準(zhǔn)確的評(píng)價(jià)西安市人工填土的空間分布狀態(tài)。

(3)西安市主城區(qū)內(nèi)雜填土廣泛分布,埋深多在3 m以內(nèi),部分地區(qū)埋深可達(dá)3~10 m,極少數(shù)區(qū)域雜填土層底深度達(dá)到10 m以上,主要分布于主城區(qū)大部分區(qū)域,浐灞河沿線、西繞城、南繞城也有零星分布。

(4)西安市主城區(qū)內(nèi)素填土廣泛分布于城區(qū)各處,埋深多在3 m以內(nèi),部分地區(qū)埋深可達(dá)3~10 m,極少數(shù)區(qū)域素填土層底深度達(dá)到10 m以上。浐灞河三角、浐河沿線、西繞城沿線、魚化寨區(qū)域有成片分布。

猜你喜歡
西安市高斯準(zhǔn)則
小高斯的大發(fā)現(xiàn)
親子創(chuàng)意美工展
具非線性中立項(xiàng)的二階延遲微分方程的Philos型準(zhǔn)則
西安市第四醫(yī)院
天才數(shù)學(xué)家——高斯
123的幾種說(shuō)法
基于CA-Markov模型的西安市熱環(huán)境模擬研究
基于Canny振蕩抑制準(zhǔn)則的改進(jìn)匹配濾波器
一圖讀懂《中國(guó)共產(chǎn)黨廉潔自律準(zhǔn)則》
有限域上高斯正規(guī)基的一個(gè)注記
郴州市| 逊克县| 治县。| 安乡县| 扎兰屯市| 津市市| 海安县| 叶城县| 贵港市| 屯门区| 花垣县| 奇台县| 淳安县| 盱眙县| 东至县| 汶上县| 上杭县| 常熟市| 远安县| 古丈县| 昌图县| 泊头市| 革吉县| 威海市| 辽中县| 霍城县| 新干县| 和林格尔县| 怀宁县| 青海省| 安溪县| 张掖市| 汤阴县| 扎囊县| 成安县| 徐州市| 胶州市| 修武县| 阳朔县| 九江县| 南靖县|