国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于不確定數(shù)據(jù)的半監(jiān)督動態(tài)K-均值算法在滑坡危險性預測上的應用

2020-05-21 00:18:32
關(guān)鍵詞:危險性均值滑坡

景德鎮(zhèn)學院,江西 景德鎮(zhèn) 333000

滑坡災害是地質(zhì)災害中最重要的災害類型之一,具有分布地區(qū)廣、運動速度快、災害損失嚴重等特點[1]。我國是滑坡災害較為多發(fā)的國家之一,且近年來發(fā)生頻率不斷增加,因此,有效的滑坡危險性預測方法仍是現(xiàn)今研究的熱點。

無監(jiān)督聚類方法已廣泛用于滑坡危險性預測領(lǐng)域,無監(jiān)督聚類是指在不需要任何先驗信息的情況下,通過抽取數(shù)據(jù)中的“潛在”結(jié)構(gòu),將數(shù)據(jù)劃分到不同類別。張俊等[2]采用K-means 聚類算法,選取7 個致災因子作為滑坡易發(fā)性的評價指標,對三峽庫萬州區(qū)的滑坡易發(fā)性評價體系進行分級,實驗證明滑坡易發(fā)性評價體系預測精度較高。吳亞子等[3]基于灰色聚類法,通過計算11 個因子對應評價級別的基準劃分值,對阿里地區(qū)滑坡等地質(zhì)災害的危險性展開評價預估,得到了較好的預測結(jié)果。阮云凱等[4]采用K-PSO 聚類算法,確定8 個影響因子并計算影響因子權(quán)重值,在旭龍水電站庫區(qū)實驗中的滑坡危險性預測結(jié)果證明與實際發(fā)育情況具有較高的一致性。雖然無監(jiān)督聚類在滑坡危險性預測上取得了一些成效,但是仍存在一些明顯的問題:首先,傳統(tǒng)聚類算法多應用于屬性為確定性的數(shù)據(jù),而在處理滑坡的不確定誘發(fā)因素降雨量的聚類上效果不佳;其次,整個聚類過程由于沒有任何先驗信息的指導,很可能會產(chǎn)生沒有實際意義的劃分結(jié)果,且聚類精度整體偏低。因此,研究分別從這兩個方面出發(fā),進行優(yōu)化方案的探討。

不確定數(shù)據(jù)作為新型數(shù)據(jù)之一,近年來受到廣泛關(guān)注。對于降雨量這類的不確定數(shù)據(jù),傳統(tǒng)針對確定性數(shù)據(jù)的歐氏距離無法有效度量其間距?;诖?,郭軍鵬[5]提出了一種基于中點和半徑的不確定數(shù)據(jù)距離—Hausdorff 距離,該距離是目前使用較為廣泛的一種不確定數(shù)據(jù)距離,但同時,該距離僅適用于內(nèi)部服從均勻分布的不確定數(shù)據(jù),而在實際應用中,不確定數(shù)據(jù)的內(nèi)部分布通常未知。因此,文中以Hausdorff 距離為基礎(chǔ),擴展出一種適用于任意不確定數(shù)據(jù)的uv距離。

利用先驗信息來指導聚類過程,改善無監(jiān)督聚類算法的性能,該類算法在數(shù)據(jù)挖掘領(lǐng)域被統(tǒng)稱為半監(jiān)督聚類,先驗信息通常是數(shù)據(jù)的類別標記或約束關(guān)系。由于在滑坡危險性預測應用中,往往存在少量滑坡觀測點的類別信息,由此提出將先驗信息為類別標簽的半監(jiān)督聚類應用于滑坡危險性預測的設(shè)想。在以類別標記為監(jiān)督信息引導聚類過程的算法研究中,Basu 等[6]首先提出了Seeded-K-均值和Constrained-K-均值算法,它們使用少量帶類別標簽的標記數(shù)據(jù)形成seeds 集以初始化類中心,進而提高整個數(shù)據(jù)集的聚類性能,但同時,seeds 集的質(zhì)量和規(guī)模對聚類結(jié)果的影響顯著。因此,文獻[7]提出一種改進的半監(jiān)督聚類算法,該算法通過Tri-training 的迭代過程及數(shù)據(jù)剪輯的Depuration技術(shù)提高seeds 集質(zhì)量,進一步提高了算法的聚類性能,但該算法僅從seeds 集角度進行分析改進,且改進方法未結(jié)合應用本身特點。因此,本次研究充分考慮滑坡應用本身性質(zhì),引入衡量降雨量的uv距離,設(shè)計了一種基于不確定數(shù)據(jù)的半監(jiān)督動態(tài)K-均值算法(USSD-K-均值算法(Uncertain semi-supervised dynamic)),并分別從seeds 集質(zhì)量和算法過程兩個角度進行優(yōu)化。首先對初始seeds集進行消噪,其次利用滑坡分布的局地集中發(fā)育特點[8]進行標簽的空間擴展,實現(xiàn)seeds 集優(yōu)化;其次引用隸屬度概念,通過設(shè)置隸屬度閾值動態(tài)更新劃分結(jié)果,有效提高了聚類性能。

本文提出一個新的不確定數(shù)據(jù)測度,闡述基于不確定數(shù)據(jù)的半監(jiān)督動態(tài)聚類算法的具體步驟,并給出時間復雜度分析,通過實驗對uv距離及USSD-K-均值算法進行性能測試并對結(jié)果比較分析,并對全文工作進行總結(jié)及展望。

1 不確定數(shù)據(jù)

1.1 不確定數(shù)據(jù)概念

不確定數(shù)據(jù),即帶有不確定性的數(shù)據(jù)。根據(jù)其不確定性的表示方式,可以將不確定數(shù)據(jù)分為傳輸數(shù)據(jù)的點概率數(shù)、測量數(shù)據(jù)的區(qū)間數(shù)等[9]。本文所研究的滑坡危險性應用,其不確定誘發(fā)因素降雨量的表現(xiàn)形式為區(qū)間數(shù),因此文中所提不確定數(shù)據(jù)均指區(qū)間數(shù),其定義如下:

定義1給定,稱為一個區(qū)間數(shù),mL為區(qū)間數(shù)的左端點,mU為區(qū)間數(shù)的右端點。特別地,若mL=mU,則變?yōu)橐粋€確定數(shù)。

1.2 不確定數(shù)據(jù)距離

聚類算法通常按照某種相似準則將數(shù)據(jù)集劃分成為若干個簇,通常以數(shù)據(jù)間的距離作為相似度衡量標準,而傳統(tǒng)方法僅適用于確定性數(shù)據(jù),因此,尋求一個能有效衡量不確定數(shù)據(jù)相似度的不確定數(shù)據(jù)距離是不確定性數(shù)據(jù)聚類的關(guān)鍵?;诖?,文獻[5]提出了一種基于中點和半徑的不確定數(shù)據(jù)距離—Hausdorff 距離,其定義如下:

定義2對于區(qū)間數(shù)m=[mL mU],n=[nL nU],令,表示區(qū)間數(shù)的中點,表示區(qū)間數(shù)的半徑(X=m,n),則區(qū)間m和n間的Hausdorff 距離:

分析式(1)易看出,在區(qū)間數(shù)內(nèi)部點服從均勻分布的前提下,中點c(X)能有效反映出這些點數(shù)據(jù)的集中位置,半徑r(X)則能直觀刻畫其離散程度。但在實際應用中,區(qū)間數(shù)內(nèi)部的分布通常難以獲得,因此本文以Hausdorff 距離為基礎(chǔ),擴展出一種適用于任意區(qū)間數(shù)的uv距離,以下給出定義:

定義3對于區(qū)間數(shù)m=[mL mU],n=[nL nU],區(qū)間數(shù)內(nèi)部點可能服從任意分布,則區(qū)間數(shù)m和n間的uv距離定義為:

式中u(X)描述區(qū)間數(shù)的平均值,v(X)則表示區(qū)間數(shù)的平均離差(X=m,n)。

注:假設(shè)一個任意區(qū)間數(shù)為[X1Xn],。對于任意分布的區(qū)間數(shù),均值u(X)可以有效反映區(qū)間內(nèi)部數(shù)據(jù)的集中趨勢,而平均離差v(X)能較精準地刻畫區(qū)間內(nèi)的離散程度。相較于Hausdorff 距離的局限性,新提出的uv距離適用范圍更廣。在滑坡危險性預測應用中,不確定屬性降雨量的數(shù)據(jù)雖然可以獲取,但其分布情況卻無法獲知,此時若利用Hausdorff 距離度量相似性會丟失部分有效信息,導致聚類精度較低。而基于均值和平均差的uv距離可以充分利用區(qū)間內(nèi)的數(shù)據(jù)信息,進而有效度量數(shù)據(jù)間的相似性。以下進一步給出uv距離為一個度量空間的證明:

證明*區(qū)間數(shù)集η用表示,設(shè)三個區(qū)間數(shù)x,y,z∈η

(1)uv(x,y)=|u(x)-u(y)|+|v(x)-v(y)|,其中|u(x)-u(y)|≥0|v(x)-v(y)|≥0,所以uv(x,y)≥0,滿足非負性。

(2)|u(x)-u(y)|=|u(y)-u(x)|,同樣|v(x)-v(y)|=|v(y)-v(x)|,故uv(x,y)=uv(y,x),滿足對稱性。

(3)|u(x)-u(y)|+|u(y)-u(z)|≥|u(x)-u(y)|+|u(y)-u(z)|=|u(x)-u(z)|,同樣地|v(x)-v(y)|+|v(y)-v(z)|≥|v(x)-v(y)|+|v(y)-v(z)|=|z(x)-v(z)|

故uv(x,y)+uv(y,z)≥uv(x,z),滿足三角不等式性。因此uv距離滿足度量空間定義的三個條件。

2 基于不確定數(shù)據(jù)的半監(jiān)督動態(tài)K 均值算法

2.1 半監(jiān)督K-均值算法

K-均值算法是一種使用普遍的聚類算法,傳統(tǒng)K-均值算法屬于無監(jiān)督聚類算法,它首先隨機初始聚類中心,其次根據(jù)相似性將數(shù)據(jù)分配到最近的類中心,迭代更新聚類中心,直至目標函數(shù)最小化,目標函數(shù)表示為:

其中,p表示給定的數(shù)據(jù)對象,ci為第i類的聚類中心,共有k個聚類。

不同于K-均值算法隨機選取初始聚類中心的方法,Basu 等[6]提出的半監(jiān)Seeded-K-均值和Constrained-K-均值算法通過給出的少量帶類別標簽的數(shù)據(jù)形成seeds 集,并根據(jù)seeds 集確定初始聚類中心,相較于完全忽視監(jiān)督信息的傳統(tǒng)聚類算法,半監(jiān)督K-均值算法有效利用了給出的監(jiān)督信息,提高了算法的聚類性能。但基于seeds 集的Seeded-K-均值和Constrained-K-均值算法對seeds 集的規(guī)模和質(zhì)量十分敏感,若能得到一個規(guī)模大、質(zhì)量好的seeds 集,算法性能也將得到顯著提高。

因此,為進一步提高半監(jiān)督K-均值算法的聚類性能,分別從seeds 集和算法本身提出改進方案。

2.2 seeds 集優(yōu)化

在基于seeds 集的半監(jiān)督K-均值算法中,初始聚類中心的質(zhì)量對聚類效果的影響顯著。因此提出一種seeds 集優(yōu)化方法:首先對原始seeds 集消噪,通過檢測seeds 集中所有數(shù)據(jù)點,刪除差異較大的噪聲點;其次以去噪后的標簽樣本為基礎(chǔ),結(jié)合滑坡分布空間上局地集中發(fā)育的性質(zhì)[8],進行標簽數(shù)據(jù)的空間擴展,最終得到規(guī)模大、質(zhì)量高的seeds 集。

seeds 集由已知帶標記的數(shù)據(jù)構(gòu)成,傳統(tǒng)方法把seeds 集直接按類別標記劃分成k個類,并以此確定k個聚類中心,但是在seeds 集中,可能存在少量這樣的數(shù)據(jù):雖然它帶有類別標簽,但它與類中其它數(shù)據(jù)點的相似性卻很小,表現(xiàn)為該點的平均距離遠大于類內(nèi)其它點的平均距離。將此類點直接劃分到初始類會直接影響初始中心的計算,因此首先提出一種方法,剪輯原始seeds 集中的噪聲點,其具體方法如下:首先把seeds 集DL中的數(shù)據(jù)按照類標號分成k個類:C1,C2,…,CK;n1,n2,…,nk表示每個類中的點數(shù)目,計算每個點的平均距離,刪除各類中平均距離明顯較大的點。給出點xi的平均距離公式:

注意:若聚類對象為確定性數(shù)據(jù)時,點的平均距離用歐式距離計算;若聚類對象屬性為不確定數(shù)據(jù)時,點的平均距離用uv距離計算。

算法1:標簽數(shù)據(jù)集的消噪

輸入:標簽數(shù)據(jù)集DL

輸出:標簽數(shù)據(jù)集DL_

Step 1數(shù)據(jù)集DL按類別標號初始化k個類:C1,C2,…,Ck。

Step 2計算k個類中每點的平均距離avg(xi)(xi∈Ck)。

Step 3每個類中的點分別按平均距離升序排列,刪除平均距離明顯偏大的點。

Step 4用DL_表示剩下的點組成的標簽數(shù)據(jù)及并輸出。

算法1 中,數(shù)據(jù)集劃分成k個類的時間復雜度為O(L),其中L是標簽數(shù)據(jù)集的大小,計算每點的平均距離的時間復雜度為O(L2),排序采取快速排序方法,時間復雜度為O(Llog2L),因此,標簽數(shù)據(jù)集消噪的時間復雜度為O(L2)。

由于實際應用中通??色@得的標簽樣本非常少,經(jīng)過上述方法消噪后的seeds 集雖然質(zhì)量得到提升,但其規(guī)模仍然很小,因此,結(jié)合數(shù)據(jù)集本身具有的空間一致性的性質(zhì)[10],根據(jù)應用實例中滑坡成群分布的基本特點完全符合這一性質(zhì)的實際情況,并同時考慮到實驗能通過ARCGIS 獲取各滑坡點的空間位置的實際條件,提出一種標簽數(shù)據(jù)空間擴展方法。其具體方法如下:首先計算出消噪后的seeds 集中各類的類平均距離avg(Ck),以avg(Ck)作為各類標簽的擴展閾值,其次求出k個類的類中心Ck,以類中心為起點,搜索空間范圍內(nèi)滿足空間閾值φ范圍內(nèi)的所有點,并比較這些點與Ck的平均距離,若不大于avg(Ck),則將點Ck的類別標記賦給此點,反之,此點仍為未標記數(shù)據(jù)。

首先給出類平均距離的定義,把DL_中的數(shù)據(jù)按照類標號分成k個類:C1,C2,…,Ck,nk表示第k個類中的點數(shù)目,avg(xi)表示點xi的平均距離,類平均距離avg(Ck)為類內(nèi)所有點平均距離的平均值,計算方法如下:

其次,類中心Ck的計算方法如下:

最后,空間閾值φ實質(zhì)上是一個空間范圍,它表示在空間范圍φ內(nèi)的所有點很可能屬于同一個類,但它的值并不固定,根據(jù)聚類應用的不同,φ值也不同。

算法2:標簽數(shù)據(jù)集的空間擴展

輸入:標簽數(shù)據(jù)集DL_,未標記數(shù)據(jù)集Ln,空間閾值φ。

輸出:標簽數(shù)據(jù)集D*L,未標記數(shù)據(jù)集Ln_。

Step 1把數(shù)據(jù)集DL_按類別標號劃分成k個類:C1,C2,…,Ck,并計算每個類的類平均距離avg(Ck)及類中心Ck。

Step 2得求出類中心Ck與Ln集中每個點的空間位置。

Step 3在未標記數(shù)據(jù)集Ln上尋找與類中心Ck在空間上滿足φ的所有點,并計算它與Ck的平均距離。

Step 4若d(Ck,Ln)≤avg(Ck),則Ln的類別標記為k,若d(Ck,Ln)>avg(Ck),則點Ln仍為未標記數(shù)據(jù)。

Step 5用D*L及Ln_分別表示所有標記數(shù)據(jù)點組成的標簽數(shù)據(jù)集和未標記數(shù)據(jù)點組成的數(shù)據(jù)集并輸出。

算法2 中,計算類平均距離及類中心的時間復雜度為O(L2_),其中,L_是數(shù)據(jù)集DL_的大小。得到類中心及Ln集中點空間位置的時間復雜度為O(k+n),其中,k是數(shù)據(jù)集DL_中的類別,n是數(shù)據(jù)集Ln的大小。其次在數(shù)據(jù)集Ln上尋找與k個類中心空間上滿足φ的點的時間復雜度為O(kn)。因此,標簽數(shù)據(jù)集的擴展的時間復雜度為max{O(kn),O(L2_)}。

2.3 基于不確定數(shù)據(jù)的半監(jiān)督動態(tài)K-均值算法(USSD-K-均值算法)

不同于傳統(tǒng)聚類算法針對屬性為確定性數(shù)據(jù)的情形,新提出的用于滑坡危險性預測的USSD-K-均值算法研究的對象為不確定數(shù)據(jù),因此該算法首先引入新提出的uv距離,其次,相較于傳統(tǒng)半監(jiān)督K-均值算法通過迭代改善目標函數(shù)多次分配所有對象的方法,USSD-K-均值算法在seeds 集優(yōu)化的基礎(chǔ)上,引進隸屬度的概念,通過遞減隸屬度閾值對所有對象進行逐步擇優(yōu)劃分,保證每次劃分結(jié)果的質(zhì)量。算法3 給出USSD-K-均值算法的聚類過程。

算法3USSD-K 均值算法

輸入:標簽數(shù)據(jù)集DL,未標記數(shù)據(jù)集Ln,空間閾值φ

輸出:聚類結(jié)果

Step 1算法1。

Step 2算法2。

Step 3計算seeds 集D*L中的初始類中心。

把數(shù)據(jù)集D*L按類別標號劃分成k個類:C1,C2,…,Ck,計算每個類的中心,其計算方法:

其中,nk為第k類中點的數(shù)目。

Step 4計算未標記數(shù)據(jù)集中的點到各個類的隸屬度。

隸屬度概念來源于模糊簇,它度量對象屬于不同類的程度,通常用于模糊聚類中劃分矩陣的計算,而本文引入隸屬度概念,通過設(shè)定隸屬度閾值判斷對象是否滿足被劃分的依據(jù),通常用Wij表示點Li在類Cj中的隸屬度,其計算方法如下:

seeds 集D*L中各類的初始中心為未標記數(shù)據(jù)集為Ln_(l1,l2,l3,…,ln_),則表示為:

Step 5設(shè)置隸屬度閾值,并通過降低閾值做逐次劃分。

隸屬度閾值用于判斷數(shù)據(jù)對象在某類中的隸屬度是否達到將該對象劃分到這個類的標準,本文用θ代表隸屬度閾值,若Wij>θ,則可以將對象li劃分到類cj中。通常將初始θ值設(shè)置為較高值,以保證劃分結(jié)果的高質(zhì)量。β為下降系數(shù),代表每次劃分隸屬度閾值的降低程度,通常根據(jù)實際應用中對聚類結(jié)果的精度要求設(shè)置。本節(jié)以初始θ值為0.8,下降系數(shù)β為0.9 為例進行描述:(值得注意的一點是,前期為保證劃分質(zhì)量,下降系數(shù)設(shè)置為0.9,當隸屬度閾值達到一個較低的水平,此時可以增強下降系數(shù),使隸屬度閾值大幅下降,具體地,設(shè)定β=β2):

a) 將初始θ值設(shè)為0.8,計算Ln_集中所有對象到各類的隸屬度,若則將對象li劃分到第j類,若對象li到每個類的隸屬度均小于0.8,則它回到未標記數(shù)據(jù)集中進入下一次劃分,直至對象Wn_j被比較,第一次劃分結(jié)束。得到新的有標簽數(shù)據(jù)集D1未標記數(shù)據(jù)集

迭代更新類中心,并根據(jù)隸屬度閾值逐次劃分

……

算法3 中,seeds 集優(yōu)化的總時間復雜度為max{O(L2),O(kn)}。其次計算類中心的時間復雜度為O(L*),L*為數(shù)據(jù)集D*L的大小。計算隸屬度的時間復雜度為O(kn_),其中,n_為數(shù)據(jù)集Ln_的大小。根據(jù)隸屬度閾值做不同劃分的時間復雜度為O(n2_)。因此,USSD-K-均值算法的整體時間復雜度為O(n2_)。

3 實驗

為驗證本文提出的uv距離及USSD-K-均值算法在衡量滑坡不確定因素降雨量及預測滑坡危險性上的效果,本次實驗以延安市寶塔區(qū)的某區(qū)域作為實驗對象,提取相關(guān)數(shù)據(jù),并以給出的少量先驗信息為指導,分別進行對比實驗。

3.1 實驗準備

結(jié)合滑坡地質(zhì)災害發(fā)生的特征及學者對該區(qū)域滑坡災害形成機理的研究,本次實驗選取坡高、坡型、坡度、坡向、植被、巖土體結(jié)構(gòu)、降雨七個屬性作為滑坡危險性的評價因子。首先利用ARCGIS對該區(qū)域進行柵格劃分,選取尺寸為5 m×5 m 的柵格分辨率,得到152457 個柵格單元。其次把每個柵格單元看成一個點,導入到精度為1:5000 的數(shù)字高程度中,可以分別得出每個點的經(jīng)緯度,并派生出坡型、坡度、坡高和坡向等專題圖。從各專題圖中可以獲取所需的地形地貌等信息,巖土體數(shù)據(jù)從1:1000 的地質(zhì)圖中獲取,植被數(shù)據(jù)通過EVNI 遙感軟件取得,降雨量數(shù)據(jù)來源于地調(diào)中心的GIS數(shù)據(jù)庫[11]。決策因子為滑坡危險性等級,分為高、中、低三個危險性等級,研究區(qū)根據(jù)專家基于區(qū)域特征的分析已經(jīng)選取了326 個觀測點并確定其危險性等級,觀測點的危險性等級包含了高危、中危、低危三個類別。

3.2 參數(shù)設(shè)置及模型建立

引入不確定數(shù)據(jù)模型—uv距離,在算法過程中,不確定屬性降雨量的衡量統(tǒng)一使用uv距離。首先以給出的326 個觀測點作為標記數(shù)據(jù)集形成初始seeds 集DL,根據(jù)危險性等級高危、中危、低危將其劃分成3 個類,利用算法1 進行seeds 集消噪,刪除少量噪聲點。其次根據(jù)地質(zhì)與數(shù)據(jù)專家分析滑坡本身空間分布及該區(qū)域地質(zhì)災害分布特點得到的結(jié)果,將空間閾值φ設(shè)置為387 m,空間閾值φ在本次滑坡應用中的實際意義為:若某點的危險性等級確定,則在其空間范圍387 m 內(nèi)的所有點的危險性等級很可能與它一致。以seeds 集消噪后的觀測點作為DL_集,其余152131 個觀測點形成未標記數(shù)據(jù)集Ln,閾值φ=387 m,利用算法2 進行標簽數(shù)據(jù)的空間擴展,得到最終seeds 集D*L及未標記數(shù)據(jù)集Ln_。最后本次實驗將初始θ值設(shè)置為0.85,下降系數(shù)β為0.9,利用算法3 在數(shù)據(jù)集Ln_進行聚類,得到最終聚類結(jié)果。

3.3 評價標準

在本次滑坡危險性預測的實驗中,選取內(nèi)部有效性指標Silhouette 指標[12]作為實驗的聚類評價標準,用于未知樣本集聚類效果的判斷。它通過點的緊密度和分離度來計算,其計算方法如下:

其中,式中點x屬于類Cj,a(x)表示點x與Cj中其它點的平均距離,b(x)=min{dis(x,ci)},i=1,2,…,k,且i≠j。從式中易看出Silhouette 指標取值在[-1,1]之間,全部樣本的平均Silhouette 值越接近1,表明聚類效果越好。具體地,在滑坡危險性預測實驗中,Silhouette 指標值越高,表明其預測精度越好。

3.4 實驗分析

3.4.1uv距離效果分析 為驗證uv距離在衡量不確定因素降雨量的有效性,在保證其他參數(shù)和步驟均相同的情況下,分別基于歐氏距離、Hausdorff 距離以及新提出的uv距離衡量降雨量,使用新算法比較滑坡危險性等級的聚類效果。不同比例數(shù)據(jù)集下三種距離衡量不確定雨量時算法的聚類效果(圖1)。

從圖1 可見,新提出的uv距離衡量不確定因素降雨量時,聚類Silhouette 指標值達到0.8 以上,優(yōu)于利用歐氏距離和Hausdorff 距離衡量降雨量時的聚類結(jié)果。歐式距離在衡量降雨量時,完全忽略了數(shù)據(jù)的不確定性,因此聚類效果不佳。Huasdorff 距離雖然考慮了其不確定性,但它丟失了部分內(nèi)部重要信息,其衡量效果優(yōu)于歐式距離,但遜于uv距離,其Silhouette 指標值平均在0.78 左右。而本文提出的基于均值和平均差的uv距離充分利用了不確定數(shù)據(jù)的內(nèi)部信息,達到了較好的衡量效果。

3.4.2 USSD-K-均值算法性能分析 為驗證USSD-K-均值算法有效性,實驗基于不同比例數(shù)據(jù)集,對Seeded-K-均值算法、Constrained-K-均值算法和基于Tri-Training 和數(shù)據(jù)剪輯的半監(jiān)督K-均值算法和本文提出的USSD-K-均值算法分別進行測試。圖2 給出Silhouette 指標對比結(jié)果。

從圖2 可以發(fā)現(xiàn)USSD-K-均值算法的聚類效果整體好于Seeded-K-均值算法、Constrained-K-均值算法及基于Tri-Training 和數(shù)據(jù)剪輯的半監(jiān)K-均值算法,具體地看,Seeded-K-均值算法和Constrained-K-均值算法的聚類指標Silhouette 值平均在0.70 左右,聚類精度偏低,且隨數(shù)據(jù)集增加,seeds 集所占比例隨之減少時,初始類中心的質(zhì)量無法保證,聚類精度逐漸降低。而基于Tri-Training和數(shù)據(jù)剪輯的半監(jiān)督K-均值算法通過優(yōu)化seeds 集提高了聚類精度,Silhouette 值范圍達到0.82 左右,它的聚類效果雖然高于傳統(tǒng)的半監(jiān)督K-均值算法,但仍未達到滑坡危險性預測應用的預期標準。本文提出的USSD-K-均值算法從seeds 集優(yōu)化及算法本身兩個角度進行改進,通過合理利用滑坡分布的特點進行空間擴展,并設(shè)置隸屬度閾值擇優(yōu)劃分,其Silhouette 值高達0.86,優(yōu)于其它算法。根據(jù)對比不同算法的聚類性能,不難發(fā)現(xiàn)USSD-K-均值算法在滑坡危險性預測上的優(yōu)勢。

圖1 不同距離的衡量效果對比實驗Fig.1 Comparison of measuring effect of the different distances

圖2 不同算法聚類效果的對比實驗Fig.2 Comparison of clustering effects of different algorithms

圖3 seeds 集優(yōu)化的對比實驗Fig.3 Comparison of seeds optimization

3.4.3 seeds 集優(yōu)化效果分析 為進一步明確文中所提出的充分結(jié)合滑坡分布特點的seeds 集優(yōu)化方法的作用,對未進行seeds 集優(yōu)化的USSD-K-均值算法及USSD-K-均值算法也進行比較(圖3)。

分析圖3 易得,經(jīng)過seeds 集優(yōu)化后的聚類效果明顯優(yōu)于未經(jīng)seeds 集優(yōu)化的聚類效果,尤其在樣本數(shù)量增多的情況下,seeds 集的規(guī)模不變,但其所占樣本的比例變少,此時由seeds 集引導的聚類效果不佳,如圖3 所示,當數(shù)據(jù)樣本比例達到3%時,未進行seeds 集優(yōu)化的USSD-K-均值算法的Silhouette 指標值僅為0.71。而新提出的USSD-K-均值算法利用除噪和空間擴展的方式優(yōu)化seeds 集,通過在空間閾值內(nèi)尋找相似標簽數(shù)據(jù)的方法,在擴大seeds 集的同時保證了質(zhì)量。因此,USSD-K-均值算法在滑坡危險性預測上的聚類效果取得高達0.86 的平均Silhouette 值,seeds 集優(yōu)化的作用顯著。

4 結(jié)論與展望

本文首先提出一種新的不確定數(shù)據(jù)距離—uv距離,它實現(xiàn)了滑坡誘發(fā)因素中不確定降雨量的有效刻畫。其次基于uv距離提出一種基于不確定數(shù)據(jù)的半監(jiān)督動態(tài)K-均值算法,首先利用消噪和空間擴展優(yōu)化seeds 集,其次引入隸屬度并設(shè)置隸屬度閾值進行逐優(yōu)劃分,達到了提高滑坡危險性預測精度的目的。實驗結(jié)果分別驗證了uv距離衡量不確定數(shù)據(jù)的有效性及USSD-K-均值算法預測滑坡危險性的良好性能。

研究中所提出的空間擴展方法有效結(jié)合了數(shù)據(jù)集本身具有的空間一致性的性質(zhì)及滑坡成群分布的特點,該方法中的空間閾值φ用于控制空間擴展的規(guī)模,其取值對聚類結(jié)果影響顯著,且根據(jù)滑坡分布區(qū)域的不同,φ值也會變化。因此分析φ對計算結(jié)果的影響及研究不同區(qū)域內(nèi)φ的取值將是我們下一步工作的重點。

猜你喜歡
危險性均值滑坡
O-3-氯-2-丙烯基羥胺熱危險性及其淬滅研究
危險性感
滑坡推力隱式解與顯式解對比分析——以河北某膨脹土滑坡為例
輸氣站場危險性分析
基于AHP對電站鍋爐進行危險性分析
淺談公路滑坡治理
北方交通(2016年12期)2017-01-15 13:52:59
均值不等式失效時的解決方法
基于Fluent的滑坡入水過程數(shù)值模擬
均值與方差在生活中的應用
“監(jiān)管滑坡”比“渣土山”滑坡更可怕
山東青年(2016年3期)2016-02-28 14:25:50
乐至县| 如皋市| 衡山县| 西安市| 柳河县| 黔东| 焦作市| 延庆县| 连州市| 和顺县| 南宁市| 乃东县| 九江县| 云林县| 饶阳县| 庆元县| 巴塘县| 仁布县| 隆子县| 剑河县| 咸阳市| 大兴区| 东港市| 洞头县| 固阳县| 青河县| 阿克苏市| 汉源县| 石首市| 金坛市| 土默特左旗| 南靖县| 中卫市| 嘉兴市| 都匀市| 通河县| 古丈县| 屏山县| 凤冈县| 册亨县| 陆河县|