基于不確定數(shù)據(jù)的半監(jiān)督動態(tài)K-均值算法在滑坡危險性預測上的應用

2020-05-21 00:18:32

山東農(nóng)業(yè)大學學報(自然科學版) 2020年2期

景德鎮(zhèn)學院,江西景德鎮(zhèn) 333000

滑坡災害是地質(zhì)災害中最重要的災害類型之一，具有分布地區(qū)廣、運動速度快、災害損失嚴重等特點[1]。我國是滑坡災害較為多發(fā)的國家之一，且近年來發(fā)生頻率不斷增加，因此，有效的滑坡危險性預測方法仍是現(xiàn)今研究的熱點。

無監(jiān)督聚類方法已廣泛用于滑坡危險性預測領(lǐng)域，無監(jiān)督聚類是指在不需要任何先驗信息的情況下，通過抽取數(shù)據(jù)中的“潛在”結(jié)構(gòu)，將數(shù)據(jù)劃分到不同類別。張俊等[2]采用K-means 聚類算法，選取7 個致災因子作為滑坡易發(fā)性的評價指標，對三峽庫萬州區(qū)的滑坡易發(fā)性評價體系進行分級，實驗證明滑坡易發(fā)性評價體系預測精度較高。吳亞子等[3]基于灰色聚類法，通過計算11 個因子對應評價級別的基準劃分值，對阿里地區(qū)滑坡等地質(zhì)災害的危險性展開評價預估，得到了較好的預測結(jié)果。阮云凱等[4]采用K-PSO 聚類算法，確定8 個影響因子并計算影響因子權(quán)重值，在旭龍水電站庫區(qū)實驗中的滑坡危險性預測結(jié)果證明與實際發(fā)育情況具有較高的一致性。雖然無監(jiān)督聚類在滑坡危險性預測上取得了一些成效，但是仍存在一些明顯的問題：首先，傳統(tǒng)聚類算法多應用于屬性為確定性的數(shù)據(jù)，而在處理滑坡的不確定誘發(fā)因素降雨量的聚類上效果不佳；其次，整個聚類過程由于沒有任何先驗信息的指導，很可能會產(chǎn)生沒有實際意義的劃分結(jié)果，且聚類精度整體偏低。因此，研究分別從這兩個方面出發(fā)，進行優(yōu)化方案的探討。

不確定數(shù)據(jù)作為新型數(shù)據(jù)之一，近年來受到廣泛關(guān)注。對于降雨量這類的不確定數(shù)據(jù)，傳統(tǒng)針對確定性數(shù)據(jù)的歐氏距離無法有效度量其間距?；诖?，郭軍鵬[5]提出了一種基于中點和半徑的不確定數(shù)據(jù)距離—Hausdorff 距離，該距離是目前使用較為廣泛的一種不確定數(shù)據(jù)距離，但同時，該距離僅適用于內(nèi)部服從均勻分布的不確定數(shù)據(jù)，而在實際應用中，不確定數(shù)據(jù)的內(nèi)部分布通常未知。因此，文中以Hausdorff 距離為基礎(chǔ)，擴展出一種適用于任意不確定數(shù)據(jù)的uv距離。

利用先驗信息來指導聚類過程，改善無監(jiān)督聚類算法的性能，該類算法在數(shù)據(jù)挖掘領(lǐng)域被統(tǒng)稱為半監(jiān)督聚類，先驗信息通常是數(shù)據(jù)的類別標記或約束關(guān)系。由于在滑坡危險性預測應用中，往往存在少量滑坡觀測點的類別信息，由此提出將先驗信息為類別標簽的半監(jiān)督聚類應用于滑坡危險性預測的設(shè)想。在以類別標記為監(jiān)督信息引導聚類過程的算法研究中，Basu 等[6]首先提出了Seeded-K-均值和Constrained-K-均值算法,它們使用少量帶類別標簽的標記數(shù)據(jù)形成seeds 集以初始化類中心，進而提高整個數(shù)據(jù)集的聚類性能，但同時，seeds 集的質(zhì)量和規(guī)模對聚類結(jié)果的影響顯著。因此，文獻[7]提出一種改進的半監(jiān)督聚類算法，該算法通過Tri-training 的迭代過程及數(shù)據(jù)剪輯的Depuration技術(shù)提高seeds 集質(zhì)量，進一步提高了算法的聚類性能，但該算法僅從seeds 集角度進行分析改進，且改進方法未結(jié)合應用本身特點。因此，本次研究充分考慮滑坡應用本身性質(zhì)，引入衡量降雨量的uv距離，設(shè)計了一種基于不確定數(shù)據(jù)的半監(jiān)督動態(tài)K-均值算法(USSD-K-均值算法（Uncertain semi-supervised dynamic）)，并分別從seeds 集質(zhì)量和算法過程兩個角度進行優(yōu)化。首先對初始seeds集進行消噪，其次利用滑坡分布的局地集中發(fā)育特點[8]進行標簽的空間擴展，實現(xiàn)seeds 集優(yōu)化；其次引用隸屬度概念，通過設(shè)置隸屬度閾值動態(tài)更新劃分結(jié)果，有效提高了聚類性能。

本文提出一個新的不確定數(shù)據(jù)測度，闡述基于不確定數(shù)據(jù)的半監(jiān)督動態(tài)聚類算法的具體步驟，并給出時間復雜度分析，通過實驗對uv距離及USSD-K-均值算法進行性能測試并對結(jié)果比較分析，并對全文工作進行總結(jié)及展望。

1 不確定數(shù)據(jù)

1.1 不確定數(shù)據(jù)概念

不確定數(shù)據(jù)，即帶有不確定性的數(shù)據(jù)。根據(jù)其不確定性的表示方式，可以將不確定數(shù)據(jù)分為傳輸數(shù)據(jù)的點概率數(shù)、測量數(shù)據(jù)的區(qū)間數(shù)等[9]。本文所研究的滑坡危險性應用，其不確定誘發(fā)因素降雨量的表現(xiàn)形式為區(qū)間數(shù)，因此文中所提不確定數(shù)據(jù)均指區(qū)間數(shù)，其定義如下：

定義1給定，稱為一個區(qū)間數(shù)，mL為區(qū)間數(shù)的左端點，mU為區(qū)間數(shù)的右端點。特別地，若mL=mU，則變?yōu)橐粋€確定數(shù)。

1.2 不確定數(shù)據(jù)距離

聚類算法通常按照某種相似準則將數(shù)據(jù)集劃分成為若干個簇，通常以數(shù)據(jù)間的距離作為相似度衡量標準，而傳統(tǒng)方法僅適用于確定性數(shù)據(jù)，因此，尋求一個能有效衡量不確定數(shù)據(jù)相似度的不確定數(shù)據(jù)距離是不確定性數(shù)據(jù)聚類的關(guān)鍵?；诖?，文獻[5]提出了一種基于中點和半徑的不確定數(shù)據(jù)距離—Hausdorff 距離，其定義如下：

定義2對于區(qū)間數(shù)m=[mL mU]，n=[nL nU]，令，表示區(qū)間數(shù)的中點，表示區(qū)間數(shù)的半徑(X=m,n)，則區(qū)間m和n間的Hausdorff 距離：

分析式（1）易看出，在區(qū)間數(shù)內(nèi)部點服從均勻分布的前提下，中點c(X)能有效反映出這些點數(shù)據(jù)的集中位置，半徑r(X)則能直觀刻畫其離散程度。但在實際應用中，區(qū)間數(shù)內(nèi)部的分布通常難以獲得，因此本文以Hausdorff 距離為基礎(chǔ)，擴展出一種適用于任意區(qū)間數(shù)的uv距離，以下給出定義：

定義3對于區(qū)間數(shù)m=[mL mU]，n=[nL nU]，區(qū)間數(shù)內(nèi)部點可能服從任意分布，則區(qū)間數(shù)m和n間的uv距離定義為：

式中u(X)描述區(qū)間數(shù)的平均值，v(X)則表示區(qū)間數(shù)的平均離差（X=m,n）。

注：假設(shè)一個任意區(qū)間數(shù)為[X1Xn]，。對于任意分布的區(qū)間數(shù)，均值u(X)可以有效反映區(qū)間內(nèi)部數(shù)據(jù)的集中趨勢，而平均離差v(X)能較精準地刻畫區(qū)間內(nèi)的離散程度。相較于Hausdorff 距離的局限性，新提出的uv距離適用范圍更廣。在滑坡危險性預測應用中，不確定屬性降雨量的數(shù)據(jù)雖然可以獲取，但其分布情況卻無法獲知，此時若利用Hausdorff 距離度量相似性會丟失部分有效信息，導致聚類精度較低。而基于均值和平均差的uv距離可以充分利用區(qū)間內(nèi)的數(shù)據(jù)信息，進而有效度量數(shù)據(jù)間的相似性。以下進一步給出uv距離為一個度量空間的證明：

證明*區(qū)間數(shù)集η用表示，設(shè)三個區(qū)間數(shù)x，y，z∈η

（2）|u(x)-u(y)|=|u(y)-u(x)|，同樣|v(x)-v(y)|=|v(y)-v(x)|，故uv(x,y)=uv(y,x)，滿足對稱性。

（3）|u(x)-u(y)|+|u(y)-u(z)|≥|u(x)-u(y)|+|u(y)-u(z)|=|u(x)-u(z)|，同樣地|v(x)-v(y)|+|v(y)-v(z)|≥|v(x)-v(y)|+|v(y)-v(z)|=|z(x)-v(z)|

故uv(x,y)+uv(y,z)≥uv(x,z)，滿足三角不等式性。因此uv距離滿足度量空間定義的三個條件。

2 基于不確定數(shù)據(jù)的半監(jiān)督動態(tài)K 均值算法

2.1 半監(jiān)督K-均值算法

K-均值算法是一種使用普遍的聚類算法，傳統(tǒng)K-均值算法屬于無監(jiān)督聚類算法，它首先隨機初始聚類中心，其次根據(jù)相似性將數(shù)據(jù)分配到最近的類中心，迭代更新聚類中心，直至目標函數(shù)最小化，目標函數(shù)表示為：

其中，p表示給定的數(shù)據(jù)對象，ci為第i類的聚類中心，共有k個聚類。

不同于K-均值算法隨機選取初始聚類中心的方法，Basu 等[6]提出的半監(jiān)Seeded-K-均值和Constrained-K-均值算法通過給出的少量帶類別標簽的數(shù)據(jù)形成seeds 集，并根據(jù)seeds 集確定初始聚類中心，相較于完全忽視監(jiān)督信息的傳統(tǒng)聚類算法，半監(jiān)督K-均值算法有效利用了給出的監(jiān)督信息，提高了算法的聚類性能。但基于seeds 集的Seeded-K-均值和Constrained-K-均值算法對seeds 集的規(guī)模和質(zhì)量十分敏感，若能得到一個規(guī)模大、質(zhì)量好的seeds 集，算法性能也將得到顯著提高。

因此，為進一步提高半監(jiān)督K-均值算法的聚類性能，分別從seeds 集和算法本身提出改進方案。

2.2 seeds 集優(yōu)化

在基于seeds 集的半監(jiān)督K-均值算法中，初始聚類中心的質(zhì)量對聚類效果的影響顯著。因此提出一種seeds 集優(yōu)化方法：首先對原始seeds 集消噪，通過檢測seeds 集中所有數(shù)據(jù)點，刪除差異較大的噪聲點；其次以去噪后的標簽樣本為基礎(chǔ)，結(jié)合滑坡分布空間上局地集中發(fā)育的性質(zhì)[8]，進行標簽數(shù)據(jù)的空間擴展，最終得到規(guī)模大、質(zhì)量高的seeds 集。

seeds 集由已知帶標記的數(shù)據(jù)構(gòu)成，傳統(tǒng)方法把seeds 集直接按類別標記劃分成k個類，并以此確定k個聚類中心，但是在seeds 集中，可能存在少量這樣的數(shù)據(jù)：雖然它帶有類別標簽，但它與類中其它數(shù)據(jù)點的相似性卻很小，表現(xiàn)為該點的平均距離遠大于類內(nèi)其它點的平均距離。將此類點直接劃分到初始類會直接影響初始中心的計算，因此首先提出一種方法，剪輯原始seeds 集中的噪聲點，其具體方法如下：首先把seeds 集DL中的數(shù)據(jù)按照類標號分成k個類：C1,C2,…,CK；n1,n2,…,nk表示每個類中的點數(shù)目，計算每個點的平均距離，刪除各類中平均距離明顯較大的點。給出點xi的平均距離公式：

注意：若聚類對象為確定性數(shù)據(jù)時，點的平均距離用歐式距離計算；若聚類對象屬性為不確定數(shù)據(jù)時，點的平均距離用uv距離計算。

算法1：標簽數(shù)據(jù)集的消噪

輸入：標簽數(shù)據(jù)集DL

輸出：標簽數(shù)據(jù)集DL_

Step 1數(shù)據(jù)集DL按類別標號初始化k個類：C1,C2,…,Ck。

Step 2計算k個類中每點的平均距離avg(xi)(xi∈Ck)。

Step 3每個類中的點分別按平均距離升序排列，刪除平均距離明顯偏大的點。

Step 4用DL_表示剩下的點組成的標簽數(shù)據(jù)及并輸出。

算法1 中，數(shù)據(jù)集劃分成k個類的時間復雜度為O(L)，其中L是標簽數(shù)據(jù)集的大小，計算每點的平均距離的時間復雜度為O(L2)，排序采取快速排序方法，時間復雜度為O(Llog2L)，因此，標簽數(shù)據(jù)集消噪的時間復雜度為O(L2)。

由于實際應用中通?？色@得的標簽樣本非常少，經(jīng)過上述方法消噪后的seeds 集雖然質(zhì)量得到提升，但其規(guī)模仍然很小，因此，結(jié)合數(shù)據(jù)集本身具有的空間一致性的性質(zhì)[10]，根據(jù)應用實例中滑坡成群分布的基本特點完全符合這一性質(zhì)的實際情況，并同時考慮到實驗能通過ARCGIS 獲取各滑坡點的空間位置的實際條件，提出一種標簽數(shù)據(jù)空間擴展方法。其具體方法如下：首先計算出消噪后的seeds 集中各類的類平均距離avg(Ck)，以avg(Ck)作為各類標簽的擴展閾值，其次求出k個類的類中心Ck，以類中心為起點，搜索空間范圍內(nèi)滿足空間閾值φ范圍內(nèi)的所有點，并比較這些點與Ck的平均距離，若不大于avg(Ck)，則將點Ck的類別標記賦給此點，反之，此點仍為未標記數(shù)據(jù)。

首先給出類平均距離的定義，把DL_中的數(shù)據(jù)按照類標號分成k個類：C1,C2,…,Ck，nk表示第k個類中的點數(shù)目，avg(xi)表示點xi的平均距離，類平均距離avg(Ck)為類內(nèi)所有點平均距離的平均值，計算方法如下：

其次，類中心Ck的計算方法如下：

最后，空間閾值φ實質(zhì)上是一個空間范圍，它表示在空間范圍φ內(nèi)的所有點很可能屬于同一個類，但它的值并不固定，根據(jù)聚類應用的不同，φ值也不同。

算法2：標簽數(shù)據(jù)集的空間擴展

輸入：標簽數(shù)據(jù)集DL_，未標記數(shù)據(jù)集Ln，空間閾值φ。

輸出：標簽數(shù)據(jù)集D*L，未標記數(shù)據(jù)集Ln_。

Step 1把數(shù)據(jù)集DL_按類別標號劃分成k個類：C1,C2,…,Ck，并計算每個類的類平均距離avg(Ck)及類中心Ck。

Step 2得求出類中心Ck與Ln集中每個點的空間位置。

Step 3在未標記數(shù)據(jù)集Ln上尋找與類中心Ck在空間上滿足φ的所有點，并計算它與Ck的平均距離。

Step 4若d(Ck,Ln)≤avg(Ck)，則Ln的類別標記為k，若d(Ck,Ln)＞avg(Ck)，則點Ln仍為未標記數(shù)據(jù)。

Step 5用D*L及Ln_分別表示所有標記數(shù)據(jù)點組成的標簽數(shù)據(jù)集和未標記數(shù)據(jù)點組成的數(shù)據(jù)集并輸出。

算法2 中，計算類平均距離及類中心的時間復雜度為O(L2_)，其中，L_是數(shù)據(jù)集DL_的大小。得到類中心及Ln集中點空間位置的時間復雜度為O(k+n)，其中，k是數(shù)據(jù)集DL_中的類別，n是數(shù)據(jù)集Ln的大小。其次在數(shù)據(jù)集Ln上尋找與k個類中心空間上滿足φ的點的時間復雜度為O(kn)。因此，標簽數(shù)據(jù)集的擴展的時間復雜度為max{O(kn),O(L2_)}。

2.3 基于不確定數(shù)據(jù)的半監(jiān)督動態(tài)K-均值算法（USSD-K-均值算法）

不同于傳統(tǒng)聚類算法針對屬性為確定性數(shù)據(jù)的情形，新提出的用于滑坡危險性預測的USSD-K-均值算法研究的對象為不確定數(shù)據(jù)，因此該算法首先引入新提出的uv距離，其次，相較于傳統(tǒng)半監(jiān)督K-均值算法通過迭代改善目標函數(shù)多次分配所有對象的方法，USSD-K-均值算法在seeds 集優(yōu)化的基礎(chǔ)上，引進隸屬度的概念，通過遞減隸屬度閾值對所有對象進行逐步擇優(yōu)劃分，保證每次劃分結(jié)果的質(zhì)量。算法3 給出USSD-K-均值算法的聚類過程。

算法3USSD-K 均值算法

輸入：標簽數(shù)據(jù)集DL，未標記數(shù)據(jù)集Ln，空間閾值φ

輸出：聚類結(jié)果

Step 1算法1。

Step 2算法2。

Step 3計算seeds 集D*L中的初始類中心。

把數(shù)據(jù)集D*L按類別標號劃分成k個類：C1,C2,…,Ck，計算每個類的中心，其計算方法：

其中，nk為第k類中點的數(shù)目。

Step 4計算未標記數(shù)據(jù)集中的點到各個類的隸屬度。

隸屬度概念來源于模糊簇，它度量對象屬于不同類的程度，通常用于模糊聚類中劃分矩陣的計算，而本文引入隸屬度概念，通過設(shè)定隸屬度閾值判斷對象是否滿足被劃分的依據(jù)，通常用Wij表示點Li在類Cj中的隸屬度，其計算方法如下：

seeds 集D*L中各類的初始中心為未標記數(shù)據(jù)集為Ln_(l1,l2,l3,…,ln_)，則表示為：

Step 5設(shè)置隸屬度閾值，并通過降低閾值做逐次劃分。

隸屬度閾值用于判斷數(shù)據(jù)對象在某類中的隸屬度是否達到將該對象劃分到這個類的標準，本文用θ代表隸屬度閾值，若Wij＞θ，則可以將對象li劃分到類cj中。通常將初始θ值設(shè)置為較高值，以保證劃分結(jié)果的高質(zhì)量。β為下降系數(shù)，代表每次劃分隸屬度閾值的降低程度，通常根據(jù)實際應用中對聚類結(jié)果的精度要求設(shè)置。本節(jié)以初始θ值為0.8，下降系數(shù)β為0.9 為例進行描述：（值得注意的一點是，前期為保證劃分質(zhì)量，下降系數(shù)設(shè)置為0.9，當隸屬度閾值達到一個較低的水平，此時可以增強下降系數(shù)，使隸屬度閾值大幅下降，具體地，設(shè)定β=β2）：

a) 將初始θ值設(shè)為0.8，計算Ln_集中所有對象到各類的隸屬度，若則將對象li劃分到第j類，若對象li到每個類的隸屬度均小于0.8，則它回到未標記數(shù)據(jù)集中進入下一次劃分，直至對象Wn_j被比較，第一次劃分結(jié)束。得到新的有標簽數(shù)據(jù)集D1未標記數(shù)據(jù)集

迭代更新類中心，并根據(jù)隸屬度閾值逐次劃分

……

算法3 中，seeds 集優(yōu)化的總時間復雜度為max{O(L2),O(kn)}。其次計算類中心的時間復雜度為O(L*)，L*為數(shù)據(jù)集D*L的大小。計算隸屬度的時間復雜度為O(kn_)，其中，n_為數(shù)據(jù)集Ln_的大小。根據(jù)隸屬度閾值做不同劃分的時間復雜度為O(n2_)。因此，USSD-K-均值算法的整體時間復雜度為O(n2_)。

3 實驗

為驗證本文提出的uv距離及USSD-K-均值算法在衡量滑坡不確定因素降雨量及預測滑坡危險性上的效果，本次實驗以延安市寶塔區(qū)的某區(qū)域作為實驗對象，提取相關(guān)數(shù)據(jù)，并以給出的少量先驗信息為指導，分別進行對比實驗。

3.1 實驗準備

結(jié)合滑坡地質(zhì)災害發(fā)生的特征及學者對該區(qū)域滑坡災害形成機理的研究，本次實驗選取坡高、坡型、坡度、坡向、植被、巖土體結(jié)構(gòu)、降雨七個屬性作為滑坡危險性的評價因子。首先利用ARCGIS對該區(qū)域進行柵格劃分，選取尺寸為5 m×5 m 的柵格分辨率，得到152457 個柵格單元。其次把每個柵格單元看成一個點，導入到精度為1:5000 的數(shù)字高程度中，可以分別得出每個點的經(jīng)緯度，并派生出坡型、坡度、坡高和坡向等專題圖。從各專題圖中可以獲取所需的地形地貌等信息，巖土體數(shù)據(jù)從1:1000 的地質(zhì)圖中獲取，植被數(shù)據(jù)通過EVNI 遙感軟件取得，降雨量數(shù)據(jù)來源于地調(diào)中心的GIS數(shù)據(jù)庫[11]。決策因子為滑坡危險性等級，分為高、中、低三個危險性等級，研究區(qū)根據(jù)專家基于區(qū)域特征的分析已經(jīng)選取了326 個觀測點并確定其危險性等級，觀測點的危險性等級包含了高危、中危、低危三個類別。

3.2 參數(shù)設(shè)置及模型建立

引入不確定數(shù)據(jù)模型—uv距離，在算法過程中，不確定屬性降雨量的衡量統(tǒng)一使用uv距離。首先以給出的326 個觀測點作為標記數(shù)據(jù)集形成初始seeds 集DL，根據(jù)危險性等級高危、中危、低危將其劃分成3 個類，利用算法1 進行seeds 集消噪，刪除少量噪聲點。其次根據(jù)地質(zhì)與數(shù)據(jù)專家分析滑坡本身空間分布及該區(qū)域地質(zhì)災害分布特點得到的結(jié)果，將空間閾值φ設(shè)置為387 m，空間閾值φ在本次滑坡應用中的實際意義為：若某點的危險性等級確定，則在其空間范圍387 m 內(nèi)的所有點的危險性等級很可能與它一致。以seeds 集消噪后的觀測點作為DL_集，其余152131 個觀測點形成未標記數(shù)據(jù)集Ln，閾值φ=387 m，利用算法2 進行標簽數(shù)據(jù)的空間擴展，得到最終seeds 集D*L及未標記數(shù)據(jù)集Ln_。最后本次實驗將初始θ值設(shè)置為0.85，下降系數(shù)β為0.9，利用算法3 在數(shù)據(jù)集Ln_進行聚類，得到最終聚類結(jié)果。

3.3 評價標準

在本次滑坡危險性預測的實驗中，選取內(nèi)部有效性指標Silhouette 指標[12]作為實驗的聚類評價標準，用于未知樣本集聚類效果的判斷。它通過點的緊密度和分離度來計算，其計算方法如下：

其中，式中點x屬于類Cj，a(x)表示點x與Cj中其它點的平均距離，b(x)=min{dis(x,ci)}，i=1,2,…,k,且i≠j。從式中易看出Silhouette 指標取值在[-1,1]之間，全部樣本的平均Silhouette 值越接近1，表明聚類效果越好。具體地，在滑坡危險性預測實驗中，Silhouette 指標值越高，表明其預測精度越好。

3.4 實驗分析

3.4.1uv距離效果分析為驗證uv距離在衡量不確定因素降雨量的有效性，在保證其他參數(shù)和步驟均相同的情況下，分別基于歐氏距離、Hausdorff 距離以及新提出的uv距離衡量降雨量，使用新算法比較滑坡危險性等級的聚類效果。不同比例數(shù)據(jù)集下三種距離衡量不確定雨量時算法的聚類效果(圖1)。

從圖1 可見，新提出的uv距離衡量不確定因素降雨量時，聚類Silhouette 指標值達到0.8 以上，優(yōu)于利用歐氏距離和Hausdorff 距離衡量降雨量時的聚類結(jié)果。歐式距離在衡量降雨量時，完全忽略了數(shù)據(jù)的不確定性，因此聚類效果不佳。Huasdorff 距離雖然考慮了其不確定性，但它丟失了部分內(nèi)部重要信息，其衡量效果優(yōu)于歐式距離，但遜于uv距離，其Silhouette 指標值平均在0.78 左右。而本文提出的基于均值和平均差的uv距離充分利用了不確定數(shù)據(jù)的內(nèi)部信息，達到了較好的衡量效果。

3.4.2 USSD-K-均值算法性能分析為驗證USSD-K-均值算法有效性，實驗基于不同比例數(shù)據(jù)集，對Seeded-K-均值算法、Constrained-K-均值算法和基于Tri-Training 和數(shù)據(jù)剪輯的半監(jiān)督K-均值算法和本文提出的USSD-K-均值算法分別進行測試。圖2 給出Silhouette 指標對比結(jié)果。

從圖2 可以發(fā)現(xiàn)USSD-K-均值算法的聚類效果整體好于Seeded-K-均值算法、Constrained-K-均值算法及基于Tri-Training 和數(shù)據(jù)剪輯的半監(jiān)K-均值算法，具體地看，Seeded-K-均值算法和Constrained-K-均值算法的聚類指標Silhouette 值平均在0.70 左右，聚類精度偏低，且隨數(shù)據(jù)集增加，seeds 集所占比例隨之減少時，初始類中心的質(zhì)量無法保證，聚類精度逐漸降低。而基于Tri-Training和數(shù)據(jù)剪輯的半監(jiān)督K-均值算法通過優(yōu)化seeds 集提高了聚類精度，Silhouette 值范圍達到0.82 左右，它的聚類效果雖然高于傳統(tǒng)的半監(jiān)督K-均值算法，但仍未達到滑坡危險性預測應用的預期標準。本文提出的USSD-K-均值算法從seeds 集優(yōu)化及算法本身兩個角度進行改進，通過合理利用滑坡分布的特點進行空間擴展，并設(shè)置隸屬度閾值擇優(yōu)劃分，其Silhouette 值高達0.86，優(yōu)于其它算法。根據(jù)對比不同算法的聚類性能，不難發(fā)現(xiàn)USSD-K-均值算法在滑坡危險性預測上的優(yōu)勢。

圖1 不同距離的衡量效果對比實驗Fig.1 Comparison of measuring effect of the different distances

圖2 不同算法聚類效果的對比實驗Fig.2 Comparison of clustering effects of different algorithms

圖3 seeds 集優(yōu)化的對比實驗Fig.3 Comparison of seeds optimization

3.4.3 seeds 集優(yōu)化效果分析為進一步明確文中所提出的充分結(jié)合滑坡分布特點的seeds 集優(yōu)化方法的作用，對未進行seeds 集優(yōu)化的USSD-K-均值算法及USSD-K-均值算法也進行比較（圖3）。

分析圖3 易得，經(jīng)過seeds 集優(yōu)化后的聚類效果明顯優(yōu)于未經(jīng)seeds 集優(yōu)化的聚類效果，尤其在樣本數(shù)量增多的情況下，seeds 集的規(guī)模不變，但其所占樣本的比例變少，此時由seeds 集引導的聚類效果不佳，如圖3 所示，當數(shù)據(jù)樣本比例達到3%時，未進行seeds 集優(yōu)化的USSD-K-均值算法的Silhouette 指標值僅為0.71。而新提出的USSD-K-均值算法利用除噪和空間擴展的方式優(yōu)化seeds 集，通過在空間閾值內(nèi)尋找相似標簽數(shù)據(jù)的方法，在擴大seeds 集的同時保證了質(zhì)量。因此，USSD-K-均值算法在滑坡危險性預測上的聚類效果取得高達0.86 的平均Silhouette 值，seeds 集優(yōu)化的作用顯著。

4 結(jié)論與展望

本文首先提出一種新的不確定數(shù)據(jù)距離—uv距離，它實現(xiàn)了滑坡誘發(fā)因素中不確定降雨量的有效刻畫。其次基于uv距離提出一種基于不確定數(shù)據(jù)的半監(jiān)督動態(tài)K-均值算法，首先利用消噪和空間擴展優(yōu)化seeds 集，其次引入隸屬度并設(shè)置隸屬度閾值進行逐優(yōu)劃分，達到了提高滑坡危險性預測精度的目的。實驗結(jié)果分別驗證了uv距離衡量不確定數(shù)據(jù)的有效性及USSD-K-均值算法預測滑坡危險性的良好性能。

研究中所提出的空間擴展方法有效結(jié)合了數(shù)據(jù)集本身具有的空間一致性的性質(zhì)及滑坡成群分布的特點，該方法中的空間閾值φ用于控制空間擴展的規(guī)模，其取值對聚類結(jié)果影響顯著，且根據(jù)滑坡分布區(qū)域的不同，φ值也會變化。因此分析φ對計算結(jié)果的影響及研究不同區(qū)域內(nèi)φ的取值將是我們下一步工作的重點。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡