国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

利用CVGS-XGBoost遙感識(shí)別水體與山體陰影信息

2020-03-09 06:54王修信
關(guān)鍵詞:山體柵格決策樹

秦 琴, 王修信

(1.廣西師范大學(xué) a.計(jì)算機(jī)科學(xué)與信息工程學(xué)院; b.廣西多源信息挖掘與安全重點(diǎn)實(shí)驗(yàn)室, 廣西 桂林 541004;2.廣西區(qū)域多源信息集成與智能處理協(xié)同創(chuàng)新中心, 廣西 桂林 541004)

0 引 言

隨著科學(xué)技術(shù)的不斷進(jìn)步, 人類生產(chǎn)活動(dòng)對(duì)區(qū)域水體的影響愈發(fā)受到重視[1]。遙感技術(shù)能夠準(zhǔn)確掌握水資源的實(shí)時(shí)情況, 對(duì)水資源的合理利用和規(guī)劃起到重要作用[2]?;贚andsat遙感影像提取水體信息的研究方法很多[3], 常見的有各種水體指數(shù)法[4-8]和監(jiān)督分類法[9-10]。這些方法都是基于水的光譜在不同波段的反射特性, 只有當(dāng)水體和其他地面物體的光譜特性完全不同時(shí), 才能獲得更好的提取效果。 然而, 在水體提取過程中, 由于區(qū)域陽光的照射, 往往會(huì)出現(xiàn)嚴(yán)重的物體遮擋和山體陰影的干擾。

近年來, 面向?qū)ο蠹夹g(shù)已被應(yīng)用于提取水體信息[11-12], 通過圖像分割技術(shù)獲得水體的基元信息[13], 再利用基元的數(shù)據(jù)特征實(shí)現(xiàn)遙感圖像的信息提取。雖然它在一定程度上提高了遙感信息提取的準(zhǔn)確性, 但是因其僅依賴于圖像的光譜特性, 在提取小河、 建筑陰影和茂密植被方面的性能受到限制。因此, 有學(xué)者將機(jī)器學(xué)習(xí)方法應(yīng)用于遙感圖像的分類。王知音等[14]提出了一種基于SAE的水體提取算法, 該算法可以自動(dòng)探索遙感數(shù)據(jù)中包含的空間規(guī)則, 并且無需進(jìn)行復(fù)雜的光譜特征分析與特征提取過程,雖然該方法大大縮短了預(yù)處理的復(fù)雜性, 提高了水提取的自動(dòng)化程度, 但利用SAE算法提取水體仍然很費(fèi)時(shí), 需要提高效率。由于單一特征提取水體可能會(huì)導(dǎo)致對(duì)象混淆, 程晨等[15]構(gòu)建了圖像纓帽變換和波段組合特征的決策樹水體提取算法, 該算法在每個(gè)纓帽變換分量及波段組合過程中需要手動(dòng)確定閾值, 因此遷移性較差, 提取結(jié)果受到較大的主觀影響。呂啟等[16]提出一種基于DBN算法的遙感圖像分類方法, 該方法充分結(jié)合了無監(jiān)督和有監(jiān)督學(xué)習(xí)的特點(diǎn), 對(duì)高維數(shù)據(jù)具有較好的分類能力。由于算法無法直接提取高維數(shù)據(jù)的圖像特征, 因此建立算法的網(wǎng)絡(luò)結(jié)構(gòu)需要很長(zhǎng)時(shí)間。卷積神經(jīng)網(wǎng)絡(luò)是一種深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò), 可以直接從輸入圖像中學(xué)習(xí)圖像的高級(jí)語義特征, 避免圖像的預(yù)處理。Scott等提出通過結(jié)合深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)和數(shù)據(jù)增強(qiáng)方法對(duì)遙感影像進(jìn)行分類, 可以很好地克服遙感影像中樣本數(shù)量有限的問題[17]。它將圖像的眾多圖片作為算法的輸入, 但基于圖片像素級(jí)的分類, 存在樣本形式與網(wǎng)絡(luò)輸入輸出要求不匹配等問題, 導(dǎo)致算法無法直接應(yīng)用于基于圖片像素級(jí)的地物提取。

桂林主要以喀斯特地貌為主, 地形往往山高崎嶇。在陽光照射下, 獲取到的遙感圖像會(huì)出現(xiàn)大量的山體陰影, 而山體陰影與水體在高分辨率遙感圖像中光譜往往相似, 因此會(huì)產(chǎn)生“異物同譜”現(xiàn)象, 給喀斯特地貌中的水體提取帶來一定的誤差, 容易造成水體的“誤識(shí)別”和“漏識(shí)別”, 很難保證喀斯特地貌水體提取的精度。因此, 選取最佳方法將水體與山體陰影分類是研究該地區(qū)水體空間分布的前提。

XGBoost(eXtreme Gradient Boosting)是由Chen等設(shè)計(jì)開發(fā)的Boosting庫, 是一種基于決策樹的機(jī)器學(xué)習(xí)集成算法, 具有運(yùn)行速度快、 分類效果好、 支持自定義損失函數(shù)和支持多種語言等特點(diǎn)[18]。然而, XGBoost算法存在逐個(gè)調(diào)參收斂速度慢和參數(shù)之間相互限制的問題。本文針對(duì)喀斯特地區(qū)遙感圖像中水體和山體陰影信息易混淆使得傳統(tǒng)機(jī)器學(xué)習(xí)算法分類精度低、 計(jì)算速度慢的缺點(diǎn)改進(jìn)XGBoost算法,將交叉驗(yàn)證與柵格搜索相結(jié)合用于XGBoost中,構(gòu)建CVGS-XGBoost分類算法, 以參數(shù)平均誤差最小化為最終目標(biāo), 提高參數(shù)優(yōu)選的準(zhǔn)確性, 有效避免訓(xùn)練樣本的隨機(jī)抽樣對(duì)算法性能的影響。

1 XGBoost算法原理介紹

提升算法的主要思想是在判斷復(fù)雜的任務(wù)時(shí), 多位專家的判斷結(jié)果要優(yōu)于一位專家的判斷結(jié)果。提升算法是加法算法和前向分布算法的結(jié)合, 由于決策樹的線性組合能夠非常好地?cái)M合訓(xùn)練數(shù)據(jù), 因此決策提升樹是一個(gè)高性能的學(xué)習(xí)算法。在處理圖像分類問題時(shí), 決策樹選擇二叉分類樹作為基分類器, 提升樹算法就表示由多個(gè)二叉分類決策樹組合而成的算法。給定一組數(shù)據(jù)樣本, 對(duì)訓(xùn)練樣本集進(jìn)行劃分, 在算法訓(xùn)練過程中, 訓(xùn)練樣本的權(quán)重會(huì)不斷更新。每一輪訓(xùn)練結(jié)束后, 正確分類的訓(xùn)練樣本的權(quán)值減小, 錯(cuò)誤分類的訓(xùn)練樣本的權(quán)值增大。經(jīng)過多次訓(xùn)練后, 錯(cuò)誤分類的訓(xùn)練樣本會(huì)得到更多的關(guān)注, 而被正確分類的訓(xùn)練樣本的權(quán)重逐漸趨近于零。最后, 可以獲得多個(gè)簡(jiǎn)單的分類器, 通過組合這些簡(jiǎn)單的分類器, 可以獲得一個(gè)強(qiáng)大的分類器算法。

XGBoost又稱極限梯度提升算法, 它是一種基于提升樹的機(jī)器學(xué)習(xí)集成算法, 用于研究梯度提升決策樹算法。XGBoost算法包含一組迭代殘差樹, 每一棵樹的最終預(yù)測(cè)值是學(xué)習(xí)前N-1棵樹的殘差后, 每棵樹預(yù)測(cè)的新樣本輸出值的總和。具體推導(dǎo)過程為: 設(shè)D={(xi,yi)}(i=1,2,…,n,xi∈Rd,yi∈R)是一個(gè)擁有n個(gè)訓(xùn)練樣本、 每個(gè)樣本有d個(gè)數(shù)據(jù)樣本特征,xi表示第i個(gè)樣本, 通過K個(gè)樹的加法函數(shù)來預(yù)測(cè)的最終結(jié)果。構(gòu)成樹的集成算法如下

(1)

其中,F表示決策樹的函數(shù)空間, 為了學(xué)習(xí)算法中的函數(shù)集, 將正則化目標(biāo)函數(shù)定義為

(2)

(3)

(4)

用Ot表示第t棵樹的預(yù)測(cè)值和前t-1棵樹預(yù)測(cè)值之和,即樣本xi的最終預(yù)測(cè)值。求式(4)一階導(dǎo)數(shù)和二階導(dǎo)數(shù), 分別定義為gi和hi

(5)

(6)

(7)

常數(shù)項(xiàng)移除后, 第t次迭代后損失函數(shù)為

(8)

定義Ij={i|q(xi)=j}作為葉子節(jié)點(diǎn)j的實(shí)例集, 根據(jù)式(8)得

(9)

(10)

(11)

以上計(jì)算了樹結(jié)構(gòu)q的分?jǐn)?shù), 用來衡量樹結(jié)構(gòu)的質(zhì)量, 使用了貪心算法迭代每個(gè)葉子節(jié)點(diǎn)以添加分支。 假定IL和IR劃分后是左右樹葉子節(jié)點(diǎn)的集合, 即I=IL∪IR,則劃分后的損失函數(shù)為

(12)

2 CVGS-XGBoost算法

2.1 交叉驗(yàn)證

現(xiàn)實(shí)應(yīng)用中, 實(shí)驗(yàn)數(shù)據(jù)集的獲取往往不足, 若單純地使用驗(yàn)證法選擇算法, 則存在如何合理地將實(shí)驗(yàn)數(shù)據(jù)集按比例分割成訓(xùn)練集和驗(yàn)證集的問題。不同的數(shù)據(jù)集分配方式對(duì)算法的最終效果有很大影響[19]。若獲取的實(shí)驗(yàn)數(shù)據(jù)集較多, 雖然算法的訓(xùn)練較為充分, 但也會(huì)存在算法驗(yàn)證不足的情況。因此為了充分利用實(shí)驗(yàn)數(shù)據(jù)集, 使得算法的訓(xùn)練和驗(yàn)證都較為充分, 可采用交叉驗(yàn)證的方法使算法廣泛適用。交叉驗(yàn)證的基本思想是對(duì)原始數(shù)據(jù)樣本集進(jìn)行分組, 大部分作為訓(xùn)練集, 其余的小部分用作驗(yàn)證集。具體地, 先利用大部分訓(xùn)練集對(duì)分類算法進(jìn)行訓(xùn)練, 然后利用剩余的小部分驗(yàn)證集對(duì)訓(xùn)練后的算法進(jìn)行測(cè)試, 以此評(píng)價(jià)分類器的性能。

交叉驗(yàn)證法優(yōu)化XGBoost算法參數(shù)的基本思路:①將實(shí)驗(yàn)數(shù)據(jù)集隨機(jī)平均分割成k等份(S1,S2, …,Sk), 依次保留其中一份Si作為驗(yàn)證集, 剩下的k-1份作為訓(xùn)練集; ②除去驗(yàn)證集的其他訓(xùn)練集輸入XGBoost算法中進(jìn)行訓(xùn)練, 然后將驗(yàn)證集Si輸入當(dāng)前訓(xùn)練好的算法中, 得到第i次XGBoost算法的評(píng)估性能; ③重復(fù)步驟①和步驟②, 進(jìn)行k次后, 將k次XGBoost算法評(píng)估的平均值作為當(dāng)前參數(shù)下算法的性能值。用數(shù)學(xué)語言描述為:設(shè)有n個(gè)樣本量的數(shù)據(jù)集Dn,A1,A2,…,Ak為數(shù)據(jù)集Dn的子集, 對(duì)于任意子集Ai都有M(Ai)≈n/k,M為第i個(gè)子集中樣本的個(gè)數(shù), 最后的泛化誤差估計(jì)為

(13)

圖1 k折交叉驗(yàn)證實(shí)驗(yàn)步驟流程

2.2 柵格搜索

柵格搜索是一種調(diào)參手段。在算法的所有候選參數(shù)中, 通過循環(huán)遍歷, 采用巖舉的搜索方法,嘗試每一種可能性, 對(duì)每個(gè)參數(shù)的可能值列出所有可能的組合,并生成列表,然后訓(xùn)練每個(gè)列表組合,使算法表現(xiàn)出最好的效果。即在各個(gè)參數(shù)數(shù)組中找到使算法達(dá)最優(yōu)的參數(shù)值。XGBoost算法有許多與數(shù)據(jù)特征相關(guān)的超參數(shù), 這些超參數(shù)對(duì)算法的訓(xùn)練結(jié)果有重要的意義。在XGBoost算法中, max_depth定義樹的最大深度, 用于防止過擬合, 深度越深, 算法就越容易產(chǎn)生局部最優(yōu); min_child_weight確定孩子節(jié)點(diǎn)中最小樣本的權(quán)重和, 權(quán)重和過大可能導(dǎo)致欠擬合; gamma指定了進(jìn)行分割時(shí)所需要的最小損失的減少量, 根據(jù)損失函數(shù)調(diào)整其大小; eta為學(xué)習(xí)率, 通過減少每一步的權(quán)重, 可以提高算法的穩(wěn)定性。以上參數(shù)有的為整數(shù)或小數(shù), 有的為隨機(jī)值或連續(xù)值。原始的XGBoost算法在參數(shù)值選取時(shí), 通常采取參數(shù)遍歷和專家經(jīng)驗(yàn)調(diào)參等方式, 此過程不僅耗時(shí), 而且參數(shù)之間往往存在制約。不合理的算法超參數(shù)會(huì)導(dǎo)致XGBoost算法過擬合或欠擬合, 利用柵格搜索可以高效、 準(zhǔn)確地優(yōu)化XGBoost算法的超參數(shù)。因此,運(yùn)用柵格搜索法進(jìn)行參數(shù)選擇, 對(duì)尋求算法最優(yōu)參數(shù)至關(guān)重要。

柵格搜索法優(yōu)化XGBoost算法參數(shù)的基本思路:①利用柵格搜索法找出用于建模的所有可調(diào)參數(shù)并進(jìn)行參數(shù)組合; ②依次對(duì)所有參數(shù)組合進(jìn)行XGBoost算法建模; ③以k折交叉驗(yàn)證法下的建模精度為判斷依據(jù)得出最佳算法和可調(diào)參數(shù)。

2.3 CVGS-XGBoost算法的搭建

由于XGBoost算法存在大量的超參數(shù), 尋找最優(yōu)的算法參數(shù)對(duì)水體與山體陰影的識(shí)別具有重要的作用。XGBoost算法采用柵格搜索尋求最佳參數(shù)組合的方法具有良好的全局搜索能力, 可以避免XGBoost算法對(duì)多個(gè)參數(shù)逐個(gè)調(diào)優(yōu)導(dǎo)致收斂速度慢的缺點(diǎn), 同時(shí)也避免了參數(shù)之間相互制約的影響。交叉驗(yàn)證避免了單純地使用驗(yàn)證法選擇最優(yōu)算法的偶然性。將交叉驗(yàn)證與柵格搜索相結(jié)合應(yīng)用于XGBoost算法中, 以參數(shù)平均誤差最小化為最終目標(biāo), 提高了參數(shù)優(yōu)選的準(zhǔn)確性, 同時(shí)避免了訓(xùn)練樣本的隨機(jī)抽樣對(duì)算法性能的影響。因此本文提出了一種用于水體與山體陰影識(shí)別的CVGS-XGBoost算法, 交叉驗(yàn)證柵格搜索優(yōu)化XGBoost算法流程見圖2。具體步驟為:

①對(duì)遙感圖像從水體、 陰影和其他區(qū)域中分別找出能準(zhǔn)確代表其典型區(qū)域的1 200個(gè)像素點(diǎn)用來訓(xùn)練, 利用同樣的方法在各典型區(qū)域分別找出900個(gè)像素點(diǎn)用來測(cè)試;

②手動(dòng)選擇的不同樣本在各色彩通道下的R、 G、 B特征分量作為樣本自身特性分量;

③將步驟①中找出的1 200個(gè)種類樣本像素?cái)?shù)據(jù)輸入到XGBoost算法中進(jìn)行預(yù)訓(xùn)練, 構(gòu)建XGBoost預(yù)測(cè)算法;

圖2 交叉驗(yàn)證柵格搜索優(yōu)化XGBoost算法流程

④將交叉驗(yàn)證柵格搜索應(yīng)用于XGBoost算法中, 對(duì)參數(shù)進(jìn)行柵格搜索, 計(jì)算交叉驗(yàn)證均方誤差, 確定最優(yōu)參數(shù)組合;

⑤使用步驟④訓(xùn)練好的CVGS-XGBoost算法對(duì)未知的900個(gè)測(cè)試樣本進(jìn)行預(yù)測(cè), 得出模型的最佳準(zhǔn)確率;

⑥將CVGS-XGBoost算法應(yīng)用于整個(gè)遙感圖像中進(jìn)行分類, 即將遙感圖像的每一個(gè)像素點(diǎn)輸入算法中, 對(duì)所有像素做出判斷并賦予數(shù)值標(biāo)簽;

⑦ 對(duì)分類后遙感圖像進(jìn)行可視化操作, 通過像素點(diǎn)的數(shù)值標(biāo)簽(黑色代表水體、 灰色代表山體陰影、 其他用白色來顯示), 得到最終的分類效果圖。

3 實(shí)驗(yàn)測(cè)試

3.1 實(shí)驗(yàn)數(shù)據(jù)來源

采用廣西桂林市的Landsat 8多光譜衛(wèi)星遙感圖像, 該圖描述了桂林市區(qū)中的水體、 橋體、 山體、 城區(qū)建筑等區(qū)域。覆蓋從紅外到可見光不同波長(zhǎng)范圍, 有7個(gè)波段且空間分辨率為30 m的遙感圖像, 不同的波段有不同的特點(diǎn)。由于Landsat 8衛(wèi)星數(shù)據(jù)可見光波段1~4、 近紅外波段5~6之間的相關(guān)性較高, 存在很多冗余信息, 如果使用波段1~7的全部數(shù)據(jù)不僅將導(dǎo)致計(jì)算量較大, 而且將引入較大誤差。通過計(jì)算各波段間相關(guān)系數(shù), 選取相關(guān)性不顯著的7、6、3波段合成假彩色圖像, 在減少數(shù)據(jù)計(jì)算量的同時(shí), 提高了計(jì)算速度。最后, 通過對(duì)假彩色圖像進(jìn)行輻射校正、 幾何校正、 采樣、 增強(qiáng)、 量化、 去噪等處理, 得到對(duì)比度強(qiáng)、 圖像清晰的實(shí)驗(yàn)圖像。

3.2 訓(xùn)練樣本獲取

訓(xùn)練樣本的選取是影響分類器性能的重要因素之一。實(shí)驗(yàn)過程中必須保證有足夠數(shù)量廣泛分布的訓(xùn)練樣本。根據(jù)遙感圖像的色調(diào)、 形狀、 谷歌地圖等掌握了研究區(qū)域的特征類型, 并手動(dòng)提取典型區(qū)域的訓(xùn)練樣本, 在實(shí)驗(yàn)圖像上記錄了1 200個(gè)圖像像素值作為訓(xùn)練樣本集, 其中, 水體、 山體陰影及其他地物這3類樣本各400個(gè), 同時(shí)用同樣的方法分別記錄水體、 山體陰影及其他地物3類樣本像元所對(duì)應(yīng)的坐標(biāo)900個(gè)作為測(cè)試樣本集, 用來測(cè)試遙感圖像分類的效果。選取樣本后, 將水體區(qū)域歸為一類, 山體陰影區(qū)域歸為一類, 建筑物、 道路、 植被等歸為一類, 地物類別標(biāo)簽標(biāo)記分別記為“0”、“1”、“2”。由于遙感圖像中包含的信息相對(duì)比較復(fù)雜, 所以在選擇訓(xùn)練樣本時(shí), 優(yōu)先選擇具有代表性的區(qū)域。

3.3 顏色特征提取

顏色特征是圖像應(yīng)用研究領(lǐng)域中最廣泛的視覺特征。與圖像中的其他特征相比, 顏色特征具有很強(qiáng)的穩(wěn)定性, 它不依賴圖像本身的大小, 不隨方向和視角的改變而改變。在遙感圖像分類中, 顏色特征得到了廣泛的應(yīng)用。本文通過對(duì)遙感圖像進(jìn)行人工標(biāo)注, 將水體標(biāo)注成紅色、 山體陰影標(biāo)注成黃色、 其他既不屬于水體也不屬于山體陰影的部分標(biāo)注成玫紅色。將標(biāo)記的特征坐標(biāo)與原始遙感圖像對(duì)應(yīng)映射, 提取原始圖像中標(biāo)記的所屬特征類別的像素值。將7、6、3三個(gè)波段合成假彩色的3個(gè)通道的像素分量值存放在特征列表中, 作為輸入到算法中的假彩色特征數(shù)據(jù),再使用XGBoost算法對(duì)假彩色特征數(shù)據(jù)進(jìn)行分類。訓(xùn)練樣本和測(cè)試樣本標(biāo)注結(jié)果圖3。

4 實(shí)驗(yàn)結(jié)果與分析

文中提出的CVGS-XGBoost算法與各對(duì)比算法均使用python 3.6編程實(shí)現(xiàn), 且所有實(shí)驗(yàn)均是在Windows 10, 64位操作系統(tǒng)下測(cè)試完成。本實(shí)驗(yàn)所使用的硬件環(huán)境為:CPU:Intel(R)CoreTMi7-6700 CPU@3.40 GHz, 內(nèi)存8 GB。

4.1 對(duì)比算法

為了能更好地評(píng)估CVGS-XGBoost算法在本實(shí)驗(yàn)中的性能, 與3種傳統(tǒng)的機(jī)器學(xué)習(xí)分類算法進(jìn)行對(duì)比分析。具體對(duì)比算法詳細(xì)信息如下:

(1)決策樹算法是基于將數(shù)據(jù)轉(zhuǎn)化為樹, 尋找最佳節(jié)點(diǎn)和最佳分枝的方法, 衡量“最佳”的標(biāo)準(zhǔn)稱為“不純度”。一般來說, “不純度”值越小, 決策樹對(duì)訓(xùn)練集的擬合效果越好。本文利用信息熵來確定樹中各節(jié)點(diǎn)的“不純度”, 并選擇最好的隨機(jī)切分作為分裂節(jié)點(diǎn)的策略, 指定隨機(jī)數(shù)生成器的種子為25, 通過十折交叉驗(yàn)證柵格搜索的方法, 得出當(dāng)樹的最大深度取值為8, 分裂1個(gè)內(nèi)部節(jié)點(diǎn)最少樣本數(shù)為8, 每個(gè)葉子節(jié)點(diǎn)最少樣本數(shù)為3時(shí), 決策樹算法效果達(dá)到最優(yōu), 分類效果最好。

(2)隨機(jī)森林是一種基于決策樹的集成算法, 它利用Bootstrap從原始樣本中抽取多個(gè)樣本子集, 利用得到的樣本子集建立決策樹。該方法綜合考慮多個(gè)評(píng)估器的建模結(jié)果, 平均投票或多數(shù)投票原則用于確定綜合評(píng)估師的結(jié)果, 以獲得比單一算法更好的分類性能。本文實(shí)驗(yàn)中采用信息熵方法判斷節(jié)點(diǎn)是否繼續(xù)分裂, 并選擇有放回的采樣。通過學(xué)習(xí)曲線描述的結(jié)果, 得到使算法達(dá)到最優(yōu)時(shí)樹的數(shù)目為30, 采用十折交叉驗(yàn)證柵格搜索方法, 確定當(dāng)樹的最大深度為5, 分裂內(nèi)部節(jié)點(diǎn)需要的最少樣例數(shù)為2, 葉子上的最少樣例數(shù)為1, 隨機(jī)生成器種子設(shè)定為25時(shí), 算法達(dá)到最優(yōu)。

圖3 不同樣本集標(biāo)注效果圖

(3)支持向量機(jī)的基本思想是在數(shù)據(jù)空間中找出一個(gè)超平面作為決策邊界, 以便對(duì)數(shù)據(jù)算法的分類誤差盡可能小,特別是分類錯(cuò)誤(泛化誤差)未知的數(shù)據(jù)集盡可能小。支持向量機(jī)通過找出邊際最大的決策邊界, 對(duì)數(shù)據(jù)進(jìn)行分類,其決策函數(shù)公式為

(14)

其中:αi為拉格朗日乘子;yi為超平面上的樣本點(diǎn);b表示偏移量;φ(xi)和φ(xtest)分別表示第i個(gè)特征向量和測(cè)試樣本從輸出空間到特征空間的映射。 在本文實(shí)驗(yàn)中,選取徑向基核函數(shù)(RBF)作為支持向量機(jī)的類型,公式為

K(xi,xj)=exp(-gamma‖xi-xj‖2)。

其中:xi、xj分別表示向量樣本;gamma為核參數(shù)。為調(diào)節(jié)優(yōu)化方向中的間隔大小和分類準(zhǔn)確度偏好的權(quán)重,即對(duì)誤差的寬容度, 規(guī)定了一個(gè)懲罰系數(shù)C。 在調(diào)參過程中, 對(duì)gamma和懲罰系數(shù)C分別繪制學(xué)習(xí)曲線, 得出當(dāng)gamma取值為30,C取值為110時(shí), 算法效果達(dá)到最好。

4.2 評(píng)價(jià)指標(biāo)

衡量提取效果的指標(biāo)有單模式分類精度和總體分類精度。單模式分類精度等于各類樣本分類正確的像元數(shù)與該類樣本總數(shù)的比值??傮w分類精度(OA)為分類正確的數(shù)據(jù)樣本個(gè)數(shù)與所有數(shù)據(jù)樣本個(gè)數(shù)的比例, 表述對(duì)每一個(gè)隨機(jī)樣本所分類的結(jié)果與真實(shí)數(shù)據(jù)所對(duì)應(yīng)區(qū)域的實(shí)際類型相一致的概率,其計(jì)算公式為

(15)

式中:xkk為沿著對(duì)角線上的類型組合的數(shù)量;N為單元格的總數(shù)量。

4.3 算法對(duì)比

圖4為算法分類效果圖, 通過構(gòu)造CVGS-XGBoost算法對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練, 每次迭代選擇基于二叉決策樹的算法。使用十折交叉驗(yàn)證的方法對(duì)參數(shù)進(jìn)行柵格搜索以獲得超參數(shù)的最佳組合, 由此得出當(dāng)估計(jì)器的數(shù)量為30, 樹的最大深度為5, 學(xué)習(xí)率為0.01, 正則化項(xiàng)系數(shù)為1, 懲罰項(xiàng)系數(shù)為0.3時(shí), 算法效果達(dá)到最好, 最小葉子節(jié)點(diǎn)樣本權(quán)重和為1時(shí), 避免了算法學(xué)習(xí)到局部的特殊樣本, 防止算法過擬合, 調(diào)參后得到如圖4f所示的提取結(jié)果。

圖4 算法分類效果圖

從圖4b中可以看出, 使用原始的XGBoost算法進(jìn)行水體提取時(shí), 通過驗(yàn)證法確定算法中的每個(gè)參數(shù)值, 得出當(dāng)估計(jì)器的數(shù)量為25, 樹的最大深度為5, 學(xué)習(xí)率為0.01, 正則化系數(shù)為1, 懲罰項(xiàng)系數(shù)為0.2時(shí), 算法達(dá)最優(yōu)效果。該算法能有效提取出水體, 結(jié)果相對(duì)其他3種機(jī)器學(xué)習(xí)算法而言較理想, 能準(zhǔn)確地得到水體和山體陰影的分類結(jié)果。但調(diào)參過程中, 受到參數(shù)之間的相互制約, 分類效果差于CVGS-XGBoost算法, 并且通過參數(shù)遍歷和經(jīng)驗(yàn)調(diào)參, 在參數(shù)選擇方面需花費(fèi)大量的時(shí)間, 運(yùn)行速度相當(dāng)緩慢。

使用決策樹進(jìn)行分類的效果存在大量的噪聲。從圖4c中可以看出,大量灰度值較高的山體陰影被錯(cuò)誤地劃分成了水體,導(dǎo)致山體陰影存在大量漏提, 水體部分被誤提的情況, 而圖中灰度值接近于山體陰影的其他部分被錯(cuò)誤地劃分成了山體陰影, 細(xì)小的河流分支幾乎沒有被提取出來, 總體分類精度不高, 分類效果不明顯。隨機(jī)森林是多個(gè)決策樹評(píng)估器的建模結(jié)果, 從圖4d的整體效果上看, 分類結(jié)果相比決策樹而言要好得多, 雖然被誤提的情況大大減少了, 部分細(xì)小河流被提取了出來, 但仍然存在部分水體和山體陰影被錯(cuò)誤劃分和漏提的現(xiàn)象。從圖4e支持向量機(jī)的分類結(jié)果上看, 基本上能將水體與山體陰影識(shí)別出來, 噪聲明顯減少, 大部分細(xì)小河流被提取出來, 只存在少部分錯(cuò)分漏分的情況, 總體分類精度明顯比決策樹和隨機(jī)森林高, 但其運(yùn)行時(shí)間相當(dāng)緩慢。

對(duì)比原始的XGBoost, CVGS-XGBoost算法能夠快速、 準(zhǔn)確、 有效地提取出水體信息(圖4f), 而且其提取總體分類效果明顯比其他3種算法好, 水體和山體陰影都被準(zhǔn)確地識(shí)別了出來, 誤提和漏誤的情況明顯減少, 細(xì)小河流和農(nóng)田都能夠準(zhǔn)確地識(shí)別, 是一種優(yōu)于其他機(jī)器學(xué)習(xí)的集成算法。

選取廣西桂林山區(qū)地形的遙感圖像, 應(yīng)用本文算法對(duì)水體與山體陰影信息進(jìn)行有效提取。隨機(jī)抽取一小塊150×150的子區(qū)域進(jìn)行可視化, 該區(qū)域內(nèi)包含水體、山體陰影和其他物體, 將提取出來的特征向量輸入到已訓(xùn)練好的CVGS-XGBoost算法、 原始的XGBoost算法和3種機(jī)器學(xué)習(xí)算法中進(jìn)行預(yù)測(cè),進(jìn)行可視化后的各種算法的效果圖如圖5所示。

對(duì)整個(gè)遙感圖像的各算法提取目標(biāo)地物的單模式分類精度和總體分類精度的評(píng)估結(jié)果以及算法的訓(xùn)練時(shí)間如表1所示??梢钥闯? 本文的CVGS-XGBoost算法的總體分類精度最高,達(dá)到了93.9%, 比原始的XGBoost算法提高了1.5%, 比決策樹提高了10%, 而與較為先進(jìn)的隨機(jī)森林和支持向量機(jī)算法相比, 也分別提高了6.3%和3.1%。由此可見, CVGS-XGBoost算法在數(shù)據(jù)集上的分類效果上好于其他算法。在訓(xùn)練時(shí)間方面,在數(shù)據(jù)集不變的情況下, CVGS-XGBoost算法要遠(yuǎn)遠(yuǎn)低于支持向量機(jī)。綜上所述, CVGS-XGBoost算法不僅在準(zhǔn)確率上優(yōu)于其他算法, 而且在效率上也遠(yuǎn)高于分類效果較好的支持向量機(jī)。

表1 分類算法分類精度評(píng)估結(jié)果和訓(xùn)練時(shí)間

5 結(jié)束語

本文通過改進(jìn)XGBoost算法,提出CVGS-XGBoost算法, 將Landsat多光譜衛(wèi)星遙感圖像的7、6、3三個(gè)波段構(gòu)成假彩色特征作為算法的輸入特征, 利用算法提取水體和山體陰影信息。所提出的算法有以下兩個(gè)優(yōu)點(diǎn):(1)CVGS-XGBoost算法在傳統(tǒng)的XGBoost算法的基礎(chǔ)上引入交叉驗(yàn)證, 避免了算法驗(yàn)證不足和僅通過一次數(shù)據(jù)集的劃分來確定最優(yōu)算法的偶然性; (2)XGBoost算法通過引入柵格搜索構(gòu)建CVGS-XGBoost算法尋求超參數(shù)的方式, 不僅在尋求最佳參數(shù)組合上具有良好的全局搜索能力, 而且能有效地避免原始XGBoost算法對(duì)多個(gè)參數(shù)逐個(gè)調(diào)優(yōu)導(dǎo)致收斂速度慢的缺點(diǎn), 同時(shí)也避免了參數(shù)之間的相互制約。

圖5 局部圖像算法分類效果圖

基于單模式分類精度、 總體分類精度指標(biāo)和算法訓(xùn)練時(shí)間, 與原始的XGBoost算法、 決策樹算法、 隨機(jī)森林算法和支持向量機(jī)等算法進(jìn)行對(duì)比結(jié)果表明, CVGS-XGBoost算法在數(shù)據(jù)集上的分類效果上好于其他算法。在訓(xùn)練算法時(shí), CVGS-XGBoost算法要比支持向量機(jī)更加高效, 運(yùn)行時(shí)間更短。同時(shí), CVGS-XGBoost算法避免了小支流和圖像相似灰度值的干擾, 具有較高的可靠性。下一步工作將提取遙感圖像中包含的更有效信息的特征, 以降低遙感圖像在進(jìn)行分類時(shí)產(chǎn)生的誤提取和漏提取的可能性, 進(jìn)一步優(yōu)化提取結(jié)果。

猜你喜歡
山體柵格決策樹
基于鄰域柵格篩選的點(diǎn)云邊緣點(diǎn)提取方法*
基于A*算法在蜂巢柵格地圖中的路徑規(guī)劃研究
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
濟(jì)南市山體修復(fù)中的植物應(yīng)用與技術(shù)——以濟(jì)南市臥虎山山體公園為例
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
基于決策樹的出租車乘客出行目的識(shí)別
不同剖面形狀的柵格壁對(duì)柵格翼氣動(dòng)特性的影響
山體別墅設(shè)計(jì)分析
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
城市山體保護(hù)規(guī)劃的實(shí)踐與探索——以武漢市新洲區(qū)山體保護(hù)規(guī)劃為例