国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于TM影像的單類分類算法比較研究

2020-01-18 06:26:42邵一杰
關(guān)鍵詞:訓(xùn)練樣本類別分類器

邵一杰

單類分類問(wèn)題是一種特殊的分類問(wèn)題,是指在只有一種類別樣本的情況下,只通過(guò)這一類樣本訓(xùn)練分類器,再用訓(xùn)練出的分類器對(duì)未知類別的樣本進(jìn)行類別判斷[1].傳統(tǒng)分類問(wèn)題通常需要兩個(gè)或多個(gè)類別的樣本[2],然而一些特殊情況下,獲取多個(gè)類別的樣本十分困難或者要付出極大代價(jià),有時(shí)甚至根本無(wú)法做到,這時(shí)如果應(yīng)用傳統(tǒng)分類方法解決問(wèn)題,就會(huì)由于樣本數(shù)量差異過(guò)大導(dǎo)致分類結(jié)果不準(zhǔn)確[1].單類分類(One-class classification)問(wèn)題就是基于這種情況提出的.

遙感應(yīng)用中,很多情況需要先對(duì)遙感影像進(jìn)行分類.傳統(tǒng)的分類方法中,圖像中所有的類別都要事先有樣本被標(biāo)出,但是有些時(shí)候,有些類別的樣本不方便獲取或相對(duì)于其他類別數(shù)量太少,傳統(tǒng)方法就不能很好地解決問(wèn)題了[3];也有一些時(shí)候,我們只對(duì)圖像中某種特定的類別感興趣[4],比如,需要從遙感圖像中提取道路信息,這時(shí)就不需要分辨圖像中的森林和農(nóng)田,這時(shí)如果利用單類分類方法,只通過(guò)目標(biāo)類別的樣本進(jìn)行訓(xùn)練和學(xué)習(xí),就可以有效節(jié)省用于獲取其他類別樣本的時(shí)間,從而提高工作效率.綜上所述,在遙感應(yīng)用中,單類分類器主要適用于以下兩種情況.

(1)樣本缺失或數(shù)量不平衡,只有一類樣本可以用于訓(xùn)練分類器的情況,此時(shí)傳統(tǒng)兩類或多類分類器不能得到令人滿意的分類結(jié)果.

(2)只需要從圖像中提取某一種單一類別,此時(shí)使用單類分類器將可以提高工作效率,節(jié)約用于獲取非目標(biāo)類別樣本花費(fèi)的人力物力.

目前已有的單類分類方法根據(jù)原理大致可分為以下幾類[5]:密度估計(jì)法[1]、基于神經(jīng)網(wǎng)絡(luò)的方法[6]、基于聚類的方法[7-8]、基于支持域的方法[9-11],除此之外,有些考慮未標(biāo)定樣本的分類方法也被應(yīng)用于單類分類問(wèn)題中[12-14].但這些方法也都有著各自的局限性,且單類分類方法在遙感影像分類問(wèn)題中的應(yīng)用也有待進(jìn)一步研究.

鑒于研究用單類分類方法,通過(guò)不完全標(biāo)定的訓(xùn)練樣本提取單一類別的分類器對(duì)遙感應(yīng)用有著十分重要的意義,本文基于Landsat TM 影像,針對(duì)典型分類方法進(jìn)行實(shí)驗(yàn),再根據(jù)結(jié)果分析討論.本文涉及的分類方法主要包括單類高斯域(one-class Gaussian Domain Descriptor,Gaussian DD,GDD)方法、單類支撐向量(one-class SVM,OC-SVM)方法、Biased-SVM(BSVM)算法,以及傳統(tǒng)二類支撐向量方法.

1 數(shù)據(jù)及實(shí)驗(yàn)設(shè)計(jì)

1.1 基本原理

實(shí)驗(yàn)中,將針對(duì)單類高斯域(GDD)、OC-SVM分類法、BSVM 分類法,以及傳統(tǒng)的二類SVM 分類法,利用目標(biāo)類別樣本和未知類別樣本進(jìn)行分類比較實(shí)驗(yàn).

傳統(tǒng)二類SVM 分類是OC-SVM 和BSVM 的基礎(chǔ),單類分類問(wèn)題中因?yàn)槿鄙俜悄繕?biāo)類別的樣本,所以不能同時(shí)應(yīng)用目標(biāo)類別和非目標(biāo)類別樣本,但是卻可以獲取大量未知類別樣本,在接下來(lái)的討論中將二類SVM方法稱為C-SVM.

基于密度估計(jì)的方法主要思想是由訓(xùn)練樣本集估算出密度模型,并設(shè)定一個(gè)密度閾值,通過(guò)與該閾值比較來(lái)判斷未知類別的樣本是否屬于目標(biāo)類別[5].GDD 方法就是一種常用的密度估計(jì)法.

C-SVM 算法、OC-SVM 方法、BSVM 方法都以支撐向量和核函數(shù)的應(yīng)用為理論基礎(chǔ),主要思想是尋找能夠把類別區(qū)分開來(lái)的最合理界面,這個(gè)界面可能是一個(gè)邊界,也可能是超平面等等[9-11].在單類問(wèn)題中,這個(gè)界面需要在盡可能把目標(biāo)類別樣本包括在內(nèi)部的同時(shí)盡量減少非目標(biāo)類別被劃分進(jìn)來(lái)的概率.C-SVM方法以尋找兩類樣本的邊界為目標(biāo),通過(guò)核函數(shù)表示高維空間的內(nèi)積,利用Lagrange 函數(shù)求解判別函數(shù)[9].OC-SVM方法中,只有目標(biāo)類別樣本用于訓(xùn)練,所以把原點(diǎn)虛看作另一類,尋找使目標(biāo)類別樣本盡可能遠(yuǎn)離原點(diǎn)又包括足夠目標(biāo)類樣本的邊界[1].BSVM方法用目標(biāo)類別樣本和未知類別樣本共同訓(xùn)練學(xué)習(xí),在C-SVM方法基礎(chǔ)上演化而來(lái),因?yàn)槲粗悇e樣本中同時(shí)包括目標(biāo)類和非目標(biāo)類的樣本,所以設(shè)置兩個(gè)不同的懲罰參數(shù),且讓對(duì)應(yīng)目標(biāo)類的懲罰參數(shù)取較大值[13].

1.2 實(shí)驗(yàn)數(shù)據(jù)描述

本實(shí)驗(yàn)選用的遙感影像截取自陜西省2009年的一景TM影像,如圖1所示,其中圖1(a)為3、2、1 波段合成結(jié)果,圖1(b)為4、3、2 波段合成結(jié)果.影像大小為1 000*1 000像元,覆蓋范圍30 km*30 km.包括TM 的6 個(gè)波段,分別是第1~5 和7 波段,自然地物覆蓋清晰,無(wú)云層覆蓋區(qū)域.區(qū)域地理位置處于35°1 ′ 1.26 ″ N~35°7 ′ 12.41 ″ N、109°1′41.57″E~109°4′38.52″E范圍內(nèi),行政區(qū)劃上主要處于陜西省銅川市南部,受大陸性季風(fēng)氣候影響,四季分明,土地覆蓋類型以林地、農(nóng)田、居民地、水體為主.

圖1 待分類TM影像

由于遙感平臺(tái)、傳感器自身產(chǎn)生的噪聲,以及天氣狀況的影響,獲得的數(shù)據(jù)將不可避免地存在誤差,這些誤差的存在會(huì)降低遙感數(shù)據(jù)的質(zhì)量.所以,在運(yùn)行分類算法之前,有必要對(duì)獲取的原始圖像進(jìn)行預(yù)處理.數(shù)據(jù)預(yù)處理包括輻射定標(biāo)、大氣校正、地形校正,選取軟件ERDAS 的ATCOR模塊完成輻射校正.地形校正時(shí)還需要利用到和TM圖像空間上相匹配的DEM數(shù)據(jù),實(shí)驗(yàn)中所采用的DEM 數(shù)據(jù)為ASTRER 的DEM 數(shù)據(jù),經(jīng)重采樣到30 m*30 m.ATCOR3 的優(yōu)勢(shì)是可將地形與大氣校正同時(shí)完成.

1.3 實(shí)驗(yàn)設(shè)計(jì)

(1)樣本的選擇.實(shí)驗(yàn)區(qū)土地覆蓋類型以農(nóng)田、林地為主,并有少量水體.實(shí)驗(yàn)中選取農(nóng)田作為目標(biāo)類別,其他所有類別為非目標(biāo)類別.在選擇樣本時(shí),首先要對(duì)遙感影像中的農(nóng)田進(jìn)行解譯,解譯時(shí)考慮農(nóng)田的光譜特性和紋理特征.圖像中的農(nóng)田主要有三種,分別為:平原上的農(nóng)田、收割后的農(nóng)田、河谷中的農(nóng)田.

平原上的農(nóng)田在TM 影像432 波段組合下,由于農(nóng)作物的存在,呈亮紅色;在743 波段組合下呈綠色.平原上有作物的農(nóng)田表現(xiàn)為典型的植被光譜特征:在第2 波段和第4 波段出現(xiàn)綠峰和近紅外反射峰,在第3波段由于葉綠素吸收出現(xiàn)吸收谷,在近紅外第4 波段出現(xiàn)反射最大,短波紅外5、6 波段依次下降.由于農(nóng)田人工耕作痕跡比較明顯,行壟錯(cuò)落有致,因此在影像上表現(xiàn)出顯著的紋理特征,大片農(nóng)田內(nèi)部呈現(xiàn)有序的行列變化.

平原上農(nóng)作物收割之后的旱田,圍繞居民地成片狀分布,面積一般比較大.在TM 影像432 波段組合下,平原上收割后的旱田呈現(xiàn)亮白色,中間間雜暗色;在743 波段組合下,呈現(xiàn)為粉紅色調(diào).收割后的旱田呈現(xiàn)出裸地的光譜特征,波段3、4、5逐漸上升,短波紅外6波段下降.由于收割后的旱田行壟依然存在,表現(xiàn)在影像上為弱紋理信息,橫向、豎向或者斜向的條帶狀紋理間雜.

在TM 影像743 波段組合下,由于河谷中的農(nóng)田為收割前后農(nóng)田間雜分布,所以色調(diào)呈現(xiàn)綠色間雜粉紅色;在432 波段組合下,呈現(xiàn)為紅色間雜灰白色.河谷中農(nóng)田沿著河谷分布,呈現(xiàn)條帶狀紋理,有規(guī)律分布.

實(shí)驗(yàn)中,GDD 和OC-SVM 都只需要目標(biāo)類別的樣本用于分類,BSVM和C-SVM則需要目標(biāo)類別的樣本和一部分未知類別樣本.為完成以上方法的實(shí)驗(yàn),首先要獲取目標(biāo)類別樣本和非目標(biāo)類別樣本.更多的目標(biāo)類別訓(xùn)練樣本可能意味著更高的分類精度,但是這也會(huì)增加獲取訓(xùn)練樣本所需的成本.因此,本實(shí)驗(yàn)中選擇4 000個(gè)像元作為樣本,其中包括2 500個(gè)目標(biāo)類別樣本和1 500個(gè)非目標(biāo)類樣本,再在剩余的背景中隨機(jī)選擇5 000個(gè)樣本作為未知類別樣本.GDD和OC-SVM算法中,選擇1 000 個(gè)目標(biāo)類別樣本作為訓(xùn)練樣本,剩余的1 500個(gè)目標(biāo)類別樣本和1 500個(gè)非目標(biāo)類別樣本作為檢驗(yàn)樣本.標(biāo)定類別的樣本不超過(guò)全圖總體像元數(shù)的0.4%.為了得到更為準(zhǔn)確的結(jié)果,隨機(jī)選取10 組訓(xùn)練樣本進(jìn)行實(shí)驗(yàn).最終用全局精度OA和kappa系數(shù)對(duì)結(jié)果進(jìn)行比較和評(píng)價(jià).

(2)實(shí)驗(yàn)過(guò)程.在所有的方法中,均選取RBF高斯核函數(shù).OC-SVM、BSVM、C-SVM 方法均采用林智仁(ChihJen Lin)博士等開發(fā)的LIBSVM軟件包[15]實(shí)施.OC-SVM、BSVM和C-SVM的輸出結(jié)果均是二值的,分別表示目標(biāo)類別和非目標(biāo)類別,所以不用選擇閾值.

OC-SVM法需設(shè)定兩個(gè)參數(shù),分別為RBF核函數(shù)的寬度γ和預(yù)計(jì)訓(xùn)練樣本中離群的比例υ.在(0,100]范圍內(nèi)以為公比變化γ,在(0,1)范圍內(nèi)以0.1 的步長(zhǎng)變化υ.通過(guò)檢驗(yàn)樣本計(jì)算全局精度OA,計(jì)算每組參數(shù)變化對(duì)應(yīng)的OA,選取最佳參數(shù).除全局精度外,為評(píng)價(jià)計(jì)算成本,引入?yún)?shù)τ

nSV表示支撐向量數(shù),用支撐向量的數(shù)量來(lái)度量計(jì)算復(fù)雜度,τ為一個(gè)在全局精度和計(jì)算復(fù)雜度之間折衷的參數(shù).為獲得較高的精度,仍然選擇全局精度作為參數(shù)γ和υ選取的依據(jù).

BSVM 算法中有三個(gè)參數(shù)需要選取,分別是RBF核函數(shù)的寬度γ、目標(biāo)類別和未知類別的誤差權(quán)重Ct和C0,且Ct應(yīng)該大于C0.γ在(0,100]范圍內(nèi)以為公比變化,C0在[0.001,1]范圍內(nèi)以為公比變化,Ct取值為{10,100,1 000}×C0.C-SVM算法中設(shè)計(jì)兩個(gè)待定參數(shù),分別是RBF核函數(shù)的寬度γ以及誤差參數(shù)C.γ在(0,100]范圍內(nèi)以為公比變化,C在[0.1,1 000]范圍內(nèi)以為公比取值.

全部參數(shù)選定后,再代入模型中對(duì)訓(xùn)練樣本進(jìn)行學(xué)習(xí),建立分類器,再對(duì)全圖進(jìn)行分類,最后用檢驗(yàn)樣本完成檢驗(yàn).在OC-SVM、BSVM 和C-SVM 方法中,為防止因尺度不同導(dǎo)致小的數(shù)據(jù)波動(dòng)被忽略,把全部數(shù)據(jù)重采樣到[-1,1]范圍內(nèi).這也可以減小軟件計(jì)算核函數(shù)時(shí)的數(shù)字難度.

GDD 方法用數(shù)據(jù)描述工具箱(data description toolbox,dd_tools)[16]實(shí)施.只有目標(biāo)類別樣本用于訓(xùn)練,實(shí)驗(yàn)中選擇不加任何復(fù)合的簡(jiǎn)單高斯分布.模型中有兩個(gè)參數(shù),分別為閾值θ和正則化參數(shù)γ.θ和γ的范圍均在[0.01,1].

以上方法的實(shí)施可總結(jié)為分三步進(jìn)行:首先尋找優(yōu)化參數(shù),各方法對(duì)應(yīng)的參數(shù)意義及實(shí)驗(yàn)取值情況如表1.然后通過(guò)訓(xùn)練樣本訓(xùn)練學(xué)習(xí),建立分類器.最后用分類器對(duì)全圖分類,并檢驗(yàn)精度.

2 實(shí)驗(yàn)結(jié)果及討論

2.1 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)需要用10 組樣本,每種方法對(duì)應(yīng)每組樣本均需優(yōu)化一次參數(shù),以O(shè)C-SVM方法的一組訓(xùn)練樣本為例展示參數(shù)選取結(jié)果:OC-SVM方法中有兩個(gè)參數(shù)待選取,分別是:RBF 核函數(shù)的寬度γ和預(yù)計(jì)訓(xùn)練樣本中離群比例υ.實(shí)驗(yàn)得到OA和τ隨兩個(gè)參數(shù)變化情況如圖2,由此尋找極值,確定參數(shù).

圖2 OC-SVM方法中的參數(shù)選取

可以看出,通過(guò)精度(OA)最大化和精度計(jì)算成本折衷(τ)最大化選取的參數(shù)是有差別的,為了確保足夠的分類精度,最終選取OA最大化得到的參數(shù)用于接下來(lái)的訓(xùn)練學(xué)習(xí).實(shí)驗(yàn)中發(fā)現(xiàn)最優(yōu)參數(shù)是隨樣本不同而變化的,而參數(shù)不同又對(duì)精度變化有很大影響,這符合SVM 方法對(duì)參數(shù)敏感的特點(diǎn).選取參數(shù)之后進(jìn)入訓(xùn)練學(xué)習(xí)階段,最終對(duì)全圖分類并計(jì)算精度,用混淆矩陣計(jì)算kappa系數(shù),最終結(jié)果為10組樣本的平均.

表1 待定參數(shù)及他們的意義、搜索范圍和步長(zhǎng)

為顯示清晰,截取圖像中如圖3的13 km*13 km范圍區(qū)域展示,圖4為四種方法的分類結(jié)果.總的來(lái)說(shuō),以農(nóng)田為目標(biāo)類別,其他所有類別為非目標(biāo)類別,BSVM 方法獲得了最好的分類效果,他的分類結(jié)果與原始圖像最為接近.C-SVM方法次之,GDD 和OC-SVM 提取出的農(nóng)田較真實(shí)數(shù)量少,漏分現(xiàn)象較為嚴(yán)重,效果沒(méi)有BSVM和C-SVM方法好.

圖3 待分類TM圖像截取

圖4 四種方法分類結(jié)果圖

圖5為幾種方法的OA和kappa系數(shù)在10組樣本下的比較,BSVM方法的總體精度好于其他方法,GDD 和OC-SVM 方法精度較低.10 組樣本下的OA和kappa 系數(shù)及其均值、均方差如表2所示.總的來(lái)說(shuō),BSVM方法分類效果好于其他方法,且穩(wěn)定性更高.

圖5 四種方法10組樣本下的OA 及kappa

2.2 結(jié)果討論

有研究表明,OC-SVM在一些情況下可以得到較好的分類結(jié)果[4,16],有時(shí)甚至全局精度OA可超過(guò)90%.但也有一些情況,OC-SVM 方法的OA只能達(dá)到70%~80%[16].本研究中OC-SVM和GDD 方法都沒(méi)有達(dá)到令人滿意的分類效果,一方面因?yàn)檗r(nóng)田類型的提取有其自身的復(fù)雜性,不容易達(dá)到較高的分類精度,另一方面也是受方法自身所限制.OC-SVM和GDD方法都只用目標(biāo)類別的樣本進(jìn)行訓(xùn)練,而完全不考慮未知類別樣本的信息.而BSVM方法和C-SVM方法則使用目標(biāo)類別樣本和大量未知類別樣本共同進(jìn)行訓(xùn)練,樣本數(shù)量大大多于OC-SVM方法和GDD方法.而基于支撐向量的方法輸出結(jié)果都對(duì)待定參數(shù)的選取十分敏感.此外,由于訓(xùn)練樣本和檢驗(yàn)樣本都為人工選定,這將不可避免地帶來(lái)誤差.雖然我們可以人工設(shè)定訓(xùn)練樣本中的離群比例,但是訓(xùn)練樣本中的實(shí)際離群比例是無(wú)法得知的.

表2 四種方法10組樣本下的OA 及kappa

在單類分類方法中,所有已知類別的訓(xùn)練樣本都屬于目標(biāo)類,而未知類別的樣本則既可能屬于目標(biāo)類別也可能屬于非目標(biāo)類別.所以對(duì)于一些單類分類方法就相當(dāng)于用目標(biāo)類別樣本和未知類別樣本來(lái)訓(xùn)練一個(gè)二類分類器,或者說(shuō),用不純的樣本訓(xùn)練二類分類器,如BSVM 方法和C-SVM 方法.而一些單類分類方法,如OC-SVM方法和GDD 方法,則根本不用未知類別的樣本.實(shí)驗(yàn)證明,未知類別樣本的信息可以幫助有效提高分類精度,利用了未知類別樣本信息的BSVM方法和C-SVM方法比不用未知類別樣本信息的OC-SVM方法和GDD方法效果更好.

比較C-SVM 方法和BSVM 方法的原理可以看出,二者的區(qū)別在于前者沒(méi)有對(duì)目標(biāo)類別和非目標(biāo)類別分別設(shè)置懲罰參數(shù),只是單純用目標(biāo)類別樣本和一組未知類別的樣本進(jìn)行分類,將未知類別樣本代表的類別訓(xùn)練成非目標(biāo)類,樣本不純不可避免地給分類結(jié)果帶來(lái)誤差.而未知類別樣本為隨機(jī)選取,并不知道其中目標(biāo)類和非目標(biāo)類的比例.C-SVM方法的分類精度還和未知類別樣本中非目標(biāo)類所占的比例有關(guān),理論上來(lái)說(shuō),這個(gè)比例越高,將得到越準(zhǔn)確的分類結(jié)果.

BSVM 方法是利用未知類別樣本分類的有效方法[13],但是他也存在一些不足.方法中有兩個(gè)參數(shù)必須通過(guò)實(shí)驗(yàn)選取,而且最佳參數(shù)隨訓(xùn)練樣本的不同而顯著不同.如果選用非線性函數(shù)作為核函數(shù),參數(shù)的數(shù)量還將增加.

綜上,在單類分類問(wèn)題中考慮未知類別樣本,增加訓(xùn)練樣本數(shù)量,用目標(biāo)類別樣本和未知類別樣本的信息共同訓(xùn)練分類可以有效地提高分類精度.利用未知類別樣本的單類分類方法,如BSVM 方法,可以獲得較好的分類結(jié)果,但是他依托于支撐向量分類理論,具有基于支撐域的單類分類方法的共同缺陷,參數(shù)多且輸出結(jié)果對(duì)參數(shù)敏感.

3 結(jié)論

本文對(duì)幾種典型的單類分類算法進(jìn)行比較實(shí)驗(yàn).包括高斯域(GDD)方法、二類支撐向量(C-SVM)方法、單類支撐向量(one-class SVM,OC-SVM)方法、以及Biased-SVM(BSVM)算法.基于支撐域的單類分類方法OC-SVM 和基于密度的方法GDD均可以完成對(duì)遙感影像的地物分類,BSVM 方法考慮了更多樣本的信息,能夠得到更好的分類結(jié)果.可見(jiàn),在單類分類問(wèn)題中,加入未知類別樣本的信息,可以提高分類效果.且由于BSVM 方法針對(duì)目標(biāo)類別和非目標(biāo)類別樣本設(shè)置了不同的懲罰參數(shù),因此效果又好于將傳統(tǒng)二類分類方法C-SVM 直接用于單類分類問(wèn)題.這些方法的共同問(wèn)題是參數(shù)多且需要人為設(shè)定,參數(shù)因訓(xùn)練樣本的不同而不同,分類結(jié)果又對(duì)參數(shù)的變化較為敏感.這些問(wèn)題都有待在日后的研究中進(jìn)一步探討.

猜你喜歡
訓(xùn)練樣本類別分類器
人工智能
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
融合原始樣本和虛擬樣本的人臉識(shí)別算法
基于稀疏重構(gòu)的機(jī)載雷達(dá)訓(xùn)練樣本挑選方法
服務(wù)類別
論類別股東會(huì)
商事法論集(2014年1期)2014-06-27 01:20:42
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
义乌市| 永福县| 大化| 衡阳县| 陆丰市| 洪雅县| 黄骅市| 浑源县| 花垣县| 锡林郭勒盟| 长治县| 甘德县| 昌乐县| 凉城县| 华阴市| 庆云县| 台北县| 中牟县| 泸西县| 舟曲县| 乌拉特前旗| 祁阳县| 威宁| 武邑县| 常山县| 汶上县| 龙门县| 宿州市| 垦利县| 武邑县| 仲巴县| 汝南县| 阳信县| 府谷县| 南康市| 石屏县| 阳谷县| 白水县| 泰州市| 合川市| 陕西省|