国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于SVC的苧麻褐斑病葉片高光譜識(shí)別

2020-03-26 12:05汪佩佩崔國(guó)賢曹曉蘭
激光生物學(xué)報(bào) 2020年1期
關(guān)鍵詞:褐斑病個(gè)數(shù)波段

汪佩佩,崔國(guó)賢,李 運(yùn),曹曉蘭*

(湖南農(nóng)業(yè)大學(xué) a.信息與智能科學(xué)技術(shù)學(xué)院; b.苧麻研究所, 長(zhǎng)沙 410128)

苧麻(BoehmeirianiveaL.)是我國(guó)的特產(chǎn),作為一種傳統(tǒng)的纖維作物,我國(guó)苧麻種植面積和原料產(chǎn)量占世界的95%以上[1],有著較高的經(jīng)濟(jì)地位。褐斑病是苧麻常見的病種,染病時(shí)葉面能形成大小不一的不規(guī)則形病斑,并產(chǎn)生大量生孢子進(jìn)行再侵染,導(dǎo)致病害迅速蔓延,嚴(yán)重影響苧麻產(chǎn)量和品質(zhì)。以往對(duì)苧麻褐斑病的監(jiān)測(cè)和診斷主要基于肉眼觀測(cè)結(jié)合實(shí)驗(yàn)室進(jìn)行病原分析,過程復(fù)雜,而且受各種主客觀因素的影響,時(shí)效性差。隨著高光譜技術(shù)的發(fā)展,以高光譜技術(shù)為基礎(chǔ),以計(jì)算機(jī)數(shù)據(jù)分析處理為輔助手段的無(wú)損光學(xué)檢測(cè)和診斷技術(shù)使得農(nóng)作物精準(zhǔn)生產(chǎn)成為可能。當(dāng)前,基于高光譜的作物病害識(shí)別在水稻紋枯病和葉瘟病[2,3]、柑橘黃龍病[4,5]、小麥條銹病和赤霉病[6,7]、蘋果Marssonina斑病[8]等上均有研究,其研究?jī)?nèi)容一般包括作物健康和病害高光譜差異分析、病害敏感光譜區(qū)域確定、高光譜數(shù)據(jù)降維和病害識(shí)別模型建立:

1)作物健康和病害高光譜差異分析。葉片對(duì)光譜的吸收和反射受色素、水分、細(xì)胞結(jié)構(gòu)等因素影響,因此不同生長(zhǎng)和健康狀況的作物,其光譜曲線也會(huì)不同,特別是在綠色植物高光譜曲線上特有的綠峰、紅谷和紅邊等位置及其反射率上,更容易發(fā)生改變。因此很多研究對(duì)二者差異的比較主要在這幾個(gè)位置:如,劉燕德等[5]發(fā)現(xiàn)柑橘黃龍病葉片在綠峰的反射峰高于正常葉片,而在720 nm左右正常葉片反射率高于病害葉;黃旭影等[9]發(fā)現(xiàn)在剛竹毒蛾危害下的毛竹葉片原始光譜的綠峰和紅谷逐漸消失,紅邊區(qū)域斜率明顯減小,近紅外波段反射率較高;楊興川等[10]發(fā)現(xiàn)銀木的健康葉片綠峰比煙煤病葉片要明顯,且煙煤病葉片紅邊有紅移現(xiàn)象。

2)確定病害敏感光譜區(qū)域是為了去掉冗余和干擾信息,提高準(zhǔn)確性,同時(shí)光譜范圍縮小能減少后續(xù)計(jì)算量。敏感區(qū)域確定一般建立在上一步對(duì)健康和病害葉片光譜曲線差異分析基礎(chǔ)之上,如王利民等[11]通過分析光譜一階微分特征確定紅邊區(qū)域(680~780 nm)是春玉米大斑病敏感區(qū)域。但該方式不足之處是主觀性比較強(qiáng),而有研究則采用了更為客觀的標(biāo)準(zhǔn),如采用單因素方差分析原始光譜和一階光譜,選擇差異達(dá)極顯著水平(P<0.01)的波長(zhǎng)為敏感區(qū)域[9];或通過相關(guān)性分析,取相關(guān)系數(shù)絕對(duì)值較大區(qū)域?yàn)槊舾袇^(qū)域[10]。

3)高光譜數(shù)據(jù)降維是指利用特定方法,提取特征變量,作為后續(xù)建立識(shí)別模型的輸入變量,方法有主成分分析(principal components analysis,PCA)、連續(xù)投影算法(successive projections algorithm,SPA)、競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法(competitive adaptive reweighted sampling,CARS)等;而建立基于高光譜的作物病害識(shí)別模型是利用模式識(shí)別方法建立定性模型,常用的模式識(shí)別方法有支持向量分類(support vector classification,SVC)、判別分析(discriminant analysis,DA)、誤差反向傳播神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)、決策樹、極限學(xué)習(xí)機(jī)等。

對(duì)于不同作物和病害,確定了病害敏感區(qū)域之后,采取何種“降維方法”+“模式識(shí)別方法”組合效果最佳需要多次嘗試和比較:李志偉等[2]建立水稻紋枯病識(shí)別模型采用基于最小噪聲分離變換算法提取特征信息,分別于DA和BPNN組合,發(fā)現(xiàn)BPNN建模效果更佳,預(yù)測(cè)集正確率達(dá)98.4%;Yao等[6]在建立小麥白粉病、條銹病識(shí)別模型時(shí),采用PCA-載荷法、連續(xù)投影算法和競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)算法等方法降維,用最小二乘-支持向量機(jī)和極限學(xué)習(xí)機(jī)分類,各組合的識(shí)別模型準(zhǔn)確率均在94.58%以上,其中以PCA-載荷法+極限學(xué)習(xí)機(jī)組合建模型最優(yōu),識(shí)別率可達(dá)100%;梁琨等[7]建立小麥赤霉病識(shí)別模型時(shí),分別用SPA和CARS降維,組合SVC和BP神經(jīng)網(wǎng)絡(luò),發(fā)現(xiàn)SPA+SVM效果最優(yōu)。

本研究在了解苧麻褐斑病葉片和健康葉片高光譜響應(yīng)特性異同的基礎(chǔ)上,基于離散系數(shù)篩選敏感子波段,然后采用PCA方法對(duì)各子波段進(jìn)行數(shù)據(jù)降維,選擇不同個(gè)數(shù)的主成分作為特征變量,分別建立各子波段的SVC苧麻褐斑病識(shí)別模型,對(duì)比各模型的效果,獲得最佳建模方案,為利用高光譜開展苧麻葉片褐斑病診斷探索一種快速高效的新方法。

1 材料與方法

1.1 儀器設(shè)備

高光譜數(shù)據(jù)采集設(shè)備選用美國(guó)ASD公司生產(chǎn)的FieldSpec3便攜式地物光譜儀和配套的手持葉片夾持器,光譜儀波段范圍為350~2 500 nm,葉夾器具有內(nèi)置石英鹵化燈,光源穩(wěn)定。采用的光譜數(shù)據(jù)分析處理軟件有Excel、Spss Statistics和Umscrambler。

1.2 樣本采集與劃分

樣本采集于2018年5月和7月苧麻旺長(zhǎng)期,在湖南農(nóng)業(yè)大學(xué)國(guó)家麻類長(zhǎng)期定位試驗(yàn)點(diǎn)(28°10′N,113°4′E)進(jìn)行,采集樣本時(shí),選擇中等危害程度的褐斑病葉片,健康葉片則選擇同株、位于中層的旺盛葉片。測(cè)量葉片高光譜時(shí),避開葉脈,將葉夾器夾緊葉片所測(cè)部位,沿主葉脈左右各采集2個(gè)點(diǎn),共4個(gè)采樣點(diǎn),取平均值代表該葉片的高光譜數(shù)據(jù),本研究均以葉片光譜數(shù)據(jù)做為分析對(duì)象。同時(shí),為消除光譜數(shù)據(jù)在采集時(shí)首端與末端產(chǎn)生的噪音,選擇420~2 450 nm之間的光譜數(shù)據(jù)進(jìn)行分析。

健康葉片和褐斑病葉片高光譜數(shù)據(jù)各采集了215個(gè),一共430個(gè)樣本,每種樣本按2∶1比例隨機(jī)分成訓(xùn)練集和預(yù)測(cè)集。訓(xùn)練集用于建立褐斑病識(shí)別模型;預(yù)測(cè)集不參與建模,僅用于評(píng)測(cè)模型的準(zhǔn)確率。

1.3 數(shù)據(jù)處理與分析

1.3.1 數(shù)據(jù)降維方法

全波段的高光譜數(shù)據(jù)雖然信息全面,但維度高,數(shù)據(jù)量大,其中存在大量無(wú)效、冗余和干擾信息,這不僅會(huì)增加建模計(jì)算量,并且會(huì)降低模型的穩(wěn)定性、可靠性。因此在滿足一定精度要求的前提下,通過特定方法對(duì)全波段數(shù)據(jù)降維,篩選、提取出更有代表性的特征參數(shù)建模,不僅可以節(jié)約計(jì)算成本,還能提高模型的質(zhì)量。本文對(duì)數(shù)據(jù)的降維分為兩個(gè)步驟,先基于離散系數(shù)篩選敏感子波段,然后對(duì)子波段采用PCA方法提取特征參數(shù)。

1.3.1.1 基于離散系數(shù)的敏感子波段篩選

離散系數(shù)是一組數(shù)據(jù)的標(biāo)準(zhǔn)差s與其相應(yīng)的平均數(shù)x之比,標(biāo)準(zhǔn)差s的計(jì)算公式為:

s=i=1n(xi-x)2n-1

其中,x1,x2,……xn為樣本數(shù)據(jù);n為樣本量;x為樣本平均數(shù)。

離散系數(shù)能夠反映樣本數(shù)據(jù)的差異,離散系數(shù)大的數(shù)據(jù),差異程度大,反之則差異程度小。本研究提出一種基于離散系數(shù)篩選敏感子波段的方法:先求褐斑病葉片和健康葉片高光譜反射率均值,再計(jì)算二者在各波長(zhǎng)的離散系數(shù),設(shè)置合理閾值,篩選出離散系數(shù)較大,即數(shù)據(jù)差異大的波段,選擇這些波段作為褐斑病敏感子波段進(jìn)行下一步處理。

1.3.1.2 子波段主成分分析PCA

PCA方法通過線性變換,將原始變量映射到一個(gè)新的坐標(biāo)系統(tǒng)中,使得任何數(shù)據(jù)投影的最大方差在第一個(gè)坐標(biāo)(第一主成分P1),第二大方差在第二個(gè)坐標(biāo)(第一主成分P2)上,……,依此類推。經(jīng)轉(zhuǎn)換得到的新變量相互正交,互不相關(guān),消除了眾多共存信息中相互重疊的部分,同時(shí)這些新變量要盡可能多地表達(dá)原變量的數(shù)據(jù)特征而不丟失信息[12]。PCA的主要統(tǒng)計(jì)量包括3個(gè):特征值λ,它反映的是原始變量的總方差在各成分上重新分配的結(jié)果;各成分的貢獻(xiàn)率,即各成分所包含的信息占總信息的百分比;前k個(gè)成分的方差累積貢獻(xiàn)率[13]。由于轉(zhuǎn)化后得到的主成分保留了原始變量的絕大多數(shù)信息,因此可以代替原始變量用于建模,所得結(jié)果多半優(yōu)于利用原始變量直接建模。

主成分個(gè)數(shù)的選擇標(biāo)準(zhǔn)有幾種:1)取所有特征值λ大于1的成分;2)根據(jù)方差累積貢獻(xiàn)率達(dá)到的百分比值(如85%)的前l(fā)個(gè)主成分;3)依據(jù)所建模型的結(jié)果而定[14]。本文對(duì)上一步篩選出來的敏感子波段進(jìn)行PCA二次降維,選擇合適的主成分個(gè)數(shù)作為建模的特征變量。

1.3.2 支持向量分類SVC

和很多傳統(tǒng)分類方法相比,SVC能有效降低噪聲、提高學(xué)習(xí)效率,廣泛應(yīng)用于模式識(shí)別[15],在解決小樣本、非線性和高維的二分類和回歸問題上有許多優(yōu)勢(shì)[16],在高光譜分類上也有比較好的效果。SVC的基本思路是:找到兩個(gè)相互平行且間距最大,并能將屬于不同類別的樣本點(diǎn)正確分開的邊界,位于兩邊界中間位置并與之平行的超平面稱為最大邊界超平面,即為最終解。

對(duì)于線性不可分的問題,SVC采用映射的方法將其轉(zhuǎn)化為高維空間中的線性可分問題,并且通過核函數(shù)計(jì)算出轉(zhuǎn)換處理后的內(nèi)積結(jié)果來解決從低維空間轉(zhuǎn)換到高維空間產(chǎn)生的維災(zāi)難問題。本研究中采用徑向基核函數(shù)(radical basic function kernel,RBF)。

1.3.3 定性模型的評(píng)價(jià)

定性模型的評(píng)價(jià)以預(yù)測(cè)集準(zhǔn)確率結(jié)合建模特征變量個(gè)數(shù)為主:準(zhǔn)確率越高,模型效果越好;參與建模的特征變量個(gè)數(shù)越少,計(jì)算量越小越好,但個(gè)數(shù)太少,可能會(huì)導(dǎo)致失去一部分有效信息,使得建模準(zhǔn)確率降低,因此二者需要權(quán)衡考慮。

2 結(jié)果與分析

2.1 褐斑病與健康葉片高光譜特性

分別對(duì)樣本中的褐斑病和健康葉片高光譜反射率取均值,其均值曲線如圖1所示,從圖1中可知褐斑病葉片高光譜反射率整體高于健康葉片;在550 nm左右的綠峰區(qū)域差異比較明顯;從紅谷區(qū)域陡然上升到高平臺(tái)區(qū)之后,在700~1 400 nm區(qū)域,二者反射率差異較小;但在1 400 nm之后的兩個(gè)波峰區(qū)域,健康葉片反射率明顯又低于褐斑病葉片。

圖1 褐斑病和健康葉片高光譜波形Fig.1 The hyperspectral waveformsof brown spot leaves and healthy leaves

求二者離散系數(shù),其曲線如圖2所示。由圖2可知,離散系數(shù)反映出來的二者差異特性與圖1基本吻合:在550 nm左右的綠峰區(qū)域、1 430 nm左右和1 920 nm之后區(qū)域離散系數(shù)較高;而在在700~1 400 nm區(qū)域離散系數(shù)較小。表明這幾個(gè)區(qū)域是敏感波段區(qū)域。

圖2 褐斑病和健康葉片高光譜數(shù)據(jù)離散系數(shù)Fig.2 The variation coefficient of the hyperspectral data of both the brown spot leaves and the healthy leaves

2.2 波段選擇

根據(jù)所求得的離散系數(shù)值,以0.1為閾值,選擇離散系數(shù)≥0.1的波段作為后續(xù)PCA的子波段,共篩選出4個(gè)波段,各子波段情況如表1所示。

表1 子波段情況Tab.1 The sub bands

2.3 PCA結(jié)果及主成分個(gè)數(shù)確定

為了對(duì)比不同波段對(duì)建模結(jié)果的影響,分別對(duì)全波段、全部子波段(即波段A+B+C+D)、波段A、波段B、波段C和波段D作PCA分析。各波段參與PCA的波長(zhǎng)個(gè)數(shù)分別為2 013個(gè)、838個(gè)、126個(gè)、25個(gè)、106個(gè)和581個(gè),各波段PCA結(jié)果的前10個(gè)主成分特征值λi和累積方差貢獻(xiàn)率如表2所示。

根據(jù)表2中結(jié)果可知,若按照特征值λ>1或累積貢獻(xiàn)率>85%為主成分個(gè)數(shù)選擇標(biāo)準(zhǔn),兩個(gè)標(biāo)準(zhǔn)得到的主成分個(gè)數(shù)差別較大。因此,為了確定最佳主成分個(gè)數(shù),本研究選擇1~10個(gè)主成分作為特征變量,分別建立各個(gè)波段的SVC(RBF)模型并進(jìn)行預(yù)測(cè),比較不同主成分個(gè)數(shù)對(duì)模型正確率的影響,再根據(jù)模型預(yù)測(cè)集正確率拐點(diǎn)決定主成分個(gè)數(shù)。

2.4 SVC建模結(jié)果

各波段選擇1~10個(gè)主成分,以訓(xùn)練集數(shù)據(jù),分別建立不同主成分個(gè)數(shù)的SVC(RBF)識(shí)別模型,然后將預(yù)測(cè)集數(shù)據(jù)代入模型,統(tǒng)計(jì)其各模型的預(yù)測(cè)正確率,正確率曲線如圖3所示,訓(xùn)練集和預(yù)測(cè)集詳細(xì)正確率如表3所示。

圖3 預(yù)測(cè)集正確率Fig.3 Predictive set accuracy

從圖3可知,所有波段正確率均是先隨著主成分個(gè)數(shù)增加而增大,但當(dāng)個(gè)數(shù)增至某點(diǎn)時(shí),正確率均會(huì)減少,說明該點(diǎn)之后有過擬合的情況,這是需要避免的[14]。因此本研究以預(yù)測(cè)集正確率的拐點(diǎn)作為最佳主成分個(gè)數(shù)的選擇標(biāo)準(zhǔn)。由表3可知,全波段、全部子波段、波段A、波段B、波段C和波段D的拐點(diǎn)分別為第2、第4、第3、第4、第5和第5個(gè)主成分,其對(duì)應(yīng)的正確率分別為83.8%、91.6%、85.2%、88.0%、93.0%和92.3%。

所有波段拐點(diǎn)的正確率中,以波段C最高(93.0%),全波段最低(83.8%)。而波段C參與PCA的波長(zhǎng)個(gè)數(shù)比較少(106個(gè)),僅多于波段B(25個(gè)),最佳主成分個(gè)數(shù)為5個(gè),沒有明顯高于其他波段,因此綜合權(quán)衡,本文認(rèn)為用波段C建模正確率和計(jì)算量最佳。

表2 主成分分析結(jié)果Tab.2 The result of PCA

表3 訓(xùn)練集和預(yù)測(cè)集正確率(%)Tab.3 Accuracy of train set and predictive set(%)

3 討論

3.1 健康與褐斑病葉片高光譜差異原因

在350~2 500 nm光譜區(qū)域內(nèi),健康的綠色植物光譜反射率曲線變化特性非常相似,且有明顯的規(guī)律[17]:380~780 nm可見光波段,光譜特性主要受各種葉色素的支配,特別是在550 nm左右的綠峰區(qū),是葉綠素的強(qiáng)反射區(qū);而在1 350 nm之后的波段,其反射率與水分、二氧化碳和植物本身的生物學(xué)特性有關(guān)。

褐斑病葉片顏色偏黃,表明其葉綠素含量低于健康葉片,因此對(duì)綠色波長(zhǎng)的光吸收較少,在光譜曲線上表現(xiàn)為綠峰的峰值明顯高于健康葉片,相對(duì)應(yīng)的離散系數(shù)也較高;1 430 nm左右和1 920 nm之后區(qū)域離散系數(shù)較高,本文推測(cè)也許與褐斑病葉片水分明顯減少導(dǎo)致葉片在該區(qū)域?qū)獾奈諟p少,反射增加有關(guān),這需要做進(jìn)一步研究證實(shí)。

3.2 敏感波段的篩選

本文提出的利用離散系數(shù)篩選敏感波段的方法,從預(yù)測(cè)集正確率可知,未經(jīng)篩選的全波段模型拐點(diǎn)正確率最低(83.8%),而其他各子波段模型(包括全部子波段)拐點(diǎn)的正確率均高于全波段模型,可見,該方法在閾值設(shè)置合理的情況下,不僅降維效果十分明顯,而且能準(zhǔn)確獲取最具有識(shí)別能力的子波段,為敏感波段的篩選提供了一個(gè)新的方法。

各子波段中,波段C波長(zhǎng)個(gè)數(shù)為106個(gè),為全波段(2 013個(gè))1/20左右;模型拐點(diǎn)正確率達(dá)到93.0%,主成分個(gè)數(shù)為5個(gè),綜合權(quán)衡,波段C為最敏感波段。

3.3 PCA主成分個(gè)數(shù)選擇

PCA主成分個(gè)數(shù)選擇時(shí),若主因子太少,將會(huì)丟失原始光譜較多的有用信息,擬合不充分;但選擇的主成分太多,將測(cè)量噪聲過多地包括進(jìn)來,會(huì)出現(xiàn)過擬合現(xiàn)象,所建模型預(yù)測(cè)誤差會(huì)顯著增大[12]。

由表2可知,波段C僅用1個(gè)主成分就能代表99.71%的原始數(shù)據(jù)信息,但由圖3曲線走勢(shì)可知,適當(dāng)增加主成分個(gè)數(shù)可以較大幅度提高模型正確率,但當(dāng)主成分個(gè)數(shù)超過某個(gè)值之后,所有正確率曲線均呈現(xiàn)下降或者趨于平緩的走勢(shì),這說明正確率與主成分個(gè)數(shù)并不完全成正比,這一點(diǎn)與前人研究結(jié)果吻合[18,19]。

綜上所述,采用離散系數(shù)篩選子波段,各子波段參與PCA的波長(zhǎng)個(gè)數(shù)有較大幅度減少,且子波段模型的正確率明顯高于全波段模型??梢娀陔x散系數(shù)篩選子波段不僅能較大幅度降低PCA計(jì)算量,還能有效地減少冗余和噪聲,提高模型準(zhǔn)確率。綜合考慮波長(zhǎng)個(gè)數(shù)、正確率和最佳主成分個(gè)數(shù)等因素,波段C(1 406~1 511 nm)不僅波長(zhǎng)個(gè)數(shù)較少(106個(gè)),而且建模效果最佳,主成分個(gè)數(shù)為5個(gè)時(shí),其預(yù)測(cè)集準(zhǔn)確率達(dá)到93.0%。因此,應(yīng)用分波段PCA結(jié)合SVC方法建立基于高光譜的苧麻葉片褐斑病識(shí)別模型是可行的,選擇1 406~1 511 nm區(qū)域進(jìn)行PCA分析,然后選取5個(gè)主成分作為特征變量建立SVC(RBF)的識(shí)別模型是最優(yōu)方案。

猜你喜歡
褐斑病個(gè)數(shù)波段
蘋果園褐斑病防治正當(dāng)時(shí)
最佳波段組合的典型地物信息提取
怎樣數(shù)出小正方體的個(gè)數(shù)
高溫多雨 注意防治蘋果褐斑病
楚雄州桑樹褐斑病發(fā)生規(guī)律研究
等腰三角形個(gè)數(shù)探索
怎樣數(shù)出小木塊的個(gè)數(shù)
蘋果褐斑病的發(fā)生與綜合防治
怎樣數(shù)出小正方體的個(gè)數(shù)
基于PLL的Ku波段頻率源設(shè)計(jì)與測(cè)試