国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于sCARS-PSO-SVM的土壤硒含量高光譜定量反演

2023-11-03 13:14:04王正海曹海玲蘇文林
光譜學(xué)與光譜分析 2023年11期
關(guān)鍵詞:波段反演光譜

謝 鵬, 王正海, 肖 蓓, 曹海玲, 黃 意, 蘇文林

中山大學(xué)地球科學(xué)與工程學(xué)院, 廣東 廣州 510275

引 言

硒(Se)是與人體健康密切相關(guān)的微量生命元素之一[1-2], 例如, 食用過量硒會(huì)導(dǎo)致硒中毒[3], 缺乏硒會(huì)導(dǎo)致人體產(chǎn)生克山、 大骨節(jié)等疾病[4]。 人體補(bǔ)充硒最穩(wěn)妥的方式是食用含硒農(nóng)產(chǎn)品, 而農(nóng)產(chǎn)品中硒的含量在很大程度上受限于土壤中硒元素的含量及分布。 因此, 確定土壤中硒的含量和分布情況, 對人的生命健康具有重要意義。 近年來, 關(guān)于土壤硒含量的監(jiān)測和分析受到研究者的廣泛關(guān)注。 到目前為止, 對土壤硒的調(diào)查研究大多基于地球化學(xué)手段, 需借助大量的樣本進(jìn)行化學(xué)實(shí)驗(yàn)分析, 如此一來所花費(fèi)時(shí)間過長、 投入資金偏高, 以及估測范圍極其有限, 難以滿足土壤微量元素的快速、 大面積測定。 而高光譜技術(shù)憑借高效率、 便捷、 高環(huán)保、 不損害土壤等優(yōu)勢, 在土壤微量元素預(yù)測研究中得到了廣泛應(yīng)用[5]。

微量元素含量不同的土壤具有不同的光譜特征, 這為土壤微量元素含量的快速測定開辟了新的途徑。 近年來, 眾多研究人員利用高光譜手段對土壤元素含量的預(yù)測進(jìn)行了大量的研究。 目前常見的土壤元素含量預(yù)測模型有多元逐步回歸、 偏最小乘回歸等線性模型, 以及隨機(jī)森林、 支持向量機(jī)等非線性模型。 在土壤元素含量光譜特征波段篩選上, 較常見的特征提取算法有迭代保留信息變量(IRIV)和連續(xù)投影(SPA)以及競爭性自適應(yīng)重加權(quán)(CARS)等。 在土壤硒含量高光譜反演方面, 許多學(xué)者也進(jìn)行了相關(guān)反演研究: 趙寧博等通過隨機(jī)森林模型, 結(jié)合相關(guān)分析選擇特征波段進(jìn)行土壤硒含量預(yù)測, 得到了較好的結(jié)果[6]; 李巨寶等利用偏最小二乘法建立土壤硒含量與土壤光譜反射率的關(guān)系模型, 認(rèn)為土壤硒元素含量在一定條件下可以借助土壤光譜參數(shù)進(jìn)行反演[7]。 盡管國內(nèi)外關(guān)于土壤硒含量的討論大幅增加, 但部分難點(diǎn)依然存在。 例如, 在利用高光譜參數(shù)進(jìn)行建模分析時(shí), 波段信息冗余的影響難以消除, 此外, 多數(shù)研究僅通過皮爾遜相關(guān)性分析(PCC)選擇相關(guān)性較大的波段作為特征波段, 許多帶有化學(xué)信息的波段被剔除。 在具體研究中, 由于土壤硒含量的光譜特征敏感性較低, 常見的SPA、 CARS等特征提取算法無法保證變量的穩(wěn)定性, 因此, 在建立回歸模型反演硒含量時(shí), 有必要對特征提取方法的穩(wěn)定性做出相關(guān)改進(jìn)。 另外, 眾多研究結(jié)果表明, 土壤微量元素含量與光譜反射率受多方面的影響, 關(guān)系極其復(fù)雜, 用偏最小二乘等線性模型難以給出合理解釋, 但支持向量等非線性模型參數(shù)的設(shè)置也對模型的性能有很大影響, 因此, 構(gòu)建穩(wěn)定的特征篩選算法以及精度較高的預(yù)測模型, 對土壤硒含量的光譜反演來說, 顯得尤為重要。

以連州地區(qū)土壤硒含量為研究對象, 通過對原始反射光譜進(jìn)行相關(guān)性增強(qiáng)處理, 利用基于變量穩(wěn)定性的競爭自適應(yīng)加權(quán)抽樣法(sCARS), 結(jié)合皮爾遜相關(guān)性分析(PCC)來降低模型復(fù)雜度, 提升模型效率, 并盡可能保證變量的穩(wěn)定性。 將光譜參數(shù)作為自變量, 把土壤硒含量作為因變量, 分別建立PLSR、 SVM和PSO-SVM土壤硒含量高光譜反演模型, 通過對比不同特征提取下的3類預(yù)測模型的反演精度, 分析基于變量穩(wěn)定性的特征篩選方法與線性模型以及參數(shù)優(yōu)化后的非線性模型的預(yù)測效果, 進(jìn)而尋找最優(yōu)的土壤硒含量高光譜反演模型。

1 實(shí)驗(yàn)部分

1.1 數(shù)據(jù)獲取

研究區(qū)位于廣東省清遠(yuǎn)市西北部的連州地區(qū), 經(jīng)緯度范圍為東經(jīng)112°07′—112°47′, 北緯24°37′—25°12′, 屬亞熱帶季風(fēng)氣候區(qū), 常年受季風(fēng)影響。 區(qū)內(nèi)土壤硒元素分布廣泛。 采樣點(diǎn)(如圖1所示)分布于連州市范圍內(nèi)。 共采集0~20 cm表層土壤樣品50份。 采集土壤樣品時(shí)按照五點(diǎn)采樣法, 對采集的土壤樣品進(jìn)行密封、 標(biāo)記等處理后, 將土壤樣品自然風(fēng)干, 研磨并剔除土壤中雜質(zhì), 為減少因土壤顆粒差異以及水分差異帶來的影響, 所有樣品過60目篩, 將過篩后的樣品放入烘箱, 在60 ℃下放置24 h。 將每份樣品均分為兩份, 分別用于土壤Se含量測定(檢測結(jié)果如表1所示)和室內(nèi)光譜數(shù)據(jù)獲取: 使用PSR+3500便攜式地物光譜儀(波長范圍: 350~2 500 nm), 在暗室進(jìn)行土壤樣品的光譜數(shù)據(jù)獲取(圖2為部分土壤樣本的原始光譜曲線)。

表1 土壤硒含量統(tǒng)計(jì)表

圖1 研究區(qū)位置及采樣點(diǎn)分布圖

圖2 土壤樣品原始光譜曲線

1.2 光譜預(yù)處理與相關(guān)分析

因?yàn)橥寥罉悠帆@取過程中, 會(huì)受到含水量、 土壤顆粒大小、 以及人為操作等因素的影響, 導(dǎo)致所采集的光譜信息含有較多的噪聲, 不僅影響微量元素與光譜反射率的相關(guān)性, 還會(huì)降低預(yù)測模型的精度和穩(wěn)定性, 所以通過光譜數(shù)據(jù)處理, 減少噪聲, 增強(qiáng)光譜敏感性, 對土壤硒含量預(yù)測模型的構(gòu)建極其重要。 采用多元散射校正[MSC, 圖3(a)]、 標(biāo)準(zhǔn)正態(tài)變量校正[SNV, 圖3(b)]、 對數(shù)一階微分[lg(R)-FD, 圖3(c)]和多元散射校正一階微分[MSC-FD, 圖3(d)]等數(shù)學(xué)變換處理光譜數(shù)據(jù), 以此增強(qiáng)光譜反射率與土壤硒含量的特征關(guān)系。

圖3 變換后的光譜

為改善高光譜數(shù)據(jù)因其所含有的信息波段多, 數(shù)據(jù)冗余而導(dǎo)致土壤元素含量反演模型的不穩(wěn)定, 以及減少由于直接通過PCC方法選擇特征波段所造成的有用信息的損失, 使用sCARS算法對幾種光譜數(shù)據(jù)先進(jìn)行初步特征波段的提取, 再利用PCC選擇出相關(guān)系數(shù)絕對值大于0.5的波段作為特征參數(shù)。

sCARS是一種以變量的穩(wěn)定性為變量重要性指標(biāo)的特征波段選擇方法[1]。 sCARS可以借助極少量的自變量得到滿足條件的最佳均方根誤差(RMSEP)和交互驗(yàn)證均方根誤差(RMSECV)值。 相較于皮爾遜相關(guān)性分析(PCC)等常用的敏感波段提取手段, sCARS算法能夠最大程度的凸顯所選取特征波段的重要性, 降低了變量無用性的影響, 進(jìn)而能夠提取含有硒含量信息的敏感波段, 較少數(shù)據(jù)冗余, 降低模型復(fù)雜度, 提高預(yù)測模型反演精度和穩(wěn)定性。

sCARS算法首先計(jì)算各波長變量的穩(wěn)定性, 然后利用自適應(yīng)重加權(quán)采樣技術(shù)ARS和指數(shù)衰減函數(shù)EDF, 篩選出回歸系數(shù)絕對值大且穩(wěn)定性高的變量, 經(jīng)過多次循環(huán)迭代, 最終以十折交互檢驗(yàn)對每次循環(huán)后所得的變量子集進(jìn)行檢驗(yàn), 選出交互驗(yàn)證均方根誤差(RMSECV)最小的變量子集。

1.3 樣本劃分與模型構(gòu)建

1.3.1 模型樣本集劃分

考慮到異常樣本對回歸預(yù)測模型精度的影響, 在劃分訓(xùn)練集和預(yù)測集數(shù)據(jù)之前, 應(yīng)最先剔除異常樣本; 采用Origin2022軟件作箱型圖, 剔除掉異常值, 最終將剩余的49個(gè)土壤樣本按照硒含量的高低進(jìn)行排序, 劃分出訓(xùn)練集與預(yù)測集樣本比例為2∶1, 劃分結(jié)果如表2所示。 訓(xùn)練樣本的土壤硒含量最小值為0.20 μg·g-1, 最大值為1.15 μg·g-1, 平均值為0.67 μg·g-1; 預(yù)測樣本的土壤硒含量最小值為0.35 μg·g-1, 最大值為1.14 μg·g-1, 平均值為0.72 μg·g-1, 所劃分出的訓(xùn)練樣本數(shù)據(jù)包含了預(yù)測樣本硒含量范圍, 可以消除樣本集中特殊數(shù)據(jù)對建模精度帶來的部分影響, 有助于提高回歸預(yù)測的準(zhǔn)確性。

表2 訓(xùn)練集和預(yù)測集土壤硒含量描述性統(tǒng)計(jì)表

1.3.2 預(yù)測模型構(gòu)建

PLSR模型: 偏最小二乘回歸模型, 是集多元線性回歸(MLR)、 典型相關(guān)分析(PCC)和主成份(PCA)分析于一體的線性模型[8]。 利用PLSR模型預(yù)測土壤硒含量, 可以很好地處理大量光譜數(shù)據(jù)的多重共線性問題, 也可以有效避免回歸預(yù)測模型在反演過程中產(chǎn)生的過擬合現(xiàn)象[9-10]。

SVM模型: 支持向量機(jī)(support vector machines)是Vapnik在1995年提出的一種基于統(tǒng)計(jì)學(xué)理論的新型機(jī)器學(xué)習(xí)方法。 SVM模型在解決小樣本、 非線性和高維度模式識別中擁有較大優(yōu)勢[11-12]。

PSO-SVM模型: 由于核函數(shù)和正則化參數(shù)是SVM回歸模型的重要參數(shù), 對該模型的預(yù)測精度有很大影響。 因此, 優(yōu)化兩個(gè)重要參數(shù), 對提高預(yù)測模型的整體精度至關(guān)重要。 粒子群優(yōu)化(PSO)算法是一種基于迭代尋優(yōu)的群計(jì)算技術(shù)。 該算法首先定義具有一定數(shù)量的粒子, 再經(jīng)過迭代過程尋找目標(biāo)函數(shù)的最優(yōu)解。 以下是PSO-SVM的實(shí)現(xiàn)過程(如圖4所示)。

圖4 PSO優(yōu)化SVM參數(shù)流程圖

步驟1: 將訓(xùn)練集數(shù)據(jù)和預(yù)測集數(shù)據(jù)導(dǎo)入模型中;

步驟2: 進(jìn)行參數(shù)設(shè)置: 群體規(guī)模n=50、 最大迭代次數(shù)N=200、 學(xué)習(xí)因子C1=1.5和C2=1.7, 核函數(shù)設(shè)定為0.1~1 000、 正則化參數(shù)設(shè)定為0.01~100, 另外再設(shè)置粒子其他初始參數(shù);

步驟3: 將光譜數(shù)據(jù)和土壤硒含量輸入模型, 得到更新后的RMSE。 通過對比目前最優(yōu)適應(yīng)度與粒子本身最優(yōu)適應(yīng)度, 當(dāng)目前最優(yōu)適應(yīng)度優(yōu)于粒子本身最優(yōu)適應(yīng)度時(shí), 更新個(gè)體極值(pBest)和全局極值(gBest), 進(jìn)而更新粒子速度和位置。

步驟4: 檢驗(yàn)最大運(yùn)行次數(shù)和參數(shù)優(yōu)值, 當(dāng)符合時(shí), 則將σ和γ代入SVM進(jìn)行不同光譜處理下的土壤硒含量預(yù)測, 否則執(zhí)行步驟3, 繼續(xù)尋找參數(shù)最優(yōu)值。

2 結(jié)果與討論

2.1 光譜變換與相關(guān)分析

通過SPSS 26軟件對光譜數(shù)據(jù)與土壤硒含量做相關(guān)性分析, 結(jié)果如圖5所示。 從圖5左圖可以看出原始光譜與Se的相關(guān)性變化趨勢整體上與MSC和SNV的一致, 均有較好的相關(guān)性, MSC和SNV與硒含量的相關(guān)性在1 250~1 800 nm波段明顯優(yōu)于原始光譜, 在1 800 nm以后原始光譜與硒含量的相關(guān)性有所提高, 在圖5的右圖中, 兩種光譜變換數(shù)據(jù)與硒含量的相關(guān)性變化趨勢基本一致。 考慮到幾種光譜數(shù)據(jù)與硒含量的相關(guān)性都有較為明顯的波段, 因此將以上光譜數(shù)據(jù)全部作為后續(xù)特征波段提取研究。

圖5 光譜數(shù)據(jù)與Se元素相關(guān)性分析

2.2 sCARS算法篩選結(jié)果

由于篇幅有限, 僅以原始光譜特征波段選擇為例進(jìn)行說明(如圖6所示), 從圖6(a)中可以看出, sCARS算法在迭代過程中, 能夠被提取的波段數(shù)據(jù)逐漸減少, 開始波段數(shù)量減少較快, 隨后逐漸緩慢, 這是因?yàn)閟CARS算法在提取敏感波段的過程中, 由“粗”到“細(xì)”分別剔除。 圖6(b)為十折交互驗(yàn)證RMSECV值變化圖, 從圖中, 能夠發(fā)現(xiàn): RMSECV的隨著迭代次數(shù)的增加, 先由大到小, 再由小到大。 RMSECV的值是在第27次運(yùn)行后呈現(xiàn)最小值, 說明到達(dá)轉(zhuǎn)折點(diǎn), 在該點(diǎn)之前剔除掉了與土壤硒含量相關(guān)性較低的波段, 保留了反應(yīng)土壤硒含量有用信息的重要波段, 屬于有效剔除; 而過了該點(diǎn), RMSECV值又逐漸增大, 很可能是進(jìn)行了無效剔除, 損失掉了對土壤硒含量敏感性較強(qiáng)的重要信息。 結(jié)合圖6的三個(gè)變化規(guī)律, 可以確定, 在RMSECV值最小時(shí), 所選擇的特征波長子集最佳, 特征波段的數(shù)量為27, 特征波段數(shù)量僅占總波段數(shù)量的1.31%。

圖6 sCARS特征波段篩選過程

通過sCARS算法完成特征波段的初步篩選后, 利用PCC再次篩選出相關(guān)系數(shù)絕對值大于0.5的波段作為特征波段參與建模, 表3為經(jīng)sCARS-PCC篩選的特征波段統(tǒng)計(jì)。 從表中可以發(fā)現(xiàn), 只有經(jīng)lg(R)-FD變換后, 在可見光和近紅外波段存在特征點(diǎn), 而其他幾種變換下的光譜特征值都僅僅出現(xiàn)在短波紅外, 且其最大相關(guān)系數(shù)波段極為接近。 從獲取的特征波段數(shù)目來看, SNV擁有最少的特征波段, 波段數(shù)目為4, lg(R)-FD擁有的波段數(shù)目最大, 為84個(gè)。

表3 土壤硒含量光譜特征波段

2.3 預(yù)測模型預(yù)測結(jié)果

將表3中特征波段和全波段作為預(yù)測模型的自變量, 以土壤Se含量為因變量, 分別建立PLSR及SVM、 PSO-SVM回歸模型, 采用決定系數(shù)(R2)和均方根誤差(RMSE)對預(yù)測模型進(jìn)行精度評估。 預(yù)測結(jié)果如下:

2.3.1 PLSR模型

表4為各光譜變換數(shù)據(jù)PLSR模型建模結(jié)果, 通過比較訓(xùn)練集和預(yù)測集的決定系數(shù)R2和均方根誤差RMSE, 可以發(fā)現(xiàn), 原始光譜和經(jīng)對數(shù)一階微分變化的光譜, 在采用特征波段建立PLSR回歸模型時(shí)預(yù)測效果明顯優(yōu)于全波段參與建模的效果, MSC-FD和SNV特征波段的PLSR模型, 在精度上整體優(yōu)于全波段模型。

表4 PLSR回歸模型精度評價(jià)

2.3.2 SVM模型

表5為土壤硒含量與全波段和特征波段的SVM模型預(yù)測結(jié)果。 經(jīng)過對比全波段和特征波段模型訓(xùn)練集和驗(yàn)證集的R2和RMSE可知, 特征波段SNV-SVM、 MSC-FD-SVM、 lg(R)-FD-SVM模型的精度較之全波段的精度有明顯提升, R-SG-SVM特征波段模型雖然精度沒有提升, 但模型的穩(wěn)定性有很大改善。 使用對數(shù)一階微分變化后的特征波段建立的SVM模型效果較差, 但整體上各光譜變換后利用特征波段建立的模型穩(wěn)定性明顯高于全波段建模的穩(wěn)定性。

表5 SVM回歸模型精度評價(jià)

2.3.3 PSO-SVM模型

表6為基于sCARS-PSO-SVM模型的預(yù)測結(jié)果, 對比訓(xùn)練集和預(yù)測集的均方根誤差和決定系數(shù)可知, 該模型的穩(wěn)定性非常好, 模型精度較之未優(yōu)化的SVM模型有明顯提升, 其中MSC-PSO-SVM、 MSC-FD-PSO-SVM模型的決定系數(shù)R2超過了0.5, SNV-PSO-SVM、 lg(R)-FD-PSO-SVM模型的決定系數(shù)R2接近0.5。 從RMSE越小,R2越大, 則預(yù)測精度越好的判斷標(biāo)準(zhǔn)考慮, MSC-FD-PSO-SVM模型精度最高。 整體上來看粒子群優(yōu)化算法在一定程度實(shí)現(xiàn)了對支持向量機(jī)預(yù)測土壤硒含量的模型精度的提高。 由于篇幅有限, 僅以MSC變換后的PSO-SVM模型實(shí)測值與預(yù)測值散點(diǎn)圖為例(如圖7所示)。 可以看到預(yù)測值和實(shí)測值在y=x線兩側(cè)均勻分布, 預(yù)測結(jié)果較為理想。

表6 PSO-SVM回歸模型精度評價(jià)

圖7 實(shí)測值與預(yù)測值關(guān)系

采用sCARS算法挑選特征波段, 改善了高光譜數(shù)據(jù)冗余問題。 在尋找硒的敏感波段時(shí), 不但選取波段數(shù)目少, 降低了模型復(fù)雜度, 而且也避免了單獨(dú)利用PCC選擇特征波段所造成的有用信息的損失, 極大的提高了硒含量回歸模型的效率。 原始光譜經(jīng)MSC、 SNV、 lg(R)-FD、 MSC-FD變換, 不同程度提高了光譜數(shù)據(jù)與土壤硒含量的相關(guān)性, 有更加明顯的建模優(yōu)勢: 經(jīng)幾種光譜變換后的特征參數(shù)建立的SVM模型, 其模型精度高于PLSR模型, 這種優(yōu)勢在粒子群優(yōu)化支持向量機(jī)參數(shù)的SVM模型中更加明顯。 對比SVM和PLSR模型, 通過PSO優(yōu)化SVM的核函數(shù)和正則化參數(shù), 以迭代方式不斷更新pBest和gBest, 獲取參數(shù)最優(yōu)解, 有效提升了土壤硒含量的預(yù)測精度。 其中MSC模型決定系數(shù)最高, 為0.53, MSC-FD的RMSE最小, 為0.04, 整體上幾種光譜變換的PSO-SVM模型均具有較好的穩(wěn)定性和精度, 可以滿足對土壤硒含量的大面積、 高效預(yù)測。 另外, 選擇的特征波段在可見光與近紅外波段均有涉及, 與前人分析的土壤硒含量的特征波段相似之處有: 趙寧博[6]等分析出514~1 300 nm范圍相關(guān)程度較高, 而在本次研究中, 經(jīng)lg(R)-FD光譜變換的特征波段511~514、 521~523 nm符合這一特征; 張東輝[13]等在土壤硒間接反演時(shí), 提出硒的敏感波段在437、 466和475 nm處, 而經(jīng)lg(R)-FD光譜變換的特征波段436、 469~470 nm極為接近。 與此前研究不同的是, 本研究所選擇的特征波段, 在2 000 nm之后較高頻率出現(xiàn), 尤其是2 262~2 270 nm這一范圍。 在接下來的研究中, 應(yīng)分段研究2 000 nm前后的波段, 以尋找更適合反演土壤硒含量的波段。

3 結(jié) 論

(1)通過光譜增強(qiáng)與特征波段篩選處理數(shù)據(jù), 能夠降低高光譜預(yù)測模型的復(fù)雜度, 能夠明顯提高模型的反演精度, sCARS算法能夠很好地結(jié)合光譜預(yù)測模型實(shí)現(xiàn)土壤硒含量的高效反演。

(2)SVM模型相對于PLSR模型能夠更好地反演土壤硒含量, 說明土壤硒含量與高光譜之間非線性關(guān)系更加突出。

(3)粒子群(PSO)算法優(yōu)化SVM的核函數(shù)和正則化參數(shù), 使得幾種光譜變換的PSO-SVM模型預(yù)測精度都明顯提高(MSC-PSO-SVM模型的決定系數(shù)最大, 為0.53, MSC-FD-PSO-SVM模型的均方根誤差最小, 為0.04), 兩模型的穩(wěn)定性和預(yù)測效果好, 可以快速、 準(zhǔn)確、 大面積反演土壤硒含量。

猜你喜歡
波段反演光譜
春日暖陽
基于三維Saab變換的高光譜圖像壓縮方法
反演對稱變換在解決平面幾何問題中的應(yīng)用
基于低頻軟約束的疊前AVA稀疏層反演
基于自適應(yīng)遺傳算法的CSAMT一維反演
M87的多波段輻射過程及其能譜擬合
星載近紅外高光譜CO2遙感進(jìn)展
日常維護(hù)對L 波段雷達(dá)的重要性
西藏科技(2015年4期)2015-09-26 12:12:58
疊前同步反演在港中油田的應(yīng)用
苦味酸與牛血清蛋白相互作用的光譜研究
阜新市| 吉安市| 安塞县| 阜平县| 民勤县| 大石桥市| 宝清县| 共和县| 高州市| 逊克县| 治县。| 城步| 梅州市| SHOW| 胶南市| 洪江市| 富民县| 祥云县| 咸阳市| 吉水县| 灯塔市| 夏河县| 扎鲁特旗| 东乌珠穆沁旗| 马鞍山市| 图片| 丹寨县| 罗山县| 通州市| 贵南县| 江源县| 汽车| 广饶县| 黔西| 济阳县| 邵阳市| 时尚| 清流县| 诸城市| 新巴尔虎右旗| 穆棱市|