国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

X射線熒光光譜結合CARS變量篩選選擇方法用于土壤中鉛砷含量的測定

2022-05-06 01:16江曉宇李福生王清亞徐木強
光譜學與光譜分析 2022年5期
關鍵詞:X射線波長光譜

江曉宇, 李福生, 王清亞, 羅 杰, 郝 軍, 徐木強

1. 東華理工大學核技術應用教育部工程研究中心, 江西 南昌 330013

2. 東華理工大學核資源與環(huán)境國家重點實驗室, 江西 南昌 330013

3. 長江大學, 湖北 武漢 430000

引 言

能量色散X射線熒光(EDXRF)光譜儀因其在多元素檢測中具有無損、 快速的特點, 相比傳統(tǒng)檢測方法, 在土壤重金屬分析中具有先天的優(yōu)勢。 另外, EDXRF因其較小的體積、 較輕的重量、 更快的分析速度以及較高的準確度, 廣泛應用于野外現(xiàn)場分析。 近幾年來, EDXRF越來越受環(huán)保領域的歡迎, 成為土壤修復行業(yè)和環(huán)境監(jiān)管部門的首選儀器。 然而, X射線熒光光譜易受噪聲、 變量維度高和多重共線性等問題的干擾, 特別是在測土壤樣品時, 因其樣品來源廣泛, 基體成分復雜, 采用偏最小二乘(PLS)直接建模的話會導致模型復雜, 并且降低了模型的預測能力和魯棒性。 因此, 如何選擇合適的變量顯得尤為重要。 近年來, 科學技術的飛速發(fā)展, IT和計算機技術快速應用, 特征變量篩選方法被大量提出, 如基于統(tǒng)計學方面的變量選擇方法[1]、 基于單一指標的變量選擇方法[2-3]以及群體智能優(yōu)化算法[4-5]等。

競爭性自適應重加權算法(competitive adaptive reweighted algorithm, CARS)是利用蒙特卡羅(MC)的優(yōu)勢進行采樣和PLS回歸系數(shù)為指標的一種特征波長變量選擇方法[6]。 其核心是利用自適應重加權采樣(ARS)技術, 然后在構建的模型中只保留權重顯著(回歸系數(shù)絕對值大)的波長點, 最后按照均方根誤差值最小的原則選擇最優(yōu)組合子集變量。 此外, 在對大多文獻調研過程中發(fā)現(xiàn), 很少有對土壤樣品X射線熒光光譜波長變量進行篩選。 但X射線熒光光譜往往也存在維度過高, 變量數(shù)大于建模樣本數(shù)問題, 建立的模型容易過擬合, 模型穩(wěn)定性變差。

先利用能量色散X射線熒光光譜儀對土壤中的鉛和砷進行分析獲取原始光譜信息, 然后利用CARS算法先對所獲取的原始光譜進行波長變量選擇, 最后利用PLS分別建立土壤中鉛、 砷的定量分析模型。 為了評估建模的有效性, 一般采用預測集決定系數(shù)(determination coefficient,R2)、 模型交互驗證均方根誤差(root mean square error of cross validation, RMSECV)、 模型預測均方根誤差(root mean square error of prediction, RMSEP)和模型相對預測誤差(relative prediction deviation, RPD)等為模型評價指標, 并與全波段、 SPA和MC-UVE等變量選擇算法所建立的定量分析模型進行比較。

1 實驗部分

1.1 材料與儀器

主要儀器: TS-XH4000型便攜式X射線熒光光譜儀, 浙江泰克松德能源科技有限公司; SDD探測器, 能量分辨率為125 eV, 美國Amptek公司; 球磨儀, 江蘇宜興丁蜀浩強機械設備有限公司; 樣品杯(聚乙烯), 尺寸為Φ3 cm×1 cm, 單開口, 帶固定麥拉膜的頸圈; 麥拉膜, 厚度為3.6 μm, 寬7.6 cm, 美國Chemplex公司。

1.2 土壤樣品采集

本試驗中, 共計樣品139個, 其中野外采集土壤樣品80個(江西鄱陽湖地區(qū)), 另外59個為國家土壤標準樣品(GSD和GSS系列)。 樣品采集和制備方法必須嚴格按照《土壤環(huán)境質量標準》(GB15618—2018)的技術規(guī)范執(zhí)行。 將采集到的所有土樣鋪開自然風干, 去除土樣中明顯的沙子、 草屑等雜物, 使用四分法取其2份, 1份用于實驗分析, 1份留作備用。 將國家土壤標準樣品和實驗分析的土壤樣品均勻填入瑪瑙缽體中, 用球磨機研磨5 min, 然后過200目篩子。 將處理后的土壤樣品使用TS-XH4000便攜式XRF分析儀在管壓35 keV、 電流40 μA和時間90 s下, 采集土壤X射線熒光光譜原始數(shù)據(jù), 每個樣本測量3次, 移動不同位置3次, 最后取平均值作為光譜數(shù)據(jù), 共獲取樣品在0~45 keV范圍內共2 048個通道數(shù)的光譜信息。

1.3 競爭性自適應重加權算法(CARS)

1.3.1 CARS算法原理

CARS算法是模擬生物進化論中的“適者生存”的法則, 每次通過ARS技術和PLS回歸系數(shù)的絕對值對變量進行篩選, 保留PLS回歸系數(shù)中的絕對值大的點, 去掉絕對值較小的點, 得到一系列最優(yōu)子集[7]。 然后使用交叉驗證(CV)方法選擇模型RMSECV最小值的子集, 并最終將子集確定為與測量元素相關的最佳波長組合。

1.3.2 CARS算法步驟

假設Y表示為m×1樣本目標屬性矩陣,X為m×n樣本光譜矩陣, 其中m為樣本數(shù),n為變量數(shù),α表示組合系數(shù);T為X與α的線性組合, 是X的分矩陣;θ是Y和T所建PLS模型的回歸系數(shù)向量; 其中,β和ε分別表示為n維的回歸系數(shù)向量和樣本預測殘差。 假設式(1)和式(2)成立。

T=αX

(1)

Y=θT+ε=θαX+ε=βT+ε

(2)

wi=|βi|i/f

(3)

式(3)中, 每計算一次wi的過程實際上就是波長變量重要性評估的過程。 將每次計算的|βi|值較大波長變量保留, 然后采用ARS技術從中重新組合新的變量, 在此基礎上利用PLS建模, 計算其RMSECV值。 其中, 采樣次數(shù)設為N, 重復N次, 直到采樣結束, 我們將得到最優(yōu)變量子集集合, 即一系列RMSECV值最小的變量子集。

最后, CARS, PLS, SPA和MC-UVE的算法編寫通過Matlab R2016b實現(xiàn), 而圖表繪制由Origin9.0軟件完成。

2 結果與討論

2.1 光譜預處理

X射線熒光光譜為特征譜, 其中鉛元素的Lα和Lβ特征峰分別在10.549和12.61 keV附近; 砷元素的Kα和Kβ特征峰在10.532和11.729 keV附近。 X射線熒光光譜采集會產(chǎn)生大量的高頻隨機噪聲、 基線漂移和散射等噪聲信息干擾, 使X射線熒光光譜與元素含量之間的相關性變差, 導致所建模型的準確性和穩(wěn)定性會受到影響。 為消除噪聲和基線的影響, 盡可能完整保留土壤樣品中原始X射線熒光光譜的特征峰, 去噪選用小波變換(sym4小波基), 而校正基線采用適應迭代重加權懲罰最小二乘(airPLS)法[8], 處理結果如圖1所示。 最后, 選擇處理后的X射線熒光光譜數(shù)據(jù)進行特征變量選擇。

圖1 土壤樣品光譜的噪聲和基線校正結果

2.2 校正集與驗證集的劃分

采用Kennard-Stone(K-S)算法[9]對139個土壤樣本進行校正集與驗證集的劃分。 K-S算法的原理: (1)計算樣本兩兩之間的距離, 選擇樣本間距離最大的兩個作為選中的集合樣本, 其余為未選中的集合樣本; (2) 對于剩余樣本, 分別計算其與選中的兩個樣本之間的距離; (3)然后選擇最短距離與所選樣本之間相對最長的距離對應的樣本, 作為所選樣本集; (4)重復步驟(3), 直到所選樣本數(shù)等于之前確定的數(shù)量, 例如10個或20個。 本實驗選取的樣本集為校正集, 約70%的鉛和砷樣品轉入校正集, 共97個樣品, 剩余42個樣本歸為預測集。 表1列出了被測土壤中鉛和砷實測值的變化范圍和平均值(Mean)等統(tǒng)計量。 K-S算法也是通過Matlab R2016b軟件完成。

表1 土壤鉛和砷含量實測值的統(tǒng)計結果

2.3 特征波長選擇

2.3.1 土壤中鉛特征波長選擇

先以鉛X射線熒光光譜全部的2 048個波數(shù)點作為選擇對象, 采用CARS算法篩選樣本光譜中與鉛相關的光譜波長變量, 篩選結果如圖2所示。 從圖2(a)中, 我們看到選擇的波長變量的數(shù)量隨著采樣次數(shù)的增加而減少, 趨勢是先快后緩, 說明波長變量先經(jīng)歷了一個粗略的選擇過程后再進行精選過程; 圖2(b)中, 隨著采樣次數(shù)的增加, RMSECV值先減后增, 即所選波長變量的個數(shù)逐漸減少, RMSECV值也在減小, 說明與鉛無關的冗余波長變量在CARS變量篩選時優(yōu)選剔除掉, 而后RMSECV值上升, 說明是剔除了與鉛相關的波長變量引起的; 圖2(c)中紅色“*”處的MC采樣次數(shù)為26, 此時RMSECV值最小, 經(jīng)過CARS篩選后, 共選擇了60個波長變量, 且所選擇的波長變量組合最優(yōu)。

圖2 土壤中鉛的CARS變量篩選結果

2.3.2 土壤中砷特征波長選擇

以砷的X射線熒光光譜全部的2 048個波數(shù)點作為選擇對象, 采用CARS算法篩選樣本光譜中與砷相關的光譜波長變量, 篩選結果如圖3所示。 類似于上述鉛的情況, 從圖3(a)中我們可以看到隨著采樣數(shù)增加, 被優(yōu)選波長變量的數(shù)量迅速減少。 在圖3(b)中, 在1~34次采樣期間, RMSECV值不斷減小, 表明變量篩選時去除了與砷含量相關的變量, 但在34個樣品后, RMSECV值再次開始上升, 這表明與砷含量相關的重要變量被去除。 在采樣為34次時, 即圖3(c)中“*”的位置, 出現(xiàn)RMSECV值最小, 共選擇了19個波長變量, 所對應的光譜變量子集最優(yōu)。

圖3 土壤中砷的CARS變量篩選結果

CARS模型RMSECV值最小時, 鉛和砷對應的最優(yōu)采樣次數(shù)和最優(yōu)變量子集中包含的變量個數(shù)如表2所示。

表2 土樣中鉛和砷在RMSECV值最小時對應的采樣次數(shù)及最優(yōu)變量子集包含的變量個數(shù)

2.4 PLS模型的建立與驗證

提出采用CARS算法對原始光譜進行波長信息變量篩選, 并與蒙特卡羅無信息變量消除(MC-UVE)和經(jīng)連續(xù)投影算法(SPA)方法進行比較, 然后分別采用偏最小二乘(PLS)方法建立土壤中鉛和砷含量的定量檢測模型, 評價所建模型的建模效果。 CARS變量篩選方法, 基于蒙特卡羅(MC)交叉驗證確定成樣次數(shù)設置為50次, 可滿足其可用的最大因子數(shù)。 針對SPA變量選擇方法, 其利用向量投影分析原理, 能有效地消除波長之間共線性問題, 分別設置好最小最大波長數(shù), 其最佳波長組合通過交叉驗證建模實現(xiàn), 然后找到具有最小冗余信息的變量組, 最終提高模型精度。 MC-UVE變量選擇方法是基于PLS回歸系數(shù)b的算法, 重復N次, 得到N個回歸系數(shù)組成的矩陣, 大大減少了最終PLS模型中所包含的變量數(shù)量, 模型的復雜度和穩(wěn)定性得到改善。 其中SPA和MC-UVE變量選擇方法的具體原理和步驟見文獻[10-12]。

采用決定系數(shù)(R2)、 交互驗證均方根誤差(RMSECV)、 預測均方根誤差(RMSEP)和模型相對預測誤差(RPD)等4個參數(shù)來評價PLS模型性能。 其中,R2值越接近于1, 模型的擬合度和穩(wěn)定性越好; RMSECV和RMSEP值越小, 模型預測能力越強; RPD值等于樣本標準偏差與均方根誤差的比值。 如果RPD≥3, 認為所建立的模型預測效果良好, 具有良好應用價值; 如果2.25≤RPD<3, 則認為所建立的模型預測效果較好, 具有較好實際應用價值; 如果1.75≤RPD<2.25, 則認為模型可用, 模型對樣本能進行粗略評估; 如果RPD<1.75, 模型預測效果差, 無法預測樣本。

2.4.1 土壤中鉛的PLS模型的建立與驗證

經(jīng)CARS, SPA及MC-UVE變量篩選后, 采用PLS方法建立土壤中鉛含量的定量檢測模型, 建模結果見表3。 從表3可以看出, 經(jīng)過CARS篩選后, CARS-PLS模型鉛的波長變量數(shù)從2 048減少到60個, 模型最優(yōu), 所得建模集的R2, RMSECV, RMSEP和RPD分別為0.997 3, 2.610 1, 3.322 1和9.351 8, 預測集的R2, RMSECV, RMSEP和RPD分別為0.995 5, 2.598 6, 3.228和9.401 1; 與CARS-PLS模型相比, 雖然SPA-PLS和MC-UVE-PLS模型建模的波長變量更少, 但建模集和預測集的R2, RMSECV, RMSEP和RPD均劣于CARS-PLS模型。 另外, 從表3還發(fā)現(xiàn), 與全波段PLS模型相比, SPA-PLS模型的預測集R2, RMSECV, RMSEP和RPD分別0.980 5, 3.549 5, 5.344 5和8.611 4, 劣于全波段PLS模型, 模型的穩(wěn)定性不如PLS, MC-UVE-PLS和CARS-PLS模型。

表3 土樣中鉛定量檢測的PLS建模結果

2.4.2 土壤中砷的PLS模型的建立與驗證

經(jīng)CARS, SPA及MC-UVE變量篩選后, 采用PLS方法建立土壤中砷含量的定量檢測模型, 建模結果見表4。 從表4可以看出, 砷CARS-PLS模型的波長變量數(shù)由2 048個減少到19個, 與全波段PLS, SPA-PLS和MC-UVE-PLS模型相比, 砷的CARS-PLS模型建模集和預測集的R2, RMSECV, RMSEP和RPD值均最優(yōu), 所建模型效果最好。 與其他三個模型相比, 雖然SPA-PLS模型的波長變量最少, 但建模集和預測集的R2, RMSECV, RMSEP和RPD均劣于CARS-PLS和MC-UVE-PLS模型, 僅優(yōu)于全波段PLS模型。

表4 土樣中砷定量檢測的PLS建模結果

從以上結果可以看出, CARS-PLS模型定量檢測土壤中的鉛和砷要優(yōu)于全波段PLS, SPA-PLS及MC-UVE-PLS 模型, 表明CARS方法在X射線熒光光譜的波長變量選擇方面具有較明顯優(yōu)勢, 可以篩選出有用的波長信息變量并去除多余的波長變量, 來提高模型的準確性和穩(wěn)定性。

2.5 PLS模型預測

圖4顯示了四種模型的預測值與傳統(tǒng)化學方法測定值之間的相關關系。 CARS-PLS模型鉛砷預測值與其實驗室分析值或標準值最為接近, 線性最好。 這進一步說明CARS算法可以有效篩選波長變量, 且用更少的變量建立更好的鉛砷定量分析模型。

圖4 各模型鉛、 砷校正集真實值與預測值對比

3 結 論

采用CARS波長變量篩選算法, 建立了土壤中X射線熒光光譜定量分析重金屬鉛和砷含量檢測模型(CARS-PLS ), 篩選出具有較高適用性的波長變量子集組合, 實現(xiàn)了鉛和砷含量的準確預測。 具體結論如下:

(1)通過對土壤中鉛和砷的X射線熒光光譜進行建模, 結果表明CARS方法是一種有效的波長變量選擇方法, 在降低模型的維數(shù)同時還剔除了多余的干擾信息, 使模型的計算效率和穩(wěn)健性得到提升。

(2)采用CARS方法對土壤中鉛和砷的波長信息變量進行篩選, 分別篩選得到60和19個波長變量作為預測鉛和砷的優(yōu)選變量集。

(3)與全波段PLS, SPA-PLS和MC-UVE-PLS模型相比, 采用CARS-PLS所建模型具有最優(yōu)的預測精度和預測能力, 同時有效減少了波長變量。

由于此次試驗采用的土壤樣品經(jīng)過晾干、 篩分等物理前處理過程, 消除了土壤含水率、 粒徑等因素對檢測結果的影響, 所建立的鉛砷的定量分析模型在現(xiàn)場的準確性如何是下一步研究的重點。 另外, 在應對極低濃度元素時會受到一定噪聲影響, 在做波長變量篩選時, 會影響建模的結果, 這也是我們下一步需要優(yōu)化的地方。

猜你喜歡
X射線波長光譜
實驗室X射線管安全改造
基于三維Saab變換的高光譜圖像壓縮方法
杯中“日出”
高光譜遙感成像技術的發(fā)展與展望
虛擬古生物學:當化石遇到X射線成像
基于頻域分析方法的軌道高低不平順敏感波長的研究
日本研發(fā)出可完全覆蓋可見光波長的LED光源
星載近紅外高光譜CO2遙感進展
醫(yī)用非固定X射線機的防護管理
青海衛(wèi)生院X射線機應用及防護調查
吉安县| 连南| 安庆市| 枣庄市| 阜城县| 洛隆县| 福贡县| 新宁县| 无锡市| 五华县| 藁城市| 舟曲县| 平遥县| 咸丰县| 德令哈市| 太仆寺旗| 洪泽县| 佳木斯市| 德安县| 古田县| 永城市| 茌平县| 梧州市| 孟津县| 宁都县| 镇赉县| 东乡| 富宁县| 铜鼓县| 股票| 乌什县| 海南省| 鄢陵县| 洛南县| 淮北市| 凭祥市| 高雄市| 双辽市| 武陟县| 深圳市| 泰和县|