江曉宇, 李福生, 王清亞, 羅 杰, 郝 軍, 徐木強
1. 東華理工大學核技術應用教育部工程研究中心, 江西 南昌 330013
2. 東華理工大學核資源與環(huán)境國家重點實驗室, 江西 南昌 330013
3. 長江大學, 湖北 武漢 430000
能量色散X射線熒光(EDXRF)光譜儀因其在多元素檢測中具有無損、 快速的特點, 相比傳統(tǒng)檢測方法, 在土壤重金屬分析中具有先天的優(yōu)勢。 另外, EDXRF因其較小的體積、 較輕的重量、 更快的分析速度以及較高的準確度, 廣泛應用于野外現(xiàn)場分析。 近幾年來, EDXRF越來越受環(huán)保領域的歡迎, 成為土壤修復行業(yè)和環(huán)境監(jiān)管部門的首選儀器。 然而, X射線熒光光譜易受噪聲、 變量維度高和多重共線性等問題的干擾, 特別是在測土壤樣品時, 因其樣品來源廣泛, 基體成分復雜, 采用偏最小二乘(PLS)直接建模的話會導致模型復雜, 并且降低了模型的預測能力和魯棒性。 因此, 如何選擇合適的變量顯得尤為重要。 近年來, 科學技術的飛速發(fā)展, IT和計算機技術快速應用, 特征變量篩選方法被大量提出, 如基于統(tǒng)計學方面的變量選擇方法[1]、 基于單一指標的變量選擇方法[2-3]以及群體智能優(yōu)化算法[4-5]等。
競爭性自適應重加權算法(competitive adaptive reweighted algorithm, CARS)是利用蒙特卡羅(MC)的優(yōu)勢進行采樣和PLS回歸系數(shù)為指標的一種特征波長變量選擇方法[6]。 其核心是利用自適應重加權采樣(ARS)技術, 然后在構建的模型中只保留權重顯著(回歸系數(shù)絕對值大)的波長點, 最后按照均方根誤差值最小的原則選擇最優(yōu)組合子集變量。 此外, 在對大多文獻調研過程中發(fā)現(xiàn), 很少有對土壤樣品X射線熒光光譜波長變量進行篩選。 但X射線熒光光譜往往也存在維度過高, 變量數(shù)大于建模樣本數(shù)問題, 建立的模型容易過擬合, 模型穩(wěn)定性變差。
先利用能量色散X射線熒光光譜儀對土壤中的鉛和砷進行分析獲取原始光譜信息, 然后利用CARS算法先對所獲取的原始光譜進行波長變量選擇, 最后利用PLS分別建立土壤中鉛、 砷的定量分析模型。 為了評估建模的有效性, 一般采用預測集決定系數(shù)(determination coefficient,R2)、 模型交互驗證均方根誤差(root mean square error of cross validation, RMSECV)、 模型預測均方根誤差(root mean square error of prediction, RMSEP)和模型相對預測誤差(relative prediction deviation, RPD)等為模型評價指標, 并與全波段、 SPA和MC-UVE等變量選擇算法所建立的定量分析模型進行比較。
主要儀器: TS-XH4000型便攜式X射線熒光光譜儀, 浙江泰克松德能源科技有限公司; SDD探測器, 能量分辨率為125 eV, 美國Amptek公司; 球磨儀, 江蘇宜興丁蜀浩強機械設備有限公司; 樣品杯(聚乙烯), 尺寸為Φ3 cm×1 cm, 單開口, 帶固定麥拉膜的頸圈; 麥拉膜, 厚度為3.6 μm, 寬7.6 cm, 美國Chemplex公司。
本試驗中, 共計樣品139個, 其中野外采集土壤樣品80個(江西鄱陽湖地區(qū)), 另外59個為國家土壤標準樣品(GSD和GSS系列)。 樣品采集和制備方法必須嚴格按照《土壤環(huán)境質量標準》(GB15618—2018)的技術規(guī)范執(zhí)行。 將采集到的所有土樣鋪開自然風干, 去除土樣中明顯的沙子、 草屑等雜物, 使用四分法取其2份, 1份用于實驗分析, 1份留作備用。 將國家土壤標準樣品和實驗分析的土壤樣品均勻填入瑪瑙缽體中, 用球磨機研磨5 min, 然后過200目篩子。 將處理后的土壤樣品使用TS-XH4000便攜式XRF分析儀在管壓35 keV、 電流40 μA和時間90 s下, 采集土壤X射線熒光光譜原始數(shù)據(jù), 每個樣本測量3次, 移動不同位置3次, 最后取平均值作為光譜數(shù)據(jù), 共獲取樣品在0~45 keV范圍內共2 048個通道數(shù)的光譜信息。
1.3.1 CARS算法原理
CARS算法是模擬生物進化論中的“適者生存”的法則, 每次通過ARS技術和PLS回歸系數(shù)的絕對值對變量進行篩選, 保留PLS回歸系數(shù)中的絕對值大的點, 去掉絕對值較小的點, 得到一系列最優(yōu)子集[7]。 然后使用交叉驗證(CV)方法選擇模型RMSECV最小值的子集, 并最終將子集確定為與測量元素相關的最佳波長組合。
1.3.2 CARS算法步驟
假設Y表示為m×1樣本目標屬性矩陣,X為m×n樣本光譜矩陣, 其中m為樣本數(shù),n為變量數(shù),α表示組合系數(shù);T為X與α的線性組合, 是X的分矩陣;θ是Y和T所建PLS模型的回歸系數(shù)向量; 其中,β和ε分別表示為n維的回歸系數(shù)向量和樣本預測殘差。 假設式(1)和式(2)成立。
T=αX
(1)
Y=θT+ε=θαX+ε=βT+ε
(2)
wi=|βi|i/f
(3)
式(3)中, 每計算一次wi的過程實際上就是波長變量重要性評估的過程。 將每次計算的|βi|值較大波長變量保留, 然后采用ARS技術從中重新組合新的變量, 在此基礎上利用PLS建模, 計算其RMSECV值。 其中, 采樣次數(shù)設為N, 重復N次, 直到采樣結束, 我們將得到最優(yōu)變量子集集合, 即一系列RMSECV值最小的變量子集。
最后, CARS, PLS, SPA和MC-UVE的算法編寫通過Matlab R2016b實現(xiàn), 而圖表繪制由Origin9.0軟件完成。
X射線熒光光譜為特征譜, 其中鉛元素的Lα和Lβ特征峰分別在10.549和12.61 keV附近; 砷元素的Kα和Kβ特征峰在10.532和11.729 keV附近。 X射線熒光光譜采集會產(chǎn)生大量的高頻隨機噪聲、 基線漂移和散射等噪聲信息干擾, 使X射線熒光光譜與元素含量之間的相關性變差, 導致所建模型的準確性和穩(wěn)定性會受到影響。 為消除噪聲和基線的影響, 盡可能完整保留土壤樣品中原始X射線熒光光譜的特征峰, 去噪選用小波變換(sym4小波基), 而校正基線采用適應迭代重加權懲罰最小二乘(airPLS)法[8], 處理結果如圖1所示。 最后, 選擇處理后的X射線熒光光譜數(shù)據(jù)進行特征變量選擇。
圖1 土壤樣品光譜的噪聲和基線校正結果
采用Kennard-Stone(K-S)算法[9]對139個土壤樣本進行校正集與驗證集的劃分。 K-S算法的原理: (1)計算樣本兩兩之間的距離, 選擇樣本間距離最大的兩個作為選中的集合樣本, 其余為未選中的集合樣本; (2) 對于剩余樣本, 分別計算其與選中的兩個樣本之間的距離; (3)然后選擇最短距離與所選樣本之間相對最長的距離對應的樣本, 作為所選樣本集; (4)重復步驟(3), 直到所選樣本數(shù)等于之前確定的數(shù)量, 例如10個或20個。 本實驗選取的樣本集為校正集, 約70%的鉛和砷樣品轉入校正集, 共97個樣品, 剩余42個樣本歸為預測集。 表1列出了被測土壤中鉛和砷實測值的變化范圍和平均值(Mean)等統(tǒng)計量。 K-S算法也是通過Matlab R2016b軟件完成。
表1 土壤鉛和砷含量實測值的統(tǒng)計結果
2.3.1 土壤中鉛特征波長選擇
先以鉛X射線熒光光譜全部的2 048個波數(shù)點作為選擇對象, 采用CARS算法篩選樣本光譜中與鉛相關的光譜波長變量, 篩選結果如圖2所示。 從圖2(a)中, 我們看到選擇的波長變量的數(shù)量隨著采樣次數(shù)的增加而減少, 趨勢是先快后緩, 說明波長變量先經(jīng)歷了一個粗略的選擇過程后再進行精選過程; 圖2(b)中, 隨著采樣次數(shù)的增加, RMSECV值先減后增, 即所選波長變量的個數(shù)逐漸減少, RMSECV值也在減小, 說明與鉛無關的冗余波長變量在CARS變量篩選時優(yōu)選剔除掉, 而后RMSECV值上升, 說明是剔除了與鉛相關的波長變量引起的; 圖2(c)中紅色“*”處的MC采樣次數(shù)為26, 此時RMSECV值最小, 經(jīng)過CARS篩選后, 共選擇了60個波長變量, 且所選擇的波長變量組合最優(yōu)。
圖2 土壤中鉛的CARS變量篩選結果
2.3.2 土壤中砷特征波長選擇
以砷的X射線熒光光譜全部的2 048個波數(shù)點作為選擇對象, 采用CARS算法篩選樣本光譜中與砷相關的光譜波長變量, 篩選結果如圖3所示。 類似于上述鉛的情況, 從圖3(a)中我們可以看到隨著采樣數(shù)增加, 被優(yōu)選波長變量的數(shù)量迅速減少。 在圖3(b)中, 在1~34次采樣期間, RMSECV值不斷減小, 表明變量篩選時去除了與砷含量相關的變量, 但在34個樣品后, RMSECV值再次開始上升, 這表明與砷含量相關的重要變量被去除。 在采樣為34次時, 即圖3(c)中“*”的位置, 出現(xiàn)RMSECV值最小, 共選擇了19個波長變量, 所對應的光譜變量子集最優(yōu)。
圖3 土壤中砷的CARS變量篩選結果
CARS模型RMSECV值最小時, 鉛和砷對應的最優(yōu)采樣次數(shù)和最優(yōu)變量子集中包含的變量個數(shù)如表2所示。
表2 土樣中鉛和砷在RMSECV值最小時對應的采樣次數(shù)及最優(yōu)變量子集包含的變量個數(shù)
提出采用CARS算法對原始光譜進行波長信息變量篩選, 并與蒙特卡羅無信息變量消除(MC-UVE)和經(jīng)連續(xù)投影算法(SPA)方法進行比較, 然后分別采用偏最小二乘(PLS)方法建立土壤中鉛和砷含量的定量檢測模型, 評價所建模型的建模效果。 CARS變量篩選方法, 基于蒙特卡羅(MC)交叉驗證確定成樣次數(shù)設置為50次, 可滿足其可用的最大因子數(shù)。 針對SPA變量選擇方法, 其利用向量投影分析原理, 能有效地消除波長之間共線性問題, 分別設置好最小最大波長數(shù), 其最佳波長組合通過交叉驗證建模實現(xiàn), 然后找到具有最小冗余信息的變量組, 最終提高模型精度。 MC-UVE變量選擇方法是基于PLS回歸系數(shù)b的算法, 重復N次, 得到N個回歸系數(shù)組成的矩陣, 大大減少了最終PLS模型中所包含的變量數(shù)量, 模型的復雜度和穩(wěn)定性得到改善。 其中SPA和MC-UVE變量選擇方法的具體原理和步驟見文獻[10-12]。
采用決定系數(shù)(R2)、 交互驗證均方根誤差(RMSECV)、 預測均方根誤差(RMSEP)和模型相對預測誤差(RPD)等4個參數(shù)來評價PLS模型性能。 其中,R2值越接近于1, 模型的擬合度和穩(wěn)定性越好; RMSECV和RMSEP值越小, 模型預測能力越強; RPD值等于樣本標準偏差與均方根誤差的比值。 如果RPD≥3, 認為所建立的模型預測效果良好, 具有良好應用價值; 如果2.25≤RPD<3, 則認為所建立的模型預測效果較好, 具有較好實際應用價值; 如果1.75≤RPD<2.25, 則認為模型可用, 模型對樣本能進行粗略評估; 如果RPD<1.75, 模型預測效果差, 無法預測樣本。
2.4.1 土壤中鉛的PLS模型的建立與驗證
經(jīng)CARS, SPA及MC-UVE變量篩選后, 采用PLS方法建立土壤中鉛含量的定量檢測模型, 建模結果見表3。 從表3可以看出, 經(jīng)過CARS篩選后, CARS-PLS模型鉛的波長變量數(shù)從2 048減少到60個, 模型最優(yōu), 所得建模集的R2, RMSECV, RMSEP和RPD分別為0.997 3, 2.610 1, 3.322 1和9.351 8, 預測集的R2, RMSECV, RMSEP和RPD分別為0.995 5, 2.598 6, 3.228和9.401 1; 與CARS-PLS模型相比, 雖然SPA-PLS和MC-UVE-PLS模型建模的波長變量更少, 但建模集和預測集的R2, RMSECV, RMSEP和RPD均劣于CARS-PLS模型。 另外, 從表3還發(fā)現(xiàn), 與全波段PLS模型相比, SPA-PLS模型的預測集R2, RMSECV, RMSEP和RPD分別0.980 5, 3.549 5, 5.344 5和8.611 4, 劣于全波段PLS模型, 模型的穩(wěn)定性不如PLS, MC-UVE-PLS和CARS-PLS模型。
表3 土樣中鉛定量檢測的PLS建模結果
2.4.2 土壤中砷的PLS模型的建立與驗證
經(jīng)CARS, SPA及MC-UVE變量篩選后, 采用PLS方法建立土壤中砷含量的定量檢測模型, 建模結果見表4。 從表4可以看出, 砷CARS-PLS模型的波長變量數(shù)由2 048個減少到19個, 與全波段PLS, SPA-PLS和MC-UVE-PLS模型相比, 砷的CARS-PLS模型建模集和預測集的R2, RMSECV, RMSEP和RPD值均最優(yōu), 所建模型效果最好。 與其他三個模型相比, 雖然SPA-PLS模型的波長變量最少, 但建模集和預測集的R2, RMSECV, RMSEP和RPD均劣于CARS-PLS和MC-UVE-PLS模型, 僅優(yōu)于全波段PLS模型。
表4 土樣中砷定量檢測的PLS建模結果
從以上結果可以看出, CARS-PLS模型定量檢測土壤中的鉛和砷要優(yōu)于全波段PLS, SPA-PLS及MC-UVE-PLS 模型, 表明CARS方法在X射線熒光光譜的波長變量選擇方面具有較明顯優(yōu)勢, 可以篩選出有用的波長信息變量并去除多余的波長變量, 來提高模型的準確性和穩(wěn)定性。
圖4顯示了四種模型的預測值與傳統(tǒng)化學方法測定值之間的相關關系。 CARS-PLS模型鉛砷預測值與其實驗室分析值或標準值最為接近, 線性最好。 這進一步說明CARS算法可以有效篩選波長變量, 且用更少的變量建立更好的鉛砷定量分析模型。
圖4 各模型鉛、 砷校正集真實值與預測值對比
采用CARS波長變量篩選算法, 建立了土壤中X射線熒光光譜定量分析重金屬鉛和砷含量檢測模型(CARS-PLS ), 篩選出具有較高適用性的波長變量子集組合, 實現(xiàn)了鉛和砷含量的準確預測。 具體結論如下:
(1)通過對土壤中鉛和砷的X射線熒光光譜進行建模, 結果表明CARS方法是一種有效的波長變量選擇方法, 在降低模型的維數(shù)同時還剔除了多余的干擾信息, 使模型的計算效率和穩(wěn)健性得到提升。
(2)采用CARS方法對土壤中鉛和砷的波長信息變量進行篩選, 分別篩選得到60和19個波長變量作為預測鉛和砷的優(yōu)選變量集。
(3)與全波段PLS, SPA-PLS和MC-UVE-PLS模型相比, 采用CARS-PLS所建模型具有最優(yōu)的預測精度和預測能力, 同時有效減少了波長變量。
由于此次試驗采用的土壤樣品經(jīng)過晾干、 篩分等物理前處理過程, 消除了土壤含水率、 粒徑等因素對檢測結果的影響, 所建立的鉛砷的定量分析模型在現(xiàn)場的準確性如何是下一步研究的重點。 另外, 在應對極低濃度元素時會受到一定噪聲影響, 在做波長變量篩選時, 會影響建模的結果, 這也是我們下一步需要優(yōu)化的地方。