郭華雨,馬海麗,陳一平,李蕓邑,梁嘉良*
(1.海軍后勤部專項(xiàng)工程建設(shè)辦公室,北京 100841;2.重慶大學(xué) 環(huán)境與生態(tài)學(xué)院,重慶 400045)
土壤重金屬污染問(wèn)題在全球范圍內(nèi)受到長(zhǎng)期關(guān)注[1]。土壤中的重金屬因其毒性、持久性、生物可利用性和較長(zhǎng)的生物半衰期而被認(rèn)為是土壤環(huán)境中最危險(xiǎn)的污染物之一。世界衛(wèi)生組織認(rèn)為,整個(gè)生態(tài)系統(tǒng)正在由于過(guò)度暴露于重金屬而不斷受到威脅[2-4]。土壤重金屬可能通過(guò)皮膚吸收、口服攝入、口鼻呼吸等途徑進(jìn)入人體,從而損害人體的神經(jīng)、消化和內(nèi)分泌系統(tǒng),甚至可能誘發(fā)癌癥[5]。一些重金屬還能夠通過(guò)抑制酶的活性,引起中度的細(xì)胞質(zhì)損傷,從而影響神經(jīng)組織,甚至損害解毒的關(guān)鍵器官[6]。因此,調(diào)查和研究土壤重金屬的相關(guān)信息,開(kāi)發(fā)合理的土壤重金屬污染修復(fù)技術(shù),從而加強(qiáng)重點(diǎn)地區(qū)的污染防治成為了研究熱點(diǎn)。目前,傳統(tǒng)的方法主要依靠現(xiàn)場(chǎng)采樣和復(fù)雜的、多步驟的實(shí)驗(yàn)室測(cè)試來(lái)獲得土壤重金屬的相關(guān)信息[7]。重金屬的濃度通常由專業(yè)的實(shí)驗(yàn)室測(cè)定,檢測(cè)結(jié)果雖然具有較高的精度,但對(duì)于大規(guī)模的污染調(diào)查,現(xiàn)場(chǎng)采樣成本高且耗時(shí)長(zhǎng),生態(tài)環(huán)境信息綜合分析能力弱,使得傳統(tǒng)的化學(xué)方法難以在監(jiān)測(cè)土壤重金屬污染時(shí)具有高效率和較強(qiáng)的時(shí)效性[8-9]。因此,有必要開(kāi)發(fā)新的技術(shù),既能得到準(zhǔn)確的土壤重金屬相關(guān)數(shù)據(jù),又減少人力、財(cái)力及時(shí)間上的消耗。
機(jī)器學(xué)習(xí)是基于樣本數(shù)據(jù)建立模型,在沒(méi)有明確編程的情況下做出預(yù)測(cè)或決策的新技術(shù),其模型包括監(jiān)督、無(wú)監(jiān)督和半監(jiān)督學(xué)習(xí),輸入的數(shù)據(jù)常被分成訓(xùn)練集和測(cè)試集,模型在訓(xùn)練集上訓(xùn)練,而測(cè)試集用于評(píng)估模型的穩(wěn)健性和準(zhǔn)確性[10]。機(jī)器學(xué)習(xí)擁有強(qiáng)大的擬合能力,分析和學(xué)習(xí)大量復(fù)雜、多維的數(shù)據(jù)集,發(fā)現(xiàn)數(shù)據(jù)中隱藏的關(guān)聯(lián),并且比其他方式更加有效和準(zhǔn)確[11]。因此,在過(guò)去十年,機(jī)器學(xué)習(xí),尤其是深度學(xué)習(xí)在圖像分類、機(jī)器翻譯[12]、化學(xué)[13]、材料科學(xué)[14]、生物醫(yī)學(xué)[15]和量子物理[16]等領(lǐng)域得到了長(zhǎng)足的發(fā)展。近幾年,機(jī)器學(xué)習(xí)在環(huán)境領(lǐng)域也得到了廣泛應(yīng)用,在評(píng)估環(huán)境風(fēng)險(xiǎn)[17]、評(píng)估水和廢水基礎(chǔ)設(shè)施的健康狀況[18]、優(yōu)化處理技術(shù)[19]、識(shí)別和確定污染源的特征[20]以及進(jìn)行生命周期分析[21]等方面顯示良好的應(yīng)用前景。
近年來(lái),基于機(jī)器學(xué)習(xí)模型的土壤重金屬研究受到了極大的關(guān)注[22],不僅將勞動(dòng)力、經(jīng)濟(jì)、時(shí)間和空間要求方面的成本負(fù)擔(dān)最小化,還促進(jìn)了對(duì)自變量和因變量之間的非線性和復(fù)雜聯(lián)系的理解[23]。然而,模型的性能會(huì)受到某些因素的影響,如數(shù)據(jù)集的數(shù)量、數(shù)據(jù)類型、數(shù)據(jù)優(yōu)化以及由算法而產(chǎn)生的偏差等等[24]。由于算法類型眾多,通常需要基于數(shù)據(jù)類型和應(yīng)用方面,首先對(duì)數(shù)據(jù)集進(jìn)行篩選,然后對(duì)模型進(jìn)行訓(xùn)練和驗(yàn)證,以獲得最穩(wěn)健、準(zhǔn)確的計(jì)算模型。因此,本文總結(jié)了機(jī)器學(xué)習(xí)在土壤重金屬領(lǐng)域不同方面的應(yīng)用,對(duì)各方面的常用建模過(guò)程和模型篩選過(guò)程進(jìn)行了綜述,以期進(jìn)一步推動(dòng)機(jī)器學(xué)習(xí)在土壤重金屬研究中的應(yīng)用。
在土壤重金屬污染領(lǐng)域,機(jī)器學(xué)習(xí)最常被應(yīng)用于土壤重金屬含量的預(yù)測(cè)。研究者們通常以土壤的光譜信息、遙感信息、理化性質(zhì)、采樣點(diǎn)氣候等因素為輸入?yún)?shù),以實(shí)驗(yàn)室測(cè)定的重金屬含量為目標(biāo)函數(shù)進(jìn)行模型構(gòu)建,并比較不同計(jì)算模型的預(yù)測(cè)準(zhǔn)確度。該技術(shù)方案不僅能夠?qū)崿F(xiàn)對(duì)指定地點(diǎn)的重金屬含量的預(yù)測(cè),還可以分析決定不同地點(diǎn)重金屬濃度的關(guān)鍵因素,進(jìn)而繪制土壤重金屬分布地圖。
1.1.1 土壤重金屬含量預(yù)測(cè)
重金屬含量是評(píng)價(jià)土壤重金屬污染程度最重要的特征,而土壤中重金屬濃度與土壤性質(zhì)息息相關(guān)。高光譜遙感技術(shù)由于其豐富的光譜信息,已逐漸被應(yīng)用于土壤的物理化學(xué)性質(zhì)檢測(cè)[25]。然而,高光譜數(shù)據(jù)的高維數(shù)和冗余特性嚴(yán)重影響了估算模型的準(zhǔn)確性和穩(wěn)定性[26],因此需要對(duì)高光譜進(jìn)行篩選。研究者們使用Pearson 相關(guān)系數(shù)閾值來(lái)確定與土壤重金屬含量相關(guān)性最高的光譜變量[27-28],也有研究者在提取高光譜數(shù)據(jù)作為參數(shù)時(shí)就使用了機(jī)器學(xué)習(xí)法[29]。偏最小二乘回歸(partial least squares regression,PLSR)能夠在輸入?yún)?shù)存在嚴(yán)重多重相關(guān)性的條件下進(jìn)行回歸建模,更易于辨識(shí)高光譜中的系統(tǒng)信息與噪聲。Tang等[30]利用PLSR-VIP 值評(píng)價(jià)和相關(guān)分析方法選擇特定光譜特征波段,提取的有效特征帶與強(qiáng)相關(guān)系數(shù)基本一致,共計(jì)提取了637 個(gè)Cr 的特征帶,756個(gè)Ni的特征帶。Han等[31]通過(guò)序貫正交化(sequential preprocessing of orthogonalization,SPORT)對(duì)PLSR模型進(jìn)行優(yōu)化后得到序貫正交偏小二乘(sequential and orthogonalized - partial least square,SO-PLSR),大大提高了建模精度,訓(xùn)練集R2達(dá)到0.89,測(cè)試集R2達(dá)到0.82。
提升樹(shù)(boosting tree,BT)是弱分類器組合起來(lái)形成強(qiáng)分類器的一類模型,梯度提升決策樹(shù)(gradient boosting decision tree,GBDT)是其中一種,可在缺失輸入?yún)?shù)持續(xù)可控的情況下保持強(qiáng)抗噪性[32]。Tang 等人[30]以高光譜特征值和Al-Fe 礦物含量作為參數(shù),使用GBDT、隨機(jī)森林(random forest,RF)、支持向量機(jī)(support vector machine,SVM)、極端梯度增強(qiáng)樹(shù)(extreme gradient boosting,XGBoost)、自適應(yīng)提升樹(shù)(adaptive boosting,AdaBoost)5 種模型對(duì)Cr、Ni 濃度進(jìn)行預(yù)測(cè),結(jié)果表明GBDT 為最佳預(yù)測(cè)模型,Cr 和Ni 的R2分別達(dá)到0.85 和0.71。極端梯度增強(qiáng)樹(shù)(XGBoost)是在GBDT的基礎(chǔ)上改進(jìn)得到的模型,可以根據(jù)重要性排序來(lái)識(shí)別敏感特征,防止模型過(guò)擬合[33]。Sun等[34]以高光譜降維得到的特征值和Ni濃度相關(guān)的光譜指標(biāo)作為參數(shù),使用RF、XGBoost、SVM、反向傳播神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BPNN)、高斯過(guò)程回歸(Gaussian process regression,GPR)5 種模型對(duì)Ni 濃度進(jìn)行預(yù)測(cè),結(jié)果表明XGBoost為最佳預(yù)測(cè)模型,標(biāo)準(zhǔn)差(standard deviation,SD)與均方根誤差(root mean squared error,RMSE) 之比(residual predictive deviation,RPD)可達(dá)到2.08。為提高Boosting 的預(yù)測(cè)精度,可以與其他算法聯(lián)合使用。傳統(tǒng)的AdaBoost 模型通常采用分類回歸樹(shù)(classification and regression tree,CART)作為基本學(xué)習(xí)器[24-35],Lin 等人[36]提出了一種新的堆疊AdaBoost 模型,選擇CART、SVM、GPR、k 近鄰(k-nearest neighbor,KNN)、多層感知器(multilayer perceptron,MLP)、核嶺回歸(kernel ridge regression,KRR)6種機(jī)器學(xué)習(xí)模型作為AdaBoost 的基本學(xué)習(xí)器。結(jié)果表明,將CART、GPR、MLP、SVM 作為基礎(chǔ)學(xué)習(xí)器的堆疊AdaBoost模型相對(duì)穩(wěn)定,精度更高。
表1 機(jī)器學(xué)習(xí)在土壤重金屬濃度預(yù)測(cè)中的部分應(yīng)用Table 1 Application of machine learning in soil heavy metal concentration prediction
1.1.2 土壤重金屬含量的影響因素
土壤環(huán)境是復(fù)雜的,沒(méi)有單一因素可以單獨(dú)影響土壤重金屬含量,各種影響因素之間可能表現(xiàn)出復(fù)雜的相互作用。在某些情況下,某一因素可能與土壤重金屬含量沒(méi)有直接關(guān)系,但可能與其他因素相互作用,從而影響土壤重金屬含量[40-41]。
RF模型使用特征重要性指標(biāo)來(lái)分析影響因素,特征重要性是通過(guò)對(duì)每個(gè)特征的重要度分?jǐn)?shù)進(jìn)行排序來(lái)計(jì)算的,這些分?jǐn)?shù)反映了每個(gè)特征對(duì)模型預(yù)測(cè)性能的貢獻(xiàn)程度[42]。Li 等人[43]使用RF 模型甄別了自然和人為因素導(dǎo)致的Cd 污染,定量評(píng)估自然和人為因素對(duì)Cd 積累的貢獻(xiàn),并進(jìn)一步確定了影響因素之間的相互作用。Yang等人[44]使用正交矩陣因子分解(positive matrix factorization,PMF)模型和RF 模型相結(jié)合的方法確定了重金屬的潛在環(huán)境影響。結(jié)果表明,不同重金屬的關(guān)鍵影響因素不同,例如,影響Cd和Cu濃度的關(guān)鍵因素是與污染源的距離,而As、Ni 和Cr 的關(guān)鍵影響因素則是土壤母質(zhì)、pH、有機(jī)質(zhì)等。
重金屬來(lái)源的空間位置也會(huì)影響其含量,因此研究者們引入二元局部莫蘭指數(shù)(bivariate local moran’s I,BLMI)對(duì)污染企業(yè)網(wǎng)格進(jìn)行空間分析。Jia 等[45]使用多項(xiàng)樸素貝葉斯(naive bayes,NB)方法對(duì)26 萬(wàn)多家企業(yè)的地理數(shù)據(jù)進(jìn)行了分類,之后使用BLMI 進(jìn)行了分析,探討了不同工業(yè)類別與土壤Cd和Hg含量之間的關(guān)系,例如,過(guò)度施肥和采煤是導(dǎo)致地區(qū)高Cd 濃度的主要原因。Huang等[46]將NB、RF、BLMI 相結(jié)合,分析了某工業(yè)地區(qū)土壤重金屬濃度的影響因素,具體來(lái)說(shuō),先利用NB 識(shí)別出作為貢獻(xiàn)因子的250 家污染企業(yè),之后利用RF 測(cè)定了影響因素對(duì)As、Cd 和Hg 濃度的定量貢獻(xiàn),最后利用BLMI 生成了重金屬濃度與關(guān)鍵影響因素之間的空間聚類圖,明確揭示了它們之間的相互作用和內(nèi)在效應(yīng)。
表2 機(jī)器學(xué)習(xí)在土壤重金屬影響因素分析中的應(yīng)用Table 2 Application of machine learning in soil heavy metal influence factor analysis
1.1.3 土壤重金屬分布地圖
繪制重金屬分布地圖是了解土壤重金屬空間分布最直觀的方式,是針對(duì)性地對(duì)土壤污染問(wèn)題進(jìn)行治理的前提[49]。傳統(tǒng)的土壤化學(xué)污染調(diào)查方法昂貴、費(fèi)時(shí)、費(fèi)力,而使用機(jī)器學(xué)習(xí)進(jìn)行數(shù)字土壤制圖則在便捷性方面擁有顯著優(yōu)勢(shì)[50]。數(shù)字土壤制圖基于不同的機(jī)器學(xué)習(xí)模型,這些模型的輸入數(shù)據(jù)來(lái)自全球定位系統(tǒng)(global positioning system,GPS)、地理信息系統(tǒng)(geographic information system,GIS)、光譜波、現(xiàn)場(chǎng)掃描儀、遙感數(shù)據(jù)等[51-53],而機(jī)器學(xué)習(xí)模型的選擇對(duì)于建模過(guò)程和結(jié)果都至關(guān)重要。
Azizi等人[54]將遙感數(shù)據(jù)、地形屬性、專題地圖和土壤屬性作為輸入?yún)?shù),評(píng)估了RF、立體回歸樹(shù)(cubist regression tree,Cubist)對(duì)空間重金屬含量分布的預(yù)測(cè)精度,結(jié)果表明,RF 模型對(duì)Ni和Cu的預(yù)測(cè)精度較高,而Cubist模型對(duì)Mn的預(yù)測(cè)性能更佳。Yang 等人[55]從150 篇文獻(xiàn)中收集了有關(guān)重金屬的土壤吸附數(shù)據(jù)、土壤特性、吸附系統(tǒng)性質(zhì),研究了CART、線性回歸(linear regression,LR)、隨機(jī)梯度下降回歸(stochastic gradient descent regression,SGDR)、支持向量回歸(support vector regression,SVR)、KNN、脊回歸(ridge regression,Ridge)6 種傳統(tǒng)學(xué)習(xí)模型和RF、GBDT、XGBoost、極端隨機(jī)樹(shù)(extremely randomized tree,ET)4 種集合模型,建立了6 種金屬的獨(dú)立模型,可在已知土壤性質(zhì)的情況下,預(yù)測(cè)并繪制土壤重金屬的全球分布圖??臻g插值法是指在給定的有限點(diǎn)數(shù)據(jù)集上,通過(guò)某種計(jì)算模型,對(duì)未知位置的數(shù)值進(jìn)行估計(jì)或預(yù)測(cè)的方法,被廣泛應(yīng)用于與地理有關(guān)的領(lǐng)域中[56-58]。Sergeev等人[59]以空間坐標(biāo)為輸入?yún)?shù),以元素含量為輸出參數(shù)建立模型,首先分析了人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)-MLP 和廣義回歸神經(jīng)網(wǎng)絡(luò)(general regression neural network,GRNN)模型的殘差(預(yù)測(cè)值與實(shí)際值的差),然后對(duì)殘差加以普通克里金(ordinary kriging,OK)計(jì)算,并將輸出與人工神經(jīng)網(wǎng)絡(luò)模型相結(jié)合,得到MLPRK和GRNNRK模型的預(yù)測(cè)結(jié)果。Song 等[60]使用多元線性回歸-普通克里金法(MLR-OK)、支持向量機(jī)-普通克里金法(SVM-OK)和隨機(jī)森林-普通克里金法(RF-OK)的混合統(tǒng)計(jì)模型進(jìn)行土壤重金屬空間分布預(yù)測(cè)和制圖,結(jié)果表明,OK的引入使模型預(yù)測(cè)精度(R2)提高了30%。
固定化是土壤重金屬修復(fù)的一種有效技術(shù),它具有高效、環(huán)境可持續(xù)和低成本的優(yōu)勢(shì)[61]。生物炭具有比表面積高、孔隙結(jié)構(gòu)發(fā)達(dá)、易于表面改性等特點(diǎn),可以通過(guò)絡(luò)合、沉淀和吸附的方式將重金屬固定在土壤中[62-63],是常用的土壤重金屬修復(fù)材料。然而,由于生物炭理化性質(zhì)的多樣性,探究生物炭固定重金屬效率的定量構(gòu)效關(guān)系存在著費(fèi)時(shí)、費(fèi)力、成本高的局限性[64-65]。
機(jī)器學(xué)習(xí)可以基于龐大、復(fù)雜和大維度的數(shù)據(jù)來(lái)構(gòu)建預(yù)測(cè)模型,為研究生物炭在固定土壤重金屬方面的定量構(gòu)效關(guān)系提供了有力工具[66]。Guo等[67]收集了32 篇文獻(xiàn),提取了844 個(gè)數(shù)據(jù)點(diǎn),使用RF、SVMR、GBDT、LR四種模型預(yù)測(cè)了生物炭對(duì)重金屬固定效率,結(jié)果表明RF 模型預(yù)測(cè)效果最佳,其中生物炭投加量、土壤pH和有機(jī)碳含量對(duì)土壤重金屬固定效率的影響最大,且呈正相關(guān)關(guān)系。Sun 等人[68]從發(fā)表的文獻(xiàn)整理得到包含74 種生物炭和43 種土壤的數(shù)據(jù)庫(kù),使用ANN 和RF對(duì)生物炭固定5種不同重金屬和類金屬的過(guò)程進(jìn)行建模,通過(guò)生物炭特性、土壤理化性質(zhì)、操作條件和重金屬的初始狀態(tài)對(duì)重金屬吸附效率進(jìn)行了預(yù)測(cè)。由于文獻(xiàn)提供的數(shù)據(jù)類型不一致,作者還評(píng)估了各模型對(duì)缺失數(shù)據(jù)的容忍度和插值的可靠性,結(jié)果表明ANN 和RF 都具有較好的預(yù)測(cè)性能,而RF模型具有更高的數(shù)據(jù)容錯(cuò)性。Palansooriya等[69]從文獻(xiàn)中篩選出了20 個(gè)變量作為參數(shù)輸入RF、SVMR、ANN模型,在訓(xùn)練階段對(duì)最佳超參數(shù)進(jìn)行了調(diào)整,使用五次交叉驗(yàn)證將預(yù)測(cè)誤差降至最低,優(yōu)化后的RF 模型預(yù)測(cè)效果最佳。因果分析表明,影響重金屬固定效率的因素依次為生物炭性質(zhì)>實(shí)驗(yàn)條件>土壤性質(zhì)>重金屬性質(zhì)。
表4 機(jī)器學(xué)習(xí)在重金屬固定中的應(yīng)用Table 4 Application of machine learning in the fixation of heavy metals
了解土壤中重金屬的來(lái)源是治理土壤污染的關(guān)鍵。傳統(tǒng)的溯源方法主要包括主成分分析(principal component analysis,PCA)、PMF 和同位素分析[70],其中PMF 模型使用最小二乘法對(duì)數(shù)據(jù)進(jìn)行迭代計(jì)算,并在非負(fù)約束條件下評(píng)估各因子的貢獻(xiàn),目前已被廣泛應(yīng)用于土壤重金屬污染源的量化分析,但是如果數(shù)據(jù)點(diǎn)之間存在多重共線性,則該方法失效[71-72]。機(jī)器學(xué)習(xí)方法可以建立具有較強(qiáng)預(yù)測(cè)能力的非線性模型,從而克服上述缺陷。例如RF 可用于確定各種來(lái)源對(duì)土壤重金屬污染的貢獻(xiàn)[73],自組織映射(self-organizing map,SOM)作為一種高維可視化方法,已被應(yīng)用于分析污染源及其分布[74-75]。
Shi等人[76]采用傳統(tǒng)的統(tǒng)計(jì)分析——PMF和三種機(jī)器學(xué)習(xí)方法——SOM、條件推理決策樹(shù)(conditional inference tree,CIT)、RF 來(lái)識(shí)別和評(píng)估土壤中不同來(lái)源的重金屬的貢獻(xiàn),利用PMF 模型得到了各來(lái)源的土壤重金屬總負(fù)荷貢獻(xiàn)率占比,利用SOM 模型分析了各種重金屬的主要來(lái)源,利用CIT模型識(shí)別了各種重金屬的重要影響因素,利用RF 模型量化并識(shí)別了潛在影響因素。Zheng 等人[77]提出了PMF 與GBDT 和SOM 相結(jié)合的方法,以量化土壤重金屬各種來(lái)源的貢獻(xiàn),并從野外采樣和地理空間數(shù)據(jù)中識(shí)別相關(guān)驅(qū)動(dòng)因素,不僅評(píng)估了土壤重金屬的濃度和空間分布,還利用GBDT-偏相關(guān)圖(partial dependence plot,PDP)模型識(shí)別了影響污染源的驅(qū)動(dòng)變量。重金屬之間的相關(guān)性會(huì)導(dǎo)致圖形結(jié)構(gòu)各元素之間的關(guān)系發(fā)生變化,但是在使用SOM 模型的研究中,這些關(guān)系往往被忽視,導(dǎo)致評(píng)估不準(zhǔn)確。圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)在自動(dòng)化的同時(shí)能夠?qū)W習(xí)到圖的特征信息與結(jié)構(gòu)信息,具有優(yōu)異的魯棒性[78-79]。Gao 等[80]首先訓(xùn)練GCN 學(xué)習(xí)了土壤樣本之間的圖結(jié)構(gòu)關(guān)系,然后使用SOM 和圖卷積自組織映射(graph convolutional self-organizing map,GCSOM)將數(shù)據(jù)可視化,結(jié)果顯示,GCSOM 得到的數(shù)據(jù)圖具有更大的聚集性和更清晰的分類邊界。
表5 機(jī)器學(xué)習(xí)在土壤重金屬溯源中的應(yīng)用Table 5 Application of machine learning in soil heavy metal traceability
常用的土壤重金屬污染風(fēng)險(xiǎn)評(píng)估方法包括單因素污染指數(shù)法[82]、污染負(fù)荷指數(shù)法[82]、Nemerow 綜合污染指數(shù)法(nemerow integrated pollution index,NIPI)[83]和潛在生態(tài)風(fēng)險(xiǎn)評(píng)價(jià)法(potential ecological risk index,RI)[84]等。隨著人工智能和機(jī)器學(xué)習(xí)在各個(gè)領(lǐng)域的興起,人們開(kāi)始將機(jī)器學(xué)習(xí)與傳統(tǒng)評(píng)價(jià)方法相結(jié)合,以更加準(zhǔn)確快捷地評(píng)估污染風(fēng)險(xiǎn)。RI 可以將重金屬的環(huán)境生態(tài)影響與毒理學(xué)相聯(lián)系,評(píng)估任何潛在的生態(tài)危害。Huang等[85]根據(jù)RI 值使用K-means 將數(shù)據(jù)集劃分為5 種類型,有效覆蓋了不同的土壤重金屬污染程度,然后利用SVM 構(gòu)建了風(fēng)險(xiǎn)評(píng)價(jià)模型,該模型訓(xùn)練集和測(cè)試集的準(zhǔn)確率均能達(dá)到95%以上,具有良好的分類和評(píng)價(jià)性能。NIPI 可以綜合反映重金屬對(duì)土壤的不同影響,突出重金屬高濃度對(duì)環(huán)境質(zhì)量的影響,避免因平均而弱化重金屬權(quán)重的現(xiàn)象。Wang 等[86]首先將土壤樣本的可見(jiàn)和近紅外光譜(visible and near-infrared spectroscopy,VNIR)進(jìn)行預(yù)處理,測(cè)得土壤中重金屬含量,計(jì)算出每個(gè)樣品的NIPI和RI值,并將NIPI和RI數(shù)值分為不同的風(fēng)險(xiǎn)等級(jí),然后利用PLSR、Cubist、GPR 和SVM 構(gòu)建重金屬含量和2 種污染指數(shù)的預(yù)測(cè)模型,結(jié)果表明,SVM 具有較高的預(yù)測(cè)精度和較強(qiáng)的泛化能力。Zhou等[87]將單因素指數(shù)法與NIPI結(jié)合使用,單因素定義為pH,NIPI 直接反映土壤重金屬超標(biāo)倍數(shù)和污染程度,使用遺傳算法(genetic algorithm,GA)-反向傳播(back propagation,BP)、MLR、BP、M5 模型樹(shù)4 種模型預(yù)測(cè)某地區(qū)的重金屬污染風(fēng)險(xiǎn),結(jié)果表明,GA-BP 模型具有較快的收斂速度,并且預(yù)測(cè)精度最佳。
表6 機(jī)器學(xué)習(xí)在土壤重金屬風(fēng)險(xiǎn)預(yù)測(cè)中的應(yīng)用Table 6 Application of machine learning in soil heavy metal risk prediction
機(jī)器學(xué)習(xí)的應(yīng)用大大提高了土壤重金屬研究的效率,已然成為相關(guān)研究的熱點(diǎn)之一。在土壤重金屬濃度預(yù)測(cè)、重金屬濃度決定因素分析、重金屬污染溯源、重金屬固定劑設(shè)計(jì)和土壤重金屬污染風(fēng)險(xiǎn)評(píng)估等方面,機(jī)器學(xué)習(xí)均表現(xiàn)出強(qiáng)大的應(yīng)用潛力。然而,機(jī)器學(xué)習(xí)在土壤重金屬相關(guān)研究中的應(yīng)用還處于初級(jí)階段。具體來(lái)說(shuō),數(shù)據(jù)集和算法是機(jī)器學(xué)習(xí)的兩大關(guān)鍵要素,而數(shù)據(jù)集又是模型構(gòu)建的基礎(chǔ)?,F(xiàn)階段數(shù)據(jù)集的構(gòu)建主要依賴研究者們自行到各個(gè)地點(diǎn)采取上百個(gè)樣本并進(jìn)行測(cè)定。由于相關(guān)數(shù)據(jù)測(cè)定的成本和時(shí)效性問(wèn)題,此類研究往往依舊耗時(shí)費(fèi)力。更嚴(yán)重的是,由于不同研究者數(shù)據(jù)采集方法之間的差異,不同研究之間的數(shù)據(jù)往往不能夠通用,客觀上降低了研究的參考價(jià)值。因此,建議依托物聯(lián)網(wǎng)技術(shù)收集整理土壤樣本的相關(guān)數(shù)據(jù)集信息,構(gòu)建平臺(tái),以實(shí)現(xiàn)低成本、高效率的實(shí)時(shí)數(shù)據(jù)共享。
三峽生態(tài)環(huán)境監(jiān)測(cè)2023年4期