付宇, 曹文庚, 張娟娟
(1.華北水利水電大學(xué), 河南 鄭州 450046;2.中國(guó)地質(zhì)科學(xué)院水文地質(zhì)環(huán)境地質(zhì)研究所, 河北 石家莊 050061;3.河北省地礦局第六地質(zhì)大隊(duì), 河北 石家莊 050085)
地下水在全世界的灌溉用水和飲用水供應(yīng)中發(fā)揮著重要作用,然而全球范圍內(nèi)已有七十多個(gè)國(guó)家檢測(cè)出高砷地下水。世界衛(wèi)生組織(WHO)發(fā)布的飲用水中砷的臨時(shí)指導(dǎo)值為10μg/L,人們長(zhǎng)期飲用高砷水(>10μg/L)會(huì)引起各種皮膚病、癌癥和心血管疾病[1]。同時(shí),高砷灌溉水也會(huì)導(dǎo)致作物中產(chǎn)生高無(wú)機(jī)砷從而引發(fā)人類(lèi)疾病[2-3]。高砷地下水最早于20世紀(jì)初在阿根廷被報(bào)道,隨后在印度、孟加拉、柬埔寨、中國(guó)、越南、緬甸、美國(guó)發(fā)現(xiàn)了分布面積更廣、砷濃度更高的高砷區(qū),目前全球高砷地下水影響人口高達(dá)1.4億[4-5]。在中國(guó),1500萬(wàn)人的健康受到高砷地下水的威脅,特別是新疆、內(nèi)蒙古、山西、寧夏等干旱-半干旱地區(qū)[6]。研究高砷地下水的分布及驅(qū)動(dòng)因素,對(duì)當(dāng)?shù)鼐用耧嬎踩约暗叵滤Y源的合理利用具有重要現(xiàn)實(shí)意義。
全球有許多主要含水層存在嚴(yán)重的地下水砷污染問(wèn)題。盡管這些地區(qū)各自具有特定的砷來(lái)源、水文過(guò)程、地質(zhì)沉積構(gòu)造等條件,但高砷地下水的發(fā)生主要分布在兩類(lèi)環(huán)境中:①降水豐富、補(bǔ)給量大的三角洲平原。如以孟加拉為代表的南亞地區(qū);②干旱-半干旱的內(nèi)陸沉積盆地。如中國(guó)河套盆地、銀川盆地、大同盆地等。河套盆地作為中國(guó)境內(nèi)典型的富砷內(nèi)陸沉積盆地,地下水砷含量嚴(yán)重超標(biāo),最高達(dá)到1480μg/L[7],超過(guò)30萬(wàn)人的身體健康受到威脅,飲水型地方性砷中毒患病率達(dá)15.54%[8]。為了查明河套盆地高砷地下水的成因、分布、富集、遷移機(jī)制,國(guó)內(nèi)外眾多學(xué)者在該區(qū)域開(kāi)展了調(diào)查研究[9-12],已獲得極為豐富的成果。研究表明河套盆地以還原環(huán)境為主的沉積環(huán)境、特定的地質(zhì)條件、構(gòu)造環(huán)境是地下水砷異常的原因[7,12-14]。近十年來(lái),郭華明研究團(tuán)隊(duì)[6,11-12,15-16]從微觀層面揭示了河套盆地砷的富集和遷移是伴隨著硫酸鹽、鐵氧化物、氫氧化物的還原而發(fā)生,同時(shí)這一過(guò)程還受到含水層土著微生物、天然膠體、參與反應(yīng)的有機(jī)物以及地下水開(kāi)采作用的影響。目前對(duì)微觀層面的河套盆地水文生物地球化學(xué)過(guò)程有了較完整的認(rèn)識(shí),但未見(jiàn)從宏觀角度對(duì)河套盆地高砷地下水的空間分布與驅(qū)動(dòng)機(jī)制作出較為全面的評(píng)價(jià)。而從宏觀角度對(duì)大尺度空間范圍的高砷地下水分布進(jìn)行預(yù)測(cè),可以幫助識(shí)別區(qū)域地下水中可能含有高濃度砷的地區(qū)。研究不同時(shí)段高砷地下水分布演變,對(duì)河套盆地高砷地下水動(dòng)態(tài)演化機(jī)制研究具有一定的參考價(jià)值。前期已有學(xué)者實(shí)現(xiàn)了大尺度空間范圍地下水砷的預(yù)測(cè)。如美國(guó)地質(zhì)調(diào)查局于2006年率先報(bào)道了對(duì)美國(guó)整個(gè)東北部地區(qū)基巖含水層高砷(>5μg/L)地下水使用邏輯回歸模型進(jìn)行風(fēng)險(xiǎn)預(yù)測(cè)[17]。Rodríguez-Lado等[18]利用邏輯回歸模型預(yù)測(cè)了中國(guó)華北地區(qū)及江漢平原可能存在高砷地下水,并判斷出地形、土壤為主要控制因素。Wu等[19]使用隨機(jī)森林模型繪制了印度地下水中砷濃度(>10μg/L)的分布圖和高砷暴露人口分布圖,并發(fā)現(xiàn)了尚待確定的潛在高砷區(qū)。
預(yù)測(cè)地下水污染物分布的機(jī)器學(xué)習(xí)模型包括:邏輯回歸模型[20]、神經(jīng)網(wǎng)絡(luò)模型[21]、支持向量機(jī)模型[22]、隨機(jī)森林模型[23]等。隨機(jī)森林算法具有調(diào)參少、預(yù)測(cè)精度高和泛化能力強(qiáng)等優(yōu)點(diǎn),且不易產(chǎn)生“過(guò)擬合”現(xiàn)象,對(duì)異常值和噪聲具有很好的容忍度,對(duì)特征選取具有較好的魯棒性,是數(shù)據(jù)分類(lèi)和預(yù)測(cè)的普遍選擇[24]。隨機(jī)森林模型能發(fā)現(xiàn)目標(biāo)變量和預(yù)測(cè)變量之間的統(tǒng)計(jì)關(guān)系,以便進(jìn)行預(yù)測(cè)[20,23]。這種方法可以用來(lái)考慮各種與地下水中砷的釋放和積累有關(guān)的環(huán)境因素,指出模型中環(huán)境因素和目標(biāo)變量之間的關(guān)系。針對(duì)砷在沉積含水層中的高度不均勻分布,可基于二元目標(biāo)變量建模來(lái)產(chǎn)生高砷概率分布,為后續(xù)對(duì)整個(gè)區(qū)域高砷地下水成因解讀提供科學(xué)、可靠的依據(jù)。
為了動(dòng)態(tài)識(shí)別不同季節(jié)地下水中可能含有高濃度砷的地區(qū),分析地下水砷的變化,明確重要影響因子的驅(qū)動(dòng)作用,本文基于河套盆地506個(gè)淺層地下水樣品,以氣候變量為動(dòng)態(tài)驅(qū)動(dòng),利用隨機(jī)森林建模方法對(duì)河套盆地高砷地下水空間分布進(jìn)行建模,識(shí)別冬夏季高砷區(qū)分布,進(jìn)而評(píng)價(jià)各預(yù)測(cè)變量在砷濃度預(yù)測(cè)過(guò)程中的重要性,進(jìn)一步研究氣候變量對(duì)高砷地下水分布預(yù)測(cè)的影響。
河套盆地位于內(nèi)蒙古自治區(qū)的西部,其北部為陰山山脈,南鄰黃河,西接烏蘭布和沙漠,東側(cè)是淡水湖烏梁素海。行政區(qū)屬巴彥淖爾市,面積1.2萬(wàn)km2(圖 1)。地勢(shì)平坦開(kāi)闊,局部起伏,形成崗丘和洼地。該盆地屬于溫帶大陸性干旱-半干旱季風(fēng)氣候,光照豐富,晝夜溫差較大,降水量的季節(jié)分配不均,降水量遠(yuǎn)低于蒸發(fā)量且70%左右的降水集中在夏季,年平均降水量130~220mm,年平均蒸發(fā)量1900~2500mm[25]。
河套盆地是一個(gè)中新生代斷陷盆地,在地質(zhì)構(gòu)造上屬于華北地臺(tái)鄂爾多斯臺(tái)向斜的北緣部分。河套盆地的第四系全新統(tǒng)和上更新統(tǒng)(Q4+Q3)通常為沖洪積、沖湖積沉積物,巖性主要為夾礫粗砂、細(xì)砂、粉砂等,含水層厚度大(可達(dá)200m以上),分布廣,因此具有較大的供水意義。高砷地下水正是分布在這一含水層中,對(duì)當(dāng)?shù)鼐用竦慕】翟斐闪溯^大的影響。
盆地地形總體趨勢(shì)是自東南向西北降低,地面海拔為1070~1030m。地下水位在1.5~20m左右,地下水流速?gòu)纳角暗貐^(qū)到平原區(qū)逐漸遞減[26]。盆地內(nèi)淺層地下水水位埋深,除了陰山山前沖洪積扇裙帶水位埋深大于5m,盆地大部分地區(qū)地下水位埋深在5m之內(nèi)[7],地下水的多年動(dòng)態(tài)變化規(guī)律主要受到黃河水灌溉的影響,地下水運(yùn)移以垂向入滲為主,側(cè)向徑流微弱。地下水的補(bǔ)給來(lái)源主要有降水、地表水、灌溉水的垂直入滲及山前側(cè)向徑流等方式。由于盆地氣候類(lèi)型為干旱-半干旱內(nèi)陸季風(fēng)氣候,自然降水少且蒸發(fā)強(qiáng)烈,對(duì)地下水的補(bǔ)給效果較差,降水入滲占總補(bǔ)給量的23.1%。盆地內(nèi)部廣泛分布著不同級(jí)別的引黃灌溉渠網(wǎng),引黃灌溉水的入滲補(bǔ)給是地下水主要的補(bǔ)給形式,灌溉水占總補(bǔ)給量的76.5%[27]。盆地內(nèi)部天然形成的地表水體較少,盆地內(nèi)的排干主要為地下水的排泄路徑。
河套盆地采樣數(shù)據(jù)來(lái)自2016年9月進(jìn)行的水文地質(zhì)調(diào)查,采樣井在研究區(qū)均勻分布,位置如圖1所示。調(diào)查采集了淺層地下水樣品 506組(井深2~120m,樣品采集深度以采樣井濾水管中間位置為準(zhǔn)),樣品采集深度基本都控制在晚更新世含水層。
圖1 河套盆地地下水砷含量分布Fig.1 Distribution of arsenic content in groundwater in Hetao Basin
樣品測(cè)試工作由中國(guó)地質(zhì)科學(xué)院水文地質(zhì)環(huán)境地質(zhì)研究所承擔(dān)。檢測(cè)環(huán)境溫度23℃,濕度50%。砷元素采用美國(guó)Aglient公司7500C電感耦合等離子體質(zhì)譜儀(ICP-MS)測(cè)試;地下水樣品中砷的形態(tài)分析以美國(guó)PerkinElmer公司200B/785A/TURBO EL HPLC SYSTEM型液相色譜儀、Pecosphere C18色譜柱以及北京瑞利公司AF-610原子熒光光譜儀為硬件平臺(tái),通過(guò)高效液相色譜-氫化物發(fā)生-原子熒光光譜法(HPLC-HG-AFS)測(cè)定。分析地下水樣時(shí),加5%的平行樣品,所有平行樣品的誤差小于5%,表明各項(xiàng)指標(biāo)的準(zhǔn)確性均在質(zhì)量要求范圍內(nèi)。
2.2.1變量選擇
建模的目標(biāo)是距離地表一定深度的地下水砷濃度,在獲取環(huán)境變量數(shù)據(jù)過(guò)程中,由于大范圍內(nèi)獲取地下空間數(shù)據(jù)(如地球物理測(cè)量、鉆井)的成本普遍較高,難度較大,只有地表空間數(shù)據(jù)獲取方式簡(jiǎn)單(遙感影像、地表監(jiān)測(cè)站),而且在時(shí)間和空間上是連續(xù)的。在建模過(guò)程中,時(shí)間和空間連續(xù)的數(shù)據(jù)更能反映出預(yù)測(cè)目標(biāo)的時(shí)空變異性特征。
本次建??紤]了“氣候”、“地形”和“其他”三類(lèi),共計(jì)9個(gè)地表空間連續(xù)數(shù)據(jù)用作建模的預(yù)測(cè)變量(表1)。這些變量的選擇是基于其在地下水砷的累積過(guò)程中已知或潛在的功能。在干旱-半干旱地區(qū),強(qiáng)烈的蒸發(fā)濃縮過(guò)程是影響該地區(qū)水化學(xué)特征的主要水文地球化學(xué)過(guò)程[25],該區(qū)高砷地下水的形成屬于自然環(huán)境水文地球化學(xué)作用為主的成因類(lèi)型[8]。高存榮[14]研究表明河套地區(qū)高砷地下水的形成與特定的地質(zhì)、地形條件有關(guān)。研究區(qū)廣泛存在的灌渠以及排干影響了地下水的流動(dòng),對(duì)砷的富集也產(chǎn)生影響,在灌渠及排干的附近,地下水更偏向于形成還原環(huán)境,有利于砷的富集;遠(yuǎn)離這些地表水體的位置,還原條件增強(qiáng),水砷含量升高[28]。
表1 模型預(yù)測(cè)變量及描述Table 1 Predictor variables and descriptions of the model
為了剔除表現(xiàn)不佳的預(yù)測(cè)變量,創(chuàng)建最佳模型,通過(guò)交叉驗(yàn)證的方式執(zhí)行遞歸特征消除(RFE)迭代生成初始9個(gè)特征變量的子集,使用隨機(jī)森林算法來(lái)計(jì)算所有子集的驗(yàn)證誤差,選擇誤差率最小的特征子集,將該特征子集中的變量作為最終的建模變量。9個(gè)變量中具有時(shí)間連續(xù)性的預(yù)測(cè)變量(蒸散、降水等)選用夏季(6、7、8月)數(shù)據(jù),最終模型選取的是9個(gè)變量的集合,這是錯(cuò)誤率最小且在隨機(jī)森林一個(gè)標(biāo)準(zhǔn)誤差范圍內(nèi)的模型。
2.2.2建模與驗(yàn)證
利用上述砷濃度數(shù)據(jù)集和預(yù)測(cè)變量,建立地下水中砷含量超10μg/L的統(tǒng)計(jì)預(yù)測(cè)模型。
首先對(duì)比了一些統(tǒng)計(jì)學(xué)習(xí)方法,包括Logistic回歸、支持向量機(jī)與隨機(jī)森林方法。選擇均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)和平均相對(duì)誤差(MRE)三個(gè)評(píng)價(jià)指標(biāo)進(jìn)行分析,RMSE、MAE、MRE值越小,表明模型越優(yōu),預(yù)測(cè)精度越高。隨機(jī)森林方法在對(duì)比中表現(xiàn)出最好的預(yù)測(cè)性能。
隨機(jī)森林模型是Breiman[29]提出的一種基于 CART (Classification and Regression tree)決策樹(shù)的組合模型,主要有分類(lèi)(RFC)和回歸(RFR)兩種算法,基本思想是基于統(tǒng)計(jì)學(xué)理論提出的,通過(guò)自助(Boot-strap)重采樣技術(shù),從原始訓(xùn)練樣本集N中有放回地重復(fù)隨機(jī)抽取K個(gè)樣本生成新的訓(xùn)練樣本集合, 然后根據(jù)自助樣本集生成K個(gè)決策樹(shù)組成的隨機(jī)森林。此外,每棵樹(shù)可用的預(yù)測(cè)變量是隨機(jī)選擇的,而且數(shù)量受到限制。由于并非所有變量都同時(shí)考慮,在隨機(jī)森林模型中,通??梢院雎灶A(yù)測(cè)因子之間多重共線(xiàn)性問(wèn)題。對(duì)于分類(lèi)模型,新數(shù)據(jù)的分類(lèi)結(jié)果按分類(lèi)樹(shù)投票的多少而定,而對(duì)于回歸模型,將所有決策樹(shù)預(yù)測(cè)平均值作為最終預(yù)測(cè)結(jié)果。
模型中需設(shè)置的參數(shù)主要有:決策樹(shù)數(shù)目;樹(shù)節(jié)點(diǎn)劃分時(shí)隨機(jī)選取的預(yù)測(cè)變量數(shù)目。理論上,決策樹(shù)數(shù)目越大,預(yù)測(cè)精度越高;樹(shù)節(jié)點(diǎn)劃分時(shí)隨機(jī)選取的預(yù)測(cè)變量數(shù)目是模型最敏感的參數(shù),通常是取預(yù)測(cè)變量的平方根。通過(guò)均方誤差與決策樹(shù)數(shù)目的關(guān)系、袋外數(shù)據(jù)(Out of Bag,OOB)誤差與樹(shù)節(jié)點(diǎn)劃分時(shí)隨機(jī)選取的預(yù)測(cè)變量數(shù)的關(guān)系,來(lái)確定最終決策樹(shù)數(shù)目和樹(shù)節(jié)點(diǎn)劃分時(shí)隨機(jī)選取的預(yù)測(cè)變量數(shù)。結(jié)果表明,當(dāng)決策樹(shù)數(shù)目超過(guò)400 時(shí),均方誤差基本趨于穩(wěn)定狀態(tài);當(dāng)樹(shù)節(jié)點(diǎn)劃分時(shí)隨機(jī)選取的預(yù)測(cè)變量數(shù)為4時(shí),OOB誤差達(dá)到最小值。因此,選取決策樹(shù)數(shù)目為400,決策樹(shù)節(jié)點(diǎn)劃分時(shí)隨機(jī)選取的預(yù)測(cè)變量數(shù)為4作為最優(yōu)參數(shù)。
由于地下水砷在沉積含水層中的分布往往高度不均勻,因此通常采用基于二元目標(biāo)變量的建模來(lái)產(chǎn)生概率[19],用10μg/L作為閾值。首先根據(jù)砷濃度<10μg/L或>10μg/L或等于10μg/L,將砷濃度重新編碼為0或1。利用砷濃度編碼集和上述自動(dòng)選擇過(guò)程確定的預(yù)測(cè)變量(夏季),將506個(gè)采樣點(diǎn)數(shù)據(jù)集隨機(jī)分為訓(xùn)練(80%)和測(cè)試(20%)數(shù)據(jù)集。使用訓(xùn)練數(shù)據(jù)集建立模型,然后將該模型應(yīng)用于測(cè)試數(shù)據(jù)集,通過(guò)各種統(tǒng)計(jì)數(shù)據(jù)評(píng)估其性能,以確定其在預(yù)測(cè)新數(shù)據(jù)的低(≤10μg/L)和高(>10μg/L)砷濃度方面的準(zhǔn)確性。
性能評(píng)估參數(shù)包括受試者工作特征(ROC)曲線(xiàn)下面積(AUC)以及準(zhǔn)確率(Accuracy)。AUC表征預(yù)測(cè)高值(靈敏度)和低值(特異性)的準(zhǔn)確性,它是通過(guò)對(duì)建模的概率在0和1之間應(yīng)用許多不同的閾值得出的,通過(guò)計(jì)算特異性與靈敏度繪制的曲線(xiàn)下的面積得到AUC值,該值通常在0.5(未經(jīng)證實(shí)的猜測(cè))到1(完美的預(yù)測(cè)精度)之間。準(zhǔn)確率是針對(duì)所有的測(cè)試數(shù)據(jù)而言的,表征有多少樣本被準(zhǔn)確預(yù)測(cè),它是通過(guò)計(jì)算測(cè)試數(shù)據(jù)集中預(yù)測(cè)正確的正類(lèi)(TP)和負(fù)類(lèi)(TN)在所有預(yù)測(cè)數(shù)據(jù)中的占比得出,公式表達(dá)為:Accuracy=(TP+TN)/(TP+TN+FP+FN),式中FP 和FN分別代表假正類(lèi)和假負(fù)類(lèi)。
最后,將該模型應(yīng)用于這9個(gè)空間上連續(xù)的預(yù)測(cè)變量集,創(chuàng)建河套盆地不同季節(jié)地下水中高砷濃度概率圖作為風(fēng)險(xiǎn)區(qū)的分布圖。
對(duì)研究區(qū)內(nèi)地下水砷含量描述性統(tǒng)計(jì)特征分析,所有地下水采樣點(diǎn)中砷含量為0.05~916.7μg/L,平均值為58.35μg/L,中位值為9.43μg/L,以世界衛(wèi)生組織(WHO)發(fā)布的飲用水中砷的臨時(shí)指導(dǎo)值10μg/L為標(biāo)準(zhǔn),該區(qū)域地下水 506個(gè)樣點(diǎn)砷含量的超標(biāo)率為50%,具有很高的人體健康風(fēng)險(xiǎn)。所有樣點(diǎn)含量的變異系數(shù)為1.97,表明研究區(qū)地下水砷含量具有很強(qiáng)的空間變異性。從砷含量的數(shù)據(jù)范圍也可以看出,砷含量極差較大,數(shù)據(jù)集不符合正態(tài)分布特征,存在右偏尾現(xiàn)象。
從區(qū)域上(圖1)來(lái)看,高砷區(qū)呈帶狀分布,且分布規(guī)律與前人研究成果一致[7-8]。地下水砷含量超過(guò)50μg/L的區(qū)域自西向東呈條帶狀,并逐漸向南擴(kuò)展,西部的高砷地下水沿狼山山前沖洪積扇緣的低洼地帶呈北東向的條帶狀分布;東部區(qū)以五原為中心,高砷地下水區(qū)多呈不規(guī)則的片狀分布,范圍較廣,砷含量最大值可達(dá)916.7μg/L。
模型在測(cè)試數(shù)據(jù)集上的交叉驗(yàn)證結(jié)果如表2和表3所示。該隨機(jī)森林模型在測(cè)試數(shù)據(jù)集上的整體準(zhǔn)確率為0.7426,顯著高于無(wú)信息率0.5545(p=7.338×10-5)。無(wú)信息率是指在沒(méi)有預(yù)測(cè)模型的情況下所能達(dá)到的精度,即數(shù)據(jù)集中數(shù)據(jù)比例較大的類(lèi)別所占的比例,56%的砷測(cè)量點(diǎn)等于或大于10μg/L。同樣,Kappa統(tǒng)計(jì)量(0.4767)是一個(gè)超出偶然預(yù)期的精度指標(biāo),通常Kappa值在0(不一致)與1(完全一致)之間變化。ROC曲線(xiàn)下的面積(AUC)為0.784,通常AUC值的范圍為0.5(沒(méi)有預(yù)測(cè)能力)到1(完美的預(yù)測(cè)能力),同時(shí)AUC還可以代表在眾多概率截?cái)嘀抵?,二元模型預(yù)測(cè)低值和高值的能力[30]。
表2 隨機(jī)森林模型的混淆矩陣(概率截?cái)嘀?0.5)Table 2 Confusion matrix of the random forest model (probability cutoff=0.5)
表3 隨機(jī)森林模型的統(tǒng)計(jì)數(shù)據(jù)(概率截?cái)嘀?0.5)Table 3 Statistics data of the random forest model (probability cutoff=0.5)
在ROC曲線(xiàn)中根據(jù)各點(diǎn)對(duì)應(yīng)的敏感性和特異性,計(jì)算(敏感性+特異性-1)獲取最大值的點(diǎn)作為概率截?cái)帱c(diǎn)0.509,可用于確定地下水砷濃度的高風(fēng)險(xiǎn)區(qū)域。與其他國(guó)家或地區(qū)的地下水砷預(yù)測(cè)模型對(duì)比,本研究區(qū)(河套地區(qū))建立的模型AUC值和準(zhǔn)確度是一個(gè)比較理想的結(jié)果。例如,印度古吉拉特邦的AUC值為0.71~0.83[19],印度北方邦的AUC值為0.74[31],巴基斯坦的AUC值為0.8[32],美國(guó)中北部的準(zhǔn)確率為0.67[33],中國(guó)山西省的準(zhǔn)確率為0.68[34]。
最后,使用隨機(jī)森林模型分別計(jì)算了河套盆地夏季和冬季砷濃度超過(guò)10μg/L的概率。地下水高砷概率圖如圖2中a和c所示,結(jié)合概率閾值0.509(>10μg/L),繪制了地下水砷高風(fēng)險(xiǎn)分布圖如圖2中b和d所示。
(a)夏季和(c)冬季地下水中砷濃度超過(guò)10μg/L的概率; (b)夏季和(d)冬季基于概率截?cái)帱c(diǎn)0.509的高危險(xiǎn)區(qū)。圖2 不同季節(jié)砷風(fēng)險(xiǎn)分布Fig.2 Arsenic hazard maps by season. Probability of arsenic concentration in groundwater exceeding 10μg/L in (a) summer and (c) winter. High hazard areas based on probability cutoffs of 0.509 in (b) summer and (d) winter
夏季高砷地下水高風(fēng)險(xiǎn)區(qū),涵蓋了黃河古河道影響帶、黃河北岸決口扇的沖積沉積物中已知的高砷地區(qū),同時(shí)還涵蓋了部分沒(méi)有獲取砷濃度數(shù)據(jù)的地區(qū),根據(jù)概率閾值劃定的高砷面積達(dá)到5571km2,占研究區(qū)范圍的38.73%。高砷概率范圍在0.04~0.91之間,其中概率大于0.6的區(qū)域則更為集中分布在河套盆地的沉積中心地帶。
冬季高砷地下水高風(fēng)險(xiǎn)區(qū),根據(jù)概率閾值劃定的高砷面積達(dá)到 3665km2,占研究區(qū)范圍的24.59%,主要分布于排干沿線(xiàn)及烏梁素海西側(cè)低洼地帶。相比夏季,冬季高砷面積減少了1907km2,減少面積占全區(qū)總面積的14.14%。高砷概率范圍在0.28~0.65之間,其中概率大于0.6的區(qū)域則零星地分布在排干沿線(xiàn)及烏梁素海西側(cè)低洼地帶。
河套盆地降雨量少蒸發(fā)量大,通常情況下70%左右的降水集中在夏季,本次研究采用的2016年降水?dāng)?shù)據(jù),夏季降水基本囊括了全年降水量,約為120mm左右。夏季集中降水致使地下水水位上升,使空氣無(wú)法進(jìn)入地層而形成還原環(huán)境,在干旱的氣候環(huán)境條件下地表水的pH值普遍偏高,這樣給地層中砷的溶出提供了有利的條件。冬夏兩季由于氣候條件的變化可能導(dǎo)致冬夏高砷區(qū)空間分布差異。已有研究表明,地下水As濃度的季節(jié)性變化也有類(lèi)似的結(jié)果。在漢江平原,雨季(6~9月)砷濃度逐漸升高,雨季結(jié)束時(shí)(9月)砷濃度達(dá)到最高,隨后砷濃度開(kāi)始逐漸下降,最低值是在旱季結(jié)束時(shí)(4~5月)[35]。如Yadav(2015)[36]對(duì)印度恒河流域上游的觀測(cè)值顯示,砷濃度的時(shí)空分布與季節(jié)相關(guān),冬季較低,夏季較高。
預(yù)測(cè)變量的重要性被用來(lái)幫助評(píng)估不同預(yù)測(cè)變量對(duì)模型的相對(duì)影響。隨機(jī)森林模型中預(yù)測(cè)變量的重要性評(píng)估主要使用兩種統(tǒng)計(jì)方法:①精確度降低;②基尼節(jié)雜質(zhì)減少。在最終的模型中,不同預(yù)測(cè)變量對(duì)研究區(qū)地下水的砷風(fēng)險(xiǎn)概率影響的重要性程度及排序如圖3所示。所有的預(yù)測(cè)因子都沒(méi)有負(fù)值,這表明它們都對(duì)模型有益。在精確度和基尼系數(shù)的平均下降方面,對(duì)其每一項(xiàng)都進(jìn)行了標(biāo)準(zhǔn)化,綜合這兩種統(tǒng)計(jì)方法的結(jié)果,得出降水、干旱指數(shù)、排灌渠影響、潛在蒸散、溫度、植被指數(shù)是對(duì)模型預(yù)測(cè)影響重要性排序靠前的預(yù)測(cè)變量,其中降水和干旱指數(shù)對(duì)地下水砷含量空間分布模擬的準(zhǔn)確性貢獻(xiàn)度最大。
a—將9個(gè)變量的取值變?yōu)殡S機(jī)數(shù)時(shí),模型預(yù)測(cè)準(zhǔn)確性的降低程度; b—9個(gè)變量對(duì)分類(lèi)樹(shù)每個(gè)節(jié)點(diǎn)上觀測(cè)值的異質(zhì)性的影響程度。該值越大,表示該變量的重要性越大。圖3 隨機(jī)森林模型預(yù)測(cè)變量重要性排序Fig.3 Importance ranking of predictor variables in the random forest model. (a) Represents the reduction of model prediction accuracy when the values of 9 variables are changed into random numbers; (b) Represents the influence degree of nine variables on the heterogeneity of observed values at each node of the classification tree. The greater the value, the greater the importance of the variable
根據(jù)預(yù)測(cè)變量重要性綜合排序可得出,最終模型中的氣候變量(降水量、干旱指數(shù)、潛在蒸散量和溫度)與含水層中的砷積累顯著相關(guān),表明氣候?qū)畬由獒尫诺膹?qiáng)大控制作用。高溫促進(jìn)了蒸發(fā)蒸騰,加劇了干旱。高蒸散量、高干旱指數(shù)、高溫和低降雨量的結(jié)合會(huì)增加地下水的蒸發(fā)量,從而增加砷的濃度,特別是在干旱或半干旱氣候下的內(nèi)陸或封閉盆地[37]。河套盆地作為一個(gè)較封閉的內(nèi)陸盆地,其氧化還原電位(Eh)顯示出幾乎為負(fù)值的還原環(huán)境,在脫硫酸作用下,使pH值升高,膠體吸附力減弱,游離砷含量增加[8]。降水和蒸散發(fā)在這種還原以及高pH值的干旱環(huán)境下,有利于砷釋放條件的產(chǎn)生[38]。
離排干的距離也影響著地下水砷的富集。一項(xiàng)針對(duì)總排干附近地下水的研究[28]發(fā)現(xiàn),高砷含量的底泥的物源保證、灌溉輸入磷肥帶來(lái)的競(jìng)爭(zhēng)吸附以及灌溉季水位抬升導(dǎo)致的還原環(huán)境,可造成總排干附近地下水砷富集。大量黃河水的引入不僅使地下水水位抬升,形成大面積的土壤鹽漬化,而且地下水水位的上升使空氣無(wú)法進(jìn)入地層形成還原環(huán)境,給地層中砷的溶出提供了有利的條件。引黃灌溉使地下水位和地下水壓力發(fā)生顯著的變化,這樣進(jìn)入土粒空隙中的砷很容易進(jìn)入地下水中。
已有研究表明,蒸散量會(huì)隨植被覆蓋度的增加逐步增加,因此地表植被覆蓋度對(duì)地下水砷含量也可能存在影響[39-40]。區(qū)域地形平緩,代表著地下水徑流極其緩慢,有助于抑制地下水系統(tǒng)對(duì)砷的沖刷,同時(shí)還促進(jìn)了較細(xì)粒的沖積沉積物、含砷鐵氧化物和沉積物中豐富有機(jī)質(zhì)的積累。然后,在含水層微生物的作用下將砷釋放到地下水中,導(dǎo)致地下水的砷賦存于地下水流動(dòng)緩慢的平坦、低洼地區(qū)[15,19,26]。
通過(guò)利用隨機(jī)森林建模,識(shí)別河套盆地不同季節(jié)高砷地下水的潛在風(fēng)險(xiǎn),分析了預(yù)測(cè)變量對(duì)地下水砷濃度的影響,并分析重要指標(biāo)對(duì)高砷地下水的作用。結(jié)果表明:①淺層地下水砷含量的超標(biāo)率(砷濃度>10μg/L)為50%,高砷區(qū)集中地分布在河套盆地的沉積中心地帶;②氣候因子(降水、干旱指數(shù))在對(duì)預(yù)測(cè)模型重要性評(píng)估中占主導(dǎo)地位,以氣候因子為動(dòng)態(tài)驅(qū)動(dòng),對(duì)不同季節(jié)的高砷地下水開(kāi)展風(fēng)險(xiǎn)預(yù)測(cè)切實(shí)可行;③冬季地下水砷高風(fēng)險(xiǎn)區(qū)面積比夏季減少1907km2,減少的面積占全區(qū)總面積的14.14%,主要分布于排干沿線(xiàn)及烏梁素海西側(cè)低洼地帶。
本研究建立的氣候驅(qū)動(dòng)下的高砷地下水地表空間參數(shù)模型,達(dá)到了初步預(yù)期效果,對(duì)于大范圍內(nèi)獲取地下空間參數(shù)難度較大的情況,本研究成果可提供一定的參考價(jià)值。但是,河套盆地高砷地下水分布也會(huì)受到不同季節(jié)灌溉條件變化的影響,本模型中并未涉及灌溉情況。模型的預(yù)測(cè)質(zhì)量取決于它們所基于的數(shù)據(jù),由于地下水砷局部尺度具有顯著的空間變異性,為了獲得最穩(wěn)健的高砷地下水砷分布結(jié)果,還需要更詳細(xì)的預(yù)測(cè)變量(沉積環(huán)境、土壤、水化學(xué)、灌溉)和更多的砷濃度數(shù)據(jù)集的加入,對(duì)該模型實(shí)現(xiàn)進(jìn)一步改進(jìn)。