董曉冬 陳麗紅 林芙 李惠平 黃慧
摘要:利用現(xiàn)有文獻(xiàn)中的碳基材料對水中四環(huán)素的吸附量的數(shù)據(jù),以機器學(xué)習(xí)為方法準(zhǔn)確地預(yù)測了不同碳基材料在不同環(huán)境條件下對水中四環(huán)素的吸附量。其中梯度提升樹(CBDT)對四環(huán)素的吸附量預(yù)測效果最好(R2>0.99)。比表面積和孔容積是決定碳基材料對四環(huán)素吸附量的最主要的特征。除pH與pHpzc對吸附量的貢獻(xiàn)為負(fù)外,其余變量對吸附量均為正貢獻(xiàn),即特征重要性越明顯時,對吸附量的提升越有利。整體而言,四環(huán)素在碳基材料上的吸附是一個物理過程,受吸附劑的物理特性和環(huán)境因素影響較大,而受碳基材料的化學(xué)特性的影響較小。
關(guān)鍵詞:四環(huán)素吸附;機器學(xué)習(xí);碳基材料;模型解釋
中圖分類號:X703 文獻(xiàn)標(biāo)志碼:B
前言
長期暴露在一定濃度的四環(huán)素的刺激下會對人體的腎臟、眼球、胃腸道等器官造成傷害。由于四環(huán)素的濫用,天然水體中已有較高濃度的四環(huán)素檢出,因此亟需去除水體中的四環(huán)素。利用碳基吸附劑可以高效地吸附水中四環(huán)素。各類碳基吸附劑被大量開發(fā)并應(yīng)用于吸附水體中的四環(huán)素和其他污染物。然而評價碳基吸附劑對水體中四環(huán)素的去除效果則需要大量的實驗投入才能獲得較為準(zhǔn)確的性能概覽。因此,如何能高效快速地預(yù)測碳基吸附劑對水中四環(huán)素的吸附效果對于節(jié)省冗長枯燥的實驗工作量有著至關(guān)重要的意義。
機器學(xué)習(xí)在以數(shù)據(jù)為基礎(chǔ)的問題領(lǐng)域有著廣泛的應(yīng)用前景。并且機器學(xué)習(xí)目前在環(huán)境領(lǐng)域中的應(yīng)用也有所開展。但以機器學(xué)習(xí)來預(yù)測吸附劑對水中污染物的去除目前仍處在初級階段。因此,以機器學(xué)習(xí)來預(yù)測水中四環(huán)素在碳基吸附劑上的吸附可以有助于更好地理解影響吸附的關(guān)鍵變量,并為設(shè)計高效吸附劑提供合理指導(dǎo)或者思路。
研究中以現(xiàn)有文獻(xiàn)數(shù)據(jù)為基礎(chǔ),通過整理現(xiàn)有數(shù)據(jù)作為機器學(xué)習(xí)的數(shù)據(jù)集進(jìn)行模型訓(xùn)練。并對訓(xùn)練結(jié)果以及模型的可解釋性進(jìn)行了分析,討論了決定四環(huán)素在碳基材料上的吸附效果的影響因素。
1 數(shù)據(jù)與方法
1.1 數(shù)據(jù)收集
研究所需文獻(xiàn)來自Web of Science數(shù)據(jù)庫,共計獲得有效數(shù)據(jù)686條。數(shù)據(jù)集以四環(huán)素的吸附量(mmol/g)為因變量,并以10個物理化學(xué)特征和環(huán)境因素為自變量。其中物理特征包括比表面積(Surface area,m2/g)、孔容積(Volume,cm3/g)和孔徑(Pore diameter,nm)?;瘜W(xué)特征包括零電荷點(pHpzc)、C的質(zhì)量百分比(C,wt%)和0的質(zhì)量百分比(0,wt%)。環(huán)境因素包括投加量(Dosage,g/L)、初始濃度(C0,mmol/L)、溶液pH(pH)和溶液溫度(T,K)。
1.2 數(shù)據(jù)預(yù)處理與模型選擇
由于不同自變量之問的差異較大,如比表面積的范圍為1-2000m2/g,而孔容積的范圍為0.001-2cm3/g,為減小不同量綱對預(yù)測帶來的影響以及節(jié)省算力,對原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,即使得原始數(shù)據(jù)符合均值為0方差為1的分布,如式(1)所示:
xnew=(x-μ)/σ 式(1)
式(1)中,xnew和x分別為標(biāo)準(zhǔn)化后的數(shù)據(jù)和原始數(shù)據(jù)。μ為數(shù)據(jù)樣本的均值,σ為數(shù)據(jù)樣本的標(biāo)準(zhǔn)差。
對于標(biāo)準(zhǔn)化后的數(shù)據(jù)首先進(jìn)行特征間的兩兩相瓦皮爾遜相關(guān)性分析(見式2),當(dāng)皮爾遜相關(guān)系數(shù)的絕對值趨近于1時,表明兩個特征之間的線性相關(guān)越強。研究中,若絕對值大于0.95,則這兩個特征高度線性相關(guān),應(yīng)予以額外處理,包括數(shù)據(jù)降維或者刪除一個特征。
式(2)中,rxy是皮爾遜相關(guān)系數(shù),Cov(X,Y)為兩個特征之間的協(xié)方差矩陣,Var(X)和Var(Y)是X和Y的方差。
對于數(shù)據(jù)集進(jìn)一步劃分為訓(xùn)練集和測試集,其中樣本數(shù)量占比為4:1。訓(xùn)練集用于模型訓(xùn)練,測試集則用于驗證模型泛化能力。研究中,共選擇了K近鄰算法(KNN)、支持向量機(SVM)和梯度提升樹(CBDT)三種算法來預(yù)測。對于算法中的超參的選擇則利用網(wǎng)格搜索模式尋找最佳超參。
1.3 模型可解釋性
利用Shapley方法可求得每個具體特征在所有特征組合的集合中的邊際貢獻(xiàn)的加權(quán)平均值,作為該特征對于整體模型的貢獻(xiàn)程度的解讀,該方法有效地避免了分配的平均主義。Shapley值的計算如式(3)所示:
其中,g(Z')是解釋模型,f(x)是原機器學(xué)習(xí)模型,Z'j={0,1}M表示相應(yīng)特征是否被觀察到,M是輸入特征的數(shù)目,φj是每個特征的歸因值,φ0是解釋模型的常數(shù)。
此外,利用個體條件期望圖(Individual Condi-tional Expectation Plot,ICE)對每一個個體是如何受到單一特征影響做出解釋。而ICE的平均值則為部分依賴圖(Partial Dependence Plot,PDP)可以從全局的角度解讀單一變量對輸出結(jié)果的影響。
1.4 模型運行與評價
研究中所有數(shù)據(jù)預(yù)處理和模型構(gòu)建均在Py-thon3.10上運行,并調(diào)用Scikit-Leam、Numpy、Pan-das、Shap、Matplotlib和Seahom包對數(shù)據(jù)進(jìn)行運算以及圖像呈現(xiàn)。決定系數(shù)(R2)和均方根誤差(RMSE)作為評價模型預(yù)測效果的指標(biāo)。R2越接近于1表明模型預(yù)測效果越好,RMSE的值越小表明模型預(yù)測效果越好。
其中,y'i是預(yù)測值,yi為對應(yīng)真值,yave為樣本平均值。ypredi是預(yù)測值,yreali為對應(yīng)真值,N為樣本數(shù)量。
2 結(jié)果與討論
2.1 數(shù)據(jù)分布
碳基材料的孔隙結(jié)構(gòu)較為符合正態(tài)分布,比表面積主要集中在100-500m2/g,孔容積主要集中在0.01-0.5cm3/g,而孔徑主要集中在5nm左右。環(huán)境變量中,初始濃度和pH較為符合正態(tài)分布,而溫度與投加量則出現(xiàn)不規(guī)則分布?;瘜W(xué)因素中,pHpzc類似兩個正態(tài)分布的疊加,中心值分別在3和7。這主要與碳基材料的制備方式有關(guān),目前的在制備碳基材料時為了使得表面多孔,通常會使用強酸強堿來對碳基材料進(jìn)行活化,因此pHpzc會由于活化藥品的不同表面呈現(xiàn)出偏酸性或偏堿性的特點,造成零電荷點在3和7這兩個值附近集中。C和O的分布則表現(xiàn)為不規(guī)則的數(shù)據(jù)分布,說明碳基材料表面官能團(tuán)的種類與占比變化大,表面化學(xué)性狀豐富。(見圖1)
皮爾遜相關(guān)系數(shù)矩陣熱圖(如圖2所示),所有特征之間均沒有表現(xiàn)出會影響結(jié)果的強相關(guān)性,即絕對數(shù)值均小于0.95。因此不需要對特征進(jìn)行刪減或者對特征進(jìn)行降維處理。僅比表面積和孔容積之間的相關(guān)系數(shù)較大,為0.86,但是仍在可控范圍之內(nèi)。由圖2(b)可知,孔容積與比表面積呈現(xiàn)出一定的n線性正相關(guān),即比表面積越大,孔容積越大。
2.2 模型預(yù)測效果和模型可解釋性
KNN、SVM和GBDT算法不論是在訓(xùn)練集還是在測試集對于四環(huán)素的吸附量均能達(dá)到很好的預(yù)測效果(如表1所示),說明模型的準(zhǔn)確度與泛化性都能夠得到有效的保證。KNN模型是一種精準(zhǔn)度高,對異常值不敏感的算法,非常適用于數(shù)值型和標(biāo)稱型的回歸。SVM則擅長于解決高維特征的分類問題和回歸問題,在特征維度大于樣本數(shù)時依然有很好的效果。GBDT算法則是一種強力的集成算法,雖然以弱學(xué)習(xí)器為基礎(chǔ)學(xué)習(xí)器,但是通過梯度提升對每次迭代的殘差進(jìn)行消除,使得最終的學(xué)習(xí)器成為強學(xué)習(xí)器。再結(jié)合決策樹的優(yōu)勢,使得GBDT能夠在多數(shù)分類和同歸預(yù)測中表現(xiàn)出極佳的準(zhǔn)確度。可知GBDT模型的預(yù)測精度為最高,因此后續(xù)分析所用的模型以GBDT模型為基準(zhǔn)。如圖3所示直觀地展現(xiàn)了實際值與測試值之間的關(guān)系,從中可以看出二者高度線性相關(guān)。此外,訓(xùn)練集與測試集的分布也表現(xiàn)出相似的分布特點,因此,數(shù)據(jù)集劃分合理,模型驗證效果有效。
通過對比模型中各個特征Shapley值對預(yù)測結(jié)果的貢獻(xiàn)程度可以發(fā)現(xiàn),比表面積是最主要的特征,且呈現(xiàn)出明顯的正貢獻(xiàn),即比表面積越大,四環(huán)素的吸附量也會越高??兹莘e是另一個重要的特征,總體而言也是較為明顯的正貢獻(xiàn),但是有部分樣品表現(xiàn)出負(fù)貢獻(xiàn)。初始濃度的重要性排在第三位,也表現(xiàn)出正貢獻(xiàn)。pH的貢獻(xiàn)度位于第四位,但是其對吸附量的貢獻(xiàn)表現(xiàn)出負(fù)貢獻(xiàn),即pH越大,吸附量越小。溫度則位于第五位,也是正貢獻(xiàn)為主。其余因素對于四環(huán)素的吸附貢獻(xiàn)相對較小。與部分研究結(jié)果有所不同的是,Shapley的結(jié)果表明碳基材料的化學(xué)特征對于四環(huán)素的吸附貢獻(xiàn)程度非常有限,如圖4所示,pHpzc為第7位,C含量為第9位,0含量為第10位。這說明四環(huán)素在碳基材料上的吸附并非是一個化學(xué)作用力主導(dǎo)的過程。同時也解釋了大多數(shù)碳基材料對四環(huán)素的吸附都會包含大量的物理吸附的特性。
ICE和PDP圖可以看出四環(huán)素吸附量對于大部分的因素依賴并未展現(xiàn)出單一的依賴性,說明四環(huán)素的吸附是多個特征綜合作用的過程。這其中,比表面積在小于100m2/g時,對四環(huán)素的吸附量促進(jìn)作用較大,但超過100m2/g時,吸附量提高的邊際效益大幅減弱。因此在設(shè)計碳基吸附劑時,比表面積設(shè)置在100m2/g時即可,無需過多追求更大的比表面積。此外,四環(huán)素吸附量對初始濃度的變化表現(xiàn)出高度依賴,尤其是在初始濃度未0.5-0.75mmol/L之間時,依賴程度極其明顯。
整體而言,碳基吸附劑的物理特性以及環(huán)境變量對四環(huán)素的吸附具有更大的影響,而化學(xué)因素對于四環(huán)素的吸附的影響則較弱,這也是為什么絕大多數(shù)報導(dǎo)的碳基吸附劑對于四環(huán)素的吸附偏向于物理吸附為主的原因。而所有特征中比表面積和孔容積為最重要的貢獻(xiàn)特征,這說明孔隙填充是碳基材料吸附四環(huán)素的主要機制。為了探究化學(xué)因素是否對預(yù)測起到的作用較小,對于輸入的10個特征剔除pHpzc、C含量和O含量,并再次進(jìn)行模型訓(xùn)練。由表1可知在沒有任何化學(xué)特征輸入的情況下,雖然KNN、SVM和GBDT模型對四環(huán)素吸附的預(yù)測精確度有所下降,但是下降十分有限。因此僅碳基材料的物理特性和環(huán)境因素的輸入就可以十分精確的預(yù)測四環(huán)素的吸附量。同時也再次證明四環(huán)素在碳基材料上的吸附是一個純粹的物理吸附行為,碳基材料表面化學(xué)官能團(tuán)以及等電點的分布對于四環(huán)素的吸附極其有限。此外,無需化學(xué)特征的采集即可獲得非常精確的預(yù)測效果對于縮減數(shù)據(jù)采集時間具有重要意義,這一點在需要緊急預(yù)測的狀況下極為重要。(見圖5)
3 結(jié)論
研究通過對現(xiàn)有數(shù)據(jù)進(jìn)行采集與整理,建立了碳基材料對水中四環(huán)素的吸附量的精準(zhǔn)預(yù)測。在KNN、SVM、GBDT算法中,GBDT算法無論是在訓(xùn)練集還是在測試集都表現(xiàn)極佳,R2都大于0.98,RMSE都小于0.1。通過對Shapley值分析發(fā)現(xiàn),特征重要性按照如下順序排列:比表面積>孔容積>初始濃度>pH>溫度>投加量>pHpzc>C含量>孔徑>0含量。且pH和pHpzc對四環(huán)素吸附量表現(xiàn)出負(fù)貢獻(xiàn),其余特征表現(xiàn)為正貢獻(xiàn)。整體而言,四環(huán)素在碳基吸附劑上的吸附主要受到物理特性和環(huán)境因素的影響較大,是一個物理吸附占據(jù)主導(dǎo)地位的過程。在緊急狀況下,僅輸入碳基材料的物理特征和環(huán)境因素即可實現(xiàn)精確的四環(huán)素吸附的預(yù)測,無需化學(xué)特征的輸入,有效縮短了數(shù)據(jù)采集時間。
基金項目:國家重點研發(fā)項目(No.202IYFC3200805):甘肅省科技計劃項目自然科學(xué)資助(20JR10RA441);甘肅省科技廳軟科學(xué)專項(20CX9ZA026)