劉暑明,董元,楊華文
(華北理工大學(xué) 礦業(yè)工程學(xué)院,河北 唐山 063210)
光譜數(shù)據(jù)的擬合分析可以反映光譜反射率與化合物質(zhì)量之間的線性關(guān)系,擬合得準(zhǔn)確與否會影響化合物的定性與定量的數(shù)據(jù)分析結(jié)果,在光譜數(shù)據(jù)的采集過程中,由于測量時間較長、加之外部環(huán)境的干擾等,會導(dǎo)致測量出來的光譜數(shù)據(jù)存在粗差。在不含粗差的情況下,一般使用最小二乘法回歸分析進行處理,擬合的效果較好;在含有粗差的情況下,一般使用穩(wěn)健估計法來削弱粗差對結(jié)果的影響,獲得最接近真實值的最佳估值。國內(nèi)學(xué)者在應(yīng)用穩(wěn)健估計處理光譜數(shù)據(jù)方面研究較少,董元等采用穩(wěn)健估計和最小二乘回歸分析的方法,分別對水泥的膠砂試塊光譜值進行抗差能力分析,結(jié)果表明,在含有噪聲時,穩(wěn)健估計的抗差效果較好[1],除此之外,穩(wěn)健估計在其它領(lǐng)域有廣泛應(yīng)用。曹蘭杰等在GNSS高程擬合的粗差探測中應(yīng)用了穩(wěn)健估計,通過與最小二乘法求解的精度進行比較,結(jié)果表明,穩(wěn)健估計在抗差方面有更大的能力[2]。趙曉囡等以3個具有不同觀測值數(shù)量和未知數(shù)數(shù)量的水準(zhǔn)網(wǎng)為例,通過仿真實驗比較了13種常用穩(wěn)健估計方法的穩(wěn)健性。結(jié)果表明,無論是具有獨立等權(quán)觀測值的水準(zhǔn)網(wǎng)還是具有獨立不等權(quán)觀測值的水準(zhǔn)網(wǎng),L1法、Danish法、German-McClure法和IGGIII方案比其他常用穩(wěn)健估計方法能更有效地消除或減弱粗差的影響[3]。從以上的研究中可以發(fā)現(xiàn),穩(wěn)健估計法有很好的抗差效果,應(yīng)用于硫酸鈣模型的建立效果更好。
硫酸鈣的光譜值存在粗差,為了研究硫酸鈣濃度和反射率的線性關(guān)系,提取3 g、6 g、9 g硫酸鈣在572.5 nm、1 487.9 nm、1 935 nm、2 100.6 m、2 337.7 nm 5個波段處去除包絡(luò)線的反射率,分別采用最小二乘回歸分析和穩(wěn)健估計進行比較分析,構(gòu)建相應(yīng)的線性回歸模型,以此對比存在粗差和剔除粗差時2種方法的擬合效果。
硫酸鈣特征曲線圖像如圖1所示,由圖1可以看出,硫酸鈣有6個明顯的吸收位置,分別為387.4 nm,572.5 nm,1 487.9 nm,1 935 nm,2 100.6 nm,2 337.7 nm。通過對6個吸收位置的相關(guān)性分析,能夠得出最能代表與硫酸鈣濃度變化相關(guān)的吸收位置。
圖1 硫酸鈣特征曲線
光譜數(shù)據(jù)是在6個吸收位置上硫酸鈣的光譜值及與之對應(yīng)的濃度值,結(jié)合吸收位置建立模型,該模型所用到回歸方程如下:
Y=β0+β1X1+β2X2+β3X3+β4X4+β5X5+β6X6
(1)
其中X1、X2、X3、X4、X5、X6為不同吸收位置對應(yīng)的光譜值,β0、β1、β2、β3、β4、β5、β6為回歸系數(shù),Y為濃度。
一般情況下使用最小二乘法進行回歸分析,對數(shù)據(jù)進行擬合,并且擬合結(jié)果較為精準(zhǔn),但當(dāng)測量的光譜數(shù)據(jù)存在噪聲時,擬合結(jié)果不再準(zhǔn)確,因此一般采用穩(wěn)健估計法進行擬合,擬合效果更精準(zhǔn)。本研究擬采用2種方法分別獲得結(jié)果,通過中誤差和殘差平方和來對比兩者的不同。
表1所示為最小二乘法和穩(wěn)健估計法原理。
表1 原理對比
最小二乘法是假設(shè)觀測值中只含有偶然誤差,不含粗差,正因如此,從以上最小二乘法和穩(wěn)健估計法的原理對比中可以看出,兩者的最大區(qū)別在于權(quán)的選取,最小二乘法中每個自變量的權(quán)是相等的,即等權(quán);穩(wěn)健估計也叫抗差估計,正是針對最小二乘法的缺陷提出的,穩(wěn)健估計對“權(quán)重”進行了改進,對于粗差,穩(wěn)健估計分配較小的權(quán),且逐次縮小權(quán),最終使粗差的權(quán)重達到最低,減弱對結(jié)果的影響。穩(wěn)健估計不追求絕對意義上的最優(yōu),而是在抗粗差前提下的最優(yōu)或接近最優(yōu)。
2種方法流程圖如圖2所示:
圖2 流程圖
本研究采用了最小二乘法和穩(wěn)健估計法分別對光譜數(shù)據(jù)進行處理,對比2種方法求解的中誤差、殘差平方和,得出穩(wěn)健估計在抗差方面的優(yōu)點。
該項研究使用的光譜儀為SR2500,實驗原料來源于天津市福晨化學(xué)試劑廠生產(chǎn)的分析純硫酸鈣。實驗時,操作人員處于暗室以減弱其他光源的影響;測量槍應(yīng)與被測物體所在水平面的法線的夾角保持在±10°左右,將硫酸鈣粉末放置于黑色的小盒子中,將粉末均勻鋪平于盒子底部。分析純硫酸鈣的主要性狀如表2所示。
表2 分析純硫酸鈣的主要性狀
經(jīng)過測量,采集到不同波長下的光譜值,使用ENVI進行包絡(luò)線去除,得到不同濃度光譜反射率圖像,如圖3所示。
圖3 3 g、6 g、9 g硫酸鈣包絡(luò)線去除后的光譜反射率圖像
從以上的圖像可以看出,3 g、6 g、9 g濃度的硫酸鈣分別有6個明顯的吸收位置,這是硫酸鈣曲線的特征。在保證數(shù)據(jù)結(jié)果更為精確以及保證數(shù)據(jù)量足夠大的情況下,同時也為了方便后期的數(shù)據(jù)分析,故選取5個波谷位置的反射率數(shù)據(jù)。本研究選取的5個吸收位置分別為:572.5 nm、1 487.9 nm、1 935 nm、2 100.6 nm、2 337.7 nm。
處理后的數(shù)據(jù)存在明顯的數(shù)據(jù)量較小,無法得出顯著結(jié)果的問題,因此將處理后的光譜數(shù)據(jù)進行次樣條插值,擴充數(shù)據(jù)量,插值后的數(shù)據(jù)如表2所示。對插值后的結(jié)果進行相關(guān)性分析,選取與硫酸鈣濃度Y相關(guān)性最大的自變量X,分別進行最小二乘回歸分析和穩(wěn)健估計分析,以此來對結(jié)果進行對比分析。
表2 原始數(shù)據(jù)
表3 相關(guān)性分析結(jié)果
在相關(guān)性分析的結(jié)果中,相關(guān)系數(shù)r的絕對值越接近1表示兩者的相關(guān)性越高,p的值越小表示變量間相關(guān)性的顯著性越高。從硫酸鈣濃度和光譜反射率的相關(guān)性分析中可以得出,自變量X1的相關(guān)系數(shù)為r1=0.94,顯著性p1=,因此在波長572.5 nm處的反射率X1和硫酸鈣的濃度Y相關(guān)性最高,故選取X1與Y進行分析。
從原始數(shù)據(jù)可以看出,數(shù)據(jù)相差不大,為了使穩(wěn)健估計的效果更加突出,故人為在變量X1中第6個至第8個數(shù)據(jù)里加入7倍中誤差,使之成為較大的粗差,加入粗差后數(shù)據(jù)的結(jié)果為X1=[0.835 5, 0.838 0, 0.840 1, 0.841 9, 0.843 4, 0.845 4, 0.846 3, 0.846 8, 0.846 1, 0.846 0]。
圖4所示為原始數(shù)據(jù)殘差圖。
圖4 原始數(shù)據(jù)殘差圖
從圖4原始數(shù)據(jù)殘差圖可以看出,原始數(shù)據(jù)中的第10組數(shù)據(jù)出現(xiàn)明顯的粗差,需要將其剔除。最小二乘法回歸分析得到的系數(shù)為a1=0.889 08,b1=-0.097 43,所以得到的一元線性回歸方程為:
Y1=0.890 13X-0.083 356
(2)
同理可得到穩(wěn)健估計方程的系數(shù)a2=0.872 96,b2=-0.092 622,所以得到的一元線性方程為:
Y2=0.839 63X-0.070 348
(3)
式子中的Y1、Y2僅是為了區(qū)分不同的方程結(jié)果。表4表示存在殘差時中誤差和殘差平方和的對比。
表4 存在殘差時中誤差和殘差平方和
從表4的結(jié)果可以看出,2個方程的差異明顯,在存在粗差時2種方法的中誤差分別為s1=0.016 924,s2=0.011 167。通過中誤差的對比可明顯看出,利用穩(wěn)健估計求得的中誤差遠小于利用最小二乘法,表明穩(wěn)健估計法效果更好;另外,從殘差平方和也能明顯看出,穩(wěn)健估計法的殘差平方和小于最小二乘法得到的殘差平方和;因此,結(jié)合中誤差和殘差平方和的對比可知,穩(wěn)健估計的效果更佳。
圖5 數(shù)據(jù)結(jié)果圖
從圖5所示的2種方法的方程擬合圖可以看出,原始數(shù)據(jù)散點分布較為均勻,第9個和第10個點的值偏離方程直線較遠,認定為粗差,對擬合的直線有一定影響。從圖5可以看出,最小二乘法的擬合直線受粗差的影響較大,并且直線向粗差方向偏移,而穩(wěn)健估計法擬合的直線相對來說,受粗差影響較小,更加接近真實值。
(1)在含有光譜數(shù)據(jù)噪聲的情況下,穩(wěn)健估計法計算的中誤差和殘差平方和小于最小二乘法,并且擬合的直線相對穩(wěn)定,更接近真實值。
(2)穩(wěn)健估計法能有效削弱粗差對光譜數(shù)據(jù)的影響,起到抗差的作用,并以此可以反演出硫酸鈣的濃度。