李鋒霞,黃 勇,李 強
(新疆工程學(xué)院機電工程學(xué)院 烏魯木齊 830023)
新疆是瓜果之鄉(xiāng),哈密瓜因其獨特的風(fēng)味和口感,在市場上備受消費者喜愛,幫助農(nóng)民實現(xiàn)了增收。但目前市場上對其品質(zhì)的檢測方法多為有損檢測,且檢測效率低下,造成品質(zhì)等級良莠不齊。因此,哈密瓜的品質(zhì)無損檢測尤為重要。近年來,隨著分子光譜結(jié)合化學(xué)計量學(xué)方法分析技術(shù)的飛速發(fā)展,光譜技術(shù)以非侵入式、無破壞性、速度快、可在線、結(jié)果可再現(xiàn)和重復(fù)等優(yōu)點,被研究者用來對水果品質(zhì)進行無損檢測技術(shù)研究[1-3]。但是,有的光譜數(shù)據(jù)在檢測過程中存在測量值和真實值差異顯著,在整體分布態(tài)勢中異常突出,嚴重影響了建模精度[4]。造成光譜數(shù)據(jù)異常的原因有很多,如在采集的過程中光譜受到環(huán)境的干擾,采集到的光譜還包含噪聲、樣品背景和散光等其他無關(guān)的信息[5]。光譜儀本身有誤差,還受誤操作、儀器異常、樣品前處理不當、環(huán)境溫度和濕度等的影響[6]。因此,有必要在光譜建模過程中剔除上述異常樣本。目前,有學(xué)者提出了在農(nóng)產(chǎn)品品質(zhì)檢測中應(yīng)用光譜數(shù)據(jù)中異常樣本剔除方法[7-12],為建立準確的檢測模型提供了切實可行的方法。但是這些方法大多數(shù)是基于單一類型指標或者是單個異常樣本具有可靠的識別能力,而且受經(jīng)驗閾值或建模偏差的影響,容易在建模前的剔除過程中出現(xiàn)誤判,從而影響模型的穩(wěn)定性和預(yù)測能力。這會導(dǎo)致水果部分理化指標無損檢測和識別精度不高,嚴重阻礙了光譜技術(shù)在水果快速、無損檢測中的應(yīng)用。
筆者對高光譜檢測哈密瓜堅實度品質(zhì)中異常光譜樣本進行綜合分析與判別,有效地剔除異常樣本,以此建立準確和穩(wěn)定的哈密瓜堅實度預(yù)測模型,提高檢測結(jié)果精度,為哈密瓜品質(zhì)快速檢測、精準分級提供有效方法,為相關(guān)領(lǐng)域研究工作提供科學(xué)依據(jù)和技術(shù)參考。
光譜圖像采用北京卓立漢光提供的高光譜成像儀(Inspector V10E-QE,芬蘭)采集,通過參數(shù)調(diào)整優(yōu)化,最終選擇光譜成像儀的波長范圍:400~1000 nm,光譜分辨率:2.8 nm,平均光照度:2870 lx,物距:60 cm,曝光時間:28 ms,采集速度:1.27 mm·s-1。
哈密瓜堅實度指標采用杭州托普儀器有限公司生產(chǎn)的GY-4 型手持式硬度計測量,探頭直徑選取11 mm,插入速度為5 mm·s-1,壓頭壓入深度為10 mm。
2022 年8 月在新疆農(nóng)八師121 團場采摘哈密瓜。主要選取的品種為金密16 號,屬于中早熟雜交品種,果實成熟期在42~45 d。果實長卵形,果皮黃色,果肉淺橘黃色,網(wǎng)紋密。采摘時,選取成熟度一致、瓜形大小均勻的樣本,共60 個。采摘后,將樣本放置于相同的濕度和溫度條件下,24 h 之后進行光譜采集和堅實度測量。
試驗時去除機械損傷、病蟲害樣本,隨機選取42 個哈密瓜樣本,并對哈密瓜樣本的3 個檢測部位[赤道(陰、陽)面、果臍(坐果結(jié))]進行標記,具體位置如圖1 所示,分別記為編號1-1,1-2,1-3...,樣品編號橫線前面的數(shù)字為樣品號,橫線后的1、2、3為每個樣品對應(yīng)的檢測位置編號。然后,利用高光譜成像儀采集光譜,把哈密瓜放到高光譜實驗臺上,線陣的探測器在哈密瓜表面的垂直方向作橫向掃描,掃出整個平面,獲取各個波長處的圖像信息,通過Spectral-Cube 軟件進行光譜信息采集和保存,共采集126 個樣品光譜。光譜采集后,對哈密瓜堅實度進行測量,在赤道(陰、陽)面、果臍3 個光譜采集區(qū)域測定其堅實度,每個檢測點測量3 次,取平均值作為該樣品的堅實度值。表1 是哈密瓜3 個采集部位堅實度統(tǒng)計值。
表1 哈密瓜樣本3 個采集部位堅實度統(tǒng)計值
圖1 哈密瓜的檢測部位示意圖
為了建立穩(wěn)定和準確的哈密瓜堅實度預(yù)測模型,提高檢測結(jié)果精度,對采集的哈密瓜光譜樣本采用偏最小二乘法(PLS)建立定量分析模型,對建模過程中造成模型精度降低的異常樣本進行研究,結(jié)合異常光譜剔除、馬氏距離法、學(xué)生化殘差T 與杠桿值法以及主成分得分法等多種方法進行綜合分析和判別[13]。為了防止對異常樣本點的誤判,需要對疑似異常樣品進行逐一回收分析后再鑒定,并根據(jù)預(yù)測模型性能的變化,最終確定需要剔除的異常樣本。
采用ENVI 4.7 軟件針對采集后的高光譜圖像數(shù)據(jù)進行圖像數(shù)據(jù)降維、預(yù)處理。TQ Analyst 6.1 軟件對采集的試驗數(shù)據(jù)進行分析與建模定量、定性分析,選用偏最小二乘法(practical least squares,PLS)、主成分回歸(principal component regession,PCR)、距離匹配(distance match)、判別分析(discriminant analysis)等方法。在選定算法之后,根據(jù)軟件窗口顯示選擇相關(guān)的預(yù)處理方法進行建模以及診斷。為了評價模型的穩(wěn)健性和準確性,采用的評價指標有相關(guān)系數(shù)(R)或決定系數(shù)(R2)、預(yù)測均方根誤差(RMSEP)和校正均方根誤差(RMSEC)。通常,在一個模型中R值越大,RMSEC、RMSEP 值越小,模型越穩(wěn)定,結(jié)果越準確[14]。
偏最小二乘法(PLS)是一種多元線性分析方法,它可以實現(xiàn)數(shù)據(jù)結(jié)構(gòu)簡化、回歸建模以及分析多個變量之間的相關(guān)性。目前,PLS 在光譜數(shù)據(jù)建模分析中應(yīng)用最為廣泛[15-16],PLS 的建模步驟:先計算多個自變量光譜數(shù)據(jù)X及目標分析物性質(zhì)Y之間的最大方差,在對光譜參數(shù)和數(shù)據(jù)濃度矩陣解析的過程中,剖析光譜數(shù)據(jù)和目標分析物性質(zhì)之間的內(nèi)外部關(guān)系。
在本次分析異常樣本時,對采集的哈密瓜的126 個光譜樣本采用PLS 方法建立與堅實度的相關(guān)定量分析模型,126 個樣本都用作校正集,用相關(guān)系數(shù)R和RMSEC 作為模型性能的判別依據(jù)。結(jié)果如圖2 所示,模型相關(guān)系數(shù)為0.82、RMSEC 為3.14 N。從圖中可以看出個別樣本明顯偏離45°線,導(dǎo)致模型相關(guān)系數(shù)較低,不能很好地體現(xiàn)實際檢測的需求,因此需要對校正集樣本中混入的異常樣本進行剔除。
圖2 哈密瓜樣本校正集結(jié)果
采集的哈密瓜赤道陽面、陰面,果臍的126 個原始光譜樣本如圖3 所示。從圖3 可以看出,采集的光譜樣本的大致走向基本一致,僅有33-3 號樣本光譜偏離了光譜走向,故將該樣本暫定為異常光譜。
圖3 哈密瓜光譜圖像
馬氏距離(Mahalanobis distance)是一種有效計算兩個未知樣本集相似度的方法,通過這種方法可以衡量一個樣本對整個校正集的影響。這種方法首先需要計算出所有參與建模的樣本平均光譜值,再計算平均光譜與各個樣本光譜之間的距離,最后設(shè)置閾值,根據(jù)閾值來檢驗異常樣本的存在[17]。閾值的選擇可根據(jù)具體光譜數(shù)據(jù)來確定,一般情況下,閾值設(shè)定為各個樣本馬氏距離平均值的2 ~3倍,如果參與建模中的某個樣本的馬氏距離超過設(shè)定的閾值,則可判定該樣本的光譜屬于異常樣本,應(yīng)該將其從中剔除[18-19]。
對所有參與建模樣本中的光譜結(jié)果進行分析。光譜樣本數(shù)據(jù)導(dǎo)入TQ 軟件中,系統(tǒng)自動計算出樣本光譜的平均光譜與各個光譜間的馬氏距離,并將計算出來的馬氏距離值按照從低到高的順序依次排序,系統(tǒng)會自動顯示一條分界線區(qū)分正常樣本與異常樣本。設(shè)置平均光譜偏差在95%閾值置信區(qū)間,圖4 為采用馬氏距離法對126 個哈密瓜樣本進行檢驗的結(jié)果,依據(jù)判別原則可觀察出樣本19-1 超出了閾值范圍,故暫將19-1 號樣本定為疑似異常樣本。
圖4 馬氏距離法檢驗結(jié)果
杠桿值與學(xué)生化殘差T檢驗法是常用判定異常樣本的方法之一,杠桿值的大小可以判斷樣本對模型精度的影響程度,學(xué)生化殘差可以判定樣本杠桿值對應(yīng)的樣本濃度預(yù)測能力大小。
對采集的哈密瓜樣本采用杠桿值與學(xué)生化殘差T 檢驗方法進行檢測,如果一個樣本只是杠桿值比其他樣本高,并不能斷定該樣本異常,只有杠桿值與學(xué)生化殘差均比其他樣本高時,才可判定該樣本的光譜屬于異常樣本,應(yīng)予以剔除。通常,依據(jù)杠桿值和學(xué)生濃度殘差分布圖進行分析,處于被測組分濃度和性質(zhì)均值左右的樣本應(yīng)具有較小的杠桿值,處于被測組分濃度和性質(zhì)均值兩端(高低端)的樣本應(yīng)具有較大的杠桿值[20]。圖5 是哈密瓜樣本杠桿值與學(xué)生化殘差分布圖,根據(jù)分布圖可以發(fā)現(xiàn),光譜樣本中有3 個樣本的杠桿值比其他樣本的值大,分別是35-2、35-3 和37-3,但是學(xué)生濃度殘差杠桿值并沒有顯示明顯較大的樣本,因此,暫定這3個樣本為疑似異常樣本。
圖5 哈密瓜樣本杠桿值與學(xué)生化殘差結(jié)果分布
主成分得分法是一種用來解釋多變量的方差、協(xié)方差結(jié)構(gòu)的多元統(tǒng)計分析方法,是通過對原有的多項指標經(jīng)過線性組合成為少數(shù)幾項綜合指標。這些綜合指標即為主成分,通過計算綜合主成分函數(shù)得分,對檢測模型進行科學(xué)評價。
主成分得分法直觀地反映了各個樣本在數(shù)學(xué)模型空間中的聚集、離散程度。觀察樣本的分布散點情況,分布點越聚集,則說明這些樣本中所含有成分的組成和濃度越接近;反之,樣本分布點越離散,說明差異越大[21]。在主成分計算中,會存在多個主成分,通常,第一主成分最為重要,之后隨之增加的主成分在樣本空間中所占權(quán)重依次降低,最后增加的主成分多是反應(yīng)噪聲信息。通常情況下,在建立模型時前面的主成分比后面的主成分更具有樣本表明性,同類樣本的主成分分布相對集中,遠離集中區(qū)域的則認為是異常樣本。本試驗中哈密瓜樣本主成分分析中的第一、第二主成分的二維平面分布,如圖6 所示,從圖中可以看出主成分中的PC-1 的貢獻率為86%,PC-2 的貢獻率為13%,這兩個主成分的累計貢獻率高達99%,達到了定性分析的要求。樣本中19-1 號遠離集中區(qū)域,故將該樣本暫定為疑似異常樣本。
圖6 哈密瓜樣本主成分分析中第一、第二主成分的分布
從上述4 種方法的判別結(jié)果可知,異常光譜判定33-3 號樣本異常;馬氏距離法判別19-1 號樣本異常;杠桿值與學(xué)生化殘差判別35-2、35-3 和37-3號樣本異常;主成分得分法判別19-1 號樣本異常,共5 個疑似異常樣本。通過分析4 種方法的判別原理和性質(zhì)會發(fā)現(xiàn),由于各種方法之間還存在相互影響,致使參與建模的樣本中某個或某幾個樣本會被其中一種判別方法判定為異常樣本,某些樣本會被其中多種判別方法判定為異常樣本。因此,要充分考慮到建模樣本的數(shù)量,保證模型的準確性和穩(wěn)定性,應(yīng)該對疑似異常樣本進行再鑒定,避免單一方法判別發(fā)生誤判。故對上述4 種方法判定的疑似異常樣本需要進行逐一剔除、回收后再鑒定。
通過上述4 種異常樣本判定方法共發(fā)現(xiàn)有5 個疑似異常樣本,樣本編號分別是19-1、33-3、35-2、35-3和37-3。現(xiàn)對這5 個疑似異常樣本進行逐一剔除、回收分析再鑒定,結(jié)果對比分析如表2 所示。
表2 疑似異常樣品的再鑒定
由表2 可以看出,未剔除疑似5 個樣本與全部剔除相比,相關(guān)系數(shù)R由0.824 降低至0.800,模型性能并沒有隨著全部剔除5 個疑似樣本而提高,說明5 個樣本中存在誤判的可能性,因此,逐個剔除5個異常樣本與未剔除進行對比。從結(jié)果對比分析可得,5 個疑似異常樣本不做處理時原模型的相關(guān)系數(shù)(R)=0.824,校正均方根誤差(RMSEC)=3.14 N,預(yù)測均方根誤差(RMSEP)=4.15 N,剔除35-2 號樣品時模型的R=0.817,RMSEC=3.17 N,RMSEP=4.18 N。兩者相比較:R降低了0.007,RMSEC 增加了0.03 N,模型性能下降;再逐個剔除其余4 個異常樣本模型相關(guān)系數(shù)均有穩(wěn)定提高,故可以初步判定誤判的異常樣本為35-2 號。隨后將其回收,剔除其他4 個疑似異常樣本,從結(jié)果對比發(fā)現(xiàn)模型相關(guān)系數(shù)R提高至0.850,RMSEC 降低至2.72 N,RMSEP 降低至3.30 N,模型的穩(wěn)定性提高。綜上所述,可以判定5 個疑似異常樣本中35-2 號為誤判樣本,應(yīng)將其回收,其余19-1 號、33-3 號、35-3 號和37-3號4 個樣本作為確定的異常樣本剔除。
在高光譜對哈密瓜光譜采集過程中,主觀或客觀因素導(dǎo)致參與建模樣本中可能會出現(xiàn)異常數(shù)據(jù),使模型預(yù)測結(jié)果可靠性降低,因此有必要在高光譜建模過程中剔除異常樣本。目前關(guān)于異常樣本的識別和剔除的相關(guān)研究并不多。張靈帥等[6]利用主成分分析-馬氏距離聚類判別近紅外光譜中卷煙的真?zhèn)危涣趾\姷萚22]使用馬氏距離法識別荒漠樹種;吳兆娜等[23]利用馬氏距離、杠桿值-光譜殘差法與基于強影響度算法分別對煙堿中的異常樣本進行剔除;石魯珍等[24]利用馬氏距離與濃度殘差剔除近紅外檢測灰棗中的異常樣本。以上幾種方法對剔除異常樣本都具有一定的作用。但是,馬氏距離法對光譜數(shù)據(jù)進行計算而不需要樣本的化學(xué)值,剔除的可能是人為誤差造成光譜存在異常的樣本[25];濃度殘差和杠桿值計算單個樣本預(yù)測不確定性;主成分分析中,判定異常樣本的操作往往需借助經(jīng)驗。而且上述方法對復(fù)雜樣本或是樣本集中存在多個異常樣本時剔除不夠全面,甚至?xí)斐赡P偷氖д?,從而降低了模型的泛化能力及準確度。因此,在異常建模樣本判別中,應(yīng)結(jié)合光譜數(shù)據(jù)的規(guī)律特點,采用多種方法準確識別和剔除異常樣本。
基于此,筆者通過對采集的哈密瓜光譜樣本采用偏最小二乘法(PLS)建立模型,結(jié)合異常光譜剔除、馬氏距離法、杠桿值與學(xué)生化殘差T 檢驗法及主成分得分法等多種方法進行綜合分析判別,初步判定參與建模的樣本中有5 個疑似異常樣本,從異常樣本判別結(jié)果看,各方法對異常建模樣品的判別均有效果,單一方法未能可靠判別出全部異常樣本。因此需要對這5 個疑似異常樣本進行逐一的剔除與回收對比分析,觀察模型性能參數(shù)的變化,最終確定異常樣本并剔除。結(jié)果表明,綜合分析方法對高光譜PLS 模型中異常樣本具有較強的識別能力,提高了哈密瓜堅實度檢測模型的穩(wěn)定性和準確性。該方法不僅有助于哈密瓜的科學(xué)管理、精準采收和實現(xiàn)精準快速分級,也可提高哈密瓜的經(jīng)濟效益,為新疆哈密瓜產(chǎn)業(yè)發(fā)展提供了技術(shù)支撐。