陳璐 谷曉紅 王文博 張丙春 范麗霞 趙平娟
摘要:為探索利用近紅外光譜分析技術(shù)識(shí)別陜西和沾化兩地冬棗的可行性,本研究應(yīng)用便攜式近紅外光譜儀并結(jié)合簇類獨(dú)立軟模式分類(SIMCA)和偏最小二乘判別分析(PLS-DA)兩種建模方法識(shí)別冬棗的產(chǎn)地,同時(shí)研究了不同近紅外光譜預(yù)處理方式對(duì)模型預(yù)測(cè)識(shí)別率的影響。結(jié)果表明,采用原始近紅外光譜結(jié)合SIMCA和PLS-DA方法識(shí)別沾化冬棗和陜西冬棗是可行的,其中PLS-DA方法的準(zhǔn)確度更高,對(duì)冬棗驗(yàn)證集樣品識(shí)別率為100%。
關(guān)鍵詞:近紅外光譜;冬棗;產(chǎn)地識(shí)別;偏最小二乘判別分析(PLS-DA);簇類獨(dú)立軟模式分類(SIMCA)
中圖分類號(hào):S665.101.9 文獻(xiàn)標(biāo)識(shí)號(hào):A 文章編號(hào):1001—4942(2016)03—0133—04
冬棗是一種優(yōu)質(zhì)的晚熟、鮮食棗類種質(zhì)資源,也是公認(rèn)的品質(zhì)最好的鮮食棗品種。山東省沾化縣是我國(guó)晚熟鮮食棗“沾化冬棗”的主產(chǎn)地,被譽(yù)為“中國(guó)冬棗之鄉(xiāng)”。在2001年“中國(guó)百姓最喜愛(ài)的水果”評(píng)選中,沾化冬棗被評(píng)為“中國(guó)果王”。2009年統(tǒng)計(jì),沾化縣冬棗栽培面積已達(dá)3.3×104hm2,占全國(guó)冬棗栽培面積的25%。沾化冬棗果皮赭紅色,光亮,皮薄,肉脆,肉質(zhì)甘甜,富含豐富的維生素和鈣、鉀、鐵、鋅、銅等多種礦質(zhì)元素,具有一定的保健功效?!罢椿瑮棥币虼顺蔀槠焚|(zhì)的象征,具有很大的品牌優(yōu)勢(shì)。在山東市場(chǎng)上,由于沾化冬棗的價(jià)格高于陜西冬棗,存在著用陜西冬棗冒充沾化冬棗銷售的情況,所以識(shí)別冬棗產(chǎn)地對(duì)于保護(hù)沾化冬棗這一地理標(biāo)志產(chǎn)品有重要意義。
近紅外光譜主要是分子因振動(dòng)的非諧振性從基態(tài)向高能級(jí)躍遷過(guò)程中產(chǎn)生的,記錄的主要是含氫基團(tuán)振動(dòng)的倍頻和合頻吸收,涵蓋了大多數(shù)類型有機(jī)化合物的組成和分子結(jié)構(gòu)信息,用其對(duì)樣品進(jìn)行分析,不需前處理,可以直接測(cè)定,是一種快速、高效、無(wú)損的現(xiàn)代分析技術(shù)。不同產(chǎn)地來(lái)源的農(nóng)產(chǎn)品,因生長(zhǎng)環(huán)境、氣候、土壤、水質(zhì)等的不同,導(dǎo)致其體內(nèi)蛋白質(zhì)、脂肪、糖分、水分等主要成分的組成和含量存在較大差異,而且這種差異可以在近紅外光譜上反映出來(lái),目前近紅外光譜分析技術(shù)已廣泛應(yīng)用于酒類、谷物、肉類及臍橙、蘋果等產(chǎn)品的產(chǎn)地溯源。但目前通用的近紅外光譜儀一般體積較大,價(jià)格昂貴,不便移動(dòng),無(wú)法進(jìn)行現(xiàn)場(chǎng)檢測(cè)。
近年發(fā)展起來(lái)的便攜式近紅外光譜儀使得測(cè)量過(guò)程可以現(xiàn)場(chǎng)完成,且數(shù)據(jù)經(jīng)化學(xué)計(jì)量學(xué)方法處理后,可以即時(shí)得到分析結(jié)果,有極大的實(shí)用性。本研究即采用便攜式分光近紅外光譜儀,結(jié)合簇類獨(dú)立軟模式法(SIMCA)和偏最小二乘判別分析(PLS-DA)兩種近紅外光譜定性分析方法,對(duì)采集的冬棗樣本進(jìn)行產(chǎn)地判別,以探究利用該方法現(xiàn)場(chǎng)進(jìn)行冬棗產(chǎn)地溯源的可行性。
1材料與方法
1.1試驗(yàn)材料
沾化冬棗于沾化縣6個(gè)村現(xiàn)場(chǎng)采集,共690個(gè)樣本,具體取樣信息見(jiàn)表1。陜西冬棗購(gòu)買自陜西省渭南縣,共598個(gè)樣本。
1.2試驗(yàn)儀器及光譜采集
使用MicroNIRl700近紅外光譜儀(美國(guó)JD-SU公司),數(shù)據(jù)分析軟件使用Unscrambler9.7(美國(guó)CAMO公司)及MATLAB 2010a(美國(guó)Math-Works公司)。
在對(duì)冬棗樣品進(jìn)行光譜采集時(shí),應(yīng)盡量確保實(shí)驗(yàn)條件一致。光譜采集的波長(zhǎng)范圍為950~1650 nm,每次光譜采集重復(fù)掃描次數(shù)為50次,單次積分時(shí)間為8000μs。每次光譜掃描后,轉(zhuǎn)動(dòng)冬棗樣品,重新采集一次,采集應(yīng)包括樣本綠色和紅色的面,每個(gè)樣本共采集5次,求平均得到的光譜作為該樣品的代表光譜。圖1為沾化冬棗和陜西冬棗的原始光譜圖,可見(jiàn),兩者在原始光譜上差異不明顯。
1.3光譜預(yù)處理及建模方法
近紅外原始光譜不但包含許多與結(jié)構(gòu)相關(guān)的信息,還包含許多干擾因素如基線漂移、光散射等,這些因素將影響模型建立的效果。光譜預(yù)處理就是采用數(shù)學(xué)方法減弱或消除干擾因素對(duì)光譜的影響,提取有用信息,以提高模型分析的準(zhǔn)確性和可靠性。預(yù)處理首先要剔除異常樣本,即在采集大量冬棗樣品的近紅外光譜時(shí),由于儀器本身誤差、操作失誤或其它環(huán)境因素導(dǎo)致的某個(gè)樣本的圖譜與其它樣本的圖譜趨勢(shì)明顯不一致,就需要將其作為異常樣本剔除。
SIMCA (Soft independent modeling of class a-nalogy)是一種以主成分分析為基礎(chǔ)的定性分析方法,主要分為兩步:①對(duì)校正集樣本的光譜數(shù)據(jù)進(jìn)行PCA分析,為陜西和沾化冬棗兩個(gè)類別分別建立一個(gè)PCA模型;②計(jì)算未知樣本(驗(yàn)證集)到兩個(gè)PCA模型的距離,找出最小距離的類。SIMCA判別結(jié)果有三種,分別是未知樣本只屬于沾化冬棗或只屬于陜西冬棗單一類別,未知樣本同時(shí)屬于兩個(gè)類別,以及未知樣本不屬于陜西和沾化冬棗任何一類。當(dāng)未知樣本同屬于多個(gè)類時(shí),說(shuō)明判別分析模型不夠精確,需要改進(jìn),一般可以通過(guò)增加校正集樣本數(shù)或增加變量數(shù)來(lái)解決。當(dāng)未知樣本同時(shí)屬于兩個(gè)類別時(shí),一種原因可能是該樣本到兩類模型的距離相近,無(wú)法鑒別,此時(shí)可以通過(guò)預(yù)處理方法和特征波長(zhǎng)選擇重新建模進(jìn)行預(yù)測(cè);另一種原因是兩個(gè)模型間距離本身就比較小,也容易出現(xiàn)這種現(xiàn)象,這是SIM-CA方法的不足之處。
PLS-DA(Partial least squares-discriminant analysis)是基于PLS方法建立的樣本分類變量與NIR光譜特征問(wèn)的回歸模型。PLS—DA判別方法如下:①定義校正集樣本的分類變量Y;②建立分類變量與光譜數(shù)據(jù)問(wèn)的PLS回歸模型;③根據(jù)建立的PLS模型計(jì)算驗(yàn)證集樣本(未知樣本)的分類變量值Yp,當(dāng)Yp與Y的偏差<0.5時(shí),判定未知樣本屬于該類。
2結(jié)果與分析
2.1沾化冬棗和陜西冬棗近紅外光譜數(shù)據(jù)的主成分分析
對(duì)冬棗樣品近紅外光譜數(shù)據(jù)進(jìn)行主成分分析,利用第1、2主成分得分作散點(diǎn)圖(圖2),可以直觀地看出,沾化冬棗和陜西冬棗樣品的第1、2主成分得分明顯分為2個(gè)部分,有明顯的聚類趨勢(shì)。初步說(shuō)明利用近紅外光譜技術(shù)識(shí)別沾化冬棗和陜西冬棗是可行的。
2.2 SIMCA判別模型的建立與驗(yàn)證
建立模型前,需對(duì)原始光譜進(jìn)行預(yù)處理。光譜預(yù)處理方法很多,多元散射校正(MSC)、標(biāo)準(zhǔn)歸一化(SNV)、一階導(dǎo)數(shù)和二階導(dǎo)數(shù)是常見(jiàn)的4種預(yù)處理方法。本研究分別采用幾種不同預(yù)處理方法處理后的光譜建立SIMCA模型,對(duì)驗(yàn)證集樣本的識(shí)別率和拒絕率見(jiàn)表2。通過(guò)對(duì)比發(fā)現(xiàn),多元散射校正(MSC)+二階導(dǎo)數(shù)預(yù)處理方法對(duì)驗(yàn)證集樣品的識(shí)別率最高,對(duì)陜西冬棗和沾化冬棗的識(shí)別率分別達(dá)到了97.0%和96.6%;而對(duì)于兩地冬棗的拒絕率均為100%。可見(jiàn),采用MSC+二階導(dǎo)數(shù)預(yù)處理方法建立的SIMCA模型預(yù)測(cè)效果最好。
2.3 PLS-DA判別模型的建立與驗(yàn)證
按照PLS-DA判別方法的流程,首先對(duì)沾化和陜西冬棗校正集樣本的分類變量進(jìn)行賦值,陜西冬棗賦值1,沾化冬棗賦值2;比較多種光譜預(yù)處理方法,根據(jù)最優(yōu)校正模型的主要性能參數(shù)篩選出最佳處理組合。表3為不同光譜預(yù)處理方法對(duì)陜西冬棗和沾化冬棗驗(yàn)證集的驗(yàn)證結(jié)果,可見(jiàn),SNV+一階導(dǎo)數(shù)的擬合效果最好,MSC+一階導(dǎo)數(shù)的擬合效果與之相近,得到的陜西冬棗和沾化冬棗模型的預(yù)測(cè)值和實(shí)測(cè)值的相關(guān)系數(shù)都在0.98以上,均方根誤差也較小。圖3為驗(yàn)證集樣本中,使用SNV+一階導(dǎo)數(shù)預(yù)處理方法建立的PLS-DA模型對(duì)陜西冬棗和沾化冬棗的預(yù)測(cè)結(jié)果,可見(jiàn),驗(yàn)證集中所有陜西冬棗的分類變量的預(yù)測(cè)值都接近于1.0,偏差較小,在0.1左右;沾化冬棗分類變量的預(yù)測(cè)值基本在2.0左右,偏差均小于0.5;且對(duì)驗(yàn)證集冬棗樣本的識(shí)別率均為100%。因此,近紅外光譜分析技術(shù)結(jié)合PLS-DA能夠準(zhǔn)確識(shí)別沾化冬棗和陜西冬棗。
3結(jié)論
本研究應(yīng)用便攜式近紅外光譜儀結(jié)合SIM-CA和PLS-DA兩種建模方法分別對(duì)陜西冬棗和沾化冬棗建立判別模型,并討論了幾種不同光譜預(yù)處理方法對(duì)兩種建模方法識(shí)別率的影響,結(jié)果表明,兩種方法都可以有效地判別兩種冬棗的產(chǎn)地,其中PLS-DA方法優(yōu)于SIMCA方法,對(duì)驗(yàn)證集中冬棗樣本的識(shí)別率達(dá)到了100%。
本研究所用的便攜式近紅外光譜儀采集的光譜只有125個(gè)變量,但通過(guò)與兩種建模方法的結(jié)合,能夠準(zhǔn)確識(shí)別出兩種冬棗的產(chǎn)地,而且易于現(xiàn)場(chǎng)檢測(cè),因此具有很大的推廣應(yīng)用價(jià)值。