李偉偉 孔維楠 羅雪寧 代希君 羅華平,2,3*
(1 塔里木大學(xué)機(jī)械電氣化工程學(xué)院, 新疆 阿拉爾 843300)(2 新疆維吾爾自治區(qū)普通高等學(xué)校現(xiàn)代農(nóng)業(yè)工程重點(diǎn)實(shí)驗(yàn)室, 新疆 阿拉爾 843300)(3 南疆農(nóng)業(yè)農(nóng)機(jī)化研究中心, 新疆 阿拉爾 843300)
?
通過(guò)距離匹配法對(duì)224團(tuán)駿棗與10團(tuán)駿棗聚類分析的研究
李偉偉1孔維楠1羅雪寧1代希君1羅華平1,2,3*
(1 塔里木大學(xué)機(jī)械電氣化工程學(xué)院, 新疆 阿拉爾 843300)(2 新疆維吾爾自治區(qū)普通高等學(xué)校現(xiàn)代農(nóng)業(yè)工程重點(diǎn)實(shí)驗(yàn)室, 新疆 阿拉爾 843300)(3 南疆農(nóng)業(yè)農(nóng)機(jī)化研究中心, 新疆 阿拉爾 843300)
和田224團(tuán)駿棗與阿克蘇10團(tuán)駿棗在價(jià)格上有明顯的差別,快速準(zhǔn)確的識(shí)別二者有很大的實(shí)際意義。應(yīng)用距離匹配法對(duì)和田224團(tuán)駿棗與阿克蘇10團(tuán)駿棗進(jìn)行聚類分析,預(yù)處理方法采用歸一化,基線校正和Savitzky-Golay卷積求導(dǎo)法(13點(diǎn)平滑,3點(diǎn)差分寬度),并利用馬氏距離剔除異常樣本。研究結(jié)果表明:和田224團(tuán)駿棗與阿克蘇10團(tuán)駿棗在水分含量、總糖含量和總酸含量上有明顯區(qū)別。預(yù)測(cè)效果最好的是總酸波段的聚類分析模型,其次是水分波段的聚類分析模型,最后是總糖波段的聚類分析模型。在分類效果上,聚類分析模型更適用阿克蘇10團(tuán)駿棗,所以阿克蘇10團(tuán)駿棗比和田224團(tuán)駿棗效果好。結(jié)論:利用距離匹配法對(duì)和田駿棗與阿克蘇駿棗進(jìn)行產(chǎn)地的鑒別是可行的,該法對(duì)考察南疆紅棗的產(chǎn)地鑒別有一定的參考價(jià)值。
距離匹配法; 聚類分析; Savitzky-Golay卷積求導(dǎo)法; 馬氏距離
紅棗營(yíng)養(yǎng)豐富,具有藥用和食用價(jià)值。不同地區(qū)的紅棗在水分、總糖、總酸的含量上有區(qū)別,在價(jià)格方面也有明顯的差別。和田駿棗在價(jià)格上比阿克蘇駿棗高出許多,有些不良商販會(huì)用阿克蘇駿棗冒充和田駿棗,進(jìn)而在價(jià)格上謀利。因此,快速準(zhǔn)確的分辨和田駿棗和阿克蘇駿棗對(duì)于經(jīng)銷商十分重要。
和田地區(qū)的地理坐標(biāo)位于東經(jīng)79°50′至79°56’,北緯36°59’至37°14’。南越昆侖山抵藏北高原,北部深入塔克拉瑪干腹地。阿克蘇地區(qū)的地理坐標(biāo)位于東經(jīng)78°03’至84°07’,北緯39°30’至42°41’。位于新疆維吾爾自治區(qū)天山南麓,塔里木盆地北緣[1]。根據(jù)新疆統(tǒng)計(jì)局的統(tǒng)計(jì)年鑒近7年的數(shù)據(jù)分析:和田地區(qū)的年平均氣溫比阿克蘇地區(qū)高2. 56 ℃,和田地區(qū)的日照時(shí)數(shù)比阿克蘇地區(qū)少133. 6小時(shí),但在從紅棗生長(zhǎng)到成熟日照時(shí)數(shù)基本相差無(wú)幾。和田地區(qū)的晝夜溫差與阿克蘇地區(qū)相差不大。和田地區(qū)的有效積溫為4 200 ℃,阿克蘇地區(qū)的有效積溫為3 800 ℃~4 200 ℃。地理位置、平均氣溫、日照時(shí)數(shù)、晝夜溫差、有效積溫對(duì)于紅棗的生長(zhǎng)與糖分積累起著至關(guān)重要的作用。
近紅外光譜技術(shù)作為一種無(wú)損、快速的檢測(cè)方法,已被廣泛用于分析復(fù)雜的化合物,如石油、農(nóng)產(chǎn)品和中藥材等[2-4]。聚類分析是一種無(wú)管理模式識(shí)別方法,常用于目標(biāo)觀測(cè)對(duì)象的分類,即利用表征觀測(cè)對(duì)象的一組變量對(duì)目標(biāo)進(jìn)行分類[5]。本文采用距離匹配法對(duì)二者進(jìn)行聚類分析,從而能夠快速高效的區(qū)別和田224團(tuán)駿棗與阿克蘇10團(tuán)駿棗。距離匹配法是計(jì)算光譜到每個(gè)類別中心點(diǎn)的距離,用來(lái)判別一個(gè)未知材料到兩個(gè)或更多已知材料類別的匹配程度。在區(qū)別含有相同成分但含量不同的材料時(shí),距離匹配算法十分適合。在這種分析中,每個(gè)類別的標(biāo)準(zhǔn)光譜都非常相似。主要的不同僅僅出現(xiàn)在少數(shù)幾個(gè)關(guān)鍵波段的峰強(qiáng)度上。距離匹配方法的原理,建模過(guò)程中,軟件為每個(gè)類別計(jì)算出一條平均光譜和一條標(biāo)準(zhǔn)偏差光譜。用此法給一個(gè)未知樣品的光譜進(jìn)行類別劃分時(shí),針對(duì)每個(gè)類別,軟件將未知樣品的光譜減去該類別的平均光譜得到一條殘差光譜,再除以相應(yīng)的標(biāo)準(zhǔn)偏差光譜,得到一條新光譜(相減的步驟得到了兩條光譜間在各個(gè)波長(zhǎng)點(diǎn)的差異,除的步驟得到每個(gè)差異點(diǎn)所占的權(quán)重)然后計(jì)算殘差光譜中超過(guò)距離匹配限值的波長(zhǎng)點(diǎn)所占的百分比。
1.1 材料
和田224團(tuán)白熟期駿棗和阿克蘇10團(tuán)白熟期駿棗,樣品數(shù)為和田駿棗與阿克蘇駿棗各60顆。樣品的采集方式采用隔行隔排采集,保證樣品的相對(duì)獨(dú)立性。紅棗置于自封袋內(nèi),防止水分的散失,及時(shí)帶回實(shí)驗(yàn)室放入冷庫(kù)。
1.2 儀器
美國(guó)賽默飛世爾科技生產(chǎn)的Antaris Ⅱ FT-NIR型光譜儀。
1.3 方法
1.3.1 工作流程
1.3.1.1 采集和田224團(tuán)白熟期駿棗與阿克蘇10團(tuán)白熟期駿棗的正反面近紅外光譜圖;
1.3.1.2 采用TQ分析軟件對(duì)譜圖進(jìn)行預(yù)處理;
1.3.1.3 建立相應(yīng)的水分、總糖和總酸波段的聚類分析模型;
1.3.1.4 對(duì)未知(待測(cè))樣品進(jìn)行檢測(cè)。
1.3.2 近紅外光譜采集及預(yù)處理過(guò)程
1.3.2.1 儀器設(shè)備以及參數(shù)設(shè)置
美國(guó)賽默飛世爾科技生產(chǎn)的Antaris Ⅱ FT-NIR型光譜儀,以儀器內(nèi)部空氣為背景,測(cè)量范圍4 000~10 000 cm-1,采樣點(diǎn)數(shù)為1 557點(diǎn),每張光譜掃描次數(shù)32次,分辨率為8 cm-1,儀器使用InGaAs檢測(cè)器,化學(xué)計(jì)量學(xué)分析軟件為儀器自帶的TQ軟件。近紅外數(shù)據(jù)處理和統(tǒng)計(jì)分析軟件用的是MATLAB7.11(美國(guó)Mathworks)[6]。
1.3.2.2 樣品的選擇
選擇和田224團(tuán)白熟期駿棗與阿克蘇10團(tuán)白熟期駿棗, 大小均勻分布和顏色深淺不一的有代表性的樣品各60顆。其中90顆作為校正集(和田224團(tuán)駿棗45顆、阿克蘇10團(tuán)駿棗45顆),30顆作為驗(yàn)證集(和田駿棗15顆、阿克蘇駿棗15顆)。
1.3.2.3 近紅外光譜的采集
光譜采集前,先將紅棗從冷庫(kù)中取出放入室內(nèi)12個(gè)小時(shí),室內(nèi)溫度在23 ℃~26 ℃之間,相對(duì)濕度25%~30%。其次將所測(cè)樣品置于Antaris Ⅱ FT-NIR型光譜儀測(cè)試點(diǎn)處,紅棗的赤道部位A、B面各測(cè)定光譜一次,保證實(shí)驗(yàn)的準(zhǔn)確性。原始光譜如圖1。
1.3.2.4 預(yù)處理過(guò)程
主要進(jìn)行歸一化處理(圖2),基線校正(圖3)和 Savitzky-Golay卷積求導(dǎo)法(圖4)的預(yù)處理。
歸一化處理:用來(lái)校正由微小光程差異引起的光譜變化;
基線校正:可以消除基線漂移,進(jìn)而減小對(duì)后續(xù)計(jì)算工作的影響;
導(dǎo)數(shù):可以有效的消除基線和其他背景的干擾,分辨重疊峰,提高分辨率和靈敏度;
Savitzky-Golay卷積:用來(lái)分辨率高、波長(zhǎng)采樣點(diǎn)多或稀疏波長(zhǎng)采樣點(diǎn)的光譜[7]。
圖1 原始光譜
圖2 歸一化處理
圖3 基線校正
圖4 Savitzky-Golay卷積求導(dǎo)法
1.3.2.5 異常樣本的剔除
應(yīng)用馬氏距離法對(duì)異常樣本的剔除(主成分?jǐn)?shù)為5),剔除效果如圖5。
馬氏距離用來(lái)界外樣本的識(shí)別,其公式為
馬氏距離考慮了同一類中相同特征變量的變化(方差),以及不同特征變量間的變化(協(xié)方差)。它考慮了樣本的分布,在識(shí)別模型界外樣品等方面發(fā)揮著重要的作用[7]。
圖5 馬氏距離剔除
依次經(jīng)過(guò)歸一化處理、基線校正、Savitzky-Golay卷積求導(dǎo)法預(yù)處理及馬氏距離異常樣本剔除法后,運(yùn)用TQ軟件的距離匹配法進(jìn)行聚類分析。模型識(shí)別性能的評(píng)價(jià)用正確分類率來(lái)表示。
在實(shí)踐中,大量數(shù)據(jù)分析費(fèi)時(shí)耗力,選擇適當(dāng)?shù)墓庾V區(qū)間可以獲得滿意的結(jié)果。最近,理論和實(shí)踐證明光譜區(qū)間選擇能顯著提高模型的性能[8]。所以合適的波長(zhǎng)變量選擇對(duì)于提高模型預(yù)測(cè)至關(guān)重要。
聚類分析模型主要是針對(duì)和田224團(tuán)白熟期駿棗與阿克蘇10團(tuán)白熟期駿棗建立的混合模型,其中兩類紅棗的分類標(biāo)準(zhǔn)是計(jì)算兩類紅棗的馬氏距離,以距離較近的進(jìn)行歸類。兩地紅棗在水分、總糖、總酸含量上的差異造就二者近紅外光譜和馬氏距離的差異,聚類分析模型計(jì)算二者的馬氏距離,通過(guò)馬氏距離進(jìn)行歸類,從而可以反映紅棗水分、總糖、總酸的成分差異。
2.1 建立水分波段的聚類分析模型
液態(tài)水由于氫鍵的締合,其吸收峰都為寬譜帶。O-H伸縮振動(dòng)的一級(jí)倍頻和二級(jí)倍頻吸收分別出現(xiàn)在6 944 cm-1(1 440 nm)和10 420 cm-1(960 nm)附近。其合頻吸收譜帶主要有兩個(gè),較強(qiáng)的在5 155 cm-1(1 940 nm),較弱的在8 197 cm-1(1 220 nm)附近。這些特征吸收十分有用,例如農(nóng)產(chǎn)品、食品和藥品中的水分含量都可以通過(guò)這些特征吸收來(lái)測(cè)定[7]。
因此,根據(jù)Antaris Ⅱ FT-NIR型光譜儀的測(cè)試范圍的界定,水分波段的聚類分析模型波長(zhǎng)變量的選擇是5 155 cm-1(1 940 nm),6 944 cm-1(1 440 nm),8 197 cm-1(1 220 nm)。通過(guò)TQ軟件建立的水分模型如圖6所示。
圖6 水分波段的聚類分析模型
2.2 建立總糖波段的聚類分析模型
美國(guó)農(nóng)業(yè)部通過(guò)分析得出的常見(jiàn)的農(nóng)產(chǎn)品各成分近紅外光譜吸收特征波長(zhǎng),根據(jù)這些特征波長(zhǎng)可以大致判斷含有該基團(tuán)的化合物相關(guān)的波長(zhǎng)區(qū)域。其中糖類的吸收特征波長(zhǎng)為838 nm,888 nm,913 nm,978 nm,1 005 nm,1 380 nm,1 437 nm,1 687 nm,2 080 nm,2 202 nm,2 275 nm,2 320 nm。其中978 nm,1 380 nm,2 275 nm和2 320 nm為一階微分光譜,2 080 nm為二階微分光譜,其他的為原始光譜[6]。
因此,根據(jù)Antaris Ⅱ FT-NIR型光譜儀的測(cè)試范圍和之前的預(yù)處理方法采用的Savitzky-Golay卷積求導(dǎo)法(一階微分求導(dǎo))??偺遣ǘ蔚木垲惙治瞿P筒ㄩL(zhǎng)變量的選擇為4 310 cm-1(2 320 nm),4 396 cm-1(2 275 nm),7 246 cm-1(1 380 nm)。通過(guò)TQ軟件建立的總糖模型如圖7所示。
圖7 總糖波段的聚類分析模型
2.3 建立總酸波段的聚類分析模型
通過(guò)相關(guān)系數(shù)法,SPA,UVE,SiPLS,SiPLS+GA這幾種不同的波長(zhǎng)選擇方法對(duì)駿棗樣品的建模精度和預(yù)測(cè)能力的影響。研究發(fā)現(xiàn)采用無(wú)信息變量消除法(UVE)選擇波長(zhǎng)的效果最佳,所以對(duì)于紅棗總酸的波長(zhǎng)采用無(wú)信息變量消除法(UVE)來(lái)篩選波長(zhǎng)。由此選出的360個(gè)波長(zhǎng)對(duì)應(yīng)的區(qū)間分別是:1 000 nm~1 113 nm、1 381 nm~1 523 nm、1 567 nm~1 672 nm[6]。
因此,總酸模型波長(zhǎng)變量的選擇為5 981 cm-1~6 382 cm-1(1 567 nm~1 672 nm),6 566 cm-1~7 241 cm-1(1 381 nm~1 523 nm),8 985 cm-1~10 000 cm-1(1 000 nm~1 113 nm)。通過(guò)TQ軟件建立的總酸模型如圖8所示。
圖8 總酸波段的聚類分析模型
2.4 未知(待測(cè))的檢測(cè)
應(yīng)用以上模型對(duì)未知(待測(cè))樣本進(jìn)行檢測(cè),分析結(jié)果如表1。
表1 各模型聚類分析的結(jié)果
3.1 和田224團(tuán)白熟期駿棗與阿克蘇10團(tuán)白熟期駿棗在水分含量、總糖含量和總酸含量上有明顯的差別。預(yù)測(cè)效果最好的是總酸波段的聚類分析模型,其次是水分波段的聚類分析模型,最后是總糖波段的聚類分析模型。在正確分類率上,聚類分析模型更適用阿克蘇10團(tuán)駿棗,所以阿克蘇10團(tuán)駿棗比和田224團(tuán)駿棗分類效果好。
3.2 利用距離匹配法對(duì)和田駿棗與阿克蘇駿棗進(jìn)行產(chǎn)地的鑒別是可行的,但由于不同時(shí)期(脆熟期和完熟期)不同品種(灰棗、冬棗等)的紅棗在水分、總糖和總酸上含量差別很大,所以需要建立不同時(shí)期不同品種的聚類分析模型,才能全面考察南疆紅棗的鑒別。
[1] 王星.新疆紅棗成“黑馬”[N].阿克蘇日?qǐng)?bào),2014-9-11(24).
[2] 武斌,武小紅,賈紅雯.蘋果近紅外光譜的聚類分析[J].食品科技,2014,39(09):280-281.
[3] 劉卉,郭文川,岳絨.獼猴桃硬度近紅外漫反射光譜無(wú)損檢測(cè)[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2011,42(3):145-149.
[4] Burns D A ,Ciurczak E W .Handbook of Near-Infrared Analysis.Third Edition.Marcel DekkerInc, New York,2007.
[5] 石杰,李長(zhǎng)濱,吳擁軍.不同廠家冬凌草片的近紅外光譜主成分聚類分析[J].鄭州大學(xué)學(xué)報(bào),2011,43(4):69-69.
[6] 彭云發(fā).近紅外光譜技術(shù)在南疆紅棗品質(zhì)快速無(wú)損檢測(cè)中的應(yīng)用研究[D].塔里木大學(xué),2015.
[7] 褚小立.化學(xué)計(jì)量學(xué)方法與分子光譜分析技術(shù)[M].北京:化學(xué)工業(yè)出版社,2011:42-269.
[8] 李曉云,王加華,黃亞偉,等.便攜式近紅外儀檢測(cè)牛奶中脂肪、蛋白質(zhì)及干物質(zhì)含量[J].光譜學(xué)與光譜分析,2011,03:665-668.
Research of Cluster Analysis of Jun-jujube in 224 Group and 10 Group by the Distance Matching Method
Li Weiwei1Kong Weinan1Luo Xuening1Dai Xijun1Luo Huaping1,2,3*
(1 College of Mechanic and Electrical Engineering, Trim University, Alar, Xinjiang 843300) (2 Xinjiang Uygur Autonomous Region General Institutes of Higher Education Key of Modern Agriculture Engineering, Alar, Xinjiang 843300) (3 Southern Xinjiang Agricultural Mechanization Research Center, Alar, Xinjiang 843300)
There is great price difference between the No. 224 Group jun-jujube in Hetian and No. 10 Group in Aksu, and it is practical significance to identify quickly and accurately. The Jun-jujube in No. 224 Group Hetian and No. 10 Group Aksu were clustering analyzed by the distance matching method, and were pretreated with normalized method, baseline correction, Savitzky-Golay convolution derivation method (13 points smooth, 3 points differential width), and abnormal samples were excluded using the Mahalanobis distance. The results showed there were great differences in the moisture content, total sugar content and total acid content between the No. 224 Group Hetian and No. 10 Group Aksu Jun-jujube. The most precise method was the clustering analysis model of total acid band, followed by the cluster analysis model of water wave and the clustering analysis model of total sugar band. The cluster analysis model is more suitable for the Jun-jujube in 10 Group Aksu, because of the more efficiency classification. Conclusion: It is feasible to identify the locality of Hetian and Aksu Jun-jujube using the distance matching method, and this can provide some reference value in identification the producing area of Southern Xinjiang jujube.
distance matching method; cluster analysis; Savitzky-Golay convolution derivation method; mahalanobis distance
1009-0568(2016)04-0070-06
2015-11-04
國(guó)家自然科學(xué)基金(11164023,11464039)。
李偉偉(1985-),男,碩士研究生,研究方向?yàn)檗r(nóng)產(chǎn)品無(wú)損檢測(cè)。 E-mail:liweiwei8503@163.com
*為通訊作者 E-mail:luohuaping739@163.com
TP391.4
A
10.3969/j.issn.1009-0568.2016.04.011
文章編號(hào):1009-0568(2016)04-0070-06