国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

用遺傳算法提取南疆紅棗總糖的近紅外光譜特征波長

2015-06-05 09:51:41彭云發(fā)彭海根羅華平
食品工業(yè)科技 2015年3期
關鍵詞:總糖紅棗乘法

彭云發(fā),詹 映,彭海根,劉 飛,羅華平,2,*

(1.塔里木大學機械電氣化工程學院,新疆阿拉爾 843300;2.新疆維吾爾自治區(qū)普通高等學?,F(xiàn)代農(nóng)業(yè)工程重點實驗室,新疆阿拉爾 843300)

用遺傳算法提取南疆紅棗總糖的近紅外光譜特征波長

彭云發(fā)1,詹 映1,彭海根1,劉 飛1,羅華平1,2,*

(1.塔里木大學機械電氣化工程學院,新疆阿拉爾 843300;2.新疆維吾爾自治區(qū)普通高等學校現(xiàn)代農(nóng)業(yè)工程重點實驗室,新疆阿拉爾 843300)

本研究嘗試利用近紅外光譜技術測量紅棗的總糖含量,針對采用偏最小二乘(PLS)法建立近紅外光譜預測模型時波長篩選問題,提出用聯(lián)合區(qū)間偏最小二乘法(siPLS)與遺傳算法(GA)相結合的方法遺傳聯(lián)合區(qū)間偏最小二乘法(GA-siPLS)來提取近紅外光譜特征區(qū)域和特征波長,提高模型預測精度的方法。結果表明:將全譜等分成20個子區(qū)間,用聯(lián)合區(qū)間偏最小二乘法優(yōu)選出4個特征子區(qū)間,在這4個子區(qū)間的基礎上再用遺傳偏最小二乘法繼續(xù)篩選出12個特征波長。用12個特征波長建立的偏最小二成模型精度要好于全譜建立的模型,其主因子數(shù)減少了4個,預測集標準偏差(RMSECP)減少了25%,預測相關系數(shù)(RP)提高了5%。該方法選取的波長變量建立的校正模型,不僅使模型簡潔、優(yōu)化,而且增強了模型的預測能力。

近紅外光譜,特征波長,聯(lián)合區(qū)間偏最小二乘法,遺傳算法,紅棗

紅棗營養(yǎng)十分豐富,是我國歷來推崇的滋補食品。北方民間有“日食三個棗,人生不易老”,“五谷加紅棗,勝過靈芝草”的諺語,高度贊揚了紅棗的食補功效[1]。糖度是紅棗內(nèi)部品質(zhì)的一個重要指標,而且按照目前國際市場慣例,標識出糖度的水果可以獲得更高銷售價格[2],所以對紅棗糖度進行檢測很有必要。對紅棗糖度進行檢測不僅可以增加我國的紅棗出口數(shù)量,而且通過對紅棗進行分級管理,也可以完善對紅棗資源的綜合利用,產(chǎn)生顯著的經(jīng)濟效益及社會效益。

紅棗中的總糖含量存在形式已經(jīng)不是簡單的單糖和多糖,特征譜區(qū)也就不是某種單糖或多糖的特征譜區(qū),所以在測定時確定紅棗總糖的特征譜區(qū)是比較困難的。遺傳算法(GA)最初是由Holland于1975年提出的,它借鑒生物界自然選擇和遺傳機制,利用選擇、交換和突變等算法的操作,隨著不斷的遺傳迭代,使目標函數(shù)值較優(yōu)的變量被保留,較差的變量被淘汰,最終達到最優(yōu)結果。1998年R.Leardi[3]提出一種遺傳偏最小二乘法(GA-PLS)來進行光譜特征波長的篩選,并在短波近紅外光譜中得到成功的應用,但參與該方法的光譜點數(shù)不能太多,否則算法很難收斂。2000年Lars N rgaard[4]提出一種聯(lián)合區(qū)間偏最小二乘法(siPLS)來進行光譜區(qū)間的篩選,該方法只能篩選特征區(qū)間,不能篩選出單個特征波長。通過特定的方法篩選特征變量一方面可以簡化模型,一方面剔除不相關或非線性變量,得到預測能力更強的校正模型。本研究目的是提取紅棗紅糖的近紅外特征波長,先用聯(lián)合區(qū)間偏最小二乘法在整個譜區(qū)中選擇紅棗的特征譜區(qū),然后再對該特征譜區(qū)進行遺傳偏最小二乘法篩選出紅棗總糖的光譜特征波長,用該方法建立的偏最小二乘模型簡潔、穩(wěn)定性好并且預測能力強。

1 材料與方法

1.1 材料與儀器

2013年10月采集于新疆生產(chǎn)建設兵團阿拉爾市10團處于白熟期的灰棗,選出沒有損傷、傷疤的120顆紅棗。對其依次進行編號及去除灰塵等處理,沿著樣品赤道部位(間隔約 120°)標記 3 點作為數(shù)據(jù)采集點,然后放入冷庫(溫度2~10℃)中保存。

采用美國賽默飛世爾科技生產(chǎn)的Antaris Ⅱ FT-NIR型光譜儀采集紅棗近紅外光譜,以儀器內(nèi)部空氣為背景,測量范圍4000~10000cm-1,采樣點數(shù)為1557點,每張光譜掃描次數(shù)32次,分辨率為8cm-1,儀器使用InGaAs檢測器,化學計量學分析軟件為儀器自帶的TQ軟件和MATLAB7.0(美國Mathworks)。

1.2 光譜采集

光譜采集條件:光譜采集前,先將紅棗從冷庫中取出放入室內(nèi)12h,目的是使紅棗溫度與室內(nèi)溫度相同,室內(nèi)溫度在23~26℃之間,相對濕度25%~30%;測樣方式:近紅外光譜儀開機預熱30min后,分別對紅棗樣本赤道部位每隔120℃標記的3點采集漫反射光譜,共采集三次,取平均光譜。共采集120張紅棗近紅外原始光譜圖。

1.3 紅棗樣本總糖測定方法

1.3.1 樣品處理 紅棗總糖的測定方法采用直接滴定法,按國標GB/T5009.7-2008執(zhí)行。取標記部位的紅棗果肉去皮,準確稱取2.5~5g研磨并置于100mL容量瓶中,加50mL水,搖勻,邊搖邊慢慢加入5mL乙酸鋅溶液和5mL亞鐵氰化鉀溶液,加水至刻度,搖勻,靜置30min,用干燥濾紙過濾,棄去初濾液,收集濾液備用。

1.3.2 測定 吸取處理后的樣品溶液50mL于100mL容量瓶中,加入5mL 6mol/L鹽酸溶液,在68~70℃水浴中加熱15min,冷卻后加入2滴甲基紅指示劑,用20%氫氧化鈉溶液中和至中性,加水至刻度,搖勻。吸取5mL費林試劑甲液和5mL費林試劑乙液,置于150mL錐形瓶中,加水10mL,加入玻璃珠2粒,控制在2min內(nèi)加熱至沸,趁沸以快速從滴定管中滴加比預測體積少1mL的樣品溶液,然后趁沸以每兩秒1滴的速度滴至終點。記錄樣品溶液消耗體積,同時平行測定三份,取其平均值。

1.3.3 計算 計算紅棗樣品中的總糖含量:

總糖含量(%)=m×100/W×(50/V1)×(V2/100)×1000

式中:m為10mL費林試液相當于葡萄糖量(mg);W為紅棗樣品質(zhì)量(g);V1為紅棗樣品處理液的總體積(mL);V2為測定總糖含量取用水解液的體積(mL)。

1.4 算法簡介

N?rgaard等提出在光譜數(shù)據(jù)中運用局部區(qū)域建立回歸模型的方法,然后把它稱為間隔偏最小二乘法(iPLS)[4]。iPLS的目的是把光譜分割成一些較小等距子區(qū)間,然后在每個子區(qū)間建立偏最小二乘模型。它表明選擇最優(yōu)的區(qū)間能帶來精確的預測模型。然后,在某些情況下,如果僅選擇一個光譜區(qū)間來建立校正模型,有些有用的信息可能被遺棄,并且也可能會降低模型的性能。所以,N?rgaard提出其他的方法來選擇組合區(qū)間建立PLS模型,叫做聯(lián)合區(qū)間偏最小二乘模型(siPLS),它將同一次區(qū)間劃分中精度較高的幾個局部模型所在的子區(qū)間聯(lián)合起來,共同預測待測樣本品質(zhì)指標。雖然該方法相對于iPLS或多或少的有所改進,但是,它也存在缺點。正如我們所知,這些方法只用于選擇有效的光譜區(qū)間;盡管在一些小區(qū)間里,也仍然有一些共線變量。因此,必需從這些最優(yōu)子區(qū)間中選擇有用的變量。

遺傳算法[3]是一種新近發(fā)展起來的搜索最優(yōu)解的方法。它模擬生命進化機制,也就是說,模擬了自然選擇和遺傳進化中發(fā)生的繁殖、交配和突變現(xiàn)象,從任意一個初始群體出發(fā),通過隨機選擇、交叉和變異操作,產(chǎn)生一群新的更適應環(huán)境的個體,使群體進化到搜索空間中越來越好的區(qū)域。這樣一代一代不斷繁殖、進化,最后收斂到一群最適應環(huán)境的個體上求得問題的最優(yōu)解。遺傳算法的實現(xiàn)主要包括5個基本要素:參數(shù)編碼;群體的初始化;使用度函數(shù)的設計;收斂判據(jù)和變量的選取等。具體的遺傳算法實現(xiàn)流程框圖參見圖1。

圖1 遺傳算法實現(xiàn)流程框圖Fig.1 Flow diagram of the genetic algorithm

2 結果與分析

2.1 校正模型

在采集原始光譜時為了消除系統(tǒng)、環(huán)境和樣品背景等對近紅外漫反射的影響,經(jīng)過多次測試與比較,對原始光譜進行標準化預處理,圖2為120粒紅棗近紅外光譜圖和標準化后的光譜。

圖2 120顆紅棗近紅外光譜(a)和 標準化后處理的光譜(b)Fig. 2 NIR original spectra of one hundred(a)and twenty jujubes NIR spectra after standardization(b)

將120顆紅棗樣本隨機分成兩組,一組是校正集用來建立校正模型,另一組是驗證集用來測試模型的穩(wěn)健性。為了避免兩個子集劃分出現(xiàn)偏差,按照如下方式劃分:所有樣品是通過他們各自的Y值(總糖)而排列的。為了劃分校正集與驗證集光譜,每4個樣品中有一個光譜被選人驗證集。因此,校正集有90個光譜;驗證集有30個光譜。如表1中所示,校正集y值范圍大于驗證集的范圍。因此,樣品分布在校正集和驗證集是適當?shù)?。圖3所示的是校正集樣品總糖含量分布圖,該圖呈高斯分布說明校正集樣品選擇合理。

表1 紅棗總糖含量實測值統(tǒng)計表Table 1 Statistics of sugar content of jujubes measured by the standard methods

圖3 校正集樣品總糖含量分布圖Fig.3 Total sugar content distribution of Calibration set

在校正模型中,采用留一交互驗證法(leave-one-sample-out cross-validation)來建立校正模型。留一交互驗證法就是:每次從樣本集中取出一個樣本,用余下的樣本來建立模型,用建好的模型來預測之前取出在這個樣本,直到樣本集中每個樣本都被取出過一次。

2.2 iPLS模型結果

圖4 各區(qū)間模型的RMSECV值與全譜模型的 RMSECV值比較圖Fig.4 Comparison of interval model’s and full spectrum’s RMSECV注:虛線表示全譜模型的RMSECV值, 曲線是一個紅棗光譜圖,斜體字為各區(qū)間模型的主成分數(shù)。

將圖1中光譜數(shù)據(jù)(范圍4000~10000cm-1)共1557個波數(shù)點等分為20個區(qū)間,第1~17為78個波數(shù)點,第18~20為77個波數(shù)點。用間隔偏最小二乘法(iPLS)進行處理,處理結果如圖4所示。從圖4中可以看第5、8和12個區(qū)間上的偏最小二乘法模型的RMSECV值比全譜模型的RMSECV值小,這是因為全譜1557個變量用來建立校正模型,這1557個變量有很多是與紅棗總糖不相關的,它們叫做“無信息變量”。另外,近紅外光譜區(qū)域的共線變量,它們稱為“冗余變量”。如果模型中含有“無信息變量”和“冗余變量”,會降低模型的預測能力,因此并不是用于建模的光譜數(shù)據(jù)越多越好。

2.3 聯(lián)合區(qū)間偏最小二乘法選取特征光譜區(qū)間

利用siPLS從20個區(qū)間中選取特征光譜區(qū)域組合,在數(shù)據(jù)處理過程中,嘗試分別聯(lián)合2、3和4個子區(qū)間建立紅棗總糖校正模型,處理結果如表2所示,從表中可以看出選擇第5、7、9和10區(qū)間組合的聯(lián)合區(qū)間建立的紅棗總糖的偏最小二乘模型,得到最小的RMSECV值1.554,該4個子區(qū)間所對應的波數(shù)分別為5203~5499.99,5804.69~6101.67,6406.37~6703.35,6707.21~7004.19cm-1,如圖5所示。

表2 選擇不同子區(qū)間數(shù)的 聯(lián)合區(qū)間偏最小二乘分析模型結果Table 2 Choose the number of different subinterval joint interval partial least squares analysis model results

圖5 si-PLS選擇的最佳子區(qū)間Fig.5 Spectral region selection accomplished by si-PLS

2.4 遺傳偏最小二乘法選擇特征波長

用遺傳偏最小二乘法GA-PLS對聯(lián)合區(qū)間偏最小二乘法所選出來的4個區(qū)間內(nèi)的波數(shù)變量進一步篩選,遺傳算法的控制參數(shù)設定為:初始種群100,交叉概率Pc=0.8,變異概率Pm=0.01,遺傳迭代次數(shù)為100,迭代終止后將被選用頻次最多的波數(shù)點按頻次高低順序逐一加入PLS模型中,以最小的交互驗證均方根誤差(RMSECV)值確定出最佳的建模變量。為了防止算法運行過程中隨即性對結果的影響,研究共進行5次運算,最后挑選出其中性能最好的模型所選用的頻率變量作為最佳變量,表3為5次運算GA-PLS所選用的波長變量的數(shù)目及RMSECV值,可以看出12個波長點數(shù)被使用的時,可獲得最低的RMSECV值1.4609。圖6(a)顯示了第3次運算過程中各頻率被選用的頻次,從該圖中可以看出,被選用的頻次較多的變量主要集中在siPLS變量區(qū)間的中間區(qū)域,即在100~200(對應的波數(shù)為5885.68~6572.21cm-1)之間,特別是變量數(shù)在168(波數(shù)6448.79cm-1)左右的幾個變量被選用的頻次最高,這說明這幾個變量與紅棗總糖信息之間有較高的相關性,(b)圖為選用的變量數(shù)對用的RMSECV值,從圖中可以看出選用12個變量建立的RMSECV值最小。

表3 5次GA-PLS運算選用的變量和最低RMSECV值Table 3 The statistical result of 5 calculations by GAPLS

圖6 各變量被選用的頻次圖(a)和 選用的變量數(shù)對應的RMSECV值(b)Fig.6 The frequency of selections original wavelengths after dynamic GA-PLS(3 runs)(a)and RMSECV corresponds selections variables(b)

2.5 建模比較

為了比較聯(lián)合區(qū)間偏最小二乘法和遺傳偏最小二乘法的處理效果,采用TQ軟件來建立校正模型。將所建的模型與全譜建的模型進行比較,結果如表4所示。比較其他的PLS模型,GA-siPLS模型展現(xiàn)最優(yōu)的結果。這種現(xiàn)象可以用化學計量學和光譜學解釋。

關于PLS模型,全譜1557個變量用來建立校正模型。這1557個變量有很多是與紅棗總糖不相關的,它們叫做“無信息變量”。另外,近紅外光譜區(qū)域的共線變量,它們稱為“冗余變量”。如果模型中含有“無信息變量”和“冗余變量”,會增加PLS主因子數(shù)。例如,PLS模型中的9個主因子數(shù),它多余其他的模型主因子數(shù)。如此多的主因子數(shù)能夠解釋校正集與驗證集不同的結果。太多的PLS主因子數(shù)會導致模型過擬合。當通過獨立的樣品來測試時,過擬合模型會給出不好的預測結果。

表4 選用不同處理方法后的偏最小二乘模型結果Table 4 Results of PLS by different methods

siPLS模型,是通過Norgaard的目的聯(lián)合幾個光譜區(qū)間建立的PLS模型。siPLS模型要好于PLS模型,因為校正模型中的一些“無信息變量”和“冗余變量”被剔除了。本研究中siPLS模型包含312個變量,在變量數(shù)目上siPLS遠少于PLS模型的變量數(shù)(1557個變量)。siPLS(主因子8)模型比PLS模型(主因子9)簡潔。

siPLS模型有較好的性能相對于PLS模型,但是與GA-siPLS相比模型性能要稍微低點。在兩個相鄰波段或者一個小的區(qū)間仍有共線變量。這些共線變量會降低模型的預測能力。本研究中,GA-siPLS模型先后分兩步建立:首先,從20個光譜區(qū)間中選擇4個子區(qū)間,并且選擇的變量為312個;第二,從312個變量中選擇12個變量。GA-siPLS模型相比于siPLS獲得更好的性能,因為它可以避免兩個相鄰波段的共線變量。

3 結論與討論

用聯(lián)合區(qū)間偏最小二乘法和遺傳算法對南疆紅棗總糖特征區(qū)域和特征波長的提取,結果表明,用其方法建立的偏最小二乘法模型與全譜模型相比,不僅提高了模型的預測精度,而且還大大減少了建模所用的波長點數(shù),使模型得到簡化,減少建模運算時間,穩(wěn)定性好,所選取的變量點數(shù)能有效的反應紅棗總糖的信息,建立的模型魯棒性強。該結果可為設計濾光片式或激光式紅棗糖度快速檢測儀提供一種客觀的特征波長的選擇方法。

在光譜結合多元校正的方法中,傳統(tǒng)觀點認為多元校正方法(如PLS)具有較強的抗干擾能力,可全波長參加多元校正模型的建立。隨著對PLS等方法的深入研究的應用,通過特定方法篩選特征波長或波長區(qū)間有可能得到更好的定量校正模型。波長選擇一方面可以簡化模型,更主要的是由于不相關或非線性變量的剔除,可以得到預測能力強、穩(wěn)健性好的校正模型。本文結果表明通過遺傳算法選擇的波長建立的PLS模型比全譜建立的模型預測能力強、穩(wěn)健性好,選擇的12個波長點與紅棗總糖密切相關。遺傳算法具有全局最優(yōu)、易實現(xiàn)等特點,成為目前較為常用且非常有效的一種波長選擇方法。

[1]郭裕新,單公華.中國棗[M].上海:上海科學技術出版社,2010.1-3.

[2]褚小立.化學計量學方法與分子光譜分析技術[M].北京:化學工業(yè)出版社,2011.293-295.

[3]Leardi R,Lupiáez A,González. Genetic algorithms applied to feature selection in PLS regression:how and when to use them[J]. Chemometrics and Intelligent Laboratory Systems,1998,41(2):195-207.

[4]Norgaard L,Saudland A,Wagner J,etal.Interval Partial Least-Squares Regress-ion(iPLS);a Comparative Chemometric Study with an Example form near-infrared Spectroscopy[J].Applied Spectroscope,2000,54(3):413-419.

[5]彭云發(fā),黃磊,羅華平. 南疆紅棗靜態(tài)圖像采集分級方法研究[J]. 農(nóng)機化研究,2014(3):28-31.

[6]王加華,潘璐,孫謙,等. 遺傳算法結合偏最小二乘法無損評價西洋梨糖度[J]. 光譜學與光譜分析,2009(3):678-681.

[7]褚小立,袁洪福,王艷斌,等. 遺傳算法用于偏最小二乘方法建模中的變量篩選[J]. 分析化學,2001(4):437-442.

[8]鄒小波,趙杰文. 用遺傳算法快速提取近紅外光譜特征區(qū)域和特征波長[J]. 光學學報,2007(7):1316-1321.

[9]朱向榮,李娜,史新元,等. 近紅外光譜與組合的間隔偏最小二乘法測定清開靈四混液中總氮和梔子苷的含量[J]. 高等學?;瘜W學報,2008(5):906-911.

[10]羅華平,盧啟鵬. 近紅外拓撲方法在南疆紅棗品質(zhì)分析中的應用[J]. 光譜學與光譜分析,2012(3):655-659.

[11]羅華平,盧啟鵬,丁海泉,等. 南疆紅棗品質(zhì)近紅外光譜在線模型參數(shù)的實驗研究[J]. 光譜學與光譜分析,2012(5):1225-1229.

[12]陳斌,王豪,林松,等. 基于相關系數(shù)法與遺傳算法的啤酒酒精度近紅外光譜分析[J]. 農(nóng)業(yè)工程學報,2005(7):99-102.

[13]彭云發(fā),彭海根,詹映,等.近紅外光譜對南疆紅棗水分無損檢測的研究[J]. 食品科技,2013(11):260-263.

[14]張楠,程玉來,李東華,等. 近紅外透射光譜測定水晶梨糖度的初步研究[J]. 食品工業(yè)科技,2007(3):215-216+228.

Analysis of near infrared spectroscopy ofjujube sugar content by genetic algorithms

PENG Yun-fa1,ZHAN Ying1,PENG Hai-gen1,LIU Fei1,LUO Hua-ping1,2,*

(1.School of Mechanical and Electrical Engineering,Tarim University,Alar 843300,China;2.The Key Laboratory of Colleges & Universities under the Department ofEducation of Xinjiang Uygur Autonomous Region,Alar 843300,China)

This study was conducted to attempt to measure the total sugar content of jujube(Ziziphusjujubacv. Huizao)using near-infrared spectroscopy,the information can be abstracted by partial least-square regression(PLS). In order to select wavelengths of near infrared spectroscopy in the prediction model of partial least squares regression of jujube sugar content detection,correlation coefficients and genetic algorithms and interval partial least squares(GA-siPLS)were used to select wavelength from near infrared spectroscopy in partial least squares regression model. The spectra were divided into twenty intervals,among which four subsets were selected by GA-siPLS to characterize the net signals of jujubes’ saccharinity. Then twelve absorbance values(A)at their characteristic wavelengths were screened out. It showed that the model developed by selecting twelve wavelengths was better than that of full spectrum.the principal factor number reduced by 4 and the root mean square error of prediction of prediction set reduced by 25%,while correlation coefficient of prediction improved 5%. The results showed that this wavelengths selection method for PLS modeling not only simplified and optimized calibration model but also increased the prediction ability of calibration model. Therefore,genetic algorithms are effective and feasible methods applied in developing mutlivariate calibration model based on partial least squares regression.

Near Infrared Spectroscopy(NIR);characteristic wavelength;interval partial least squares;Genetic Algorithms;Jujube

2014-03-04

彭云發(fā)(1984-),男,碩士生,研究方向:農(nóng)產(chǎn)品品質(zhì)近紅外光譜檢測技術研究。

*通訊作者:羅華平(1973-),男,碩士,教授,研究方向:農(nóng)產(chǎn)品品質(zhì)無損檢測技術的研究。

國家自然基金項目資助(10964009和11164023)。

TS255.7

A

1002-0306(2015)03-0303-05

10.13386/j.issn1002-0306.2015.03.055

猜你喜歡
總糖紅棗乘法
算乘法
我們一起來學習“乘法的初步認識”
一顆大紅棗
《整式的乘法與因式分解》鞏固練習
把加法變成乘法
我愛家鄉(xiāng)的紅棗
學生天地(2019年35期)2019-08-25 08:58:22
紅棗期貨價格大漲之后怎么走
黃酒中總糖與還原糖含量測定方法比較
分紅棗
林下參片中總糖、還原糖及糖醛酸的含量測定
双城市| 双辽市| 宁化县| 东光县| 彭水| 宕昌县| 日土县| 通许县| 读书| 新泰市| 马公市| 南靖县| 大洼县| 湖北省| 五家渠市| 水城县| 鲜城| 杭锦后旗| 永定县| 石城县| 永修县| 鹤壁市| 界首市| 黎城县| 贵德县| 东兴市| 安溪县| 鹿泉市| 晋州市| 阳山县| 南乐县| 徐汇区| 阿克陶县| 盈江县| 杨浦区| 清新县| 皮山县| 凌海市| 万年县| 通城县| 新兴县|