陳嘉,葉發(fā)銀,趙國華,2,3*
1(西南大學(xué) 食品科學(xué)學(xué)院,重慶,400715) 2(重慶市甘薯工程技術(shù)研究中心,重慶,400715)3(重慶市農(nóng)產(chǎn)品加工技術(shù)重點實驗室,重慶,400715)
我國是小麥生產(chǎn)與消費大國,國家統(tǒng)計局相關(guān)數(shù)據(jù)顯示,2017年我國小麥總產(chǎn)量13 433.39萬t,占全國糧食總產(chǎn)量的20.3%。小麥粉制品營養(yǎng)豐富,蛋白質(zhì)含量高,在很多地區(qū)都被作為人們的主食,對國民的健康與營養(yǎng)有著舉足輕重的作用。
由于小麥品種、磨粉工藝、配粉比例、強化配方等的差異,不同品牌、廠家小麥粉中各化學(xué)成分的比例均不同,食品企業(yè)在收購原料、加工產(chǎn)品前均需要進行小麥粉品質(zhì)指標檢測。小麥粉品質(zhì)是一個綜合概念,小麥粉的蛋白質(zhì)含量、濕面筋含量以及面團流變學(xué)指標等常被用來表征小麥粉的品質(zhì)。傳統(tǒng)的小麥粉品質(zhì)評價過程非常繁瑣,如使用凱氏定氮法測定蛋白質(zhì)含量需要進行樣品消化,蒸餾與吸收裝置復(fù)雜且有刺激性氣體釋放;傳統(tǒng)面團流變學(xué)品質(zhì)測定更為耗時,通常進行1次粉質(zhì)檢測所耗費的時間(包括儀器設(shè)備清洗)約為50~60 min、1次拉伸檢測所耗費的時間約為150 min[1],且操作過程有很強的經(jīng)驗性,測定結(jié)果重復(fù)性差,波動較大[2];基于近紅外光譜(near-infrared spectra, NIR)的快速檢測方法多集中于小麥粉的理化指標(如蛋白質(zhì)含量、含水量等)的檢測,對流變學(xué)指標(如粉質(zhì)、拉伸等)的預(yù)測效果不佳[3-5]。因此,開發(fā)一種能對小麥粉多個品質(zhì)指標進行快速檢測的方法意義重大。
信息融合是將多個來源的信息進行合并或集成,以得到更完整、更精確、更可靠的推論或結(jié)果。不同傳感器采集的信息存在互補性,這種互補性經(jīng)過適當(dāng)處理,可以補償單一傳感器的不精確性和測量范圍的局限性,進而增加系統(tǒng)的可靠性。近年來,基于信息融合的快速檢測技術(shù)已被用于食品摻假檢測[6-8]、產(chǎn)地鑒別[9-10]、風(fēng)味檢測[11]、品質(zhì)檢驗[12-15]、加工過程控制[16]等領(lǐng)域中。從某種程度上講,近紅外光譜與中紅外光譜(mid-infrared spectra, MIR)具有一定的互補性,絕大多數(shù)有機化合物和無機化合物化學(xué)鍵的振動均會在MIR區(qū)產(chǎn)生基頻吸收,在NIR區(qū)產(chǎn)生倍頻吸收和合頻吸收;NIR反映化學(xué)組成的綜合信息,波峰重疊嚴重,MIR則反映特定基團或組分的特征吸收峰,光譜信號靈敏。BRS等[17]對比了NIR及MIR對黃豆粉品質(zhì)的檢測能力,發(fā)現(xiàn)雖然NIR模型的預(yù)測能力優(yōu)于MIR模型,但MIR中包含NIR中未檢測到的額外信息,2種光譜融合后可以提升模型的預(yù)測效果。LI等[18]融合MIR與NIR信息對三七粉的產(chǎn)地進行鑒別,結(jié)果顯示,高層信息融合策略的識別準確率可達98%~100%。CASALE等[19]融合MIR與NIR光譜對特級初榨橄欖油的產(chǎn)地、品種進行鑒別,發(fā)現(xiàn)交互驗證識別率可以達到90%以上。目前,基于信息融合的小麥粉品質(zhì)快速檢測方法尚未見報道。因此,本研究擬采用信息融合技術(shù)構(gòu)建一種能同時檢測多個小麥粉品質(zhì)指標(蛋白質(zhì)含量、濕面筋含量、吸水量、形成時間、穩(wěn)定時間、弱化度)的快速檢測模型,以期為信息融合技術(shù)在小麥粉品質(zhì)檢測方面的應(yīng)用提供參考。
小麥粉樣品購自國內(nèi)各地區(qū)的超市及農(nóng)貿(mào)市場,共收集到不同產(chǎn)地、不同廠家及品牌的各類型市售小麥粉樣品96份。樣品采集后保存在自封袋中,在冷藏條件下保存?zhèn)溆谩?/p>
布魯克MPA近紅外光譜儀,德國Bruker公司;FTIR Spectrum 100傅立葉變換紅外光譜儀,美國Perkin Elmer公司;Farinograph-E電子型粉質(zhì)儀,德國Brabender公司;Glutomatic 2200面筋數(shù)量和質(zhì)量測定儀,瑞士Perten公司;K-360全自動凱氏定氮儀,瑞士Buchi公司。
1.3.1 小麥粉品質(zhì)指標檢測
蛋白質(zhì)含量按照《谷物和豆類氮含量測定和粗蛋白含量計算凱氏法》(GB/T 5511—2008)規(guī)定的方法和試驗條件進行檢測。濕面筋含量按照《小麥和小麥粉面筋含量第2部分:儀器法測定濕面筋》(GB/T 5506.2—2008)規(guī)定的方法和試驗條件進行檢測。
粉質(zhì)指標(吸水量、形成時間、穩(wěn)定時間、弱化度)按照《小麥粉面團的物理特性吸水量和流變學(xué)特性的測定粉質(zhì)儀法》(GB/T 14614—2006)規(guī)定的方法和試驗條件,采用Farinograph-E電子型粉質(zhì)儀,使用300 g揉面缽,30 ℃恒溫條件下進行揉混檢測。
1.3.2 紅外光譜采集
近紅外光譜的采集參考CHEN等[20]的方法,小麥粉樣品在室溫中平衡溫度后,放入石英樣品杯中,采用樣品杯旋轉(zhuǎn)式掃描,掃描范圍12 000~4 000 cm-1,分辨率8 cm-1,掃描次數(shù)16次,PbS檢測器,光譜使用自帶的OPUS 7.0采集。
中紅外光譜的采集參考LIU等[21]的方法,小麥粉樣品在105 ℃烘箱中干燥24 h后,與無水KBr按1∶25(m∶m)比例研磨并進行壓片,然后掃描,掃描范圍4 000~450 cm-1,掃描次數(shù)20次,分辨率1 cm-1。掃描時應(yīng)即時去除水分和CO2的背景干擾。采集到的光譜信息由儀器自帶的Spectrum 6.0軟件系統(tǒng)收集和處理。
1.3.3 異常樣品檢測與數(shù)據(jù)集的劃分
異常值的判別參考SIGNES-PASTOR等[22]的方法,使用箱圖法(boxplot)進行檢測。刪除異常樣品后,采用SPXY法[23]從原始樣本集中挑選72個樣品作為校正集,剩余樣品作為驗證集,樣品詳細劃分情況見表1。
表1 小麥粉各品質(zhì)指標校正集和驗證集數(shù)據(jù)統(tǒng)計表
1.3.4 數(shù)據(jù)處理及建模
數(shù)據(jù)處理及建模采用Matlab 2016a(美國MathWorks公司)軟件。在構(gòu)建模型前,光譜須經(jīng)過適當(dāng)?shù)念A(yù)處理,以消除固體顆粒大小、表面散射以及光程變化對近紅外光譜的影響,提高光譜的分辨率和靈敏度。試驗中采用標準正態(tài)變量變換(standard normal variate transformation,SNV)、一階導(dǎo)數(shù)(1stDer)、二階導(dǎo)數(shù)(2ndDer)、SNV+1stDer及SNV+2ndDer 5種方法進行光譜預(yù)處理,以考察不同光譜預(yù)處理方法對模型預(yù)測能力的影響。
采用偏最小二乘法(partial least squares regression, PLS)構(gòu)建信息融合模型,模型的預(yù)測能力采用模型對驗證集樣品的預(yù)測誤差均方根(root mean square error of prediction, RMSEP)和預(yù)測值與實測值間的相關(guān)系數(shù)r考察。RMSEP主要用于評價模型對于外部樣本的預(yù)測能力,其值越小,表明模型對外部樣品的預(yù)測能力越高,反之則預(yù)測能力越低;相關(guān)系數(shù)r用于衡量驗證集樣本的預(yù)測值和實測值之間的相關(guān)程度,r越接近于1,表明預(yù)測值與實測值之間的相關(guān)程度越好。
為了進一步增強模型的預(yù)測能力,首先采用前向區(qū)間(forward interval,F(xiàn)I)變量篩選算法對信息融合(data fusion,DF)模型進行優(yōu)化(記為FI-DF-PLS),其基本步驟是:將NIR與MIR同時分割為n個等長子區(qū)間,一共可以得到2n個子區(qū)間;在每個子區(qū)間上建立PLS局部模型,計算各局部模型的RMSEP值;選取RMSEP值最小的模型對應(yīng)的子區(qū)間為第1固定子區(qū)間,將余下的子區(qū)間逐一與第1固定子區(qū)間組合建模,選擇其中RMSEP值最低的模型對應(yīng)的區(qū)間作為第2固定子區(qū)間,如此循環(huán),直至所有剩余的子區(qū)間都進入模型;對比以上各步驟模型的RMSEP值,其中RMSEP最小者對應(yīng)的區(qū)間組合即為n個子區(qū)間劃分條件下的最佳區(qū)間組合。在FI-DF-PLS的基礎(chǔ)上,再使用遺傳算法(genetic algorithm,GA)對模型進一步優(yōu)化,其操作步驟為:對模型進行20次GA變量篩選,統(tǒng)計各光譜波數(shù)點總的被選頻率,然后按照頻率由高到低的順序,將各波數(shù)點變量依次加入模型中并計算RMSEP值,RMSEP值最低時對應(yīng)的模型即為最優(yōu)模型,記做FI-GA-DF-PLS模型。
圖1為小麥粉樣品的近紅外光譜與中紅外光譜圖。
圖1 小麥粉樣品近紅外光譜(a)與中紅外光譜(b)圖
Fig.1 NIR(a) and MIR(b) spectra of wheat flour samples
光譜預(yù)處理方法對建立預(yù)測能力強、穩(wěn)定性好的分析模型至關(guān)重要,有時甚至起決定作用[26]。分別采用SNV,1stDer,2ndDer,SNV+1stDer和SNV+2ndDer 5種方式對NIR及MIR光譜進行預(yù)處理并建立PLS模型,對比各預(yù)處理方法對NIR及MIR模型的影響,結(jié)果見表2。
表2 光譜預(yù)處理方法對近紅外和中紅外模型的影響
續(xù)表2
指標預(yù)處理方法NIRMIRrRMSEPPCrRMSEPPC穩(wěn)定時間/min原始光譜0.651.13940.281.5734SNV0.421.48230.331.56861stDer0.791.09080.251.67612ndDer0.751.10470.211.8212SNV+1stDer0.671.22960.211.6635SNV+2ndDer0.791.10160.201.8152弱化度/FU原始光譜0.5932.92520.1241.5812SNV0.5534.90230.1041.74511stDer0.6131.54650.4138.74772ndDer0.6233.10680.2140.9311SNV+1stDer0.5333.97660.3838.7616SNV+2ndDer0.5834.99190.2140.9951
注:PC,主成分數(shù)。
可以看出,對同一指標,NIR與MIR最佳的光譜預(yù)處理方式不同。由于儀器、樣品特征和測量環(huán)境、條件的變化,光譜預(yù)處理尚無通用的解決方法,需要針對每個指標分別進行最優(yōu)光譜預(yù)處理方法的篩選,以提高模型的預(yù)測精度。依據(jù)RMSEP最優(yōu)原則,分別選擇各指標最優(yōu)的NIR及MIR光譜預(yù)處理方法,蛋白質(zhì)含量模型NIR及MIR最優(yōu)預(yù)處理方法分別為SNV+1stDer和1stDer,濕面筋含量模型NIR及MIR最優(yōu)預(yù)處理方法分別為SNV和SNV+1stDer,吸水量模型NIR及MIR最優(yōu)預(yù)處理方法分別為1stDer和SNV,形成時間模型NIR和MIR最優(yōu)預(yù)處理方法均為SNV+1stDer,穩(wěn)定時間模型NIR和MIR最優(yōu)預(yù)處理方法分別為1stDer和SNV,弱化度模型NIR和MIR最優(yōu)預(yù)處理方法均為1stDer。
將NIR及MIR預(yù)處理后進行信息融合并構(gòu)建預(yù)測模型。為了提高模型的預(yù)測精度,將NIR及MIR分別劃分為10~50個子區(qū)間,采用前向區(qū)間變量篩選算法篩選NIR及MIR光譜中的有效變量區(qū)間,構(gòu)建前向區(qū)間信息融合模型(FI-DF-PLS),結(jié)果見表3。
可以看出,與單光譜模型相比(見表2),采用全光譜直接進行信息融合建模后,模型的預(yù)測精度并未提高,甚至略有下降。這是因為2種光譜融合后,光譜中的噪聲及干擾信息互相疊加,影響了模型的預(yù)測精度。因此,需要使用適當(dāng)?shù)幕瘜W(xué)計量學(xué)方法進行光譜變量篩選,消除部分冗余、干擾信息,再進行信息融合,以提高模型的預(yù)測精度。
總體上,F(xiàn)I-DF-PLS模型的預(yù)測能力隨著光譜子區(qū)間劃分數(shù)量的增加而提升,對于蛋白質(zhì)含量、濕面筋含量、吸水量、穩(wěn)定時間和弱化度,光譜子區(qū)間劃分為50時預(yù)測精度最高;對于形成時間,光譜子區(qū)間劃分為40時預(yù)測精度最高。
表3 光譜子區(qū)間劃分對信息融合模型的影響
從表3還可以看出,當(dāng)光譜子區(qū)間劃分數(shù)較小時,F(xiàn)I-DF-PLS算法篩選出的最優(yōu)模型不包含MIR光譜子區(qū)間的數(shù)據(jù),這是因為對每個指標,NIR模型預(yù)測效果均優(yōu)于MIR模型(表2),當(dāng)光譜子區(qū)間劃分數(shù)量較少時,一個子區(qū)間內(nèi)包含的變量數(shù)量較多,其中有用信息與干擾噪聲無法進行有效的區(qū)分,MIR子區(qū)間的引入反而可能降低模型的預(yù)測效果。當(dāng)光譜子區(qū)間劃分數(shù)量較大時,單個光譜子區(qū)間中包含的變量數(shù)量較少,有用信息與干擾噪聲得以區(qū)分,有效信息子區(qū)間又通過FI-DF算法的排列組合而得以集中,從而提高了模型的預(yù)測精度。因此,當(dāng)光譜子區(qū)間劃分數(shù)量增加時,F(xiàn)I-DF-PLS模型可以充分利用MIR及NIR中的有效信息。從表3可以看出,最優(yōu)蛋白質(zhì)含量FI-DF-PLS模型中包含了23個NIR子區(qū)間和5個MIR子區(qū)間;最優(yōu)濕面筋含量FI-DF-PLS模型中包含了5個NIR子區(qū)間和1個MIR子區(qū)間;最優(yōu)吸水量FI-DF-PLS模型中包含了30個NIR子區(qū)間和17個MIR子區(qū)間;最優(yōu)形成時間FI-DF-PLS模型中包含了9個NIR子區(qū)間和1個MIR子區(qū)間;最優(yōu)穩(wěn)定時間FI-DF-PLS模型中包含了24個NIR子區(qū)間和7個MIR子區(qū)間;最優(yōu)弱化度FI-DF-PLS模型中包含了15個NIR子區(qū)間和6個MIR子區(qū)間。各模型的光譜子區(qū)間選擇見圖2所示。
圖2 最優(yōu)信息融合模型近紅外及中紅外光譜子區(qū)間選擇
Fig.2 Selected subintervals in the optimist data fusion models
注:圖中灰色部分為最優(yōu)FI-DF-PLS模型所用子區(qū)間;a和b,蛋白質(zhì)含量NIR和MIR子區(qū)間;c和d,濕面筋含量NIR與MIR子區(qū)間;e和f,吸水量NIR與MIR子區(qū)間;g和h,形成時間NIR與MIR子區(qū)間;i和j,穩(wěn)定時間NIR與MIR子區(qū)間;k和l,弱化度NIR與MIR子區(qū)間。
最優(yōu)FI-DF-PLS模型的r和RMSEP值隨固定子區(qū)間數(shù)量增加而變化的趨勢見圖3。預(yù)測形成實際的模型中最多有80個光譜子區(qū)間(即MIR與NIR子區(qū)間數(shù)量之和)時精確度最高,所以圖3-d橫坐標軸最大值為80;其余模型均在光譜劃分為50個子區(qū)間時預(yù)測精度最高,因此橫坐標軸最大值為100??梢钥闯?,在算法運行之初,由于篩選出的固定子區(qū)間數(shù)量較少,用于模型校正的光譜有效信息不足,F(xiàn)I-DF-PLS模型預(yù)測能力較低;隨著固定子區(qū)間數(shù)量增加,模型中的有效信息不斷積累,F(xiàn)I-DF-PLS模型預(yù)測效果不斷提升,r不斷上升,RMSEP不斷下降;當(dāng)固定子區(qū)間積累到一定數(shù)量時,RMSEP達到最??;隨后RMSEP隨著固定子區(qū)間數(shù)量的增加不斷升高,這是因為加入更多的光譜區(qū)間引入了過多無用和干擾信息,從而引起了模型預(yù)測效果的下降。
遺傳算法基于對生物界自然選擇和自然遺傳機制的模擬來解決實際問題,是一種具有高度的并行、隨機和自適應(yīng)性的搜索方法。為了進一步簡化模型,提高模型的預(yù)測精度,采用遺傳算法對FI-DF-PLS模型進一步優(yōu)化,結(jié)果見表4所示。
a-蛋白質(zhì)含量;b-濕面筋含量;c-吸水量;d-形成時間;e-穩(wěn)定時間;f-弱化度;Δ-RMSEP值;■-r值
圖3 FI-DF-PLS模型r和RMSEP值變化情況
Fig.3 Changes of r and RMSEP values in FI-DF-PLS model
表4 遺傳算法對FI-DF-PLS模型的優(yōu)化結(jié)果
對于蛋白質(zhì)含量、吸水量、形成時間、穩(wěn)定時間和弱化度,最優(yōu)FI-DF-PLS模型經(jīng)過遺傳算法進行變量二次篩選后,模型使用的變量數(shù)量降低的同時,預(yù)測精度均有所提升。特別是穩(wěn)定時間模型,經(jīng)遺傳算法進行變量二次篩選后,模型所用的變量數(shù)量由698降低至245,大大降低了模型的復(fù)雜程度。對于濕面筋含量模型,遺傳算法二次變量篩選前后模型使用變量數(shù)量無變化,這是因為濕面筋含量最優(yōu)FI-DF-PLS模型中的光譜變量數(shù)量已非常少(186個),再使用遺傳算法進行變量二次篩選對模型的影響程度有限。經(jīng)遺傳算法進行二次優(yōu)化后,所得的FI-GA-DF-PLS模型對驗證集蛋白質(zhì)含量、濕面筋含量、吸水量、形成時間、穩(wěn)定時間和弱化度的預(yù)測相關(guān)系數(shù)r分別達到了0.98、0.98、0.97、0.94、0.95和0.95,RMSEP分別為0.181、0.590、0.455、0.502、0.557和13.047。
本試驗采用信息融合技術(shù),融合小麥粉的MIR及NIR光譜信息,建立了基于信息融合的小麥粉品質(zhì)快速檢測模型,并采用前向區(qū)間-遺傳算法對信息融合模型進行了優(yōu)化。結(jié)果顯示,與MIR或NIR預(yù)測模型相比,未經(jīng)變量篩選的信息融合模型的預(yù)測精度并未提升;經(jīng)過前向區(qū)間算法進行變量篩選后,信息融合模型的預(yù)測能力大幅度提升;遺傳算法可以對模型進一步優(yōu)化,提升模型的預(yù)測精度并簡化模型所用變量數(shù)量。試驗構(gòu)建的最優(yōu)FI-GA-DF-PLS模型對驗證集蛋白質(zhì)含量、濕面筋含量、吸水量、形成時間、穩(wěn)定時間和弱化度的預(yù)測相關(guān)系數(shù)r分別達到了0.98、0.98、0.97、0.94、0.95和0.95,RMSEP分別為0.181、0.590、0.455、0.502、0.557和13.047,達到了較好的預(yù)測精度。采用信息融合技術(shù)與前向區(qū)間-遺傳算法變量篩選構(gòu)建小麥粉多品質(zhì)指標的預(yù)測模型時,樣品不需前處理,操作簡便迅速,為小麥粉品質(zhì)快速檢測提供了一種新的思路與方法。