曾明飛,朱玉杰,馮國紅,朱金艷,劉思岐
(東北林業(yè)大學(xué) 工程技術(shù)學(xué)院,黑龍江 哈爾濱,150040)
藍莓,一種藍色小漿果,歸屬于杜鵑花科越橘屬,有漿果之王的美譽[1]。其酸甜可口,風(fēng)味獨特,并且營養(yǎng)豐富,富含維生素C、花青素和多種人體所需礦物質(zhì)。藍莓鮮果自身含水量大,容易受到擠壓等損傷,且集中成熟于6~8月的多雨高溫時節(jié),果實采后極其不易保存、容易失水干皺和腐爛。隨著貯藏時間的延長以及新鮮程度的快速變化,其品質(zhì)也會發(fā)生快速改變。對藍莓的新鮮度進行快速準確評價可以更好地為之品質(zhì)分級,判斷何時將其制成果醬、含片以及提取化合物等加工品提供參考,以更好提高其利用價值。
傳統(tǒng)對于藍莓新鮮度分級評價主要依靠人工感官評定,不僅費時費力且效果因人而異??梢?近紅外光譜技術(shù)憑借分析速度快、成本低、無污染等優(yōu)點,在食品快速無損檢測中被廣泛應(yīng)用。其結(jié)合化學(xué)計量學(xué)方法在物質(zhì)含量預(yù)測[2]、食品品質(zhì)檢驗[3]等當面多有研究。對于藍莓無損檢測而言,目前國內(nèi)外已經(jīng)基于近紅外光譜技術(shù)實現(xiàn)了對其硬度[4]、可溶性固形物[5]、花青素[6]和總酚[7]的無損檢測,但以往對藍莓的研究主要是針對個別指標預(yù)測,尚缺乏對新鮮度這一綜合指標的研究。不少學(xué)者利用光譜無損檢測技術(shù)對肉質(zhì)品[8]、水產(chǎn)品[9]和蛋類[10]的新鮮度進行了分析,但對果蔬尤其是藍莓的新鮮度研究還較少,主要原因是對于果蔬類樣本的新鮮度判定仍缺乏明確的行業(yè)標準,其中李昆[11]采用近紅外光譜技術(shù)對不同放置天數(shù)的蘋果、白梨和香梨的新鮮度進行了探究,建立了偏最小二乘(partial least squares,PLS)和反向傳播神經(jīng)網(wǎng)絡(luò)(back-propagation neural network,BPNN)模型,并取得了一定的預(yù)測效果。孫紅等[12]利用其設(shè)計的可見光/近紅外鮮切果品新鮮度快速檢測裝置對紅富士蘋果進行了測試,以切開時長2 h為分界線,將蘋果樣品分為2個新鮮等級,建立的支持向量機模型準確率為86.81%。以上研究表明,可見/近紅外光譜技術(shù)可被應(yīng)用于水果新鮮度的快速檢驗和評價,但在對樣品的新鮮度劃分上僅以放置時長為判斷標準,劃分方法較為主觀且單一。
本文以綠寶石藍莓為研究對象,測得其可見/近紅外光譜數(shù)據(jù)以及與藍莓新鮮度變化相關(guān)的6個理化指標,通過這些理化指標計算新鮮度綜合得分,將樣品劃分為新鮮、次新鮮、不新鮮3個類別。不同新鮮度類別的藍莓原始光譜數(shù)據(jù)采用Savitzky-Golay(S-G)卷積平滑進行預(yù)處理,再運用主成分分析提取特征信息,建立支持向量機和隨機森林2種新鮮度快速評價模型,比較2種模型的評價效果,以期為藍莓新鮮度的快速準確評價提供參考。
實驗儀器:LabSpec 5000型光譜儀,美國ASD公司;LYT-330型手持式折光儀,上海淋譽公司;Universal TA型質(zhì)構(gòu)儀,上海騰拔公司;UV-1801型紫外分光光度計,北京北分瑞利公司;PX-70BⅢ型生化培養(yǎng)恒溫箱,天津泰斯特公司。
實驗材料:藍莓選用的品種為綠寶石,2021年6月采于遼寧省米粒生鮮(丹東)商貿(mào)有限公司藍莓種植基地,挑選大小均勻、無損傷的成熟新鮮藍莓當天低溫貯藏運回實驗室,分組放置于專用包裝盒內(nèi)避免擠壓,再貯藏于恒溫箱內(nèi),恒溫箱內(nèi)溫度設(shè)置為10 ℃。
隨著貯藏時間的延長,由于蒸騰作用、呼吸消耗以及受到纖維素酶、果膠酶等影響,藍莓果實外觀色澤質(zhì)地改變、質(zhì)量減少、硬度下降、可溶性固形物在相關(guān)酶的作用下含量增加、內(nèi)部維生素C等被氧化[13-14]?;谏鲜隹紤],研究測定了與新鮮度相關(guān)的6個理化指標:外觀、貯藏天數(shù)、質(zhì)量損失率、硬度、可溶性固形物、維生素C,以此6個理化指標作為藍莓新鮮度指標,參考謝忠紅等[15]對菠菜新鮮度的劃分方法,以各指標的標準差除以標準差之和為每個指標賦予權(quán)值,求得每組藍莓新鮮度綜合得分,并據(jù)此劃分藍莓樣品新鮮度類別,以新鮮度類別作為分類標簽,進而基于可見/近紅外光譜數(shù)據(jù)建立新鮮度評價模型。
挑選大小均勻、無損傷的成熟新鮮藍莓分成300組,6個每組,裝于聚對苯二甲酸乙二醇酯專用水果包裝盒內(nèi),于10 ℃恒溫箱中貯藏。每次實驗前取30組藍莓,邀請15名接受過培訓(xùn)的同學(xué)作為專家進行外觀打分,待樣品恢復(fù)至室溫后采集其可見/近紅外漫反射光譜,之后進行相關(guān)理化指標的測定。樣品從貯藏當天開始測定,其間每天測定1次,每次30組樣品,共測定了10次。
采用ASD公司LabSpec 5000型光譜儀采集光譜,該儀器波長范圍為350~2 500 nm,在700 nm處光譜分辨率為3 nm,在1 400、2 100 nm處為10 nm。使用二分光纖及其探頭作為光譜檢測附件,光斑直徑為5 mm,檢測方式為漫反射,單波長快速掃描32次,使用配套軟件IndicoProVersion 3.1采集光譜,采集間隔為1 nm。采集樣品光譜前,先將機器預(yù)熱30 min,之后將二分光纖探頭對準聚四氟乙烯標準白板進行校正。掃描光譜時,先將藍莓表皮輕輕擦拭干凈,側(cè)放在墊有黑色植絨布的樣品盒內(nèi)。由于藍莓果實較小且大小形狀存在一定差異,為保證每個樣本光譜采集情況一致以及減少反射光散射外露,掃描樣品時光纖探頭與藍莓樣品表面直接緊密接觸,在樣品果腹赤道處每隔約120°位置掃描光譜 3次,以3次所得平均結(jié)果作為該單果樣品的可見/近紅外漫反射光譜,以每組中6個樣品的平均光譜代表該組樣本光譜,每采集完成1組樣品進行1次白板校正,光譜掃描時盡量避開表皮缺陷部位。
1.4.1 質(zhì)量損失率測定
采用電子天平稱量法測定,稱取每組樣品初始質(zhì)量w0,測量時質(zhì)量wt,單位為g,質(zhì)量損失率計算如公式(1)所示:
(1)
1.4.2 硬度測定
質(zhì)構(gòu)儀探頭采用P5型號,下壓距離為7.0 mm,測前、測試和測后速度分別為:2.00、1.00、2.00 mm/s,接觸力設(shè)為0.5 N。以第1次下壓曲線上最大力量值作為其硬度值,每組所有藍莓全部測定取平均,結(jié)果以N表示。
1.4.3 可溶性固形物含量測定
用研缽將6個果實搗碎均勻,紗布濾出幾滴汁液,使用手持式折光儀測定。重復(fù)測量3次取平均值,作為該組藍莓可溶性固形物實測量。
1.4.4 維生素C含量測定
維生素C測定參考黃綿佳[16]的方法。取2 g左右上述搗碎藍莓加入2 mL質(zhì)量分數(shù)1% HCl研磨均勻,加蒸餾水定容至25 mL。用濾紙濾出濾液2 mL,加0.2 mL質(zhì)量分數(shù)10% HCl后加水稀釋至10 mL。以蒸餾水為空白對照,使用紫外分光光度計在423 nm 處測待測液吸光度值,并查標準曲線(C=15.12A+0.122 2,R2=0.983 3,由抗壞血酸標準液測得)計算得出。
通過6個理化指標計算樣品新鮮度綜合得分,將藍莓樣品劃分為新鮮、次新鮮、不新鮮3個新鮮度類別,依次標記為1、2和3,作為新鮮度評價模型的分類標簽。原始光譜數(shù)據(jù)首先應(yīng)用S-G卷積平滑進行預(yù)處理,進而采用主成分分析提取光譜特征信息。以最佳主成分得分為輸入變量,新鮮度類別為輸出量,利用支持向量機和隨機森林2種方法建立藍莓新鮮度快速評價模型。
光譜導(dǎo)出和預(yù)處理軟件為The UnscramblerX 10.4,數(shù)據(jù)計算處理在matlab 2019a和Execl 2019軟件進行,繪圖軟件為Origin 2021,建模軟件選擇為matlab 2019a。
2.1.1 質(zhì)量損失率和硬度
藍莓貯藏前期,果實飽滿水分充足,而隨著貯藏時間的延長,果實中的水分不斷減少,營養(yǎng)物質(zhì)不斷被消耗,貯藏第9天時,果實表皮已嚴重皺縮。由圖1可知,0~9 d藍莓質(zhì)量損失率逐漸增加,截至最后1次測量時,果實質(zhì)量減少了13.40%。果實硬度不僅影響其外觀形狀,還對其口感有較大影響,如圖2所示,果實硬度值在貯藏期間不斷下降,至第9天時,硬度下降到最低值。硬度的變化可以反映其細胞壁構(gòu)成物質(zhì)、細胞間結(jié)合程度以及相關(guān)分解酶的變化。質(zhì)量減少和硬度降低主要表現(xiàn)出果實呈現(xiàn)萎蔫、疲軟或腐爛形態(tài),表皮光澤降低且變得不均勻。
圖1 質(zhì)量損失率變化圖Fig.1 Mass loss rate change diagram
圖2 硬度值變化圖Fig.2 Diagram of hardness value change
2.1.2 可溶性固形物和維生素C含量
可溶性固形物是反映藍莓品質(zhì)的重要指標,極大地影響其食用口感。可溶性固形物測定結(jié)果見圖3。由圖3可知,貯藏期間可溶性固形物含量總體呈上升趨勢,前6 d可溶性固形物含量增長迅速,然后增長速度放緩,這與李洋等[17]在10 ℃貯藏條件下貯藏前期的測定結(jié)果具有一致性。經(jīng)分析,可溶性固形物含量上升的主要原因是貯藏期間藍莓內(nèi)淀粉、纖維素和果膠被淀粉酶、纖維素酶和果膠酶分解,從而產(chǎn)生了大量可溶性固形物[18],貯藏前期可溶性固形物產(chǎn)生速度大于其消耗速度,表現(xiàn)為其含量在貯藏期間不斷上升。雖然繼續(xù)貯藏時,可溶性固形物含量會達到峰值然后下降,但此刻藍莓早已肉眼可見的不新鮮,再利用光譜無損檢測技術(shù)判斷藍莓新鮮度并無意義。
維生素C又稱抗壞血酸,能增強人體免疫能力,具有防治壞血病的作用,廣泛存在于各類果蔬中,是果蔬中的一種重要營養(yǎng)物質(zhì)。由圖4可知,隨著貯藏時間延長,維生素C含量逐漸下降,至貯藏第9天時減少了30.66%。維生素C具有還原性,在空氣中易被氧化。據(jù)分析,藍莓采后內(nèi)部維生素C含量下降主要是由于其被不斷氧化分解[19],且貯藏時間越長,維生素C含量降低越多。
實驗結(jié)果發(fā)現(xiàn),10 ℃恒溫貯藏下綠寶石藍莓在0~9 d貯藏期內(nèi),花青素含量總體在0.745 5~1.330 7 mg/g波動,變化不明顯。在評價藍莓樣品的新鮮度類別時,由于指標測量誤差的不可避免,過多的指標可能會使評價效果下降。因此,最終考慮質(zhì)量損失率、硬度、可溶性固形物、維生素C、外觀得分和貯藏天數(shù)作為新鮮度評價的指標。
圖3 可溶性固形物含量變化圖Fig.3 Diagram of variation of soluble solid content
圖4 維生素C含量變化圖Fig.4 Changes in vitamin C content
2.1.3 外觀評價
藍莓外觀評價參考了王培[20]對菠菜外觀評定的方法,采用專家打分法,邀請15名接受過培訓(xùn)的同學(xué)對藍莓外觀新鮮度進行評定。外觀評定時選取了3個和藍莓外觀密切相關(guān)的子指標,分別為色澤、香氣和質(zhì)地形態(tài)[21],3個子指標評價標準如表1所示。藍莓樣品按外觀標準劃分為新鮮、次新鮮、不新鮮3個類別,并量化為3、2、1分。將3個子指標兩兩對比并由專家進行打分,確定3個子指標權(quán)重,外觀3個子指標權(quán)重結(jié)果見表2。外觀評定結(jié)果見表3(此處僅展示第1組結(jié)果)。
表1 藍莓外觀新鮮度評價標準Table 1 Evaluation criteria for appearance freshness of blueberries
表2 二元對比排序法確定外觀各指標權(quán)重Table 2 Weight of every appearance decided by binary comparison sort
表3 第1組外觀評價結(jié)果 單位:人次
由表3可知,對該組藍莓外觀評價時,以色澤為標準,15人均判定為新鮮;以香氣為標準,14人認為新鮮,1人認為次新鮮;以形態(tài)質(zhì)地為標準時,15人均認為新鮮。該組藍莓的模糊關(guān)系矩陣M如公式(2)所示:
(2)
指標權(quán)重向量Z乘以模糊矩陣M,再乘以分值向量Y,得出該組樣品最終外觀得分F,如公式(3)所示:
F=Z·M·Y=
(3)
本次研究綜合考慮貯藏天數(shù)、外觀、質(zhì)量損失率、硬度、可溶性固形物、維生素C含量這6個指標。參考謝忠紅等[15]對菠菜新鮮度的劃分方法,采用各指標標準差占標準差之和的比值給每個指標賦予權(quán)值,計算出每組藍莓的新鮮度綜合得分,并根據(jù)綜合得分情況將樣品藍莓合理劃分為新鮮、次新鮮和不新鮮3個類別。
2.2.1 綜合得分
每組藍莓得到外觀、貯藏天數(shù)、可溶性固形物、硬度、質(zhì)量損失率和維生素C含量6個關(guān)于新鮮度的指標數(shù)值,將每個指標值歸一化到[0,1]并求標準差,再將各指標的標準差分別除以6個指標的標準差之和,得到各指標的指標權(quán)重bj,每組藍莓的新鮮度綜合得分為每個指標值aij與權(quán)重bj乘積的和。綜合得分計算如公式(4)所示:
(4)
式中:i,藍莓樣品編號;j,新鮮度6個理化指標;aij,第i組藍莓第j個指標數(shù)值;bj,第j個指標的權(quán)重;當j取貯藏時間、可溶性固形物、質(zhì)量損失率3個和新鮮度是負相關(guān)的指標時,k取1,其余取0。
為使綜合得分保持正值,其結(jié)果仍進行歸一化操作。各組樣品藍莓新鮮度綜合得分由高到低排序,并重新編號,得出藍莓新鮮度綜合得分曲線如圖5所示。由圖5可知,綜合得分曲線存在2個突變點,根據(jù)這2個突變點將藍莓樣品劃分為3組:[1,0.760 4]為新鮮,(0.760 4,0.331 9]為次新鮮,(0.331 9,0]為不新鮮。最終300組藍莓劃分為新鮮88組,次新鮮114組,不新鮮98組,分別標記為1,2和3。
圖5 藍莓新鮮度綜合得分曲線Fig.5 Blueberry freshness composite score curve
樣本集依照新鮮度綜合得分進行排序,采用隔三選一法[22]劃分為訓(xùn)練集和測試集。結(jié)果表明,訓(xùn)練集共計225組樣本,包含新鮮66組、次新鮮86組、不新鮮73組;測試集總計75組,包含新鮮22組,次新鮮28組和不新鮮25組。
2.4.1 波段選擇和預(yù)處理
藍莓光譜兩端噪聲較大,去掉此部分光譜數(shù)據(jù)可使模型達到更好效果,本文選取500~2 300 nm光譜進行分析。
光譜數(shù)據(jù)的準確性及有效性受到傳感器靈敏度、環(huán)境溫度和光照強度等因素的影響[23],合適的預(yù)處理手段可顯著提高信噪比,使模型的準確率大為提升。此處選擇三次多項式、平滑點數(shù)為15點的S-G卷積平滑算法[24]對光譜數(shù)據(jù)進行預(yù)處理,預(yù)處理前后的反射光譜如圖6所示。從圖6可看出,相比于原始光譜,預(yù)處理之后的光譜曲線更加平滑,系統(tǒng)噪聲更低、信噪比更高。
a-原始光譜;b-S-G平滑預(yù)處理后光譜圖6 預(yù)處理前后藍莓反射光譜圖Fig.6 Reflection spectra of blueberries before and after pretreatment
2.4.2 主成分分析
每一個樣本的光譜信息都有上千維的數(shù)據(jù),若直接使用其建立模型,計算量大,耗時長,且會導(dǎo)致建立的模型性能差、準確率低。主成分分析是一種常用的光譜數(shù)據(jù)降維和特征提取方法,能最大限度保留原始光譜信息,并加快模型訓(xùn)練速度,提高預(yù)測精度和魯棒性。繪制前3個主成分得分的三維散點圖如圖7所示(為避免圖中數(shù)據(jù)點堆積,僅展示測試集數(shù)據(jù)得分)。由圖7可看出,同一種新鮮類別數(shù)據(jù)點具有一定聚集性,但不同類別之間存在交叉部分,僅依靠主成分得分難以對不同新鮮類別樣本準確劃分。
圖7 主成分得分三維散點圖Fig.7 Three - dimensional scatter diagram of principal component scores
2.5.1 支持向量機模型及其參數(shù)尋優(yōu)
支持向量機(support vector machine,SVM)是一種強大的模式分類方法,常用于解決小樣本情況下的分類問題。其主要思想是將數(shù)據(jù)展開成高維,建立一個分類超平面來使支持向量間距最大化,并以此進行分類工作。SVM模型計算簡單,具有很強的通用性,能夠很好地預(yù)防欠學(xué)習(xí)與過學(xué)習(xí)的發(fā)生,具有十分強大的分類和回歸預(yù)測能力。臺灣大學(xué)林智仁教授等研發(fā)的LIBSVM工具箱,可快速有效地實行SVM模型的建立。應(yīng)用該工具箱時需對核函數(shù)、懲罰因子c及核參數(shù)g進行選擇,此處以徑向基函數(shù)為核函數(shù),懲罰因子c及核參數(shù)g利用粒子群算法(particle swarm optimization,PSO)進行尋優(yōu)。
PSO對SVM模型參數(shù)尋優(yōu)前,需首先確定模型輸入變量維數(shù),即主成分個數(shù)。主成分個數(shù)太少,不能很好提取光譜數(shù)據(jù)的主要信息,過多則降低模型的運算效率和準確率。為使最佳主成分選取更合理,在使用粒子群算法尋優(yōu)SVM參數(shù)時,對主成分數(shù)在[1,20]范圍內(nèi)進行了測試,結(jié)合5折交叉檢驗下驗證集平均準確率最佳值,確定最佳主成分個數(shù)。不同主成分個數(shù)下的5折檢驗平均準確率最佳值如表4所示。
由表4可以看出,不同主成分個數(shù)對模型識別效果有較大影響,主成分個數(shù)為5時效果最佳。此時PSO尋優(yōu)參數(shù)c和g的適應(yīng)度曲線如圖8所示。從圖8可以看出,最佳懲罰因子c=5.053 1、核參數(shù)g=1.800 5,5折交叉檢驗下的最佳判別準確率為97.78%。
表4 不同主成分個數(shù)5折交叉檢驗下的最佳值Table 4 The optimal value of 5 fold cross test for different principal components
圖8 PSO尋優(yōu)SVM參數(shù)適應(yīng)度曲線Fig.8 PSO optimizes SVM parameter fitness curve
2.5.2 隨機森林模型
隨機森林(random forest,RF)是基于統(tǒng)計學(xué)習(xí)和集成學(xué)習(xí)的一種算法,最早由BREIMAN和CUTLER提出,其采用Bootstrap法從數(shù)據(jù)集中有放回地隨機重采樣,訓(xùn)練產(chǎn)生多棵決策樹,多個相互獨立的決策樹進行獨立評價,最終統(tǒng)計判別結(jié)果,以多數(shù)決策樹的判定結(jié)果為最終類別值??屏_拉多大學(xué)博爾德分校JAIANTILAL開發(fā)的RF工具箱,常用于進行RF模型的建立。RF中決策樹個數(shù)ntree對模型效果有一定影響,通常樹的個數(shù)越多,模型預(yù)測效果越好,但計算量也會逐步增加。經(jīng)實驗反復(fù)測試,當ntree≥250以后,各分類情況的袋外數(shù)據(jù)誤差變化不大,因此將ntree設(shè)置為250。
2.5.3 模型效果比較
為比較SVM模型和隨機森林模型的分類效果,使用前5個主成分得分為輸入變量,藍莓新鮮度類別為輸出量,以徑向基函數(shù)為核函數(shù)、懲罰因子c=5.053 1、核參數(shù)g=1.800 5,以決策樹個數(shù)Ntree=250,建立SVM和RF 2種藍莓新鮮度評價模型,并對2種評價模型的預(yù)測效果進行驗證。
研究表明,SVM模型和RF模型訓(xùn)練集的平均分類準確率分別為97.78%和100%,SVM和RF模型測試集的分類統(tǒng)計結(jié)果如表5所示。對于測試集的75個樣本,SVM模型有9個被誤判,RF模型有12個樣本分類錯誤,總體識別準確率分別為88%和84%。由表5可知,SVM模型對測試集“新鮮”、“次新鮮”、“不新鮮”3個新鮮度類別的識別準確率分別為95.45%、89.29%和80%,RF模型的識別準確率分別為95.45%、85.71%和72%,相比RF模型,SVM模型每一新鮮度類別測試集的識別準確率提高0%、3.58%和8%。此外,兩者對于“新鮮”類別的識別準確率均高于其他2個新鮮度類別,造成這種現(xiàn)象的原因可能是由于后兩類別的部分樣本新鮮程度接近,從而造成兩者之間的誤判。以上研究結(jié)果表明,SVM新鮮度評價模型準確率更高,穩(wěn)定性和泛化能力均優(yōu)于RF模型,更適合藍莓新鮮度模型的建立。分析認為,在光譜這種噪音較大的數(shù)據(jù)集上,RF的模型容易陷入過擬合,而SVM模型具有很好的非線性映射能力,并且采用結(jié)構(gòu)風(fēng)險最小化準則,在處理小樣本分類問題上具有更大優(yōu)勢。
表5 模型識別結(jié)果統(tǒng)計Table 5 Model recognition result statistics
藍莓果實貯藏期間,新鮮度是反映果實品質(zhì)的一個重要的綜合指標,快速準確評價藍莓果實新鮮度是一項重要的工作。為實現(xiàn)對藍莓新鮮度的快速準確評價,利用可見/近紅外光譜儀采集不同貯藏天數(shù)藍莓樣品的光譜信息,使用S-G卷積平滑方法和主成分分析對光譜數(shù)據(jù)去噪和提取特征信息。綜合考慮6個理化指標:貯藏時間、外觀、質(zhì)量損失率、硬度、可溶性固形物和維生素C含量,計算新鮮度綜合得分,將所測300組藍莓樣品劃分為新鮮、次新鮮和不新鮮3個類別。在使用PSO尋優(yōu)SNM參數(shù)時,對主成分數(shù)在[1,20]范圍內(nèi)進行了測試,結(jié)合5折檢驗下驗證集平均準確率最佳值,確定最佳主成分個數(shù)為5個。以前5個主成分得分為輸入變量,建立SVM和RF新鮮度評價模型,獲得的識別準確率分別為88%和84%。相對于RF模型,SVM模型具有更高的準確率和魯棒性,可以更好地區(qū)分藍莓新鮮度的3個類別,研究表明可見/近紅外光譜技術(shù)結(jié)合SVM方法在藍莓新鮮度的快速評價方面具有良好的應(yīng)用潛力。