王 冬,吳靜珠,韓 平*,王 坤
1.北京農(nóng)業(yè)質(zhì)量標準與檢測技術研究中心,北京 100097 2.北京工商大學食品安全大數(shù)據(jù)技術北京市重點實驗室,北京 100048 3.農(nóng)業(yè)農(nóng)村部農(nóng)產(chǎn)品質(zhì)量安全風險評估實驗室(北京),北京 100097
農(nóng)產(chǎn)品和食品的品質(zhì)優(yōu)劣一直是人們關注的熱點。農(nóng)產(chǎn)品及食品品質(zhì)與安全不僅關系著人們的身體健康,而且關系著社會穩(wěn)定甚至國家安全。近年來,由于農(nóng)產(chǎn)品及食品品質(zhì)不合格導致的安全事件依然多發(fā),造成了不良的社會影響。我國對農(nóng)產(chǎn)品及食品的消費量非常大,對大量農(nóng)產(chǎn)品及食品品質(zhì)的無損快速檢測成為當前亟待解決的問題。長久以來,對農(nóng)產(chǎn)品和食品品質(zhì)的高通量無損快速檢測一直是分析檢測領域的重點和難點[1]。
光譜分析法,尤其近紅外光譜分析,以其無損、快速、高效、環(huán)境友好以及可實現(xiàn)在線及現(xiàn)場檢測等諸多特點,為農(nóng)產(chǎn)品及食品品質(zhì)無損快速檢測提供了良好的解決方案。然而,傳統(tǒng)的光譜分析法在分析過程中所涉及的大量數(shù)據(jù)成為該方法應用過程中的瓶頸,主要表現(xiàn)為3個方面:(1)龐大的數(shù)據(jù)量增加建模過程的計算成本;(2)龐大的數(shù)據(jù)量對儀器裝備的硬件提出了很高的要求,間接增加了技術應用成本;(3)對樣品的預測仍采用全譜數(shù)據(jù)導致儀器工作效率降低,無法滿足農(nóng)產(chǎn)品及食品品質(zhì)高通量無損快速檢測的需求。
面對上述困難,近年來,尤其近十余年來,光譜變量篩選算法脫穎而出,并成為光譜分析的一個新熱點[2]。通過對光譜數(shù)據(jù)篩選關鍵變量,基于所選的少量關鍵變量數(shù)據(jù)即可建立準確度較高的校正模型,有效提高了工作效率,并間接地降低光譜分析的應用成本,進而為農(nóng)產(chǎn)品及食品品質(zhì)的高通量檢測提供了可靠的技術支持。目前,常用的關鍵變量篩選算法主要有以下幾個類型:(1)根據(jù)偏最小二乘(partial least square,PLS)模型的一些參數(shù)進行變量篩選[3-5],如無信息變量消除(uninformative variable elimination,UVE)、競爭自適應重加權采樣(competitive adaptive re-weighted sampling,CARS)等;(2)基于智能優(yōu)化算法進行變量篩選[6],如遺傳算法(genetic algorithm,GA)、模擬退火算法(simulated annealing,SA)等;(3)連續(xù)投影算法(successive projection algorithm,SPA);(4)模型集群分析策略變量篩選算法[7-8],如變量組合集群分析(variable combination population analysis,VCPA)、自舉柔性收縮算法(bootstrapping soft shrinkage,BOSS)等;(5)變量區(qū)間選擇算法[9],如區(qū)間偏最小二乘(interval partial least square,iPLS)、移動窗口偏最小二乘(moving window partial least square,MWPLS)。此外,為了提高變量篩選算法所選變量穩(wěn)定性,近年來,蒙特卡洛(Monte-Carlo,MC)方法[10-11]正越來越多地被運用到關鍵變量篩選過程中,通過多次蒙特卡洛方法抽樣選擇關鍵變量,對所選變量進行頻次統(tǒng)計,以提高所選變量的穩(wěn)定性。
本文針對光譜關鍵變量篩選在農(nóng)產(chǎn)品及食品品質(zhì)無損快速檢測中的應用,分別就糧食及糧食作物、蔬菜、水果、經(jīng)濟作物、肉類、食品品質(zhì)與安全等方向進行綜述,對光譜關鍵變量篩選技術的應用從篩選方法、應用范圍、應用效果等方面進行了分類總結歸納,并就光譜關鍵變量篩選技術在農(nóng)產(chǎn)品及食品品質(zhì)無損檢測中的應用從變量篩選方法特點及趨勢、所選變量的穩(wěn)定性和可靠性、所選變量的實際意義等方面進行了展望。
糧食是指烹飪食品中各種植物種子的總稱,富含蛋白質(zhì)、維生素、膳食纖維、脂肪等營養(yǎng)物質(zhì),是人們獲取能量的最主要來源,是國家之根本,其重要程度不言而喻。對糧食的品質(zhì)檢測關系到糧食儲備、流通、消費等諸多環(huán)節(jié)。一些學者就糧食及糧食作物品質(zhì)的無損快速檢測過程中關鍵變量的篩選進行了研究,并取得了一定的成果。
由此可見,關鍵變量篩選算法在糧食及糧食作物品質(zhì)無損快速檢測方面有一定的應用效果,可為糧食及糧食作物品質(zhì)的高通量無損快速檢測提供技術支持。其中,恰當?shù)剡x擇關鍵變量甚至可以建立準確度更高的校正模型。
蔬菜是指可以做菜、烹飪成為食品的植物或菌類,是人們?nèi)粘o嬍持斜夭豢缮俚氖澄镏?。蔬菜可提供人體所必需的多種維生素和礦物質(zhì)等營養(yǎng)物質(zhì),此外,蔬菜中還有多種多樣的植物化學物質(zhì),是人們公認的對健康有效的成分,對慢性疾病、退行性疾病有很好的預防作用。目前,近紅外技術已在蔬菜品質(zhì)無損檢測中得以應用[19],其中不乏一些學者就蔬菜品質(zhì)無損快速檢測過程中關鍵變量的篩選進行了研究,并取得了一定的成果。
從以上內(nèi)容可見,變量篩選算法在蔬菜品質(zhì)無損快速檢測中具有較好的應用效果,可為大量蔬菜的品質(zhì)無損快速檢測提供技術支持。其中不乏將多種變量篩選算法相結合的報道,例如將UVE與SPA相結合,在消除無信息變量的基礎上進一步去掉變量間的共線性,其對關鍵變量的篩選結果優(yōu)于單一變量篩選算法。
水果是指多汁且主要味覺為甜味和酸味、可食用的植物果實。水果不但含有豐富的營養(yǎng)物質(zhì),而且具有促進消化等保健作用。水果品質(zhì)無損快速分級正成為主流趨勢,而基于近紅外技術對水果進行無損快速檢測則可為水果品質(zhì)無損快速分級提供有效的解決方案。根據(jù)水果品質(zhì)的不同制定差異化價格進行銷售,更好地實現(xiàn)物盡其用,在提高水果利用率的同時還可避免浪費。一些學者就水果品質(zhì)無損速測過程中關鍵變量的篩選開展了研究,并取得了一定的成果。
王轉(zhuǎn)衛(wèi)等[31]采用近紅外漫反射光譜研究了富士蘋果品質(zhì)指標的無損快速檢測方法,采用主成分分析(principal component analysis,PCA)、SPA和UVE篩選關鍵變量,并結合LSSVM和極限學習機(extreme learning machine,ELM)建立校正模型;結果表明,SPA-ELM模型預測SSC,pH值準確度更高,RMSEP分別為0.44和0.006 8,PCA-ELM預測硬度、含水率準確度更高,RMSEP分別為0.26和0.62。Che等[32]采用可見-短波近紅外光譜研究了蘋果淤傷的檢測,采用隨機森林算法篩選關鍵變量,平均準確度達到99.9%,并根據(jù)隨機森林模型優(yōu)選出675和960 nm附近2個特征波段。Dong等[33]采用近紅外高光譜成像對富士蘋果在13周儲存期內(nèi)的SSC、硬度、水分和pH進行無損檢測,采用SPA、UVE算法篩選關鍵變量,并結合PLS、LSSVM、反向傳遞網(wǎng)絡建模(back propagation network modeling,BPNM)方法建立校正模型;結果表明,全部模型均可準確預測SSC和水分,SPA-LSSVM和全譜BPNM可粗略估算pH值,而采用上述任何模型預測硬度皆無法得到準確結果。在預測SSC、水分和pH值方面,SPA-LSSVM模型更具綜合性,預測相關系數(shù)分別為0.961,0.984和0.882。Li等[34]采用近紅外光譜研究了梨中SSC的無損檢測,采用MC-UVE和SPA算法相結合篩選關鍵變量,結合PLS算法建立校正模型;結果表明,與MC-UVE-PLS和SPA-PLS模型相比,MC-UVE-SPA-PLS模型穩(wěn)健性更好,而采用MC-UVE-SPA-PLS模型的18個關鍵變量所建SSC模型的校正集、預測集相關系數(shù)(r)分別為0.88和0.88,RMSE分別為0.49和0.35。進一步地,Li等[35]采用可見-近紅外光譜研究了多品種梨硬度的無損檢測,采用MC-UVE-SPA從全譜1 344個變量中篩選了17個關鍵變量,分別結合PLS和LSSVM建立校正模型;結果表明,MC-UVE-SPA-LSSVM模型預測準確度更高,“翠冠”、“黃花”、“清香”三種梨的預測集相關系數(shù)(r)分別為0.94,0.93和0.92,RMSEP分別為0.91,0.92和0.96。Zhang等[36]采用可見-短波近紅外高光譜成像研究了碭山梨糖含量的無損快速檢測,采用MC-UVE,SPA,CARS,GA,CARS-SPA和GA-SPA篩選關鍵變量,分別結合PLS、LSSVM、反向傳遞人工神經(jīng)網(wǎng)絡(back propagation-artificial neural network,BP-ANN)建立校正模型;結果表明,CARS-PLS和GA-SPA-PLS模型準確度更高,預測相關系數(shù)(rpre)分別為0.897 1和0.896 9,RMSEP分別為0.39%和0.35%。Guo等[37]采用近紅外光譜研究了4個品種桃的無損鑒別,采用PCA,UVE和SPA分別從全譜2 074個變量中篩選出8個主成分、1 067個、10個特征波長,分別結合LSSVM和ELM建立桃品種鑒別模型;結果表明,PCA-LSSVM,UVE-LSSVM模型以及PCA-ELM模型的準確率可達到100%,其他模型準確率皆不低于96%。Zhang等[38]采用可見-短波近紅外高光譜成像檢測桃表面缺陷,采用MC-UVE和SPA篩選關鍵變量,結合PLS算法建立判別模型;結果表明,基于少量特征波長可建立人工缺陷、非人工缺陷模型,人工缺陷、非人工缺陷、對照和樣品總準確度分別為87.5%,96.7%,95.0%和93.3%。Yu等[39]采用可見-短波近紅外高光譜研究枇杷缺陷的識別,采用CARS算法選擇了12個關鍵變量,結合PLS-DA算法建立判別模型;結果表明,CARS-PLS-DA模型對有缺陷枇杷的總體識別準確率為92.3%。Huang等[40]采用可見-近紅外高光譜成像研究了桑葚中總花青素含量和抗氧化活性的檢測,采用SPA,UVE和CARS三種波長選擇算法篩選關鍵變量,結合PLS和LSSVM建立校正模型;結果表明,9變量CARS-LSSVM模型預測總花青素含量的準確度更高,交互驗證R2=0.959,RPD=4.964,而18變量CARS-LSSVM模型預測抗氧化活性的準確度更高,交互驗證R2=0.995,RPD=14.255。Zhao等[41]采用可見-短波近紅外高光譜成像研究桑葚中總可溶性固形物(total soluble solid,TSS)的檢測,采用隨機蛙跳(random frog,RF)算法從512個變量中篩選關鍵變量,結合PLS,LSSVM建立TSS的校正模型;結果表明,RF-LSSVM(徑向核函數(shù))模型的校正集、交互驗證集、預測集相關系數(shù)(r)分別為0.999,0.958和0.956,校正均方根誤差(root mean square error of calibration,RMSEC)、交互驗證均方根誤差(root mean square error of cross validation,RMSECV)、RMSEP分別為0.061,0.453和0.430。Elfatih Abdel-Rahman等[42]采用可見-近紅外高光譜數(shù)據(jù)研究甘蔗葉中氮濃度的檢測,采用隨機森林(random forest,RF)算法篩選關鍵變量,結合逐步多元回歸算法建立校正模型;結果表明,非線性RF回歸模型測定系數(shù)R2=0.67,驗證均方根誤差(root mean square error of validation,RMSEV)=0.15%。Zhang等[43]采用可見-短波近紅外光譜建立哈密瓜SSC校正模型,采用CARS,UVE,CARS-SPA,UVE-SPA篩選關鍵變量,分別結合PLS和LSSVM建立校正模型;結果表明,哈密瓜赤道區(qū)域多光譜模型略優(yōu)于總體多光譜模型,UVE-SPA-PLS模型和CARS-SPA-LSSVM模型預測相關系數(shù)(RP)分別為0.914 3和0.914 3,RMSEP分別為0.835 9和0.895 8。Hu等[44]采用可見-短波近紅外光譜對哈密瓜SSC進行定量測定,采用SPA,MC-UVE,CARS和MC-UVE-SPA篩選關鍵變量,結合多元線性回歸(multiple linear regression,MLR),PLS和LSSVM建立校正模型;結果表明,MC-UVE-SPA篩選的18個變量建模準確度更高,MC-UVE-SPA-PLS,MC-UVE-SPA-LSSVM,MC-UVE-SPA-MLR模型預測哈密瓜SSC的RMSEP在0.95~0.99之間。Mithun等[45]采用高光譜數(shù)據(jù)結合RGB數(shù)據(jù)對天然成熟和人工催熟香蕉進行識別,采用隨機森林(random forest,RF)篩選關鍵變量,結合多層感知前向神經(jīng)網(wǎng)絡建立校正模型,自然成熟和人工催熟香蕉的識別準確度分別達到98.74%和89.49%。
從以上內(nèi)容可見,變量篩選算法在水果品質(zhì)無損快速檢測中具有較好的應用效果,可為大量水果的品質(zhì)無損快速檢測提供技術支持,將為水果收購入庫、精品出庫、分級銷售過程中的品質(zhì)無損快速檢測提供重要技術支持。
經(jīng)濟作物亦稱“工業(yè)原料作物”,一般指為工業(yè),特別是輕工業(yè)提供原料的作物。我國納入人工栽培的經(jīng)濟作物種類繁多,包括纖維作物(如棉、麻等)、油料作物(如芝麻、花生等)、糖料作物(如甘蔗、甜菜等)、三料(飲料、香料、調(diào)料)作物、藥用作物、染料作物、觀賞作物、水果和其他經(jīng)濟作物等。近年來,近紅外技術越來越多地被應用于經(jīng)濟作物品質(zhì)的無損檢測[46],其中一些學者就關鍵變量篩選進行了探索并取得了一定的成果。
從以上內(nèi)容可見,變量篩選算法在經(jīng)濟作物品質(zhì)無損快速檢測中具有較好的應用效果,可為經(jīng)濟作物的品質(zhì)無損快速檢測提供技術支持,進而可為提高產(chǎn)品附加值、增強產(chǎn)品市場競爭力提供技術保障。
肉類是指動物的皮下組織和肌肉,可以提供豐富的蛋白質(zhì)、脂肪和熱量。我國肉類消費總量近年來穩(wěn)居世界前列;在采用近紅外技術研究肉類品質(zhì)的無損快速檢測[55-56]中,針對肉類品質(zhì)無損檢測過程中的關鍵變量篩選,一些學者進行了探索并取得了一定的成果。
從以上內(nèi)容可見,變量篩選算法在肉類品質(zhì)無損快速檢測中具有較好的應用效果,其中不乏采用所選關鍵變量建立模型優(yōu)于全譜建模的例子,可為肉類品質(zhì)無損快速檢測提供技術支持,進而可為提高產(chǎn)品附加值、增強產(chǎn)品市場競爭力提供技術保障。
食品一直以來是人們獲取能量的重要來源,對人類的重要性不言而喻。食品安全(food safety)指食品無毒、無害,符合應當有的營養(yǎng)要求,對人體健康不造成任何急性、亞急性或者慢性危害。食品安全不僅關系著人們的身體健康,還關系到社會穩(wěn)定甚至國家安全。在食品品質(zhì)與安全無損檢測方面,近紅外技術近年來得以廣泛應用;面對巨大的檢測工作量,一些學者就光譜變量篩選在食品品質(zhì)與安全無損檢測中的應用開展了研究,并取得了一定的成果。
綜上所述,變量篩選算法在食品品質(zhì)與安全無損檢測領域具有一定的應用成果,恰當?shù)睾Y選關鍵變量可以使用較少的變量建立和全譜模型效果相近甚至超越全譜模型的校正模型,這將為食品品質(zhì)與安全的無損快速檢測、提高儀器工作效率等提供技術參考。
農(nóng)產(chǎn)品及食品是人們獲取能量的主要來源,其品質(zhì)與質(zhì)量安全不僅關系到百姓生活品質(zhì)與身體健康,而且關系著社會穩(wěn)定甚至國家安全。面對大量農(nóng)產(chǎn)品及食品的品質(zhì)檢測工作,通過對樣本采集全譜數(shù)據(jù)并篩選關鍵變量,從而簡化校正模型、提高儀器工作效率是一種較為有效的技術方案。
就本文獻綜述而言,關鍵變量篩選工作可主要歸納為以下兩方面趨勢。(1)多種關鍵變量篩選算法相結合,取長補短。很多學者將UVE、CARS等算法與SPA算法相結合,克服了UVE、CARS算法第一輪篩選后所選變量仍較多的缺點,并充分發(fā)揮了SPA去共線性的功能。(2)關鍵變量篩選研究過程越來越多地引入蒙特卡洛(Monte-Carlo,MC)方法,為所選變量穩(wěn)定性提供了保證。在樣本數(shù)有限的前提下,根據(jù)MC方法隨機生成多個子校正集并根據(jù)各子校正集篩選關鍵變量,在此基礎上統(tǒng)計關鍵變量出現(xiàn)的頻次,從而為穩(wěn)健關鍵變量的篩選提供了可能,進而克服了基于不同校正集所選關鍵變量有差異的困難。
然而,光譜關鍵變量的篩選目前仍存在一些問題,主要體現(xiàn)在以下三個方面。(1)光譜數(shù)據(jù)預處理對關鍵變量篩選的影響尚不明確。恰當?shù)臄?shù)據(jù)預處理可以增強光譜質(zhì)量,有利于光譜信息的提??;然而,光譜數(shù)據(jù)預處理對光譜關鍵變量的篩選有何影響,目前尚無定論。因此,在將來的研究中,針對不同狀態(tài)、不同化學環(huán)境的樣品,采用不同的光譜數(shù)據(jù)預處理對關鍵變量篩選結果的影響將會是下一步工作中值得研究的內(nèi)容之一。(2)所選變量的可靠性以及方法的普適性仍有待提高。光譜關鍵變量的篩選在精簡建模變量的同時剔除了冗余變量是目前對光譜變量篩選算法的共識。然而,在關鍵變量篩選過程中,根據(jù)所選變量建立的校正模型的準確度是否能達到實際工作需要,亦即所選變量的可靠性,以及變量篩選方法的普適性仍然是需要注意的問題。一般而言,對于統(tǒng)一體系,隨著所選變量數(shù)目的減少,基于所選關鍵變量數(shù)據(jù)所建校正模型的準確度大體上呈下降趨勢,但也不乏基于所選關鍵變量所建校正模型的預測準確度接近甚至優(yōu)于全譜模型的例子;目前普遍認為基于所選關鍵變量建模的準確度和全譜建模準確度接近或能夠滿足實際工作需要即是可行的。值得注意的是,雖然一些學者的研究表明,恰當?shù)睾Y選關鍵變量并基于所選關鍵變量數(shù)據(jù)建立校正模型的準確度完全可以滿足實際工作需要,接近甚至優(yōu)于全譜建模結果,但是上述結論對于種類、樣式繁多的農(nóng)產(chǎn)品及食品,以及各種各樣品質(zhì)指標是否具有普適性,仍存在一定的不確定性。因此,對于關鍵變量篩選工作,所選變量的穩(wěn)定性、可靠性以及方法的普適性仍是需要繼續(xù)研究的內(nèi)容之一。(3)所選變量的理化含義有待進一步解析。以近紅外光譜為例,近紅外光譜主要來源于分子中含氫基團的合頻與倍頻吸收,而對近紅外光譜篩選關鍵變量的過程很少有學者從分子角度討論所選波長變量的歸屬或其理化意義。雖然一些學者就所選關鍵變量的歸屬做了簡要的分析,但仍然停留在化學鍵的層面,沒有上升為分子層面。而對所選關鍵波長變量從分子層面進行解析不僅可以間接驗證變量篩選算法的正確性、有效性和變量篩選算法的普適性,而且有利于從分子角度揭示所建模型的機理。因此,對所選光譜關鍵變量從分子角度解釋其理化意義將成為今后有待進一步研究的內(nèi)容之一。
綜上所述,光譜關鍵變量篩選在精簡光譜變量數(shù)、提高建模和儀器工作效率方面可以提供良好的解決方案,可為大量農(nóng)產(chǎn)品及食品品質(zhì)與安全檢測工作提供有效的技術保障;此外,光譜關鍵變量的篩選在精簡輸入變量方面具有十分重要的作用,因此還可為專用型儀器的研發(fā)提供可靠的技術支持,從而可為降低光譜分析技術的應用成本、擴展光譜分析技術的應用范圍奠定堅實的理論基礎。