劉冬陽 孫曉榮 劉翠玲 尚經(jīng)開 張?zhí)礻?馮雨晨
(食品安全大數(shù)據(jù)技術(shù)北京市重點實驗室,北京工商大學計算機與信息工程學院,北京 100048)
小麥具有營養(yǎng)價值高、容易儲藏等特點,因此國家將其作為重要的商品糧食。中國是全球小麥生產(chǎn)量與消費量最大的國家,并且每年還需進口千萬噸的小麥,基本將其全部用于生產(chǎn)小麥粉產(chǎn)品以滿足國民的日常食用需求[1]?;曳质切←湻鄣囊环N主要成分,是指經(jīng)高溫灼燒后殘留下的無機成分占小麥粉的百分比?;曳謺绊懨嬷剖称返目诟泻蜕珴?,如全麥面包的灰分含量就會高于饅頭的含量,國標檢測常用的手段為850 ℃高溫定時法,費時費力且人工成本高[2]。近幾年小麥粉安全事件頻繁發(fā)生,這也揭露了小麥粉品質(zhì)檢測存在的問題和漏洞,體現(xiàn)了對小麥粉品質(zhì)進行高效準確檢測的重要性。
目前,拉曼光譜技術(shù)已被廣泛應用于材料、化工、石油、高分子、地質(zhì)等多個領域。在食品檢驗方面,Bruno等人[3]建立大豆油中共軛亞油酸(CLA)定量分析模型,相關(guān)系數(shù)R2達到0.97,實驗結(jié)果理想。Stefanov等[4]利用拉曼光譜結(jié)合PLS算法測定牛奶中支鏈脂肪酸,相關(guān)系數(shù)大于0.65。Di Anibal等[5]運用多種拉曼光譜技術(shù)檢測了烹飪香料中的蘇丹紅,結(jié)果顯示表面增強拉曼檢測結(jié)果最佳,說明表面增強拉曼光譜技術(shù)可用于區(qū)分出蘇丹紅摻假香料。張克勤等[6]采用激光拉曼技術(shù)檢測了五谷中的糖類和蛋白質(zhì),結(jié)果表明碳水化合物含量高于蛋白質(zhì)。
模擬退火算法在很多優(yōu)化問題上都有應用,但應用于光譜技術(shù)的研究較少,尤其是在拉曼光譜分析技術(shù)中的應用更是少之又少。石吉勇等[7]基于SAA優(yōu)化食醋總酸含量的定量模型,篩選出17個總酸特征波數(shù)點,其預測集R2為0.921優(yōu)于原始譜圖定量模型效果。Balabin等[8]對比16種優(yōu)化譜區(qū)算法對生物柴油特征的提取結(jié)果,得出模擬退火算法是優(yōu)化效果明顯的算法之一。
拉曼光譜譜峰覆蓋了5~4 000 cm-1波數(shù)范圍,同時拉曼光譜在采集時所需樣本也較少,因此無論是無機物還是有機物,拉曼光譜都可以測得[9-12]。旨在多角度尋求最優(yōu)檢測方法,豐富小麥粉檢測手段,運用11種不同預處理方法組合進行光譜預處理,再結(jié)合模擬退火算法優(yōu)化波數(shù),后建立偏最小二乘定量分析模型,提升模型整體預測能力和穩(wěn)健性,確定拉曼光譜檢測小麥粉品質(zhì)可行性并優(yōu)化模型。
1.1.1 用于定量分析的樣本
126個小麥粉樣本全部取自北京古船小麥粉廠,其種類包括富強粉,麥芯粉,精制雪花粉和面包粉。樣本中灰分真實值來自古船小麥粉廠檢驗人員按照國標法 GB5009.4—2016標準用電熱板碳化,進箱式馬弗爐灼燒測得的數(shù)據(jù)。灰分定量分析實驗隨機取92份樣本作為校正集,34份樣本作為測試集,灰分的取值范圍為0.46%~0.85% 。
1.1.2 儀器與設備
實驗采用DXR激光共焦顯微拉曼光譜儀采集小麥粉樣本的拉曼光譜。激光共焦顯微拉曼光譜儀參數(shù)設置為:激光波長780 nm,激光能量20 Ev,光柵400 lines/mm,光闌50 mm,估計分辨率4.7~8.7 cm-1,掃描次數(shù)16次,采集曝光時間為5 s。
1.2.1 拉曼光譜的采集
在掃描樣本前,首先要以實驗室內(nèi)空氣為背景,檢測光學臺內(nèi)激光。待激光能量值趨于穩(wěn)定后,取少量小麥粉樣本放置在載玻片上,再一同放置在10倍物鏡下,調(diào)節(jié)物鏡與載物臺之間的距離直到能清楚地觀察到小麥粉在顯微鏡下的成像,關(guān)閉樣品艙門,小麥粉在10倍物鏡下成像如圖1所示。實驗采用面掃描,每次取9個點,掃描出9條光譜,圖2為1次掃描單點的小麥粉樣本拉曼光譜圖。
圖1 小麥粉在10倍物鏡下成像
圖2 小麥粉拉曼光譜圖
1.2.2 模擬退火算法
模擬退火算法(SAA)起源于金屬的退火原理,材料先經(jīng)過升溫能量變大,原子發(fā)生移動,再經(jīng)冷卻能量減小,移動減慢,最后在常溫時達到全局穩(wěn)定狀態(tài)。而在模擬退火算法中,相當于算法先進行隨機搜索,在經(jīng)每一次狀態(tài)轉(zhuǎn)移后,進行局部搜索,最終找到最優(yōu)解。
拉曼光譜的波長點相當于退火材料的微觀狀態(tài),在確定目標函數(shù)和初始溫度后,隨機選擇一組波數(shù)作為初始解,并開始迭代。在迭代過程中,若新的目標函數(shù)優(yōu)于前一解的目標函數(shù),則將其作為最優(yōu)解。否則由接受準則判別是否接受這個解,滿足則進行當前解和目標函數(shù)的迭代,否則放棄新解。在迭代過程中算法內(nèi)置記憶器記錄了迭代過程中出現(xiàn)的最優(yōu)解和目標函數(shù)值,為了防止多個極值同時存在,在迭代終止時得到的歷史最優(yōu)解,即為優(yōu)選的波數(shù)點。
1.2.2.1 接受準則
接受準則用于迭代過程中判別算法是否接受當前解,有利于模擬退火算法最終選擇最優(yōu)解,是實現(xiàn)全局搜索的要素。
由解i到解j的接受概率由式(1)函數(shù)確定:
(1)
式中:f(i)、f(j)分別表示解i、j的目標函數(shù),t表示溫度/ ℃。
1.2.2.2 目標函數(shù)
目標函數(shù)是模擬退火尋優(yōu)過程的主要依據(jù)。在用拉曼光譜技術(shù)分析時,目標函數(shù)通常選擇校正模型的相關(guān)系數(shù)R2、交互驗證校正標準偏差(RMSECV)或者預測標準偏差(RMSEP)作為參數(shù)。
1.2.2.3 冷卻進度表
冷卻進度表包含了模擬退火控制進程的所有參數(shù),初始溫度T0,衰減因子α,馬爾可夫鏈長度Lk和終止條件S。當T0足夠大時算法的搜索范圍也會變大,但同時也增加了算法優(yōu)化的時間,因此降溫策略選擇指數(shù)降溫Tk+1=Tk×α。通常選取足夠小的衰減因子α用于避免馬爾可夫鏈過長,而終止條件S的值無限接近于0。
由模擬退火算法的原理可以看出,初始點選擇不具有依賴性,對于隨機搜索算法這是十分重要的優(yōu)勢,避免了因初始點選擇不當造成的優(yōu)化失敗,同時以一定幾率接受劣質(zhì)解,保證算法不陷入局部最優(yōu)且增加了尋優(yōu)靈活性。算法隱含并行性,采用并行策略優(yōu)化提升了收斂速度和解的質(zhì)量,善于搜索復雜區(qū)域,因此選擇了該算法進行波數(shù)篩選[13-14]。
實驗建立了關(guān)于灰分含量的PLS定量校正模型,并對檢驗集樣本進行預測。在不經(jīng)過波數(shù)篩選時,小麥粉中灰分拉曼全譜PLS定量模型實驗結(jié)果R2為0.724 3,RMSEC為0.0760,RMSEP為0.089 8,RPD為1.365 0,RMSEP/RMSEC為1.182 2。
實驗選用了導數(shù)、卷積(SG)平滑、歸一化、標準正態(tài)變換(standant normal variate transformation, SNV)、多元散射校正(multipicative scatter correction, MSC)共五種常用的光譜預處理法,構(gòu)成了11種優(yōu)化組合方法,并通過模擬退火算法優(yōu)化波數(shù)[15-17]。
由于冷卻進度表參數(shù)的設置是模擬退火算法尋優(yōu)過程的關(guān)鍵,實驗針對初始溫度以及衰減因子兩個重要參數(shù)進行了不同取值的對比分析,探索適合小麥粉PLS定量模型的最優(yōu)設置。由于模擬退火算法是一種隨機優(yōu)化方法,因此在每一組參數(shù)建立模型時,均優(yōu)化5次后取平均值作為該模型的實驗結(jié)果。模型的RMSEC和RMSEP隨初始溫度變化如圖3所示。
圖3 RMSEC與RMSEP隨初始溫度變化曲線
由圖3可知,模型的RMSEC和RMSEP隨初始溫度的升高逐漸減小,RMSEC在400、2 000和10 000 ℃數(shù)值較小,RMSEP在2 000 ℃ 數(shù)值較小。主要原因在于足夠大的初始溫度可以保證模型搜索全面,但隨著溫度的增加,優(yōu)化速度明顯降低,因此綜合以上因素,實驗選取400 ℃ 作為初始溫度。模型的RMSEC和RMSEP隨衰減因子α變化如圖4所示,可以看出,RMSEC和RMSEP在整體趨勢上隨衰減因子增高而降低,但是在0.98之后數(shù)值有所回升,RMSEC和RMSEP均在α為0.97時數(shù)值最小,因此實驗選取α=0.97作為衰減因子。
通過以上實驗以及參考相關(guān)文獻,研究最終選擇的冷卻進度表參數(shù)為T0=600 ℃,α=0.98,Lk=400,S=0.000 001 ℃[18-19],最終建立了關(guān)于灰分含量的PLS定量分析模型,優(yōu)化模型結(jié)果如表1所示:
圖4 RMSEC與RMSEP隨衰減因子變化曲線
R2RMSECRMSEPRPDRMSEP/RMSEC0.724 30.076 00.089 81.365 01.182 2SAA0.983 80.018 30.019 26.394 81.045 6+SAA0.987 40.016 20.016 87.306 61.036 7SG+SAA170.980 30.020 20.020 65.952 21.019 5250.974 60.023 00.021 15.802 60.920 3SG++SAA170.980 60.020 00.015 97.701 30.794 2250.975 10.022 70.020 85.900 20.915 6SG+SNV+SAA170.987 50.016 10.015 08.167 90.931 8250.984 90.017 70.020 95.866 31.180 0SG+MSC+SAA170.972 20.024 00.018 16.757 80.755 6250.955 80.030 30.023 75.182 40.781 8SG++SAA170.962 40.027 90.028 64.291 61.024 3250.975 10.022 70.019 46.316 30.854 6SG++SAA170.937 10.036 10.041 02.994 61.133 8250.941 80.034 70.026 24.672 60.755 8SG++SNV+SAA170.965 30.026 80.020 95.869 90.779 2250.956 60.030 00.025 04.903 00.833 9SG++MSC+SAA170.967 70.025 90.026 44.642 11.020 7250.980 00.020 30.022 25.524 81.091 0SG++SNV+SAA170.964 10.027 30.031 53.893 11.154 1250.972 60.023 80.022 85.373 30.957 1SG++MSC+SAA170.937 20.036 10.043 32.834 51.198 8250.952 30.031 40.031 13.944 50.988 9
從實驗結(jié)果可以看出,優(yōu)化組合方法結(jié)合模擬退火算法處理灰分定量模型后,模型各評價參數(shù)都有大幅度提升,11種預處理組合方法對性能參數(shù)有不同程度的影響,但在滿足模型穩(wěn)健性的前提下,所有優(yōu)化方式都可以滿足檢測準確性要求。其中SG(平滑17個點)+SNV+SAA的優(yōu)化方式效果最優(yōu),相關(guān)系數(shù)R2為0.987 5,RMSEC和RMSEP分別為0.016 1和0.15,RPD高達8.167 9,波數(shù)由3 320個點篩選為110個點,模型穩(wěn)健性參數(shù)良好,定量模型及預測結(jié)果如圖5所示,其中橫縱坐標分別表示小麥粉中灰分含量所占的百分比。
圖5 SG(17)+SNV+SAA的灰分拉曼定量模型
本實驗建立了小麥粉中灰分拉曼全譜PLS定量模型,經(jīng)11種優(yōu)化組合方法處理并通過模擬退火算法優(yōu)化波數(shù)。實驗結(jié)果表明,不同的優(yōu)化組合方法對指標有一定程度的影響,其中SG(17)+SNV+SAA的優(yōu)化方式效果最佳,這是因為卷積平滑法本身是一種加權(quán)平均方法,通過多項式對移動窗口內(nèi)信息進行擬合,其更加強調(diào)中心點的中心作用, 而SNV消除了固態(tài)或粉末狀樣本顆粒大小、表面散射及光程變動對光譜的影響, 二者相綜合,使各項指標大幅度提升,模型的準確性和穩(wěn)健性得到保障。從實驗結(jié)果中可以看出,在模型待測組分濃度與波數(shù)相關(guān)性以及模型預測準確性方面展現(xiàn)了自身的優(yōu)越性,預測準確性和誤差分布范圍也比較好。實驗結(jié)果顯示,拉曼光譜技術(shù)經(jīng)過預處理并結(jié)合模擬退火算法對小麥粉中灰分組分的定量分析有一定的可行性,本研究為小麥粉組分的定量分析提供了一種新的方法途徑,也為建立一個準確性高、穩(wěn)定性強、可應用于實際生產(chǎn)工作的優(yōu)秀小麥粉檢測模型提供借鑒。