肖仕杰 王巧華 李春芳 趙利梅 劉鑫雅 盧士宇 張淑君
摘要:蛋白質(zhì)、脂肪含量和體細(xì)胞數(shù)量作為牛乳收購中的重要參考指標(biāo),決定了牛乳的品質(zhì)和價格。為批量準(zhǔn)確地對牛乳品質(zhì)進(jìn)行分級,提高乳企的生產(chǎn)效率,本研究以3216份荷斯坦牛牛乳樣本為研究對象,應(yīng)用中紅外光譜技術(shù)實現(xiàn)對收購過程中4種不同品質(zhì)牛乳的檢測分級。利用一階導(dǎo)數(shù)和一階差分對光譜進(jìn)行預(yù)處理,并結(jié)合競爭性自適應(yīng)重加權(quán)算法(Competitive Adaptive Reweighted Sampling ,CARS)和隨機(jī)蛙跳算法(Shuffled Frog Leaping Algorithm ,SFLA)篩選出能代表不同牛乳的有效特征變量,建立支持向量機(jī)(Support Vector Machine ,SVM)模型。其中,利用網(wǎng)格搜索法(Grid Search ,GS)、遺傳算法(Genetic Algo? rithm,GA)和粒子群算法(Particle Swarm Optimization ,PSO)對 SVM 模型的關(guān)鍵參數(shù)——懲罰參數(shù) c 和核函數(shù)參數(shù)g 進(jìn)行優(yōu)化。結(jié)果表明,SFLA 算法總體上優(yōu)于CARS 算法,PSO 優(yōu)化SVM 模型的效果最佳。一階差分預(yù)處理后,利用 SFLA 算法篩選特征變量建立的PSO-SVM 模型,訓(xùn)練集準(zhǔn)確率、測試集準(zhǔn)確率和曲線下面積(Area Under Curve ,AUC)分別為97.8%、95.6%和0.96489。該模型具有較高的準(zhǔn)確率,在牛乳產(chǎn)業(yè)中具有實際應(yīng)用價值。
關(guān)鍵詞:中紅外光譜;牛乳;收購分級;隨機(jī)蛙跳;支持向量機(jī)
中圖分類號: S37;O657.33文獻(xiàn)標(biāo)志碼: A文章編號:202107-SA003
引用格式:肖仕杰, 王巧華, 李春芳, 趙利梅, 劉鑫雅, 盧士宇, 張淑君. 基于隨機(jī)蛙跳和支持向量機(jī)的牛乳收購分級模型構(gòu)建[J].智慧農(nóng)業(yè)(中英文), 2021, 3(4):77-85.
XIAO Shijie, WANG Qiaohua, LI Chunfang, ZHAO Limei, LIU Xinya, LU Shiyu, ZHANG Shujun. Construction of milk purchase classification model based on? shuffled frog leaping algorithm? and? support vector machine[J]. Smart Agriculture, 2021, 3(4):77-85.(in Chinese with English abstract)
1? 引言
蛋白質(zhì)和脂肪是牛乳的重要營養(yǎng)組成成分,是決定牛乳品質(zhì)和價格的關(guān)鍵因素。乳脂和乳蛋白含量一直作為牛乳的收購參考指標(biāo)[1]。此外,SCC不高于20萬個時,奶牛身體為健康狀態(tài)[4];當(dāng)超過此界限,SCC數(shù)量遞增的同時,牛乳的品質(zhì)以及奶牛的產(chǎn)奶量均會下降;1 mL 牛乳中 SCC 高于50萬個時,奶牛有很大機(jī)率感染亞臨床乳房炎(乳腺炎),牛乳品質(zhì)進(jìn)一步降低[2];若 1 mL 牛乳中 SCC高于100萬個,奶牛很有可能患有臨床乳房炎[5]。
近年來,中紅外光譜(Mid-infrared Spectroscopy ,MIRS)被廣泛用于牛乳中各成分的無損檢測[6-9],因此MIRS技術(shù)為牛乳收購中鑒別不同等級牛乳提供了一種有效手段。然而,MIRS 的波長范圍廣,在包含豐富有效信息的同時,也包含很多冗余信息和背景噪聲,對模型造成干擾。因此,分析并揭示中紅外光譜的響應(yīng)規(guī)律,篩選出最能代表不同等級牛乳的差異波段,對簡化 MIRS 模型、提高模型精度和效率具有重要意義。
篩選變量的方法可分為三大類:變量優(yōu)化選擇法、變量區(qū)間選擇法以及變量信息選擇法。變量優(yōu)化選擇法通過創(chuàng)造一個合適的目標(biāo)函數(shù)以尋找最優(yōu)變量組合,主要包括遺傳算法(Genetic? Algorithm , GA)[10]、粒子群算法(Particle? Swarm Optimization ,PSO)[11]、模擬退火算法(Simulated Annealing Algorithm ,SAA)[12, 13]等。變量區(qū)間選擇法通過篩選多個光譜區(qū)間作為有效變量區(qū)間組合,區(qū)間數(shù)目的選擇直接影響模型的結(jié)果,包括間隔偏最小二乘法(Interval Partial? Least Squares ,iPLS)[14]、前向間隔偏最小二乘法(Forward Interval PLS ,F(xiàn)iPLS)[15]、后向間隔偏最小二乘法(Backward Interval PLS ,BiPLS)[16]和移動窗口最小二乘法(Moving Window Partial? Least Squares ,MWPLS)[17, 18]。變量信息選擇法將信息變量作為描述變量在模型中所起作用大小的指示變量,其中競爭性自適應(yīng)重加權(quán)算法(Competitive? Adaptive?? Reweighted?? Sampling, CARS)[19]、無信息變量消除法(Elimination of? Uninformative Variables ,UVE)[20]和連續(xù)投影法(Successive Projections Algorithm ,SPA)[19]是較為流行的幾種算法。另外,一些新型的組合優(yōu)化算法如隨機(jī)蛙跳算法(Shuffled Frog Leaping Al‐gorithm,SFLA)[21,22]被廣泛應(yīng)用于農(nóng)業(yè)工程。此外,主成分分析(Principal Component Analy‐sis ,PCA)等算法也用于壓縮數(shù)據(jù),但一般不用來做直接的特征提取而是用來做特征矩陣的降維[23]。與 CARS 、SFLA算法等直接篩選代表性變量相比,主成分各個特征維度的含義具有一定的模糊性,不如原始樣本特征的解釋性強(qiáng)。
本研究以河北地區(qū)9個牧場的牛乳為研究對象,分析牛乳收購中不同等級牛乳的光譜特征,利用 CARS算法和 SFLA算法篩選特征變量,建立 SVM模型,為MIRS技術(shù)在牛乳收購過程中提供支持。
2? 材料與方法
2.1 試驗材料
研究采用的3216份牛乳樣本均來源于河北省9個牧場的荷斯坦牛。奶牛飼養(yǎng)于平均環(huán)境溫度為10~29℃ 、相對濕度為45%~78%的可連續(xù)取水的牛棚。2019年 11月~2020年 10月(不包括2月)期間,從晨乳中收集樣本。每個月采集一次樣本,當(dāng)天上午5:30開始采集,上午采完。使用全自動轉(zhuǎn)盤擠奶設(shè)備逐頭精確采集每頭奶牛40 mL 的牛乳,然后將牛乳放入從奶牛群體改良(Dairy Herd Improvement ,DHI)檢測實驗室獲得的全新特定采樣瓶中,并依次編號。共采集3216份牛乳樣本。為防止牛乳變質(zhì),在每個采樣瓶中加入了專用防腐劑布羅波爾3.2~3.4μL 后,立即放入冰箱保存(4℃),并于第二天進(jìn)行光譜采集。
2.2 試驗方法
2.2.1?? 光譜采集、乳成分及SCC檢測設(shè)備:乳成分分析儀MilkoScanTM FT+(傅
里葉變換中紅外光譜儀 FTIR),體細(xì)胞檢測儀FossomaticTM7。
所有牛乳均在河北省DHI檢測中心完成數(shù)據(jù)采集。具體步驟為:將電熱恒溫水浴鍋預(yù)熱至(42±0.2)℃,將牛乳分批放入,加熱15~20 min 后搖晃均勻,使用MilkoScanTM FT+采集光譜以及蛋白質(zhì)和脂肪含量測定。
此外,使用FossomaticTM7測定牛乳中的體細(xì)胞數(shù)。
2.2.2? 收購分級標(biāo)準(zhǔn)
T/HLJNX 001-2018《黑龍江省食品安全團(tuán)體標(biāo)準(zhǔn)》為黑龍江省乳制品企業(yè)牛乳收購和質(zhì)量監(jiān)督的參考依據(jù),以此標(biāo)準(zhǔn)為參考標(biāo)準(zhǔn),結(jié)合 SCC進(jìn)行分級。分級標(biāo)準(zhǔn)如表1所示。
2.2.3? 樣本劃分
以表1 為依據(jù)對牛乳分級。所有牛乳中,特級牛乳數(shù)量為940份,一級牛乳數(shù)量為826份,二級牛乳數(shù)量為537份,低質(zhì)量牛乳數(shù)量為913 份。按照約7:3的原則利用隨機(jī)劃分 RS (Random Selection)算法將樣本集劃分為訓(xùn)練集和測試集。樣本集的劃分情況如表2所示。
2.3 數(shù)據(jù)處理
2.3.1?? 特征變量篩選
CARS算法以降低無信息變量為出發(fā)點,模型運行過程中,以PLS回歸系數(shù)為衡量標(biāo)準(zhǔn),根據(jù)交叉驗證均方根誤差(Root Mean Square Error of Cross-Validation ,RMSECV)對應(yīng)的位置選擇最優(yōu)的子集代表特級、一級、二級和低質(zhì)量牛乳中紅外光譜差異的特征變量組合。
SFLA算法將全局搜索性能良好的粒子群算法和局部搜索能力較強(qiáng)的元算法進(jìn)行結(jié)合,從而可以獲得強(qiáng)大的尋優(yōu)能力。
2.3.2? 基于參數(shù)尋優(yōu)的支持向量機(jī)模型
支持向量機(jī)(Support? Vector ?Machine,SVM)[24]是基于機(jī)器學(xué)習(xí)方法的強(qiáng)大多元技術(shù),由Vapnik和 Burges 首次引入[25,26]。簡單來說,SVM 利用核技巧將輸入向量映射到更高維的特征空間中,然后構(gòu)造最大邊距分離超平面進(jìn)行特級、一級、二級和低質(zhì)量牛乳的分類。在本研究中,使用徑向基函數(shù)(Radial Basis Function,RBF)構(gòu)建模型,利用網(wǎng)格搜索法(GridSearch,GS)、GA 和 PSO 對 RBF核函數(shù)的兩個重要參數(shù)懲罰參數(shù) c 和核函數(shù)參數(shù) g 進(jìn)行優(yōu)化,分別建立GS-SVM 、GA-SVM和PSO-SVM模型。
2.3.3? 模型評估
利用準(zhǔn)確率作為模型的主要評價指標(biāo),訓(xùn)練集準(zhǔn)確率與測試集準(zhǔn)確率越高且兩者越接近,表明模型的精度高,可靠性好。
準(zhǔn)確率=???????????????????? ×100%??? ( 1)
3? 結(jié)果與討論
3.1 不同牛乳的光譜分析
特級、一級、二級和低質(zhì)量牛乳在MIRS范圍內(nèi)的原始吸收曲線如圖1 。可以看出,牛乳的光譜曲線嚴(yán)重重疊,由于水的干擾, 1597~1712 cm-1和 3024~3680 cm-1左右的區(qū)域信噪比低[27],無法用于建模。不同牛乳的平均光譜曲線走向趨勢相似(圖2),表明它們的內(nèi)部化學(xué)成分基本一致,但同時它們的光譜又存在差異,表明4類牛乳的化學(xué)成分含量存在差異。其中,一級牛乳和二級牛乳的平均光譜十分接近,通過肉眼難以區(qū)分,特級和低質(zhì)量牛乳則與它們存在一定差異。根據(jù)福斯公司提供的乳成分的吸收情況可知,1754 cm-1左右的波峰主要與脂肪中 C =O鍵的伸縮振動有關(guān),2857 cm-1左右的波峰主要與脂肪酸鏈中的飽和 C-H 鍵的伸縮振動有關(guān),1470 cm-1左右的波峰主要與脂肪酸鏈中飽和C-H 鍵的彎曲振動有關(guān),1538 cm-1主要與N-H鍵的彎曲振動有關(guān)。
3.2 光譜預(yù)處理和特征變量選擇
選擇925~1597 cm-1 和1712~3024 cm-1 的敏感波段組合作為全光譜,分別利用一階差分和一階導(dǎo)數(shù)預(yù)處理。
預(yù)處理后的全光譜信息得到增強(qiáng),但光譜維數(shù)過多,會導(dǎo)致 SVM 模型收斂速度慢,全光譜中還存在與牛乳分級不相關(guān)的變量,直接用于建模會對模型造成干擾。使用 CARS算法、SFLA 算法分別進(jìn)一步提取有用變量,剔除無信息變量,找出能夠代表特級、一級、二級和低質(zhì)量牛乳的變量組合,簡化模型,提高預(yù)測精度。
3.2.1?? 采樣 CARS 算法篩選特征變量建立 SVM模型
本研究利用5折交叉驗證,將重采樣率設(shè)置為0.8。將 CARS 的重采樣次數(shù)分別設(shè)為50、100和 200次,對比了不同重采樣次數(shù)對 SVM 模型效果的影響,最終將重采樣次數(shù)定為100次。以一階導(dǎo)數(shù)預(yù)處理后的光譜數(shù)據(jù)為例闡述 CARS算法進(jìn)行變量選擇的過程。圖3 (a)為被選取的特征變量數(shù)隨著重采樣運行次數(shù)的變化曲線。由圖3 (b)可知,在100次重采樣中,當(dāng)重采樣次數(shù)為62時,對應(yīng)最小交叉驗證均方根誤差值為0.5441,此時各變量的回歸系數(shù)位于圖3(c)中豎線位置,取得最優(yōu)變量組合。
如表3所示,利用 CARS算法對全光譜、一階導(dǎo)數(shù)光譜和一階差分光譜篩選的特征變量數(shù)分別為 30、 17和 19,依次建立 GS-SVM 、GA-SVM 和 PSO-SVM 分級模型。與全光譜數(shù)據(jù)相比,一階導(dǎo)數(shù)處理后建立的分級模型預(yù)測性能均得到提升,而一階差分處理后的分級模型預(yù)測性能均有所下降,三種模型均在一階導(dǎo)數(shù)處理后獲得最高的分級準(zhǔn)確率,GS-SVM模型的效果優(yōu)于 GA-SVM 模型和PSO-SVM 模型,其訓(xùn)練集準(zhǔn)確率為95.4%,測試集準(zhǔn)確率為94.5%。
3.2.2? 采樣 SFLA 算法篩選特征變量建立 SVM 模型
本研究中設(shè)置 SFLA 運行次數(shù) N 為10, 000,最大潛在變量數(shù)A 為6 ,抽樣變量的初始數(shù)量 Q 為2。利用概率的大小作為變量篩選的評價指標(biāo),在圖4 中,橫坐標(biāo)代表每一維光譜變量的編號,縱坐標(biāo)代表被選擇的概率。波峰越高,表明變量被選中的可能性越大。以一階差分處理后的515 維光譜為例,將515個變量被選的概率排序,以0.1為閾值,最終得到位于圖中虛線上方的146個最優(yōu)變量組合。
如表4所示,利用 SFLA算法對全光譜、一階導(dǎo)數(shù)光譜和一階差分光譜篩選的特征變量數(shù)分別為 23、77和 146,依次建立 GS-SVM 、GA- SVM和PSO-SVM分級模型。一階導(dǎo)數(shù)和一階差分處理后的分級模型性能均得到顯著提高,三種模型在一階差分處理后獲得最高的分級準(zhǔn)確率。其中,PSO-SVM 模型的效果優(yōu)于 GS-SVM 模型和 GA-SVM 模型,訓(xùn)練集準(zhǔn)確率和測試集準(zhǔn)確率分別為97.8%和95.6%。
對比發(fā)現(xiàn),未處理的全光譜結(jié)合CARS算法建立的模型測試集準(zhǔn)確率為93.8%~93.9%,預(yù)處理后的全光譜結(jié)合CARS算法建立的模型測試集準(zhǔn)確率為93.6%~94.5%(表3)。未處理的全光譜結(jié)合 SFLA算法建立的模型測試集準(zhǔn)確率為90.0%~90.8%,預(yù)處理后的全光譜結(jié)合 SFLA算法建立的模型測試集準(zhǔn)確率為 94.2%~95.6%(表4)。無論是采用一階導(dǎo)數(shù)還是一階差分預(yù)處理,與未處理的全光譜相比,SFLA算法對模型性能的提升明顯優(yōu)于CARS算法。
SFLA算法建立的3種最佳模型均優(yōu)于CARS算法建立的模型。其中,通過一階導(dǎo)數(shù)-CARS算法篩選的特征變量數(shù)僅占全光譜的3.29%,一階差分-SFLA算法篩選的特征變量數(shù)占全光譜變量數(shù)的28.29%,因此,SFLA算法篩選的有效變量更多,更具代表性,模型的預(yù)測能力更強(qiáng)。
3.3 三種SVM模型對比
確定一階差分-SFLA算法建立的模型效果最優(yōu)后,對比不同的尋優(yōu)算法對SVM模型的影響。同時,通過受試者工作特征(Receiver Operating? Characteristic ,ROC)曲線和 ROC 曲線下面積(Area Under Curve ,AUC)[28]進(jìn)一步評價三種 SVM 模型。ROC 曲線可以反應(yīng)分類器在某個閾值時對樣本的識別能力,曲線越趨近坐標(biāo)軸左上方位置,曲線下方與X軸圍成的面積AUC越大,模型的性能越好。由圖5可知,GS-SVM 、GA- SVM 、PSO-SVM 模型 ROC 曲線的 AUC 分別為0.95786、 0.95935和 0.96489, PSO-SVM 優(yōu)于 GS-SVM和GA-SVM模型。
對比發(fā)現(xiàn),通過GS得到的c值較大,g值較小,而通過GA和PSO算法得到的c值較小,g值較大。其中,c與 SVM算法對奇異點的重視程度有關(guān),c值不宜過大或過小,否則會對模型精度造成影響; g與 SVM算法的收斂速度有關(guān),g越大,支持向量越少,模型收斂越快[29]。PSO 尋優(yōu)算法建立的 SVM模型訓(xùn)練集準(zhǔn)確率、測試集準(zhǔn)確率和 AUC 值均優(yōu)于GS 和 GA算法(表5)。對比訓(xùn)練時間,GS 遠(yuǎn)大于 GA 和 PSO算法,因此,綜合考慮準(zhǔn)確率、AUC值和訓(xùn)練時間,最終選擇一階差分-SFLA-PSO-SVM 模型為最佳牛乳收購分級模型。
3.4 多分類預(yù)測結(jié)果混淆矩陣可視化
將一階差分-SFLA-PSO-SVM 模型的預(yù)測結(jié)果以混淆矩陣的形式表示(圖6)。其中,混淆矩陣主對角線上的綠色方框表明了特級、一級、二級和低質(zhì)量牛乳預(yù)測正確的樣本數(shù)和在總樣本中所占的比例,紅褐色方框則表明4類牛乳預(yù)測錯誤的樣本數(shù)和在總樣本中所占的比例,下、右的深灰色矩形框分別表示對應(yīng)樣本屬性預(yù)測召回率和精準(zhǔn)率。召回率即為正確預(yù)測為特級牛乳占全部實際為特級牛乳的比例、正確預(yù)測為一級牛乳占全部實際為一級牛乳的比例、正確預(yù)測為二級牛乳占全部實際為二級牛乳的比例以及正確預(yù)測為低質(zhì)量牛乳占全部實際為低質(zhì)量牛乳的比例。精準(zhǔn)率即為正確預(yù)測為特級牛乳占全部預(yù)測為特級牛乳的比例、正確預(yù)測為一級牛乳占全部預(yù)測為一級牛乳的比例、正確預(yù)測為二級牛乳占全部預(yù)測為二級牛乳的比例以及正確預(yù)測為低質(zhì)量牛乳占全部預(yù)測為低質(zhì)量牛乳的比例。
由圖6可知,測試集的964個樣本中,特級、一級、二級和低質(zhì)量牛乳的召回率分別為97.9%、94.8%、92.5%和 96.0%,精準(zhǔn)率分別為95.5%、95.5%、92.0%和 98.1%,誤判數(shù)量分別為6、13、12和11個。藍(lán)色方框為模型預(yù)測準(zhǔn)確率,為95.6%。
4? 結(jié)論
本研究以河北省9個牧場的3216份荷斯坦牛牛乳樣本為研究對象,分別測定牛乳中的脂肪、蛋白質(zhì)含量和體細(xì)胞數(shù)量并采集中紅外光譜,構(gòu)建了牛乳收購分級模型。主要結(jié)論如下:
(1)對特級、一級、二級和低質(zhì)量牛乳的原始光譜和平均光譜進(jìn)行分析并去除噪聲波段和無貢獻(xiàn)波段后,選擇925~1597 cm-1? 和1712~3024 cm-1 的敏感波段作為全光譜用于后續(xù)建模。
(2)對全光譜進(jìn)行預(yù)處理后,為了剔除光譜冗余信息,克服維數(shù)災(zāi)難,結(jié)合 CARS 算法和 SFLA算法進(jìn)行特征變量篩選。結(jié)果表明,當(dāng)利用CARS算法篩選特征變量時,一階導(dǎo)數(shù)為最佳預(yù)處理算法,當(dāng)利用 SFLA算法篩選特征變量時,一階差分為最佳預(yù)處理算法,SFLA算法總體上要優(yōu)于 CARS算法。最終選擇一階差分-SFLA-PSO-SVM 模型為牛乳收購分級的最佳模型,訓(xùn)練集準(zhǔn)確率、測試集準(zhǔn)確率和AUC 分別為97.8%、95.6%和0.96489。
(3)對比了GS 、GA和PSO三種參數(shù)尋優(yōu)算法的訓(xùn)練時間,結(jié)果表明 GS的訓(xùn)練時間遠(yuǎn)長于 POS和GA算法。
參考文獻(xiàn):
[1]朱海明, 程啟方. 瑞典牛奶檢測分級付款系統(tǒng)簡介[J].中國奶牛, 1997(4):52-54.
ZHU? H,? CHENG? Q. Brief introduction? of? Swedish milk testing grading payment system[J]. China DairyCattle, 1997(4):52-54.
[2]史慧茹, 姜瞻梅, 田波. 牛乳體細(xì)胞數(shù)的檢測方法[J].畜牧與飼料科學(xué), 2008(2):86-88.
SHI H, JIANG Z, TIAN B. Method for detecting so‐matic cell count in bovine milk[J]. Animal Husbandryand Feed Science, 2008(2):86-88.
[3]陳賀, 王帥, 陳紅玲. 烏魯木齊地區(qū)生鮮牛乳質(zhì)量分級研究[J].農(nóng)村科技, 2017(8):60-62.
CHEN H, WANG? S, CHEN H. Study on the qualityclassification? of fresh milk? in Urumqi? area[J]. RuralScience & Technology, 2017(8):60-62.
[4] SMITH K L. Standards for somatic cells in milk: Phys‐iologicaland? regulatory[J].? IDF? Mastitis? Newslett,1995, 144(21):7-9.
[5] KOLDWIJ E, EMANWLSON U. Relation of milk pro‐duction? lossto milk? somatic? cell? count[J]. ACTA VetScand, 1999, 40:47-56.
[6] GONDIM C, JUNQUEIRA R G, VITORINO C D S S,et al. Detection of several common adulterants in rawmilk by MID-infrared spectroscopy and one-class andmulti-class multivariate strategies[J]. Food Chemistry,2017, 230:68-75.
[7] TOFFANIN, V, PENASA, M, MCPARLAND, S, et al.Genetic parameters for milk mineral content and acidi‐ty predicted by mid-infrared spectroscopy in Holstein-Friesian cows[J]. Animal, 2015, 9(5):775-780.
[8] SOYEURT H, DEHARENG? F,? GENGLER N,? et? al.Mid-infrared? prediction? of? bovine? milk? fatty? acidsacross multiple breeds, production systems, and coun‐tries[J]. Journal of Dairy Science, 2011, 94(4): 1657-1667.
[9]李巧玲, 劉峰, 宋思遠(yuǎn), 等. 中紅外光譜法快速測定牛奶中非蛋白氮類物質(zhì)[J].食品工業(yè)科技, 2014, 35(22):73-75, 80.
LI Q, LIU F, SONG S, et al. Fast determination of non‐protein nitrogen content in milk based on mid-infraredspectroscopy? method[J]. Science? and? Technology? ofFood Industry, 2014, 35(22):73-75, 80.
[10] 吳珽, 梁龍, 朱華, 等. 海南制漿樹種中主要成分的近紅外分析與模型優(yōu)化[J].光譜學(xué)與光譜分析, 2021,41(5):1404-1409.
WU T, LIANG L, ZHU H, et al. Near-infrared analysisand models optimization of main components in Pulp‐wood of Hainan province[J]. Spectroscopy and Spec‐tral Analysis, 2021, 41(5):1404-1409.
[11] 花晨芝, 趙凌, 宋建軍, 等. 粒子群算法選擇特征波長在紫外光譜檢測COD中的研究[J].西華師范大學(xué)學(xué)報(自然科學(xué)版), 2019, 40(1):81-85.
HUA C, ZHAO L, SONG J, et al. Selection of wave‐length for UV-visible spectroscopy based on BLS com‐bined with PSO[J]. Journal of China West Normal University (Natural Sciences), 2019, 40(1):81-85.
[12] 石吉勇, 鄒小波, 王開亮, 等. 模擬退火算法用于食醋總酸含量近紅外光譜模型的波數(shù)點優(yōu)選[J].食品科學(xué), 2011, 32(10):120-123.
SHI J, ZOU X, WANG K, et al. Simulated annealing algorithm based wavenumber? selection? for total? acid content analysis in vinegar by near infrared spectroscopy[J]. Food Science, 2011, 32(10):120-123.
[13] 劉冬陽, 孫曉榮, 劉翠玲, 等. 拉曼光譜結(jié)合模擬退火的小麥粉灰分含量檢測[J].中國糧油學(xué)報, 2019, 34(5):128-133.
LIU D, SUN X, LIU C, et al. Detection of ash control of wheat flour based on Raman spectroscopy combined with simulated annealing[J]. Journal of the Chinese Cereals and Oils Association, 2019, 34(5):128-133.
[14] 周孟然, 孫磊, 卞凱, 等. iPLS波段篩選方法在食用油品上快速檢測研究[J].激光雜志, 2020, 41(7):13-17.?? ZHOU M, SUN L, BIAN K, et al. Band screening of iPLS for laser-induced fluorescence spectrum of edible oil[J]. Laser Journal, 2020, 41(7):13-17.
[15] 張烝彥, 葉沁, 劉曉穎, 等. 傅里葉變換衰減全反射紅外光譜結(jié)合向前區(qū)間偏最小二乘法快速測定食用油中總極性化合物 [J].浙江農(nóng)業(yè)科學(xué) , 2019, 60(6):1003-1007.
ZHANG Z, YE Q, LIU X, et al. Fourier transform attenuated? total? reflection? infrared? spectroscopy? combined with forward interval partial least squares method for rapid determination of total polar compounds in edible oil[J]. Journal of Zhejiang Agricultural Sciences, 2019, 60(6):1003-1007.
[16] 王拓,戴連奎, 馬萬武. 拉曼光譜結(jié)合后向間隔偏最小二乘法用于調(diào)和汽油辛烷值定量分析[J].分析化學(xué), 2018, 46(4):623-629.
WANG? T,? DAI? L,? MA W. Quantitative? analysis? of blended gasoline octane number using Raman spectroscopy with backward interval partial least squares method[J]. Chinese Journal of Analytical Chemistry, 2018, 46(4):623-629.
[17] 史智佳, 李鵬飛, 呂玉, 等. 移動窗口偏最小二乘法優(yōu)選豬油丙二醛近紅外光譜波段[J].中國食品學(xué)報, 2014, 14(11):207-213.
SHI Z, LI P, LYU Y, et al. Region optimization in FT- NIR? spectroscopy? for? determination? of MDA in? lard with moving window partial least? squares[J]. Journal of Chinese Institute of Food Science and Technology, 2014, 14(11):207-213.
[18] 許良, 閆亮亮, 塞擊拉呼, 等. 近紅外光譜結(jié)合可移動窗口偏最小二乘法對克霉唑粉末藥品的定量分析[J].計算機(jī)與應(yīng)用化學(xué), 2016, 33(4):415-418.
XU L, YAN L, SAIJLAHU, et al. Quantitative analysisof Clotrimazole powder drugs by using moving win‐dow partial least square method combined with near-in‐frared spectroscopy[J]. Computers and Applied Chem‐istry, 2016, 33(4):415-418.
[19] 李慶旭, 王巧華, 馬美湖, 等. 基于可見/近紅外光譜和深度學(xué)習(xí)的早期鴨胚雌雄信息無損檢測[J].光譜學(xué)與光譜分析, 2021, 41(6):1800-1805.
LI Q, WANG Q, MA M, et al. Non-destructive detec‐tion of male and female information of early duck em‐bryos based on visible/near infrared spectroscopy anddeep learning[J]. Spectroscopy and Spectral Analysis,2021, 41(6):1800-1805.
[20] 付丹丹, 王巧華, 高升, 等. 不同品種雞蛋貯期 S-卵白蛋白含量分析及其可見/近紅外光譜無損檢測模型研究[J].分析化學(xué), 2020, 48(2):289-297.
FU D, WANG Q, GAO S, et al. Analysis of S-Ovalbu‐min content of different varieties of eggs during stor‐age? and? its? nondestructive? testing? model? by? visible-near infrared spectroscopy[J]. Chinese Journal of Ana‐lytical Chemistry, 2020, 48(2):289-297.
[21] 韓毅, 蔡建湖, 周根貴, 等. 隨機(jī)蛙跳算法的研究進(jìn)展[J].計算機(jī)科學(xué), 2010, 37(7):16-19.
HAN Y, CAI J, ZHOU G, et al. Advances in shuffledfrog leaping algorithm[J]. Computer Science, 2010, 37(7):16-19.
[22] 孫晶京, 楊武德, 馮美臣, 等. 基于隨機(jī)蛙跳和支持向量機(jī)的冬小麥葉面積指數(shù)估算[J].山西農(nóng)業(yè)大學(xué)學(xué)報(自然科學(xué)版), 2020, 40(5):120-128.
SUN J, YANG W, FENG M, et al. Estimation of winterwheat leaf area index based on random leapfrog andsupport? vector? regression? approach[J].? Journal? ofShanxi Agricultural University (Natural? Science? Edi‐tion), 2020, 40(5):120-128.
[23] 王巧華, 梅璐, 馬美湖, 等. 利用機(jī)器視覺與近紅外光譜技術(shù)的皮蛋無損檢測與分級[J].農(nóng)業(yè)工程學(xué)報,2019, 35(24):314-321..
WANG Q, MEI L, MA M, et al.Nondestructive testingand grading of preserved duck eggs based on machinevision and near-infrared spectroscopy[J]. Transactionsof the CSAE, 2020, 40(5):120-128.
[24] 黃平捷, 李宇涵,俞巧君, 等. 基于 SPA 和多分類SVM 的紫外-可見光光譜飲用水有機(jī)污染物判別方法研究[J].光譜學(xué)與光譜分析, 2020, 40(7):2267-2272.
HUANG P, LI Y, YU Q, et al. Classify of organic con‐taminants in water distribution systems developed bySPA and multi-classification SVM using UV-VIS spec‐troscopy[J]. Spectroscopy and Spectral Analysis, 2020,40(7):2267-2272.
[25] Vapnik V N. An overview of statistical learning theo‐ry[J]. IEEE Transactions on Neural Networks, 1999, 10(10):988-999.
[26] Burges C J C. A Tutorial on support vector machinesfor pattern recognition[J]. Data Mining and Knowledge Discovery.1998, 2(2):121-167.
[27] BONFATTI V, MARTINO G D, CARNIER P. Effec‐tiveness? of mid-infrared? spectroscopy? for the prediction? of detailed protein? composition? and? contents? of protein genetic variants of individual milk of Simmental? cows[J]. Journal? of Dairy? Science, 2010, 94(12):5776-5785.
[28] 代芬, 邱澤源, 邱倩, 等. 基于拉曼光譜和自熒光光譜的柑橘黃龍病快速檢測方法[J].智慧農(nóng)業(yè), 2019, 1(3):77-86.
DAI F, QIU Z, QIU Q, et al. Rapid detection of citrusHuanglongbing? using? Raman? spectroscopy? and? auto-fluorescence spectroscopy[J]. Smart Agriculture, 2019,1(3):77-86.
[29] 胡翼然, 李杰慶, 劉鴻高, 等. 基于支持向量機(jī)對云南常見野生食用牛肝菌中紅外光譜的種類鑒別[J].食品科學(xué), 2021, 42(8):248-256.
HU Y, LI J, LIU H, et al. Species identification of com‐mon wild edible bolete in Yunnan by Fourier transformmid-infrared spectroscopy coupled with support vectormachine[J]. Food Science, 2021, 42(8):248-256.
Construction of Milk Purchase Classification Model Based on? Shuffled Frog Leaping Algorithm and Support Vector Machine
XIAO Shijie1, WANG Qiaohua1,2*, LI Chunfang3,4, ZHAO Limei4, LIU Xinya4,LU Shiyu4, ZHANG Shujun3*
(1. College of Engineering, Huazhong Agricultural University, Wuhan 430070, China;2. Key Laboratory of Agricul‐tural Equipment in the Mid-Lower Reaches of the Yangze River, Ministry of Agriculture and Rural Affairs, Wuhan?? 430070, China;3. Key Laboratory of Animal Breeding and Reproduction of Ministry of Education, Huazhong Agricultural University, Wuhan 430070, China;4. Hebei Animal Husbandry Association, Shijiazhuang 050031, China)
Abstract: Protein, fat and somatic cells are three important reference indicators in milk purchase, which determine the quality and price of milk. The traditional chemical analysis methods of these indexes are time-consuming and pollute the environment, while the mid-infrared spectrum has the advantages of fast, non-destructive and simple operation. In order to realize the rapid classification of milk quality and improve the production efficiency of dairy enterprises, 3216 Holstein milk samples were chosen as the research objects and mid-infrared spectroscopy technology was applied to realize the detection and classification of 4 different quality milks during the purchase process. The spectrum was preprocessed by using the first derivative and the first difference, and combined with the algorithm competitive adaptive reweighted sampling (CARS) and the shuffled frog leaping algorithm (SFLA), the effective characteristic variables that could represent different milks were selected, and the SVM model was established. Among them, the penalty parameter c and the kernel function parameter g which were the key parameters of the SVM model were optimized by using the grid search method (GS), genetic algorithm (GA) and particle swarm algorithm (PSO). The training time of GS, GA and PSO algorithms were compared, the results showed that the training time of GS was much longer than that of GA and PSO algorithms.The SFLA algorithm was generally better than the CARS algorithm, and the PSO optimized the SVM model the best. After the first-order difference preprocessing, the PSO-SVM established by using the SFLA algorithm to filter the characteristic variables, the accuracy of the training set, the accuracy of the test set and the AUC were 97.8%, 95.6% and 0.96489, respectively. This model has a high accuracy rate and has practical application value in the milk industry.