李慶波, 畢智棋, 石冬冬
1. 北京航空航天大學(xué)儀器科學(xué)與光電工程學(xué)院, 精密光機(jī)電一體化技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室, 北京 100191 2. 中國(guó)農(nóng)業(yè)科學(xué)院飼料研究所, 北京 100081
隨著國(guó)內(nèi)養(yǎng)殖業(yè)機(jī)械化、 專(zhuān)業(yè)化程度的發(fā)展, 養(yǎng)殖規(guī)模飛速擴(kuò)大, 中國(guó)魚(yú)粉市場(chǎng)不僅對(duì)魚(yú)粉的需求量越來(lái)越多, 也對(duì)魚(yú)粉的品質(zhì)提出了更高的要求。 而中國(guó)的飼料企業(yè)如何選擇品質(zhì)好, 質(zhì)量高的魚(yú)粉是現(xiàn)在面臨的困難與考驗(yàn)[1]。 魚(yú)粉質(zhì)量差異決定了飼養(yǎng)物能否獲得充足營(yíng)養(yǎng), 魚(yú)粉產(chǎn)地眾多, 品質(zhì)參差不齊, 有不法商家以次充好, 用劣質(zhì)進(jìn)口魚(yú)粉或國(guó)產(chǎn)魚(yú)粉冒充優(yōu)質(zhì)進(jìn)口魚(yú)粉, 來(lái)獲取更大的利潤(rùn)[2]。 為了避免這種危害市場(chǎng)秩序的行為需要對(duì)魚(yú)粉產(chǎn)地進(jìn)行溯源研究。
近紅外光譜能夠反映物質(zhì)化學(xué)組成成分的性質(zhì)和含量[3-4], 因此采用近紅外光譜技術(shù)對(duì)魚(yú)粉產(chǎn)地進(jìn)行溯源識(shí)別。 2015年, 宋濤[5]等基于近紅外光譜技術(shù)對(duì)市場(chǎng)上常見(jiàn)的淡水魚(yú)粉、 進(jìn)口魚(yú)粉和國(guó)產(chǎn)魚(yú)粉三類(lèi)商品化的魚(yú)粉樣品進(jìn)行自動(dòng)化判別實(shí)驗(yàn)。 通過(guò)分析魚(yú)粉樣品光譜之間的差異, 采用主成分分析法建立魚(yú)粉種類(lèi)定性判別的分類(lèi)模型。 Cozzolino D[6]等采用改進(jìn)的偏最小二乘回歸方法建立近紅外光譜校準(zhǔn)模型, 預(yù)測(cè)決定魚(yú)粉質(zhì)量的化學(xué)成分。 目前國(guó)內(nèi)外關(guān)于魚(yú)粉產(chǎn)地溯源文獻(xiàn)較少, 主要集中于進(jìn)口魚(yú)粉、 國(guó)產(chǎn)魚(yú)粉的大類(lèi)判別或蛋白質(zhì)、 水分、 鹽等魚(yú)粉化學(xué)成分含量的定量檢測(cè), 其實(shí)這種劃分十分粗糙, 原產(chǎn)地不同的進(jìn)口魚(yú)粉之間差異極大, 而即使是國(guó)產(chǎn)魚(yú)粉, 原產(chǎn)地不同時(shí)其質(zhì)量差異也十分顯著。 由于采集大量原產(chǎn)地明確且沒(méi)有摻雜的進(jìn)口魚(yú)粉比較難, 本研究首先以產(chǎn)地來(lái)源明確的國(guó)產(chǎn)魚(yú)粉為實(shí)驗(yàn)對(duì)象, 對(duì)魚(yú)粉產(chǎn)地溯源進(jìn)行了研究。 采用灰狼算法[7-9]優(yōu)化的支持向量機(jī)建立預(yù)測(cè)模型對(duì)國(guó)產(chǎn)魚(yú)粉進(jìn)行更詳細(xì)的產(chǎn)地區(qū)分。 采用支持向量機(jī)比偏最小二乘回歸和主成分分析法等更適用于魚(yú)粉的定性分析。 灰狼算法尋找支持向量機(jī)的關(guān)鍵參數(shù)具有速度快, 精確度高的優(yōu)點(diǎn), 使魚(yú)粉產(chǎn)地溯源結(jié)果更加準(zhǔn)確。 建立灰狼優(yōu)化算法的支持向量機(jī)預(yù)測(cè)模型對(duì)魚(yú)粉產(chǎn)地進(jìn)行溯源, 防止使用低質(zhì)量產(chǎn)地的魚(yú)粉冒充高質(zhì)量產(chǎn)地的魚(yú)粉, 對(duì)魚(yú)粉產(chǎn)業(yè)規(guī)范化及飼養(yǎng)行業(yè)穩(wěn)定發(fā)展都具有推動(dòng)作用和意義。
共采集144份國(guó)產(chǎn)魚(yú)粉, 其中產(chǎn)地為遼寧大連58份、 山東威海46份、 山東榮成30份, 浙江溫嶺10份, 隨機(jī)選取每種樣品的70%作為建模訓(xùn)練樣本集, 30%作為測(cè)試樣品集(表1)。
表1 魚(yú)粉樣品測(cè)試訓(xùn)練分組情況
實(shí)驗(yàn)采用德國(guó)布魯克公司的MATRIX-I型近紅外光譜儀。 首先預(yù)熱儀器半小時(shí), 以保證儀器運(yùn)行的穩(wěn)定性; 其次, 設(shè)置實(shí)驗(yàn)參數(shù)為: 反射模式下光譜采集間隔為1 nm、 掃描波段為3 700~12 500 cm-1、 掃描次數(shù)64, 每個(gè)樣本掃描兩次。 所有實(shí)驗(yàn)均采取相同的掃描方法, 并且在相同的實(shí)驗(yàn)參數(shù)下進(jìn)行。
由于采集到的近紅外光譜存在基線漂移和高頻噪聲, 需要對(duì)儀器采集獲得的原始光譜數(shù)據(jù)采取預(yù)處理改善。 采用多元散射校正對(duì)光譜進(jìn)行基線校正, 采用小波變換對(duì)基線校正后的光譜進(jìn)行平滑去噪, 消除高頻噪聲。
1.4.1 支持向量機(jī)
支持向量機(jī)[10]的原理是將高維數(shù)據(jù)映射為高維空間的點(diǎn), 然后尋到一個(gè)超平面使高維數(shù)據(jù)分為兩類(lèi)且兩類(lèi)不同種類(lèi)數(shù)據(jù)的間隔最大化。 而高維數(shù)據(jù)具有線性可分性則可以在該維度分類(lèi), 若具有線性不可分性則需要借助核函數(shù)將數(shù)據(jù)映射到更高維的空間分類(lèi)。
首先將需要分類(lèi)的數(shù)據(jù)以及數(shù)據(jù)的標(biāo)簽輸入分類(lèi)器, 構(gòu)成特征空間。 設(shè)置數(shù)據(jù)與超平面的距離, 引入拉格朗日函數(shù)尋找最佳分類(lèi)的超平面, 借助核函數(shù)簡(jiǎn)化內(nèi)積運(yùn)算。
采用高斯徑向基核函數(shù)式(1)
(1)
得到RBF-SVM分類(lèi)模型式(2)
(2)
1.4.2 灰狼算法
傳統(tǒng)的尋找最佳參數(shù)方法是采用網(wǎng)格搜索法, 對(duì)懲罰因子和核函數(shù)半徑等需要選擇的參數(shù)在一個(gè)設(shè)置好范圍內(nèi)采取遍歷取值的方法, 經(jīng)過(guò)參數(shù)組合對(duì)比得出最優(yōu)結(jié)果。 遍歷取值搜索參數(shù)用時(shí)長(zhǎng), 精度由步長(zhǎng)取值決定, 計(jì)算繁瑣。 灰狼算法對(duì)最佳參數(shù)選擇進(jìn)行了優(yōu)化, 根據(jù)狼群捕食方式將捕食過(guò)程用數(shù)學(xué)方法表達(dá)出來(lái)。 首先是搜索獵物對(duì)獵物進(jìn)行包圍階段, 狼群在獵物附近的空間范圍內(nèi)隨機(jī)活動(dòng)。 隨機(jī)產(chǎn)生若干組參數(shù), 選出三條適應(yīng)度最好的狼即α狼、β狼、δ狼, 通過(guò)這三頭狼進(jìn)行目標(biāo)參數(shù)預(yù)估, 進(jìn)行多次迭代移動(dòng)。
(3)
(4)
式(3)和式(4)中D為狼朝獵物移動(dòng)的距離,X為狼所處的位置,t為迭代次數(shù),A和C是系數(shù)向量負(fù)責(zé)提供狼群移動(dòng)的距離和方向,XP為獵物位置, 式(3)和式(4)是狼移動(dòng)向量移動(dòng)到下一代狼的位置。A和C根據(jù)式(5)和式(6)進(jìn)行變化
(5)
(6)
式中a為由2線性衰減到0的向量,r1,r2為0到1之間的隨機(jī)向量。 通過(guò)隨機(jī)向量r1,r2, 更新后的狼到達(dá)獵物周?chē)欢ǚ秶鷥?nèi)的隨機(jī)位置。 將頭三匹狼對(duì)獵物包圍之后其他狼朝頭狼們靠近。 公式如式(7)—式(13)
(7)
(8)
(9)
(10)
(11)
(12)
(13)
式(7)、 式(8)和式(9)分別代表ω狼朝適應(yīng)度最好的三頭狼移動(dòng)距離, 式(10), 式(11)和式(12)是ω狼向其他三頭狼靠近的前進(jìn)方向和距離, 式(13)為ω狼最終的位置。 最后當(dāng)滿足限制條件時(shí)對(duì)獵物發(fā)出攻擊, 最終α狼的位置就是目標(biāo)參數(shù)的位置。
圖1為不同產(chǎn)地魚(yú)粉的原始近紅外光譜曲線, 需經(jīng)預(yù)處理后, 再對(duì)產(chǎn)地進(jìn)行判別, 圖2為多元散射校正后光譜曲線, 經(jīng)校正后消除基線漂移。 圖3為小波變換前后光譜曲線對(duì)比圖, 其中以波數(shù)為橫坐標(biāo), 范圍為3 700~12 500 cm-1, 光譜漫反射率為縱坐標(biāo)。 通過(guò)小波變換后, 在對(duì)光譜曲線平滑去噪的同時(shí)并沒(méi)有因此丟失原來(lái)信號(hào)的輪廓細(xì)節(jié), 并達(dá)到了消除高頻噪聲的目的。
圖1 魚(yú)粉樣品的原始近紅外光譜
圖2 多元散射校正后魚(yú)粉樣品的近紅外光譜圖
圖3 近紅外光譜小波變換前后對(duì)比
對(duì)四個(gè)產(chǎn)地魚(yú)粉光譜隨機(jī)選取每個(gè)產(chǎn)地樣品的70%作為建模訓(xùn)練樣本集, 30%作為測(cè)試樣品集進(jìn)行十次平行實(shí)驗(yàn), 采用灰狼算法的支持向量機(jī)得到分類(lèi)結(jié)果與相同條件下使用網(wǎng)格搜索法尋找懲罰因子和核半徑函數(shù)的支持向量機(jī), 結(jié)果分別見(jiàn)表2和表3。
表2 GWO-SVM國(guó)產(chǎn)、 進(jìn)口魚(yú)粉產(chǎn)地識(shí)別結(jié)果
表3 網(wǎng)格搜索法SVM國(guó)產(chǎn)、 進(jìn)口魚(yú)粉產(chǎn)地識(shí)別結(jié)果
經(jīng)過(guò)十組平行實(shí)驗(yàn)后, GWO-SVM識(shí)別魚(yú)粉產(chǎn)地為山東榮成、 山東威海、 遼寧大連的識(shí)別正確率相比網(wǎng)格搜索法分別提高13.33%, 5.71%和1.11%, GWO-SVM平均用時(shí)大幅縮減。 在魚(yú)粉產(chǎn)地進(jìn)行多分類(lèi)溯源時(shí), 使用灰狼算法改進(jìn)SVM相對(duì)于網(wǎng)格搜索法提高了識(shí)別的準(zhǔn)確度, 用時(shí)明顯縮短。
魚(yú)粉的產(chǎn)地不同導(dǎo)致各產(chǎn)地的魚(yú)粉所含有機(jī)物含量和組成不同, 導(dǎo)致各近紅外光譜存在一定差異, 通過(guò)多元散射校正和小波變換對(duì)光譜進(jìn)行預(yù)處理, 采用灰狼優(yōu)化算法尋找支持向量機(jī)最佳懲罰因子和核函數(shù)半徑, 能夠?qū)︳~(yú)粉產(chǎn)地正確分類(lèi)。 灰狼優(yōu)化算法相對(duì)與網(wǎng)格搜索法提高了搜索速度和準(zhǔn)確度, 對(duì)產(chǎn)地分類(lèi)的正確率均達(dá)到95%以上。 試驗(yàn)結(jié)果表明, 采用近紅外光譜技術(shù)可以快速準(zhǔn)確的對(duì)魚(yú)粉進(jìn)行產(chǎn)地溯源。 所采用的灰狼算法結(jié)合支持向量機(jī)預(yù)測(cè)模型能夠獲得很好的分類(lèi)結(jié)果, 為魚(yú)粉產(chǎn)地溯源提供了有效的方法和依據(jù)。