羅浩東,劉翠玲*,孫曉榮,吳靜珠
(北京工商大學 人工智能學院 食品安全大數(shù)據(jù)技術(shù)北京市重點實驗室,北京 100048)
中國是世界大米生產(chǎn)和消費的大國之一,大米是中國主要的糧食產(chǎn)物之一。中國大米產(chǎn)地繁多,不同產(chǎn)地的大米口感、營養(yǎng)價值及品質(zhì)均具有明顯差異[1-2]。隨著人們生活水平的不斷提高,人們對大米的產(chǎn)地以及品質(zhì)越來越重視。由于大米因外觀及品質(zhì)方面難以用肉眼檢測,一些不法商販將劣質(zhì)大米混入其中,以次充好,牟取暴利,使得大米摻假問題日益嚴重[3]。傳統(tǒng)的檢測方法(如感官識別、近紅外光譜等)均有一定劣勢和不足。如感官識別受到主觀因素影響,檢測結(jié)果的準確性和穩(wěn)定性并不高。近紅外光譜法需要對大米進行研磨粉碎[4-5],使得進行檢測的大米樣本不能進行后續(xù)的使用[6]。
高光譜成像技術(shù)結(jié)合了近紅外光譜和數(shù)字成像技術(shù),具有高速、無損、精度高的特點,使樣本避免被破壞,被廣泛應用于食品檢測領(lǐng)域[7-9]。PEREZ-RODRIGUEZ M等[10]利用基于支持向量機(support vector machine,SVM)的預測模型,建立了一種簡單、快速、高效的火花放電激光誘導擊穿光譜方法。對四個水稻品種(古里、IRGA424、普伊特和塔伊姆)的72個樣品進行分析,得到了按植物品種鑒別水稻樣品的最佳模型。該模型在試驗樣本中的正確預測率達到了96.4%。JI M等[11]基于高光譜成像技術(shù)建立的最小二乘支持向量機模型對豬肉中的不飽和脂肪酸包括單不飽和脂肪酸和多不飽和脂肪酸進行了檢測,并繪制了單不飽和脂肪酸和多不飽和脂肪酸含量的彩色圖,取得了良好的實驗結(jié)果。吳寶婷等[12]利用高光譜技術(shù)對靈武棗發(fā)酵過程中pH值和總酸含量進行了定量分析,結(jié)合競爭性自適應加權(quán)算法(competitive adaptive reweighting sampling,CARS)和遺傳算法(genetic algorithm,GA)進行特征波段的篩選,進而建立偏最小二乘定量分析模型。結(jié)果表明,高光譜技術(shù)可以對靈武棗發(fā)酵過程中pH值和總酸含量進行定量預測。可見,高光譜成像技術(shù)已經(jīng)廣泛應用于食品檢測的各個領(lǐng)域,而大米產(chǎn)地溯源領(lǐng)域的報道并不是很多。
王璐[13]采用隨機方法對大米樣品進行訓練集和測試集的劃分,根據(jù)訓練集中樣本大米的平均光譜建立了最小二乘支持向量機(least squares support veotor maohine,LS-SVM)分類模型。選取正交信號校正法(orthogonal signal correction,OSC)作為光譜預處理方法,并利用連續(xù)投影算法(successive projections algorithm,SPA)提取特征波段建立大米產(chǎn)地分類模型,分類結(jié)果為95.36%。王靖會等[14]采集了吉林省梅河口市水稻主產(chǎn)區(qū)及松原、大安、輝南等其他水稻產(chǎn)區(qū)共990個大米樣本的高光譜圖像作為研究對象,利用多元散射校正(multiple scattering correction,MSC)處理方法對光譜進行了預處理。采用了多層感知機(multilayer perceptron,MLP)、極限學習機(extreme learning ma chine,ELM)與在線序列極限學習機(online sequence extreme learning machine,OS-ELM)算法,分別基于全波段高光譜數(shù)據(jù)建立產(chǎn)地溯源模型。實驗結(jié)果表明,OS-ELM模型分類效果最好,可以準確的進行大米產(chǎn)地的溯源。市場上大米產(chǎn)地來源極多,造成東北大米摻假問題嚴重。東北大米來源于多個產(chǎn)地,品種不一,不同產(chǎn)地的東北大米也存在著形態(tài)、成分組成等差異。再加上高光譜數(shù)據(jù)信息量豐富,但一些相關(guān)性不強的光譜信息會影響預測模型的準確性,容易造成信息冗余,這就為應用高光譜技術(shù)建立大米產(chǎn)地溯源造成了干擾和困難[15-16]。
本研分以大米產(chǎn)地的溯源為出發(fā)點,使用高光譜成像技術(shù),以來源于5種東北和5種非東北的大米作為樣本集,對大米的產(chǎn)地進行溯源研究。通過主成分分析法(principal component analysis,PCA)進行主成分提取,實現(xiàn)高光譜數(shù)據(jù)降維,避免信息冗余[17-18]。采用SVM建立大米產(chǎn)地溯源模型,旨在對市場中流通的大米產(chǎn)地進行快速、準確的判別。
黑龍江長粒香、吉林稻花香、圓粒香以及遼寧小町米(2種):北京古船米業(yè)有限公司;江蘇長粒香、小町米、河北小町米、安徽小町米以及浙江圓粒香:浙江農(nóng)業(yè)科學院。
SISUCHEMA-SWIR高光譜成像系統(tǒng):芬蘭SPECIM公司。
1.3.1 大米高光譜技術(shù)路線及操作要點
預熱→調(diào)距→調(diào)參→掃描
預熱:開啟高光譜成像系統(tǒng)預熱30 min以上。
調(diào)距:調(diào)整載物臺的距離,確保激光可以穿過大米樣品。調(diào)整鏡頭與大米樣品的距離,確保所有大米樣品進入高光譜成像系統(tǒng)掃描范圍。
調(diào)參:經(jīng)過調(diào)整參數(shù),確保大米樣品像素最清晰。將采集過程中的曝光時間設(shè)為3.8 μs,幀率為50 Hz。
將100顆同一產(chǎn)地的大米樣本放于板上以便高光譜儀器進行掃描。
1.3.2 感興趣區(qū)域的提取
感興趣區(qū)域提取就是將大米樣本的高光譜圖像中的目標區(qū)域進行提取,因每個像素點的光譜信息不同,目標區(qū)域的大小、位置都會對實驗數(shù)據(jù)造成影響。使用ENVI4.8按照大米樣本的輪廓,手動提取感興趣區(qū)域,并將感興趣區(qū)域內(nèi)所有像素點的平均光譜作為大米樣本的光譜信息,最后得到10種大米的高光譜數(shù)據(jù)。
1.3.3 大米檢測圖像的校正
由于高光譜采集樣本數(shù)據(jù)時光源強度不均勻以及攝像頭中暗電流存在,會對圖像采集產(chǎn)生較大的噪聲,導致光譜信息不準確[19]。為了對圖像進行修正,消除噪聲的影響,必須對原始的高光譜采集數(shù)據(jù)進行黑白板校正[20]。高光譜圖像的黑白板校正利用(1-1)在ENVI4.8中處理完成。
式中:Rc為相對反射率圖像;R0為原始反射率圖像;RW為白色參考圖像;RB為黑色參考圖像。
一是“好教育進行時”促進了各區(qū)、各校對好教育的思考,各區(qū)、各校、個人都對好教育有自己的理解和追求,對好學校、好校長、好教師、好學生也有了更新、更深的思考,這種教育觀、學校觀、教師觀、學生觀、質(zhì)量觀的更新,對教育的改革創(chuàng)新意義重大。
1.3.4 數(shù)據(jù)集劃分
在Matlbe2016環(huán)境下進行樣本集的劃分,采用X-Y距離樣本集算法,將大米樣本分為測試集和訓練集,測試集和訓練集比例為4∶1,其中800個大米作為測試集,剩下的200個大米作為訓練集。
計算變量間相關(guān)性,畫出各波段對應的相關(guān)系數(shù)曲線圖,結(jié)果如圖1所示。由圖1可知,波段之間的吸光度值基本在0.8以上,對全波段進行主成分降維。
圖1 相關(guān)系數(shù)曲線圖Fig.1 Curve graph of correlation coefficient
PCA是一種非監(jiān)督模式識別算法,可以降低高光譜數(shù)據(jù)的維數(shù),提高模型工作效率,同時增強大米相關(guān)信息并降低干擾信號。全波段成分的方差貢獻率如表1所示。由表1可知,當4個主成分時,主成分累計方差貢獻率達到99.9%,因此選取第4 個主成分作為特征。
表1 主成分分析貢獻率統(tǒng)計結(jié)果Table 1 Statistics results of contribution rate of principal component analysis
SVM是一種以結(jié)構(gòu)風險最小化的學習型算法。其優(yōu)勢是實現(xiàn)數(shù)據(jù)的降維,克服了傳統(tǒng)機器學習的維數(shù)災難問題[21]。在小樣本數(shù)據(jù)集中的分類具有顯著優(yōu)勢。SVM的中心思想是構(gòu)造支持向量機Xi和輸入層Xn之間的內(nèi)積核。K(X,Xn)為核函數(shù),能產(chǎn)生重要作用的是懲罰參數(shù)c。
本次建模使用了線性函數(shù)(linear)和高斯函數(shù)(radial),核函數(shù)是線性函數(shù)時,當C=0.011時,準確率為78%。核函數(shù)是高斯函數(shù)(radial)時,準確率最大值為57%,比線性函數(shù)小,因此選擇線性函數(shù)最優(yōu)參數(shù)進行建模。
在R-4.0.2上進行實驗建模分析。將來自東北大米的黑龍江長粒香、吉林稻花香、圓粒香以及遼寧小町米歸為一類(ALL)。非東北大米有:江蘇長粒香(SU01)、江蘇小町米(FX17APC)、河北小町米(HBTS)、安徽小町米(HUI)以及浙江圓粒香(ZJ01)。訓練集實驗結(jié)果如表2所示。由表2可知,使用訓練集中的800個大米樣品高光譜數(shù)據(jù)進行模型的建立,除江蘇長粒香外,其他種類大米的訓練集預測準確率達到了98%以上。
表2 大米產(chǎn)地溯源訓練集結(jié)果Table 2 Result of the training set of rice origin traceability
圖2 測試集的結(jié)果Fig.2 Result of test set
表3 大米產(chǎn)地溯源測試結(jié)果Table 3 Result of rice origin traceability test
由表3可知,江蘇小町米(FX17APC)的判斷準確率最高,達到了93.3%。河北小町米(HBTS)、安徽小町米(HUI)以及浙江圓粒香(ZJ01)判斷準確率在80%左右,而江蘇長粒香(SU01)的預測準確率偏低,江蘇長粒香的高光譜信息和東北地區(qū)大米樣品高光譜信息較為接近,使得模型預測結(jié)果產(chǎn)生偏差。整體大米溯源預測模型準確率為79%,結(jié)果表明高光譜成像技術(shù)可以用于大米產(chǎn)地的溯源。
采用主成分分析法前幾個主成分就已經(jīng)包含了樣品大部分信息,因此比較前幾個主成分的貢獻率,其中第4主成分累計方差貢獻率為99.9%,故采用第4主成分建立大米產(chǎn)地溯源模型。
SVM的中心思想是構(gòu)造支持向量機內(nèi)積核。能夠?qū)撕瘮?shù)產(chǎn)生重要作用的是懲罰參數(shù)c。c表示的是對誤差的寬容度,c值越高,說明對誤差容忍度越小,過高容易出現(xiàn)過擬合現(xiàn)象。c值過低,容易出現(xiàn)欠擬合的情況。因此c值過大過小都會影響最終模型預測結(jié)果。當采用線性函數(shù)時,c=0.011時,準確率為78%時,最終模型預測結(jié)果較好。
采用主成分分析法(PCA)對高光譜數(shù)據(jù)的主成分進行了提取,并結(jié)合支持向量機(SVM)建立了大米產(chǎn)地溯源預測模型。以提取的第4主成分建立的模型質(zhì)量有所優(yōu)化。不僅降低了建模的復雜程度,解決了光譜信息冗余問題,并且提高了模型預測效率,預測準確性以及穩(wěn)定性。通過預測結(jié)果可以發(fā)現(xiàn),高光譜信息較為相近的大米溯源會有一定誤差,有待進一步數(shù)據(jù)處理進行大米產(chǎn)地溯源判斷。實驗結(jié)果表明,高光譜成像技術(shù)可以實現(xiàn)對大米產(chǎn)地溯源的快速、準確預測,在大米產(chǎn)地溯源具有廣闊的應用前景。