林 瓏,吳靜珠*,劉翠玲*,于重重,劉 志,袁玉偉
1. 北京工商大學(xué)食品安全大數(shù)據(jù)技術(shù)北京市重點實驗室,北京 100048 2. 浙江省農(nóng)業(yè)科學(xué)院農(nóng)業(yè)部農(nóng)產(chǎn)品信息溯源重點實驗室,浙江 杭州 310021
我國近2/3以上居民以大米為主食[1]。隨著國民生活水平的提高,優(yōu)質(zhì)高端大米日趨受到青睞,其中尤以東北大米為代表。東北大米種植于我國東北遼寧省、黑龍江省,吉林省平原地區(qū)。土壤肥沃、光照時間長、晝夜溫差大為東北大米提供了良好的生長條件。真正的東北大米生長周期長,營養(yǎng)價值高,口感好,價格高。但是由于目前我國農(nóng)產(chǎn)品市場準(zhǔn)入制度和溯源體系尚不完善,不法商販?zhǔn)芙?jīng)濟利益驅(qū)動銷售假冒或是摻假東北大米的事件頻發(fā),嚴(yán)重影響了消費者的權(quán)益。
傳統(tǒng)的大米品質(zhì)檢測方法大多以感官判別和化學(xué)分析為主:感官判別受檢測人員主觀影響較大;化學(xué)分析方法檢測精度高、但是檢測繁瑣、周期長,且對樣本具有破壞性等弊端?,F(xiàn)有傳統(tǒng)檢測技術(shù)[2]無法滿足我國市場監(jiān)督和大米流通行業(yè)日益增長的快速、無損檢測需求。
高光譜技術(shù)以其圖譜合一,信息量豐富,兼具外觀和內(nèi)觀分析技術(shù)于一體的特點日趨成為大米品質(zhì)快速檢測領(lǐng)域的新興熱點。孫俊等[3]將從市場購買的東北長粒香大米和江蘇溧水大米按照5種不同摻假水平制備摻偽東北大米樣本,采用PCA分別對大米樣本高光譜圖像和高光譜數(shù)據(jù)(390~1 050 nm)進行處理,建立了基于特征波長的 SVM 模型用于判別東北大米是否摻偽,其識別率最高可達(dá) 98%。王朝暉等[4]應(yīng)用高光譜成像技術(shù)和SPA降維后,對梅河大米理化指標(biāo)含量進行相關(guān)性分析,選出9個特征波長用于區(qū)分梅河大米和柳河縣大米樣品,識別率達(dá)95%。表明高光譜結(jié)合模式識別方法用于大米產(chǎn)地鑒別、摻偽識別等具有較為光明的應(yīng)用前景。但是市場上東北大米造假的情況極為復(fù)雜:有直接假冒產(chǎn)地的,有單種大米摻偽的,也有多種大米同時摻偽等情況。再加上東北大米產(chǎn)區(qū)遼闊,品種較多,即使同為東北大米,自然環(huán)境和品種的不同都會導(dǎo)致東北大米個體成分及組成、形態(tài)存在顯著差異。這都為應(yīng)用高光譜建立適應(yīng)范圍廣、穩(wěn)健性能好的東北大米產(chǎn)地鑒別模型帶來了極大的干擾和困難。
以大米產(chǎn)地鑒別模型的適用范圍和穩(wěn)健性為出發(fā)點,選取主流東北大米品種和多個東北/非東北產(chǎn)區(qū)的大米樣本構(gòu)建模型適用范圍廣的樣本集,通過高光譜特征提取方法結(jié)合模型集群策略來提高大米產(chǎn)地鑒別模型的穩(wěn)健性,為建立符合市場需求的東北/非東北大米產(chǎn)地快速鑒別高光譜模型提供可行性探索。
東北大米產(chǎn)區(qū)遼闊,涵蓋黑、遼、吉三省,主流品種以長粒香,圓粒香,稻花香和小町米4種為主。自然環(huán)境的不同會導(dǎo)致不同產(chǎn)區(qū)的大米的組成存在細(xì)微差異,如直鏈淀粉和支鏈淀粉的含量,尤其不同品種的大米,其形態(tài)、透明度等更是在外觀上存在顯著差異,如長粒香大米外觀呈細(xì)長型,而圓粒香為圓短型。因此即使同為東北大米,個體也會因產(chǎn)區(qū)和品種存在較大差別。
東北大米以粳米為主。粳米產(chǎn)區(qū)主要分布在東北、江蘇、安徽、浙江和河北產(chǎn)區(qū),而秈米主要分布在湖南、湖北、廣東、廣西、江西和四川等地[5]。根據(jù)市場摻偽的實際情況,本實驗選取樣本均為粳米,產(chǎn)地及品種信息如表1所示,共收集10個產(chǎn)地樣本。實驗樣本由浙江省農(nóng)業(yè)科學(xué)院、北京古船米業(yè)有限公司分別于2018年6月和于2018年11月提供。
表1 大米樣本信息Table 1 Rice samples information
采用芬蘭Specim公司SisuCHEMA高光譜成像系統(tǒng)采集大米樣本高光譜圖像。采集參數(shù)如下:相機型號為FX17,波長范圍900~1 700 nm,光譜分辨率為8 nm,共包括224個波段,曝光時間為5 μs,幀頻為40 Hz。
大米顆粒相對較小且表面圓滑,易在掃描過程中由于載物臺的移動出現(xiàn)晃動和偏移導(dǎo)致成像質(zhì)量差。因此將大米樣本置于10×10的數(shù)粒板上,將數(shù)粒板置于移動載物臺進行成像實驗,如圖1所示。每種產(chǎn)地大米樣本,隨機選取100粒進行高光譜成像實驗,共計采集100×10個大米樣本的高光譜圖像。
圖1 大米高光譜圖像采集實驗
1.3.1 光譜特征提取
選用一種使矢量空間的共線性達(dá)到最小化的連續(xù)投影算法(successive projections algorithm,SPA)[6-8]作為光譜特征提取方法。連續(xù)投影算法通過向前循環(huán),計算在224個波段中的某一波長對剩余波長的投影,選取投影最大的波長,之后選取的波長都與該波長線性最小,以消除高光譜數(shù)據(jù)中的冗余信息。
1.3.2 圖像特征提取
選用方向梯度直方圖(histograms of oriented gradients,HOG)作為圖像特征提取方法,它是將一副圖像分割成很多“細(xì)胞”再從中提取出特征。因為HOG是對圖像的局部單元進行操作,所以它對圖像幾何和光學(xué)的形變都能保持很好的不變性[9-10]。
1.3.2 支持向量機分類原理
支持向量機(support vector machine,SVM)遵循結(jié)構(gòu)風(fēng)險最小化的學(xué)習(xí)過程,最小化了對未知數(shù)據(jù)的分類錯誤,是受監(jiān)督的非參數(shù)統(tǒng)計學(xué)習(xí)模型[11-12]。SVM在訓(xùn)練過程中避免了過擬合問題,解決了調(diào)參難和收斂慢的問題,并且保證找到的極值解就是全局最優(yōu)解[13]。
在ENVI 4.8軟件中對大米樣本高光譜進行黑白板校正后,按照大米輪廓選取感興趣區(qū)域提取出每粒大米樣本的平均光譜。根據(jù)樣本集光譜信息,采用KS法按照4∶1劃分訓(xùn)練集樣本(800個)和測試集樣本(200個)。圖2所示為樣本集中10個產(chǎn)地的大米平均光譜。由于大米化學(xué)成分相似,因此其光譜曲線輪廓非常相似,無法直接從譜圖上分辨出東北和非東北大米產(chǎn)地的差異。
圖2 不同產(chǎn)地大米樣本平均光譜
采用SPA法挑選出8個近紅外特征波長為942.52,945.98,1 220.87,1 315.62,1 400.20,1 424.92,1 460.30和1 705.91 nm,如圖3所示。其中942.52和945.98 nm附近主要反映了游離水的O-H伸縮振動的二級倍頻信息;1 220.87和1 315.62 nm則集中反映了C—H第二組合頻的信息,淀粉、蛋白等成分中含有豐富的C—H基團;1 400.20,1 424.92和1 460.30 nm附近信息量較為集中,既有游離水的O—H一級倍頻信息,也有C—H的組合頻信息,還有酰胺的N—H一級一級倍頻信息;1 705.91 nm主要反映了—CH3和—CH2的一倍頻信息。因此采用SPA法篩選得到的特征波長與大米成分如水分、淀粉、蛋白等緊密相關(guān)[14]。
圖3 SPA篩選特征波長結(jié)果圖
針對上述8個特征波長,提取相應(yīng)波長處的的圖像,采用HOG[15]提取圖像特征,首先將圖像縮放至256×256后,采用Gamma校正對圖像進行顏色空間的歸一化,降低圖像局部陰影和光照變化所產(chǎn)生的影響,抑制噪音干擾,并對圖像每個像素的梯度方向和大小進行計算。再將圖像分成8×8的細(xì)胞單元,統(tǒng)計梯度直方圖,應(yīng)用梯度的幅值進行投票,然后將相鄰的細(xì)胞組成塊并對重疊部分進行直方圖歸一化。最后將所有塊中的梯度方向直方圖合并組成特征向量,具體步驟如圖4所示。
圖4 HOG特征提取流程圖
實驗采用SVM(線性核函數(shù))分別建立了基于8個單波長圖像HOG特征的東北/非東北大米產(chǎn)地模型。單波長模型的訓(xùn)練集識別率可以達(dá)到100%,測試集識別率如表2所示。根據(jù)識別率高低排序可得,在1 460.30,1 400.20和1 424.92 nm波長下建立的分類模型識別率相對較好,分析其原因主要由于該區(qū)間反映的信息極為豐富,涵蓋了O—H,N—H和C—H基團,與大米成分所反映出的特征信息緊密相關(guān)。其中尤以1 460.30 nm處所建模型識別率最高,而該波長附近正是反映伯酰胺中N—H對稱和反對稱伸縮振動的組合頻譜帶。該基團反映出了東北大米和非東北大米在蛋白質(zhì)成分上有顯著差異。但是總體而言,基于單特征波長圖像的模型識別率不高,有進一步提升的空間。
表2 基于單波長圖像HOG特征的大米產(chǎn)地鑒別模型識別率Table 2 Rice recognition rate based on single model
為建立適用范圍廣的判別模型,本實驗中收集的樣本來源差異較大,如品種和產(chǎn)地的相互交叉等,因此同一樣本在不同的特征波長處反映的光譜信息也存在顯著差異,直接導(dǎo)致同一樣本在不同的單波長模型中存在截然不同的識別結(jié)果。鑒于上述單特征波長圖像模型識別率不高的實驗結(jié)果,提出采用多模型共識判別策略,即聯(lián)合多個單特征波長圖像模型,通過模型集群來綜合判別大米產(chǎn)地。判別流程如圖5所示。假設(shè)子模型個數(shù)為n,采用n個子模型預(yù)測同一樣本可以得到n個識別結(jié)果,當(dāng)識別結(jié)果中識別為真的比率>50%,則判定樣本為真,反之則為假。
圖5 模型集群共識判別流程
為了保證綜合判別的結(jié)果不會出現(xiàn)同一個樣本判別為真和假的識別率相同,本實驗確定聯(lián)合子模型個數(shù)為奇數(shù)3,5和7。為了精簡組合個數(shù),首先根據(jù)表2中單波長子模型的識別率從高到低進行排序,然后依次選取子模型進行組合判別。以聯(lián)合3個波長建立模型集群為例,如表3所示。以單波長下模式識別率最高的1 460.30和1 400.20 nm兩個子模型為基準(zhǔn),依次順序選取剩余的5個單波長子模型進行聯(lián)合判別,則有如表3所示的6種組合可能。從表3中可知,聯(lián)合3個模型后模型識別率均有了一定程度的提高。其中聯(lián)合1 315.62 nm波長的模型識別率最高,達(dá)88%。1 315.62 nm處反映了C—H第二組合頻的信息,淀粉、蛋白等成分中含有豐富的C—H基團。而東北大米和非東北大米在淀粉組成和蛋白質(zhì)含量確實存在顯著差異。
表3 三波長聯(lián)合模型識別率Table 3 Recognition rate based on three combined models
同理固定表2中前4個識別率最高的1 460.30,1 400.20,1 424.92和945.98 nm波長的子模型,依次順序選取剩余的4個單波長子模型進行聯(lián)合判別,則有如表4所示的4種組合可能。從表4中可知,分別聯(lián)合1 315.62和1 705.91 nm處模型,模型識別率得到了進一步提高。而該兩個波段同樣反映了淀粉、蛋白質(zhì)等的C—H和—CH3基團信息。
表4 五波長聯(lián)合模型識別率Table 4 Recognition rate based on five combined models
固定表2中前6個識別率最高的1 460.30,1 400.20,1 424.92,945.98,1 315.62和1 220.87 nm波長的子模型,依次順序選取剩余的2個單波長子模型進行聯(lián)合判別,則有如表5所示的2種組合可能。模型識別率最高可達(dá)90.5%。綜合表2—表5可得關(guān)鍵波長處的子模型對模型集群判別結(jié)果起主要作用,如1 460.30和1 400.20 nm處的子模型;聯(lián)合模型個數(shù)越多,模型集群識別率也越高,但是模型識別率的提高速度較為緩慢。
表5 七波長聯(lián)合模型識別率Table 5 Recognition rate based on seven combined models
采集了10個產(chǎn)地、4個品種共計1 000粒大米樣本的高光譜圖像,采用SPA法針對樣本集光譜篩選出8個特征波長,分別提取8個特征波長對應(yīng)圖像的HOG特征,建立基于單波長圖像特征的SVM模型。將單特征波長圖像模型的識別率高低排序后,聯(lián)合3個、5個、7個單波長模型對大米產(chǎn)地進行共識判別,可將東北/非東北大米產(chǎn)地的識別率從單模型的85.5%顯著提高到90.5%。實驗結(jié)果表明基于高光譜技術(shù)和機器學(xué)習(xí)算法的模型集群共識策略有望為建立穩(wěn)健、切實可行的大米產(chǎn)地溯源模型提供思路和方法參考。