侯曉蕾 武小紅 武 斌 沈嘉棋 汪 鑫
(1.江蘇大學(xué)卓越學(xué)院,江蘇 鎮(zhèn)江 212013;2.江蘇大學(xué)電氣信息工程學(xué)院,江蘇 鎮(zhèn)江 212013;3.滁州職業(yè)技術(shù)學(xué)院信息工程學(xué)院,安徽 滁州 239000)
蔬菜作為日常生活中必不可少的食物,可為人體提供所需的膳食纖維和礦物質(zhì)[1],也可有效防治各種疾病的發(fā)生[2-3]。然而,受限于當(dāng)前的保鮮技術(shù)貯藏時(shí)間過(guò)長(zhǎng),生菜中的營(yíng)養(yǎng)物質(zhì)會(huì)受到不同程度的影響,降低其營(yíng)養(yǎng)價(jià)值[4]。因此借助儀器和算法設(shè)計(jì)一種鑒別生菜貯藏時(shí)間的模型具有較高的研究?jī)r(jià)值。
徐曉霞等[5]通過(guò)對(duì)不同貯藏溫度下的鮮切生菜進(jìn)行腐敗細(xì)菌分離,能較準(zhǔn)確地判斷各種細(xì)菌的腐敗性及生菜的腐敗程度。劉勇等[6]利用偏最小二乘回歸系數(shù)法對(duì)波長(zhǎng)進(jìn)行特征提取,對(duì)比分析了特征波長(zhǎng)和全波長(zhǎng)下香腸中亞硝酸鹽含量預(yù)測(cè)模型的檢測(cè)精度。胡亞南等[7]針對(duì)食品包裝機(jī)袋膜張力較難控制問(wèn)題,設(shè)計(jì)了一種模糊分?jǐn)?shù)階PID袋膜張力控制系統(tǒng),該控制系統(tǒng)能夠滿足包裝機(jī)袋膜張力控制精度和穩(wěn)定性需求;王敏等[8]利用電子鼻獲取食品的氣味變化,該技術(shù)可以實(shí)現(xiàn)無(wú)損、低成本、實(shí)時(shí)地檢測(cè)冰箱中食品的新鮮度;張桂君等[9]對(duì)保鮮技術(shù)進(jìn)行了整理歸納與優(yōu)點(diǎn)判斷,并對(duì)此研究方向的未來(lái)進(jìn)行了展望。
然而關(guān)于生菜貯藏時(shí)間和新鮮度的相關(guān)研究相對(duì)較少。祝紅等[10]通過(guò)對(duì)電子鼻的傳感器響應(yīng)值進(jìn)行PCA方法的分析,明顯區(qū)分出不同貯藏條件下的鮮濕米粉樣品,但其經(jīng)濟(jì)成本仍較高。汪天宇等[11]利用模糊聚類算法計(jì)算出相應(yīng)對(duì)象數(shù)據(jù)集合的聚類中心與試驗(yàn)樣本對(duì)相應(yīng)聚類中心的隸屬度,按照最大隸屬度原則實(shí)現(xiàn)對(duì)山核桃外殼、內(nèi)隔(隔、殼內(nèi)壁等)和核桃仁的合理分類;試驗(yàn)擬分別采用主成分分析(PCA)、鑒別主成分分析(DPCA),以及將模糊集理論與DPCA結(jié)合的模糊鑒別主成分分析(FDPCA),對(duì)數(shù)據(jù)進(jìn)行特征提取,并使用K-最近鄰分類算法(KNN)建立生菜貯藏時(shí)間鑒別模型,以期尋找更為準(zhǔn)確的生菜貯藏時(shí)間鑒別模型,為生菜的品質(zhì)檢測(cè)提供依據(jù)。
1.1.1 材料與試劑
生菜:北山3號(hào),挑選無(wú)腐爛蟲害、大小一致的生菜,市售。
1.1.2 主要儀器設(shè)備
低溫恒溫保鮮柜:MIR-554-PC型,日本三洋電機(jī)株式會(huì)社;
傅里葉變換近紅外光譜儀:AntarisⅡ型,美國(guó)賽默飛世爾儀器公司。
1.2.1 近紅外光譜采集
(1)材料準(zhǔn)備:采集新鮮生菜樣本60個(gè),放入貼有標(biāo)簽的保鮮袋中,隨后放入4 ℃保鮮柜中貯藏備用。
(2)儀器預(yù)熱:為減小試驗(yàn)誤差,保證數(shù)據(jù)的可靠性,采集數(shù)據(jù)前將近紅外光譜儀開機(jī)預(yù)熱1 h,采集時(shí)保持實(shí)驗(yàn)室溫度為20~25 ℃,相對(duì)濕度為70%。
(3)光譜掃描:利用反射積分球模式采集茶葉近紅外光譜,掃描次數(shù)32次,光譜波數(shù)4 000~10 000 cm-1,掃描間隔3.856 cm-1。每隔12 h取出所有樣本進(jìn)行近紅外光譜檢測(cè),共檢測(cè)3次,并分別記為貯藏時(shí)間1、貯藏時(shí)間2和貯藏時(shí)間3,共獲得180組近紅外光譜數(shù)據(jù)。其中訓(xùn)練樣本60個(gè)(每類20個(gè)),測(cè)試樣本120個(gè)(每類40個(gè))。
1.2.2 模糊鑒別主成分分析(FDPCA) FDPCA[12]是一種基于DPCA[13]和模糊集合理論[14]的特征提取算法。該算法包括以下步驟:
(1)聚類中心計(jì)算出每類訓(xùn)練樣本的均值,將其作為聚類中心V。
(1)
式中:
vi——第i類訓(xùn)練樣本的類中心值(其值與第i類訓(xùn)練樣本的均值xmeani相等,即vi=xmeani)。
(2)
式中:
c——類別數(shù);
vi——第i類訓(xùn)練樣本的類中心值;
n——樣本數(shù);
mf——權(quán)重系數(shù),mf∈(1,+∞)。
(3)計(jì)算模糊類間離散度矩陣和模糊總體離散度矩陣。
(3)
(4)
式中:
SfB——模糊類間離散度矩陣;
SfT——模糊總體離散度矩陣;
(4)計(jì)算最大特征值和特征向量,選出最大特征值λ1和與之相對(duì)應(yīng)的特征向量ψ1,并將ψ1作為最優(yōu)鑒別向量集的第一個(gè)向量。
(5)
式中:
λ——所求特征值集合;
ψ——所求特征向量集合。
(5)計(jì)算最優(yōu)鑒別向量集,根據(jù)前r個(gè)最優(yōu)鑒別向量ψ1,ψ2,…,ψr(r≥1)計(jì)算得到第(r+1)個(gè)最優(yōu)鑒別向量ψr+1,進(jìn)而獲得p(p>r)個(gè)最優(yōu)鑒別向量組成最優(yōu)鑒別向量集ψ={ψ1,ψ2,…,ψp}。
(6)
(7)
(8)
ψ=[ψ1,ψ2,…,ψr]T,
(9)
式中:
ψr+1——第(r+1)個(gè)最優(yōu)鑒別向量;
β——第(r+1)個(gè)最優(yōu)鑒別向量所對(duì)應(yīng)的特征值;
I——單位矩陣;
ψ——最優(yōu)鑒別向量集。
(6)測(cè)試樣本的線性轉(zhuǎn)換。
Y=[ψ1,ψ2,…,ψp]TX,
(10)
式中:
X——測(cè)試樣本;
Y——測(cè)試樣本投影到最優(yōu)鑒別向量集上得到的投影樣本。
1.2.3 準(zhǔn)確度比較 為了比較 PCA、DPCA、FDPCA的準(zhǔn)確度差異,控制以下兩個(gè)參數(shù)變量,計(jì)算并繪制準(zhǔn)確度變化圖:權(quán)重指數(shù)mf為2,K近鄰分類器的參數(shù)K分別取1,3,5,7,9,11,13,15,17;K近鄰分類器的參數(shù)K為5,權(quán)重指數(shù)mf分別取2.0,2.1,2.2,2.3,2.4,2.5,3.0,3.5,4.0,4.5。
1.2.4 數(shù)據(jù)處理 利用多元散射校正技術(shù)(MSC)對(duì)未分類的原始光譜數(shù)據(jù)進(jìn)行預(yù)處理,旨在削弱溫度、濕度等其他因素對(duì)數(shù)據(jù)采集的影響;分別利用PCA、DPCA和FDPCA對(duì)校正后的數(shù)據(jù)進(jìn)行特征提取,以實(shí)現(xiàn)數(shù)據(jù)降維;利用K-最近鄰分類算法分類,進(jìn)而建立生菜貯藏時(shí)間鑒別模型。
利用近紅外光譜儀分別采集3類貯藏時(shí)間生菜樣本的近紅外光譜數(shù)據(jù),F(xiàn)T-NIR圖如圖1所示。由圖1可知,隨著貯藏時(shí)間的推移,生菜樣本在同一波數(shù)下的吸光度略有降低。除了包含對(duì)數(shù)據(jù)分析有價(jià)值的生菜化學(xué)成分的光譜吸收數(shù)據(jù)信息外,圖1中還摻雜著影響數(shù)據(jù)分析準(zhǔn)確度的光散射信息,因此,需要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,使有用信息得到加強(qiáng)。
近紅外光譜儀所獲數(shù)據(jù)不能直接用于生菜貯藏時(shí)間的分類[14]。當(dāng)光譜儀長(zhǎng)期用于數(shù)據(jù)采集時(shí),溫度和濕度[15]等因素會(huì)對(duì)傳感器的靈敏性造成一定干擾,可能存在一定偏差。為此,利用多元散射校正(MSC)對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,以削弱溫度和濕度等因素對(duì)數(shù)據(jù)的影響,確保數(shù)據(jù)的真實(shí)性。對(duì)圖1進(jìn)行MSC處理后的光譜如圖2所示。由圖2可知,MSC預(yù)處理可有效降噪。
圖1 3類生菜樣本近紅外光譜圖
圖2 MSC預(yù)處理后生菜近紅外光譜圖
結(jié)合主成分分析與鑒別分析,DPCA主要致力于尋找一組最優(yōu)判別向量進(jìn)行最優(yōu)轉(zhuǎn)換,對(duì)MSC處理后的1 557維光譜數(shù)據(jù)進(jìn)行降維,獲得由4個(gè)最優(yōu)判別向量組成的最優(yōu)判別向量集,結(jié)合KNN算法對(duì)數(shù)據(jù)分類,測(cè)試樣本分類情況如圖3所示。其中,貯藏時(shí)間1與貯藏時(shí)間2有10處以上重疊,重疊樣本越多越不利于提高準(zhǔn)確度。
圖3 DPCA測(cè)試樣本分類情況
由圖4可知,120個(gè)樣本在所屬類別的模糊隸屬度均>0.5,在非所屬類別的模糊隸屬度均<0.5。
圖4 FDPCA模糊隸屬度
基于FDPCA的樣本分類情況如圖5所示。相較于DPCA,F(xiàn)DPCA中相同類型的數(shù)據(jù)集群仍然緊密地聚合,且貯藏時(shí)間1與貯藏時(shí)間2僅有3處重疊,說(shuō)明基于模糊理論的FDPCA對(duì)分類較為有益,尤其是在集群分布重疊的區(qū)域,F(xiàn)DPCA可以對(duì)這些重疊的數(shù)據(jù)點(diǎn)分配權(quán)重,降低數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性,提高分類的準(zhǔn)確性。
圖5 FDPCA測(cè)試樣本分類情況
設(shè)置維數(shù)為6,9,12,15,18,20,尋找分類準(zhǔn)確度最大值時(shí)的最優(yōu)維數(shù),結(jié)果如表1所示。由表1可知,將1 557維數(shù)據(jù)降至20維,PCA、DPCA和FDPCA的分類準(zhǔn)確度均達(dá)到最大值。
表1 PCA, DPCA和FDPCA在不同維數(shù)下的分類準(zhǔn)確度
由圖6和圖7可知,當(dāng)K近鄰分類器的參數(shù)K與權(quán)重指數(shù)mf取不同值時(shí),F(xiàn)DPCA的分類準(zhǔn)確度均高于DPCA和PCA的,其中K近鄰分類器的參數(shù)K取5,權(quán)重指數(shù)mf取2時(shí),F(xiàn)DPCA、DPCA、PCA的最高準(zhǔn)確度分別為93.33%,86.67%,46.67%。設(shè)置K近鄰分類器的參數(shù)K為5,將預(yù)處理后的1 557維數(shù)據(jù)直接進(jìn)行KNN分類,其準(zhǔn)確度僅為35%,可能是高維數(shù)據(jù)無(wú)法排除無(wú)關(guān)甚至有干擾性的特征。因此,基于FDPCA的生菜貯藏時(shí)間鑒別模型能夠有效提取數(shù)據(jù)特征,提高分類準(zhǔn)確度。
圖6 權(quán)重指數(shù)mf=2,分類準(zhǔn)確度隨K近鄰分類器的參數(shù)K的變化
圖7 K近鄰分類器的參數(shù)K=2,分類準(zhǔn)確度隨權(quán)重指數(shù)的變化
經(jīng)過(guò)對(duì)比主成分分析、鑒別主成分分析,以及將模糊集理論與鑒別主成分分析結(jié)合的模糊鑒別主成分分析3種算法的鑒別準(zhǔn)確度,確定了一種基于近紅外光譜分析的生菜貯藏時(shí)間鑒別系統(tǒng)。結(jié)果表明:當(dāng)K近鄰分類器的參數(shù)K=5,權(quán)重指數(shù)為2時(shí),模糊鑒別主成分分析的準(zhǔn)確度最高為93.33%;當(dāng)K近鄰分類器的參數(shù)K=1,權(quán)重指數(shù)為2時(shí),鑒別主成分分析和主成分分析的最高準(zhǔn)確度分別為86.67%,46.67%。通過(guò)比較,不同參數(shù)設(shè)定下利用模糊鑒別主成分分析進(jìn)行特征提取后的鑒別準(zhǔn)確度均顯著高于鑒別主成分分析和主成分分析,且與未降維原始數(shù)據(jù)分類準(zhǔn)確度35%相比,模糊鑒別主成分分析在提高鑒別準(zhǔn)確度方面發(fā)揮重要作用,即結(jié)合模糊鑒別主成分分析和K近鄰算法分類器是一種有效鑒別生菜貯藏時(shí)間的方法。但該模型不能忽略復(fù)雜貯藏條件對(duì)最終分類結(jié)果的影響,后續(xù)可將貯藏條件量化,作為變量引入降維后的變量列表中,確定權(quán)重后再分類,以此解決復(fù)雜貯藏條件引起的誤差。