孫瀟鵬,劉燦燦,陸華忠,3,徐 賽
(1.華南農(nóng)業(yè)大學 工程學院,廣東 廣州 510642;2.廣西大學 輕工與食品工程學院,廣西 南寧 530004;3.廣東省農(nóng)業(yè)科學院,廣東 廣州 510642;4.廣東省農(nóng)業(yè)科學院 農(nóng)產(chǎn)品公共監(jiān)測中心,廣東 廣州 510642)
蜜柚(CitrusmaximaL.)為蕓香科柑橘屬喬木,果圓球形或梨形,風味極佳,營養(yǎng)價值高。柑橘類水果經(jīng)常遭受各種生理性疾病的困擾,如汁胞?;?又稱為硬?;?等,對蜜柚的品質(zhì)和口感產(chǎn)生極大的影響[1]。1934年,Bartholomew等[2]首次報道了汁胞?;螅钟衼碜圆煌瑖业难芯咳藛T進行了相關報道。汁胞粒化是柑橘類水果中汁液囊的一種生理失調(diào),其汁液囊變硬、干燥膨大,呈灰色,幾乎沒有可提取的汁液[3]。隨著汁胞?;潭鹊脑黾?,水果從果汁囊泡中損失了更多的水分,伴隨著內(nèi)部品質(zhì)的迅速降低,使其缺乏食用價值。柑橘類水果的汁胞?;ǔEc汁液囊泡中的次生壁形成和細胞壁增厚有關[4]。收獲時間也對果實內(nèi)部品質(zhì)有重要影響,收獲時間較晚可能會加重蜜柚的汁胞?;潭萚5]。由于造成汁胞?;脑蚝軓碗s,所以目前對汁胞?;南嚓P研究非常有限。
近紅外透射光譜是一種無損檢測技術(shù),現(xiàn)已廣泛應用于水果的內(nèi)部品質(zhì)檢測,如可溶性固形物含量(SSC)[6]、水果成熟度[7]或柑橘黃龍病[8]等檢測。然而,有限的穿透深度限制了其對水果內(nèi)部品質(zhì)檢測的潛力,尤其是可能會影響厚皮水果(如西瓜和蜜柚)內(nèi)部品質(zhì)檢測的準確性[9]。由于樣本的特殊性和汁胞?;膹碗s性,很難準確地分類不同?;燃壍拿坭?。近年來,機器視覺技術(shù)已廣泛用于農(nóng)業(yè)和食品行業(yè),尤其是對水果特征的提取和計算(如果形提取、體積估算等)[10]。研究發(fā)現(xiàn):體積的差異可用于水果品質(zhì)檢測,如柑橘類水果的汁胞?;旨塠11]。因此,本研究將近紅外透射光譜與機器視覺技術(shù)相結(jié)合,對蜜柚的?;燃夁M行分級檢測和評估。
蜜柚采摘自梅州市蜜柚果園,采摘后立即運至實驗室,剔除外部破損和畸形的蜜柚,擦拭蜜柚外部污漬,自然晾干,在室溫(19~21 ℃)下靜置24 h后,進行實驗。根據(jù)蜜柚生長期,每周采集20個樣本進行實驗,實驗樣本共計600個。
NaOH溶液、酚酞指示劑,廣州和為醫(yī)藥科技有限公司。
PAL-Grape Must型數(shù)字折光儀,ATAGO(愛拓)中國分公司;游標卡尺(測量范圍0~300 mm),上海申韓量具有限公司;DHG-9030A型電熱鼓風干燥箱,上海一恒科學儀器有限公司;酸堿中和滴定常用儀器(酸式滴定管、堿式滴定管、滴定管夾、鐵架臺、錐形瓶、玻璃棒等),江蘇博雅教學設備有限公司。
近紅外透射光譜檢測系統(tǒng):計算機、NIR-QUEST型光譜儀(測量波長900~1 700 nm,光譜分辨率0.25 nm,信噪比15 000∶1,積分時間1 ms~10 s,美國海洋光學公司)、實驗箱體、光纖、積分球和實驗托盤等[12-13]。光譜采集軟件,廣州標旗光電科技發(fā)展有限公司。
1.3.1近紅外透射光譜采集及預處理
啟動近紅外透射光檢測系統(tǒng),預熱15 min使設備達到穩(wěn)定的工作狀態(tài)。在光譜采集軟件中,積分時間設置2 000 ms,平均次數(shù)設置為1。將托盤置于光譜平臺內(nèi),分別采用標準白板和標準黑板貼住積分球校正光譜儀后,進行樣本光譜采集。將柚果放置在托盤上,每旋轉(zhuǎn)90°采集1次,并存儲光譜數(shù)據(jù),取4次光譜的平均值作為該樣本的光譜數(shù)據(jù)。在近紅外透射光譜中,將樣本的相對透射率作為光譜信息的研究參數(shù),計算見式(1)。光譜數(shù)據(jù)中除有效光譜信息外,也含有大量無關或冗雜信息,且存在背景噪聲。光譜預處理可削弱或剔除干擾及無效信息,保留有效信息,降低模型的復雜度。研究采用Savitzky-Golay多項式平滑對原始光譜進行預處理[14]。
(1)
式(1)中,T,樣本的相對透射率,%;Is,樣本的透射光強度,cd;Iw,標準白板的透射光強度,cd;Ib,標準黑板的透射光強度,cd。
1.3.2光譜特征提取
連續(xù)投影算法(successive projections algorithm,SPA)是一種無監(jiān)督的變量選擇算法,可用于近紅外透射光譜的特征變量提取。SPA從光譜數(shù)據(jù)中提取有效信息,依據(jù)均方根誤差相對較低的值,提取符合要求的特征變量[15]。該算法能夠有效剔除變量之間的共線性,最大程度避免信息的重復,使得變量之間的信息冗余度最低。經(jīng)SPA預處理后,光譜數(shù)據(jù)以少數(shù)波長點來概括樣品中大部分光譜信息,從而能夠提升模型數(shù)據(jù)處理的速率[16]。
1.3.3樣本特征的獲取與估算
基于機器視覺技術(shù),自搭建圖像獲取系統(tǒng),如圖1。圖像獲取系統(tǒng)配套圖片捕獲軟件(IC capture)和圖像處理軟件(Matlab R2018a)共同使用。
1.實驗箱體;2.GigE相機(DFK 33GP006型);3.相機鏡頭(M0814-MP2, F1.4, f8 mm 2/3);4.條形光源(24 V,580 mA);5.環(huán)形光源(24 V,580 mA);6.蜜柚樣本;7.蜜柚托盤;8.計算機。
基于機器視覺技術(shù),通過圖像信息獲取系統(tǒng),可快速獲取并估算樣本的特征數(shù)據(jù)。該系統(tǒng)采用IC capture軟件獲取樣本圖像信息,110 mm×110 mm標定板和 Matlab 軟件工具箱(computer vision system toolbox 8.1)進行相機標定。Matlab軟件工具箱(image processing toolbox 10.2)可快速獲取橫徑和縱徑的像素值,通過像素-尺度轉(zhuǎn)換[17],得到橫徑和縱徑的估算值。
估算體積時,可將蜜柚默認為橢球體。橢球體的長、寬、高分別用L、W和H表示。將橢球體劃分為多個圓臺,切面默認為標準圓,即W≈H,圓臺的上頂面和下底面分別由Htj和Hbj表示,橢球體的H和L可分別代表橫徑和縱徑,如圖2。因此,樣本的體積可認為是多個圓臺體積的累加,圓臺體積(Vj)和樣本的估算體積(V),可由式(2)和式(3)計算得到。
圖2 橢球體的劃分和體積估算
(2)
(3)
1.3.4樣本理化指標測定
分別采用游標卡尺測定樣本的橫徑和縱徑(mm),電子天平稱量樣本的質(zhì)量(g),排水法測定樣本的體積(cm3)。提取光譜采集區(qū)域內(nèi)果肉少許,通過擠壓和紗布過濾提取果汁,數(shù)字折光儀測量可溶性固形物含量,酸堿中和滴定法測定樣本的可滴定酸度(titratable acidity, TA),每個樣本重復3次后記錄平均值。采用趙曉玲[18]方法測定樣本的汁胞含水率(moisture content, MC),計算見式(4)[19]。
(4)
式(4)中,m1,鮮汁胞的質(zhì)量,g;m2,干汁胞的質(zhì)量,g。
邀請10位感官評價人員對不同生長期樣本的不同粒化程度進行打分。分級標準參考陳昆松等[19]的方法進行,將蜜柚沿著果蒂縱切八瓣,進行?;u級。根據(jù)蜜柚汁胞粒化程度,將蜜柚分為5級,1級為未發(fā)生汁胞粒化,2級為汁胞粒化程度小于25%,3級為汁胞粒化程度在26%~50%,4級為汁胞?;潭仍?1%~75%,5級為汁胞?;潭却笥?5%[20]。
1.5.1模糊C均值聚類
模糊C均值(fuzzy c-means, FCM)聚類是模糊聚類中常用的劃分聚類方法,屬于軟化分算法。FCM算法由MacQueen提出,其原理是首先定義一個準則函數(shù),并隨機選取c個初始聚類中心,然后根據(jù)樣本與聚類中心的隸屬度來確定聚類關系,再重新計算每類的聚類中心,此過程不斷重復,直到準則函數(shù)最小。準則函數(shù)為樣本和聚類中心的平方誤差的總和[21]。
模糊C均值聚類的準則,設xi(i=1, 2, …,n)是n個樣本組成的樣本集合,c為預定的類別數(shù)目,μj(xi)是第i個樣本對于第j類的隸屬度函數(shù)。用隸屬度函數(shù)定義的聚類損失函數(shù)計算見式(5)。
(5)
其中,b>1,是一個可以控制聚類結(jié)果模糊程度的常數(shù)。在不同的隸屬度定義方法下最小化聚類損失函數(shù),就得到不同的模糊聚類方法。其中最有代表性的是模糊C均值聚類,它要求每個樣本對于各個聚類的隸屬度之和為1,如式(6)。
(6)
1.5.2K-近鄰法聚類
K-近鄰法(K-nearest neighbor, KNN)聚類是一種高效且具備較高分類精度的方法[22]。KNN聚類算法的核心思想是在多維空間Rn中找到與未知樣本最近鄰的k個點,并根據(jù)這k個點的類別來判斷預測樣本的類屬。該算法假設所有樣本對應于n維空間中的點,每個樣本的最近鄰是根據(jù)歐式距離定義,設x的特征向量為[a1(x),a2(x), …,an(x)]。其中,ar(x)表示樣本x的第r個屬性值。2個樣本xi和xj間的距離定義為d(xi,xj),計算見式(7)。
(7)
以xi為預測樣本的特征向量,Y定義樣本的類別,yi∈Y{c1,c2,…,ck}為預測樣本的類別,I為指示函數(shù),NK(x)為n維空間內(nèi)選取與x最鄰近的k個點的領域,并以x預測y類別[23],如式(8)。
(i=1,2,3,…,N;j=1,2,3,…,K)
(8)
1.5.3樣本分級的評價指標確定
通過kennard-stone法[24]將600個實驗樣本按照2∶1的比例,分為訓練集和預測集。運用模糊C均值聚類、K-近鄰法聚類對樣本進行分級,運用混淆矩陣評估二進制分類模型的性能[25]。假設將1級樣本定義為目標樣本,2、3、4、5級樣本定義為非目標樣本。TP為目標樣本正確分類為1級樣本的數(shù)量;TN為非目標樣本正確分類在2、3、4、5級樣本中的數(shù)量;FP為非目標樣本分類為1級樣本的數(shù)量;FN為目標樣本分類為2、3、4、5級樣本的數(shù)量,即本屬于1級的樣本被分類為2級、3級、4級或5級的樣本數(shù)量和。當其他級別樣本定義為目標樣本,皆可根據(jù)以上方法進行假設。再根據(jù)式(9)~式(11),分別從聚類模型的準確性、敏感性和特異性進行分級評價。
(9)
(10)
(11)
600個樣本的近紅外透射原始光譜見圖3(a)。在近紅外光譜區(qū)域內(nèi),典型的重疊吸收峰對應水果中水分和碳水化合物的C—H、O—H和N—H化學鍵。在短波近紅外光譜區(qū)域(900~1 100 nm),重疊吸收峰出現(xiàn)在大約948 nm處,950 nm附近的吸收峰為水分的吸收帶[26]。汁胞?;倪^程伴隨著樣本枯水的過程,其果汁囊泡中損失了更多的水分。在長波近紅外光譜區(qū)域(1 100~1 700 nm),最大的吸收峰出現(xiàn)在1 283 nm處,這是C—H鍵第二官能團振動帶[27]。而1 410 nm處吸收峰是木質(zhì)素相關的吸收帶,它是亞甲基C—H鍵與R(CH2)nR的C—H鍵的組合官能團。柑橘類水果發(fā)生汁胞粒化與果汁囊泡的細胞壁結(jié)構(gòu)變化有關,是木質(zhì)素、纖維素和果膠等細胞壁成分的增加造成的[3]。5種?;燃壍钠骄庾V見圖3(b)。隨著樣本的汁胞?;潭燃又兀?48 nm處吸收峰呈依次遞減趨勢;而1 410 nm處吸收峰呈依次遞增趨勢。
圖3 樣本的近紅外透射光譜
樣本的近紅外透射光譜經(jīng)預處理后,采用SPA進行光譜特征提取,如圖4。SPA共選取17個特征變量,代表樣本在900~1 700 nm波段的光譜信息,快速高效地完成了數(shù)據(jù)降維,解決了變量間的共線性問題。且特征變量多集中在950、1 283、1 410 nm吸收峰附近,與蜜柚汁胞粒化的過程密切相關。
圖4 連續(xù)投影法的光譜特征提取
根據(jù)蜜柚的生長期,研究1~5級汁胞?;瘶颖镜奶卣髯兓?,如圖5。實驗采集的樣本隨著汁胞?;燃壍脑黾?,外部形態(tài)逐漸減小。根據(jù)?;瘶颖驹u級方法,樣本隨著汁胞粒化等級的增加,內(nèi)部出現(xiàn)汁液囊變硬、干燥、膨大等特征,顏色呈灰色,幾乎沒有可提取的汁液(見圖6)。隨儲藏時間的增加,果汁囊泡中損失了更多的水分,存儲過程中疾病的嚴重性增加。
圖5 1~5級汁胞粒化樣本的外部特征變化
圖6 1~5級汁胞?;瘶颖镜膬?nèi)部品質(zhì)變化
各級粒化樣本的理化指標見表1。結(jié)果表明:隨著汁胞?;燃売?級升至5級,樣本的橫徑和縱徑逐漸減小,伴隨著體積也逐漸減??;與此同時,樣本的MC、SSC和TA也逐漸降低。樣本的外部特征及內(nèi)部品質(zhì)均會受到汁胞?;挠绊?。
表1 各級?;瘶颖镜睦砘笜?/p>
為驗證體積估算值的可靠性,將排水法測定的體積測量值(Vacc)與圖像信息獲取系統(tǒng)計算的體積估算值(V)進行比較。對Vacc與V進行線性擬合分析,如圖7(a)。由回歸方程可知,V與Vacc之間存在線性規(guī)律,決定系數(shù)R2等于0.987 9,證明蜜柚體積的估算模型中,估算值相較于真實值,準確率達到98.79%。對Vacc與V進行差異性分析,來確定樣品的測量值和估算值之間的差異[28],見圖7(b)。Vacc與V的95%一致性極限均位于d-1.96至d+1.96。Vacc與V平均差異百分比為7.2%,95%一致性極限區(qū)間為[4.4, 9.9],證明V比Vacc小約4.4%~9.9%。進一步佐證體積估算值可代替測量值,將其融合光譜數(shù)據(jù)可用于汁胞粒化的模型分級檢測與研究。
圖7 體積測量值和估算值的數(shù)據(jù)分析
研究采用SPA-FCM和SPA-KNN 2種分級模型,對各級?;瘶颖具M行分級檢測。根據(jù)kennard-stone法[24],從600個實驗樣本數(shù)據(jù)中,隨機選取400個訓練集樣本數(shù)據(jù),進行模型建立和訓練;剩余200個預測集樣本數(shù)據(jù)進行模型預測。模型輸入變量為經(jīng)預處理和特征提取的近紅外透射光譜數(shù)據(jù)與圖像特征提取的樣本體積估算值,模型輸出變量為汁胞粒化等級。
分級模型的混淆矩陣,如表2。SPA-FCM與SPA-KNN的混淆矩陣中,預測集的誤判樣本均少于訓練集。模型訓練集與模型預測集中,1級和2級互為誤判樣本的機率較高,證明從無汁胞粒化至小于25%汁胞?;?,樣本的內(nèi)部品質(zhì)變化較?。灰虼朔旨壞P屯瓿?級和2級準確分級難度較大。與此同時,4級和5級互為誤判樣本的機率較高,證明從50%~75%汁胞?;链笥?5%汁胞?;?,樣本內(nèi)部均已嚴重粒化,伴隨著汁胞含水率的降低,出現(xiàn)嚴重的枯水現(xiàn)象,無可提取果汁,SSC和TA的急劇降低,內(nèi)部果肉基本不可食,且口感極差;因此,分級模型完成4級和5級準確分級難度較大。然而,SPA-FCM與SPA-KNN均能完成對3級樣本的準確分類。
表2 分級模型的混淆矩陣
根據(jù)分級評價指標,結(jié)合模型的混淆矩陣,對預測集樣本進行分級預測,見表3。SPA-FCM預測結(jié)果的準確性、敏感性和特異性分別達到0.925 9、0.733 3和0.935 3以上;SPA-KNN預測結(jié)果的準確性、敏感性和特異性分別達到0.970 0、0.923 1和0.987 4以上。而且,SPA-FCM與SPA-KNN對3級樣本完全準確預測,其準確性、敏感性和精確性均達到1。結(jié)果表明:SPA-KNN相較于SPA-FCM,對各級?;瘶颖镜姆旨夘A測能力更好,即能更好地完成對樣本汁胞?;姆旨墮z測。
表3 分級模型對樣本預測集的預測能力
采用近紅外透射光譜和機器視覺技術(shù)的分級預測模型,可用于蜜柚汁胞?;姆旨墮z測。近紅外透射光譜可以捕獲由汁胞?;鸬膬?nèi)部品質(zhì)的化學變化。機器視覺技術(shù)可快速估算樣本的外觀特征,探究由汁胞粒化引起的外部特征的物理變化。此方法對粒化樣本的預測能力好,分級準確率高,分級檢測過程中,對樣本無破壞,適用于實時在線檢測。因此,基于近紅外透射光譜和機器視覺技術(shù)對蜜柚汁胞粒化的分級檢測具有較高的可行性,以期為厚皮水果或柑橘類水果的內(nèi)部品質(zhì)檢測提供了一定的研究基礎和參考。