沈宇,房勝,王風云,李哲,張琛,鄭紀業(yè)*
(1.山東省農(nóng)業(yè)科學(xué)院科技信息研究所,濟南 250100;2.山東科技大學(xué)計算機科學(xué)與工程學(xué)院,山東 青島 266000)
蘋果輕微碰傷是在蘋果采摘、運輸、存儲過程中最為常見的現(xiàn)象,而且這種輕微碰傷在早期是難以被發(fā)現(xiàn)的,尤其是發(fā)生在蘋果表皮紅色或其他顏色較深的區(qū)域碰傷[1]。但是,碰傷時間一旦過長,該區(qū)域就會演變成大面積的腐爛,降低蘋果的營養(yǎng)價值以及銷售價格,同時還會對其他優(yōu)質(zhì)蘋果造成嚴重影響[2]。因此,進行早期輕微損傷蘋果的快速篩選對提高蘋果的價值具有重要意義。傳統(tǒng)的人工感官和化學(xué)試劑檢測方法不僅準確率低,而且對樣品具有破壞性,不能滿足實際生產(chǎn)生活的需要[2],而基于高光譜圖像技術(shù)的檢測則是一種高效、快速、無損的檢測方法,彌補了傳統(tǒng)方法的缺點,對研究蘋果初期輕微損傷的在線監(jiān)測技術(shù)具有極其重要的作用[3]。近年來,為了開發(fā)基于高光譜成像技術(shù)的水果品質(zhì)實時在線監(jiān)測系統(tǒng),在利用高光譜成像技術(shù)檢測水果內(nèi)外部品質(zhì)(糖度、硬度、表面缺陷或損傷等)的特征波段選擇上已經(jīng)有了初步的研究。Rajkumar等[4]在三個不同溫度下(20、25和30 ℃)對不同成熟階段的香蕉及其品質(zhì)進行針對性的研究,根據(jù)偏最小二乘回歸系數(shù)法(PLSR)對香蕉的品質(zhì)參數(shù)和光譜數(shù)據(jù)建立預(yù)測模型,優(yōu)選出了7個特征波長(440、525、633、672、709、925 和984 nm),對香蕉可硬度、水分和可溶性固形物的預(yù)測相關(guān)系數(shù)分別是0.91、0.87和0.85。馮迪等[5]提出了一種雙項指標檢測的新方法,在雙面多點取樣的前提下,通過平滑波形數(shù)據(jù)與兩次SPA運算,提取蘋果糖度與硬度共同的特征波長從而確定最佳波長(543 和674 nm),利用少量的波長信息實現(xiàn)蘋果雙指標的高效檢測。Huang等[6]以阿克蘇蘋果為研究對象,對損傷發(fā)生半小時以內(nèi)的蘋果利用高光譜成像技術(shù)結(jié)合主成分權(quán)重系數(shù)獲取了2個有效波長(820 和970 nm),并利用這2個波長和全局閾值理論開發(fā)了多光譜輕微損傷提取算法。本研究以輕微損傷發(fā)生1 h內(nèi)的富士蘋果為研究對象,基于高光譜成像技術(shù),利用載荷系數(shù)、連續(xù)投影和二階導(dǎo)數(shù)方法提取特征波段并建立機器學(xué)習(xí)模型,對輕微損傷早期不同時間段的富士蘋果進行識別,確定最佳識別模型。最后基于不同方法獲取的單一特征波長建模,分析每個波長的識別效果,確定適用于快速鑒別蘋果表面輕微損傷的特征波長,為后續(xù)的儀器開發(fā)提供理論依據(jù)。
本研究以煙富3號蘋果作為試驗材料,由山東通達現(xiàn)代農(nóng)業(yè)集團有限公司提供。選擇顏色、形狀均勻,果徑大小在86~95 mm范圍內(nèi)的富士蘋果200個,蘋果表面完整光滑、無任何缺陷。首先用濕布擦拭蘋果表面,然后將蘋果放置在室溫條件下24 h后再進行高光譜圖像獲取。以未損傷的完好蘋果為對照,其他蘋果人工造成輕微損傷,將蘋果從30 cm高度處跌落至平滑地面上,為了防止蘋果在地面反彈造成二次損傷,蘋果第一次落至地面后立即將其拖住,在赤道附近形成肉眼難以辨別的輕微損傷。圖1為完好與輕微損傷后蘋果的RGB圖像,直觀上很難判別出損傷部位。但蘋果損傷后,由于果皮組織遭到破壞,損傷部位的質(zhì)地會變得松軟,通過人工觸摸獲知損傷部位,并沿邊緣進行標記。
圖1 完好與損傷蘋果的RGB圖像Fig.1 RGB image of intact and bruised apple
高光譜圖像采集系統(tǒng)如圖2所示,主要由高光譜成像光譜儀(SOC710VP,USA)、2個75 W的室內(nèi)高光譜照明燈(CrawImiacle, China)、樣品載物臺、計算機(小新潮7000-14,LENOVO)組成。其中,SOC710VP光譜儀的成像范圍是400~1 000 nm(128個波段),分辨率約為4.69 nm,掃描速度為32 s·cube-1,內(nèi)置12 bit動態(tài)范圍的C-Mount CCD相機。SOC710VP 優(yōu)勢在于其內(nèi)置推掃設(shè)備,無需系統(tǒng)配備掃描云臺就能完成高光譜圖像的采集。為了避免周圍環(huán)境光照的影響,保證目標樣本光照的均勻性,將整個圖像采集系統(tǒng)(除計算機外)放置暗箱中運行。
注:1—暗箱;2—USB線;3—計算機;4—CCD相機;5—光譜儀;6—鏡頭;7—光源控制器;8—光源;9—載物臺;10—樣品;11—載物臺控制器。Note: 1—Obscura; 2—USB line; 3—Computer; 4—CCD camera; 5—spectrometer; 6—Lens; 7—Light source controller; 8—Light source; 9—Stage; 10—Samples; 11—Stage controller.圖2 高光譜圖像采集系統(tǒng)結(jié)構(gòu)Fig.2 Structure of hyperspectral imaging system
為了獲取完整清晰且不失真的高光譜圖像,經(jīng)過反復(fù)微調(diào)后,確定高光譜圖像采集系統(tǒng)的參數(shù),樣本表面至鏡頭的垂直距離為195 mm,CCD相機的曝光時間為20 ms。在保證采集系統(tǒng)參數(shù)不變的情況下,首先采集完好蘋果的高光譜圖像,將蘋果逐個放置于升降平臺,保證其位置與相機的鏡頭在一條直線上,等待光譜儀內(nèi)置設(shè)備的推掃,獲取(每個僅獲取一次)樣本完整的光譜信息。然后對蘋果進行人工損傷,以同樣的方式獲取損傷部位在室溫下放置0、0.5、1 h后的圖像,共獲取800幅分辨率大小為520×696 pixel的高光譜圖像。
本研究主要使用光譜儀自帶的SOC710軟件獲取高光譜圖像,SRAnal710軟件進行高光譜圖像的反射率標準化,使用Excel、Origin Pro 9.1、ENVI和MATLAB R2014a實現(xiàn)光譜數(shù)據(jù)處理和建模分析。
1.4.1光譜曲線構(gòu)建 為了分析完好與損傷蘋果的反射光譜曲線特性以及損傷蘋果的光譜在不同損傷時間段(0、0.5、1 h)的變化情況。使用ENVI軟件分別從完好與損傷不同時間段的樣本中提取相同大小(20×20)的感興趣區(qū)域(region of interest,ROI),并計算該區(qū)域內(nèi)所有像素點在全波長范圍400~1 000 nm的平均光譜反射數(shù)據(jù),構(gòu)建光譜曲線。
1.4.2光譜黑白校正 為避免高光譜成像儀中CCD相機的傳感器(電子元件)對圖像產(chǎn)生噪聲干擾,增強光譜數(shù)據(jù)的可靠性和穩(wěn)定性,有必要對獲取的高光譜圖像進行黑白校正。在與樣品采集條件一致的前提下,先掃描反射率為99%的白色參考板獲取全白標定圖像,再關(guān)閉光源,蓋住鏡頭獲取黑場標定圖像,最后利用公式(1)對原始高光譜圖像進行校正。
(1)
式中,R為校正后的高光譜圖像,Rori為原始高光譜圖像,Rdark為黑場標定的高光譜圖像,Rwhite為全白標定的高光譜圖像。
在高光譜數(shù)據(jù)采集過程中,除了光譜儀中電子元件的影響,蘋果表面顏色和內(nèi)部堅實度的差異也會對光譜數(shù)據(jù)產(chǎn)生影響,會產(chǎn)生附加散射變動。因此,為了去除光譜散射,對經(jīng)過黑白校正后的光譜數(shù)據(jù)再進行附加散射校正(multiplicative scatter correction,MSC)[7]。
1.4.3特征波長提取算法 原始高光譜圖像包含128個波段,提供了利于蘋果輕微損傷識別的大量信息,但將其全部都用于建模,計算量非常大,嚴重影響建模分析的速度和效率[8-9]。特征波段提取算法既能保留圖像的有效信息,又能達到減少原始波段數(shù)量、簡化分析模型復(fù)雜度的目的[10]。因此,本文使用載荷系數(shù)、連續(xù)投影和二階導(dǎo)數(shù)方法來去除冗余波段,實現(xiàn)特征波長提取。
載荷系數(shù)法(x-loading weights, x-LW)提取的特征波長通過建立偏最小二乘回歸模型得到[11]。模型的分類性能受隱含變量所對應(yīng)的載荷系數(shù)的絕對值大小影響[12]。因此,在隱含變量的載荷系數(shù)曲線中,選取絕對值最大處所對應(yīng)的波長作為有效波長。一般情況下,選取的有效波長數(shù)目與隱含變量個數(shù)相同[12]。
連續(xù)投影算法(successive projections algorithm,SPA)能夠消除波段之間的共線性冗余,尋找共線性信息最小的波長以代表樣品最大的信息量[12-14]。在初始階段,該方法首先選擇一個特定波長和設(shè)定最大最小選定波長數(shù)目,然后循環(huán)迭代,計算該波長在未選入波長上的投影,選擇投影向量最大的波長,并列入特征波長組合中[15-18],再利用線性回歸來計算不同特征波長組合所得到的均方根誤差(root mean squared error,RMSE)的值,直至特征波長的數(shù)目達到最小均方根誤差所對應(yīng)的數(shù)值,循環(huán)結(jié)束[19]。
二階導(dǎo)數(shù)(second derivative)法就是通過數(shù)學(xué)模擬,計算不同波段下反射率的二階導(dǎo)數(shù)值[20]。二階導(dǎo)數(shù)法能夠辨別完全重疊或波長距離很小的相重疊反射峰,大幅度去除相關(guān)性較強的波長數(shù)據(jù),迅速確定光譜變化明顯的波長位置[21]。
1.4.4完好與損傷樣本的識別方法 本文主要使用BP(back propagation)神經(jīng)網(wǎng)絡(luò)和支持向量機(support vector machine,SVM)來對光譜數(shù)據(jù)建模,實現(xiàn)損傷識別。BP神經(jīng)網(wǎng)絡(luò)算法的基本原理是將輸出誤差以某種形式逐層傳遞到輸出層,并計算每一隱含層的每一單元的誤差,以此來修正各單元權(quán)值,設(shè)置閾值與迭代次數(shù),直至網(wǎng)絡(luò)輸出誤差小于所設(shè)定閾值,迭代完成[22]。針對BP神經(jīng)網(wǎng)絡(luò)中初始權(quán)值和閾值隨機性問題,本文通過遺傳算法(genetic algorithm,GA)來對其進行優(yōu)化,并通過多次實驗確定隱含層神經(jīng)元個數(shù)。SVM是基于統(tǒng)計學(xué)習(xí)理論和結(jié)構(gòu)化風險最小原理建立的,它在解決小樣本、非線性和高維模式下的分類判別問題中表現(xiàn)出特有的優(yōu)勢[23-24]。SVM模型的關(guān)鍵在于核函數(shù)的選擇,核函數(shù)主要用來解決數(shù)據(jù)從低維映射到高維空間的計算復(fù)雜問題,采用不同的核函數(shù),模型的性能和效果不同。
將全部(800個)樣本數(shù)據(jù)按4∶1的比例隨機劃分為建模集和測試集,其中建模集包含640個樣本(損傷0、0.5、1 h和未損傷各160個),測試集包含160個樣本(損傷0、0.5、1 h和未損傷各40個)。分別使用以上三種方法提取的特征波長作為輸入變量,以標簽(0,1)作為輸出變量建立GA-BP和SVM蘋果表面輕微損傷識別模型。在SVM模型中使用徑向基函數(shù)作為核函數(shù),利用3折交叉驗證確定最佳參數(shù)C和g,二者取值范圍都設(shè)置為[2-4,24],步長都設(shè)置為0.5。在GA-BP神經(jīng)網(wǎng)絡(luò)模型中,經(jīng)過多次實驗分別將隱含層神經(jīng)元的個數(shù)設(shè)置為3,種群個體數(shù)設(shè)置為40,遺傳代數(shù)設(shè)置為100。
完好與損傷不同時間段樣本的平均光譜曲線如圖3所示??梢钥闯觯旰门c損傷樣本的光譜都表現(xiàn)出共同的變化趨勢,在680 和980 nm左右各存在一個吸收峰,分別是由于表面葉綠素和水分的吸收引起的。隨著損傷時間的增加,樣本的反射率會逐漸減小,且與完好樣本的差別越來越明顯。同時,所有樣本在波段503 nm以下和989 nm以上均存在大量噪聲,為了去除噪聲,對每一樣本數(shù)據(jù)去除首尾波段,保留差異比較明顯且易于區(qū)分的503~989 nm波段進行后續(xù)研究。
圖3 完好與損傷樣本的平均光譜曲線Fig.3 Average spectral curve of intact and bruised samples
為了去除相鄰波段間的強相關(guān)性,獲取包含大量有效信息的關(guān)鍵波段,分別采用載荷系數(shù)法、連續(xù)投影法和二階導(dǎo)數(shù)法提取特征波段。
2.2.1載荷系數(shù)法 以503~989 nm范圍內(nèi)的93個波段作為X變量,以代表完好與損傷樣本的標簽(0,1)作為Y變量,基于全部樣本的光譜數(shù)據(jù)建立偏最小二乘回歸(partial least squares regression,PLSR)模型,確定影響模型性能的隱含變量的載荷系數(shù)。建模過程中,采用交互校驗預(yù)測殘差平方和(predicted residual sum of squares,PRESS)確定隱含變量數(shù),最佳隱含變量數(shù)為3,3個隱含變量的載荷系數(shù)曲線如圖4所示,分別選擇各隱含變量載荷系數(shù)絕對值最大處所對應(yīng)的波長(570、805、811 nm)作為有效波長。
圖4 隱含變量的載荷系數(shù)曲線Fig.4 Loding weights curve of implied variable
A:SPA 選取不同變量數(shù)目得到的RMSE圖;B:選取的波長變量索引序號分布圖A: RMSE graph obtained by using SPA to select different numbers of variables; B: Index number distribution map of selected wavelength variables圖5 連續(xù)投影法選擇特征波長Fig.5 Effective wavelengths selected by SPA
圖6 完好與損傷樣本的二階導(dǎo)數(shù)光譜曲線Fig.6 Second derivative spectral of intact and bruised samples
2.2.2連續(xù)投影法 在連續(xù)投影方法中,任意選擇一個初始波段,設(shè)定的波長數(shù)目為5~30,圖5A 顯示了利用線性回歸法計算所得的RMSE值隨所選波長數(shù)量的增加而變化的曲線,可以看出,當選擇的波長數(shù)為9時,預(yù)測蘋果輕微損傷的RMSE值(用方框標記)達到最小,為0.266 65。圖5B為選定的9個波長變量的索引序號(用方框標記)分布圖,其序號分別為9、35、41、44、60、64、83、87、93,對應(yīng)實際值分別為544、679、710、726、811、832、934、956、989 nm。
2.2.3二階導(dǎo)數(shù)法 本文使用Origin Pro 9.1對完好與損傷的所有樣本數(shù)據(jù)求二階導(dǎo)數(shù),圖6為完好與損傷樣本的二階導(dǎo)數(shù)光譜曲線,選取曲線的局部峰值處所對應(yīng)的波長作為特征波長,分別是585、611、621、658、684、705、720、726、736、747、768、784、795、805、821、832、848、864、907、961 nm,其中585和684 nm與蘋果表皮葉綠素與胡蘿卜素的吸收有關(guān);747和961 nm與蘋果內(nèi)部細胞中所含的O-H鍵的伸縮有關(guān)。
基于不同特征提取方法建立的SVM和GA-BP模型的損傷識別結(jié)果如表1所示,從特征波長提取方法來看,載荷系數(shù)、連續(xù)投影和二階導(dǎo)數(shù)法提取的特征變量在識別損傷樣本方面都具有效性,其中以二階導(dǎo)數(shù)法提取的20個特征波長作為輸入變量建立的GA-BP和SVM 模型識別效果最佳,對測試集的識別率分別為93.75%和96.88%;從模型來看,基于SVM建立的三種模型對測試集的識別精度(分別為77.50%、91.88%、96.88%)均高于GA-BP模型(分別為75.63%、90.63%、93.75%),被確定為最優(yōu)損傷識別模型。
表1 基于特征波長的模型對損傷樣本的判別結(jié)果Table 1 Results of classification models using the slected wavelengths for classifying bruised samples
分別利用以上三種方法提取的每一特征波長作為變量,結(jié)合最優(yōu)損傷識別模型SVM再次建模,每一波段的損傷識別結(jié)果如圖7所示??梢钥闯觯煌卣鞑ǘ蔚淖R別效果各有不同,即其攜帶的有效信息各有不同,波段570 nm處的模型識別結(jié)果最差,僅達到62.50%,波段811 nm處的模型識別結(jié)果最好,對測試集的識別率達到90.63%,優(yōu)于其他波段。因此,將波段811 nm作為識別蘋果早期輕微損傷的最佳波段。該研究為開發(fā)蘋果早期輕微損傷實時在線檢測系統(tǒng)提供理論支持和依據(jù)。
圖7 基于單一特征波段的損傷識別率Fig.7 Identification rates based on the single characteristic wavelength
蘋果表面的損傷有明顯與不明顯之分,對于明顯的損傷用肉眼很容易識別,但是不明顯的輕微損傷往往發(fā)生在表皮之下,和正常區(qū)域的顏色相差不大,用肉眼很難識別,且隨著時間的推移,損傷區(qū)域還會不斷擴大至腐爛。傳統(tǒng)的計算機視覺技術(shù)很難對水果的輕微損傷進行檢測,而高光譜成像技術(shù)應(yīng)用于水果表面輕微損傷已體現(xiàn)出其“圖譜合一”的優(yōu)越性,但獲得的數(shù)據(jù)量大、冗余度高,且信息處理速度相對緩慢,不利于在線檢測的實際應(yīng)用,因此,降低光譜數(shù)據(jù)的維度,提取區(qū)分蘋果輕微損傷的有效波段是目前一項值得研究的內(nèi)容。
本研究將高光譜圖像技術(shù)應(yīng)用于蘋果表面輕微損傷的檢測研究,尋找可以有效區(qū)分損傷部位的特征波段。結(jié)果表明,x-LW、SPA和二階導(dǎo)數(shù)法是非常有效的特征波長提取方法,但由于不同方法的原理不同,選擇的特征波段也存在差異。這與程術(shù)希等[12]利用x-LW:SPA提取有效檢測番茄早疫病的特征波段和陳欣欣等[25]利用二階導(dǎo)數(shù)法提取有效區(qū)分庫爾勒梨早期損傷的特征波段的結(jié)論一致。增加信息量的同時也會引入冗余信息,從而影響模型對測試集預(yù)測的精度。參考湯哲君等[26]利用SVM識別馬鈴薯輕微損傷的方法和劉思伽等[27]利用二次連續(xù)投影法和BP神經(jīng)網(wǎng)絡(luò)檢測寒富蘋果的方法,本研究在利用x-LW、SPA、二階導(dǎo)數(shù)法分別篩選出特征波段,并在SVM和GA-BP識別模型的基礎(chǔ)上建立了具有較高穩(wěn)定性的模型,利用該模型分別以單一特征波段作為輸入變量再次建模,確定損傷識別效果最佳的波段。但本研究結(jié)果表明,基于單一特征波段建立模型的識別準確率有所下降,這主要原因是提取的光譜特征對于識別蘋果輕微損傷來說可能還不夠全面,且所用的建模方法也需要進一步改進。因此,在后續(xù)研究中可以考慮更適合的建模特征及建模方法,以進一步提高模型的性能。