但松健
(重慶第二師范學(xué)院 繼續(xù)教育學(xué)院,重慶 400067)
果品的內(nèi)在品質(zhì)(如可溶性固形物、可滴定酸含量以及維生素C等)是決定其市場價(jià)值的重要因素之一,然而當(dāng)前市場上以次充好等情況時(shí)有發(fā)生,如何對果品的內(nèi)在品質(zhì)進(jìn)行精確快速檢測正逐漸成為當(dāng)前亟待解決的問題。傳統(tǒng)的果品質(zhì)量檢測手段主要通過隨機(jī)抽樣的方式進(jìn)行破壞性的檢測,樣本的制作及檢測流程較為復(fù)雜,因此耗時(shí)費(fèi)力,檢測成本高[1~3]。近紅外(Near infrared,NIR)光譜具有無損、高效、精確以及低成本等特點(diǎn),得到了越來越多研究者的重視[2, 4~10]。但在基于NIR光譜的果品品質(zhì)檢測中,一方面采集的光譜數(shù)據(jù)存在著數(shù)據(jù)維度較高,通常難以與果品品質(zhì)建立直接關(guān)聯(lián),另一方面,光譜數(shù)據(jù)收集過程中還存在著許多不可避免的各種噪聲,這對于光譜數(shù)據(jù)和質(zhì)量參數(shù)之間關(guān)系模型的建立造成了一定的影響,同時(shí)也給果品品質(zhì)檢測造成了干擾。針對上述高維度、存在噪聲的NIR光譜數(shù)據(jù),如何基于機(jī)器學(xué)習(xí)算法建立與果品品質(zhì)的質(zhì)量回歸分析模型,是能否實(shí)現(xiàn)果品品質(zhì)定量分析的關(guān)鍵。
本文主要就基于回歸模型的NIR光譜果品品質(zhì)檢測進(jìn)行詳細(xì)探討,首先分析線性和非線性2種現(xiàn)有的果品品質(zhì)檢測方法,其次提出一種基于最小角度回歸的果品內(nèi)在品質(zhì)檢測算法,并與傳統(tǒng)的線性回歸方法(最小二乘法)和非線性回歸方法(最小二乘支持向量機(jī))在預(yù)測準(zhǔn)確率、計(jì)算復(fù)雜度和模型可理解性方面進(jìn)行對比,以探討本文所述算法在NIR光譜果品品質(zhì)分析中的優(yōu)勢。
基于線性回歸模型的機(jī)器學(xué)習(xí)算法是進(jìn)行NIR光譜分析并以此來決定果品質(zhì)量的重要方法之一。其中偏最小二乘回歸(Partial Least Squares Regression, PLSR)是最常用的果品質(zhì)量分析方法[1, 2, 5~7, 11~13]。PLSR是一種多元統(tǒng)計(jì)分析方法,主要研究多因變量對多自變量的回歸建模,包括主成分、多元線性回歸以及相關(guān)性分析等多種方法。當(dāng)各變量內(nèi)部高度線性相關(guān)時(shí),PLSR模型更有效,特別是在NIR光譜數(shù)據(jù)集中變量個(gè)數(shù)往往遠(yuǎn)大于樣本個(gè)數(shù),但各個(gè)變量間存在信息冗余,因此PLSR能很好的建立回歸模型[14]。
除了線性回歸,非線性回歸方法也被大量的用于果品品質(zhì)檢測[4, 9, 15~17]。特別是由于NIR采集過程中存在光散射的影響,因此預(yù)測值與NIR光譜之間存在著某些非線性關(guān)系,針對這些非線性光譜特征進(jìn)行處理,采用非線性回歸方法往往能獲得一定的預(yù)測精度[18, 19]。其中,最小二乘支持向量機(jī)(Least Squares Support Vector Machines,LS-SVM)是應(yīng)用最多且效果較好的NIR光譜分析方法。LS-SVM由SVM算法發(fā)展而來,由Suykens等人提出[20],通過使用L2范數(shù)進(jìn)行目標(biāo)函數(shù)優(yōu)化,并將支持向量機(jī)中的不等式約束替換為等式約束條件,使得LS-SVM的優(yōu)化問題可以通過Kuhn-Tucker條件得到的一組線性方程組求解。
雖然非線性回歸模型在處理非線性數(shù)據(jù)和準(zhǔn)確率方面具有一定優(yōu)勢,但在NIR光譜分析模型的可解釋性(找到最有代表性的特征)方面,線性回歸模型更優(yōu)。此外,還有其他特定的尋求最優(yōu)特征的方法[21],但這些方法由于模型復(fù)雜度較高,難以應(yīng)用到實(shí)際中。相比而言,基于線性回歸的方法更為簡單、直觀,且在NIR光譜分析中更容易理解,運(yùn)用也較廣泛。
最小角度回歸(Least angle regression,LAR)是一種基于線性回歸的方法,雖然已在其它領(lǐng)域得到了廣泛應(yīng)用,但利用LAR進(jìn)行果品質(zhì)量檢測還鮮有報(bào)道。因此,本文將LAR方法與其它線性和非線性方法就果品品質(zhì)檢測的預(yù)測精度、計(jì)算效率和模型可理解性等方面進(jìn)行對比,為基于機(jī)器學(xué)習(xí)的NIR光譜果品品質(zhì)檢測提供了新的思路和新方法。
NIR光譜具有特征維度較多的特點(diǎn),例如在本文中,針對柑橘的品質(zhì)檢測提取了波長范圍1 000~2 499 nm,間隔為1 nm的共計(jì)1 500維的光譜信息,如果直接進(jìn)行回歸分析,將由于變量數(shù)過多導(dǎo)致無法得到關(guān)于回歸參數(shù)的精確解,因此對于維數(shù)過多的回歸分析,進(jìn)行變量選擇非常重要。最直觀的變量選擇方法是通過將所有變量的組合排列進(jìn)行遍歷,并逐個(gè)進(jìn)行回歸測試,從而選出最優(yōu)的變量組合。雖然這種方法能得到最優(yōu)解,但由于其龐大的計(jì)算量使得模型難以應(yīng)用。因此,實(shí)際中變量的選擇是通過某種算法尋求一個(gè)計(jì)算量較小且能接近最優(yōu)變量組合的次優(yōu)解實(shí)現(xiàn)的。其中,向前逐步回歸(Forward stepwise regression)和向前逐漸回歸(Forward stagewise regression)是目前常用的基于特征選擇的回歸方法。
向前逐步回歸的思路是從回歸模型所有系數(shù)為0開始,從候選變量中選出一個(gè)最能改進(jìn)模型的回歸誤差的變量,即通過加入該變量能最大程度減少初始模型在當(dāng)前的殘差平方和,然后對回歸系數(shù)進(jìn)行重新評估[22]。之后繼續(xù)按照上述方法進(jìn)行迭代選擇候選變量,直到達(dá)到擬合精度為止。由于每次選擇都使用了貪心算法即考慮最能改進(jìn)模型誤差的變量,因此對于所有入選的變量都重新進(jìn)行了回歸分析,也就是每一步都進(jìn)行了多元回歸。
逐漸回歸方法與逐步回歸的方法類似,但其改進(jìn)了逐步回歸中由于貪心算法帶來的負(fù)面影響[23]。逐漸回歸方法也從零系數(shù)的回歸模型開始,首先找出與當(dāng)前殘差相關(guān)系數(shù)最高的變量,并再次進(jìn)行回歸分析,同時(shí)逐漸回歸模型只針對部分的系數(shù)進(jìn)行更新。在下一次選擇中,其仍然針對于當(dāng)前殘差相關(guān)系數(shù)最高的變量進(jìn)行選擇,并重復(fù)上述步驟,直到達(dá)到回歸精度。在逐漸回歸的變量選擇過程中,如果某個(gè)變量比其他變量更具有早期優(yōu)勢,則這一變量可能會(huì)多次選中并進(jìn)行系數(shù)更新。逐漸回歸每一步并非充分地求解全部回歸系數(shù),因此相比逐步回歸,逐漸回歸能獲得更好的結(jié)果。
LAR方法參考了逐漸回歸方法的思想,但使用了更為有效的計(jì)算方法。逐漸回歸算法每一步僅選擇一個(gè)變量,并且只更新該變量的系數(shù),從而減少了當(dāng)前殘差和當(dāng)前被選擇變量的相關(guān)性,但是經(jīng)過重復(fù)類似的步驟后,以前被選入激活的變量和當(dāng)前殘差的相關(guān)性有可能又變成最小而又被再次選入。因此,在逐漸回歸每一步中只有該步入選變量的系數(shù)進(jìn)行了修改,而其他已入選變量系數(shù)并沒有變化,從而導(dǎo)致收斂速度慢。而LAR算法正是對該問題進(jìn)行修正,其每一步變量選擇過程中都會(huì)保持當(dāng)前的殘差和所有入選活躍集變量的相關(guān)性,即同時(shí)修正所有入選變量系數(shù),使得這些變量和當(dāng)前殘差的相關(guān)性會(huì)同步減少[23],從而減少了迭代次數(shù)。
本文利用基于最小角度回歸(LAR)算法的果品品質(zhì)檢測模型,對16個(gè)地區(qū)的1 600個(gè)柑橘樣本(每個(gè)產(chǎn)地平均收集100個(gè)果實(shí))進(jìn)行了不同品質(zhì)參數(shù)的果品品質(zhì)檢測,并與目前現(xiàn)有的線性和非線性的品質(zhì)檢測模型進(jìn)行了預(yù)測準(zhǔn)確度和計(jì)算復(fù)雜度等方面的比較。
本文的試驗(yàn)數(shù)據(jù)集均采集自16個(gè)地區(qū)的不同的柑橘樣本,其中光譜波長分布為1 000~2 499 nm。由于光譜采集設(shè)備中不可避免存在噪聲,所以首先采用Savitzky-Golay卷積平滑法對原始光譜信號進(jìn)行去噪。其次,為避免測試中樣本選擇偏差,采用5×10次交叉驗(yàn)證的方法進(jìn)行試驗(yàn),即每次選擇1 280個(gè)(占樣本總量的80%)樣本進(jìn)行訓(xùn)練,剩余樣本作為測試數(shù)據(jù),依次循環(huán)5次,并將上述過程重復(fù)10次,共進(jìn)行了50次訓(xùn)練和測試,將最終的平均值作為性能結(jié)果輸出。在果品質(zhì)量參數(shù)方面,每個(gè)果實(shí)都對應(yīng)測定了可溶性固形物含量(TSS)、可滴定酸度(TA)和VC含量等品質(zhì)參數(shù)。
可溶性固形物含量(TSS)反映了柑橘的甜度,因此是一個(gè)非常重要的品質(zhì)指標(biāo)。在每個(gè)地區(qū)的樣本中隨機(jī)抽取20個(gè)果實(shí),進(jìn)行榨汁后利用多層紗布進(jìn)行過濾,將果汁混勻后,取過濾后的上清液作為試樣。采用手持?jǐn)?shù)顯折射儀(ATAGO,PAL-ES3,Japan)進(jìn)行測定。
可滴定酸含量(TA)反映了柑橘的酸度,也是一個(gè)影響柑橘口感的重要指標(biāo)。由于柑橘果汁中的酸主要以檸檬酸為主,因此采用中和酚酞指示劑滴定法進(jìn)行可滴定酸含量測定。首先準(zhǔn)確吸取10 mL的柑橘果汁樣本,加入不含二氧化碳的蒸餾水稀釋至100 mL,搖勻后用移液管取稀釋液10~100 mL,加入1%酚酞指示劑2滴,并用氫氧化鈉標(biāo)準(zhǔn)溶液進(jìn)行滴定,至溶液出現(xiàn)均勻桃紅色30 s內(nèi)不褪色為終點(diǎn),并記下所消耗的體積,最終的含酸量可以由式(1)求得。
TA/%=N×V2×0.064×100/G
(1)
式中,N為氫氧化鈉標(biāo)準(zhǔn)溶液摩爾濃度/(mol·mL-1);V2為滴定時(shí)所消耗的氫氧化鈉標(biāo)準(zhǔn)溶液的體積/mL;G為用于滴定的果汁體積/(10×10/100)mL。
對于VC含量的測定,不同種類及品種的柑橘由于受不同栽培條件、不同成熟度、不同貯藏條件等影響,導(dǎo)致其果實(shí)中的VC含量也有所不同。本文主要采用2,6-二氯吲哚酚鈉滴定法。首先精確吸取10 mL的柑橘果汁樣本,加入質(zhì)量濃度為1%草酸溶液稀釋至100 mL,之后取稀釋液2~50 mL至容器中,使用0.05%的2,6-二氯吲哚酚鈉溶液進(jìn)行滴定,至溶液為均勻淺紅色為止,并記錄所消耗的2,6-二氯吲哚酚鈉溶液測定還原性VC含量,可以由式(2)得到。
VC/(g·100 L-1)=H×V×100/G
(2)
式中,H為2,6-二氯吲哚酚鈉的滴定度/(g·L-1);V為滴定所消耗的二氯吲哚酚鈉體積/mL;G為用于滴定的果汁體積/(2×10/100)mL。
回歸性能評價(jià)指標(biāo)包括:
(1)校準(zhǔn)相關(guān)系數(shù)(R):
(3)
(2)校正均方根誤差(RMSEC):
(4)
RMSEC值越大,表示擬合的誤差越大。
(3)預(yù)測相關(guān)系數(shù)(r):
(5)
(4)預(yù)測均方根誤差(RMSEP):
(6)
RMSEP表示在測試樣本集上的預(yù)測值與真實(shí)值之間的誤差均方根,其值越小,表示預(yù)測越精確。
(5)偏移(Bias):
(7)
偏移與RMSEP相似,Bias衡量測試集的預(yù)測值與真實(shí)值之間的誤差平方根,其值越小,同樣也表示預(yù)測越精確。
(1)預(yù)測結(jié)果性能分析
為了與本文提出的LAR模型進(jìn)行對比,首先采用Matlab軟件計(jì)算了線性模型PLSR以及非線性模型LS-SVM在測試數(shù)據(jù)集上基于TSS、TA以及VC等品質(zhì)參數(shù)的結(jié)果(表1)。
表1 測試模型LAR、PLSR和LS-SVM在TSS、TA和VC上的性能結(jié)果
從表1可以看出,LAR回歸模型明顯優(yōu)于常用的線性回歸方法PLSR,其中在預(yù)測質(zhì)量參數(shù)TSS上,LAR在相關(guān)性能指標(biāo)如相關(guān)系數(shù)r以及預(yù)測誤差指標(biāo)RMSEP上得到了0.882 5以及0.679 5的結(jié)果,而PLSR方法在預(yù)測TSS上的r和RMSEP上僅得了0.857 1以及0.763 1。對于質(zhì)量參數(shù)TA,LAR的預(yù)測性能r和RMSEP分別為0.800 5以及0.124 8,而PLSR方法在預(yù)測性能r和RMSEP上僅得到了0.783 6和0.127 3。在質(zhì)量參數(shù)VC上,LAR的預(yù)測性能r和RMSEP分別為0.816 0和5.208 3 g·100 L-1,PLSR在r和RMSEP分別為0.782 3以及5.614 1 g·100 L-1。因此LAR在各個(gè)質(zhì)量參數(shù)上以及性能指標(biāo)上均優(yōu)于常用的線性PLSR模型。
當(dāng)然在表1中,非線性的LS-SVM模型獲得了最佳的預(yù)測性能,其中在TSS上,LS-SVM獲得了最佳的r和RMSEP分別為0.899 0以及0.631 6;在TA上為0.800 8以及0.124 6;在VC評價(jià)上為0.817 6和5.180 4。其可能的原因?yàn)?,NIR光譜中存在的非線性噪聲,采用非線性的LS-SVM在處理此類數(shù)據(jù)時(shí)具有一定的優(yōu)勢,從而得到了均優(yōu)于線性模型LAR和PLSR的預(yù)測結(jié)果。
雖然PLSR在預(yù)測性能最差,但是在訓(xùn)練過程中,其得到了所有性能指標(biāo)中最佳的擬合精度,其中在TSS、TA和VC上R分別達(dá)到了0.933 5,0.950 1和0.951 4。說明PLSR有可能進(jìn)行了過度擬合的訓(xùn)練,造成了在預(yù)測時(shí)泛化性能下降。事實(shí)上,對于高維數(shù)據(jù)的擬合,由于樣本數(shù)往往小于特征維數(shù),如NIR光譜數(shù)據(jù)集就普遍存在著這樣的問題,往往更容易造成線性回歸模型訓(xùn)練不足從而造成過擬合,因此對于PLSR模型在基于NIR光譜分析的品質(zhì)檢測中,表現(xiàn)不如LAR以及LS-SVM具有一定的必然性。
LS-SVM在預(yù)測性能上優(yōu)于LAR方法,在處理NIR光譜時(shí),可能由于光散射效果造成的非線性關(guān)系[24]的數(shù)據(jù)分布,雖然這種非線性的干擾效果可能并不明顯,但還是造成了線性方法LAR和非線性的LS-SVM之間的性能部分差距。
(2)計(jì)算復(fù)雜度及計(jì)算效率
雖然LS-SVM能獲得比線性方法LAR和PLSR更優(yōu)的性能,但在實(shí)際應(yīng)用中,PLSR方法仍然是許多研究人員更常用的方法,其中一個(gè)重要的原因就是LS-SVM在實(shí)現(xiàn)以及計(jì)算上要復(fù)雜得多。特別是在大型的數(shù)據(jù)集上,PLSR在計(jì)算效能方面確實(shí)具有一定的優(yōu)勢,而LAR則在處理速度上更加優(yōu)于PLSR算法。
另外,LS-SVM還需要對對應(yīng)的核函數(shù)參數(shù)以及支持向量機(jī)懲罰因子C進(jìn)行適當(dāng)?shù)倪x擇,否則容易造成性能的下降。而PLSR和LAR模型均只有單一參數(shù)即需要選入特征的數(shù)量需要確定。更多的參數(shù)在實(shí)用中意味著更多的不確定性和復(fù)雜性,同時(shí)為了得到最優(yōu)的參數(shù),還需要額外的計(jì)算工作對參數(shù)進(jìn)行優(yōu)化選擇。因此在實(shí)際應(yīng)用中,線性的方法更為有效的用于果品品質(zhì)的快速檢測。
為了對以上3個(gè)模型的計(jì)算效能進(jìn)行對比,本文對基于柑橘NIR光譜的TSS質(zhì)量參數(shù)進(jìn)行了預(yù)測,并統(tǒng)計(jì)了和分析了3個(gè)模型的所需的預(yù)測時(shí)間。同時(shí)為了對在不同數(shù)量的特征情況下的性能進(jìn)行分析,本文在進(jìn)行對比時(shí)還使用了不同的NIR光譜維數(shù),其中維數(shù)從100到1 500以間隔100進(jìn)行了多次試驗(yàn)。最終本文對來自16個(gè)地區(qū)的不同的柑橘樣本在不同光譜維度上進(jìn)行了TSS質(zhì)量分析。其中仍然采用了Savitzky-Golay卷積平滑法對原始的光譜信號進(jìn)行去噪,以及利用了5×10的交叉檢驗(yàn)法取平均性能作為比較輸出。
詳細(xì)的試驗(yàn)流程為:首先,獲得各個(gè)模型的在每個(gè)數(shù)據(jù)上的最佳參數(shù);其次,利用各個(gè)回歸方法在TSS質(zhì)量上進(jìn)行訓(xùn)練以得到最佳參數(shù)下的相關(guān)的回歸模型;最后,利用得到的模型對測試數(shù)據(jù)集進(jìn)行質(zhì)量分析并獲取相應(yīng)的性能指標(biāo)。由于計(jì)算最優(yōu)的參數(shù)是實(shí)際應(yīng)用中必不可少的步驟,因此本文統(tǒng)計(jì)了從獲取模型最佳參數(shù)開始到對測試數(shù)據(jù)集進(jìn)行質(zhì)量分析的整個(gè)過程的時(shí)間,作為計(jì)算效能的對比依據(jù)。其中為了對LS-SVM的最優(yōu)參數(shù)進(jìn)行獲取,本文采用傳統(tǒng)的網(wǎng)格搜索算法進(jìn)行相關(guān)參數(shù)的選擇優(yōu)化。對于PLSR和LAR方法,采用了交叉驗(yàn)證的方法來確定最優(yōu)的參數(shù)。
其中各個(gè)模型的計(jì)算復(fù)雜度用對TSS進(jìn)行質(zhì)量分析的運(yùn)行時(shí)間來衡量(圖1)。其中可以清楚的看出,LS-SVM需要耗費(fèi)比PLSR和LAR明顯更多的時(shí)間,特別是隨著維數(shù)的增長,雖然在耗時(shí)方面存在一定的波動(dòng),但所耗的時(shí)間總的趨勢是在不斷的攀升。LS-SVM在即使只采用部分光譜數(shù)據(jù)例如300維的光譜信息時(shí),仍然需要近50 s的時(shí)間,而在采用1 000維以上的數(shù)據(jù)進(jìn)行試驗(yàn)時(shí),其所耗費(fèi)的時(shí)間甚至超過了60 s,時(shí)間增加了近10 s之多。
而對比LS-SVM,PLSR和LAR在耗時(shí)方面隨維數(shù)的增長極為緩慢切較為線性,所耗時(shí)間也較少,即使采用了1 500維特征進(jìn)行訓(xùn)練和測試,PLSR也只要10 s以下的時(shí)間,而LAR僅需要5 s左右的時(shí)間即完成了所有的試驗(yàn)過程。
以上試驗(yàn)結(jié)果和分析說明,在計(jì)算性能上,LAR具有比PLSR更優(yōu)的性能,且明顯優(yōu)于LS-SVM。
圖1 在不同的NIR光譜數(shù)據(jù)維數(shù)上利用LAR、LS-SVM以及PLSR對TSS進(jìn)行質(zhì)量分析的時(shí)間復(fù)雜度Fig.1 Computation time of LAR, LS-SVM and PLSR to predict TSS content based on different dimensions of NIR spectra
(3)模型的可解釋性與光譜分析
除了預(yù)測準(zhǔn)確性以及計(jì)算效能以外,在某些實(shí)際應(yīng)用中,模型的可解釋性也是預(yù)測模型需要關(guān)注的方面。例如,在對基于NIR光譜的TSS質(zhì)量預(yù)測中,期望能夠明確哪些是最能影響TSS質(zhì)量的光譜波段。其中光譜的指紋圖譜分析(Spectral fingerprint analysis)是常用的找出與感興趣參數(shù)最相關(guān)的光譜波段或者數(shù)值的方法[25],也被稱為光譜特征的重要性分析(spectral variable importance analysis)。通過預(yù)知光譜中最為重要的波段,可以更有針對性和選擇性的收集相關(guān)的光譜數(shù)據(jù)。LS-SVM雖然在預(yù)測準(zhǔn)確率上具有一定的優(yōu)勢,但由于其需要通過非線性核函數(shù)將特征映射到高維空間中進(jìn)行處理,因此這些映射到高維中的特征在相關(guān)的光譜波段解釋上較為困難,有些甚至是映射到了無限的空間尺度上。而線性回歸方法較為直接和簡單,因此線性回歸方法在光譜指紋分析中更為常用。通過挖掘光譜中波長信息與PLSR的隱含變量以及回歸系數(shù)之間的關(guān)系,可以得到信息量最大的光譜信息,而PLSR回歸系數(shù)同樣也隱含著對應(yīng)光譜信息的重要性。也就是說,相關(guān)波長所對應(yīng)的回歸系數(shù)越大,則比回歸系數(shù)較小的波長更為重要。由于PLSR模型使用了多個(gè)隱含的回歸變量,因此在使用回歸系數(shù)對波長信息進(jìn)行分析時(shí)更為方便。LAR同樣也是線性回歸模型,其具有與PLSR模型相同的可解釋性以及光譜指紋分析能力。
PLSR和LAR基于 NIR光譜進(jìn)行TSS質(zhì)量分析時(shí)的可解釋性(模型的回歸系數(shù)在不同NIR光譜的波長信息上的分布情況)分別如圖2(a)和圖2(b)所示。
(a)PLSR回歸系數(shù);(b):LAR回歸系數(shù)(a)PLSR regression coefficient; (b) LAR regression coefficient圖2 LAR和PLSR模型的回歸系數(shù)值在不同的NIR光譜波長信息上的分布Fig.2 LAR and PLSR regression coefficients on different wavelengths of NIR spectra
從圖2可以看出,PLSR和LAR模型在系數(shù)上具有相似的脈沖分布模式,例如在波長為1 082 nm和1 083 nm處,LAR和PLSR模型都有同樣的系數(shù)峰值。類似的,在1 317~1 320 nm(C-H組合的第1個(gè)諧波)、1 608~1 612 nm、1 686~1 688 nm、1 872~1 875 nm(C=O 鍵的第2個(gè)諧波)、2 030~2 038 nm處,PLSR和LAR模型都出現(xiàn)了相似的系數(shù)峰值分布;但相比PLSR,LAR模型系數(shù)分布峰值更加明顯和直觀,也就是說,LAR模型的回歸系數(shù)更集中分布在少量的非零系數(shù)的波長上。而PLSR的系數(shù)值則較為均勻地分布在所有的波長上,分布較為扁平。其原因是NIR光譜中在不同波長中存在著很高的共線性,某個(gè)特定波長的回歸系數(shù)可能受到其他共線波長的影響。這種共線性也使得PLSR模型在某些特殊波長上的系數(shù)分散,從而在分布上不能形成明顯的峰值。例如,對于LAR模型在1 393~1 394 nm處(CH3諧波)有一個(gè)明顯的峰值,但在對應(yīng)的波長上PLSR模型卻沒有形成明顯的系數(shù)值波峰,即這些較大的回歸系數(shù)值被許多相關(guān)聯(lián)的波長信息所共享。
綜上,本文對提出的LAR模型與常用的線性模型PLSR以及非線性的LS-SVM算法在果品TSS、TA和VC檢測上進(jìn)行了對比,其中LS-SVM能獲得較好的預(yù)測性能,但在計(jì)算效能和可解釋性方面弱于線性LAR和PLSR模型;同時(shí)LAR在預(yù)測性能上明顯優(yōu)于PLSR模型,且比PLSR模型更有利于NIR光譜指紋的分析。因此,本文提出的LAR模型為基于NIR光譜的果品質(zhì)量分析提供了較好的解決方案。
本文研究了利用最小角度回歸(LAR)模型對基于NIR光譜的果品內(nèi)在質(zhì)量進(jìn)行分析的方法。
(1)在分析目前線性和非線性果品品質(zhì)檢測方法的基礎(chǔ)上,提出了基于LAR模型的果品內(nèi)部品質(zhì)分析方法。LAR模型是一種基于變量選擇的方法,能獲得比向前逐步回歸更優(yōu)的回歸效果。
(2)試驗(yàn)數(shù)據(jù)集中,波長集中分布在1 000~2 499 nm,同時(shí)提取的果品質(zhì)量指標(biāo)包括TSS,TA和VC。在預(yù)測準(zhǔn)確度上,LS-SVM模型達(dá)到了最優(yōu)預(yù)測性能,而LAR模型明顯優(yōu)于目前最常用的線性PLSR模型。在計(jì)算復(fù)雜度上,LAR和PLSR模型明顯優(yōu)于LS-SVM模型。在模型的可解釋方面,LS-SVM不能用于光譜指紋分析,而LAR要優(yōu)于PLSR模型。
(3)雖然LAR模型在預(yù)測精度上稍遜于LS-SVM,但在模型的實(shí)現(xiàn)和計(jì)算復(fù)雜度以及可解釋性方面都具有明顯的優(yōu)勢,因此, LAR模型更能有效的應(yīng)用于基于NIR光譜的果品品質(zhì)分析中。