王 磊,覃 鴻*,李 靜,張小波,于麗娜,李衛(wèi)軍,黃璐琦
1. 中國(guó)科學(xué)院半導(dǎo)體研究所高速電路與神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)室,北京 100083 2. 中國(guó)科學(xué)院大學(xué)材料科學(xué)與光電子工程中心,微電子學(xué)院,北京 100049 3. 中國(guó)中醫(yī)科學(xué)院中藥資源中心道地藥材國(guó)家重點(diǎn)實(shí)驗(yàn)室培育基地,北京 100700 4. 中國(guó)中醫(yī)科學(xué)院道地藥材國(guó)家重點(diǎn)實(shí)驗(yàn)室培育基地,北京 100700
寧夏枸杞(Lycium barbarum)是茄科枸杞屬的一種,果實(shí)稱為枸杞子[1]。 近現(xiàn)代醫(yī)學(xué)研究表明,枸杞子具有抗氧化、抗疲勞、降血脂、降血糖等多方面的藥理功效[2]。 寧夏枸杞是《中華人民共和國(guó)藥典》中唯一列為藥品的枸杞品種[3]。 寧夏產(chǎn)地的枸杞由于色艷,皮薄,肉厚,甘甜,活性成分多以及藥用價(jià)值高而受到消費(fèi)者的青睞。 但是品質(zhì)優(yōu)良的枸杞子受制于種植面積,產(chǎn)量有限,市場(chǎng)流通的商品來(lái)源無(wú)法確保,致使枸杞子市場(chǎng)混亂,以其他產(chǎn)地假冒寧夏產(chǎn)地的現(xiàn)象頻發(fā)[4]。
鑒別枸杞子的傳統(tǒng)方法有性狀鑒別、顯微鑒別、化學(xué)成分分析鑒別、分子生物學(xué)技術(shù)鑒別等,但是這些方法周期都比較長(zhǎng)且具有破壞性,不能批量鑒別[5-6]。 王歡[7]等研究了不同產(chǎn)地寧夏枸杞藥用活性成分的差異,發(fā)現(xiàn)不同產(chǎn)地的枸杞多糖及甜菜堿含量存在顯著性差異。 曲云卿[8]等研究了不同產(chǎn)地枸杞類胡蘿卜素含量的差異。 不同產(chǎn)地中枸杞成分含量的不同,可以反映出枸杞內(nèi)部含氫基團(tuán)對(duì)近紅外譜區(qū)具有不同的吸收強(qiáng)度,以上研究為使用近紅外光譜建立枸杞產(chǎn)地鑒別模型提供了依據(jù)。 然而枸杞子樣本較小、形狀不規(guī)則、成分分布不均勻,近紅外光譜鑒別通常需要把樣品碾碎成粉末,無(wú)法做到無(wú)損批量地采集光譜數(shù)據(jù)。 近紅外高光譜圖像結(jié)合了近紅外光譜和圖像,包含豐富的空間信息和光譜信息,可以實(shí)現(xiàn)無(wú)損批量地采集非均勻樣本光譜信息。
采用近紅外高光譜圖像技術(shù)進(jìn)行枸杞產(chǎn)地的鑒別,為建立快速有效的枸杞產(chǎn)地鑒別模型提供實(shí)驗(yàn)依據(jù)。 通過(guò)比較ZCA白化[9]預(yù)處理和常用的標(biāo)準(zhǔn)化預(yù)處理,采用偏最小二乘降維[10-11]算法對(duì)輸入數(shù)據(jù)進(jìn)行降維,驗(yàn)證SVM[12],LDA[13],Softmax[14]不同分類器性能表現(xiàn),提出了在當(dāng)前應(yīng)用場(chǎng)景下快速有效鑒別枸杞產(chǎn)地的方法。
樣品的品種都為寧杞1號(hào),產(chǎn)地分別為內(nèi)蒙新安鎮(zhèn)、甘肅靖遠(yuǎn)縣、青海都蘭縣、新疆精河縣和寧夏銀川市。 樣品從產(chǎn)地收集,每個(gè)地方采集330個(gè)樣本,統(tǒng)一烘干保存。 使用近紅外高光譜圖像設(shè)備分三批采集數(shù)據(jù),每批每個(gè)產(chǎn)地采集110個(gè)樣本的高光譜信息。 接下來(lái)使用隨機(jī)采樣的方法分割訓(xùn)練集、驗(yàn)證集和測(cè)試集。 從第一批和第二批中每個(gè)產(chǎn)地隨機(jī)選取150個(gè)樣本作為訓(xùn)練集,剩下的作為驗(yàn)證集,第三批數(shù)據(jù)單獨(dú)作為測(cè)試集,該方法重復(fù)50次用來(lái)觀察模型穩(wěn)定性。
采集數(shù)據(jù)用的是實(shí)驗(yàn)室級(jí)別的高光譜相機(jī),相機(jī)是Norsk Elektro Optikk AS(NEO)公司研發(fā)的HySpex系列的SN3124 SWIR-384。 光譜范圍是948.72~2 512.97 nm,波段間隔5.45 nm,總共288個(gè)波段。 采集數(shù)據(jù)參數(shù)設(shè)置包括高光譜成像儀的鏡頭與枸杞子距離為20~30 cm; 平臺(tái)移動(dòng)速度為1.5 mm·s-1; 積分時(shí)間4 500。 高光譜圖像采集系統(tǒng)示意圖如圖1所示。
圖1 高光譜圖像系統(tǒng)示意圖
批量的把樣本按圖1所示擺放在移動(dòng)平臺(tái)上,樣本之間沒(méi)有重疊,高光譜設(shè)備采集數(shù)據(jù),數(shù)據(jù)分析全部采用MATALB 2017b。
枸杞在近紅外譜區(qū)吸收較弱的波段,對(duì)應(yīng)的反射率相對(duì)較大,可以體現(xiàn)出樣本與黑板之間更明顯的差異性,有利于通過(guò)圖像處理分割出樣本位置。 選擇1 107 nm波段進(jìn)行圖像處理操作,然后進(jìn)行掩模處理。 閾值分割可以從背景中分離出樣本,通過(guò)公式(1)計(jì)算樣本平均反射率,Iraw其中表示樣本光譜反射值,Idark表示黑板光譜反射值,Iwhite表示白板光譜反射值,Inew為計(jì)算得到的光譜反射率。
(1)
1.4.1 ZCA白化
采集的高光譜圖像光譜波段之間具有很強(qiáng)的相關(guān)性,常用的去均值和標(biāo)準(zhǔn)化(特征去均值除方差)等方法都是基于高斯歸一化去平移或縮放原始數(shù)據(jù)的特征,并沒(méi)有有效的去除特征之間的相關(guān)性。 因此,采用白化讓原始數(shù)據(jù)經(jīng)過(guò)一個(gè)線性變換得到的新數(shù)據(jù)的協(xié)方差矩陣為單位矩陣來(lái)去除相關(guān)性。 白化的方式并不唯一,本實(shí)驗(yàn)選擇了ZCA白化得到接近原始數(shù)據(jù)的新特征。 ZCA白化的算法實(shí)現(xiàn)步驟如下:
(3) 接下來(lái)對(duì)Σ進(jìn)行奇異值分解得到左特征向量矩陣U和特征值矩陣S。
1.4.2 偏最小二乘降維(PLSDR)
近紅外高光譜圖像系統(tǒng)波段較多,數(shù)據(jù)具有多維度的特點(diǎn)。 對(duì)輸入數(shù)據(jù)降低維度可以使后續(xù)的分類器設(shè)計(jì)在計(jì)算上更容易實(shí)現(xiàn)。 常用的主成分分析(principal component analysis, PCA)在映射過(guò)程中只是保留數(shù)據(jù)集中對(duì)方差貢獻(xiàn)較大的特征,映射時(shí)沒(méi)有利用數(shù)據(jù)內(nèi)部的分類信息,所以降維后的特征在分類器的表現(xiàn)可能相對(duì)較差。 PLSDR結(jié)合PCA的優(yōu)點(diǎn),使得原始數(shù)據(jù)的隱藏特征和預(yù)測(cè)變量具有最大相關(guān)性,可以減少原始數(shù)據(jù)中與預(yù)測(cè)變量無(wú)關(guān)的信息,使新的隱藏特征更有利于分析,該方法在光譜數(shù)據(jù)處理中應(yīng)用十分廣泛。
定義矩陣T=[t1,…,tK]∈Rm×K表示m個(gè)觀測(cè)樣本的K個(gè)隱藏特征,T與預(yù)處理后的數(shù)據(jù)X的關(guān)系表述如式(2)。
T=XW
(2)
W=[w1,…,wk]∈Rn×K是線性映射矩陣。 第一個(gè)隱藏特征為t1=Xw1,通過(guò)拉格朗日乘子法求解公式(3)可以得到w1=XTY/‖XTY‖。
(3)
基于第一個(gè)隱藏特征,X和Y可以按照式(4)做如下分解。
(4)
式中,p1和q1可以通過(guò)最小二乘算法求解,殘差矩陣E,F可以作為新的X和Y,通過(guò)迭代繼續(xù)求解新的隱藏特征。
要對(duì)多個(gè)產(chǎn)地進(jìn)行分類,一般有one vs all和one vs one投票的方法進(jìn)行多分類。 為了避免分界面具有不確定性區(qū)域、投票時(shí)票數(shù)相同以及增加模型復(fù)雜度等問(wèn)題,采用了基于統(tǒng)計(jì)學(xué)中最大似然估計(jì)框架的Softmax進(jìn)行多分類,同時(shí)和SVM和LDA模型做比較。
不同產(chǎn)地的寧夏枸杞的全波段(948~2 512 nm)平均反射率光譜如圖2所示。 通過(guò)圖2可以看出不同產(chǎn)地的平均曲線趨勢(shì)相似,但是每個(gè)波段對(duì)應(yīng)反射率值不同,代表內(nèi)部的化學(xué)成分含量不同。 相似性可以體現(xiàn)在它們都是寧夏枸杞這一品種; 差異性的影響因素可能比較多,包括地理環(huán)境,天氣,種植培育過(guò)程等。
圖2 不同產(chǎn)地的枸杞的全波段(948~2 512 nm)平均反射率
Fig.2MeanreflectancespectraofLyciumbarbarumfromdifferentregionsinthefull-bands(948~2512nm)
NM: Inner Monglia; GS: Gansu; QH: Qinghai;
XJ: Xinjiang; NX: Ningxia
訓(xùn)練集經(jīng)過(guò)ZCA白化預(yù)處理后,對(duì)青海和寧夏兩個(gè)產(chǎn)地的數(shù)據(jù)取平均得到圖3。 從圖3可以清楚的看出經(jīng)過(guò)ZCA白化處理后的數(shù)據(jù)變的具有離散性,放大了每一個(gè)波段的差異性,同時(shí)去除了原始數(shù)據(jù)不同波段之間的相關(guān)性,結(jié)合ZCA白化的理論分析表明ZCA白化可以很好的去除特征之間的相關(guān)性。
圖3 ZCA白化預(yù)處理結(jié)果示意圖
使用不同的數(shù)據(jù)分析方法建模時(shí),都需要進(jìn)行調(diào)參。 采用PLSDR和Softmax進(jìn)行分類時(shí),可以設(shè)定主成分?jǐn)?shù)ncomp=[1∶60]以及正則項(xiàng)參數(shù)λ(lambda)=[1e-1,1e-2,…,1e-8]進(jìn)行網(wǎng)格調(diào)參。 圖4和圖5是分別使用標(biāo)準(zhǔn)化和ZCA白化預(yù)處理后的調(diào)參結(jié)果。 從圖4可以看出經(jīng)過(guò)標(biāo)準(zhǔn)化預(yù)處理后PLSDR算法降低到40個(gè)主成分,識(shí)別結(jié)果趨于穩(wěn)定(96.54%±0.05%),當(dāng)主成分?jǐn)?shù)大于40時(shí),正則項(xiàng)參數(shù)的影響弱化。 ZCA白化預(yù)處理后的調(diào)參結(jié)果與標(biāo)準(zhǔn)化類似,但是可以降低到4個(gè)主成分來(lái)表示。 正則項(xiàng)參數(shù)是用來(lái)防止模型過(guò)擬合的,但是這個(gè)參數(shù)不是非常敏感。 如果設(shè)置太大,會(huì)出現(xiàn)欠擬合現(xiàn)象。 由于降低到一定主成分?jǐn)?shù)之后,正則項(xiàng)參數(shù)的影響效果不是很明顯,本實(shí)驗(yàn)統(tǒng)一設(shè)置λ為1e-6。
圖4 標(biāo)準(zhǔn)化模型的調(diào)參結(jié)果
圖5 ZCA白化模型的調(diào)參結(jié)果
當(dāng)使用SVM分類器時(shí),也有兩個(gè)重要的參數(shù)c和g進(jìn)行調(diào)參。 參數(shù)c是懲罰因子,表示對(duì)錯(cuò)誤分類的容忍度。c越大越容易導(dǎo)致過(guò)擬合,反之c越小越容易欠擬合。 參數(shù)g是RBF核自帶的參數(shù),隱含地決定了數(shù)據(jù)映射到新的特征空間后的分布,g越大,支持向量越少,g越小,支持向量越多。 同樣使用網(wǎng)格調(diào)參法,設(shè)定c=[0.1, 0.3, 1, 3, 10, 30]和g=[0.01, 0.03, 0.1, 0.3, 1, 3]尋找一組相對(duì)較好的模型參數(shù)。 最后尋找到合適的參數(shù)為c=1,g=0.01。
通過(guò)對(duì)比實(shí)驗(yàn),得到了如表1所示的不同模型的識(shí)別結(jié)果。 對(duì)比模型1和模型2的結(jié)果,ZCA白化預(yù)處理模型在測(cè)試集上的平均準(zhǔn)確率(93.87%)比標(biāo)準(zhǔn)化預(yù)處理模型在測(cè)試集上的平均準(zhǔn)確率(87.23%)要高出大約6.6%。 ZCA白化模型在測(cè)試集上的準(zhǔn)確率標(biāo)準(zhǔn)差(0.008 8)相對(duì)較低,說(shuō)明多次隨機(jī)采樣建模測(cè)試結(jié)果的離散程度較低,ZCA白化模型的魯棒性更好,而且ZCA白化模型具有較低的建模測(cè)試運(yùn)行時(shí)間(3.54 s)。 以上實(shí)驗(yàn)結(jié)果表明ZCA白化去除特征之間的相關(guān)性的同時(shí),還可以提升模型準(zhǔn)確率。 因此,ZCA白化是一個(gè)有效的預(yù)處理方法。
表1 不同模型的結(jié)果
從模型1(87.23%)和模型3(90.17%)的結(jié)果來(lái)看,PLSDR算法提升了模型1大約3%的準(zhǔn)確率。 原始數(shù)據(jù)的288個(gè)特征可以降低成40個(gè)特征,這一點(diǎn)也可以表明原始數(shù)據(jù)的冗余性。 同時(shí),建模及測(cè)試運(yùn)行時(shí)間被大大壓縮。
通過(guò)分析模型2(93.87%)和模型4(94.06%)的結(jié)果表明PLSDR算法稍微增加了模型2的準(zhǔn)確率。 但是,使用PLSDR算法可以把輸入特征降低成四個(gè)特征去表示。 經(jīng)過(guò)ZCA白化變換后的數(shù)據(jù),相對(duì)原始數(shù)據(jù)來(lái)說(shuō)丟失了一部分原始信息,因此PLSDR并沒(méi)有顯著的提升ZCA白化模型的效果,但是可以從ZCA白化后不相關(guān)的特征中提取更有效表示輸入數(shù)據(jù)的特征。 經(jīng)過(guò)降維后,模型4的識(shí)別率仍是遠(yuǎn)遠(yuǎn)優(yōu)于模型3的識(shí)別率,而且從模型復(fù)雜度角度來(lái)看,ZCA白化后的模型也是優(yōu)于標(biāo)準(zhǔn)化模型,建模測(cè)試運(yùn)行時(shí)間也更短,方便實(shí)時(shí)測(cè)試。
模型6使用了SVM分類器,編程實(shí)現(xiàn)借用了LIBSVM提供的工具箱。 另外,該多分類問(wèn)題的實(shí)現(xiàn)采用了one vs one方法。 SVM模型降低到100個(gè)主成分時(shí),在測(cè)試集上的準(zhǔn)確率趨于穩(wěn)定僅有88.25%,并且建模及測(cè)試運(yùn)行時(shí)間為134 s。 這個(gè)結(jié)果表明SVM分類器表現(xiàn)相對(duì)較差,而且采用one vs one方法建模復(fù)雜度太高。
LDA多分類的實(shí)現(xiàn)同樣采用了one vs one方法,建立了10個(gè)LDA分類器投票分類。 從模型5的結(jié)果可以看出在測(cè)試集上的準(zhǔn)確率為93.85%。 同時(shí)該模型的準(zhǔn)確率也具有較小的標(biāo)準(zhǔn)差(0.007 6)和建模測(cè)試運(yùn)行時(shí)間(3.51 s)。 LDA的結(jié)果表現(xiàn)不錯(cuò)也可以反映出當(dāng)前實(shí)驗(yàn)的數(shù)據(jù)集有很強(qiáng)的線性關(guān)系,所以使用Softmax的結(jié)果很好是可以預(yù)期到的。 僅從當(dāng)前數(shù)據(jù)集來(lái)看,LDA和Softmax模型都表現(xiàn)不錯(cuò),但是Softmax模型具有很強(qiáng)的泛化能力,當(dāng)面對(duì)非線性數(shù)據(jù)時(shí),它可以作為神經(jīng)網(wǎng)絡(luò)的最后一層處理非線性數(shù)據(jù)。
近紅外高光譜圖像結(jié)合圖像和近紅外光譜可以快速無(wú)損批量采集樣本數(shù)據(jù),通過(guò)圖像處理可以有效提取出對(duì)應(yīng)樣本信息。 結(jié)合理論分析和實(shí)踐驗(yàn)證,提出了一種快速有效處理高光譜數(shù)據(jù)的方法。 先使用ZCA白化預(yù)處理去除輸入特征的相關(guān)性,接著通過(guò)PLSDR算法提取輸入特征與類別之間具有最大相關(guān)性的主成分,降低模型復(fù)雜度,最后通過(guò)Softmax分類器從概率角度對(duì)輸入數(shù)據(jù)進(jìn)行分類。 這個(gè)模型在當(dāng)前枸杞產(chǎn)地鑒別的應(yīng)用場(chǎng)景得到了很好的表現(xiàn),50次結(jié)果測(cè)試集的平均準(zhǔn)確率達(dá)到了94.06%,同時(shí)標(biāo)準(zhǔn)差僅有0.009,說(shuō)明模型的魯棒性很好。 在當(dāng)前數(shù)據(jù)量不是很多且分類類別相對(duì)較少的情況下,這個(gè)模型的優(yōu)勢(shì)并沒(méi)有完全體現(xiàn)出來(lái)。 未來(lái)有新的應(yīng)用場(chǎng)景,而且數(shù)據(jù)非線性特征較強(qiáng)時(shí),模型也可以很好的遷移新問(wèn)題上面,把Softmax分類器作為神經(jīng)網(wǎng)絡(luò)的最后一層去處理非線性數(shù)據(jù)。