王卓薇, 羅鑒鵬, 李學(xué)識(shí), 程良倫
1. 廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院, 廣東 廣州 510006 2. 廣東工業(yè)大學(xué)自動(dòng)化學(xué)院, 廣東 廣州 510006
太赫茲光譜在食品檢測(cè)方面的應(yīng)用研究越來越多, 食用油檢測(cè)是其中的一個(gè)重要部分。 Liu等[1]比較了偏最小二乘-支持向量機(jī)(LS-SVM)、 BP神經(jīng)網(wǎng)絡(luò)(BPNN)、 隨機(jī)森林(RF)、 主成分分析(PCA)這些不同的化學(xué)計(jì)量學(xué)方法判斷橄欖油產(chǎn)地的效果, 驗(yàn)證了化學(xué)計(jì)量學(xué)在太赫茲光譜定性分析中的重要作用。 聶美彤等[2]使用衰減全反射式太赫茲光譜研究了大豆油、 核桃油和葡萄籽油的光譜特性, 證明了太赫茲光譜在食用油定性分析方面具備理論基礎(chǔ)。 李利龍等[3]使用太赫茲光譜對(duì)7種植物油和2種調(diào)和油進(jìn)行研究, 結(jié)果表明: 脂類有機(jī)大分子對(duì)THz輻射具有差異性吸收, 具備在THz波段的識(shí)別基礎(chǔ), 可通過THz技術(shù)進(jìn)行鑒別和定性分析。 Yin等提出了一種通過使用太赫茲(THz)光譜結(jié)合遺傳算法(GA)和偏最小二乘判別分析(PLS-DA)來區(qū)分食用油的方法。 結(jié)果表明, GA-PLS-DA模型具有較小的預(yù)測(cè)均方根誤差(RESEP), 較大的預(yù)測(cè)相關(guān)系數(shù)(Rp), 以及比其他模型更高的分類精度。 他們得到THz光譜與化學(xué)計(jì)量學(xué)相結(jié)合是區(qū)分各種食用油的有效方法的結(jié)論[4]。
在目前的材料定性研究中, 研究人員主要是通過提取太赫茲光譜特征結(jié)合支持向量機(jī)、 人工神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)方法進(jìn)行定性識(shí)別。 陳濤[5]提出了一種基于PCA和模糊識(shí)別方法的生物分子太赫茲光譜識(shí)別方法, 并采用多種典型糖類和氨基酸生物分子的太赫茲光譜作為實(shí)驗(yàn)介質(zhì)證明所提方法的可行性和有效性。 胡曉華等[6]采用PCA對(duì)3個(gè)產(chǎn)地的咖啡進(jìn)行太赫茲光譜分析, 構(gòu)造了基于粒子群參數(shù)尋優(yōu)的支持向量機(jī)鑒別模型, 模型對(duì)不同產(chǎn)地咖啡樣品的綜合識(shí)別率達(dá)到95%。 張文濤等[7]在采用太赫茲時(shí)域光譜技術(shù)對(duì)轉(zhuǎn)基因大豆油光譜檢測(cè)的基礎(chǔ)上結(jié)合PCA及支持向量機(jī), 構(gòu)建PCA-SVM模型對(duì)轉(zhuǎn)基因大豆油進(jìn)行鑒別。 Liu等[8]使用連續(xù)投影算法結(jié)合加權(quán)線性判別法實(shí)現(xiàn)了各種類型轉(zhuǎn)基因油的區(qū)分。 在上述研究中, 首先采用PCA提取太赫茲光譜特征然后采用非線性的分類器進(jìn)行分類。 但是, PCA這類線性降維方法不適合對(duì)太赫茲光譜數(shù)據(jù)進(jìn)行特征提取。 由于物質(zhì)的太赫茲光譜數(shù)據(jù)各維度呈現(xiàn)非線性, 尤其是當(dāng)不同物質(zhì)的太赫茲光譜曲線整體非常相似時(shí), 線性處理方法易產(chǎn)生較大誤差。
核主成分分析(KPCA)是一種非線性研究方法, 通過核函數(shù)完成非線性映射的過程, 最終實(shí)現(xiàn)對(duì)非線性數(shù)據(jù)降維同時(shí)最大程度保留原始數(shù)據(jù)的信息。 KPCA在捕捉數(shù)據(jù)的非線性特征比較有效。 KPCA應(yīng)用在故障檢測(cè)等場(chǎng)合比較多。 Hu等[9]提出了一種基于加權(quán)極限學(xué)習(xí)機(jī)(WELM)的小波包分解(WPD)和KPCA的特征提取方法。 Deng等[10]改進(jìn)KPCA用于工業(yè)過程多模態(tài)診斷。 但是KPCA在光譜識(shí)別方面應(yīng)用極少, 本文嘗試使用KPCA提取光譜數(shù)據(jù)特征。 徑向基函數(shù)是一類其值只依賴于變量距原點(diǎn)距離的函數(shù)。 如果原始數(shù)據(jù)是線性不可分的, 通過徑向基函數(shù)映射可能變得線性可分。 太赫茲光譜數(shù)據(jù)整體上是線性不可分的, 通過徑向基函數(shù)可以將光譜數(shù)據(jù)映射到新的空間, 然后進(jìn)行線性區(qū)分。 但是徑向基函數(shù)映射后得到的太赫茲光譜數(shù)據(jù)也未必都是線性可分的, 因此采用KPCA這種方法進(jìn)行特征提取更加合適。 針對(duì)太赫茲光譜線性不可分、 特征提取難的問題, 提出了結(jié)合徑向基函數(shù)和KPCA的方法進(jìn)行特征提取。 首先采用徑向基函數(shù)對(duì)去噪后的光譜數(shù)據(jù)進(jìn)行映射, 再采用KPCA進(jìn)行特征提取, 最后采用支持向量機(jī)對(duì)太赫茲光譜進(jìn)行分類, 驗(yàn)證特征提取效果。
1.1.1 徑向基函數(shù)
徑向基函數(shù)滿足: 若‖x1‖=‖x2‖, 則φ(x1)=φ(x2)。 根據(jù)定義可以發(fā)現(xiàn), 徑向基函數(shù)是某種沿徑向?qū)ΨQ的函數(shù), 通常表示成變量到原點(diǎn)之間的歐氏距離的單調(diào)函數(shù)。 徑向基函數(shù)可以將非線性數(shù)據(jù)映射到新的徑向基空間中, 原始的非線性數(shù)據(jù)在新的徑向基空間就有可能變成線性數(shù)據(jù)。 徑向基函數(shù)空間定義為: 給定一個(gè)一元函數(shù)φ:R+→R, 在定義域x∈Rd上, 所有形如φ(x-c)=φ(‖x-c‖)及其線性組合張成的函數(shù)空間稱為由函數(shù)φ導(dǎo)出的徑向基空間。
食用油的主要成分是脂肪, 食用油的脂肪包含飽和脂肪、 反式脂肪、 單不飽和脂肪和多不飽和脂肪。 不同的食用油成分上的主要差異表現(xiàn)在不同種類脂肪的含量。 這種含量的微小差異在太赫茲光譜中表現(xiàn)為光譜吸收譜線的微小差異。 通過徑向基函數(shù)映射, 可以將食用油的太赫茲光譜映射到可能線性可分的徑向基空間中, 更便于特征提取。
1.1.2 核主成分分析KPCA
目前, 數(shù)據(jù)降維的方法主要分為兩大類: 線性降維和非線性降維。 主成分分析(PCA)因?yàn)槠涓拍詈?jiǎn)單、 計(jì)算方便、 線性重構(gòu)誤差最優(yōu)等優(yōu)良性能, 成為數(shù)據(jù)處理中應(yīng)用最廣泛的線性降維方法之一, 而KPCA作為PCA在處理非線性問題的擴(kuò)展, 得到快速發(fā)展。 Xia等[11]使用KPCA方法提取高光譜圖像特征, 使用隨機(jī)森林方法對(duì)圖像進(jìn)行分類, 獲得良好的分類性能。 Gan等[12]將KPCA集成到基于多特征的內(nèi)核稀疏表示分類中, 提取高光譜圖像特征并分類。 針對(duì)PCA提取非線性特征的不足, 本文提出使用KPCA提取太赫茲光譜的非線性特征。 KPCA的流程示意圖如圖1所示。
圖1 KPCA流程圖
對(duì)于給定的n維N個(gè)經(jīng)過中心化的太赫茲時(shí)域光譜數(shù)據(jù)集X={x1,x2,x3, …,xN} ,xi∈Rn(i=1, 2, 3, 4, …,N), 首先將其映射到特征空間, 得到φ(x), 則在特征空間中的的協(xié)方差矩陣表示為式(1)
C=φ(X)φ(X)T
(1)
在特征空間中進(jìn)行PCA降維, 可得到
φ(X)φ(X)T=λw
(2)
式(2)中,w是特征空間中的特征向量,λ是特征向量對(duì)應(yīng)的特征值。
對(duì)于任意第j個(gè)特征向量wj(j=1, 2, 3, …,n),λi是對(duì)應(yīng)的特征值, 由式(2)得到式(4)
∑(φ(xi)φ(xi)T)wj=λiwj
(3)
化簡(jiǎn)式(3),
(4)
wj=∑aφ(xi)
(5)
將式(5)代入式(4), 可得
φ(X)φ(X)Tφ(X)a=λiφ(X)a
(6)
將式(6)兩邊同時(shí)乘φ(X)T, 得
φ(X)Tφ(X)φ(X)Tφ(X)a=λiφ(X)Tφ(X)a
(7)
令核方法K=φ(X)Tφ(X), 則式(7)可變?yōu)槭?8)
K2=λiKa
(8)
K=λia
(9)
KPCA常用的核函數(shù)有: 線性核函數(shù)、 多項(xiàng)式核函數(shù)、 高斯核函數(shù)、 指數(shù)核函數(shù)和拉普拉斯算子核函數(shù)。 核函數(shù)的選擇是核方法研究及應(yīng)用的核心內(nèi)容, 選擇的準(zhǔn)則和方法目前并沒有成型的理論方法, 通過實(shí)際數(shù)據(jù)的驗(yàn)證結(jié)果來指導(dǎo)核函數(shù)的選擇是常用的方法之一[13]。 經(jīng)過多次迭代實(shí)驗(yàn)比較, 高斯核函數(shù)函數(shù)作為KPCA的核函數(shù)在本實(shí)驗(yàn)中是有效的。
1.2.1 太赫茲光譜特征提取
在實(shí)際問題中, 原始數(shù)據(jù)經(jīng)常包含一些多余的或者重復(fù)的信息, 為了減少整個(gè)識(shí)別系統(tǒng)獲取測(cè)量數(shù)據(jù)的代價(jià)和相應(yīng)的計(jì)算工作量以及改善識(shí)別系統(tǒng)的性能, 有必要通過特征提取把數(shù)據(jù)變換到低維數(shù)的特征空間中。 太赫茲光譜通過KPCA可將有效信息降維到低維空間, 作為識(shí)別特征。 傳統(tǒng)的線性投影方法, 不能有效地將太赫茲光譜投影到一個(gè)可以線性區(qū)分的平面上。 因此, 采用結(jié)合徑向基函數(shù)和KPCA這種非線性降維方法提取太赫茲光譜的特征。 具體步驟如下:
Step 1 對(duì)實(shí)驗(yàn)測(cè)得的太赫茲時(shí)域光譜采用滑動(dòng)平均濾波算法進(jìn)行去噪預(yù)處理, 獲得實(shí)驗(yàn)樣本集;
Step 2 對(duì)去噪后的太赫茲光譜采用徑向基函數(shù)進(jìn)行非線性映射。
Step 3 選擇高斯核函數(shù)作為KPCA的核函數(shù)。 高斯核函數(shù)的表達(dá)公式為
(10)
式(10)中,xi,xj分別表示非線性映射后的光譜樣品,σ表示一個(gè)常數(shù)。
Step 4 使用高斯核函數(shù)對(duì)樣本集進(jìn)行變換, 計(jì)算核矩陣。
3.2 人文關(guān)懷提高護(hù)生溝通能力 由于護(hù)生溝通技巧尚不熟練,缺乏有效的應(yīng)變能力,易受到挫折。經(jīng)過講座等培訓(xùn),學(xué)到了人文關(guān)懷及護(hù)患溝通相關(guān)知識(shí),能夠減輕護(hù)生的自卑感與失落感。在實(shí)施護(hù)理工作時(shí)受到患者及家屬的拒絕與阻撓時(shí),運(yùn)用知識(shí)克服困難,其自身價(jià)值得到了體現(xiàn),更快更好地適應(yīng)臨床工作。
Step 5 計(jì)算核矩陣的特征值和特征向量, 將特征值按照從大到小的順序進(jìn)行排列, 將特征向量與特征值一一對(duì)應(yīng)。
Step 6 將特征向量進(jìn)行正交化處理, 得到正交后的特征向量, 獲得降維后的數(shù)據(jù)。
1.2.2 分類驗(yàn)證
支持向量機(jī)(SVM)是一種監(jiān)督式機(jī)器學(xué)習(xí)算法。 支持向量機(jī)的原理是在兩類樣本間尋找一個(gè)最優(yōu)的分類超平面, 使得該超平面兩側(cè)與最近樣本點(diǎn)的距離最大化。 支持向量機(jī)方法建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上, 根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間折衷, 希望獲得最好的推廣能力。 本文使用支持向量機(jī)構(gòu)建分類模型, 最終實(shí)現(xiàn)太赫茲光譜識(shí)別, 驗(yàn)證特征提取效果。 圖2為實(shí)驗(yàn)流程。
圖2 實(shí)驗(yàn)流程
不同的太赫茲時(shí)域光譜系統(tǒng)的采樣率、 有效太赫茲光譜范圍、 采樣頻率等參數(shù)不完全相同。 實(shí)驗(yàn)中采用愛德萬公司生產(chǎn)的型號(hào)為TAS7400TS GDU1太赫茲時(shí)域光譜系統(tǒng)。
測(cè)量時(shí), 太赫茲光譜系統(tǒng)溫度為22 ℃, 相對(duì)濕度維持在5%以下。 實(shí)驗(yàn)系統(tǒng)參數(shù)設(shè)置如表1所示。
表1 實(shí)驗(yàn)參數(shù)設(shè)置
實(shí)驗(yàn)測(cè)量了芝麻油、 葡萄籽油、 茶籽油的透射式太赫茲時(shí)域光譜, 對(duì)測(cè)量所得的太赫茲光譜采用滑動(dòng)窗口平均去噪算法進(jìn)行去噪處理后, 各樣品太赫茲吸光度譜如圖3所示。
對(duì)食用油光譜去噪后, 存在重疊部分。 對(duì)食用油光譜采用徑向基函數(shù)映射, 將光譜映射到不同的空間。 采用的映射函數(shù)公式為
(11)
式(11)中,y為映射后的光譜數(shù)據(jù),x為去噪后的光譜數(shù)據(jù),σ為常數(shù)。
采用的徑向基函數(shù)能夠?qū)⒐庾V中的吸收峰, 變平緩, 因此使用徑向基函數(shù)映射變換后原來混疊的光譜曲線重疊部分大大減少, 增加了可區(qū)分性。 徑向基函數(shù)映射后食用油光譜如圖4所示。
圖3 去噪處理后的食用油吸光度譜
圖4 徑向基函數(shù)映射后太赫茲吸光度譜圖
對(duì)去噪后的90例食用油樣本(30例芝麻油, 30例葡萄籽油, 30例茶籽油)光譜分別采用本方法、 PCA和KPCA進(jìn)行特征提取, 特征提取的維數(shù)為12維。 食用油樣本光譜數(shù)據(jù)除了使用滑動(dòng)窗口平均去噪算法預(yù)處理外, 沒有經(jīng)過歸一化、 中心化等其他預(yù)處理過程。 為了觀察方便, 選取貢獻(xiàn)率最大的3個(gè)主因子繪制散點(diǎn)圖, 結(jié)果分別如圖5(a,b,c)所示。 從圖5(a,b)可以看到, PCA和KPCA提取出來的前3個(gè)主成分占光譜的變化不到50%, 因此需要更多特征光譜信息。 而這3種方法提取出來的前12個(gè)主因子的累積貢獻(xiàn)率均超過了90%, 因此前12個(gè)主因子可以作為食用油光譜的特征。
采用類內(nèi)距離和類間距離來評(píng)價(jià)特征提取效果, 類內(nèi)距離越小, 類間距離越大, 表示特征的緊密程度越大, 不同類之間的可分離程度越好, 特征提取效果越好。 反之, 則特征提取效果不好。 實(shí)驗(yàn)使用歐氏距離計(jì)算類內(nèi)距離和類間距離。 類內(nèi)距離是指類內(nèi)所有點(diǎn)兩兩之間距離的平均。 類間距離采用的是中間距離法, 計(jì)算類中心之間的距離。 為了解決不同特征提取方法映射范圍不一的問題, 把3種特征提取方法計(jì)算得到的12維特征映射到各坐標(biāo)軸范圍均為[-1, 1]的高維坐標(biāo)系中, 然后進(jìn)行類內(nèi)距離和類間距離計(jì)算。 所提取的特征類內(nèi)距離計(jì)算結(jié)果如表2所示, 類間距離計(jì)算結(jié)果如表3所示。
圖5 (a) 結(jié)合徑向基函數(shù)和KPCA特征提取結(jié)果; (b) PCA特征提取結(jié)果; (c) KPCA特征提取結(jié)果
Fig.5 (a) The feature extraction results of combining radial basis function and KPCA; (b) The feature extraction result of PCA; (c) The feature extraction result of KPCA
從表2可以看到, 本方法類內(nèi)距離均小于PCA和KPCA, 這說明本方法聚類效果優(yōu)于其余兩種方法。
表2 不同特征提取方法獲得的食用油類內(nèi)距離
Table 2 The intraclass distances of different feature extraction methods for various edible oils
表3 不同特征提取方法獲得的食用油類間距離
Table 3 The interclass distances of different feature extraction methods for various edible oils
組合食用油類型類間距離PCAKPCA結(jié)合徑向基函數(shù)和KPCA芝麻油-葡萄籽油4.821 92.251 63.854 0芝麻油-茶籽油1.475 21.645 53.812 6葡萄籽油-茶籽油6.421 32.367 46.193 3
從表3的結(jié)果可以看到, 本方法類間距離均大于KPCA, 說明類間可分性優(yōu)于KPCA。 本方法和使用PCA計(jì)算得到的芝麻油-葡萄籽油和葡萄籽油-茶籽油的類間距離差別不大, 兩種組合的類間可分性良好。 但是, 使用PCA計(jì)算得到的芝麻油-茶籽油組合類間距離偏小, 容易出現(xiàn)錯(cuò)誤分類的情況。 而本方法各組合類間距離較大, 可分性良好。 整體上本方法類間可分性優(yōu)于PCA。
為了更進(jìn)一步驗(yàn)證上述特征提取方法的效果, 采用支持向量機(jī)對(duì)提取后的特征進(jìn)行建模分類。 將上述3種食用油樣本輸入支持向量機(jī)中, 采用5折交叉驗(yàn)證的方法, 計(jì)算6種不同核函數(shù)的支持向量機(jī)分類的準(zhǔn)確率, 從而驗(yàn)證分類的效果。 分類正確率結(jié)果如表4所示。
表4 分類正確率結(jié)果對(duì)比
從表4可以看出, 本方法分類正確率高于PCA和KPCA, 說明本方法特征提取效果更好。
針對(duì)部分物質(zhì)太赫茲吸收譜沒有明顯吸收峰特征, 譜線整體相似難以識(shí)別的問題, 提出了結(jié)合徑向基函數(shù)和KPCA的特征提取方法。 利用該方法對(duì)被測(cè)物質(zhì)的太赫茲吸收譜進(jìn)行非線性映射提取特征, 使用支持向量機(jī)對(duì)其進(jìn)行分類。 本特征提取方法類內(nèi)聚類效果好, 類間可分性好, 使用不同內(nèi)核的支持向量機(jī)分類在本實(shí)驗(yàn)中正確率都能達(dá)到100%。 相比于PCA, 使用本方法提取出來的特征在支持向量機(jī)分類測(cè)試中正確率最大能提高約4%。 相比于KPCA, 使用本文提出的方法提取出來的特征在支持向量機(jī)分類測(cè)試中正確率最大能提高約6%。 因此所提出的特征提取方法效果良好, 結(jié)合支持向量機(jī)能夠?qū)κ秤糜瓦M(jìn)行分類, 在食品安全檢測(cè)領(lǐng)域有很好的應(yīng)用價(jià)值。