(上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620)
血糖含量是診斷糖尿病的唯一標(biāo)準(zhǔn),雖然通過醫(yī)療手段可以有效控制糖尿病[1],但是目前全球尚無根治糖尿病的方法。為控制糖尿病,需要經(jīng)常抽取靜脈血來測定血糖濃度,目前的監(jiān)控方式主要有兩種:① 到醫(yī)院進(jìn)行檢查;② 采用市場上的血糖檢測儀進(jìn)行自我監(jiān)控。為了使用方便,大多數(shù)患者都會選擇自我監(jiān)控。但血糖檢測儀大都采用生化法對血糖的濃度進(jìn)行測量,這種測量方法常伴有疼痛和患者傷口感染的風(fēng)險(xiǎn),測量時(shí)血量的多少會直接影響到測量精度[2],測量之后丟棄的試紙可能會造成環(huán)境污染。近年來,近紅外光譜技術(shù)的快速發(fā)展為血糖的無創(chuàng)檢測提供了技術(shù)支持,算法的快速發(fā)展讓糖尿病病人的高精度、無痛、實(shí)時(shí)的自我監(jiān)控成為可能[3]。
本文結(jié)合光譜學(xué)原理,通過對不同濃度葡萄糖溶液的近紅外光譜的采集,PLS對光譜和濃度進(jìn)行建模,利用OSC消除光譜和濃度主成分中的正交分量,增強(qiáng)光譜與濃度之間的相關(guān)關(guān)系,簡化模型,使得模型更加易于理解以及使用VIP篩選出對葡萄糖濃度解釋能力強(qiáng)的波長變量,提高模型的預(yù)測能力,使得PLS模型的準(zhǔn)確度更高,預(yù)測的精準(zhǔn)性得到明顯改善。
作為一種多元統(tǒng)計(jì)數(shù)據(jù)分析方法,PLS回歸模型將多元回歸模型問題降維,即將多元回歸問題分解為若干個(gè)一元線性回歸問題,適用于變量多而數(shù)據(jù)樣本少的建模問題。
使用葡萄糖溶液的光譜和其相應(yīng)濃度建立的模型中,PLS的目標(biāo)是使得葡萄糖溶液的光譜矩陣X的主成分向量t與其濃度矩陣y的協(xié)方差最大,即
(1)
式中,
(2)
由上述表達(dá)式可以看出,如果X的變量空間中包含與y正交的變化,則t和y的相關(guān)關(guān)系會很小。雖然t中包含了X的最大變化信息,但t與y的協(xié)方差不能最大化,這會導(dǎo)致模型的擬合性能較好而解釋性能變差。
為了解決由于葡萄糖溶液的光譜和濃度之間相關(guān)關(guān)系不大引起的模型的解釋性能較差的問題,在PLS回歸前使用OSC進(jìn)行數(shù)據(jù)的預(yù)處理[5]。如果光譜中包含與濃度無關(guān)的系統(tǒng)變化信息,即光譜中包含與濃度正交的信息時(shí),則必定會反映在光譜和濃度的主成分矩陣中[6]。OSC去除了光譜主成分矩陣t中所包含的與濃度矩陣無關(guān)的部分,用校正后的信號進(jìn)行PLS回歸,提高了光譜主成分矩陣中含有的濃度信息,增強(qiáng)了模型的解釋能力[7]。
O-PLS(Orthogonal Signal Correction-Partial Least Squares)方法處理步驟如下。
首先將原始的葡萄糖溶液的光譜數(shù)據(jù)和濃度數(shù)據(jù)進(jìn)行規(guī)范化(中心化和方差歸一化)處理,得到光譜矩陣X和濃度矩陣y。
① 計(jì)算X的權(quán)值向量:取u=y,計(jì)算wT=uTX/(uTu)。
② 將w歸一化:w=w/‖w‖。
③ 計(jì)算主成分向量t,t=Xw。
④ 計(jì)算負(fù)荷向量p,p=XTt/(tTt)。
⑤ 計(jì)算p和w正交的分量p0=p-[w(wTw)-1wTp]。由pTw=1知p在w上的投影與w相等,取w0=p0=p-[w(wTw)-1wTp],w0為w的正交分量。
⑥ 將得到的w0歸一化:w0=w0/‖w0‖。
⑩ 若仍需要去除正交成分,則用XOSC代替X,重復(fù)上述步驟③~步驟⑨。
OSC每一步中都去除光譜矩陣X中與濃度矩陣y無關(guān)的成分,所以即使原來的光譜矩陣X和濃度矩陣y的相關(guān)性不大,去除足夠多的正交成分后,光譜矩陣X的剩余部分和濃度y的相關(guān)性將變大,大大簡化了原始的PLS模型,使得模型更加易于解釋和理解。
PLS方法中,通常通過變量投影重要性指標(biāo)來表征光譜中波長變量和濃度的相關(guān)關(guān)系。具體計(jì)算公式如下:
(3)
式中,q為原波長變量的個(gè)數(shù);wj是w的第j個(gè)分量,為第j個(gè)波長變量的權(quán)值。
從模型預(yù)測的角度來說,如果某一波長在解釋濃度時(shí)起的作用很小,則可以考慮刪去這個(gè)波長變量后重新建模?;赩IP對波長進(jìn)行篩選后再采用PLS建模。
本實(shí)驗(yàn)使用純葡萄糖和蒸餾水來配置濃度為1.8%~18%的葡萄糖溶液,采用Thermo Scientific AntarisTMntarisSci過程分析儀來收集葡萄糖溶液的光譜信息,光譜波長范圍為12000~4000 cm-1(833~2500 nm),精度為±0.1 cm-1(0.02 nm at 1250 nm)。光譜掃描32次取平均以消除隨機(jī)誤差的影響。
2.2.1 PLS對葡萄糖濃度和全光譜建模
在進(jìn)行葡萄糖溶液的全光譜檢測時(shí),選取溶液濃度區(qū)間為1.8%~18%,間隔1.8%,每個(gè)濃度配置3個(gè)樣本,控制測量條件不變的情況下每個(gè)樣本檢測3次,即每個(gè)濃度值有9個(gè)光譜數(shù)據(jù)樣本。每個(gè)濃度取6個(gè)葡萄糖溶液的光譜樣本作為訓(xùn)練集,3個(gè)葡萄糖溶液的光譜樣本作為測試集,對葡萄糖光譜和濃度進(jìn)行因子分析,得出主成分圖如圖1所示。
圖1 主成分貢獻(xiàn)率圖
圖1中,橫坐標(biāo)為第i個(gè)主成分,縱坐標(biāo)為主成分的貢獻(xiàn)率。由圖1可以看出,第一個(gè)主成分的貢獻(xiàn)率達(dá)到了80%左右,即系統(tǒng)信息的可解釋變異達(dá)到了總變異的80%左右,此時(shí)可認(rèn)為回歸方程的精度已經(jīng)達(dá)到要求。所以本文選取一個(gè)主成分進(jìn)行建模后得到R2和RMSEP的值如表1所示(其中,每個(gè)葡萄糖濃度的光譜樣本用數(shù)字1~9來表示)。
表1 PLS模型的R2和RMSEP
由表1可得,通過PLS建模所得到的模型驗(yàn)證集的真實(shí)值和預(yù)測值的相關(guān)系數(shù)R2均在98%以上,RMSEP的值在0.0022左右,模型的預(yù)測效果較好,精度較高,具有較強(qiáng)的泛化能力。為了驗(yàn)證OSC和VIP確實(shí)可以提高模型的精度和預(yù)測能力,本文選用R2較小,RMSEP值較大的No.6組樣本數(shù)據(jù)來進(jìn)行處理建模。
2.2.2 OSC對樣本全光譜數(shù)據(jù)的處理
一元回歸分析中,經(jīng)常采用散點(diǎn)圖來直觀地分析自變量和因變量之間的相關(guān)關(guān)系[9]。在PLS中,使用光譜和濃度的主成分t1和u1平面圖來反映光譜和濃度的相關(guān)關(guān)系,如圖2所示。
圖2為直接使用PLS建模的葡萄糖溶液觀測樣本的第一主成分偶對(t1,u1)散點(diǎn)圖,雖然t1和u1的關(guān)系近似于一條直線,符合光譜矩陣和濃度矩陣之間的線性關(guān)系,但是從圖上可以明顯地看出有些點(diǎn)偏離直線較遠(yuǎn),即這些點(diǎn)的光譜矩陣X和濃度矩陣y之間的正交成分過多,相關(guān)性不大。
圖2 葡萄糖溶液觀測樣本的t1/u1散點(diǎn)圖
為了解決上述問題,先使用OSC對數(shù)據(jù)進(jìn)行預(yù)處理再使用PLS建模。得到的處理結(jié)果如圖3所示。
圖3 經(jīng)過OSC處理后的葡萄糖溶液觀測樣本的t1/u1散點(diǎn)圖
由圖3可以看出,經(jīng)過OSC處理后的第一主成分偶對(t1/u1)更加接近于一條直線。OSC處理后,對光譜和濃度使用PLS進(jìn)行建模,模型由原先的R2=98.97%,RMSEP=0.0023變成R2=99.68%和RMSEP=0.0013,此時(shí)認(rèn)為采用OSC方法有效地剔除了光譜矩陣和濃度矩陣之間的正交部分,增強(qiáng)了光譜和濃度之間的相關(guān)關(guān)系,使得模型的精度和預(yù)測精度得到了有效的提高。
2.2.3 經(jīng)過OSC處理后再使用VIP對樣本全光譜數(shù)據(jù)的處理
對于經(jīng)過OSC處理后的全光譜數(shù)據(jù)采用VIP來觀察光譜對葡萄糖溶液濃度的解釋作用,觀察結(jié)果如圖4所示。
圖4中,橫坐標(biāo)為波長變量個(gè)數(shù),縱坐標(biāo)為相應(yīng)波長變量的變量投影重要性指標(biāo)。通過圖4可以看出,波長變量個(gè)數(shù)在500~600區(qū)間段內(nèi)的VIP值較大,即波長變量對葡萄糖溶液濃度的解釋作用較大,這一區(qū)間段對應(yīng)的葡萄糖的波長范圍為1596~1732 nm,正處于葡萄糖溶液在近紅外檢測的特征波段內(nèi)。通過分析變量投影重要性指標(biāo)挑選出90個(gè)對葡萄糖溶液建模解釋作用最大的波長變量,通過對這90個(gè)光譜波長變量進(jìn)行建模,模型的R2達(dá)到了99.73%,RMSEP為0.0052。
圖4 全波長變量對葡萄糖溶液的變量投影重要性
由于人為因素以及儀器的測量誤差,實(shí)驗(yàn)所采集的樣本中存在異常樣本點(diǎn),通過對OSC和VIP處理后的測試集數(shù)據(jù)樣本做主成分分析得到得分圖如圖5所示,其中黑色點(diǎn)22,59,60代表異常樣本,灰色的點(diǎn)為正常樣本。
圖5 數(shù)據(jù)經(jīng)過OSC和VIP處理后的得分圖
剔除3個(gè)異常樣本后,再次進(jìn)行PLS建模,模型驗(yàn)證集的真實(shí)值和預(yù)測值的相關(guān)系數(shù)R2達(dá)到了99.77%,RMSEP為0.0048,模型的解釋能力和精度都得到了提高。最終的模型預(yù)測結(jié)果如圖6所示。
圖6 模型最終預(yù)測結(jié)果
圖6中,數(shù)據(jù)擬合的效果接近于一條直線,即預(yù)測集通過VIP處理的O-PLS算法處理后,模型的預(yù)測結(jié)果幾乎近似于實(shí)際測得的值,模型的預(yù)測精度較高。
通過式(4)計(jì)算采用VIP和OSC處理后的數(shù)據(jù)進(jìn)行PLS處理與直接使用PLS處理的相關(guān)系數(shù)的相對提高值。
(4)
通過VIP處理的O-PLS算法對葡萄糖溶液的光譜和濃度數(shù)據(jù)進(jìn)行建模,結(jié)果表明,通過OSC可以有效地剔除光譜和濃度的主成分中的正交成分,增強(qiáng)光譜和濃度之間的相關(guān)性。采用變量投影重要性指標(biāo)(VIP)來分析PLS回歸方程中波長變量對葡萄糖溶液濃度建模的解釋能力,去除不相關(guān)的波長變量,有效地提高了整個(gè)模型的預(yù)測精度。相比不做數(shù)據(jù)處理的PLS,模型驗(yàn)證集的真實(shí)值和預(yù)測值的相關(guān)系數(shù)相對提高了77.67%。