陳 煜,邱智軍,張 彬
(河南科技大學(xué) 食品與生物工程學(xué)院,河南 洛陽 471023)
結(jié)直腸癌是當(dāng)今最常見的惡性腫瘤之一,其發(fā)病率和死亡率居高不下[1]。結(jié)腸癌早期可以沒有任何癥狀,中晚期可表現(xiàn)為腹脹、消化不良,而后出現(xiàn)排便習(xí)慣改變,腹痛,黏液便或黏血便,這些癥狀易被忽視,產(chǎn)生漏診,也是結(jié)直腸癌確診時期較晚的主要原因之一。目前,腸鏡檢查是結(jié)直腸癌診斷的重要手段,但該方法依據(jù)病理學(xué)專家的視覺評估,較為主觀[2]。而結(jié)直腸癌的早期快速準(zhǔn)確檢出對于結(jié)直腸癌患者有重要意義。光譜方法是常用的快速檢測方法,其中熒光光譜已經(jīng)用于癌癥樣本的識別。利用激光誘發(fā)的熒光檢測組織內(nèi)部分子的結(jié)構(gòu)信息,可發(fā)現(xiàn)正常組織和結(jié)腸癌熒光強度的明顯差異[3]。另外,乳腺癌患者血清樣本的熒光光譜也被用來區(qū)分健康女性與乳腺癌患者[4]。稀釋或未稀釋的血清或血漿的自體熒光也可用于癌癥檢測[5-8]。Lawaetz 等[9]應(yīng)用平行因子分析(PARAFAC)方法對人血漿熒光光譜進行分解,判斷最佳組分,并利用PARAFAC 得分矩陣建立了偏最小二乘法判別分析(PLS-LDA)分類模型。結(jié)果顯示癌癥組和各對照組之間分類模型的敏感性、特異性和AUC(Area under curve,ROC 曲線下的面積)值均在0.75左右。隨后Bro 等[10]采用同樣的樣品進一步分析,在熒光光譜檢測的基礎(chǔ)上,增加了核磁共振光譜、生物標(biāo)記物檢測,結(jié)合多種檢測信號建立了PLS-LDA 分類模型,AUC值由0.75提升至0.89,同時也增加了較大的檢測成本。對于癌癥的分類模型,上述研究中模型的分類準(zhǔn)確度尚不理想,需要設(shè)計開發(fā)更好的模型以滿足實際診斷的需求。
基于上述研究的人血漿熒光光譜相關(guān)數(shù)據(jù),本研究采用競爭性自適應(yīng)加權(quán)算法(CARS)進行光譜變量篩選,應(yīng)用PLS-LDA 建立結(jié)直腸癌癥患者分類模型,并與全波長模型及上述兩項研究[9-10]進行比較,評價其對癌癥樣本的識別能力;同時通過篩選到的關(guān)鍵變量推斷具有鑒別能力的物質(zhì)結(jié)構(gòu)信息,為后續(xù)結(jié)直腸癌患者的快速、準(zhǔn)確檢出研究提供方法和數(shù)據(jù)參考。
選用因有結(jié)腸癌相關(guān)癥狀而接受大腸內(nèi)窺鏡檢查的308 個患者[11-12]的血漿樣品(檸檬酸鈉抗凝血劑),設(shè)置1 個癌癥病例組,3 個對照組:(1)內(nèi)窺鏡檢查健康的受試者,(2)具有其他非惡性發(fā)現(xiàn)的受試者,(3)患有腺瘤的受試者。每一組(病例組或?qū)φ战M)均由77個個體組成。
在磷酸鹽緩沖液(PBS)(pH 7.4)中測量未稀釋和稀釋100倍的樣品。樣品激發(fā)波長:250~450 nm,增量:5 nm;發(fā)射波長:300~600 nm,增量:1 nm,積分時間為0.05 s。相對于健康人,癌癥患者往往具有較高的血卟啉水平[6]。為驗證癌癥患者體內(nèi)的卟啉[13]水平,對未稀釋的樣品進行熒光光譜測定,重點測量卟啉的熒光發(fā)射,樣品激發(fā)波長:385~425 nm,增量:5 nm;發(fā)射波長:585~680 nm,增量:1 nm,積分時間為0.2 s。對于所有測量,激發(fā)和發(fā)射狹縫寬度設(shè)定為4 nm。除去部分測量明顯錯誤和采樣量不夠的樣品,共采集到3 種不同的熒光光譜數(shù)據(jù)集(EEM),分別是低波未稀釋組、低波稀釋組以及高波未稀釋組。
CARS 方法是一種模仿達爾文進化理論“適者生存”原則的變量選擇方法[14],通過自適應(yīng)重加權(quán)采樣(ARS)技術(shù)選擇出PLS 模型中回歸系數(shù)絕對值大的波長點,去除權(quán)重小的波長點,并利用交叉驗證均方根誤差(Root mean square error of cross validation,RMSECV)最低值選出最優(yōu)變量子集,有效尋出最優(yōu)變量組合。本研究采用CARS方法進行變量優(yōu)選,設(shè)置最大因子數(shù)為10,采樣次數(shù)為100,預(yù)處理方法為自標(biāo)準(zhǔn)化(Autoscaling),比較循環(huán)后100個變量子集的RMSECV,以其最小值對應(yīng)的變量子集作為最優(yōu)變量子集。
經(jīng)CARS變量優(yōu)選后,基于優(yōu)選的波長變量,應(yīng)用PLS-LDA進行交叉驗證建立分類模型。以熒光光譜矩陣作為獨立X變量,樣本分類屬性向量Y作為因變量,其中1表示屬于該類的樣本,-1表示不屬于該類的樣本。共建立7 組CARS-PLS-LDA 模型,包括結(jié)腸癌病例組與3 個對照組的合集(crcvsall)、結(jié)腸癌病例組與健康受試者組(crcvsno)、結(jié)腸癌病例組與非惡性發(fā)現(xiàn)的受試者組(crcvsonf)、結(jié)腸癌病例組與腺瘤受試者組(crcvsade)、健康受試者組與非惡性發(fā)現(xiàn)的受試者組(novsonf)、健康受試者組與腺瘤受試者組(novsade)、非惡性發(fā)現(xiàn)的受試者組與腺瘤受試者組(onfvsade)。通過正向選擇法,將矩陣X和矩陣Y分別進行主成分分解,得到X矩陣主成分(即影響分類的因素)的貢獻率。按照影響分類結(jié)果的大小依次排序,得到對分類影響較大的熒光光譜的特征波段。在PLS-LDA 分析中,采用K 折交叉驗證,通過將數(shù)據(jù)集分成K份,對每個模型,將除去第n(n屬于[1,K])份的所有數(shù)據(jù)用于訓(xùn)練,得到訓(xùn)練集,然后將訓(xùn)練參數(shù)在第n份數(shù)據(jù)上進行測試,最后將得到的K個模型結(jié)果平均,本文設(shè)置K=10。所建的分類模型由錯誤率(Error rate)、敏感性(Sensitivity)、特異性(Specificity)以及AUC進行評價。其定義公式如(1)~(4)所示:
公式中,TP、TN、FP、FN分別表示真陽性、真陰性、假陽性、假陰性,M為陽性樣本數(shù),N為陰性樣本數(shù),i代表第i條樣本序號。實驗規(guī)定癌癥患者代表陽性,對照組為陰性。在分類模型中,特異性和敏感性均為分類結(jié)果判斷的重要標(biāo)準(zhǔn)。敏感性表示所有陽性樣本被分對的概率,衡量了分類模型對陽性樣本的識別能力;特異性則表示陰性樣本被分對的概率,衡量了分類模型對陰性樣本的識別能力。而AUC值則是分類模型的評價指標(biāo),AUC值越大,表示分類識別準(zhǔn)確性越高。
CARS 變量優(yōu)選后,采用交叉驗證進行建模,根據(jù)交叉驗證錯誤率最小原則確定最優(yōu)的建模主成分數(shù)。由圖1 所示,對于高波未稀釋組,各對照組模型的最優(yōu)主成分不盡相同,但隨著主成分數(shù)的增加,交叉驗證錯誤率均逐漸降低。最終確定crcvsno組的最優(yōu)主成分數(shù)為6,crcvsonf和onfvsade組的最優(yōu)主成分數(shù)為7,crcvsade 組和novsonf 組的最優(yōu)主成分數(shù)為8,novsade 的最優(yōu)主成分數(shù)為3。而crcvsall的交叉驗證錯誤率隨著主成分數(shù)的增加保持不變,因此,確定最優(yōu)建模主成分數(shù)為1。低波未稀釋組與低波稀釋組也采用同樣的方法,過程結(jié)果不一一展示。
圖1 高波未稀釋組各對照組的PLS-LDA交叉驗證結(jié)果Fig.1 PLS-LDA cross validation results of control groups in high wave undiluted group
高波未稀釋組結(jié)直腸癌患者與健康人分類的CARS 變量篩選過程如圖2 所示。圖2A 顯示,隨著蒙特卡洛(MC)采樣次數(shù)的增加,所選變量的數(shù)量不斷減少,且減少的速度由快變慢,體現(xiàn)了篩選的粗選和細選兩個部分。圖2B 為CARS 變量篩選過程交叉驗證錯誤率的變化趨勢,可以看出,交叉驗證錯誤率曲線先下降,在MC 采樣次數(shù)為33、36、39 時,錯誤率達到最小值,隨后隨著采樣次數(shù)的增加,錯誤率逐漸上升至平穩(wěn)狀態(tài)。變量篩選過程的變量回歸系數(shù)曲線圖見圖2C。“*”星形垂直線表示RMSECV最低,即采樣數(shù)為39時達到最佳模型。最終,原有864個變量經(jīng)CARS變量優(yōu)選為84個。
圖2 癌癥與健康人對照組模型的高波未稀釋組CARS變量篩選過程Fig.2 The screening process of CARS variables in high wave undiluted group of cancer and healthy control group model
以Lawaetz 等[9]的研究為參照(所用數(shù)據(jù)和評價方法與本研究完全相同),Lawaetz 等利用3組熒光光譜數(shù)據(jù)分別擬合PARAFAC 模型,通過化學(xué)組分排序,共篩選出19 個變量的矩陣,并以此建立PLSLDA分類模型,通過模型的分類效果對主成分進行分析解釋,反映與鑒別癌癥與非癌癥的相關(guān)變量。
利用CARS優(yōu)選后的變量構(gòu)建PLS-LDA分類模型,建立了癌癥組與對照組以及不同對照組之間共7 種分類模型(與參照研究相一致),模型均進行十折交叉驗證。結(jié)果發(fā)現(xiàn),采用不同波段及對血漿樣品100 倍稀釋處理的方法,對癌癥與非癌癥的3 個對照組均有著較好的分類效果。通過圖3 可以發(fā)現(xiàn),高波未稀釋組經(jīng)CARS 變量優(yōu)選后,其敏感性、特異性以及AUC 值均得到顯著提升。其中高波未稀釋組的癌癥與腺瘤患者經(jīng)過CARS 變量優(yōu)選后建立的模型分類效果最佳,敏感性、特異性及AUC 值均達到1。
圖3 高波未稀釋組熒光光譜不同建模方法對各模型的分類結(jié)果Fig.3 Classification results of different modeling methods for high wave undiluted group fluorescence spectra crc,no,onf,ade,all were the same as those in Fig.1
其他組之間分類的AUC 也均高于0.9。其中,crcvsall模型的AUC值為0.917 2,特異性為0.955 2,敏感性為0.552 6。而未使用CARS 篩選的PLSLDA 模型的分類效果整體較差,其中癌癥組與3 個對照組合集的AUC值和特異性最高,分別為0.806 3和0.916 9,敏感性只有0.447 4;癌癥組與3 個對照組分類的AUC 值均處于0.7左右;對照組與對照組之間模型分類的敏感性、特異性以及AUC 值也較低(0.5~0.6)。
同樣,經(jīng)CARS 變量優(yōu)選后,低波稀釋組各對照組模型的分類效果均顯著增強,AUC 值均在0.9以上,與高波未稀釋組經(jīng)CARS 變量優(yōu)選后的分類效果相似。且crcvsall 模型在變量篩選前后有相似的高特異性和低敏感性,與高波未稀釋組相同。
對于低波未稀釋組,經(jīng)CARS 變量篩選后,各模型的分類效果有所增強,其敏感性、特異性以及AUC 值均在0.7~0.8,但低于高波未稀釋組與低波稀釋組。其未經(jīng)CARS 篩選的分類模型結(jié)果與低波稀釋組相同,敏感性、特異性及AUC 均為0.5~0.6,模型分類效果相差不大,除crcvsall 外,其他組模型具有高特異性和低敏感性,與高波未稀釋組、低波稀釋組相似。
綜上,未進行CARS 變量優(yōu)選建立的PLS-LDA 的各種分類模型,其敏感性、特異性及AUC 值均在0.5~0.6,與Lawaetz 等應(yīng)用PARAFAC 建立的分類模型結(jié)果水平相當(dāng);經(jīng)CARS 變量篩選后,高波未稀釋組和低波稀釋組各模型的分類效果獲得大幅提升,其敏感性、特異性和AUC值均達到0.9左右;基于低波未稀釋組光譜數(shù)據(jù)的分類效果也有所提升,但提升幅度不明顯。Lawaetz等的研究結(jié)果中,低波未稀釋組的分類效果優(yōu)于低波稀釋組,并推測稀釋會導(dǎo)致光譜產(chǎn)生藍移,從而降低分類效果,這與本文的計算結(jié)果相反。這個差異產(chǎn)生的原因可以用方法的原理來解釋,Lawaetz等利用得分矩陣建立分類模型,所篩選的變量并非是真正對癌癥患者分類有較大影響的化合物信號,可能只是其本身自體熒光較高,故建立的分類模型的效果較弱;其次,在人血漿測量區(qū)域擬合得到的PARAFAC 模型的誤差未能真正去除。這些都可能是造成模型分類效果較差的原因。另外,人血漿中含有豐富的化學(xué)物質(zhì),其真實發(fā)生的化學(xué)、物理變化無法確定,故推測血漿中可能含有某種物質(zhì),其濃度較高導(dǎo)致熒光猝滅;稀釋后,該物質(zhì)濃度降低,血漿中的自體熒光物質(zhì)發(fā)射出較強的熒光信號[15],增強了分類所需的信息,從而有助于模型分類。
表1 給出了不同分類組的CARS 優(yōu)化模型與基于PARAFAC 分數(shù)分類模型[9]的敏感性、特異性以及AUC值。PARAFAC 分數(shù)是從3組熒光光譜數(shù)據(jù)集分別提取特征變量后,建立的最優(yōu)分類模型;本研究是分別將3組熒光光譜進行變量優(yōu)選后建立分類模型。從表1可見,對于PARAFAC-PLS-LDA 模型,癌癥組與各對照組的模型分類效果明顯優(yōu)于對照組之間的模型,而CARS-PLS-LDA 模型各對照組的分類效果相差不大,且AUC 值均達到0.9 以上。兩種模型的相似之處在于,crcvsade 模型均為7 種分類模型中最優(yōu)。由此可見癌癥與腺瘤患者有著較為明顯的區(qū)分,對后續(xù)病人腫瘤的區(qū)分有重要意義。Bro等[10]基于同性質(zhì)樣本的數(shù)據(jù)融合研究,對癌癥與腺瘤患者的樣品進一步分析,采用熒光光譜結(jié)合核磁共振、生物標(biāo)志物等進行分析,得到AUC 值為0.890 0,相對于Lawaetz 等的研究結(jié)果有所提升,但仍低于本文的AUC 值(1.000 0)。對于crcvsall而言,PARAFAC-PLS-LDA 模型的敏感性和特異性均為0.700 0,本文CARS-PLS-LDA 模型的敏感性為0.552 6,特異性為0.955 2,具有低敏感性和高特異性的特點。而癌癥組與各對照組分類模型的敏感性和特異性均在0.8 以上,對照組與對照組分類模型的特異性和敏感性同樣在0.9以上。分析認為,造成crcvsall模型中出現(xiàn)高特異性和低敏感性結(jié)果的原因在于數(shù)據(jù)的非平衡性特點,即3 個對照組構(gòu)成的合集是癌癥組樣品容量的3 倍,即樣品中3/4 的人沒有癌癥,造成了樣本的不平衡,從而導(dǎo)致模型結(jié)果的敏感性較低。Flamini等[16]的研究表明,大腸癌唯一可接受的血清標(biāo)志物是癌胚抗原(CEA),其特異性為0.930 0,敏感性為0.340 0。而本文CARSPLS-LDA 的分類模型結(jié)果顯示,低波未稀釋組的特異性為0.937 8,敏感性為0.297 3;低波稀釋組的特異性為0.967 9,敏感性為0.329 4,分類效果相當(dāng);但高波未稀釋組的特異性為0.955 2,敏感性為0.552 6,明顯優(yōu)于上述各項參照研究的結(jié)果。
表1 CARS優(yōu)選和PARAFAC分數(shù)的PLS-LDA分類模型比較Table 1 PLS-LDA classification model comparison between CARS optimization and PARAFAC score
綜合來看,CARS-PLS-LDA 的分類效果整體優(yōu)于全波長PLS-LDA 和PARAFAC-PLS-LDA。相較于全波長模型,CARS 波長變量篩選方法表現(xiàn)出的優(yōu)勢可以理解為:變量篩選過程去除了與模型指標(biāo)關(guān)系不大的變量,有效保留了關(guān)系密切的變量,從而提高了模型性能。有研究針對相同的數(shù)據(jù)和評價指標(biāo),對同樣作為變量篩選方法的CARS 法、移動窗口偏最小二乘法(Moving window partial least square,MWPLS)和蒙特卡洛無信息變量消除法(Monte Carlo variable elimination,MC-UVE)進行了比較。發(fā)現(xiàn)三者均能找到相同的譜帶,但CARS 所選的波長變量最少,構(gòu)建的模型性能也最好[14]。
PARAFAC 和CARS 均通過降維來優(yōu)化模型,但其控制降維實施過程的參數(shù)指標(biāo)卻有著本質(zhì)的不同,前者的控制指標(biāo)是殘差平方和,后者是模型性能指標(biāo),即預(yù)測誤差。CARS 依據(jù)模型性能指標(biāo)(預(yù)測誤差)來挑選波長變量,這些篩選到的波長變量具有與模型性能更直接的關(guān)聯(lián)。故CARS變量篩選方法比PARAFAC數(shù)據(jù)降維優(yōu)化模型的分類效果好。
通過CARS 變量優(yōu)選建立PLS-LDA 分類模型,對比3組數(shù)據(jù)的分類效果發(fā)現(xiàn),高波未稀釋組和低波稀釋組各對照組的分類效果均較好,AUC 值達0.9 以上。將高波稀釋組與低波未稀釋組的癌癥組與全體對照組模型的影響因子按得分進行排序,得到排名前5的變量,將這些變量回溯到原始熒光數(shù)據(jù),確定其激發(fā)/發(fā)射波長信息。由于人血漿環(huán)境過于復(fù)雜,不同的pH 值、溫度以及處理方法、稀釋倍數(shù)均會對物質(zhì)產(chǎn)生不同程度的影響,故僅能大致推測出主要影響變量的對應(yīng)物質(zhì)基礎(chǔ)。
圖4 為高波未稀釋組和低波稀釋組分類模型在熒光光譜中的定位情況??梢园l(fā)現(xiàn)高波未稀釋組(圖4A)的癌癥組與各對照組的影響變量主要集中在激發(fā)波長400~420 nm,發(fā)射波長610~625 nm,符合卟啉熒光的波長范圍,與王金杰等[17]的研究結(jié)果相符,即癌癥患者血液中的原卟啉含量高于正常人。而Lawaetz 等的研究結(jié)果卻顯示卟啉與癌癥無關(guān)。圖4B 結(jié)果顯示,低波稀釋組的癌癥組與各對照組的影響變量主要集中在激發(fā)波長250~260 nm,發(fā)射波長310~360 nm,其所對應(yīng)的是血液中的游離色氨酸、結(jié)合色氨酸以及酪氨酸[18]。同時還有激發(fā)波長260~272 nm,發(fā)射波長450~500 nm,符合還原型煙酰胺腺嘌呤二核苷酸(Nicotinamide adenine dinucleotide,NADH)的熒光特征[19]。由此可見,癌癥樣本在卟啉、色氨酸、酪氨酸以及NADH 等物質(zhì)維度上可與其他對照樣本有效區(qū)分,為后續(xù)癌癥臨床診斷研究提供了物質(zhì)基礎(chǔ)信息參考。
圖4 高波未稀釋組(A)和低波稀釋組(B)分類模型的主要影響因子在熒光光譜的定位Fig.4 The location of the main influence factors of each classification model in the high wave undiluted group(A)and the low wave diluted group(B)in the fluorescence spectrum
熒光光譜結(jié)合CARS-PLS-LDA 的分類模型中,高波未稀釋組和低波稀釋組的分類效果較好。其中最優(yōu)模型為高波未稀釋組癌癥組與腺瘤患者對照組,其敏感性、特異性及AUC 值均為1.000 0。與Lawaetz 等的研究比較,本研究除了在人血漿中發(fā)現(xiàn)相同的物質(zhì)(色氨酸、酪氨酸和NADH)外,還發(fā)現(xiàn)一種重要的物質(zhì)—卟啉,其在癌癥樣本與其他對照樣本的區(qū)分中有顯著作用,且與已有實驗研究結(jié)論一致。相對于參照研究的PARAFACPLS-LDA 分類模型,CARS-PLS-LDA 大大提高了模型的分類效果,有望為癌癥診斷模型提供一種新的方法。