李新立 張欣雨 楊 強(qiáng) 李肅義
(吉林大學(xué)儀器科學(xué)與電氣工程學(xué)院,長(zhǎng)春 130061)
單細(xì)胞生長(zhǎng)檢測(cè)可以更加科學(xué)地揭示微生物代謝變化的規(guī)律,在食品污染物檢測(cè)中,細(xì)胞生長(zhǎng)狀態(tài)是重要的監(jiān)控指標(biāo)[1]。細(xì)胞生長(zhǎng)主要分為滯后期(lag phase)、對(duì)數(shù)期(log phase)、穩(wěn)定期(stationary phase)和凋亡期(apoptosis phase)4個(gè)時(shí)期[2],不同的生長(zhǎng)時(shí)期表現(xiàn)出不同的代謝和生產(chǎn)能力。能夠在生長(zhǎng)的不同時(shí)間點(diǎn)識(shí)別和檢測(cè)特定的細(xì)菌是非常重要的,抑制食品污染一方面可以通過(guò)抑制食品中腐敗菌(或致病菌)分裂增殖使其停留在滯后期,另一方面,通過(guò)誘導(dǎo)微生物源保鮮劑(如枯草芽孢桿菌(Bacillus subtilis)[3]等)進(jìn)入對(duì)數(shù)期來(lái)抑制腐敗菌生長(zhǎng),以保持食品良好的感官品質(zhì)和理化特性,有效延長(zhǎng)食品貨架期[4]。
在微生物生長(zhǎng)檢測(cè)中,細(xì)胞形態(tài)學(xué)[5]和吸光度檢測(cè)[6]已經(jīng)成為檢測(cè)的金標(biāo)準(zhǔn),但檢測(cè)依賴(lài)于群體細(xì)胞培養(yǎng),且檢測(cè)周期較長(zhǎng),可能錯(cuò)過(guò)抑制腐敗菌增殖的最佳時(shí)期。基因芯片[7]和聚合酶鏈?zhǔn)椒磻?yīng)(PCR)[8]等分子生物學(xué)檢測(cè)技術(shù)雖然靈敏度高,但檢測(cè)需要破壞細(xì)胞結(jié)構(gòu),且無(wú)法檢測(cè)低豐度微生物,而食品污染通常是由很少的細(xì)菌或菌落引起的[9-10]。單細(xì)胞拉曼光譜(SCRS)技術(shù)具有快速、靈敏和原位非侵入的檢測(cè)優(yōu)勢(shì),已經(jīng)被用于在菌株水平上識(shí)別細(xì)菌[11-12],進(jìn)一步報(bào)道稱(chēng),SCRS具有為胞內(nèi)蛋白質(zhì)、核酸、脂類(lèi)等提供生物分析的化學(xué)組成和結(jié)構(gòu)信息的優(yōu)勢(shì),可以從單細(xì)胞水平上檢測(cè)食品中微生物生命周期各個(gè)階段[13-14],相較研究者應(yīng)用的隨機(jī)森林方法對(duì)不同生長(zhǎng)時(shí)期SCRS數(shù)據(jù)91.2% 識(shí)別準(zhǔn)確率[15],極限梯度提升(eXtreme gradient boosting,XGBoost)模型繼承了集成學(xué)習(xí)、樹(shù)形結(jié)構(gòu)的高可靠性和特征識(shí)別能力,可以更有效地識(shí)別SCRS 所蘊(yùn)含的細(xì)胞“指紋”信息。
因此,本文提出一種基于拉曼技術(shù)的單細(xì)胞生長(zhǎng)檢測(cè)方法,用于解決食品工程中食品安全期和最佳食用期的精準(zhǔn)檢測(cè)問(wèn)題。首先,采集枯草芽孢桿菌兩個(gè)批次共900 個(gè)SCRS 數(shù)據(jù),分別作為模型訓(xùn)練、測(cè)試和驗(yàn)證數(shù)據(jù)。其次,分別基于聚合度和耦合度評(píng)估方法,提出基于聚合度(compactness,CP) 和耦合度(separation,SP) 聯(lián)合(CP-SP)的特征評(píng)估方法,篩選最優(yōu)的SCAS檢測(cè)特征。然后,基于檢測(cè)特征構(gòu)建XGBoost 細(xì)胞生長(zhǎng)檢測(cè)模型,應(yīng)用網(wǎng)格搜索和交叉驗(yàn)證對(duì)檢測(cè)模型進(jìn)行調(diào)優(yōu),并應(yīng)用混淆矩陣、受試者操作特征(receiver operating characteristic curve,ROC)曲線評(píng)估模型對(duì)細(xì)胞生長(zhǎng)檢測(cè)準(zhǔn)確率、敏感性和特異性。最后,應(yīng)用檢測(cè)模型檢測(cè)另一批次SCRS 數(shù)據(jù)生長(zhǎng)狀態(tài),驗(yàn)證模型泛化能力。
基于拉曼技術(shù)的單細(xì)胞生長(zhǎng)檢測(cè)方法主要流程如圖1 所示,步驟包括:a. SCRS 數(shù)據(jù)采集,確定數(shù)據(jù)樣品、采集條件和數(shù)據(jù)劃分;b. 數(shù)據(jù)預(yù)處理,確定SCRS數(shù)據(jù)預(yù)處理方法和參數(shù);c. 特征評(píng)估與篩選,提出基于CP-SP的特征評(píng)估方法,用來(lái)篩選出具有高內(nèi)聚、低耦合的SCRS特征組合;d. 優(yōu)化XGBoost超參數(shù)和確定模型評(píng)估方案,構(gòu)建細(xì)胞生長(zhǎng)檢測(cè)模型并確定模型評(píng)估方法;e. 方法應(yīng)用,調(diào)用檢測(cè)模型,驗(yàn)證模型的泛化能力。
Fig. 1 Experimental procedure of cell growth detection
Fig. 2 Growth curve for simultaneous culture of single-cell microorganisms
Fig. 3 Pre-processing results of SCRS data for different growth periods
Fig. 4 Results of SCRS data preprocessing for different growth periods
Fig. 5 PCA features relationship matrix of SCRS data
Fig. 6 CP-SP scores and feature contribution rates for the top 10 PCA features
Fig. 7 Logarithmic loss functions for training and validing
Fig. 8 XGBoost-based cell growth assay results and model evaluation
1.1.1 分光光度計(jì)檢測(cè)和SCRS檢測(cè)條件
在細(xì)胞培養(yǎng)實(shí)驗(yàn)中,從接種時(shí)刻起,每隔1 h吸取3 ml 菌液,應(yīng)用紫外分光光度計(jì)檢測(cè),記錄菌液在600 nm處的吸光度(A600),以A600值作為縱坐標(biāo),培養(yǎng)時(shí)間作為橫坐標(biāo)繪制細(xì)胞生長(zhǎng)曲線,圖2是3組平行實(shí)驗(yàn)組重復(fù)測(cè)量的細(xì)胞A600,制作生長(zhǎng)曲線,為消除誤差所帶來(lái)的影響,在3組平行實(shí)驗(yàn)相同的時(shí)間點(diǎn)各吸取中層菌液1 μl,均勻點(diǎn)在拉曼芯片(基底材料硅酸鹽玻璃上覆蓋對(duì)細(xì)胞無(wú)損傷的鍍層金屬Al)上風(fēng)干,在Hooke P300(中國(guó)科學(xué)院長(zhǎng)春光機(jī)所和Hooke Instruments研發(fā))拉曼顯微鏡下觀察風(fēng)干樣品。Hooke P300 激光光斑約為1 μm(100×物鏡,NA 為0.8,激發(fā)波長(zhǎng)532 nm,衍射直徑1.22×0.532 μm/0.8),所采集SCRS基本覆蓋單細(xì)胞(寬度為(0.4±0.1)μm,長(zhǎng)度為(1.3±0.5)μm)的大部分信息。
SCRS 檢測(cè)可以獲取單個(gè)細(xì)胞生長(zhǎng)過(guò)程的實(shí)時(shí)生化變化,是進(jìn)行單細(xì)胞活體生長(zhǎng)檢測(cè)的實(shí)用工具。由于微生物SCRS 在600~1 800 cm-1波段具有明顯的光譜響應(yīng),可以作為其表型指紋區(qū)域,Hooke P300 光譜儀主要參數(shù)設(shè)置為:激發(fā)波長(zhǎng)(excitation wavelength)532 nm,光柵(grating)1 200 g/mm,激發(fā)功率(laser power)3 mW,積分時(shí)間(integration time)8 s。
1.1.2 微生物樣品選擇與同步培養(yǎng)
枯草芽孢桿菌是常見(jiàn)的微生物源食品保鮮劑[16],通過(guò)競(jìng)爭(zhēng)生長(zhǎng)空間、資源或產(chǎn)生抗菌化合物(芬薺素等)來(lái)抑制腐敗菌生長(zhǎng),準(zhǔn)確檢測(cè)并延長(zhǎng)食品中腐敗菌的滯后期和微生物源保鮮劑的對(duì)數(shù)可以較好維持食品感官品質(zhì)和營(yíng)養(yǎng)價(jià)值,延長(zhǎng)食品貨架期。
本文選用枯草芽孢桿菌作為細(xì)胞生長(zhǎng)檢測(cè)的微生物樣品并進(jìn)行同步培養(yǎng)實(shí)驗(yàn),記錄微生物的培養(yǎng)時(shí)間,根據(jù)圖2生長(zhǎng)曲線顯示:培養(yǎng)2 h為滯后期,該時(shí)期細(xì)胞分裂遲緩,繁殖極少;3~5 h為對(duì)數(shù)期,微生物在該時(shí)期生長(zhǎng)迅速,呈現(xiàn)指數(shù)生長(zhǎng)趨勢(shì);培養(yǎng)至8~14 h進(jìn)入穩(wěn)定期。本研究對(duì)高濃度培養(yǎng)液未做稀釋也未建立相關(guān)稀釋倍數(shù)間的回歸方程,仍然可以得到大部分菌株的生長(zhǎng)曲線。盡管有些菌株生長(zhǎng)曲線沒(méi)有明顯衰亡期,但這并不影響生長(zhǎng)曲線的走向以及對(duì)菌株對(duì)數(shù)期和穩(wěn)定期的判斷。隨著培養(yǎng)時(shí)間延長(zhǎng),未發(fā)現(xiàn)明顯的凋亡期界限,這并不影響生長(zhǎng)曲線的趨勢(shì)以及對(duì)單細(xì)胞生長(zhǎng)時(shí)期的識(shí)別,這里僅涉及細(xì)胞前3個(gè)生長(zhǎng)時(shí)期檢測(cè)。分兩批次采集900 個(gè)枯草芽孢桿菌SCRS 數(shù)據(jù),第一批次600 個(gè)(200 個(gè)/時(shí)期×3 時(shí)期)作為實(shí)驗(yàn)組用于訓(xùn)練和測(cè)試,另一批次300個(gè)(100個(gè)/時(shí)期×3時(shí)期)作為驗(yàn)證組用于模型驗(yàn)證,檢驗(yàn)?zāi)P头夯芰Α?/p>
SCRS數(shù)據(jù)預(yù)處理是準(zhǔn)確鑒定細(xì)胞生長(zhǎng)時(shí)期的前提,通過(guò)拉曼光譜儀采集的SCRS數(shù)據(jù)包含大量的干擾信息,如光譜儀噪聲、熒光背景等,干擾信息使得檢測(cè)模型的識(shí)別性能降低,此外,SCRS數(shù)據(jù)包含1 340 個(gè)光譜信號(hào)像素點(diǎn),信息較多,為了提高模型檢測(cè)穩(wěn)定性,在分析數(shù)據(jù)之前,需要對(duì)SCRS 數(shù)據(jù)進(jìn)行預(yù)處理。本文應(yīng)用Hooke intP 拉曼分析軟件(V2.0,Hooke P300 配套軟件)對(duì)SCRS數(shù)據(jù)預(yù)處理,包括:應(yīng)用Savitzky-Golay 算法對(duì)SCRS數(shù)據(jù)進(jìn)行平滑濾波,窗口寬度為7個(gè)像素點(diǎn),采用3階多項(xiàng)式擬合;應(yīng)用AirPLS算法去除SCRS數(shù)據(jù)背景信號(hào),Lambda=15,最大迭代次數(shù)ItermaxAirPls=12;應(yīng) 用Min-Max 對(duì)SCRS 數(shù) 據(jù) 歸一化處理。
1.3.1 特征提取方法
主成分分析(principal component analysis,PCA)是一種無(wú)監(jiān)督降維方法,利用正交變換把線性相關(guān)的高維SCRS變量轉(zhuǎn)換為少數(shù)線性無(wú)關(guān)的特征變量,該線性無(wú)關(guān)光譜特征也稱(chēng)為主成分。PCA可以將高維SCRS數(shù)據(jù)轉(zhuǎn)換為少數(shù)幾個(gè)主成分光譜來(lái)表征全譜信息,降維后的SCRS特征作為檢測(cè)模型輸入特征在降低計(jì)算復(fù)雜度、提升數(shù)據(jù)處理速度時(shí),應(yīng)盡量減少光譜信息量的損失。
1.3.2 XGBoost模型與優(yōu)化
XGBoost模型繼承了集成學(xué)習(xí)、樹(shù)形結(jié)構(gòu)的高可靠性和特征識(shí)別能力,能精準(zhǔn)識(shí)別SCRS所蘊(yùn)含的細(xì)胞指紋信息,實(shí)現(xiàn)復(fù)雜環(huán)境下單細(xì)胞生長(zhǎng)時(shí)期精準(zhǔn)檢測(cè)。本文將特征提取的SCRS光譜特征輸入XGBoost檢測(cè)模型,并通過(guò)不斷迭代學(xué)習(xí)SCRS 預(yù)測(cè)值與真實(shí)值的殘差,確定新的決策樹(shù),將樹(shù)的累加結(jié)果逐步逼近真實(shí)值進(jìn)而完成訓(xùn)練,然后以細(xì)胞生長(zhǎng)時(shí)期(滯后期、對(duì)數(shù)期和穩(wěn)定期)預(yù)測(cè)概率作為判別依據(jù),應(yīng)用XGBoost 對(duì)單細(xì)胞生長(zhǎng)時(shí)期檢測(cè),在損失函數(shù)中增加L2 正則化項(xiàng)防止模型過(guò)擬合。
使用網(wǎng)格搜索和交叉驗(yàn)證(GridSearchCV)對(duì)XGBoost 檢測(cè)模型進(jìn)行參數(shù)調(diào)優(yōu),通過(guò)網(wǎng)格搜索(GridSearch)遍歷XGBoost 模型主要超參數(shù)組合,基于先驗(yàn)知識(shí)通常設(shè)置XGBoost 基分類(lèi)器模型(booster) 為 樹(shù) 形 結(jié) 構(gòu)(gbtree) 或 線 性 結(jié) 構(gòu)(gbliner);設(shè)置分類(lèi)器個(gè)數(shù)(n_estimatores)的典型值為80 100 和120;設(shè)置樹(shù)深度(max_depth)典型值一般為5、6 和7。并應(yīng)用3 折交叉驗(yàn)證(CV)方法優(yōu)化模型訓(xùn)練性能,降低抽樣隨機(jī)性所帶來(lái)的預(yù)測(cè)誤差,提高模型的泛化能力。
1.4.1 基于CP-SP的特征評(píng)估
傳統(tǒng)PCA 特征選擇往往借助特征累計(jì)貢獻(xiàn)率來(lái)選擇光譜特征,但貢獻(xiàn)率大的特征作用于分類(lèi)器性能并不一定大,本文借鑒聚合度和耦合度評(píng)估方法,直接從最優(yōu)分類(lèi)性能角度出發(fā),通過(guò)計(jì)算PCA降維后SCRS散點(diǎn)分布的簇內(nèi)聚合度和簇間耦合度,提出基于CP-SP的特征評(píng)估方法,用來(lái)篩選出具有高內(nèi)聚、低耦合的SCRS特征組合,以下為CP-SP核心實(shí)現(xiàn)算法:
針對(duì)某生長(zhǎng)時(shí)期SCRS數(shù)據(jù)集Ωi,用1-范數(shù)用來(lái)計(jì)算簇內(nèi)SCRS樣本與簇中心點(diǎn)的距離之和,然后計(jì)算3個(gè)(k= 3,表示3個(gè)生長(zhǎng)時(shí)期)簇緊密性平均值表征細(xì)胞生長(zhǎng)時(shí)期特征關(guān)系矩陣的聚合度,值越高意味著相同生長(zhǎng)時(shí)期SCRS 數(shù)據(jù)聚合度越高。
針對(duì)3個(gè)細(xì)胞生長(zhǎng)時(shí)期,用2-范數(shù)來(lái)計(jì)算簇中心之間的平均距離表征細(xì)胞生長(zhǎng)時(shí)期特征關(guān)系矩陣的耦合度,同公式(1)中w表示簇中心,-----SP值越高意味不同生長(zhǎng)時(shí)期SCRS數(shù)據(jù)耦合度越低。
c. 聚合度和耦合度是對(duì)SCRS散點(diǎn)分布獨(dú)立性度量的兩個(gè)標(biāo)準(zhǔn),只有同時(shí)保證分布的簇內(nèi)高內(nèi)聚和簇間低耦合才能實(shí)現(xiàn)最大分類(lèi)性能。本文設(shè)置聚合度與耦合度相同的權(quán)重系數(shù),將二者比值計(jì)為CP-SP 得分(SCP-SP)見(jiàn)公式(4),計(jì)算PCA 降維后SCRS散點(diǎn)分布的簇內(nèi)聚合度越大和簇間耦合度越小,CP-SP得分越高,分類(lèi)性能越好。
1.4.2 檢測(cè)結(jié)果評(píng)估
隨機(jī)選取實(shí)驗(yàn)組600 個(gè)SCRS 數(shù)據(jù)的20%作為測(cè)試數(shù)據(jù)(每個(gè)生長(zhǎng)時(shí)期40 個(gè)預(yù)測(cè)樣本)用于評(píng)估檢測(cè)細(xì)胞生長(zhǎng)結(jié)果,以某一細(xì)胞生長(zhǎng)時(shí)期(穩(wěn)定期)為例,使用真陽(yáng)(true positive,TP)表示樣本真實(shí)為穩(wěn)定期,預(yù)測(cè)為穩(wěn)定期,真陰(true negative,TN)表示樣本真實(shí)非穩(wěn)定期,預(yù)測(cè)為非穩(wěn)定期,假陽(yáng)(false positive,F(xiàn)P)表示樣本真實(shí)非穩(wěn)定期,預(yù)測(cè)為穩(wěn)定期,假陰(false negative,F(xiàn)N)表示樣本真實(shí)為穩(wěn)定期,預(yù)測(cè)為非穩(wěn)定期。基于此,本文使用混淆矩陣和ROC 曲線評(píng)估檢測(cè)結(jié)果。
a. 混淆矩陣[19]是機(jī)器學(xué)習(xí)中常用的多分類(lèi)結(jié)果的可視化工具,應(yīng)用混淆矩陣評(píng)估XGBoost模型檢測(cè)結(jié)果,能直觀地表示每個(gè)生長(zhǎng)時(shí)期預(yù)測(cè)準(zhǔn)確率,其橫坐標(biāo)為生長(zhǎng)時(shí)期真實(shí)標(biāo)簽,縱坐標(biāo)為生長(zhǎng)時(shí)期預(yù)測(cè)標(biāo)簽?;煜仃噯卧駭?shù)值表示測(cè)試樣本在3個(gè)生長(zhǎng)時(shí)期的預(yù)測(cè)占比,對(duì)角線的值表示檢測(cè)模型對(duì)該生長(zhǎng)時(shí)期預(yù)測(cè)準(zhǔn)確率(precision,P)。
b. ROC曲線[20]用來(lái)評(píng)估XGBoost模型敏感性和特異性,在二維坐標(biāo)軸中,橫坐標(biāo)為假陽(yáng)性率(false postive rate,F(xiàn)PR),表示特異度,縱坐標(biāo)為真陽(yáng)性率(true postive rate,TPR),表示靈敏度。AUC(area under the curve of ROC)值表示ROC曲線下方的面積,是XGBoost模型敏感性和特異性的量化表示方法。
應(yīng)用Hooke intP 軟件對(duì)兩批次同步培養(yǎng)的枯草芽孢桿菌SCRS 數(shù)據(jù)進(jìn)行預(yù)處理,用堆疊圖(stacked lines by Y offsets)顯示實(shí)驗(yàn)組滯后期、對(duì)數(shù)期和穩(wěn)定期3個(gè)生長(zhǎng)時(shí)期SCRS數(shù)據(jù)預(yù)處理效果,如圖3所示,分別以實(shí)線和陰影部分表示各生長(zhǎng)時(shí)期200 個(gè)SCRS 數(shù)據(jù)平均值和方差,由于微生物生長(zhǎng)過(guò)程中的異質(zhì)性較為穩(wěn)定,表現(xiàn)出3個(gè)生長(zhǎng)時(shí)期光譜具有較低的方差。
對(duì)枯草芽孢桿菌3 個(gè)生長(zhǎng)時(shí)期SCRS 數(shù)據(jù)做探索性數(shù)據(jù)分析(EDA),分別用密度直方圖(圖4a)和帶抖動(dòng)點(diǎn)的箱線圖(圖4b)來(lái)觀測(cè)3組數(shù)據(jù)信噪比(SNR)分布情況,其中滯后期光譜信噪比均值和方差為(6.8±2.6),對(duì)數(shù)期光譜為(6.6±2.6),穩(wěn)定期光譜為(6.7±2.7),3 個(gè)生長(zhǎng)時(shí)期SCRS數(shù)據(jù)特征呈現(xiàn)較為穩(wěn)定的均勻分布,保證了預(yù)期檢測(cè)結(jié)果不受光譜SNR影響。
為了可視化顯示效果,在預(yù)處理后的SCRS數(shù)據(jù)集中,每個(gè)細(xì)胞生長(zhǎng)時(shí)期隨機(jī)選擇50 個(gè)光譜數(shù)據(jù)進(jìn)行主成分分析,應(yīng)用Python 可視化庫(kù)Seaborn中Pairplot 函數(shù)繪制光譜前10 個(gè)PCA 特征關(guān)系矩陣,圖5 顯示前4 個(gè)SCRS 特征關(guān)系效果,其中主成分PCm、PCn的特征關(guān)系分布對(duì)應(yīng)于圖中[m,n]坐標(biāo),對(duì)角線(m=n)表示3 個(gè)生長(zhǎng)時(shí)期在PC1、PC2、PC3、PC4 四個(gè)PCA 特征上的分布,非對(duì)角線(m≠n)用核函數(shù)密度估計(jì)圖(Kdeplot)表示兩個(gè)不同特征之間的相關(guān)圖。觀察SCRS數(shù)據(jù)特征分布情況,發(fā)現(xiàn)SCRS的PC1特征不論是從對(duì)角線上的分布圖還是與其他特征構(gòu)成的散點(diǎn)圖,都能按生長(zhǎng)時(shí)期標(biāo)簽表現(xiàn)出明顯的區(qū)分,同時(shí),PC1 與PC2、PC1與PC3、PC1與PC4表現(xiàn)出3個(gè)清晰可分離的、簇密度圖。
如何量化評(píng)估圖5 SCRS 數(shù)據(jù)的聚合度和耦合度,本文提出基于CP-SP 的特征評(píng)估方法來(lái)量化SCRS 數(shù)據(jù)的1 340 維特征的簇內(nèi)聚合度和簇間耦合度,圖6 是根據(jù)公式(4)計(jì)算的CP-SP 得分和特征貢獻(xiàn)率組成的PCA前10個(gè)光譜特征評(píng)估結(jié)果,其中左下角為PCA 特征貢獻(xiàn)率,右上角熱圖對(duì)應(yīng)顯示PCA 特征關(guān)系矩陣中m 選擇SCRS 數(shù)據(jù)的PC1、PC2、PC4 作為檢測(cè)模型輸入特征,通過(guò)網(wǎng)格搜索和3折交叉驗(yàn)證優(yōu)選主要超參數(shù)?;诸?lèi)器模型:gbtree;基分類(lèi)器個(gè)數(shù):120;樹(shù)深度:6。圖7 顯示隨著CART 樹(shù)個(gè)數(shù)(Num_round)增加,使用GridSearchCV 優(yōu)化后的超參數(shù)訓(xùn)練和測(cè)試收斂于第10 棵CART 樹(shù),對(duì)比默認(rèn)超參數(shù)需要在第40 棵CART 樹(shù)加入后收斂,優(yōu)選后的模型收斂精度(Log_loss)和收斂速度都有明顯提升。 圖8a 為實(shí)驗(yàn)組20%測(cè)試數(shù)據(jù)生長(zhǎng)時(shí)期識(shí)別結(jié)果的混淆矩陣,3 個(gè)生長(zhǎng)時(shí)期平均測(cè)試準(zhǔn)確率為96.0%,僅用PC1、PC2、PC4三個(gè)光譜特征較應(yīng)用全譜的隨機(jī)森林檢測(cè)準(zhǔn)確率提高5.3%[15]。進(jìn)一步應(yīng)用ROC 曲線來(lái)評(píng)估模型敏感性和特異性(圖8b),從標(biāo)簽維度和樣本維度的ROC快速逼近左上角,計(jì)算的AUC值所表示的靈敏度和特異度之和接近1,模型有效且性能良好。 為驗(yàn)證檢測(cè)模型對(duì)另一批次枯草芽孢桿菌細(xì)胞生長(zhǎng)檢測(cè)的泛化能力,通過(guò)調(diào)用XGBoost 訓(xùn)練模型檢測(cè)驗(yàn)證組300 個(gè)SCRS 數(shù)據(jù)生長(zhǎng)時(shí)期,首先使用1.2 中數(shù)據(jù)預(yù)處理方法對(duì)驗(yàn)證組SCRS 數(shù)據(jù)預(yù)處理。其次使用實(shí)驗(yàn)數(shù)據(jù)同樣的PCA特征轉(zhuǎn)換方法,選取驗(yàn)證組SCRS 數(shù)據(jù)的PC1、PC2 和PC4 光譜特征。最后統(tǒng)計(jì)訓(xùn)練模型(XGBoostModel.pkl)對(duì)驗(yàn)證組細(xì)胞生長(zhǎng)檢測(cè)準(zhǔn)確率為92.3%,模型具有良好的泛化能力。 針對(duì)微生物生長(zhǎng)應(yīng)用于食品安全期和最佳食用期的精準(zhǔn)檢測(cè)問(wèn)題,本文提出了基于拉曼技術(shù)的單細(xì)胞生長(zhǎng)檢測(cè)方法,主要包括:基于光譜PCA 特征關(guān)系矩陣提出CP-SP特征評(píng)估方法,篩選出具有高內(nèi)聚、低耦合的SCRS特征組合,輸入XGBoost檢測(cè)模型,并使用網(wǎng)格搜索和交叉驗(yàn)證優(yōu)化檢測(cè)模型,對(duì)同步培養(yǎng)的兩批次微生物源保鮮劑滯后期、對(duì)數(shù)期和穩(wěn)定期檢測(cè)識(shí)別。實(shí)驗(yàn)表明,基于拉曼技術(shù)的單細(xì)胞生長(zhǎng)檢測(cè)方法以96.0%的細(xì)胞生長(zhǎng)測(cè)試準(zhǔn)確率,并以92.3%的細(xì)胞生長(zhǎng)檢測(cè)泛化能力,可以從單細(xì)胞水平上檢測(cè)微生物生長(zhǎng),對(duì)保持食品良好的感官品質(zhì)、延長(zhǎng)食品貨架期有重要作用。 本文提出的特征優(yōu)選與檢測(cè)模型方法具有突出的特征識(shí)別能力,有利于細(xì)胞生長(zhǎng)標(biāo)志物的發(fā)現(xiàn)和抑菌機(jī)理的研究,為食品安全和保鮮提供技術(shù)支撐。2.3 模型訓(xùn)練與測(cè)試結(jié)果
2.4 模型驗(yàn)證結(jié)果
3 結(jié) 論