段朋生 許金釵 陳屹耒 葉大鵬 翁海勇
(1. 福建農林大學機電工程學院,福建 福州 350002;2. 現(xiàn)代農業(yè)裝備福建省高校工程研究中心,福建 福州 350002;3. 福建農林大學生命科學學院,福建 福州 350002)
金黃色葡萄球菌(Staphylococcusaureus,S.aureus)、單增李斯特菌(Listeriamonocytogenes, LM)、致瀉大腸埃希氏菌(Diarrheagenice.coli, DEC)、腸炎沙門氏菌(Salmonellaenteritidis,SE)和福氏志賀菌(Shigellasppflexneri,S.flexneri)等食源性致病菌是引起食品安全問題的主要原因[1]。由食源性致病菌所引發(fā)的急性食物中毒常出現(xiàn)惡心、腹痛、腹瀉、發(fā)燒等癥狀,嚴重者威脅呼吸、循環(huán)、神經(jīng)系統(tǒng),甚至留下后遺癥[2]。因此,及時快速診斷出食源性致病菌并判別出菌種屬對食品安全至關重要。
目前,微生物檢驗技術是食源性致病菌檢測中最常用的技術之一。該技術準確性高,但操作復雜、專業(yè)性強,檢測時間長,一般需要7~10 d[3]。近年來,光譜技術能獲取豐富的樣本波譜信息,結合化學計量學方法在食品微生物快速檢測領域具有巨大的應用前景[4-6]。劉斌等[7]對菌株富集培養(yǎng)后,獲取了經(jīng)冷凍干燥制成的菌粉的傅里葉近紅外光譜信息,建立了偏最小二乘法模型,識別準確率達90%。Yoon等[8]利用高光譜成像技術對顯色培養(yǎng)基上培養(yǎng)的17種彎曲桿菌亞種和非彎曲桿菌亞種進行了鑒別,識別準確率達99.29%,建立了17種菌的光譜庫,并開發(fā)了一種可應用于其他瓊脂平板上病原菌的分類鑒別方法。Mehrubeoglu等[9]研究發(fā)現(xiàn),高光譜成像技術能表征細菌隨培養(yǎng)時間而變化的光譜特征,以及實現(xiàn)細菌的鑒別。Seo等[10]發(fā)現(xiàn),在顯色培養(yǎng)基上應用高光譜成像技術能夠實現(xiàn)腸炎沙門氏菌和鼠傷寒沙門氏菌的鑒別。William等[11]研究表明,高光譜成像技術對致病因子中含045和0121的分類準確率為98%,而對致病因子含026、0111、0103和0145的分類準確率為8%~100%。Gu等[12]利用高光譜技術建立了支持向量機(SVM)識別模型,對大腸桿菌、金黃色葡萄球菌和沙門氏菌的準確率>98%。石吉勇等[13]利用高光譜對乳酸菌專用培養(yǎng)基上常見的3種致病菌和5種乳酸菌種進行了鑒別與計數(shù),發(fā)現(xiàn)標準正態(tài)變換(SNV)為最佳預處理方法,最小二乘支持向量機(LS-SVM)為最佳鑒別模型,識別率為91.88%。上述研究均要求對致病菌進行培養(yǎng)24 h,一定程度上限制了檢測效率。
研究擬利用高光譜成像技術獲取通用培養(yǎng)基上培養(yǎng)12,18,24 h的不同培養(yǎng)期5類致病菌(金黃色葡萄球菌、單增李斯特菌、致瀉大腸埃希氏菌、腸炎沙門氏菌和福氏志賀菌)高光譜圖像,探究其在通用培養(yǎng)基上不同生長期的圖譜特性,并結合化學計量法建立通用培養(yǎng)基上的源性致病菌種的識別模型,旨在為食品中致病菌的快速檢測提供依據(jù)。
將菌種放置在無菌超凈臺中,活化,用接種環(huán)挑取S.aureus、DEC、SE和S.flexneri至營養(yǎng)肉湯培養(yǎng)基(蛋白胨10 g,牛肉膏3 g,NaCl 5 g,超純水1 000 mL,pH 7.0),挑取LM至李斯特菌增菌液(胰蛋白胨17 g,大豆蛋白胨3 g,K2HPO42.5 g,NaCl 5 g,葡萄糖2.5 g,酵母浸粉6 g,超純水1 000 mL,pH 7.0),37 ℃恒溫培養(yǎng)24 h。將活化后的增菌液按10-1~10-9中的9個梯度進行稀釋,用移液槍吸取增菌液至通用平板培養(yǎng)基上再次培養(yǎng)12,18,24 h。
高光譜成像系統(tǒng)(HIS)主要包括分辨率為1 024×472 pixels的sCMOS相機、波長范圍為400~1 000 nm、分辨率為2.8 nm光譜儀、線光源、電控移動平臺、暗箱和控制計算機等(圖1)。試驗前,開機預熱20 min。設定物距、移動平臺的速度和曝光時間等參數(shù)。經(jīng)反復測試,最終確定的曝光時間為3 ms,物距為320 mm,移動平臺速度為8.38 mm/s。采集樣品的高光譜數(shù)據(jù)前,先掃描反射率為99%標準白板得到全白的標定圖像Iwhite;擰上鏡頭蓋,采集全黑的標定圖像Idark;并按式(1)計算校正后的圖像Icorrection。獲取培養(yǎng)至12,18,24 h的5類致病菌(每類病菌在每個時間段各4個平板)的高光譜圖像I,以期獲得不同生長期的食源性致病菌波譜信息。對校正后的高光譜圖像利用ENVI5.1軟件,以單個菌落為感興趣區(qū)域,并計算該區(qū)域的平均光譜曲線,以此作為一個樣本。分別從培養(yǎng)12,18,24 h的培養(yǎng)基上選擇647,799,769個樣本,其相關信息見表1。
(1)
1.3.1 連續(xù)投影算法(SPA) 原始高光譜數(shù)據(jù)信息豐富,但存在數(shù)據(jù)冗余、維度大等問題,因此,有必要從高維度的圖譜數(shù)據(jù)中提取出對食源性致病菌敏感的特征波段。利用SPA提取不同生長期致病菌敏感波段。SPA從原始的光譜信息中提取共線性最小的特征波長變量組合,以使輸入數(shù)據(jù)的冗余信息達到最小[14]。
1.3.2 最小二乘支持向量機(LS-SVM) 支持向量機(SVM)是一種流行的機器學習算法,其是使定義在特征空間上的不同樣本之間的間隔最大化,即尋找最優(yōu)超平面,將不同樣本分割開來,以達到分類和識別的目的[15-16]。而LS-SVM則是以最小二乘線性系統(tǒng)作為損失函數(shù),將原有SVM中的不等式約束問題轉化成等式約束,簡化計算的復雜性,并提高計算效率[17-18]。
1. 光源 2. 相機 3. 光譜儀 4. 光源控制器 5. 鏡頭 6. 樣品 7. 電腦 8. 樣品架 9. 移動平臺
表1 樣本統(tǒng)計
LS-SVM算法求解的目標函數(shù)為:
(2)
約束條件為:
yi=ωTφ(x1)+b+ei,
(3)
式中:
ω——權重;
γ——正則化參數(shù);
ei——誤差;
xi——輸入的光譜矩陣,代表第i個樣本;
yi——模型的輸出變量代表,輸出對應的標簽值;
n——樣本數(shù)。
對式(2)和式(3)進行求解,可引入如式(4)的Lagrange函數(shù):
(4)
其中,αi為Lagrange系數(shù),求解式(4)的最優(yōu)解,將其轉化為求解式(5),求解線性方程:
(5)
式中:
I——單位矩陣;
m=<φ(xi),φ(xi)>=K(xi,xj),i,j=1,…,n;
ɑ=[ɑ1, ɑ2,…, ɑn]T;
y=[y1,y2, …,yn]T;
(6)
α=A-1(y-bl)。
(7)
對任意輸入x,可得到LS-SVM判別函數(shù):
(8)
選取徑向基作為LS-SVM的核函數(shù),采用網(wǎng)格搜索算法和交叉驗證相結合方式實現(xiàn)LS-SVM模型中γ和sig2(σ2)的尋優(yōu)。分類過程中,S.aureus、LM、DEC、SE和S.flexneri的標簽分別賦值為1、2、3、4和5。應用Kennard-Stone(KS)算法將光譜數(shù)據(jù)按2∶1分成建模集和預測集。采用Unscrambler10.1(CAMO AS, Oslo, Norway)、MATLAB R2014a(MathWorks, Inc., Natick, MA, USA)和ENVI5.1(ITT Visual Information Solutions, Bounder, USA)軟件進行光譜數(shù)據(jù)處理。
由圖2可知,隨著培養(yǎng)時間的增長,各類菌的反射率值均有所增大??梢姽鈪^(qū)域細菌的反射率值變化比近紅外區(qū)域780~980 nm的變化更為明顯,5類菌在400~1 000 nm 的光譜反射率值變化趨勢相似,但不同種類的菌對不同波長光的反射能力不同,這與不同菌的內部物質成分不同有關[9],從側面說明了高光譜成像技術對食源性致病菌的快速檢測具有可行性。此外,由于細菌細胞中化學成分的含氫基團因不同振動方式的合頻和倍頻在近紅外區(qū)域產生的譜帶重疊,也會引起這些光譜反射率較為接近[19]。因此,無法僅依賴某單個波段的反射率來實現(xiàn)微生物種屬的判別,需進一步提取更多的波譜特征,以實現(xiàn)5類致病菌種屬的快速判別。
由圖3可知,5類致病菌在培養(yǎng)12,18,24 h的PC1和PC2的累積貢獻率分別為89.9%,96.6%,95.0%,說明PC1和PC2能夠解釋原始數(shù)據(jù)的絕大部分信息。當培養(yǎng)至12 h時,DEC的光譜與其他4類菌的光譜差異性已經(jīng)凸顯。當培養(yǎng)至18 h時,5類致病菌各自聚成一類的趨勢更加明顯。當培養(yǎng)至24 h時,5類致病菌的光譜特性差異性進一步增加,重疊部分逐漸減少。
由圖4可知,當培養(yǎng)至12 h時,SPA算法選取了13個敏感波段(421,422,964,425,968,428,425,435,471,978,497,849,462 nm)用于構建5類致病菌的判別模型,RMSE最小為0.002 4。當培養(yǎng)至18 h時,SPA算法選取了9個敏感波段(421,422,450,853,505,763,431,649,978 nm)用于構建5類致病菌的判別模型,RMSE最小為0.001 9。當培養(yǎng)至24 h時,SPA算法選取了24個敏感波段(421,423,422,425,426,449,443,499,516,555,433,431,458,431,936,445,450,650,437,921,979,978,977,448 nm)用于構建5類致病菌的判別模型,RMSE最小為0.001 7。綜上,421,422,978 nm在培養(yǎng)12,18,24 h均被選中為敏感波段,并且有些被選中的波段在不同的生長期非常接近,說明這些波段能較好地反映不同生長期的食源性致病菌的動態(tài)信息。
圖2 5類致病菌的平均光譜曲線
圖3 5類致病菌的主成分分析得分圖
圖4 SPA提取得到的36個敏感波段反射率的相關系數(shù)
為了更好地全面獲取不同生長期食源性致病菌的波譜信息,有必要將培養(yǎng)12,18,24 h的被SPA選中的敏感波段組合起來,共獲得36個敏感波段。當兩個波段反射率的相關系數(shù)>0.95時,視為高度相關,可以去除其中一個。最終,選擇462,498,649,853,979 nm 5個波段作為不同生長期食源性致病菌的敏感波段。
基于SPA-CA篩選的462,498,649,853,979 nm 5個波段反射率建立的LS-SVM模型對5類食源性致病菌的識別效果如表2所示。由表2可知,革蘭氏陽性菌(S.aureus和LM)與革蘭氏陰性菌(DEC、SE和S.flexneri)的總體識別準確率分別為99.6%和99.8%,與同屬于革蘭氏陽性菌或革蘭氏陰性菌的鑒別較容易,這可能是由革蘭氏陽性菌與革蘭氏陰性菌在細胞壁中的主要成分肽聚糖和磷壁酸的差異引起的[20-21]。同屬類別的細菌因化學組分相似,造成譜帶重疊,易引起誤判,如SE和S.flexneri最容易發(fā)生誤判,其中SE被誤判成S.flexneri的概率為11.2%,S.flexneri被誤判成SE的概率為19.9%??傮w而言,SPA-CA-LS-SVM模型的總體識別準確率為90.9%,說明高光譜成像技術結合化學計量學分析方法能實現(xiàn)食源性致病菌的快速檢測。
建立了基于高光譜成像技術的食源性致病菌檢測方法。結果表明,5類致病菌對不同波長光的反射能力不同。連續(xù)投影算法結合相關分析篩選出的5個敏感波段(462,498,649,853,979 nm)反射率可較好地反映5類致病菌在不同生長期的波譜特性?;?個敏感波段反射率構建的連續(xù)投影算法結合相關分析—最小二乘支持向量機模型對金黃色葡萄球菌、單增李斯特菌和致瀉大腸埃希氏菌3類致病菌能夠有效地判別,而腸炎沙門氏菌和福氏志賀菌兩種屬容易被互相誤判,腸炎沙門氏菌被誤判成福氏志賀菌的概率為11.2%,福氏志賀菌被誤判成腸炎沙門氏菌的概率為19.9%。最小二乘支持向量機模型對5類致病菌的總體識別正確率為90.9%。綜上,基于高光譜成像技術結合最小二乘支持向量機模型能夠很好地對這5類食源性致病菌進行識別。由于食品受微生物的污染時有可能存在多種致病菌共同存在的情形,后續(xù)將針對混合菌種進行識別。
表2 SPA-CA-LS-SVM模型的識別效果