王 森, 王雪松, 張 昕, 石國(guó)新, 王 健
(1.吉林大學(xué) 生物與農(nóng)業(yè)工程學(xué)院, 長(zhǎng)春 130022; 2.吉林大學(xué) 生命科學(xué)學(xué)院, 長(zhǎng)春 130012)
氨基酸發(fā)酵液的成分復(fù)雜, 通常是氣體、 液體、 固體三態(tài)共存.傳統(tǒng)分析方法需使用昂貴的化學(xué)試劑, 且分析過(guò)程復(fù)雜[1-2].近紅外光譜分析技術(shù)以化學(xué)計(jì)量學(xué)、 基礎(chǔ)測(cè)量及光譜衡量為基礎(chǔ), 多種技術(shù)相互耦合.與傳統(tǒng)分析方法相比, 近紅外光譜分析僅需對(duì)被測(cè)樣品進(jìn)行一次光譜采集, 即可在較短時(shí)間內(nèi)完成多項(xiàng)性能指標(biāo)檢測(cè), 具有分析重現(xiàn)性好、 無(wú)污染、 成本低等優(yōu)點(diǎn).因此, 近紅外光譜分析技術(shù)在生命科學(xué)、 石油化工、 農(nóng)業(yè)、 醫(yī)藥和輕工食品等領(lǐng)域應(yīng)用廣泛[3-6].
用近紅外光譜分析技術(shù)測(cè)定氨基酸發(fā)酵過(guò)程中的參數(shù), 主要是采集透射光譜信息, 建立發(fā)酵液中單一主產(chǎn)物濃度或葡萄糖含量光譜預(yù)測(cè)模型.對(duì)含量較少的副產(chǎn)物建立預(yù)測(cè)模型與多種產(chǎn)物同時(shí)檢測(cè)的研究目前文獻(xiàn)報(bào)道較少[7-9]: 郭宇飛等[10]利用近紅外光譜分析技術(shù), 采集透射光譜信息, 建立了谷氨酸棒桿菌發(fā)酵過(guò)程中異亮氨酸質(zhì)量濃度的單一光譜預(yù)測(cè)模型; Liang等[11]利用近紅外光譜分析技術(shù)建立了谷氨酸發(fā)酵過(guò)程中各成分的光譜模型, 達(dá)到了快速、 準(zhǔn)確檢測(cè)的目的, 由于樣品為離心后發(fā)酵液, 因此未充分發(fā)揮近紅外光譜分析技術(shù)的優(yōu)勢(shì).本文以L-異亮氨酸發(fā)酵過(guò)程的發(fā)酵液為樣品, 用偏最小二乘法研究不同光譜預(yù)處理和波段選擇對(duì)液體透射采集和懸濁液反射采集下發(fā)酵液中各成分建模精度的影響, 分別建立L-異亮氨酸、L-亮氨酸、L-蘇氨酸、L-谷氨酸和L-丙氨酸的兩種不同采集方式光譜預(yù)測(cè)模型, 并通過(guò)比較得到最佳模型建立方法.
黃色短桿菌BrevibacteriumflavumKM011(Met-+LysL+ Ethr+α-ABr+AECr)由吉林大學(xué)氨基酸代謝工程實(shí)驗(yàn)室保藏.其培養(yǎng)基及發(fā)酵條件參見(jiàn)文獻(xiàn)[12].
在L-異亮氨酸補(bǔ)料分批發(fā)酵過(guò)程中, 每小時(shí)取樣一次, 共收集105個(gè)樣品.
發(fā)酵液中氨基酸的質(zhì)量濃度用2,4-二硝基氟苯柱前衍生高效液相法測(cè)定, 參見(jiàn)文獻(xiàn)[12].
透射光譜掃描:在1 mm的比色杯中加入0.5 mL發(fā)酵液樣品, 用Thermo AntarisⅡ型近紅外掃描儀(美國(guó)賽默飛世爾公司)掃描, 分辨率為16 cm-1, 掃描次數(shù)為32, 在4 000~10 000 cm-1處掃描樣品,以去離子水為掃描背景, 采集原始近紅外光譜數(shù)據(jù).
反射光譜掃描:將5 mL發(fā)酵液樣品置于0號(hào)密封袋中, 溫度為20 ℃, 分辨率為8.0 cm-1, 掃描32次, 在4 000~10 000 cm-1處掃描樣品, 以儀器內(nèi)置背景為參比, 采集原始近紅外光譜.用近紅外分析軟件TQ Analyst 9(美國(guó)賽默飛世爾公司)分析原始光譜.
用近紅外分析軟件TQ Analyst 9內(nèi)置的多種光譜預(yù)處理算法對(duì)原始光譜(Raw)預(yù)處理優(yōu)化, 包括多元散射校正(multiplicative scatter correction, MSC)、 標(biāo)準(zhǔn)正態(tài)變量變換(vector normalization, SNV)、 一階導(dǎo)數(shù)+Norris導(dǎo)數(shù)平滑處理(first derivative+Norris, FD+N)、 一階導(dǎo)數(shù)+S-G平滑處理(first derivative+S-G, FD+SG)、 二階導(dǎo)數(shù)+Norris導(dǎo)數(shù)平滑處理(second derivative+Norris, SD+N)和二階導(dǎo)數(shù)+S-G平滑處理(second derivative+S-G, SD+SG)等, 平滑點(diǎn)數(shù)設(shè)為15.
圖1為樣品的原始透射掃描光譜.由圖1可見(jiàn), 發(fā)酵液透射光譜的波峰波谷重疊嚴(yán)重, 在4 000~5 400 cm-1處, 由于水中O—H鍵吸收干擾, 導(dǎo)致吸收飽和, 因此噪聲較強(qiáng), 在6 500~7 300 cm-1處, 發(fā)酵液中存在大量微小顆粒物和菌體, 使吸收光譜紊亂.樣品的原始反射光譜如圖2所示.由圖2可見(jiàn), 其波峰波谷清晰, 有利于提取光譜信息, 通過(guò)光譜預(yù)處理, 使利用近紅外光譜分析技術(shù)同時(shí)檢測(cè)發(fā)酵過(guò)程多種物質(zhì)含量成為可能.
圖1 樣品的原始透射掃描光譜
圖2 樣品的原始反射光譜
不同分子基團(tuán)對(duì)不同波長(zhǎng)光譜的吸收差異較大, 利用黃色短桿菌生產(chǎn)L-異亮氨酸過(guò)程中, 主副產(chǎn)物中存在大量N—H,O—H和C—H等基團(tuán), 由于不同氨基酸所含基團(tuán)的種類(lèi)和數(shù)量不同, 因此近紅外光譜可同時(shí)檢測(cè)多種氨基酸.為提取每種產(chǎn)物完整的光譜信息, 同時(shí)降低冗余波長(zhǎng)攜帶噪聲的干擾, 選取有效波段:7 000~8 500 cm-1波段光譜能激發(fā)O—H和N—H基團(tuán)的一級(jí)二級(jí)伸縮震動(dòng), 使C—H基團(tuán)產(chǎn)生一級(jí)組合頻及二三級(jí)倍頻吸收光譜;6 000~7 000 cm-1波段為O—H的一級(jí)倍頻, 由于發(fā)酵液為液體, 含有大量水分, 因此該波段光譜吸收較明顯;芳香族的C—H伸縮振動(dòng)和O—H組合頻位于5 000~6 000 cm-1處.由于透射光譜的波峰波谷重疊嚴(yán)重, 部分波段攜帶大量干擾信息, 其光譜在5 400~6 300 cm-1和7 300~10 000 cm-1處相對(duì)清晰, 因此在這兩個(gè)波段建立光譜校正模型.
反射光譜較透射光譜質(zhì)量大幅度提高, 光譜曲線相對(duì)平滑, 但光譜攜帶信息減少.若僅根據(jù)波峰和波谷的位置選取波長(zhǎng)范圍, 則會(huì)導(dǎo)致光譜有效信息提取不完整, 降低模型精度.為更好發(fā)揮光譜平滑的優(yōu)勢(shì), 并降低攜帶信息較少的問(wèn)題, 采用相關(guān)性分析法, 即用SPSS軟件計(jì)算不同光譜預(yù)處理下光譜吸收率與產(chǎn)物質(zhì)量濃度間的相關(guān)關(guān)系, 根據(jù)二者間的顯著性水平高低選取最佳波段.計(jì)算結(jié)果表明: 當(dāng)相關(guān)系數(shù)|r|≥0.471時(shí), 光譜吸收率與真實(shí)值在0.01水平下具有顯著相關(guān)性; 當(dāng)0.471>|r|≥0.368時(shí), 波長(zhǎng)吸收率與真實(shí)值在0.05水平下具有顯著相關(guān)性.圖3為7種不同光譜預(yù)處理下光譜吸收率與各產(chǎn)物真實(shí)值的相關(guān)系數(shù).由圖3(A)可見(jiàn), 主副產(chǎn)物質(zhì)量濃度與原始光譜吸收度在大部分波段呈負(fù)相關(guān), 且質(zhì)量濃度越大其相關(guān)性越高.為提高模型的精度, 選取|r|>0.471的波段, 即分別選取4 400~4 600 cm-1,5 300~6 500 cm-1和7 500~10 000 cm-1波段, 用于建立L-谷氨酸、L-蘇氨酸、L-異亮氨酸和L-丙氨酸校正模型.由于L-亮氨酸與原始光譜吸收度的相關(guān)系數(shù)小于0.386, 因此原始光譜不能用于建立L-亮氨酸光譜預(yù)測(cè)模型.由圖3(B)可見(jiàn), 在4 100~5 300 cm-1和5 500~7 300 cm-1處,L-谷氨酸、L-蘇氨酸、L-異亮氨酸和L-丙氨酸的|r|>0.471, 具有較好的相關(guān)關(guān)系, 其中在4 500~5 100 cm-1和6 000~6 900 cm-1波段呈正相關(guān), 在5 300~5 500 cm-1波段相關(guān)系數(shù)波動(dòng)頻繁, 且|r|<0.471, 故舍棄.在4 100~4 500 cm-1,5 100~5 300 cm-1,5 500~6 000 cm-1和6 900~7 300 cm-1波段呈負(fù)相關(guān), 為提取完整的光譜信息且不引入干擾信息, 選取4 100~5 300 cm-1和5 500~7 300 cm-1波段用于上述4種氨基酸建模分析.在7 900~8 300 cm-1和9 100~9 200 cm-1波段,L-亮氨酸的質(zhì)量濃度與光譜吸光度的相關(guān)系數(shù)|r|>0.386, 表明L-亮氨酸在這兩個(gè)波段具有0.05水平顯著相關(guān), 可用于建立光譜預(yù)測(cè)模型.
根據(jù)上述最佳波段的選擇方法, 由圖3(C)~(G)可見(jiàn), 除L-亮氨酸外, 其他氨基酸在這5種光譜預(yù)處理下均具有較好的相關(guān)性.其中在FD+SG光譜預(yù)處理下, 選取4 000~5 500 cm-1和6 000~7 500 cm-1波段用于L-谷氨酸、L-蘇氨酸、L-異亮氨酸和L-丙氨酸建模分析, 選取9 025~9 050 cm-1波段用于L-亮氨酸建模分析.在SD+N預(yù)處理下, 選取|r|>0.471的4 100~7 500 cm-1波段用于L-谷氨酸、L-蘇氨酸、L-丙氨酸和L-異亮氨酸建模分析, 選取9 050~9 150 cm-1波段用于建立L-亮氨酸光譜預(yù)測(cè)模型.在SD+SG光譜預(yù)處理下, 選取6 000~7 000 cm-1波段用于L-谷氨酸、L-蘇氨酸、L-丙氨酸和L-異亮氨酸建模分析.在MSC光譜處理下, 選取4 600~7 500 cm-1和9 000~10 000 cm-1波段用于L-谷氨酸、L-蘇氨酸、L-丙氨酸和L-異亮氨酸建模分析.與SD+SG光譜預(yù)處理結(jié)果相同, 未選出適于L-亮氨酸建模所用的波段.在SNV預(yù)處理下, 選取4 600~7 500 cm-1和9 000~10 000 cm-1波段用于L-蘇氨酸、L-異亮氨酸和L-谷氨酸建模分析, 分別選取4 600~7 200 cm-1和5 500~7 050 cm-1波段用于L-丙氨酸和L-亮氨酸建模分析.
圖3 不同光譜預(yù)處理下光譜吸收率與各產(chǎn)物真實(shí)值的相關(guān)系數(shù)
選取5 400~6 300 cm-1,7 300~10 000 cm-1與(5 400~6 300)cm-1+(7 300~10 000)cm-1三個(gè)波段和7種光譜預(yù)處理方法進(jìn)行組合, 用PLS交叉驗(yàn)證方法建立L-異亮氨酸發(fā)酵過(guò)程主副產(chǎn)物的透射掃描光譜校正模型.根據(jù)7種光譜預(yù)處理和對(duì)應(yīng)處理下的光譜吸收率和各成分真實(shí)值的相關(guān)性, 選取最佳波長(zhǎng)范圍, 結(jié)合PLS交叉驗(yàn)證方法建立主副產(chǎn)物反射光譜校正模型.透射掃描和反射掃描下發(fā)酵液樣品中各成分最優(yōu)模型參數(shù)分別列于表1和表2, 其中RMSEC為預(yù)測(cè)集均方根誤差.
由表1可見(jiàn), 5 400~6 300 cm-1和7 300~10 000 cm-1是5種氨基酸的最佳波段,L-谷氨酸、L-蘇氨酸和L-異亮氨酸的交互驗(yàn)證均方差(RMSECV)值分別為0.627,0.299,2.090, 校正集相關(guān)系數(shù)(Rc)均大于0.92, 相對(duì)分析誤差(RPD)均大于3, 表明透射掃描模型可滿足上述3種氨基酸精度檢測(cè)的要求.L-丙氨酸的RMSECV值為1.021, RPD值為2.9(<3), 表明近紅外光譜液體透射掃描丙氨酸模型基本達(dá)到檢測(cè)要求, 但檢測(cè)精度較低.L-亮氨酸的Rc值為0.649, RPD值為1.6(<2.5), 表明L-亮氨酸透射掃描光譜模型不能用于L-亮氨酸檢測(cè).
表1 透射掃描下發(fā)酵液樣品中各成分模型參數(shù)
表2 反射掃描下發(fā)酵液樣品中各成分模型參數(shù)
由表2可見(jiàn),L-谷氨酸、L-異亮氨酸、L-蘇氨酸和L-丙氨酸的懸濁液掃描光譜最優(yōu)模型的Rc值均大于0.98,L-亮氨酸的Rc值大于0.96, 均高于液體透射掃描的Rc值(0.93), 且RPD值均增大, 大于5.0, 因此表明反射掃描模型可提高L-谷氨酸、L-異亮氨酸、L-蘇氨酸和L-丙氨酸等4種成分的模型精度, 并可用于L-亮氨酸檢測(cè).
為防止校正模型出現(xiàn)過(guò)擬合現(xiàn)象, 利用剩余的35個(gè)發(fā)酵液樣品作為外部驗(yàn)證材料, 分別對(duì)透射光譜和反射光譜校正模型進(jìn)行驗(yàn)證, 進(jìn)一步確保光譜預(yù)測(cè)模型的準(zhǔn)確性和可靠性.用相關(guān)分析法得到兩種光譜采集下的L-異亮氨酸、L-丙氨酸、L-谷氨酸、L-蘇氨酸和L-亮氨酸質(zhì)量濃度真實(shí)值和模型預(yù)測(cè)值間的相關(guān)關(guān)系, 分別如圖4和圖5所示, 光譜預(yù)測(cè)模型外部驗(yàn)證結(jié)果分別列于表3和表4.
表3 透射掃描下各成分模型外部檢驗(yàn)結(jié)果
表4 反射掃描下各成分模型外部檢驗(yàn)結(jié)果
由表3和表4可見(jiàn), 用光譜校正模型預(yù)測(cè)35個(gè)發(fā)酵液樣品的濃度, 在去除異常檢測(cè)樣品和異常光譜樣品后, 外部檢驗(yàn)結(jié)果和校正模型參數(shù)基本一致.采用透射掃描方式時(shí), 發(fā)酵液中主副產(chǎn)物的光譜模型僅L-蘇氨酸和L-異亮氨酸的RPD值大于3.0,L-谷氨酸和L-丙氨酸的RPD值為2.5~3.0, 與反射光譜的預(yù)測(cè)相關(guān)系數(shù)相差較大, 其檢測(cè)精度較低;L-亮氨酸的RPD值小于2.5, 表明無(wú)預(yù)測(cè)能力.反射掃描下發(fā)酵液中主副產(chǎn)物的光譜模型預(yù)測(cè)集均方根誤差值均小于液體透射掃描, 預(yù)測(cè)集相關(guān)系數(shù)(Rp)均大于0.98, 相對(duì)分析誤差均大于3.0, 因此反射光譜優(yōu)于透射光譜模型的預(yù)測(cè)能力.
圖5 透射掃描下驗(yàn)證集中各成分真實(shí)值與預(yù)測(cè)值的散點(diǎn)圖
由圖4和圖5可見(jiàn), 光譜的反射采集優(yōu)于透射采集方式, 這可能是由采集的光譜信息量不同所致.在發(fā)酵液中含有大量菌體和懸濁顆粒, 當(dāng)用透射光譜采集方式時(shí), 大量的近紅外光被懸濁顆粒和菌體吸收或反射, 僅少量近紅外光穿過(guò), 導(dǎo)致接收器接收的光譜信息大量失真, 使其光譜圖較雜亂, 有效光譜信息較少.在建模過(guò)程中僅選取5 400~6 300 cm-1和7 300~10 000 cm-1波段用于建模, 因而無(wú)法保證發(fā)酵液中各成分的建模需求.當(dāng)用反射光譜采集方式時(shí), 在0號(hào)密封袋中加入樣品, 緊貼光源, 近紅外光射入樣品中, 雖有大量的近紅外光被發(fā)酵液中懸浮顆粒和菌體吸收、 反射, 但反射大多為漫反射, 方向不一, 僅較少部分的光可反射到接收器, 由于接收器接收的信息大多為首先接觸發(fā)酵液液體表面反射的光譜, 盡管光譜攜帶信息較少, 但大多為有效信息, 因此形成的光譜圖較平滑, 僅需在光譜預(yù)處理過(guò)程中將信息放大, 即可滿足發(fā)酵液各成分建模的信息需要.
綜上所述, 本文通過(guò)對(duì)L-異亮氨酸發(fā)酵過(guò)程中的發(fā)酵液進(jìn)行采集和近紅外光譜掃描和分析, 確定了最佳光譜信息采集方式、 光譜預(yù)處理方法、 光譜波長(zhǎng)范圍及模型因子數(shù), 建立了L-異亮氨酸發(fā)酵過(guò)程中主副產(chǎn)物最佳透射光譜和反射光譜預(yù)測(cè)模型.結(jié)果表明: 用反射優(yōu)于透射采集得到發(fā)酵液中各成分的近紅外光譜模型, 其L-異亮氨酸、L-丙氨酸、L-谷氨酸、L-亮氨酸和L-蘇氨酸的Rc值分別為0.987,0.981,0.986,0.968,0.992;RMSECV值分別為1.760,0.462,0.430,0.259,0.199;RPD值分別為7.8,6.8,6.3,5.0,6.4; 預(yù)測(cè)值和測(cè)量值具有極顯著的相關(guān)性,L-異亮氨酸、L-丙氨酸、L-谷氨酸、L-亮氨酸和L-蘇氨酸的預(yù)測(cè)集相關(guān)系數(shù)分別為0.998,0.981,0.996,0.980,0.992, RMSEC值分別為1.19,0.282,0.219,0.185,0.124, 較透射光譜相應(yīng)的RMSEC值大幅度減少, 即建立的預(yù)測(cè)模型具有較高的精度及較好的預(yù)測(cè)能力, 可為L(zhǎng)-異亮氨酸及其他氨基酸發(fā)酵過(guò)程中氨基酸質(zhì)量濃度的實(shí)時(shí)監(jiān)控及優(yōu)化發(fā)酵過(guò)程提供理論和實(shí)踐依據(jù).
吉林大學(xué)學(xué)報(bào)(理學(xué)版)2020年1期