林萍 高明清 陳永明
摘要:提出一種利用近紅外光譜技術(shù)快速鑒別轉(zhuǎn)Bt基因水稻種子及其親本的新方法,采用近紅外光譜儀獲取轉(zhuǎn)Bt基因的水稻種子克螟稻1號、克螟稻2號及其親本秀水11的反射光譜特征曲線,采用ISOMAP流形降維法對采集到的光譜數(shù)據(jù)進(jìn)行非線性降維,提取45個特征波長,用于建模輸入,利用最小二乘支持向量機(jī)方法建立光譜反射率值與類別值之間的預(yù)測模型。3種水稻種子樣本數(shù)均為350個,共計1 050個樣本,將其分成900個訓(xùn)練集樣本和150個預(yù)測集樣本,預(yù)測準(zhǔn)確率達(dá)94.67%。說明本研究提出的方法對于轉(zhuǎn)Bt基因水稻種子及其親本具有很好的分類和鑒別能力,且檢測過程比傳統(tǒng)理化檢測手段簡單,操作性強(qiáng)。該研究為今后轉(zhuǎn)基因水稻種子及其親本的快速無損檢測提供了新的方法。
關(guān)鍵詞:轉(zhuǎn)基因水稻;ISOMAP流形降維;最小二乘支持向量機(jī);近紅外光譜技術(shù)
中圖分類號: O657.33;S127 ?文獻(xiàn)標(biāo)志碼: A ?文章編號:1002-1302(2019)13-0072-03
隨著轉(zhuǎn)基因技術(shù)在農(nóng)業(yè)生產(chǎn)中的廣泛應(yīng)用,它在提高農(nóng)產(chǎn)品品質(zhì)、增強(qiáng)農(nóng)作物的抗逆性和抗蟲等方面成績顯著,越來越多的轉(zhuǎn)基因農(nóng)產(chǎn)品開始出現(xiàn)在人們的餐桌上。中國是產(chǎn)糧大國,水稻產(chǎn)量居全球首位,但有75%的水稻受水稻螟蟲蟲害,隨著轉(zhuǎn)基因技術(shù)的迅猛發(fā)展,研究人員發(fā)現(xiàn),種植Bt水稻可以減少80%的殺蟲劑用量,并且給農(nóng)戶帶來40億美元/年的收益[1-2]。目前,轉(zhuǎn)基因農(nóng)產(chǎn)品檢測技術(shù)也逐漸受到研究人員關(guān)注,綜合各國現(xiàn)有的轉(zhuǎn)基因產(chǎn)品檢測方法,主要有DNA檢測法和蛋白質(zhì)檢測法兩大類[3],常用的包括核氣相質(zhì)譜法[4]、酸印記法(southern blot)[5]、酶聯(lián)免疫吸附法、聚合酶鏈?zhǔn)椒磻?yīng)、蛋白質(zhì)印記法[6]等,各檢測方法的特點如表1所示。這些化學(xué)分析法由于耗時長、操作復(fù)雜、易造成環(huán)境污染,難以滿足實際應(yīng)用中在線快速準(zhǔn)確鑒別的需要。因此,尋求一種高效、快速、準(zhǔn)確的檢測方法對轉(zhuǎn)基因產(chǎn)品的鑒定識別顯得尤為重要。
目前,近紅外光譜分析技術(shù)已經(jīng)開始應(yīng)用于轉(zhuǎn)基因農(nóng)產(chǎn)品的檢測應(yīng)用研究中。芮玉奎等利用近紅外光譜分析技術(shù)分析了3 500~12 000 cm-1區(qū)間的波譜信息,對轉(zhuǎn)基因玉米及其親本進(jìn)行了識別分析,得到了很高的識別精度[7]。Hu等利用近紅外透射光譜數(shù)據(jù)建立了轉(zhuǎn)基因白楊樹的識別模型,結(jié)果證明該方法可以有效地識別轉(zhuǎn)基因樹木[8]。愛荷華州立大學(xué)谷物品質(zhì)研究室利用傳統(tǒng)種植大豆和Roundup Ready大豆的近紅外光譜在910~1 000 nm波長附近的1個偏移,成功地將傳統(tǒng)種植大豆和抗草甘膦大豆有效地區(qū)分開來[9]。翟亞鋒等利用近紅外光譜分析技術(shù)對轉(zhuǎn)基因小麥種子進(jìn)行判別分析,得到了滿意的效果[10]。朱文超等利用近紅外光譜實現(xiàn)了對轉(zhuǎn)基因水稻及其親本葉片的判別[11],但針對轉(zhuǎn)基因水稻種子方面的報道較少,且在國內(nèi)外文獻(xiàn)中鮮有對轉(zhuǎn)Bt基因水稻種子及其親本光的近紅外光譜特性進(jìn)行研究的報道。
本研究的目的是通過近紅外光譜分析技術(shù)結(jié)合現(xiàn)代化學(xué)計量學(xué)方法實現(xiàn)對轉(zhuǎn)Bt基因水稻種子克螟稻1號和克螟稻2號及其親本秀水11的快速無損檢測。
1 試驗與方法
1.1 儀器設(shè)備
試驗數(shù)據(jù)的獲取采用美國ASD(Analytical Spectral Device,Boulder,USA)公司的Handheld Field Spec光譜儀,光譜分辨率為0.002 μm,光源采用14.5 V鹵素?zé)簦杉到y(tǒng)原理如圖1所示。因為轉(zhuǎn)Bt基因的水稻是利用轉(zhuǎn)基因技術(shù)將蘇云金芽胞桿菌殺蟲蛋白基因作為外源基因?qū)胨精@得的,因此試驗采集1.000~2.650 μm中紅外波段的漫反射光譜總計共1 050個樣本,每個樣本光譜掃描次數(shù)設(shè)定為30次并取平均值。選取900個樣本作為建模集樣本進(jìn)行訓(xùn)練,剩余150個作為預(yù)測集樣本,分析軟件采用Matlab R2016a(The Math Works,USA)。
1.2 樣品與數(shù)據(jù)采集
樣本均來自浙江大學(xué)水稻生物學(xué)國家重點實驗室,依次做好標(biāo)記并放入保鮮袋中,置于0 ℃氣候箱中保存。共計 1 050 個樣本,其中轉(zhuǎn)Bt基因水稻克螟稻1號和克螟稻2號以及親本秀水11樣本分別為350個。光譜數(shù)據(jù)采集和分析試驗于2016年8月在原農(nóng)業(yè)部光譜檢測重點實驗室進(jìn)行,不同品種樣本的光譜采集采用交替進(jìn)行的方式,每個樣本采集數(shù)據(jù)30次作平均處理并保存,所有測量都在相同的條件下進(jìn)行,溫度28 ℃,相對濕度65%。
1.3 流形降維法
由于近紅外光譜主要是倍頻和合頻的吸收,光譜信息重疊嚴(yán)重,用光譜技術(shù)精確定量樣本的特征屬性首先須要從復(fù)雜的光譜信息中提取出有用信息。本研究利用降維技術(shù)將高光譜數(shù)據(jù)投影到低維空間中,從而更有利于發(fā)現(xiàn)數(shù)據(jù)集的聚類性質(zhì)[12]。目前常用的降維技術(shù)有主成分分析、多維尺度變換[13]等。這些方法多是基于線性降維技術(shù),難以有效表達(dá)非線性高維數(shù)據(jù)結(jié)構(gòu)特征,它們構(gòu)造的歐式距離矩陣不能有效地將流形樣本點間的非線性關(guān)系反映出來,無法求解高維非線性數(shù)據(jù)集的本質(zhì)維數(shù)。等距映射(ISOMAP)[14]是一種新的非線性降維技術(shù),該方法采用標(biāo)準(zhǔn)多維尺度變換算法獲得樣本間測地距離不變的低維流型,它從樣本局部空間出發(fā),在保持?jǐn)?shù)據(jù)點的內(nèi)在幾何性質(zhì)(兩點間的測地距離)不變的基礎(chǔ)上,使用最近鄰圖中的最短路徑作為測地線距離,并作為多維尺度變換地輸入,進(jìn)而發(fā)現(xiàn)嵌入在高維空間的低維坐標(biāo)。
1.4 最小二乘支持向量機(jī)
最小二乘支持向量機(jī)算法是在經(jīng)典支持向量機(jī)算法的基礎(chǔ)上改進(jìn)得到的,與傳統(tǒng)支持向量機(jī)不同的是最小二乘支持向量機(jī)算法只要求解一個線性方程組,相比于傳統(tǒng)支持向量機(jī)(SVM)算法須要求解非線性方程組而言要簡單得多[15]。本研究采用徑向基(RBF)核函數(shù)作為非線性函數(shù),其參數(shù)的選擇采用格點搜索法和留一交叉驗證法對校正集樣本進(jìn)行訓(xùn)練,得到最佳參數(shù)γ和δ2值。γ值對改進(jìn)最小二乘支持向量機(jī)模型起至關(guān)重要的作用,決定結(jié)構(gòu)風(fēng)險最小化(SRM)和經(jīng)驗風(fēng)險最小化(ERM)之間的平衡。δ2直接影響初始的特征值和特征向量,用于控制函數(shù)回歸誤差,δ2值過小,易出現(xiàn)對樣本數(shù)據(jù)的過學(xué)習(xí)現(xiàn)象,反之則只出現(xiàn)欠學(xué)習(xí)現(xiàn)象。
2 試驗結(jié)果與分析
2.1 轉(zhuǎn)基因水稻種子及其親本的近紅外光譜圖
由于測量到的光譜在1 000~1 100 nm范圍內(nèi)存在較大的噪聲,因此選用1 100~2 500 nm波長范圍內(nèi)共計1 400個變量進(jìn)行分析。轉(zhuǎn)Bt基因的水稻種子及其親本的近紅外吸收光譜如圖2所示,圖中橫坐標(biāo)為波長,縱坐標(biāo)為反射率。從圖2可以看出,3種水稻種子的光譜曲線趨勢非常相似,只從光譜特征上難以區(qū)分不同種類的轉(zhuǎn)基因水稻種子。因此,須要運(yùn)用相應(yīng)的化學(xué)計量學(xué)建模方法對光譜數(shù)據(jù)進(jìn)行處理。
2.2 非線性特性檢測
本研究采用2種定量的數(shù)值統(tǒng)計方法(Durbin-Watson測試法[16-17]、Run測試法[18])來檢查光譜數(shù)據(jù)的非線性程度。經(jīng)計算,Durbin-Watson測試值d為1.548,大于臨界值 dH=1.40,表明模型殘差不相關(guān)存在非線性結(jié)構(gòu),Run測試法的檢驗值Z為2.316,大于臨界值1.96。試驗結(jié)果表明,采集到的光譜數(shù)據(jù)存在顯著的非線性結(jié)構(gòu)。此外,增強(qiáng)偏殘差圖分析法[19]也用來確定采集到的光譜數(shù)據(jù)中是否存在非線性結(jié)構(gòu)。圖3為第1主成分(PC1)與前6個主成分殘差多項式擬合的結(jié)果,由此可以看出數(shù)據(jù)集存在顯著的非線性結(jié)構(gòu)。
2.3 線性與非線性降維方法比較
圖4是分別采用線性降維方法PCA、多維尺度變換以及非線性降維方法ISOMAP提取的特征波長,結(jié)合最小二乘支持向量機(jī)回歸分析方法得到的建模集樣本的預(yù)測精度與本真維數(shù)之間的關(guān)系曲線。使用ISOMAP算法進(jìn)行降維時有2個參數(shù)須要調(diào)整,分別是鄰域參數(shù)k和樣本本真維數(shù)d。在不同參數(shù)組合下,基于ISOMAP的最小二乘支持向量機(jī)模型得到不同的預(yù)測效果。本研究參數(shù)優(yōu)化采用網(wǎng)格搜索法和留一法驗證法,對光譜數(shù)據(jù)建模集分別選取k∈[5,20]、d∈[5,100]作ISOMAP降維,再用最小二乘支持向量機(jī)進(jìn)行回歸建立轉(zhuǎn)基因水稻種子及其親本的校正模型。從圖4可以看出,利用非線性流形降維方法ISOMAP提取的特征波長進(jìn)行回歸預(yù)測得到的精度比線性降維方法PCA和多維尺度變換高。采用ISOMAP非線性流形降維方法預(yù)測精度隨著維數(shù)的增加逐漸提高,當(dāng)鄰域參數(shù)k=5、本真維數(shù)d=45時,預(yù)測精度達(dá)到最高,為94.67%。2種線性降維方法PCA和多維尺度變換提取的特征波長進(jìn)行回歸預(yù)測的效果相差不大,最高預(yù)測精度分別為75.31%和78.62%,對應(yīng)的特征波長維數(shù)分別為40和60。通過比較分析可得,非線性降維方法能夠更好地發(fā)現(xiàn)數(shù)據(jù)集的聚類性質(zhì),揭示實際數(shù)據(jù)的非線性結(jié)構(gòu)。
2.4 最小二乘支持向量機(jī)建模及預(yù)測
本研究采用了二步格點搜索法對參數(shù)γ和δ2進(jìn)行優(yōu)化,參數(shù)γ的選擇范圍設(shè)定為2-1~210,δ設(shè)定為2~215。尋優(yōu)過程由粗選和精選2個步驟組成:粗選搜索步長較大,最優(yōu)參數(shù)范圍由誤差等高線確立;精選在粗選基礎(chǔ)上,采用較小步長進(jìn)行搜索,最終確定最優(yōu)模型參數(shù),尋優(yōu)結(jié)果得到最優(yōu)的γ和δ2分別為43.598和11.368。為了評估最小二乘支持向量機(jī)模型鑒別轉(zhuǎn)基因水稻種子及其親本的魯棒性,計算了預(yù)測結(jié)果的混淆矩陣和精度-召回曲線。從圖5-a可以看出,最小
二乘支持向量機(jī)回歸模型對克螟稻2號和秀水11的分類精度達(dá)到了100%,所有的樣本都被正確判別出??嗣?號有16%被誤判為秀水11。圖5-b是精度-召回曲線,平均準(zhǔn)確率是計算所有精度-召回曲線上的單點局部值的平均準(zhǔn)確度,考慮了樣本總體分類效果,計算得到MAP指數(shù)為 0.97。分類結(jié)果說明近紅外光譜技術(shù)能夠?qū)崿F(xiàn)轉(zhuǎn)基因水稻種子及其親本的無損、快速檢測。
3 結(jié)論
利用近紅外光譜技術(shù)對轉(zhuǎn)基因水稻種子及其親本進(jìn)行了判別研究。根據(jù)Durbin-Watson測試法和Run測試法檢查光譜數(shù)據(jù)的非線性程度,檢測結(jié)果表明,光譜數(shù)據(jù)中存在非線性結(jié)構(gòu), 因此須要進(jìn)一步采用非線性流形降維ISOMAP法對近紅外光譜數(shù)據(jù)進(jìn)行降維,來獲取有效光譜信息,將ISOMAP提取的本真光譜結(jié)構(gòu)作為最小二乘支持向量機(jī)的輸入實現(xiàn)近紅外光譜的非線性建模,達(dá)到總體識別精度為 94.67%,平均準(zhǔn)確率指數(shù)為0.97,提出的檢測方法比常規(guī)的化學(xué)方法簡單、操作性強(qiáng)。本研究為流形學(xué)習(xí)算法引入近紅外光譜建模提供了一種有益嘗試,為今后轉(zhuǎn)基因水稻種子的快速無損檢測提供了新的方法。
參考文獻(xiàn):
[1]俞 超,張 吉,葉生晅,等. Bt轉(zhuǎn)基因水稻生理生化特性研究初報[J]. 江蘇農(nóng)業(yè)科學(xué),2008(4):31-33.
[2]劉 凱,楊亞軍,田俊策,等. 不同氮肥水平下轉(zhuǎn)Bt基因水稻對褐飛虱和白背飛虱生態(tài)適應(yīng)性的繼代影響[J]. 中國水稻科學(xué),2016,30(2):200-209.
[3]謝小波,舒慶堯. 用Envirologix Cry1Ab/Cry1Ac試劑盒快速測定轉(zhuǎn)基因水稻Bt殺蟲蛋白含量的研究[J]. 中國農(nóng)業(yè)科學(xué),2001,34(5):465-468.
[4]Fiehn O,Kopka J,Trethewey R N,et al. Identification of uncommon plant metabolites based on calculation of elemental compositions using gas chromatography and quadrupole mass spectrometry[J]. Analytical Chemistry,2000,72(15):3573-3580.
[5]Milcamps A,Rabe S,Cade R,et al. Validity assessment of the detection method of maize event Bt10 through investigation of its molecular structure[J]. Journal of Agricultural&Food Chemistry,2009,57(8):3156-3163.
[6]Margarit E,Reggiardo M I,Vallejos R H,et al. Detection of Bt transgenic maize in foodstuffs[J]. Food Research International,2006,39(2):250-255.
[7]芮玉奎,羅云波,黃昆侖,等. 近紅外光譜在轉(zhuǎn)基因玉米檢測識別中的應(yīng)用[J]. 光譜學(xué)與光譜分析,2005,25(10):1581-1583.
[8]Hu Z,Yeh T F,Chang H,et al. Elucidation of the structure of cellulolytic enzyme lignin[J]. Holzforschung,2006,50(4):1040-1397.
[9]Zhou P P,Zhou R,Zhao Y F,et al. Contamination assessment of dietary ethyl carbamate in wine[J]. Chinese Journal of Food Hygiene,2008,20(3):208-209.
[10]翟亞鋒,蘇 謙,鄔文錦,等. 基于仿生模式識別和近紅外光譜的轉(zhuǎn)基因小麥快速鑒別方法[J]. 光譜學(xué)與光譜分析,2010,30(4):924-928.
[11]朱文超,成 芳. 轉(zhuǎn)基因水稻及其親本葉片的可見/近紅外光譜分析[J]. 光譜學(xué)與光譜分析,2012,32(2):370-373.
[12]翁時鋒,張長水,張學(xué)工. 非線性降維在高維醫(yī)學(xué)數(shù)據(jù)處理中的應(yīng)用[J]. 清華大學(xué)學(xué)報(自然科學(xué)版),2004,44(4):485-488.
[13]吳曉婷,閆德勤. 數(shù)據(jù)降維方法分析與研究[J]. 計算機(jī)應(yīng)用研究,2009,26(8):2832-2835.
[14]汪洪橋,蔡艷寧,孫富春,等. 多尺度核方法的自適應(yīng)序列學(xué)習(xí)及應(yīng)用[J]. 模式識別與人工智能,2011,24(1):72-81.
[15]楊國強(qiáng),張淑娟,趙艷茹. 基于近紅外透射光譜的汾陽王酒快速鑒別[J]. 農(nóng)業(yè)機(jī)械學(xué)報,2013,44(增刊1):189-193.
[16]Capron X,Walczak B,Noord O D,et al. Selection and weighting of samples in multivariate regression model updating[J]. Chemometrics&Intelligent Laboratory Systems,2005,76(2):205-214.
[17]Kleinbaum D G,Kupper L L,Muller K E. Applied regression analysis and other multivariate models[J]. Technometrics,1978,31(1):117-118.
[18]Walczak B,Jouanrimbaud D,Massart D L,et al. Comparison of multivariate calibration techniques applied to experimental NIR data sets[J]. Applied Spectroscopy,2000,54(4):608.
[19]Kompany-Zareh M,Mirzaei S. Spectrophotometric resolution of ternary mixtures of pseudoephedrine hydrochloride,dextromethorphan hydrobromide,and sodium benzoate in syrups using wavelength selection by net analyte signals calculated with hybrid linear analysis[J]. Analytica Chimica Acta,2004,526(1):83-94.