盧萬鴻,李 鵬,王楚彪,林 彥,羅建中
國家林業(yè)和草原局桉樹研究開發(fā)中心,廣東 湛江 524022
研究桉樹(桉屬Eucalyptus、傘房屬Corymbia和杯果木屬Angophora)控制授粉后目標性狀的基因作用方式,有助于分析親本組合時的基因重組規(guī)律,為開發(fā)優(yōu)良雜交組合的親本選配提供理論支撐。常規(guī)的數(shù)量標記分析精度往往不高[1-2],而分子生物學(xué)方法[3-4]又需要強的專業(yè)知識,且程序繁復(fù),很難滿足林木育種改良研究中對大量群體材料的快速分析。
化學(xué)計量學(xué)和光譜學(xué)的發(fā)展促進了近紅外光譜(near infrared spectroscopy, NIRs)用于植物來源分類及其物質(zhì)成分快速預(yù)測研究的繁榮。研究人員采集了傘房屬(Corymbia)桉樹純種及其雜交種葉片的NIRs信息,建立的傘房屬桉樹NIRs模型的判別準確率為76%-90%[5]。采用人為混合松樹(Pinus)松針模擬雜交種,建立了純種松樹的NIRs判別模型,其判別準確率也達到了90%以上[6]。傘房屬桉樹雜交子代與其親本萜烯含量的差異非常小,但NIRs對這種極微小的差異反映很敏感,能檢測到常規(guī)方法檢測不到的微小差異[7]。關(guān)于玉米自交系遺傳距離與其NIRs光譜距離間關(guān)系的研究顯示,其光譜距離與其遺傳距離間的相關(guān)性超過0.9,表明NIRs可以反映玉米自交系間的遺傳關(guān)系。Diepeveen等的研究更具體定位了影響NIRs特征的含有遺傳信息的小麥染色體片段[8]。
不同來源的物種在特定條件下內(nèi)在的遺傳物質(zhì)差異從根本上決定了其組織成分的差異,這是NIRs用于物種成分預(yù)測和判別分析的主要依據(jù)[9-11]。本研究以桉樹控制授粉材料為對象,分析桉樹葉片NIRs與其遺傳基礎(chǔ)間的關(guān)系,并用簇類獨立軟模式(soft independent modeling of class analog, SIMCA)和偏最小二乘判別分析(partial least squares discrimination analysis, PLS-DA)兩種判別分析方法進行桉樹雜交種及其親本的分類判別,探索NIRs用于桉樹雜交種與其親本判別的可行性及準確性。
試驗材料包括粗皮桉(E.pellita)、尾葉桉(E.urophylla)、細葉桉(E.tereticonis)3個純種及其5個雜交種,雜交種分別為3個親本樹種間的雜交F1代,外加一個目前商用的桉樹無性系DH3229(見表1)。從田間試驗林中采集各基因型的葉片用于NIRs的掃描。
表1 測試桉樹雜交組合及其親本信息Table 1 The details of the hybrids and their parents of eucalypt
手持式近紅外儀Phazir Rx (1624) (Polychromix, Thermo Scientific, USA)用于NIRs數(shù)據(jù)的采集。Phazir Rx (1624)波長范圍為1 600~2 400 nm,光學(xué)分辨率12 nm,內(nèi)置基于MEMS技術(shù)的可編程微衍射光柵,自帶背景校正片。
1.3.1 光譜采集
每種基因型分別選取10個單株,采集樹冠中上部的新鮮健康葉片。每單株選10片完全生理成熟的健康葉片,用Phazir Rx(1624)掃描其正面光譜共5次,以均值代表單個葉片的NIRs信息[10]。每種基因型獲得10條NIRs。
1.3.2 NIRs數(shù)據(jù)的預(yù)處理和分析
對原始NIRs進行二階多項式S.G一階導(dǎo)數(shù)預(yù)處理[10-11]。通過主成分分析直觀判斷NIRs對桉樹不同基因型的分類效果。建立簇類獨立軟模式(SIMCA)和偏最小二乘判別分析(PLS-DA)兩種有監(jiān)督方式的判別模型檢驗NIRs的樹種判別效果。建立PLS-DA模型時,分別對3個親本樹種人為賦值,即1,2和3[12]。數(shù)據(jù)預(yù)處理和分析過程均在The Unscrambler x10.4(CAMO, Oslo, Norway)中實現(xiàn),主成分分析(principal component analysis, PCA)和PLS過程均采用全交互式內(nèi)部交叉驗證算法。
NIRs主要是物質(zhì)有機分子的倍頻與合頻吸收光譜,不僅能得到物質(zhì)的分子結(jié)構(gòu)、組成和狀態(tài)信息,也能反映密度、粒度、高分子物的聚合度及纖維形態(tài)等物質(zhì)的物理狀態(tài)信息[10]。圖1是6個桉樹雜交組合原始NIRs的平均值曲線,通過NIRs原始光譜的直觀變化很難發(fā)現(xiàn)其特征峰,6種組合的NIRs信息在全波段變化趨勢基本一致,且存在明顯的重疊。在波長1 860 nm之前和波長1 940 nm之后,6個雜交組合的NIRs反射率在一定程度上存在差異,但不足以據(jù)此進行樹種判別。
圖1 桉樹雜交種的原始NIRs反射率
PCA可以簡化多維數(shù)據(jù)中大量重疊的信息,因子得分可以反映受試樣本間的距離關(guān)系。圖2是6個桉樹雜交種葉片NIRs數(shù)據(jù)的PCA因子得分圖。雜交種EC126,EC148和EC149能清晰地聚類[圖2上],U6, K50和DH3229也能清晰地分開[圖2下],表明NIRs能夠區(qū)分不同的基因型,可對遺傳差異做出響應(yīng)。
圖2 桉樹雜交子代的PCA因子得分圖
將6個雜交種同時進行PCA分析時,各雜交種存在一定程度的重疊(未展示),這主要與其親本的遺傳親緣關(guān)系有很大的關(guān)系。另外,因子得分的聚集度也反映了雜交種遺傳變異的大小,聚集度高的變異小,反之亦然,如圖2中EC126,K50和EC149的變異可能較大,EC148和U6的變異則相對較小。
圖3是3個親本NIRs數(shù)據(jù)PCA的因子得分圖。從圖中可以看出,粗皮桉相對較為分散,細葉桉聚集度最高,尾葉桉聚集度居中。從分類的聚集度來看,粗皮桉的變異最大,細葉桉的變異則最小??傮w來看,因子得分圖能夠?qū)?個親本樹種清晰地分開,真實地反映了不同樹種內(nèi)在的遺傳差異。
用3個親本樣本建立PCA模型,設(shè)定臨界概率水平為0.05。圖4為每組親本PCA模型對雜交子代進行SIMCA判別的結(jié)果,結(jié)果以雜交種樣本與親本PCA模型中心間的距離表示。圖4顯示,6個雜交種均可以與其親本清晰地分開,其中雜交種K50與其母本粗皮桉的距離相對較近,EC126與其父本粗皮桉間的距離較近,EC148與其母本粗皮桉間的距離非常接近,EC149距其父本尾葉桉較近,U6基本居于其父本尾葉桉和母本細葉桉之間,商用雜交種DH3229基本居于尾葉桉和粗皮桉中間(未采集到巨桉樣本)。SIMCA模式判別中的樣本距離更直觀地反映了雜交種與其親本樣本間的遺傳相似性(遺傳距離)。
圖3 桉樹雜交親本的PCA因子得分圖
圖4 SIMCA分析中6個桉樹雜交種樣本到親本模型中心距離的Cooman圖
圖5展示了5個組合的桉樹雜交親本PLS模型對親本和雜交子代樣本的預(yù)測結(jié)果。結(jié)果顯示,每個親本的預(yù)測值都集中在各自響應(yīng)變量周圍(1,2和3),且集中度很高。雜交種K50的預(yù)測值為1.5~1.7,EC126的預(yù)測值為1.1~1.2,EC148的預(yù)測值為2.1~2.3,EC149的預(yù)測值為1.2~1.5,U6的預(yù)測值為1.5~1.8。預(yù)測值顯示,EC126和EC148的預(yù)測值高度重疊,EC149預(yù)測值的變異幅度最大,K50和U6預(yù)測值的變幅居中。PLS-DA判別可以清晰地將不同基因型區(qū)分開來,不過,任何判別方法都需要專業(yè)知識來配合解讀分析結(jié)果。
圖5 PLS-DA模型對桉樹親本與其雜交種樣本響應(yīng)變量的預(yù)測
圖6是PLS-DA判別分析時所建模型第一個主因子的載荷,第二和第三個主因子的載荷分布與第一個相似,強度略有差異,本文沒有展示。圖中小方塊指此處波段所對應(yīng)的有機化合物的NIRs特征峰。1 890 nm處為化學(xué)鍵O—H和C—O的伸縮振動(stretching)吸收峰,對應(yīng)的化合物主要為纖維素。1 980~2 000 nm處為O—H鍵伸縮振動、水分子中O—H鍵變形(deformation)吸收峰[13-14]。
采用SIMCA和PLS-DA兩種有監(jiān)督的判別模型,有效地解決了桉樹葉片NIRs信息復(fù)雜、重疊的問題。兩種模式的判別效果均顯示,NIRs可以將桉樹雜交種、親本、雜交種與其親本清晰地區(qū)分。
結(jié)果表明NIRs真實地反映了不同基因型的遺傳信息。其次,NIRs可以反映桉樹的遺傳變異程度,即桉樹雜交F1代來自親本的加性遺傳效應(yīng)的大小。所以,NIRs能夠用于桉樹樹種的區(qū)分,也可根據(jù)PCA聚類離散度或PLS的預(yù)測響應(yīng)變量分析基因重組過程中的加性遺傳效應(yīng)。
圖6 PLS-DA判別模型第一主因子不同波段的載荷
The small square ◇ indicates NIRs characteristic peaks of the chemical bands