郝明國 張 君 陳光輝 楊松楠 陳亮宇 袁 美 梁嘉寧韓 笑*
(1.吉林農(nóng)業(yè)大學農(nóng)學院,吉林 長春 130118;2.山東省花生研究所,山東 青島 266100)
花生是世界范圍內(nèi)廣泛栽培和利用的油料和經(jīng)濟作物,是重要的植物油脂和蛋白質(zhì)來源。我國擁有全世界最大的花生加工產(chǎn)業(yè),具有舉足輕重的地位。隨著中國花生產(chǎn)業(yè)的不斷壯大,花生的消費需求逐年遞增,為適應國際和國內(nèi)市場需求的變化,中國花生育種無論在育種技術還是育種目標方面都面臨著新的挑戰(zhàn)[1-3]。
目前,我國的花生育種工作正處于對相關性狀遺傳機理研究和產(chǎn)量、抗性、品質(zhì)等育種目標的提升階段[4]。優(yōu)良的花生品種對產(chǎn)量和品質(zhì)的改善均居重要地位。在國家標準GB4407.2-2008(現(xiàn)行)中,種子純度是用來判定種子優(yōu)劣的主要指標之一。做好種子純度檢驗工作是維護種子品質(zhì)、減少制種過程遺傳漂變、減緩品種經(jīng)濟性狀衰退、確保作物增產(chǎn)增收的重要前提及保障。
種子純度的鑒定方法由最初傳統(tǒng)的田間鑒定法逐步發(fā)展成利用蛋白質(zhì)多態(tài)性的蛋白質(zhì)電泳鑒定法,但是該技術穩(wěn)定性和準確性仍不能滿足更深入的研究。由于種子純度鑒定具有重要性和迫切性的特點,純度鑒定新方法在不斷突破和更新,隨著分子生物學實驗技術的發(fā)展,如PCR(Polymerase Chain Reaction)技術的出現(xiàn),品種鑒定進入了DNA 分子水平。以RFLP(Restricted Fragment Length Polymorphism)、RAPD(Rampid Amplification Polymorphism DNA)、AFLP(Amplified Fragment Length Polymorphism)、SSR(Simple Sequence Repeat)、SNP(Single Nucleotide Polymorphism)等為代表的分子標記技術成功應用于花生品種鑒定[5-9]。作為第三代分子標記,SNP標記被認為是最有前景的分子標記,具有高密度、高遺傳穩(wěn)定性和易實現(xiàn)計算機大規(guī)模、自動化分析等特點[10]。高通量測序是大量獲得SNP的主要方式,目前主流的二代測序技術正逐步過渡為三代測序技術。全基因組重測序法是檢測SNP最直接、最準確的方法,被認為是“金標準”[11]。基因芯片和靶向測序(分為多重PCR 和液相芯片兩條技術路線)等技術作為檢測SNP的不同發(fā)展方向各有優(yōu)勢,也為花生品種鑒定帶來了新機遇。
液相芯片(液相雜交捕獲測序),是利用堿基互補配對原理,將設計好的核酸探針與目標區(qū)域結合,富集目標區(qū)域DNA,在主流測序平臺進行高通量測序的一項技術。該技術可應用于不同植物,進行種質(zhì)資源鑒定、遺傳多樣性分析、全基因組關聯(lián)分析(Genome-wide Association Study,GWAS)、功能基因/QTL(Quantitative trait locus)定位、分子設計育種等相關研究[12-18]。目前尚未見液相芯片技術應用于花生品種純度鑒定方面的報道。本研究使用花生10K 液相芯片技術結合基于Illumina測序平臺的高通量測序,獲得目標區(qū)域SNP,使用R語言、PLINK、RMEGA-X等軟件分析SNP位點信息,分析了100份東北王花生品種的純度,并與傳統(tǒng)鑒定方法進行比較,以期為花生育種者提供新的品種鑒定思路和研究方法。
東北王、豫花9327等花生品種由吉林農(nóng)業(yè)大學提供,種植于長春市農(nóng)業(yè)農(nóng)村部大豆區(qū)域技術創(chuàng)新中心。
田間取100株花生樣品幼葉,使用植物基因組DNA提取試劑盒(DP305,北京天根生化有限公司)提取葉片DNA。超微量紫外分光光度計(QUAWELL Q5000)結合1%瓊脂糖電泳驗證DNA品質(zhì)?;ㄉ?0K液相芯片和高通量測序由北京伊魯生物科技有限公司(下文簡稱公司)完成。
公司交付壓縮后大小約95 Gb的壓縮clean data,430 Mb 的vcf(variant call format)文件以及SNP數(shù)據(jù)(大小4.74 Mb,格式為Microsoft Excel)。累計100萬個SNP位點信息絕大多數(shù)以二等位基因形式表示。為了獲得SNP 在花生參考基因組(Tifrunner.gnm1.KYV3)及染色體上的分布情況,用R(v4.0.4)加載R包Cmplot,繪制SNP分布圖。
隨機選擇7 個SNP 位點,在PeanutBase網(wǎng)站(http://www.peanutbase.org)下載位點前后各300 bp的序列信息。用primer premier5.0設計7對引物(編號H1~H7,表1),委托吉林省庫美生物科技有限公司進行引物合成。以東北王和豫花9327的DNA 為模板,進行PCR 擴增,PCR擴增產(chǎn)物用1%瓊脂糖電泳檢測。挑選擴增效果好的兩對引物,隨機選擇16 份花生樣本進行PCR,PCR產(chǎn)物測序委托庫美公司完成。
表1 引物信息Table 1 Primer information
對PCR產(chǎn)物測序結果,使用Chromas(v2.6.5)查看測序品質(zhì)。所選取序列依次導入MEGA-X(v10.2.2)進行多序列比對找到SNP位點,與公司交付的SNP數(shù)據(jù)對比,以驗證SNP位點的準確性。
SNP 數(shù)據(jù)需要品質(zhì)控制(Quality Control,QC)才能后續(xù)分析。本研究使用PLINK(v1.90)進行品質(zhì)控制操作。PLINK 是一個免費、開源的全基因組關聯(lián)分析工具集,版本1.9以上可用于非模式生物的基因組數(shù)據(jù)分析[19]。品質(zhì)控制后的SNP數(shù)據(jù)便可借助PLINK 進行數(shù)據(jù)格式轉換、主成分分析、計算IBS(Identical By State)并通過R 包進行多維標度(MDS)可視化、親緣關系(Identity By Descent,IBD)檢測等相關操作。
將PLINK轉換的vcf格式文件使用vcf2phylipmaster(v2.4)轉換成phy格式文件。然后用MEGAX將phy格式文件轉換成meg格式文件,用MEGAX打開meg格式文件,進行聚類分析[20]。
田間調(diào)查100株花生的主莖高、側枝長、分枝數(shù)等性狀。收獲后進行考種,包括單株莢果質(zhì)量、莢果網(wǎng)紋深淺、籽仁形狀及種皮顏色等性狀?;ㄉ焚|(zhì)包括油酸、亞油酸、蛋白質(zhì)和含油量等指標使用傅里葉變換紅外光譜儀測定(儀器型號:MPA;測試地點為山東省花生研究所)。
基于SNP數(shù)據(jù)繪制SNP在花生染色體上的分布圖(圖1),結果顯示分布在各組染色體上的SNP數(shù)量平均約為500個,表現(xiàn)為染色體兩端密集,中間稀疏的特點。SNP 標記數(shù)量眾多,在目標區(qū)域呈現(xiàn)高密度廣泛平均分布的特點,是一種理想的分子標記。
圖1 SNP在染色體上的數(shù)量及分布情況(滑動窗口大小4 Mb)Fig.1 The number of SNPs on chromosome within 4 Mb window size
圖2可知,在7對引物中,引物H2、H3效果較好。使用H2、H3對16份樣本進行PCR擴增產(chǎn)物測序,得到理想的測序峰圖(圖3)。MEGA-X多序列比對的部分結果顯示,設計驗證的SNP位點在無星號(*)位置上。將此處堿基序列和公司交付的SNP數(shù)據(jù)進行比較,兩者完全一致,證明了液相芯片技術基因分型結果的高準確性(圖4)。
圖2 引物篩選Fig.2 Screening of primers
圖3 PCR 產(chǎn)物的測序品質(zhì)Fig.3 Sequence quality of PCR products
圖4 多序列對比部分結果Fig.4 Alignment of multiple sequences
PLINK 品質(zhì)控制過程中刪除了8個樣本和2366個SNP數(shù)據(jù),剩余7634個SNP和92個樣本通過過濾器和品質(zhì)控制,數(shù)據(jù)用于進一步分析。使用PLINK進行主成分分析(Principal components analysis,以下簡稱PCA),分析結果用R包scatterplot3d(v0.3-41)繪圖展示(圖5)。從三維視圖來看,91份東北王樣品很容易與豫花9327區(qū)分。育種者可通過樣本在三維空間的距離直觀地判定品種純度。
圖5 主成分分析Fig.5 Principal component analysis
多維標度法(Multidimensional Scaling,MDS)是一種經(jīng)典的數(shù)據(jù)降維方法。它要求原始空間中樣本之間的距離在低維空間中保持,即當僅能獲得樣本之間的相似性矩陣時,如何由此來重構它們的歐幾里德坐標。使用PLINK 計算IBS距離矩陣,通過R語言包實現(xiàn)MDS可視化。這種方法計算樣本中任何一對樣本之間共享等位基因的全基因組平均比例,從而為每個樣本生成遺傳變異的定量指數(shù)(成分),以探索樣本在基因層面上的相似程度[21]。多維標度法對SNP數(shù)據(jù)分析顯示,91份東北王樣品和豫花9327分布在二維平面的兩個不同位置,東北王樣品的純度為98.9%,說明液體芯片技術可以高效用于品種純度鑒定(圖6)。PCA 和MDS兩種方法的算法不同,但其本質(zhì)都是通過數(shù)據(jù)降維,實現(xiàn)數(shù)據(jù)可視化。遺傳學中描述等位基因的同源關系時,會有狀態(tài)同源(IBS)和血緣同源(IBD)兩個概念[22]。使用PLINK 進行樣本間的親緣關系(IBD)估計,將任何1個樣本與其他91個樣本進行比較,根據(jù)排列組合公式,共有C(92,2)=4186種組合。用記事本打開PLINK 生成的*.genome格式文件,除去表頭外,共有4186行,查看RT(Relationship type inferred from .fam/.ped file)列,根據(jù)RT列的數(shù)值(表2)可判斷個體間的親緣關系。若樣本包含親緣關系,可使用Z值(Z0=P(IBD=0),Z1=P(IBD=1))可視化這些親子關系。由圖7可看出,91份東北王兩兩之間的關系為“其他”;91份東北王和豫花9327之間的關系為“不相關個體”。92份樣本之間不含親子代關系。
圖6 多維標度法分析Fig.6 Multidimensional scaling analysis
表2 RT 列取值含義Table 2 Meaning of RT column value
圖7 Z值可視化圖Fig.7 Visualizationof Z value
基于7634個SNP 標記,對92份花生樣本進行聚類分析。由圖8可知,92份樣本被分為2類。類型Ⅰ包含91份,彼此之間標尺為0,表明這91份樣本為同一個花生品種;類型Ⅱ包含1份(編號100),與類型Ⅰ之間標尺為1.60,表明兩者為不同品種。聚類分析可把東北王和豫花9327兩個品種完全分開,這與基于降維分析法(主成分分析法和多維標度法)的結果完全一致。
圖8 92份花生樣品的聚類分析圖Fig.8 Cluster analysis of 92 peanut individuals
東北王和豫花9327兩個花生品種在植株形態(tài)上差異不大(圖9)。主莖高、分枝數(shù)等植物學性狀無明顯差異。單株莢果質(zhì)量、莢果網(wǎng)紋深淺、種子油酸、亞油酸、蛋白質(zhì)含量等性狀有差異(數(shù)據(jù)未列出),但差異不顯著,判斷標準存在一定主觀因素且難以界定。東北王莢果為串珠形,籽仁種皮深紅色,而豫花9327莢果為普通形,種皮淺紅色,因此莢果形狀和種皮顏色是區(qū)分這兩個品種的鑒別性狀。據(jù)此二性狀,可將東北王和1株豫花9327區(qū)分開來,表型鑒定結果與SNP 數(shù)據(jù)分析結果完全一致。
圖9 兩個花生品種的植株和莢果性狀比較Fig.9 Traits comparison on plant and pod between two peanut cultivars
本研究通過10K 花生液相芯片技術結合高通量測序技術共分析100份東北王花生樣品,獲得目標區(qū)域內(nèi)1萬個SNP位點,使用計算機軟件進行大規(guī)模、自動化分析,并將分析結果可視化,三種分析方法(PCA、MDS和聚類分析)均成功地將1份豫花9327與91份東北王兩個品種完全分開,與表型鑒定結果完全一致。與使用少數(shù)幾個SSR 標記分析相比,上萬個SNP位點(圖1)對鑒定結果準確性的提高是顯而易見的。SNP 標記的處理分析主要依靠計算機,可以把育種者從SSR 繁復的操作步驟解放出來,節(jié)省人力成本和時間成本。液相芯片技術雖然達不到全基因組重測序99%的基因組覆蓋度,但測序成本可以降低80%甚至更高。
目前花生10K 液相芯片的使用價格是170元/樣本,使用成本相對高昂。對于花生育種者來說,液相芯片用來鑒定品種純度未來可期。當下,液相芯片鑒定雜交種純度是一個比較好的過渡選擇。獲得親本SNP數(shù)據(jù)后,從中挑選1~2個在父母本具有二態(tài)性的SNP(如本研究中東北王和豫花9327之間有3518個二態(tài)性SNP),通過PCR產(chǎn)物直接測序法[9]進行雜交種的鑒定。除了首次使用液相芯片成本較高,后續(xù)每年使用PCR 產(chǎn)物測序法的成本約32元/樣本。這些親本SNP數(shù)據(jù)除了應用于雜種F1純度鑒定,還可用于構建花生種質(zhì)資源的標準DNA指紋庫[24],為新品種保護和親本選配提供理論依據(jù)。