史東杰 胡金有 朱華 張欣 李榮妮 孫硯勝
摘要:為了獲得紅白錦鯉的基因組信息,篩選與其膚色相關的基因,采用Illumina高通量測序技術對紅白錦鯉皮膚組織的基因組進行測序,獲得127.23 Gb clean data,Q20堿基比例在95.59%及以上,Q30堿基比例在90.81%及以上,GC含量為37.32%~42.38%,測序錯誤率為0.07。與鯉魚基因組序列進行比對的結果顯示,比對效率為 96.35%。研究共鑒定了1 048 576個SNPs(單核苷酸多態(tài)性),其中3.12百萬~5.40百萬個SNPs位于短reads比對不到的區(qū)域,其中變異位點位于外顯子區(qū)域的有579 778個SNPs。SNP位點分布于錦鯉的50條染色體上,不包含scaffold(染色體骨架)。經(jīng)ANNOVAR軟件進行功能注釋,純合類型的SNPs數(shù)量是574 310個,雜合類型的SNPs數(shù)量是474 265個。SNPs位于基因間的數(shù)量最多,SNPs位于基因內(nèi)的外顯子區(qū)域的多態(tài)性最高。通過對8個重要候選基因注釋的理解,發(fā)現(xiàn)微管蛋白LOC109046532、LOC109049213這2個基因與色素顆粒運輸有關。其中基因LOC109046532含有突變,而另1個基因LOC109049213則不含有任何突變。8個候選基因都含有外顯子SNP位點,但是沒有發(fā)現(xiàn)終止密碼子突變。
關鍵詞:基因組重測序;錦鯉;體色基因;候選基因
中圖分類號: S917 ?文獻標志碼: A
文章編號:1002-1302(2019)16-0052-04
收稿日期:2018-05-03
基金項目:北京市財政局、北京市農(nóng)業(yè)農(nóng)村局觀賞魚產(chǎn)業(yè)技術體系北京市創(chuàng)新團隊建設專項(編號:BAIC03);北京市農(nóng)林科學院項目(編號:KJCX20170101)。
作者簡介:史東杰(1985—),女,北京人,碩士,副研究員,主要從事觀賞魚繁育及養(yǎng)殖技術的研究工作。
通信作者:朱 華,博士,研究員,主要從事水產(chǎn)繁殖、養(yǎng)殖以及水產(chǎn)養(yǎng)殖環(huán)境水質(zhì)調(diào)控方面的研究與推廣工作。
全基因組重測序是對已知參考基因組序列的物種進行不同個體間的基因組測序,并在此基礎上對個體或群體進脅迫行差異性分析[1]。近年來,隨著測序技術的發(fā)展,人們已經(jīng)在眾多水產(chǎn)動物中開展了全基因組測序,目前,鯉魚(Cyprinus carpio)[2]、大黃魚(Larimichthys crocea)[3]、半滑舌鰨(Cynoglossus semilaevis)[4]、大西洋鮭(Salmo salar)[5]、鲇魚(Ictalurus punctatus)[6]、凡納濱對蝦(Litopenaeus vannamei)[7]和牡蠣(Ostrea gigas Thunberg)[8]等的基因組計劃已經(jīng)完成。2011年,由中國水產(chǎn)科學研究院和中國科學院北京基因組研究所共同實施的“鯉魚基因組計劃”成功完成了鯉魚的全基因組測序,并繪制了鯉魚基因組框架圖譜、基因組物理圖譜和高密度連鎖圖譜,進而利用各方面的資源和數(shù)據(jù)實現(xiàn)了鯉魚基因組的基因識別定位和精確的功能注釋等。全基因組序列海量數(shù)據(jù)的獲得,為水產(chǎn)基因組輔助育種研究、優(yōu)良品種的快速培育提供了重要基礎。
錦鯉(Cyprinus carpio L.)是經(jīng)濟合作與發(fā)展組織(OECD)規(guī)定的5種試驗生物之一,也是我國主養(yǎng)的觀賞魚類。該魚隸屬于鯉形目(Cypriniformes)鯉科(Cyprinidae)鯉屬(Cyprinus)。錦鯉以其雄健的身軀、絢麗的色彩、華麗的斑紋、瀟灑的泳姿、溫順的習性而享譽世界,被人們稱為“水中活寶石”。該魚經(jīng)過幾百年的自然分化、基因突變、人工選育,形成了體色艷麗、斑紋豐富、鱗片迥異等十三大品系100余個品種,是目前鯉科魚類種質(zhì)資源和基因組資源最豐富的魚類。本研究通過對錦鯉進行基因組重測序,與鯉魚進行參考基因組比對,以期找到大量單核苷酸多態(tài)性位點(SNP)、拷貝數(shù)變異(copy number variation,簡稱CNV)、插入缺失(insertion/deletion,簡稱InDel)、結構變異(structure variation,簡稱SV)等變異信息,分析錦鯉與鯉魚的遺傳多樣性,同時研究錦鯉是否有與馴化選擇相關的差異位點,并在測序的基礎上,篩選出與膚色相關的候選基因。本研究不僅對錦鯉基因組輔助育種研究、體色斑紋定向培育提供了重要基礎,而且對鯉科魚類的基礎研究具有重大意義。
1 材料與方法
1.1 試驗材料
試驗用紅白錦鯉來自觀賞魚產(chǎn)業(yè)技術體系北京市創(chuàng)新團隊通州綜合試驗站。從生長狀態(tài)良好的健康紅白錦鯉成魚上取適量皮膚組織樣品(設3個生物學重復),采用TIANamp Genomic DNA Kit(血液/細胞/組織基因組DNA提取試劑盒)進行DNA提取,并通過瓊脂糖凝膠電泳、NanoDrop檢測和Qubit定量進行DNA樣本的檢測。取樣前,采用MS-222(Sigma,USA)使試驗魚麻醉后安樂死,并根據(jù)我國在科學技術方面應用的法律法規(guī)人性化對待試驗動物。
1.2 試驗方法
基因組DNA利用Covaris破碎儀隨機打斷成長度為 350 bp 的片段,經(jīng)末端修復和加A尾后,片段兩端分別連接接頭制備DNA文庫。文庫構建完成后,先使用Qubit 3.0進行初步定量,隨后使用Qseq 100對文庫的insert size(插入片段大小)進行檢測,insert size符合預期后,使用Q-PCR方法對文庫的有效濃度(2 nmol/L)進行準確定量,以保證文庫的質(zhì)量。庫檢合格后,根據(jù)文庫的有效濃度及數(shù)據(jù)產(chǎn)出需求,進行Illumina HiSeq X Ten PE150測序。PE150(Pairend 150 bp)指高通量雙端測序,每端各測150 bp。在構建的小片段文庫中,insert DNA,即插入片段是高通量測序直接測序的單位。雙端測序是對插入片段的兩端進行測序的方法,由于插入片段的長度分布已知,雙端測序時不僅可以知道片段兩端的序列,也能知道這兩段序列之間的長度,從而便于后續(xù)組裝和比對。
對測序獲得的reads數(shù)據(jù)進行質(zhì)量過濾得到clean reads,用于后續(xù)生物信息學的分析。將clean reads與參考基因組進行比對,基于比對結果,使用samtools[9]進行去重復(mark duplicates),使用GATK[10]進行局部重比對(local realignment)、堿基質(zhì)量值校正(base recalibration)等處理,再使用GATK進行單核苷酸多態(tài)性(single nucleotide polymorphism,簡稱SNP)的小片段插入缺失(small InDel)的檢測、過濾,并得到最終的SNP和small InDel的位點集。通過BreakDancer[11]可以得到結構變異(structure variation,簡稱SV)數(shù)據(jù)集,其中一般以插入(insertion,簡稱INS)和缺失(deletion,簡稱DEL)為主。對SNP、InDel、SV、CNV的檢測結果進行注釋,從而實現(xiàn)DNA水平差異基因挖掘和差異基因功能注釋等。
1.3 數(shù)據(jù)處理與分析
將下機數(shù)據(jù)進行過濾,得到clean data,將其與指定的參考基因組進行序列比對,得到mapped data,進行插入片段長度檢驗、隨機性檢驗等文庫質(zhì)量評估;進行可變剪接分析、新基因發(fā)掘和基因結構優(yōu)化等結構水平分析;根據(jù)基因在樣品中的表達量進行差異表達分析、差異表達基因功能注釋和功能富集等表達水平分析,從而篩選出與體色相關的功能基因。
2 結果與分析
2.1 紅白錦鯉基因組重測序數(shù)據(jù)質(zhì)量評估
共完成3個樣品的基因組重測序分析,通過高通量測序法獲得127.23 Gb clean data,Q20堿基的百分比在95.59%及以上,Q30堿基的百分比在90.81%及以上,GC含量為 37.32%~42.38%,測序錯誤率為0.07%。
2.2 紅白錦鯉基因組與參考基因組的比對
將紅白錦鯉皮膚樣品的clean reads與指定的參考基因組進行序列比對(網(wǎng)址為ftp://ftp.ncbi.nlm.nih.gov/genomes),比對軟件選擇BWA,結果顯示,比對效率為9635%(表1)。
2.3 紅白錦鯉基因組的SNP檢測及注釋
由圖1、表2可知,利用重測序變異檢測方法得到的結果顯示,以鯉魚基因組為參考,過濾掉測序深度在10X以下的位點,共鑒定了1 048 576個SNPs,其中312萬~540萬個SNPs位于短reads比對不到的區(qū)域,變異位點位于外顯子區(qū)域的有579 778個SNPs。SNP位點分布于錦鯉的50條染色體上,不包含scaffold(染色體骨架)。用ANNOVAR軟件進行功能注釋,結果顯示,純合類型的SNPs數(shù)量為574 310個,雜合類型的SNPs數(shù)量為474 265個。SNPs位于基因間的數(shù)量最多,SNPs位于基因內(nèi)外顯子區(qū)域的多態(tài)性最高,由此可以看出,與鯉魚相比,紅白錦鯉的變異位點很多,且分布在染色體的各個位置。
2.4 紅白錦鯉膚色相關基因注釋及SNP分析
通過對8個重要候選基因注釋的理解,發(fā)現(xiàn)微管蛋白的2個基因LOC109046532、LOC109049213與色素顆粒運輸有關。其中基因LOC109046532含有突變,而另1個基因LOC109049213則不含有任何突變。8個候選基因都含有外顯子SNP位點,但是沒有發(fā)現(xiàn)終止密碼子突變,詳見圖2、表3、表4。
3 討論
在全基因組測序過程中,基因組DNA的提取和檢測是關鍵。通常情況下,DNA的檢測主要是通過NanoDrop檢測DNA純度(D260 nm/D280 nm值),用Qubit對DNA濃度進行精確定量[12]。其中D260 nm/D280 nm值在1.8~2.0之間,DNA濃度≥20 ng/μL,總量為1 μg以上的DNA樣品被用來建庫。在本試驗中,紅白錦鯉皮膚樣品DNA的Q20堿基百分比在95.59%及以上,Q30堿基百分比在90.81%及以上,GC含量為37.32%~42.38%,測序錯誤率為0.07%,可見樣品質(zhì)量滿足建庫測序要求,且總量滿足2次或者2次以上的建庫需要。對測序獲得的reads數(shù)據(jù)進行質(zhì)量過濾得到clean reads,用于后續(xù)生物信息學的分析。將clean reads與參考基因組進行比對,基于比對結果,使用samtools[1]進行去重復(mark duplicates),用GATK[2]進行局部重比對、堿基質(zhì)量值校正等處理,再使用GATK進行單核苷酸多態(tài)性的小片段插入缺失(small INDEL)的檢測、過濾,并得到最終的SNP和Small INDEL的位點集。通過BreakDancer[3]可得到結構變異(structure variation,簡稱SV)數(shù)據(jù)集,其中一般以插入和缺失為主。并對SNP的檢測結果進行注釋,實現(xiàn)DNA水平差異基因的挖掘和篩選等。利用基因組比對軟件BWA[1],將過濾后的clean reads比對到參考基因組上,統(tǒng)計比對結果。對于重測序分析而言,比對率以及覆蓋度指標能反映樣本、建庫及測序以及參考序列等的質(zhì)量。在本試驗中,將clean reads與鯉魚參考基因組序列進行比對,結果顯示,mapping率達到96.3%,說明測序樣本與鯉魚參考基因組的相似度很高。
SNP檢測主要使用GATK軟件工具包[2]。根據(jù)clean reads在參考基因組的定位結果,使用SAMtools[3]進行去重復(mark duplicates),使用GATK進行局部重比對、堿基質(zhì)量值校正等預處理,以保證檢測得到的SNP的準確性,再使用GATK進行單核苷酸多態(tài)性的檢測、過濾,并得到最終的SNP位點集。SNP是通過ANNOVAR軟件進行注釋的。SNP分布圖通過R語言ggplot2包進行繪制展示。在本試驗中,將錦鯉測序數(shù)據(jù)比對到參考基因組上,以分析SNP位點的分布情況,為了使SNP連續(xù)顯示,過濾去除了測序深度在10X以下的位點,共鑒定了1 048 576個SNPs,其中3.12百萬~5.40百萬個SNPs位于短reads比對不到的區(qū)域,其中變異位點位于外顯子區(qū)域的有579 778個SNPs。此外,統(tǒng)計結果顯示,SNPs位于基因間的數(shù)量最多,SNPs位于基因內(nèi)的外顯子區(qū)域的多態(tài)性最高,由此可以看出,與鯉魚相比,紅白錦鯉的變異位點很多,且分布在染色體的各個位置。此外,沒有發(fā)現(xiàn)外顯子SNP位點含有終止密碼子突變,因此SNP位點并沒有影響基因的正常編碼和表達??墒蔷湍壳鞍l(fā)現(xiàn)的SNP位點而言,由于鯉魚基因組缺乏相應的SNP功能注釋信息,無法看出SNP位點會對相應基因功能帶來何種變化,可能需要進行進一步的功能驗證試驗。
魚類細胞形態(tài)變化、定向運動、胞內(nèi)物質(zhì)(如色素顆粒)與“器官”的移遷(有絲分裂、減數(shù)分裂中的染色體極向移動)都與微管蛋白的聚合與解聚相關[13]。微管是由微管蛋白亞基組裝而成的,每個微管蛋白亞基都是由2個非常相似的球狀蛋白(α-微管蛋白和β-微管蛋白)結合而成的異二聚體,這種α-β二聚體是微管組裝的基本結構單位[14]。魚類體色的重要調(diào)控機制之一是通過微管蛋白對色素顆粒的靶向運輸[15]。在本試驗中,1、5號基因為微管蛋白基因,與色素顆粒運輸有關。鯉魚基因組gff的基因信息全部是由美國國立生物技術信息中心(NCBI)網(wǎng)站上Gnomon預測軟件進行預測的結果,因此該基因組并沒有完整、真實的數(shù)據(jù)來進行支撐。因此,由BLAST得到的這8個候選基因的名稱都是以其在染色體上的位置進行命名的,至于其功能也是由預測軟件進行功能注釋的。
參考文獻:
[1]Altshuler D,Pollara V J,Cowles C R,et al. An SNP map of the human genome generated by reduced representation shotgun sequencing[J]. Nature,2000,407(6803):513-516.
[2]水 科. 鯉魚全基因組序列圖譜繪制完成[N]. 中國漁業(yè)報,2014-10-13(A03).
[3]陳小明,李佳凱,王志勇,等. 基于簡化基因組測序的大黃魚耐高溫性狀全基因組關聯(lián)分析[J]. 水生生物學報,2017,41(4):735-740.
[4]劉 峰. 半滑舌鰨經(jīng)濟性狀的遺傳評估及基因組選擇初步研究[D]. 上海:上海海洋大學,2015:37-40.
[5]Davidson W S,Koop B F. ICSASG international collaboration. Sequencing the Atlantic salmon (Salmo salar) genome the old fashioned way[R]. Plant & Animal Genomes XIX Conference,2011,San Diego,CA,USA:33-41.
[6]Liu J. Strategies for efficient assembly and annotation of the catfish whole genome sequence[R]. Plant & Animal Genomes XIX Conference,2011,San Diego,CA,USA:49-53.
[7]張曉軍. 中國甲殼動物學會第十一屆年會暨學術研討會論文摘要集[C]//中國海洋湖沼學會甲殼動物學分會,中國動物學會甲殼動物學分會,2011:18-19.
[8]Zhang G F,Guo X M,Li L,et al. The oyster genome project:an update[C]// Ninth International Marine Biotechnology Conference. Qingdao,China,2010:371-379.
[9]Li H,Durbin R. Fast and accurate short read alignment with Burrows-Wheeler transform[J]. Bioinformatics,2009,25(14):1754-1760.
[10]McKenna A,Hanna M,Banks E,et al. The genome analysis toolkit:a MapReduce framework for analyzing next-generation DNA sequencing data[J]. Genome Research,2010,20(9):1297-1303.
[11]Wang K,Li M,Hakonarson H. ANNOVAR:functional annotation of genetic variants from high-throughput sequencing data[J]. Nucleic Acids Research,2010,38(16):e164.
[12]莫惠棟,顧世梁. 基因組長度的估計方法[J]. 科學通報,2000,45(13):1414-1419.
[13]尹云厚. 中藥復方制劑對缺氧大鼠微管蛋白和驅(qū)動蛋白表達影響的研究[D]. 長春:中國人民解放軍軍需大學,2003:156-158.
[14]Hirokawa N,Takemura R. Kinesin superfamily proteins and their various functions and dynamics[J]. Experimental Cell Research,2004,301(1):50-59.
[15]薛繼鵬. 三聚氰胺、氧化魚油和脂肪對瓦氏黃顙魚生長和體色的影響[D]. 青島:中國海洋大學,2011:125-128.