龔 高 嚴曉春 王鳳紅 張 磊 李文澤 閆曉敏 劉虹夫 呂 琦 李金泉,2 蘇 蕊,2 *
(1.內蒙古農業(yè)大學 動物科學學院/農業(yè)農村部肉羊遺傳育種重點實驗室/內蒙古自治區(qū)山羊遺傳育種工程技術研究中心,呼和浩特 010018;2.內蒙古金萊牧業(yè)科技有限責任公司,呼和浩特 010018)
隨著生命科學技術的發(fā)展,測序技術、高通量技術、組學技術與各種分析方法不斷趨于成熟,高通量測序成本不斷降低,積累的測序數(shù)據(jù)不斷增多,挖掘關鍵功能因子的方法也逐漸豐富。常見的分析方法包括差異分析、維恩圖分析、差異基因聚類分析和趨勢分析等(表1)。這些方法均建立在雙樣本假設檢驗的基礎上,通過篩選差異表達基因進行比較、聚類和相關性的研究,然而對于多樣本復雜試驗設計和表型數(shù)據(jù)的聯(lián)合分析,這些方法的效率較低、分析較為困難。因此,研究人員在2005年首次提出了加權基因共表達網絡分析(Weighted gene co-expression network analysis, WGCNA)方法,在人類和小鼠等相關領域中,率先解析體重、細胞周期、腦癌、肺癌、胰腺癌、自閉癥、遺傳疾病等復雜性狀和疾病的分子機制。該方法旨在結合高通量數(shù)據(jù)與樣品表型數(shù)據(jù)進行聯(lián)合分析,充分利用表型數(shù)據(jù)將差異基因劃分為數(shù)量較少的模塊,從多樣本中識別候選標志物,大大降低了分析的成本,提高分析效率。
表1 常見差異基因測序數(shù)據(jù)分析方法統(tǒng)計
Table 1 Statistics of common differential gene sequencing data analysis methods
分析方法Analytical method適用條件Applicable condition軟件Software差異分析Differential expressionprofiling樣品分組數(shù)為2組時,常用閾值法進行差異分析,通過Padj與log2fold change對差異基因進行篩選。樣品分組數(shù)目過多、樣本復雜時,分析較為困難。DESeq2[1]等維恩圖分析Venn diagram analysis當分組數(shù)大于2組時,通常先對兩兩分組進行差異分析,再利用韋恩圖篩選關鍵差異基因,但當分組數(shù)目過多、樣本復雜時,分析較為困難?!町惢蚓垲惙治鯟luster analysis能與維恩圖分析聯(lián)合,對差異基因進行聚類,挖掘表達趨勢相同的基因?!狦O富集分析GO enrichment analysis能夠判斷基因集主要富集在哪些功能上,結合研究目的能夠定位相關的功能和基因。GOSeq[2]KEGG富集分析KEGG pathwayenrichment analysis能夠提示基因集參與的生物學功能,通過富集的通路,從而篩選出關鍵的信號通路與基因。KOBAS-i[3]GSEA分析GSEA analysis用于確定先驗定義的基因集是否在兩種生物學狀態(tài)(表型)之間顯示出統(tǒng)計學差異。GSEA[4]趨勢分析Short time-seriesexpression mineranalysis當樣本分組間具有明顯趨勢時,通過趨勢分析能夠挖掘具有相同表達趨勢的基因。STEM[5]WGCNA分析WGCNA networkanalysis當樣品分組數(shù)目較多、性狀信息完善時,能充分利用表型數(shù)據(jù)對差異基因進行劃分,構建基因調控網絡。WGCNA[6-7]
如今,WGCNA作為一種高效的系統(tǒng)生物學方法,能夠分析RNA-seq數(shù)據(jù)(包括mRNA、miRNA、lncRNA、circRNAs等)、蛋白組數(shù)據(jù)、代謝組數(shù)據(jù)、全基因組DNA甲基化數(shù)據(jù)(Whole genome bisulfite sequencing,WGBS)和單細胞轉錄組等高通量數(shù)據(jù),并且能夠整合全基因組關聯(lián)分析(Genome-wide association studies,GWAS)的結果進行聯(lián)合分析。WGCNA方法能對多種表達數(shù)據(jù)集進行分析,進而對復雜表型進行解析,該方法不僅廣泛應用在模式動植物的研究中,近年來也逐漸成為通過高通量組學數(shù)據(jù)解析畜禽重要經濟性狀的優(yōu)異工具,廣泛的應用于畜禽研究中。因此,本文將對WGCNA方法的一般流程與應用策略進行闡述,論述其在牛、羊、豬、禽等畜禽的應用以及研究現(xiàn)狀,對該方法的應用前景進行歸納和總結,為畜禽相關研究提供新思路。
相關網絡分析的方法越來越多地被應用于生物信息學相關研究,例如基因共表達網絡、蛋白質-蛋白質相互作用網絡、細胞-細胞相互作用網絡等。2005年Zhang和Horvath首次提出加權基因共表達網絡分析這一概念,描述了一個使用“軟”閾值的計算框架,它為每個基因分配一個連接權重,是一種描述樣本之間基因相關模式的系統(tǒng)生物學方法。2008年,Langfelder和Horvath通過R語言實現(xiàn)了WGCNA的應用,為WGCNA的分析提供了免費公開的R包,為該方法的廣泛應用奠定了基礎,截止2021年9月1日,該文獻已被引用6 526次,在Web of science檢索“WGCNA”共有2 412篇文獻,分析檢索結果發(fā)現(xiàn),研究方向主要集中在遺傳學、腫瘤學、免疫學和醫(yī)學等領域(圖1(a)),該方法在人類腦神經調控、阿爾茨海默病、乳腺癌、皮膚病、癌癥等研究中被廣泛應用。近5年來,WGCNA方法在農業(yè)領域也有有了大量應用(圖2(b)),如動植物重要性狀遺傳標記篩選、發(fā)育生物學、生殖生物學和病理學等方面。
(a)檢索“WGCNA”字段研究方向分類TreeMap圖;(b)農業(yè)研究方向中WGCNA發(fā)表文獻統(tǒng)計圖(a) Search “WGCNA” field research direction classification TreeMap diagram; (b) Statistical chart of documents published by WGCNA in the direction of agricultural research圖1 WGCNA方法在不同研究領域的應用現(xiàn)狀和發(fā)展趨勢Fig.1 Application and development of WGCNA approach in various research topics
WGCNA專為高通量數(shù)據(jù)而設計,能夠描述樣本中基因之間的相關模式,能找出與目標性狀高度相關的模塊,并通過模塊或模塊內的核心基因來對這些結果進行總結,能與樣本的性狀相關聯(lián),計算模塊隸屬度。WGCNA具有諸多優(yōu)點:首先它不需要基因間相互作用的先驗條件,只需基于表達數(shù)據(jù)就能分析基因間相互的調控關系;它將成千上萬的基因劃分為少數(shù)功能相似的模塊,強調模塊的效應,而不是單一的某一個基因,這符合生物學的規(guī)律;使用基因的連通性信息能較快找到核心基因;該方法能夠對弱效應基因進行挖掘,能對DNA水平的分析進行補充。
WGCNA分析的目標是:建立數(shù)據(jù)之間的真實關聯(lián)(而不是基于先前發(fā)現(xiàn)的關聯(lián));確定數(shù)據(jù)的模塊劃分;將模塊特征信息與外部表型信息關聯(lián),提供具有生物學意義的模塊;確定相關模塊中的關鍵因子。
WGCNA分析的一般流程見圖2,提前對軟件進行安裝并對數(shù)據(jù)進行預處理,構建共表達網絡,對模塊進行識別劃分,使用表型數(shù)據(jù)與模塊進行關聯(lián)分析,對目標模塊進行功能分析,鑒定模塊中的核心基因。
圖2 基因共表達網絡分析的流程圖[7]Fig.2 Flowchart of gene co-expression network analysis[7]
使用R語言中WGCNA package進行分析,參考WGCNA官方網址教程(https:∥horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/),下載相應的R版本與WGCNA安裝包,參照Langfelder等方法流程對基因的表達量數(shù)據(jù)構建基因共表達網絡。
數(shù)據(jù)準備:樣品表達數(shù)據(jù)(需要至少15個樣品),包括RNA-seq數(shù)據(jù)、蛋白組數(shù)據(jù)、代謝組數(shù)據(jù)、DNA甲基化數(shù)據(jù)等;樣品對應的表型數(shù)據(jù)。
準備合適的試驗數(shù)據(jù),進行數(shù)據(jù)的錄入、清理和預處理,這是網絡分析的第一步。對樣品數(shù)據(jù)進行歸一化處理;將其處理為適合網絡分析的格式。通過移除明顯的離群值樣本、缺失值過多的基因和樣本來清理數(shù)據(jù),這些數(shù)據(jù)會干擾網絡模塊的分析。
2
.2
.1
構建相關矩陣利用基因的表達量數(shù)據(jù),計算兩兩基因之間表達量相關系數(shù)的絕對值,進而構建基因共表達相關性矩陣(S
),通過公式(1)計算基因間相關性矩陣,其中i
、j
表示第i
、j
個基因,X
、X
表示基因i
與基因j
的表達量。S
=|cor(X
,X
)|(1)
2
.2
.2
構建鄰接矩陣通常構建網絡采用“硬閾值”的方法,該方法會丟失網絡的間接信息,而采用軟閾值參數(shù)(Soft threshold,β
)構建的網絡可以克服這個缺陷,取“冪值”能夠拉大“貧富差距”,會導致相關性強的基因關系越相關,相關性差的基因關系越不相關,讓網絡盡可能符合標準的無尺度網絡,并保留連通性信息,這種網絡也符合生物學基因間的關系。為了遵循無尺度網絡的原則,一般要保證選擇R
>0.8或達到平臺期時最小的β
值用于構建網絡。選擇合適的β
值后,將相關性矩陣中的值進行β
次方計算,通過公式(2)將相關性矩陣轉化為鄰接矩陣(a
)。(2)
2
.2
.3
構建拓撲重疊矩陣評價基因間相關性,不能只考慮兩兩基因間的相關性,還需考慮間接基因關系。因此,在鄰接矩陣的基礎上計算TOM值,見公式(3),建立基因之間直接和間接的關系,進而通過TOM值構建拓撲重疊矩陣(TOM矩陣),公式中a
為鄰接矩陣中基因i
和基因j
的直接鄰接值, ∑aa(u
≠i
,j
)表示鄰接矩陣中a所對應行列位置的乘積和,K(K)表示基因i
(j
)與其他所有基因的鄰接值之和。TOM值介于0~1,TOM值越高表示基因i
與j
越相似。(3)
通過TOM矩陣繪制TOM聚類樹,通過拓撲樹結構將表達模式相近的基因聚為一類。利用基因間的TOM值進行層次聚類并對模塊進行劃分與合并。用不同顏色表示不同的基因模塊,相同顏色表示該顏色內的全部基因被劃分到相同的模塊,這些模塊內的基因可能在一個生理過程或不同組織中具有相似的表達變化,那么這些基因可能具有相同功能。
尋找具有生物學意義的模塊和基因是許多共表達分析的主要目標。WGCNA通過基因在樣本中表達的相似性劃分模塊,可用于探索網絡中的模塊結構,測定基因和模塊之間的關系(模塊-基因聚類熱圖);探索模塊之間的關系(特征基因網絡);結合外部表型數(shù)據(jù),構建模塊與樣本性狀的關系(模塊-性狀相關性熱圖)。選擇與目標性狀(樣品)高相關的模塊進行后續(xù)分析。
對目標模塊進行功能分析,將劃分好的模塊網絡與其他數(shù)據(jù)庫進行連接,能夠更充分的解釋模塊發(fā)揮的功能:
1)GO數(shù)據(jù)庫:GO功能富集分析(Gene ontology,GO)是通過對生物學過程(Biological process,BP)、細胞組分(Cellularcomponent,CC)和分子功能(Molecular funtion,MF)這3個類別對基因功能進行注釋和分類的一種方法。通過GO分析,能夠判斷模塊中基因主要富集在哪些功能上,結合研究目的能夠定位相關的功能和基因。
2)KEGG數(shù)據(jù)庫:在生物體中,不同基因之間相互協(xié)調共同行使生物學功能,KEGG(Kyoto encyclopedia of genes and genomes)是一種系統(tǒng)分析基因功能、基因組信息的數(shù)據(jù)庫。通過Pathway顯著性富集可以確定模塊基因中參與的最主要生化代謝途徑與信號轉導途徑。KEGG分析能夠提示模塊基因參與的生物學功能,通過富集的通路,從而篩選出關鍵的信號通路與基因。
3)STRING蛋白質互作數(shù)據(jù)庫:通過在線STRING蛋白質互作數(shù)據(jù)庫(https:∥string-db.org/cgi/input.pl)進行模塊基因蛋白-蛋白互作網絡的分析(Protein-protein interaction,PPI)。尋找模塊基因的蛋白互作關系,繪制蛋白-蛋白互作網絡圖。
4)網絡可視化:將WGCNA輸出的模塊節(jié)點文件和模塊連接權重文件共同導入Cytoscape軟件進行網絡可視化,通過權重網絡關系能識別模塊中的hub因子,結合基因功能進而篩選出關鍵的核心因子。
WGCNA R包提供了一套可用于執(zhí)行加權相關網絡分析的功能,可用于構建基因表達譜、圖像數(shù)據(jù)、遺傳標記數(shù)據(jù)、蛋白質組學數(shù)據(jù)和其他高通量數(shù)據(jù)的網絡結構。目前,WGCNA在處理基因表達數(shù)據(jù)(RNA-seq)和研究網絡變化中被廣泛使用。陳林通過骨骼肌RNA-seq數(shù)據(jù)研究大蒲蓮豬與長白豬的肉質差異,通過WGCNA鑒定出4個與肌肉發(fā)育顯著相關的模塊,發(fā)現(xiàn)基因富集參與P13K-AKT通路和AMPK信號通路,可能間接影響肌肉發(fā)育。Ling等對山羊胚胎期和出生后7個階段的骨骼肌進行l(wèi)ncRNA分析,通過WGCNA發(fā)現(xiàn)“早期模塊”中的基因與肌肉結構的形成有關,“晚期模塊”參與了“p53信號通路”等通路,發(fā)現(xiàn)了lnc_011371、lnc_007561和lnc_001728可能在山羊骨骼肌中發(fā)揮重要作用。
質譜儀器和生物信息學鑒定算法的快速發(fā)展,使樣品蛋白質或代謝物的高通量測定成為現(xiàn)實,這大大加快了對復雜生物系統(tǒng)功能的探索。WGCNA能夠提供系統(tǒng)的分析,兼顧低豐度的基因信息,該方法最近也被應用于蛋白質組和代謝組數(shù)據(jù)分析中。Zhang等通過WGCNA揭示了小麥抗條銹病的基因激活模型,鑒定出32個誘導蛋白可能與條銹病抗性有關。Mantini等通過WGCNA分析揭示了一個胰腺導管腺癌(PDAC)的相關模塊,該模塊與代謝過程、上皮-元性過渡顯著相關,并發(fā)現(xiàn)SPTBN1、KHSRP和PYGL蛋白與PDAC生存有關。目前WGCNA已被廣泛用于代謝物數(shù)據(jù)的分析,用于識別諸多性狀的中心代謝物,如肺癌與糖代謝紊亂、波棱瓜極端環(huán)境適應性、茶樹發(fā)育與次生代謝、番茄成熟等相關研究。Carmelo等利用WGCNA分析杜洛克和長白豬血液代謝物,構建飼料轉化效率(FE)代謝網絡與代謝途徑,確定與杜洛克和長白豬FE相關的關鍵血液代謝物,包括膽堿、吡哆胺、乙酰乙酸酯、硫酸膽固醇、黃嘌呤和脫氧尿苷等,可以通過這些特征代謝物提高養(yǎng)分利用率,降低生產成本,增加FE。
DNA甲基化是研究最廣泛的表觀遺傳修飾,它在許多重要的基因組調控過程中發(fā)揮作用,包括X染色體失活和基因組印記,WGCNA能夠找到具有高度相關DNA甲基化水平的基因模塊,并將這些模塊與表型特征聯(lián)系起來。Liu等利用WGCNA發(fā)現(xiàn)精子的部分高度可變甲基化區(qū)域(HVMR)與繁殖性狀相關性較高,揭示了基因組變異、DNA甲基化和表型之間可能存在的內在聯(lián)系,證實了精子DNA甲基化與生殖特征的關聯(lián)性。
全基因組關聯(lián)研究(GWAS)是研究復雜性狀遺傳結構的有力工具,但GWAS分析微效多基因控制的數(shù)量性狀檢測能力不足。Farber整合GWAS和WGCNA分析,成功發(fā)掘出骨密度相關基因TNF
,驗證其在骨代謝中的作用,WGCNA為GWAS提高了數(shù)量性狀的檢測能力。Yan等聯(lián)合WGCNA和GWAS對奶牛酮病進行研究,發(fā)現(xiàn)5個酮病候選基因MAFA
、C14H8orf82
、MAF1
、grina
和RECQL4
。Deng等整合WGAS和WGCNA用于識別與產奶量相關的特定模塊和樞紐基因,得到9個與產奶量相關的模塊,并鑒定了一些涉及產奶量的核心基因,包括BNIPL
、TUBA1C
、C2CD4B
、DCP1B
和MAP3K5
等。李曉凱結合內蒙古絨山羊不同毛被類型的GWAS和WGCNA數(shù)據(jù),發(fā)現(xiàn)CPLX1
、LRPAP1
和DGKQ
等候選基因可能與不同毛被類型存在潛在相關性。劉曉靜利用GWAS和WGCNA鑒定調控肉雞血糖-肌糖原-乳酸軸代謝的候選功能基因,發(fā)現(xiàn)FOSL2
與肌糖原含量呈負相關,CEBPB
、MAP3K14
和SLC2A14
等經典糖代謝相關基因也與肌糖原含量存在相關。WGCNA能夠利用多種組學數(shù)據(jù),挖掘影響表型的關鍵因子,在多組學的時代里,為復雜性狀的解析提供技術支撐。
隨著分子生物技術和基因組學等新興學科的飛速發(fā)展,動物育種與分子遺傳學研究取得了大量的突破性成果,分子育種已逐漸成為育種的主流。隨著分子數(shù)據(jù)的逐步積累,采用更加科學合理的分析挖掘方法就顯得至關重要了,WGCNA興起于人類醫(yī)學的相關研究,而近年來該方法在牛、羊、豬、禽等畜禽的應用研究中也逐漸增多,為畜禽肌肉發(fā)育、飼料利用、疾病防治、繁殖性能、優(yōu)良性狀定位、環(huán)境適應性等方面的研究提供了新的分析手段。
TADA3
、LMNB1
和TGF-β3
等與胎兒體重相關的基因。Silva-Vignato等鑒定了與胴體性狀相關的模塊,發(fā)現(xiàn)3個關鍵候選基因RSAD2
、EIF2AK2
和PARP
與背膘厚相關;ACAT1
和ACSL
與肋眼面積相關。畜禽出生后肌肉纖維的發(fā)育與肉質、生產效率密切相關。石田培等對綿羊胚胎妊娠第85、105和135天的胎兒背最長肌組織進行RNA-seq,利用WGCNA得到TNN12
、PIP5K1A
和PDK4
等關鍵基因,同時預測出10個與肌肉發(fā)育、肌肉疾病、細胞增殖相關的lncRNAs,闡明其在肌纖維類型轉換與肌纖維增粗過程中的調控機制。Li等對雞胸肌不同發(fā)育階段的RNA-seq數(shù)據(jù)進行WGCNA分析發(fā)析,發(fā)現(xiàn)有4個模塊與胸肌發(fā)育的特定生長階段有關,主要富集于MAPK信號通路、NRG/ErbB信號通路和胰島素信號通路,篩選FGF
、MAPKAPK5
、NRG1
、SCD
和PPAR
等核心基因可能與雞胸肌發(fā)育的分子機制有關。皮下脂肪、肌內脂肪含量(IMF)和脂肪酸(FA)組成是衡量加工肉制品和鮮肉制品質量特性的重要指標。Zappaterra等對意大利大白豬半膜肌進行RNA-seq,發(fā)現(xiàn)有4個模塊與豬IMF顯著相關,其主要參與DNA轉錄和細胞分化的調控、原生纖毛的形態(tài)發(fā)生、ERK/MAP激酶和G蛋白相關的反應,隨后又研究發(fā)現(xiàn)與棕櫚酸和棕櫚油酸含量相關的模塊,在自噬、線粒體融合和線粒體活性中顯著富集,與肌內脂肪的油酸、n
-6和n
-3多不飽和脂肪酸含量相關的基因模塊在MAPK信號通路中顯著富集。Oliveira等通過WGCNA確定與內洛爾牛肌內脂肪沉積相關的差異分子,發(fā)現(xiàn)葡萄糖代謝和炎癥過程是影響肉牛肌內脂肪沉積的主要途徑,動物脂質沉積相關的差異分子可能參與免疫系統(tǒng)和炎癥途徑,并與脂質代謝相關。FA含量是影響肉感官和營養(yǎng)價值的重要特征,de Oliveira等對骨骼肌中miRNAs和mRNAs與FA關聯(lián)進行研究,確認胰島素信號通路和MAPK信號通路是FA含量的重要通路,鑒定出bta-miR-33a/b、bta-miR-100、bta-miR-204、bta-miR-365-5p、ACTA1
和ALDOA
等基因是潛在的脂肪酸合成調節(jié)基因。過多的脂肪沉積會導致畜禽的健康問題,從而造成巨大的經濟損失,影響生產效率。Gao等和Yuan等構建不同雞品系在不同腹脂含量的基因共表達網絡,發(fā)現(xiàn)丙酮酸代謝、脂肪酸代謝、甘油酯代謝、PPAR信號通路、胰島素信號通路等信號通路與脂肪形成有關,并發(fā)現(xiàn)在不同的雞品系中,脂肪組織生長和發(fā)育有著相同的分子途徑。目前WGCNA方法已在畜禽產肉性能方面的研究多有報道,涉及體重、酮體性狀、肌肉纖維發(fā)育與肉質、肌內脂肪和脂肪酸含量、脂肪沉積等多方面研究,通過該方法已經篩選到大量與產肉性能相關的分子標記,為相關研究提供參考依據(jù),但目前還缺乏這些基因的功能驗證。
在畜禽養(yǎng)殖過程中,疾病對生產有著很大的負面影響,很多疾病的防治與治療難度極大,通過抗病育種來降低畜禽疫病發(fā)生就成為一個重要的研究方向。
豬繁殖與呼吸綜合征(PRRS)是目前養(yǎng)豬業(yè)最具經濟破壞性的疾病之一,該疾病由PRRS病毒(PRRSV)引起,PRRS影響豬養(yǎng)殖的所有生產階段,一般表現(xiàn)為生殖損失(不孕、流產、死胎和木乃伊胎兒),仔豬表現(xiàn)出較高的斷奶前發(fā)病率和死亡率。Schroyen等為找出PRRS易感和抗性豬之間潛在的分子差異,通過WGCNA發(fā)現(xiàn)一個模塊與PRRSV病毒載量有關,該模塊包含大量的免疫應答基因。陳曦對通城豬和大白豬人工感染PRRSV前后的脾臟和腹股溝淋巴結組織進行研究,發(fā)現(xiàn)2個模塊與病毒載量相關性較強,篩選出ALDB4471
和ALDB3437
等基因,驗證發(fā)現(xiàn)ALDB4471
在細胞中可以顯著促進病毒的復制,并且顯著抑制抗PRRSV基因RSAD2
的表達。高國麗從轉錄水平上研究抗病個體和易感個體對PRRSV抗病性的差異,發(fā)現(xiàn)2個模塊與病毒載量和體重增長的相關性強,抗病組和易感組共有的差異表達基因主要富集在免疫通路,易感組特有的差異基因主要富集在免疫通路和信號傳導通路。綿羊胃腸道線蟲感染會使羊肉產量和毛產量減少,Kadarmideen等對捻轉血矛線蟲和蛇形毛圓線蟲感染綿羊的基因表達譜數(shù)據(jù)進行分析,確定了與感染時間相關的基因模塊,篩選CAT
、FBX033
、COL15A1
和IGFBP7
等相關的生物標志物。新城疫病毒(NDV)對全球家禽生產構成威脅,Deist等研究感染慢傳播性NDV禽類的哈德爾腺、氣管和肺組織,通過WGCNA發(fā)現(xiàn)EIF2AK2
、MPEG1
和TNFSF13B
等基因與新城疫病毒抗性相關。馬立克氏病病毒(MDV)是一種可引起雞T細胞淋巴瘤的致瘤性皰疹病毒,You等闡述了基因模塊與馬立克氏病的相關性,發(fā)現(xiàn)lncRNAs可能通過其靶基因影響雞脾對馬立克氏病的抗性和腫瘤的發(fā)生。通過WGCNA對畜禽疾病進行探究,能夠進一步縮小關鍵因子的篩選范圍,精確地探尋疾病的致病因子,構建疾病調控網絡網路,為畜禽疾病的解析提供新思路。FECB
基因型的中國地方綿羊生殖軸,鑒定出2個與卵巢樣本顯著相關的模塊,主要富集到信號轉導和內分泌系統(tǒng),推測這些基因在調節(jié)生殖方面具有重要功能,并發(fā)現(xiàn)CYP17
在卵巢類固醇合成途徑中有較大程度的表達,可能具有調節(jié)生殖的功能。Bo等以不同日齡的睪丸為材料,鑒定出7個時間特異性差異的lincRNA模塊和6個mRNA模塊,發(fā)現(xiàn)了lincRNA對精子發(fā)生和睪丸生長的不同調控模式。卵泡發(fā)育在家禽繁殖過程中起著關鍵作用,它會影響產蛋性能,進而影響產蛋量,Shen等為揭示參與雞卵泡發(fā)育的復雜調控網絡,通過WGCNA確定了六個關鍵的模塊,其與不同發(fā)育階段的不同細胞類型有關,MAPK1
、CITED4
、SOD2
和NOVE_CIRC_0004730
等分子可能參與了卵泡發(fā)育的特定功能。Gu等研究與母雞持續(xù)受精能力相關的關鍵基因模塊,發(fā)現(xiàn)3個模塊與母雞持續(xù)受精能力高度相關,得到并驗證SPG11
、CTDSPL2
和MFAP3L
等15個基因表達水平與母雞持續(xù)受精能力高度關聯(lián)。JAK2
、STAT3
和POMC
)、mTOR信號通路(CAMKK2
、AMPK
和MTOR
)有關。Kong等發(fā)現(xiàn)高FE的牛,其瘤胃上皮線粒體的轉錄速率較高。Novais等通過血清代謝物鑒定評估肉牛FE性狀,通過WGCNA發(fā)現(xiàn)肉牛的視黃醇代謝途徑與FE有關,發(fā)現(xiàn)2,3-二氫黃酮、檸檬酸、植酸等代謝物與FE相關。剩余采食量(RFI)是FE的衡量標準之一,其可用來評價畜禽飼料消化、生長速度和飼料利用效率。為預測RFI的生物標志物,de Oliveira等利用WGCNA對肉牛的RFI進行研究,發(fā)現(xiàn)關鍵基因和中樞miRNAs如BTA-miR-486、BTA-miR-7、BTA-miR15a等可能在RFI變異中起潛在作用,為探究飼料利用效率的潛在分子機制提供了新的見解。羊的絨毛品質性狀是羊產業(yè)重要經濟性狀之一,通過WGCNA方法能夠進一步解析羊絨毛品質性狀的遺傳規(guī)律。陳華峰等通過構建蘇博美利奴羊皮膚組織毛囊發(fā)生發(fā)育的共表達網絡,發(fā)現(xiàn)毛囊發(fā)育、毛囊形態(tài)發(fā)生、Wnt信號通路、TGF-β信號通路等是毛囊發(fā)育相關的重要生物過程和信號通路。Wu等發(fā)現(xiàn)blue模塊的基因表達與內蒙古絨山羊胚胎毛囊發(fā)育時期的規(guī)律一致,鑒定出WNT10A
是內蒙古絨山羊皮膚毛囊發(fā)生發(fā)育成熟階段的關鍵基因。Wang等分析成年絨山羊皮膚RNA-seq數(shù)據(jù),發(fā)現(xiàn)有6個模塊與毛囊周期性生長有關,與ECM受體相互作用、PI3K-Akt信號通路、雌激素信號通路等密切相關,篩選出COL1A1
、C1QTNF6
和KRTAP3-1
等12個核心基因。龔高通過構建共表達網絡發(fā)現(xiàn)內蒙古絨山羊毛被類型的關鍵基因主要富集在中間絲、中間纖維細胞骨架和角蛋白纖維,驗證發(fā)現(xiàn)FGF21
、ASL
、KRT39
和KRT74
的相對表達量與毛長呈現(xiàn)極顯著正相關關系。Fan等利用一個泌乳周期的轉錄組數(shù)據(jù)進行WGCNA分析,確定了與泌乳階段、產奶量和主要牛奶成分含量有關的10個基因模塊,發(fā)現(xiàn)半乳糖代謝途徑是影響產奶量和乳糖合成的潛在候選途徑;鞘脂信號通路是乳脂合成的潛在候選途徑。高慧杰等對奶山羊不同生理階段的乳腺組織RNA-seq數(shù)據(jù)集進行分析,發(fā)現(xiàn)4個關鍵模塊,共得到UQCR
、RGL2
、NOTCH1
和PTBP1
等13個與乳腺發(fā)育相關的目標基因。Wang等利用WGCNA方法研究牦牛高原適應的調控機制,發(fā)現(xiàn)了一個核心模塊,并篩選出與血壓調節(jié)、活性氧的產生和新陳代謝有關的ERAP1
、GRAMP3
和IL34
等基因。通過WGCNA的方法對畜禽重要經濟性狀進行研究,能夠找到調控性狀的關鍵因子,后續(xù)能為畜禽品種培育與改良提供標記,促進畜牧養(yǎng)殖業(yè)健康發(fā)展。
隨著基因組、轉錄組、表觀組、蛋白組和代謝組等組學技術的發(fā)展,高通量數(shù)據(jù)不斷累積,篩選差異基因的方法也越來越多。目前僅用單一的分析方法對組學數(shù)據(jù)進行分析,可能會忽視分子間的調控作用,掩蓋掉部分的關鍵信息,很難充分挖掘這些高通量數(shù)據(jù),利用WGCNA對數(shù)據(jù)進行分析能更為充分的解析數(shù)據(jù)。
利用WGCNA能夠以系統(tǒng)、共表達網絡、直觀、降維等方式對數(shù)據(jù)進行劃分,為高效的解析動植物重要經濟性狀功能基因提供新方法。綜上所述,在畜禽的研究中,WGCNA方法已經廣泛應用在生長性狀、繁殖性狀、抗病性狀、品質性狀等復雜性狀優(yōu)勢功能因子的挖掘上,為動物遺傳標記的識別提供了新的思路。但目前雖然發(fā)現(xiàn)了較多分子標記,但假陽性的比例仍然較高,需要進一步改進方法,并且通過大量的研究對標記進行驗證。
該方法預計會更為廣泛的應用于牛、羊、豬、禽等家養(yǎng)動物重要經濟性狀的挖掘上,為闡明性狀生物學機制提供助力。WGCNA不僅能夠對單一組學數(shù)據(jù)進行分析,通過該方法聯(lián)合多種組學數(shù)據(jù)進行整合分析,也將是未來數(shù)據(jù)分析研究的一大趨勢,從多個維度對數(shù)據(jù)進行處理,進而探尋多種分子間的調控關系。篩選出重要性狀的“基因-轉錄-蛋白質-代謝產物-表型”多維度調控網絡,進而全面解析性狀變異的遺產機制,這將更充分的利用種質資源,對品種的培育與改良工作具有重要意義。