国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

機器學(xué)習(xí)在動物基因組選擇中的研究進展

2023-10-23 10:09:40李棉燕王立賢趙福平
中國農(nóng)業(yè)科學(xué) 2023年18期
關(guān)鍵詞:準(zhǔn)確性基因組機器

李棉燕,王立賢,趙福平

機器學(xué)習(xí)在動物基因組選擇中的研究進展

李棉燕,王立賢,趙福平

中國農(nóng)業(yè)科學(xué)院北京畜牧獸醫(yī)研究所/農(nóng)業(yè)部動物遺傳育種與繁殖(家禽)重點實驗室,北京 100193

基因組選擇是指利用覆蓋在全基因組范圍內(nèi)的分子標(biāo)記信息來估計個體育種值。利用基因組信息能夠避免因系譜錯誤帶來的諸多問題,提高選擇準(zhǔn)確性并縮短育種世代間隔。根據(jù)統(tǒng)計模型的不同,基因組選擇方法可大致分為基于BLUP(best linear unbiased prediction, BLUP)理論的方法、基于貝葉斯理論的方法和其他方法。目前應(yīng)用較多的是GBLUP及其改進方法ssGBLUP。準(zhǔn)確性是基因組選擇模型最常用的評價指標(biāo),用來衡量真實值和估計值之間的相似程度。影響準(zhǔn)確性的因素可以從模型中體現(xiàn),大致分為可控因素和不可控因素。傳統(tǒng)基因組選擇方法促進了動物育種的快速發(fā)展,但這些方法目前都面臨著多群體、多組學(xué)和計算等諸多挑戰(zhàn),不能捕獲基因組高維數(shù)據(jù)間的非線性關(guān)系。作為人工智能的一個分支,機器學(xué)習(xí)是最貼近生物掌握自然語言處理能力的一種方式。機器學(xué)習(xí)從數(shù)據(jù)中提取特征并自動總結(jié)規(guī)律,利用該規(guī)律與新數(shù)據(jù)進行預(yù)測。對于基因組信息,機器學(xué)習(xí)無需進行分布假設(shè),且所有的標(biāo)記信息都能夠被考慮進模型當(dāng)中。相比于傳統(tǒng)的基因組選擇方法,機器學(xué)習(xí)更容易捕獲基因型之間、表型與環(huán)境之間的復(fù)雜關(guān)系。因此,機器學(xué)習(xí)在動物基因組選擇中具有一定的優(yōu)勢。根據(jù)訓(xùn)練期間接受的監(jiān)督數(shù)量和監(jiān)督類型,機器學(xué)習(xí)可分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)等。它們的主要區(qū)別為輸入的數(shù)據(jù)是否帶有標(biāo)簽。目前在動物基因組選擇中應(yīng)用的機器學(xué)習(xí)方法均為監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)可以處理分類和回歸問題,需要向算法提供有標(biāo)簽的數(shù)據(jù)和所需的輸出。近年來機器學(xué)習(xí)在動物基因組選擇中的應(yīng)用不斷增多,特別是在奶牛和肉牛中發(fā)展較快。本文將機器學(xué)習(xí)算法劃分為單個算法、集成算法和深度學(xué)習(xí)3類,綜述其在動物基因組選擇中的研究進展。單個算法中最常用的是KRR和SVR,兩者都是通過核技巧來學(xué)習(xí)非線性函數(shù),在原始空間中將數(shù)據(jù)映射到更高維的核空間。目前常用的核函數(shù)有線性核、余弦核、高斯核和多項式核等。深度學(xué)習(xí)又稱為深度神經(jīng)網(wǎng)絡(luò),由連接神經(jīng)元的多個層組成。集成學(xué)習(xí)算法則是指將不同的學(xué)習(xí)器融合在一起進而得到一個較強的監(jiān)督模型。近十年來,有關(guān)機器學(xué)習(xí)和深度學(xué)習(xí)的相關(guān)文獻呈現(xiàn)了指數(shù)型的增長,在基因組選擇方面的應(yīng)用也在逐漸增多。盡管機器學(xué)習(xí)在某些方面存在明顯的優(yōu)勢,但其在估計動物復(fù)雜性狀基因組育種值時仍面臨諸多挑戰(zhàn)。部分模型的可解釋性低,不利于數(shù)據(jù)、參數(shù)和特征的調(diào)整。數(shù)據(jù)的異質(zhì)性、稀疏性和異常值也會造成機器學(xué)習(xí)的數(shù)據(jù)噪聲。還有過擬合、大標(biāo)記小樣本和調(diào)參等問題。因此,在訓(xùn)練模型時需要謹(jǐn)慎處理每一個步驟。文章介紹了基因組選擇傳統(tǒng)方法及其面臨的問題、機器學(xué)習(xí)的概念和分類,探討了機器學(xué)習(xí)在動物基因組選擇中的研究進展及目前存在的挑戰(zhàn),并給出了一個案例和一些應(yīng)用的建議,以期為機器學(xué)習(xí)在動物基因組選擇當(dāng)中的應(yīng)用提供一定參考。

機器學(xué)習(xí);深度學(xué)習(xí);基因組選擇;動物育種

0 引言

許多重要動物性狀都呈現(xiàn)出了復(fù)雜的遺傳機制,這使得個體基因位點的識別變得困難。基因組選擇是指利用覆蓋全基因組范圍內(nèi)的分子標(biāo)記信息估計個體育種值[1]?;蚪M選擇假設(shè)每一個數(shù)量性狀基因座(quantitative trait locus, QTL)都與全基因組中至少一個分子標(biāo)記處于連鎖不平衡狀態(tài),因此可以利用標(biāo)記效應(yīng)來解釋遺傳方差[2]。利用基因組信息進行選擇不僅能夠避免因系譜錯誤或丟失造成的問題,而且大幅縮短了育種世代間隔[3]。

統(tǒng)計模型是全基因組選擇的核心,也是影響預(yù)測準(zhǔn)確性和效率的主要因素。根據(jù)算法的不同,可將其分為BLUP(best linear unbiased prediction, BLUP)系列、貝葉斯系列和機器學(xué)習(xí)。BLUP系列又稱為直接法,把個體作為隨機效應(yīng),參考群體和候選群體遺傳信息構(gòu)建的親緣關(guān)系矩陣作為方差協(xié)方差矩陣,通過迭代法估計方差組分,進而求解混合模型獲取候選群體的個體估計育種值。貝葉斯系列又稱為間接法,首先在參考群體中估計標(biāo)記效應(yīng),然后結(jié)合候選群體的基因型信息將標(biāo)記效應(yīng)進行累加,最后獲得候選群體的個體估計育種值。不同方法的選擇準(zhǔn)確性會根據(jù)不同群體和不同性狀等實際情況而[4-7]異,但后者的GBLUP(genomic best linear unbiased prediction, GBLUP)方法在研究中出現(xiàn)的頻率較高。BLUP系列方法假設(shè)所有標(biāo)記都具有相同的效應(yīng),但實際基因組范圍中只有少量標(biāo)記具有主效應(yīng),大部分標(biāo)記的效應(yīng)較小。相比于BLUP方法,貝葉斯方法對數(shù)據(jù)的假設(shè)條件更符合數(shù)量性狀的遺傳結(jié)構(gòu),但其采用特定算法估計未知參數(shù)時則往往耗時更久。

機器學(xué)習(xí)是一門人工智能的科學(xué),在經(jīng)驗中學(xué)習(xí)并改善具體算法。機器學(xué)習(xí)不僅在理論和工程上是實現(xiàn)自然語言處理的首選,也是最貼近生物掌握自然語言處理能力的一種方式。機器學(xué)習(xí)已經(jīng)被成功應(yīng)用于多個領(lǐng)域,其廣泛用途已在書籍和文獻中有較多概述[8-10]。機器學(xué)習(xí)是非參數(shù)模型,其算法比線性選擇模型復(fù)雜得多。近年來,利用機器學(xué)習(xí)算法進行生物學(xué)相關(guān)領(lǐng)域的熱度不斷增高,如人類疾病選擇[11-13]、多組學(xué)數(shù)據(jù)整合[14]、植物育種[15-17]等。相比起傳統(tǒng)的選擇方法,機器學(xué)習(xí)更容易捕捉基因型之間、表型與環(huán)境之間的復(fù)雜關(guān)系,在動物基因組選擇中表現(xiàn)出了一定的優(yōu)勢。因此,本文對基因組選擇傳統(tǒng)方法、選擇評價指標(biāo)、機器學(xué)習(xí)在動物基因組選擇中的研究進展進行綜述。

1 基因組選擇

1.1 基因組選擇方法

統(tǒng)計模型和計算方法是基因組選擇的核心。根據(jù)所使用統(tǒng)計模型的不同,基因組選擇方法大致可分為3類:基于BLUP理論的方法、基于貝葉斯理論的方法和其他方法。沒有任何一個方法能在所有情況下都具有絕對優(yōu)勢。目前應(yīng)用較多的是GBLUP及其改進方法ssGBLUP(single-step genomic best linear unbiased prediction, ssBLUP)。

1.1.1 基于BLUP理論的方法 主要包括RR-BLUP、GBLUP、ssGBLUP等。BLUP把個體作為隨機效應(yīng),參考群體和候選群體遺傳信息構(gòu)建的親緣關(guān)系矩陣作為方差協(xié)方差矩陣,求解方差組分和混合模型獲得個體的GEBV。

1.1.2 基于貝葉斯理論的方法 主要包括BayesA、BayesB、BayesCπ、BayesR等。貝葉斯系列方法通過估計標(biāo)記效應(yīng)間接獲得基因組估計育種值(genomic estimated breeding value, GEBV)。估計過程分為兩步:首先利用參考群個體的表型和全基因組標(biāo)記基因型信息估計每一個標(biāo)記的效應(yīng)值,然后根據(jù)候選群中每個位點的標(biāo)記基因型將標(biāo)記效應(yīng)累加獲得個體的GEBV[18]。

1.1.3 其他方法 主要包括RKHS(reproducing kernel Hilbert space, RKHS)、半?yún)?shù)方法和機器學(xué)習(xí)等。由于此類方法中考慮互作效應(yīng)以及其他非線性效應(yīng),使得模型非常復(fù)雜或者計算難度較大。因此,目前研究和應(yīng)用最多的還是前兩類方法。機器學(xué)習(xí)方法將在后文做詳細介紹。

1.2 基因組育種值估計準(zhǔn)確性

1.2.1 準(zhǔn)確性評估指標(biāo) 基因組育種值估計準(zhǔn)確性是指基因組估計育種值與真實值之間的相關(guān)系數(shù),是估計育種值研究中最常用的評價指標(biāo)。在模擬研究中已知真實育種值,育種值估計準(zhǔn)確性可以直接計算。但是在實際的育種數(shù)據(jù)研究中真實育種值未知,應(yīng)用條件復(fù)雜,所以出現(xiàn)了不同的準(zhǔn)確性評估方法[19],如真實育種值與估計值之間的皮爾遜相關(guān)系數(shù)、均方根誤差、平均絕對誤差等。

1.2.2 影響因素 從選擇模型中可以體現(xiàn)影響選擇準(zhǔn)確性的關(guān)鍵因素。這些因素可大致分為可控因素和不可控因素。

(1)可控因素 即估計過程中需要考慮并可以人為調(diào)整的因素,如估計方法、群體大小及遺傳關(guān)系、標(biāo)記的數(shù)量和密度等。研究表明,隨著遺傳力水平和標(biāo)記密度的增加,基因組估計育種值的準(zhǔn)確性得到提高[20]。有效群體規(guī)模不變時,訓(xùn)練世代越多,基因組估計育種值的準(zhǔn)確性和穩(wěn)定性越好[21]。參考群體越大,選擇準(zhǔn)確性也會有所提升[22]。

(2)不可控因素 染色體的長度、影響性狀的基因數(shù)和性狀的遺傳力等也會影響選擇準(zhǔn)確性。這些因素會因物種而異,所以導(dǎo)致了基因組選擇效果在不同物種、不同群體和不同性狀中的相差較大。這些因素都是客觀存在、不能人為改變的。

2 機器學(xué)習(xí)

機器學(xué)習(xí)屬于人工智能的一個分支,是一類算法的總稱。機器學(xué)習(xí)的基本思路是將現(xiàn)實問題轉(zhuǎn)化為數(shù)學(xué)問題,機器解決數(shù)學(xué)問題從而解決現(xiàn)實問題。機器學(xué)習(xí)最初被定義為:計算機無需明確編程即可獲得學(xué)習(xí)能力的研究領(lǐng)域[23]。數(shù)據(jù)、算法和模型是機器學(xué)習(xí)的三要素。機器學(xué)習(xí)選取合適的算法,從已有數(shù)據(jù)中自動歸納總結(jié)規(guī)律,利用該規(guī)律的結(jié)果(模型)與新數(shù)據(jù)進行選擇。

根據(jù)訓(xùn)練期間接受的監(jiān)督數(shù)量和監(jiān)督類型,可將機器學(xué)習(xí)分為監(jiān)督學(xué)習(xí)(supervised learning, SL)、無監(jiān)督學(xué)習(xí)(unsupervised learning, USL)、半監(jiān)督學(xué)習(xí)(semi-supervised learning, SSL)和強化學(xué)習(xí)(reinforcement learning, RL)。這些不同類型最主要的區(qū)別是訓(xùn)練的樣本是否帶有標(biāo)簽。所以,在無監(jiān)督學(xué)習(xí)中的訓(xùn)練數(shù)據(jù)是未經(jīng)標(biāo)記的,算法會在沒有指導(dǎo)的情況下自動學(xué)習(xí)。

2.1 監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)需要向算法提供有標(biāo)簽的數(shù)據(jù)和所需的輸出。即目標(biāo)變量的數(shù)值必須被確定,以便機器學(xué)習(xí)算法可以發(fā)現(xiàn)特征和目標(biāo)變量之間的關(guān)系。監(jiān)督學(xué)習(xí)主要處理分類和回歸問題。值得注意的是,在動物基因組選擇中所使用的機器學(xué)習(xí)均為監(jiān)督學(xué)習(xí),如支持向量機回歸(support vector regression, SVR)、核嶺回歸(kernel ridge regression, KRR)、隨機森林(random forest, RF)和決策樹(decision tree, DT)等。

2.2 無監(jiān)督學(xué)習(xí)

無監(jiān)督學(xué)習(xí)對于沒有給定標(biāo)簽的數(shù)據(jù)進行自動分析,試圖找到隱藏的結(jié)構(gòu)。數(shù)據(jù)沒有類別信息,也沒有給定的目標(biāo)值。該方法可以降低數(shù)據(jù)特征的維度,使用二維或三維圖形更加直觀地展示數(shù)據(jù)信息。非監(jiān)督學(xué)習(xí)包括聚類和密度估計,如K-means算法及其一些擴展算法。

2.3 半監(jiān)督學(xué)習(xí)

半監(jiān)督學(xué)習(xí)結(jié)合了監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的中間類別,輸入的數(shù)據(jù)部分有標(biāo)簽,部分沒有?;舅悸肥抢脭?shù)據(jù)分布上的模型假設(shè),建立學(xué)習(xí)器對未標(biāo)簽樣本進行選擇。半監(jiān)督學(xué)習(xí)可以處理分類和回歸問題。算法包括一些常用監(jiān)督學(xué)習(xí)算法的延伸,如支持向量機(support vector machine, SVM)和圖論推理算法等。

2.4 強化學(xué)習(xí)

強化學(xué)習(xí)是多學(xué)科多領(lǐng)域交叉的一個產(chǎn)物,旨在學(xué)習(xí)自動決策。該方法普適性強,基于決策進行訓(xùn)練,算法根據(jù)輸出結(jié)果(決策)的成功或錯誤來訓(xùn)練自己,通過大量經(jīng)驗訓(xùn)練優(yōu)化后的算法來進行選擇,常見的算法包括Q-Learning和時間差分學(xué)習(xí)等。

3 機器學(xué)習(xí)在動物基因組選擇中的應(yīng)用

近年來,從數(shù)學(xué)、統(tǒng)計和計算科學(xué)引入的多種機器學(xué)習(xí)算法推動了生物學(xué)領(lǐng)域的快速發(fā)展。在基因組選擇當(dāng)中常用的機器學(xué)習(xí)方法包括SVR、KRR、RF和深度學(xué)習(xí)等。因其算法的特殊性,機器學(xué)習(xí)可以在不同維度彌補傳統(tǒng)方法的缺陷。不同于傳統(tǒng)方法,機器學(xué)習(xí)不需要對選擇的變量進行分布假設(shè)[24],并且所有的標(biāo)記信息都能夠被考慮進模型當(dāng)中。也就是說,那些具有弱效應(yīng)、高度相關(guān)和相互作用的標(biāo)記物都有機會對模型擬合做出貢獻[4]。同時,機器學(xué)習(xí)的默認(rèn)參數(shù)通常表現(xiàn)較好,無需進行大幅度調(diào)參[25]。

由于數(shù)據(jù)結(jié)構(gòu)的不同,有時單個算法就能夠起到很好的選擇效果,有時則需要采用集成學(xué)習(xí)和深度學(xué)習(xí)。如LIANG等[26]在中國西門塔爾肉牛群體中比較了SVR,KRR,RF,Adaboost.RT和GBLUP等5種基因組選擇方法的準(zhǔn)確性,結(jié)果表明4種機器學(xué)習(xí)方法相對于傳統(tǒng)方法GBLUP平均改進了12.8%、14.9%、5.4%和14.4%。在4種機器學(xué)習(xí)方法中,集成方法Adaboost.RT具有更高的穩(wěn)定性,準(zhǔn)確性與KRR相當(dāng)??傮w而言,機器學(xué)習(xí)在動物基因組選擇中的應(yīng)用研究不多,但已經(jīng)成功應(yīng)用于多個動物品種,特別是肉牛和奶牛。表1列舉了部分機器學(xué)習(xí)算法在動物基因組選擇中的應(yīng)用研究。

圖1展示了在Web of Science網(wǎng)站中搜索“機器學(xué)習(xí)”“深度學(xué)習(xí)”“機器學(xué)習(xí)+基因組選擇”和“深度學(xué)習(xí)+基因組選擇”等關(guān)鍵詞,獲得在2011—2022年之間每一年的相關(guān)出版物數(shù)量。2022年的查找時間截止為9月6日。折線圖能很好地呈現(xiàn)數(shù)據(jù)的特點和趨勢??梢姡陜?nèi)有關(guān)機器學(xué)習(xí)和深度學(xué)習(xí)的相關(guān)文獻呈現(xiàn)了指數(shù)型的增長,在基因組選擇方面的應(yīng)用也在逐漸增多。

3.1 單個機器學(xué)習(xí)算法的應(yīng)用

KRR是嶺回歸的核版本,在嶺回歸的基礎(chǔ)上引入了核函數(shù)。KRR在原始空間中應(yīng)用核函數(shù)將數(shù)據(jù)映射到更高維的核空間中,以提供基于正則化最小二乘法的泛化性能[40]。這種方式可以使原始數(shù)據(jù)分離,從而提高回歸和分類問題的準(zhǔn)確性和穩(wěn)定性。目前常用的核函數(shù)有線性核、余弦核、高斯核和多項式核等。其中,余弦核捕獲了不同樣本在每個維度向量之間的余弦距離[41]。AN等[24]開發(fā)了一個基于余弦核的KCRR算法用于基因組選擇,并將其中的余弦相似性矩陣代替?zhèn)鹘y(tǒng)G矩陣得到了GBLUP_CS方法。他們利用4個群體的12個具有不同遺傳力和遺傳結(jié)構(gòu)的復(fù)雜性狀對比了GBLUP、BayesB、SVR、KCRR和GBLUP_CS,發(fā)現(xiàn)KCRR在選擇準(zhǔn)確性和計算效率方面都表現(xiàn)良好,并且GBLUP_CS的運算速度比GBLUP快了20倍。LU等[42]通過整合核函數(shù)和線性回歸分類提出了KLRC算法,研究結(jié)果表明該算法在人臉識別中具有良好的選擇效果。HE等[31]提出了一種KRRC算法,在兩個合成數(shù)據(jù)集和一個真實數(shù)據(jù)集中進行比較發(fā)現(xiàn)其選擇效果比所選的KNN、LRC和KLRC效果好。

表1 機器學(xué)習(xí)在動物基因組選擇中的應(yīng)用

RKHS:再生希爾伯特空間;RBFNN:徑向基函數(shù)神經(jīng)網(wǎng)絡(luò);BRNN:貝葉斯正則化神經(jīng)網(wǎng)絡(luò);LRC:線性回歸分類;KNN :K近鄰;KLRC:核線性回歸分類;ABNN:人工貝葉斯神經(jīng)網(wǎng)絡(luò);MLP:多層感知機;CNN:卷積神經(jīng)網(wǎng)絡(luò);BSLMM:貝葉斯稀疏線性混合模型;KAML:親緣校正多位點;KCRR:余弦核嶺回歸;SELF:堆疊集成學(xué)習(xí)框架

RKHS:Reproducing kernel Hilbert spaces;RBFNN:Radial basis function neural networks;BRNN: Bayesian regularized neural networks;LRC :Linear regression classification;KNN: K nearest neighbor;KLRC:Kernel linear regression classification;ABNN :Artificial Bayesian neural network;MLP :Multilayer perceptron;CNN:Convolutional neural network; BSLMM :Bayesian sparse linear mixed model;KAML Kinship adjusted multi-loci;KCRR:Cosine kernel–based KRR;SELF :Stacking ensemble learning framework

圖2 2011-2022年每年發(fā)表機器學(xué)習(xí)相關(guān)出版物數(shù)量

SVR和KRR都通過核技巧來學(xué)習(xí)非線性函數(shù),兩者的區(qū)別在于損失函數(shù)不同。MOSER等[43]利用1 945頭奶牛對非參數(shù)化的SVR和參數(shù)化的BayesR、rrBLUP和最小二乘回歸對蛋白質(zhì)百分比和利潤指數(shù)進行選擇,結(jié)果表明SVR提供了最高的準(zhǔn)確性。LONG等[28]使用ε-SVR、最小二乘SVR與BayesLASSO分別選擇了奶牛產(chǎn)奶量和小麥產(chǎn)量,結(jié)果表明在奶牛群體中徑向基核函數(shù)SVR比線性核函數(shù)SVR的性能略好,在小麥中ε-SVR相關(guān)性則提高了17.5%。徑向基核函數(shù)比線性核函數(shù)具有更好的選擇性能,并且在表型可能受到非加性標(biāo)記效應(yīng)影響的情況下,其優(yōu)越性更為明顯。與參數(shù)化方法一樣,機器學(xué)習(xí)不同算法的效果會因動物和性狀的數(shù)據(jù)特征而異。ALVES等[37]對Nellore牛生殖性狀進行基因組選擇,發(fā)現(xiàn)SVR是Nellore牛生殖性狀基因組選擇的合適方法,同時說明SVR模型中的最佳核函數(shù)參數(shù)是特征依賴的。

受到機器學(xué)習(xí)算法、單核苷酸多態(tài)性(single nuclear polymorphism, SNP)加權(quán)和混合線性模型的啟發(fā),YIN等[36]提出了一種結(jié)合交叉驗證、多元回歸和網(wǎng)格搜索的KAML算法,擬將選擇準(zhǔn)確性與計算效率相結(jié)合。利用模擬和真實數(shù)據(jù)集進行評估,結(jié)果表明KAML算法具有比GBLUP和BayesR更高的選擇準(zhǔn)確性。

3.2 深度學(xué)習(xí)的應(yīng)用

深度學(xué)習(xí)靈感源自人類大腦,是機器學(xué)習(xí)的重要分支。因由連接神經(jīng)元的多個層組成,故又稱為深度神經(jīng)網(wǎng)絡(luò)[44]。常見的典型深度學(xué)習(xí)算法有卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)和生成對抗網(wǎng)絡(luò)(generative Adversarial Networks, GANs)等。深度學(xué)習(xí)覆蓋范圍廣、適應(yīng)性好、上限高,但是計算量大,便攜性差,對硬件要求高。其在基因組選擇中的應(yīng)用在過去十年內(nèi)逐漸增多,在Web of science網(wǎng)站檢索關(guān)鍵詞“深度學(xué)習(xí)+基因組選擇”可獲得2012—2022年之間深度學(xué)習(xí)在基因組選擇的相關(guān)出版物達到554份。而搜索“機器學(xué)習(xí)+基因組選擇”在10年內(nèi)的結(jié)果則是高達1 648份。

基于深度學(xué)習(xí)的人工智能模型如今代表著基因組學(xué)研究中進行功能預(yù)測的最新技術(shù)水平。NOVAKOVSKY等在綜述中回顧了可解釋人工智能這一新興領(lǐng)域的進展,并探討了關(guān)于深度學(xué)習(xí)方法如何用于調(diào)控基因組學(xué)的應(yīng)用[45]。CAMACHO等[29]使用RBFNN方法進行基因組選擇發(fā)現(xiàn)其選擇效果與RKHS回歸和BayesLASSO相當(dāng),所分析的模擬數(shù)據(jù)結(jié)果表明添加冗余選擇變量可能會對非線性回歸模型的選擇準(zhǔn)確性產(chǎn)生不利影響。TUSELL等[30]比較了參數(shù)化方法GBLUP、BayesR、BayesLASSO和非參數(shù)化方法RKHS回歸、RBFNN、BRNN對豬產(chǎn)仔數(shù)性狀的選擇效果,結(jié)果表明兩者效果相差不大。WALDMANN等[34]提出了一個ABNN模型,利用模擬和真實的豬數(shù)據(jù)集進行選擇,結(jié)果表明ABNN顯示出比GBLUP和BayesLASSO更好的選擇準(zhǔn)確性。ABDOLLAHI等[35]比較了兩種深度學(xué)習(xí)方法(MLP和CNN)、兩種集成學(xué)習(xí)方法(RF和GB)和兩種參數(shù)方法(GBLUP和BayesB)的選擇性能,發(fā)現(xiàn)MLP和CNN在公牛數(shù)據(jù)集中的選擇效果最低,這可能是因為相對于參數(shù)化方法,深度學(xué)習(xí)的優(yōu)勢取決于控制性狀的位點數(shù)量和樣本大小。目前,深度學(xué)習(xí)在動植物育種中都取得了一定進展[46-48],更多的應(yīng)用原理和實例可在MIGUEL等的綜述中進行查看[49]。

3.3 集成學(xué)習(xí)的應(yīng)用

集成學(xué)習(xí)算法是指將不同的學(xué)習(xí)器融合在一起,得到一個較強的監(jiān)督模型。其基本思想是不同的學(xué)習(xí)器之間相互糾正錯誤以達到準(zhǔn)確性的提升。目前主流的集成學(xué)習(xí)有Boosting方法、Bagging方法和Stacking算法。Boosting方法以Adaboosting、提升樹和XGBoost為代表,每一次迭代時訓(xùn)練集的選擇與前面各輪的學(xué)習(xí)結(jié)果有關(guān),且每次是通過更新各個樣本權(quán)重的方式來改變數(shù)據(jù)分布。

Adaboost.RT算法最初由SHRESTHA等[50]開發(fā),在處理回歸問題上非常有優(yōu)勢。LIANG等[26]利用集成了SVR、KRR和RF的集成學(xué)習(xí)算法Adaboost.RT來選擇中國西門塔爾肉牛胴體重量、活重和眼肌面積3種經(jīng)濟性狀的GEBV,與單個學(xué)習(xí)器和GBLUP進行比較后發(fā)現(xiàn)Adaboost.RT的可靠性和穩(wěn)定性比其他方法都高。同時,LIANG等[38]構(gòu)建了一個堆疊集成學(xué)習(xí)框架(SELF),通過3個數(shù)據(jù)集的比較分析發(fā)現(xiàn)SELF在所有方法中幾乎表現(xiàn)得最好。WANG等[39]利用SVR、KRR、RF和Adaboost. R2等4種機器學(xué)習(xí)回歸方法對中國大白豬群體進行了基因組預(yù)測,結(jié)果表明基于KRR的Adaboost.R2方法一直表現(xiàn)良好,并且最佳超參數(shù)對機器學(xué)習(xí)方法很有用。因此,集成學(xué)習(xí)在動物基因組選擇中具有一定的潛力。

除了使用基因型數(shù)據(jù)進行預(yù)測,還有部分研究利用機器學(xué)習(xí)整合多組學(xué)數(shù)據(jù)以提高動物復(fù)雜性狀的選擇準(zhǔn)確性。FABIO等[51]使用黑腹果蠅群體200自交系中3個數(shù)量性狀的基因組數(shù)據(jù)、RNA轉(zhuǎn)錄組數(shù)據(jù)和表型數(shù)據(jù),利用機器學(xué)習(xí)整合不同的信息來源提高了選擇準(zhǔn)確性。FU等[52]提出了一個集成了多組學(xué)信息的CNN模型以優(yōu)先考慮目標(biāo)性狀的候選基因,并提出了包含已發(fā)表的豬多組學(xué)數(shù)據(jù)的ISwine在線知識庫。

4 案例分析

選用公共數(shù)據(jù)庫的荷斯坦奶牛數(shù)據(jù)集進行不同基因組選擇方法的比較,進行案例分析。由5 024頭公牛組成的德國荷斯坦?;蚪M預(yù)測群體用于本研究。所有公牛都用Illumina Bovine SNP50珠芯片進行基因分型[53]。質(zhì)量控制后,剩下42 551個SNP供以進一步分析。每個公牛都有3個性狀:產(chǎn)奶量(milk yield, MKG)、乳脂百分比(milk fat percentage, FPRO)和體細胞評分(somatic cell score, SCS)。更多關(guān)于該群體的詳細信息可在參考文獻[54]中查看。采用間接法BayesB、直接法GBLUP和機器學(xué)習(xí)的KRR和SVR等4種方法,采用5×5倍交叉驗證獲得GEBV平均值和標(biāo)準(zhǔn)差。評價指標(biāo)有兩個,第一個是準(zhǔn)確性,即真實值與預(yù)測值之間的皮爾遜相關(guān)系數(shù)。第二個是誤差,即真實值與預(yù)測值之間的均方根誤差。

得到結(jié)果如表2所示,表中評價指標(biāo)格式為:準(zhǔn)確性(均方根誤差)。在性狀MKG當(dāng)中,4種方法獲得的準(zhǔn)確性和誤差都沒有顯著性差異。在性狀FPR中,BayesB方法的準(zhǔn)確性為0.860,明顯優(yōu)于其他3種方法,AN等[24]的研究中也得到相似的結(jié)果。在性狀SCS中,機器學(xué)習(xí)方法KRR和SVR的準(zhǔn)確性高于BayesB和GBULP,且均方誤也小于它們。本例中僅進行了不同方法性能的比較,對于結(jié)果的解讀,仍需進一步的分析,如性狀的遺傳背景和方法的適用情況等。

表2 不同方法對奶牛3個性狀的基因組估計準(zhǔn)確性和均方誤比較

corr: Correlation; mse: Mean squared error

5 挑戰(zhàn)

盡管機器學(xué)習(xí)具有很多優(yōu)點,但其在對動物復(fù)雜性狀的基因組育種值估計時仍存在一些挑戰(zhàn)。

5.1 模型的可解釋性

了解模型處理數(shù)據(jù)的過程能有助于模型和特征的優(yōu)化??山忉屝允侵溉祟惸軌蚶斫鉀Q策原因的程度,模型可解釋性則指對模型內(nèi)部機制的理解以及對模型結(jié)果的理解[55]。當(dāng)機器學(xué)習(xí)模型的可解釋性越高,模型的決策和預(yù)測就可以被人理解。一些復(fù)雜的模型通常能產(chǎn)生更好的性能,如集成模型和深度學(xué)習(xí),但它們的運作原理往往很難被解釋清楚[56]。如果不能清晰地解析模型,改進模型和提高估計準(zhǔn)確性也會存在困難。性狀遺傳結(jié)構(gòu)復(fù)雜多樣,目前還沒有一種模型能廣泛適用于所有性狀[57]。如何選擇正確的模型并解讀數(shù)據(jù)分析的過程,是目前研究需要克服的難點之一。

5.2 數(shù)據(jù)噪聲和分布差異

數(shù)據(jù)噪聲是指一個測量變量中的隨機錯誤或偏差,即數(shù)據(jù)樣本中對擬合模型有干擾的信息。機器學(xué)習(xí)的數(shù)據(jù)噪聲來源于數(shù)據(jù)的異質(zhì)性、稀疏性和異常值。常見的噪聲數(shù)據(jù)處理方法包括分箱、聚類和回歸等。在基因組選擇中,特征受到許多具有微小效應(yīng)的位點影響時,機器學(xué)習(xí)往往表現(xiàn)比較糟糕[32]。同時,生物結(jié)構(gòu)、生物環(huán)境和批次效應(yīng)等都會造成基因組學(xué)數(shù)據(jù)的分布差異。

5.3 過擬合

過擬合是指模型在訓(xùn)練集上表現(xiàn)好,但是在測試集上表現(xiàn)不好,模型泛化性能差。模型太復(fù)雜、數(shù)據(jù)噪聲、數(shù)據(jù)量小或數(shù)據(jù)缺乏代表性等都有可能引起模型過擬合??梢試L試通過以下方法進行改善:(1)增加樣本數(shù)或樣本多樣性;(2)剔除噪聲數(shù)據(jù)或改用對噪聲不敏感的模型;(3)考慮使用加權(quán)或標(biāo)準(zhǔn)化指標(biāo)來衡量機器學(xué)習(xí)的表現(xiàn),如標(biāo)準(zhǔn)化余弦相似度;(4)合并代表性不足的樣本[57-58]。在機器學(xué)習(xí)實際操作中,正則化、提前結(jié)束、超參數(shù)優(yōu)化等手段都可用來幫助解決過擬合問題。

5.4 大變量小樣本

在基因組選擇問題中,大變量小樣本是指基因型標(biāo)記數(shù)目遠遠大于樣本觀察值。這種現(xiàn)象容易使高維空間包含多余的特征,從而誤導(dǎo)模型的訓(xùn)練[59]。機器學(xué)習(xí)算法通過假設(shè)映射函數(shù)的數(shù)據(jù)和結(jié)構(gòu)來解決這個問題,但也因此增大了偏差。所以,研究者在訓(xùn)練模型之前通常采用特征提取和特征選擇等降維方法來減少數(shù)據(jù)的維空間[60]。該問題又會引起計算機計算和儲存上的困難,因為大多數(shù)的機器學(xué)習(xí)算法都需要大量的內(nèi)存來運行和保存結(jié)果。這可以使用專用的圖形處理單元(graphics processing unit, GPU)和云計算平臺進行改善。

5.5 選擇模型和超參數(shù)

不同模型采用的算法不同,因此擅長處理的數(shù)據(jù)類型也不同。根據(jù)數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)特征選擇合適的模型極為重要。許多文獻綜述了各種機器學(xué)習(xí)算法的優(yōu)勢和不足[61-64],以供選擇模型時進行參考。訓(xùn)練模型時需要選擇合適的超參數(shù),即調(diào)參。調(diào)參可以權(quán)衡模型的偏差和方差,從而提高模型效果及性能。常用的調(diào)參方法有手動調(diào)參、網(wǎng)格搜索和貝葉斯優(yōu)化等。目前,一些自動化機器學(xué)習(xí)平臺和工具也可供搜索最佳模型和最佳超參數(shù)[65-67]。

5.6 使用建議

由于以上這些挑戰(zhàn),利用機器學(xué)習(xí)進行選擇時需要謹(jǐn)慎處理每一個環(huán)節(jié)。訓(xùn)練模型前,一方面需要增加數(shù)據(jù)的樣本量和多樣性,另一方面則需要盡量剔除造成數(shù)據(jù)噪聲的因素。訓(xùn)練時應(yīng)根據(jù)數(shù)據(jù)結(jié)構(gòu)選擇合適的模型,并不是越復(fù)雜越好。默認(rèn)參數(shù)在大多數(shù)時候都有較好的表現(xiàn),但為了獲得更好的選擇效果,調(diào)參工作不建議省略。為避免過擬合,訓(xùn)練結(jié)束后應(yīng)使用交叉驗證來評估模型的選擇準(zhǔn)確性。設(shè)置隨機種子以便訓(xùn)練過程能夠被重復(fù)。最后,如果出現(xiàn)了極好或者極差的情況,請認(rèn)真檢查程序,因為這種情況幾乎沒有在文獻中出現(xiàn)過。

6 結(jié)語及展望

經(jīng)典的基因組選擇方法在生產(chǎn)實踐中發(fā)揮了巨大的效力,但在理論和應(yīng)用方面仍面臨一些挑戰(zhàn)。由于品種間遺傳背景不同,開展基因組選擇時跨品種預(yù)測準(zhǔn)確性難以保證。同時,傳統(tǒng)基因組選擇方法僅利用到基因組信息,對于多組學(xué)信息的利用并不充分。如何將多組學(xué)信息進行整合,以提高選擇準(zhǔn)確度也是需要解決的問題。目前,個體分型主要采用芯片技術(shù)。而由于標(biāo)記密度低,導(dǎo)致該技術(shù)依賴于基因組連鎖不平衡。測序技術(shù)可以解決低密度問題,并且可能實現(xiàn)跨品種預(yù)測。所以,測序技術(shù)的出現(xiàn)將成為全基因組選擇新時代的轉(zhuǎn)折點。但是測序技術(shù)成本高、速度慢,對計算資源的配置要求較高。因此,如何快速并有效地儲存、處理及分析數(shù)據(jù)是測序技術(shù)應(yīng)用于全基因組育種的重要挑戰(zhàn)[68]。

目前為止,機器學(xué)習(xí)在動物基因組選擇中的應(yīng)用大多數(shù)是處理回歸問題,以二元表型的形式完成。研究進展表明,采用機器學(xué)習(xí)進行動物復(fù)雜性狀的基因組選擇,不僅彌補了傳統(tǒng)選擇方法的弊端,還能捕獲數(shù)據(jù)之間的非線性關(guān)系。眾多的優(yōu)勢和功能使機器學(xué)習(xí)能夠很好選擇動物個體的遺傳價值,這為選擇準(zhǔn)確性的提升提供了很好的突破契機。但由于數(shù)據(jù)噪聲和分布差異等問題,機器學(xué)習(xí)算法的表現(xiàn)仍不穩(wěn)定。機器學(xué)習(xí)基于算法實現(xiàn),算法又依賴于超參數(shù)的選擇。一般情況下,默認(rèn)超參數(shù)都能有不錯的表現(xiàn),所以調(diào)參需要謹(jǐn)慎進行。文末給出了一些使用建議,以期有一定的幫助。要將機器學(xué)習(xí)各類算法的最強作用發(fā)揮在基因組選擇當(dāng)中,應(yīng)從套用運算轉(zhuǎn)為啟發(fā)學(xué)習(xí),思考如何開發(fā)在動物品種中具有高準(zhǔn)確性和運算速度的選擇方法。

除了利用基因組信息外,機器學(xué)習(xí)還可以在此基礎(chǔ)上整合轉(zhuǎn)錄組信息、代謝組信息等,以提高育種值估計的準(zhǔn)確性。目前這方面的相關(guān)研究很少,但是部分已有的研究表明機器學(xué)習(xí)在多組學(xué)數(shù)據(jù)的整合中很有優(yōu)勢。隨著高通量測序和各種分子手段的快速發(fā)展,各種組學(xué)數(shù)據(jù)量逐漸龐大起來,如何將這些組學(xué)數(shù)據(jù)進行科學(xué)又恰當(dāng)?shù)恼弦蕴岣哌x擇準(zhǔn)確性也成為了目前動物育種工作中值得思考的問題之一。

[1] MEUWISSEN T H E, HAYES B J, GODDARD M E. Prediction of total genetic value using genome-wide dense marker maps. Genetics, 2001, 157(4): 1819-1829.

[2] GODDARD M. Genomic selection: prediction of accuracy and maximisation of long term response. Genetica, 2009, 136(2): 245-257.

[3] WELLER J I, EZRA E, RON M.A perspective on the future of genomic selection in dairy cattle. Journal of Dairy Science, 2017, 100(11): 8633-8644.

[4] HABIER D, FERNANDO R L, KIZILKAYA K, GARRICK D J. Extension of the Bayesian alphabet for genomic selection. BMC Bioinformatics, 2011, 12: 186.

[5] MEHER P K, RUSTGI S, KUMAR A. Performance of Bayesian and BLUP alphabets for genomic prediction: analysis, comparison and results. Heredity, 2022, 128(6): 519-530.

[6] LOPES F B, BALDI F, PASSAFARO T L, BRUNES L C, COSTA M F O, EIFERT E C, NARCISO M G, ROSA G J M, LOBO R B, MAGNABOSCO C U. Genome-enabled prediction of meat and carcass traits using Bayesian regression, single-step genomic best linear unbiased prediction and blending methods in Nelore cattle. Animal, 2021, 15(1): 100006.

[7] GUALDRóN DUARTE J L, GORI A S, HUBIN X, LOURENCO D, CHARLIER C, MISZTAL I, DRUET T. Performances of Adaptive MultiBLUP, Bayesian regressions, and weighted-GBLUP approaches for genomic predictions in Belgian Blue beef cattle. BMC Genomics, 2020, 21(1): 545.

[8] BISHOP C, NASRABADI N. Pattern recognition and machine learning. New York: Springer New York, 2006.

[9] JORDAN M I, MITCHELL T M. Machine learning: trends, perspectives, and prospects. Science, 2015, 349(6245): 255-260.

[10] MURPHY K P. Machine learning: a probabilistic perspective. Cambridge, Mass.: MIT Press, 2012.

[11] ZHANG X H, CHEN S Y, LAI K M, CHEN Z M, WAN J X, XU Y F. Machine learning for the prediction of acute kidney injury in critical care patients with acute cerebrovascular disease. Renal Failure, 2022, 44(1): 43-53.

[12] ARAúJO D C, VELOSO A A, BORGES K B G, DAS GRA?AS CARVALHO M. Prognosing the risk of COVID-19 death through a machine learning-based routine blood panel: a retrospective study in Brazil. International Journal of Medical Informatics, 2022, 165: 104835.

[13] BAE S, SAMUELS J A, FLYNN J T, MITSNEFES M M, FURTH S L, WARADY B A, NG D K. Machine learning-based prediction of masked hypertension among children with chronic kidney disease. Hypertension, 2022, 79(9): 2105-2113.

[14] REEL P S, REEL S, PEARSON E, TRUCCO E, JEFFERSON E. Using machine learning approaches for multi-omics data analysis: a review. Biotechnology Advances, 2021, 49: 107739.

[15] YAN J, WANG X F. Unsupervised and semi-supervised learning: the next frontier in machine learning for plant systems biology. The Plant Journal, 2022, 111(6): 1527-1538.

[16] TU K L, WEN S Z, CHENG Y, XU Y N, PAN T, HOU H N, GU R L, WANG J H, WANG F G, SUN Q. A model for genuineness detection in genetically and phenotypically similar maize variety seeds based on hyperspectral imaging and machine learning. Plant Methods, 2022, 18(1): 81.

[17] ESPOSITO S, RUGGIERI V, TRIPODI P. Editorial: machine learning for big data analysis: applications in plant breeding and genomics. Frontiers in Genetics, 2022, 13: 916462.

[18] ZHANG Z, ZHANG Q, DING X D. Advances in genomic selection in domestic animals. Chinese Science Bulletin, 2011, 56(25): 2655-2663.

[19] DAETWYLER H D, PONG-WONG R, VILLANUEVA B, WOOLLIAMS J A. The impact of genetic architecture on genome-wide evaluation methods. Genetics, 2010, 185(3): 1021-1031.

[20] KARIMI K, SARGOLZAEI M, PLASTOW G S, WANG Z Q, MIAR Y. Opportunities for genomic selection in American mink: a simulation study. PLoS One, 2019, 14(3): e0213873.

[21] MUIR W M. Comparison of genomic and traditional BLUP-estimated breeding value accuracy and selection response under alternative trait and genomic parameters. Journal of Animal Breeding and Genetics = Zeitschrift Fur Tierzuchtung Und Zuchtungsbiologie, 2007, 124(6): 342-355.

[22] SONG H L, ZHANG J X, ZHANG Q, DING X D. Using different single-step strategies to improve the efficiency of genomic prediction on body measurement traits in pig. Frontiers in Genetics, 2018, 9: 730.

[23] SAMUEL A L. Some studies in machine learning using the game of checkers. IBM Journal of Research and Development, 1959, 3(3): 210-229.

[24] AN B X, LIANG M, CHANG T P, DUAN X H, DU L L, XU L Y, ZHANG L P, GAO X, LI J Y, GAO H J. KCRR: a nonlinear machine learning with a modified genomic similarity matrix improved the genomic prediction efficiency. Briefings in Bioinformatics, 2021, 22(6): bbab132.

[25] BREIMAN L. Random forests. Machine Language, 2001, 45(1): 5-32.

[26] LIANG M, MIAO J, WANG X Q, CHANG T P, AN B X, DUAN X H, XU L Y, GAO X, ZHANG L P, LI J Y, GAO H J. Application of ensemble learning to genomic selection in Chinese Simmental beef cattle. Journal of Animal Breeding and Genetics = Zeitschrift Fur Tierzuchtung Und Zuchtungsbiologie, 2021, 138(3): 291-299.

[27] GONZáLEZ-RECIO O, GIANOLA D, LONG N Y, WEIGEL K A, ROSA G J M, AVENDA?O S. Nonparametric methods for incorporating genomic information into genetic evaluations: an application to mortality in broilers. Genetics, 2008, 178(4): 2305-2313.

[28] LONG N Y, GIANOLA D, ROSA G J M, WEIGEL K A. Application of support vector regression to genome-assisted prediction of quantitative traits. TAG Theoretical and Applied Genetics Theoretische Und Angewandte Genetik, 2011, 123(7): 1065-1074.

[29] GONZáLEZ-CAMACHO J M, DE LOS CAMPOS G, PéREZ P, GIANOLA D, CAIRNS J E, MAHUKU G, BABU R, CROSSA J. Genome-enabled prediction of genetic values using radial basis function neural networks. TAG Theoretical and Applied Genetics Theoretische Und Angewandte Genetik, 2012, 125(4): 759-771.

[30] TUSELL L, PéREZ-RODRíGUEZ P, FORNI S, WU X L, GIANOLA D. Genome-enabled methods for predicting litter size in pigs: a comparison. Animal, 2013, 7(11): 1739-1749.

[31] HE J R, DING L X, JIANG L, MA L. Kernel ridge regression classification. 2014 International Joint Conference on Neural Networks (IJCNN). July 6-11, 2014, Beijing, China. IEEE, 2014: 2263-2267.

[32] NADERI S, YIN T, K?NIG S. Random forest estimation of genomic breeding values for disease susceptibility over different disease incidences and genomic architectures in simulated cow calibration groups. Journal of Dairy Science, 2016, 99(9): 7261-7273.

[33] GHAFOURI-KESBI F, RAHIMI-MIANJI G, HONARVAR M, NEJATI- JAVAREMI A. Predictive ability of Random Forests, Boosting, Support Vector Machines and Genomic Best Linear Unbiased Prediction in different scenarios of genomic evaluation. Animal Production Science, 2017, 57(2): 229.

[34] WALDMANN P. Approximate Bayesian neural networks in genomic prediction. Genetics Selection Evolution, 2018, 50(1): 1-9.

[35] ABDOLLAHI-ARPANAHI R, GIANOLA D, PE?AGARICANO F. Deep learning versus parametric and ensemble methods for genomic prediction of complex phenotypes. Genetics, Selection, Evolution, 2020, 52(1): 12.

[36] YIN L L, ZHANG H H, ZHOU X, YUAN X H, ZHAO S H, LI X Y, LIU X L. KAML: improving genomic prediction accuracy of complex traits using machine learning determined parameters. Genome Biology, 2020, 21(1): 146.

[37] ALVES A A C, ESPIGOLAN R, BRESOLIN T, COSTA R M, FERNANDES JúNIOR G A, VENTURA R V, CARVALHEIRO R, ALBUQUERQUE L G. Genome-enabled prediction of reproductive traits in Nellore cattle using parametric models and machine learning methods. Animal Genetics, 2021, 52(1): 32-46.

[38] LIANG M, CHANG T P, AN B X, DUAN X H, DU L L, WANG X Q, MIAO J, XU L Y, GAO X, ZHANG L P, LI J Y, GAO H J. A stacking ensemble learning framework for genomic prediction. Frontiers in Genetics, 2021, 12: 600040.

[39] WANG X, SHI S L, WANG G J, LUO W X, WEI X, QIU A, LUO F, DING X D. Using machine learning to improve the accuracy of genomic prediction of reproduction traits in pigs. Journal of Animal Science and Biotechnology, 2022, 13(1): 60.

[40] SAUNDERS C, GAMMERMAN A, VOVK V. Ridge regression learning algorithm in dual variables. Proceedings of the Fifteenth International Conference on Machine Learning. New York: ACM, 1998: 515-521.

[41] KAR A, BHATTACHARJEE D, BASU D K, NASIPURI M, KUNDU M. Human face recognition using Gabor based kernel entropy component analysis. International Journal of Computer Vision and Image Processing, 2012, 2(3): 1-20.

[42] LU Y W, FANG X Z, XIE B L. Kernel linear regression for face recognition. Neural Computing and Applications, 2014, 24(7/8): 1843-1849.

[43] MOSER G, TIER B, CRUMP R E, KHATKAR M S, RAADSMA H W. A comparison of five methods to predict genomic breeding values of dairy bulls from genome-wide SNP markers. Genetics, Selection, Evolution, 2009, 41(1): 56.

[44] BALKENENDE L, TEUWEN J, MANN R M. Application of deep learning in breast cancer imaging. Seminars in Nuclear Medicine, 2022, 52(5): 584-596.

[45] NOVAKOVSKY G, DEXTER N, LIBBRECHT M W, WASSERMAN W W, MOSTAFAVI S. Obtaining genetics insights from deep learning via explainable artificial intelligence. Nature Reviews Genetics, 2023, 24(2): 125-137.

[46] KHAKI S, WANG L Z. Crop yield prediction using deep neural networks. Frontiers in Plant Science, 2019, 10: 621.

[47] MONTESINOS-LóPEZ O A, MARTíN-VALLEJO J, CROSSA J, GIANOLA D, HERNáNDEZ-SUáREZ C M, MONTESINOS- LóPEZ A, JULIANA P, SINGH R. A benchmarking between deep learning, support vector machine and Bayesian threshold best linear unbiased prediction for predicting ordinal traits in plant breeding. G3 Genes|Genomes|Genetics, 2019, 9(2): 601-618.

[48] MONTESINOS-LóPEZ A, MONTESINOS-LóPEZ O A, GIANOLA D, CROSSA J, HERNáNDEZ-SUáREZ C M. Multi-environment genomic prediction of plant traits using deep learners with dense architecture. G3, 2018, 8(12): 3813-3828.

[49] PéREZ-ENCISO M, ZINGARETTI L M. A guide for using deep learning for complex trait genomic prediction. Genes, 2019, 10(7): 553.

[50] SHRESTHA D L, SOLOMATINE D P. Experiments with AdaBoost. RT, an improved boosting scheme for regression. Neural Computation, 2006, 18(7): 1678-1710.

[51] FABIO M, WEN H, PETER S, CHRISTIAN M, MACKAY TRUDY F C. Leveraging multiple layers of data to predictcomplex traits. G3 (Bethesda, Md), 2020, 10(12): 4599-4613.

[52] FU Y H, XU J Y, TANG Z S, WANG L, YIN D, FAN Y, ZHANG D D, DENG F, ZHANG Y P, ZHANG H H, WANG H Y, XING W H, YIN L L, ZHU S L, ZHU M J, YU M, LI X Y, LIU X L, YUAN X H, ZHAO S H. A gene prioritization method based on a swine multi- omics knowledgebase and a deep learning model. Communications Biology, 2020, 3(1): 502.

[53] MATUKUMALLI L K, LAWLEY C T, SCHNABEL R D, TAYLOR J F, ALLAN M F, HEATON M P, O'CONNELL J, MOORE S S, SMITH T P L, SONSTEGARD T S, VAN TASSELL C P. Development and characterization of a high density SNP genotyping assay for cattle. PLoS One, 2009, 4(4): e5350.

[54] ZHANG Z, ERBE M, HE J L, OBER U, GAO N, ZHANG H, SIMIANER H, LI J Q. Accuracy of whole-genome prediction using a genetic architecture-enhanced variance-covariance matrix. G3, 2015, 5(4): 615-627.

[55] RIBEIRO M T, SINGH S, GUESTRIN C. Model-agnostic interpretability of machine learning. 2016: arXiv: 1606.05386. https://arxiv.org/abs/ 1606.05386.

[56] VELLIDO A, MARTíN-GUERRERO J, LISBOA P. Making machine learning models interpretable. Proceedings of the ESANN, F, 2012.

[57] ZHANG Q X, ZHANG L N, LIU F, LIU X D, LIU X L, ZHAO S H, ZHU M J. A study of genomic selection on porcine hematological traits using GBLUP and penalized regression methods. Acta Veterinaria et Zootechnica Sinica, 2017, 48(12): 2258-2267.

[58] HE H B, BAI Y, GARCIA E A, LI S T. ADASYN: adaptive synthetic sampling approach for imbalanced learning. 2008 IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence). June 1-8, 2008, Hong Kong, China. IEEE, 2008: 1322-1328.

[59] JAMES G, WITTEN D, HASTIE T, TIBSHIRANI R. An introduction to statistical learning: with applications in R. 2nd ed. Berlin: Springer. 2013.

[60] STANCZYK U, JAIN L C. Feature selection for data and pattern recognition preface. Studies-in-Computational-Intelligence, 2015, 584: 355.

[61] AMANCIO D R, COMIN C H, CASANOVA D, TRAVIESO G, BRUNO O M, RODRIGUES F A, DA FONTOURA COSTA L. A systematic comparison of supervised classifiers. PLoS One, 2014, 9(4): e94137.

[62] LóPEZ PINEDA A, YE Y, VISWESWARAN S, COOPER G F, WAGNER M M, TSUI F. Comparison of machine learning classifiers for influenza detection from emergency department free-text reports. Journal of Biomedical Informatics, 2015, 58: 60-69.

[63] SAKR S, ELSHAWI R, AHMED A M, QURESHI W T, BRAWNER C A, KETEYIAN S J, BLAHA M J, AL-MALLAH M H. Comparison of machine learning techniques to predict all-cause mortality using fitness data: the Henry ford exercIse testing (FIT) project. BMC Medical Informatics and Decision Making, 2017, 17(1): 174.

[64] UDDIN S, KHAN A, HOSSAIN M E, ALI MONI M. Comparing different supervised machine learning algorithms for disease prediction. BMC Medical Informatics and Decision Making, 2019, 19(1): 281.

[65] FEURER M, KLEIN A, EGGENSPERGER K, Springenberg J T, Blum M, Hutter F. Efficient and robust automated machine learning. Advances in neural information processing systems, 2015, 28: 2755-2763.

[66] OLSON R S, SIPPER M, CAVA W L, Tartarone S, Vitale S, Fu W, Patryk O, Ryan J U, Holmes J H, Moore J H. A system for accessible artificial intelligence. Genetic programming theory and practice XV. Springer. 2018: 121-134.

[67] WARING J, LINDVALL C, UMETON R. Automated machine learning: review of the state-of-the-art and opportunities for healthcare. Artificial Intelligence in Medicine, 2020, 104: 101822.

[68] YIN L L, MA Y L, XIANG T, ZHU M J, YU M, LI X Y, LIU X L, ZHAO S L. The progress and prospect of genomic selection models. Acta Veterinaria et Zootechnica Sinica, 2019, 50(2): 233-242.

Research Progress on Machine Learning for Genomic Selection in Animals

LI MianYan, WANG LiXian, ZHAO FuPing

Key Laboratory of Animal Genetics Breeding andReproduction (Poultry), Ministry of Agriculture, Institute of Animal Sciences, Chinese Academy of Agricultural Sciences, Beijing 100193

Genomic selection is defined as using the molecular marker information that covered the whole genome to estimate individual’s breeding values. Using genome information can avoid many problems caused by pedigree errors so as to improve selection accuracy and shorten breeding generation intervals. According to different statistical models, methods of estimated genomic breeding value (GEBV) can be divided into based on BLUP (best linear unbiased prediction) theory, based on Bayesian theory and others. At present, GBLUP and its improved method ssGBLUP have been widely employed. Accuracy is the most used evaluation metric for genomic selection models, which is to evaluate the similarity between the true value and the estimated value. The factors that affect the accuracy can be reflected from the model, which can be divided into controllable factors and uncontrollable factors. Traditional genomic selection methods have promoted the rapid development of animal breeding, but these methods are currently facing many challenges such as multi-population, multi-omics, and computing. What’s more, they cannot capture the nonlinear relationship between high-dimensional genomic data. As a branch of artificial intelligence, machine learning is very close to biological mastery of natural language processing. Machine learning extracts features from data and automatically summarizes the rules and use to make predictions for new data. For genomic information, machine learning does not require distribution assumptions, and all marker information can be considered in the model. Compared with traditional genomic selection methods, machine learning can more easily capture complex relationships between genotypes, phenotypes, and the environment. Therefore, machine learning has certain advantages in animal genomic selection. According to the amount and type of supervision received during training, machine learning can be classified into supervised learning, unsupervised learning, semi-supervised learning, and reinforcement learning. The main difference is whether the input data is labeled. The machine learning methods currently applied in animal genomic selection are all supervised learning. Supervised learning can handle both classification and regression problems, requiring the algorithm to be provided with labeled data and the desired output. In recent years, the application of machine learning in animal genomic selection has been increasing, especially in dairy and beef cattle. In this review, machine learning algorithms are divided into three categories: single algorithm, ensemble algorithm and deep learning, and their research progress in animal genomic selection were summarized. The most used single algorithms are KRR and SVR, both of which use kernel tricks to learn nonlinear functions and map data to higher-dimensional kernel spaces in the original space. Currently commonly used kernel functions are linear kernel, cosine kernel, Gaussian kernel, and polynomial kernel. Deep learning, also known as a deep neural network, consists of multiple layers of connected neurons. An ensemble learning algorithm refers to fusing different learners together to obtain a stronger supervised model. In the past decade, the related literature on machine learning and deep learning has shown exponential growth. And its application in genomic selection is also gradually increasing. Although machine learning has obvious advantages in some aspects, it still faces many challenges in estimating the genetic breeding value of complex traits in animals. The interpretability of some models is low, which is not conducive to the adjustment of data, parameters, and features. Data heterogeneity, sparsity, and outliers can also cause data noise for machine learning. There are also problems such as overfitting, large marks and small samples, and parameter adjustment. Therefore, each step needs to be handled carefully while training the model. This paper introduced the traditional methods of genomic selection and the problems they face, the concept and classification of machine learning. We discussed the research progress and current challenges of machine learning in animal genomic selection. A Case and some application suggestions were given to provide a certain reference for the application of machine learning in animal genomic selection.

machine learning; deep learning; genomic selection; animal breeding

10.3864/j.issn.0578-1752.2023.18.015

2022-09-17;

2023-06-28

國家自然科學(xué)基金面上項目(32172702)、國家重點研發(fā)計劃(2021YFD130110203)、中國農(nóng)業(yè)科學(xué)院科技創(chuàng)新工程(ASTIP-IAS02)、國家生豬產(chǎn)業(yè)技術(shù)體系(CARS-35)

李棉燕,Tel:15305169095;E-mail:mianyanli@outlook.com。王立賢,E-mail:iaswlx@263.net。李棉燕和王立賢為同等貢獻作者。通信作者趙福平,E-mail:zhaofuping@caas.cn

(責(zé)任編輯 林鑒非)

猜你喜歡
準(zhǔn)確性基因組機器
機器狗
機器狗
牛參考基因組中發(fā)現(xiàn)被忽視基因
淺談如何提高建筑安裝工程預(yù)算的準(zhǔn)確性
未來機器城
電影(2018年8期)2018-09-21 08:00:06
美劇翻譯中的“神翻譯”:準(zhǔn)確性和趣味性的平衡
論股票價格準(zhǔn)確性的社會效益
無敵機器蛛
超聲引導(dǎo)在腎組織活檢中的準(zhǔn)確性和安全性分析
基因組DNA甲基化及組蛋白甲基化
遺傳(2014年3期)2014-02-28 20:58:49
吴堡县| 中卫市| 新乡县| 南宫市| 根河市| 靖江市| 禄劝| 天柱县| 天长市| 油尖旺区| 九寨沟县| 鄄城县| 呼和浩特市| 阳高县| 虞城县| 本溪| 五台县| 五常市| 无棣县| 武山县| 满洲里市| 都江堰市| 沾益县| 崇信县| 边坝县| 棋牌| 康平县| 闵行区| 乌海市| 呼伦贝尔市| 莱州市| 伊金霍洛旗| 丰镇市| 华宁县| 准格尔旗| 金昌市| 东乌珠穆沁旗| 同德县| 大兴区| 南宫市| 丰宁|