白永平 彭江紅 王延卓
(烏蘭察布職業(yè)學(xué)院,內(nèi)蒙古烏蘭察布 012000)
隨著現(xiàn)代技術(shù)的發(fā)展,動物飼養(yǎng)者可以使用較少的時間,持續(xù)的監(jiān)控和收集動物和農(nóng)場的信息。特別是基于數(shù)字圖像、傳感器、聲音、無人系統(tǒng)和實(shí)時非侵入性計(jì)算機(jī)視覺產(chǎn)生的大數(shù)據(jù),可大幅度提高動物相關(guān)產(chǎn)品的質(zhì)量,維持可持續(xù)發(fā)展和維持動物的健康。結(jié)合動物的基因組學(xué)、轉(zhuǎn)錄組學(xué)和微生物組等分子信息,實(shí)現(xiàn)精準(zhǔn)動物農(nóng)業(yè)的可行性強(qiáng)。此外,全球?qū)游锂a(chǎn)品的需求量日益增加,預(yù)計(jì)到2050年對動物產(chǎn)品的需求量將增加70%,世界糧農(nóng)組織呼吁擴(kuò)大和高效生產(chǎn)動物產(chǎn)品。深度開發(fā)動物養(yǎng)殖過程中相關(guān)的大數(shù)據(jù),通過動物種質(zhì)資源數(shù)據(jù)信息和動物質(zhì)量的信息監(jiān)管以及網(wǎng)上服務(wù)系統(tǒng)的數(shù)據(jù)深度解讀,有利于推動動物產(chǎn)品的高效生產(chǎn)[1]。大數(shù)據(jù)的采集及其分析,是養(yǎng)殖業(yè)面臨的一個新的挑戰(zhàn),該挑戰(zhàn)可以通過使用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘予以解決。本文闡述了在大數(shù)據(jù)分析背景下機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的意義。本文還列舉了機(jī)器學(xué)習(xí)在動物科學(xué)相關(guān)領(lǐng)域用于預(yù)測分析精準(zhǔn)動物農(nóng)業(yè)的典型的例子。
現(xiàn)代技術(shù)的出現(xiàn)允許我們以更低的成本收集更多的數(shù)據(jù)?!按髷?shù)據(jù)”是近年來媒體關(guān)注的重點(diǎn)。然而,它的意義往往因研究領(lǐng)域的不同而差異較大。該數(shù)據(jù)中通常有多個行數(shù)或列數(shù),因此限制了視覺對數(shù)據(jù)的觀察。由于數(shù)據(jù)“大小”的定義取決于可用的計(jì)算資源,因此,對“大”的定義是不斷變化的,而且大數(shù)據(jù)量增加與科學(xué)家對數(shù)據(jù)管理技能之間的差距還在加大[2],大數(shù)據(jù)的屬性,包括數(shù)量,多樣性和低價值密度等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復(fù)雜性。并且與傳統(tǒng)的數(shù)據(jù)集合相比較而言,大數(shù)據(jù)通常包含非結(jié)構(gòu)化數(shù)據(jù),而且需要對大量數(shù)據(jù)進(jìn)行實(shí)時分析[3]。大數(shù)據(jù)的分析方法在大數(shù)據(jù)信息的分析中尤為重要。洞悉大數(shù)據(jù)或?qū)⒋髷?shù)據(jù)轉(zhuǎn)化為知識的有效方法是使用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)方法。通過在分析大數(shù)據(jù)的機(jī)器學(xué)習(xí)算法過程中,對大數(shù)據(jù)中的信息進(jìn)行深度挖掘,找到具有社會價值的信息,從而發(fā)揮數(shù)據(jù)的最大潛力[4]。
機(jī)器學(xué)習(xí),也稱為統(tǒng)計(jì)學(xué)習(xí),是人工智能的一個領(lǐng)域,專門用于研究預(yù)測和推理算法。從數(shù)據(jù)中學(xué)習(xí)是機(jī)器學(xué)習(xí)的核心。數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)具有類似之處,經(jīng)常相同的背景下做推論。在大多數(shù)實(shí)際情況中,機(jī)器學(xué)習(xí)的最終目的是學(xué)習(xí)或者選擇一組能夠最好地預(yù)測未觀測數(shù)據(jù)的候選概率模型。例如,假設(shè)我們的任務(wù)是根據(jù)基因型預(yù)測動物的表型,并且我們有一個由一對表型和相應(yīng)的基因型組成的數(shù)據(jù)集。在機(jī)器學(xué)習(xí)中,這種類型的任務(wù)稱為監(jiān)督學(xué)習(xí),其預(yù)測目標(biāo)(表型)稱為監(jiān)督信號。如果表型是離散的,例如疾病狀態(tài),那么這里的任務(wù)更具體地稱為分類任務(wù)。如果表型是定量的,則稱為回歸任務(wù)。相比之下,當(dāng)數(shù)據(jù)集不完整且只有基因型可用于所選個體(無表型)時,該任務(wù)稱為無監(jiān)督學(xué)習(xí)。神經(jīng)網(wǎng)絡(luò)是實(shí)現(xiàn)機(jī)器學(xué)習(xí)任務(wù)的一種主要的方法,它是由多種單元組成的類似于生物神經(jīng)系統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu),用來模擬生物與自然環(huán)境之間的交互,其具有強(qiáng)大的數(shù)據(jù)處理能力和自主學(xué)習(xí)能力,可以進(jìn)行精準(zhǔn)的識別,從而對分類數(shù)據(jù)進(jìn)行有效的處理[5]。計(jì)算機(jī)處理速度較慢、存儲容量不足是當(dāng)前機(jī)器學(xué)習(xí)在處理大數(shù)據(jù)時所遇到的主要問題,為了解決該問題,并降低機(jī)器學(xué)習(xí)算法的復(fù)雜度,研究者提出了三類并行處理機(jī)器學(xué)習(xí)算法的方式,即基于多核的并行機(jī)器學(xué)習(xí)算法,基于集群的并行機(jī)器學(xué)習(xí)算法和基于混合體系結(jié)構(gòu)的并行機(jī)器學(xué)習(xí)算法[6]。
我們現(xiàn)在介紹大數(shù)據(jù)分析預(yù)測在動物科學(xué)應(yīng)用方面的例子。這些示例的概述與大數(shù)據(jù)分析的相關(guān)內(nèi)容如圖1所示。
圖1 機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘在動物養(yǎng)殖行業(yè)中的應(yīng)用
動物科學(xué)的遺傳學(xué)分析可以說是最早使用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的領(lǐng)域,在基因表型預(yù)測使用最早是在2007年[7]。大數(shù)據(jù)被稱為國家層面的常規(guī)遺傳評估,涉及數(shù)百萬具有大量分子信息的動物,如基因多態(tài)性。這方面的研究是遺傳界的一個熱門話題,有研究者對機(jī)器學(xué)習(xí)在動物繁殖與培育中的應(yīng)用進(jìn)行了深入的討論[8]。鄒國英等人還研究了機(jī)器學(xué)習(xí)在人類基因重組位點(diǎn)及DNase I高敏位點(diǎn)(DHSs)的預(yù)測問題[9]。在當(dāng)今基因組和表型數(shù)據(jù)量快速增加的情況下,機(jī)器學(xué)習(xí)對非結(jié)構(gòu)化的育種產(chǎn)生越來越大的影響。
乳腺炎是影響奶牛產(chǎn)奶和哺乳期健康的主要疾病,每年導(dǎo)致巨大的經(jīng)濟(jì)損失。發(fā)病原因比較復(fù)雜,除了病原微生物感染引起外,擠奶不當(dāng)、中毒病和代謝等疾病也會誘發(fā)乳腺炎。目前,通過測量奶牛的產(chǎn)奶量,新鮮乳汁的電導(dǎo)率,乳酸脫氫酶和體細(xì)胞分?jǐn)?shù)是乳腺炎檢測的常規(guī)方法。但是這類方法存在靈敏度低,檢測復(fù)雜,需要昂貴的儀器等缺點(diǎn)。最近十年,一種非監(jiān)督訓(xùn)練的神經(jīng)網(wǎng)絡(luò)訓(xùn)練后,成功地應(yīng)用于診斷農(nóng)場的奶牛乳腺炎的發(fā)生。一個典型的例子是,我國的研究者左月明團(tuán)隊(duì),基于奶牛的新鮮乳汁的電參數(shù),建立了神經(jīng)網(wǎng)絡(luò)模型。結(jié)果表明,與沒有電參數(shù)的神經(jīng)網(wǎng)絡(luò)模型相比,該方法的靈敏度顯著提高,正確檢出率為100%[10]。該研究提示,無監(jiān)督的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)可以用來檢測奶牛的乳腺炎,為農(nóng)戶提供管理和診斷乳腺炎的工具,可以達(dá)到早期發(fā)現(xiàn),早期干涉的目的。
機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)在動物流行病的防控中主要有3個方面[11],即動物流行病預(yù)警、輔助檢測與流行病的應(yīng)急處理以及輔助動物醫(yī)學(xué)專家對流行病做出正確的防控決策。其中,前2項(xiàng)內(nèi)容,主要是由國家和地方動物衛(wèi)生與流行病學(xué)機(jī)構(gòu)進(jìn)行分析應(yīng)用,第三項(xiàng)多為動物醫(yī)學(xué)專家關(guān)注。付雯等報道的偉嘉集團(tuán),通過將檢測云平臺、互聯(lián)網(wǎng)以及云計(jì)算中心將檢測實(shí)驗(yàn)室、檢測養(yǎng)殖場和獸醫(yī)資源專家進(jìn)行整合,通過大數(shù)據(jù)挖掘以提供疫病診斷、用藥安全以及流行病學(xué)調(diào)查等技術(shù)服務(wù)[12]。大數(shù)據(jù)在動物流行病防控中的潛在價值遠(yuǎn)遠(yuǎn)大于小規(guī)模數(shù)據(jù),能夠通過大數(shù)據(jù)來評估疾病風(fēng)險和預(yù)測大規(guī)模爆發(fā)時間,以及發(fā)生疫情后通過大數(shù)據(jù)進(jìn)行緊急防控和應(yīng)急處置,并在疫情結(jié)束后通過大數(shù)據(jù)來分析總結(jié)疾病原因,制定更加全面的保護(hù)措施。
雖然動物行為一直是動物科學(xué)中圖像數(shù)字分析的核心內(nèi)容,但是動物的體重測定是圖像分析的一個新興領(lǐng)域[8]。動物體重是營養(yǎng)與育種管理的一項(xiàng)關(guān)鍵的指標(biāo),它是動物生長,健康狀況和市場準(zhǔn)備的直接指標(biāo)。因此準(zhǔn)確的動物體重確定,對畜牧業(yè)研究至關(guān)重要。傳統(tǒng)測量動物體重的方法是靠地磅測量,但是該方法具有費(fèi)力和準(zhǔn)確度低的缺點(diǎn)。采用圖像分析獲得動物的體重參數(shù)是一項(xiàng)可行的技術(shù),可以減少常規(guī)方法測量體重的缺陷,它可以自動測量動物圖像的尺寸,然后利用預(yù)測方程來建立圖像參數(shù)與活體動物體重之間的關(guān)系。
一般來說,有研究報告基于數(shù)字圖像的生物識別的可行性?;诩t外光的深度傳感器,例如微軟公司的一款MK設(shè)備,是一個用于此目的的合適的視覺系統(tǒng)。該系統(tǒng)使用深度映射圖像技術(shù),最大限度的減少了圖像捕獲過程中由于環(huán)境背景和動物皮毛顏色的干擾造成的負(fù)面效應(yīng)[14]。通過特定的計(jì)算工具,如MATLAB中的圖像獲取工具箱,對MK相機(jī)生成的圖像進(jìn)行分析。在該工具中,必須指定深度圖通道,以確保在測量過程中能夠獲得良好的圖像。例如研究者分別假設(shè)每次采集50幀和20幀的深度圖,應(yīng)用在豬和肉牛的體重研究中[13,14]。
根據(jù)不同的研究目的,可以使用不同的圖像部分。比如,Gomes等人使用動物胸部寬度、腹部寬度、體長和背高的圖像,他們發(fā)現(xiàn)動物的胸部寬度與體重呈現(xiàn)非常好的相關(guān)性[13]。Kongsro等人使用選定的圖像部分進(jìn)行估計(jì)豬的體積,發(fā)現(xiàn)其與豬的體重呈現(xiàn)良好的相關(guān)性。他們報告了在不同大小和品種的豬的體重預(yù)測中有一個小的平均誤差[14]。楊威等人通過混合高斯模型對背景進(jìn)行建模,并利用圖像局部特征ORB關(guān)鍵點(diǎn)作為分類的屬性對圈養(yǎng)的豪豬進(jìn)行行為識別,準(zhǔn)確率能夠達(dá)到93.23%,為信息采集、智能監(jiān)控在動物養(yǎng)殖業(yè)的應(yīng)用提供了參考[15]。雖然上述研究表明了通過MK系統(tǒng)拍攝的數(shù)字圖像用于畜牧業(yè)體重估算有很大的應(yīng)用潛力,但是仍存在一些挑戰(zhàn)。因此,神經(jīng)網(wǎng)絡(luò)在圖像識別和預(yù)測性能方面具有靈活性和高效性,是一種可行的解決方案。
隨著下一代測序方法的進(jìn)步,動物農(nóng)業(yè)的發(fā)展出現(xiàn)了許多機(jī)遇,在動物農(nóng)業(yè)的發(fā)展過程中有很多新型的方法會出現(xiàn)。其中,微生物組的研究與應(yīng)用是一個典型的例子。大量的研究表明,對牲畜種類的宏基因組研究已經(jīng)展現(xiàn)出了微生物組對飼料效率,動物健康,動物繁殖等的重要性[16,17]。然而,盡管這些宏基因組研究已經(jīng)使人們更好地了解牲畜的健康和生產(chǎn)中的微生物組,但是大多數(shù)微生物產(chǎn)生的遺傳信息目前并沒有充分利用起來。新的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)方法對于未來微生物組的研究至關(guān)重要,以改善動物農(nóng)業(yè)中的動物生產(chǎn)和表型預(yù)測。
迄今為止,少量研究嘗試了使用動物微生物組預(yù)測動物表型。Shabat等人調(diào)查了78只奶牛的種群,研究表明動物瘤胃微生物的種類和微生物基因組可用于預(yù)測飼料的飼喂效率表型,精確度高達(dá)91%。更重要的是,研究表明微生物組的特征可以高度預(yù)測動物的生理特征,如牛奶乳酸和牛奶產(chǎn)量[18]。例如,在腸道中注釋微生物功能相關(guān)性的能力尚處于起步階段。在腸道中注釋微生物組功能相關(guān)性的研究尚處于起步階段。此外,大多數(shù)研究確定了微生物組的變化和宿主表型之間的關(guān)系,但未能解釋其因果關(guān)系。由于目前預(yù)測微生物組對動物腸道環(huán)境的變化和操縱的反應(yīng)能力有限,人工調(diào)節(jié)腸道微生物菌群的途徑也非常有限。需要多學(xué)科方法以及新穎的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)方法。
完全自動化的數(shù)據(jù)收集或表型平臺,能夠?qū)崿F(xiàn)精準(zhǔn)的動物農(nóng)業(yè),其特征不僅在于數(shù)據(jù)量增加,而且也表現(xiàn)為實(shí)時收集的復(fù)雜性和動態(tài)特性。有了支持?jǐn)?shù)據(jù)密集型的技術(shù),在養(yǎng)殖過程中,我們可以持續(xù)監(jiān)控動物,有助于提高動物的健康狀況、性能和環(huán)境負(fù)荷等。目前,動物科學(xué)界缺乏可以充分利用這些新型類型數(shù)據(jù)的基礎(chǔ)設(shè)施和工具。當(dāng)這些數(shù)據(jù)與體動物的基因組學(xué),轉(zhuǎn)錄組學(xué)和微生物組等分子信息結(jié)合起來,新型的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)可以提取關(guān)鍵的信息,推進(jìn)實(shí)施精準(zhǔn)動物農(nóng)業(yè)。此外,具有互補(bǔ)背景的跨學(xué)科領(lǐng)域,如計(jì)算機(jī)科學(xué),經(jīng)濟(jì)學(xué),工程學(xué),數(shù)學(xué)和統(tǒng)計(jì)學(xué),以及工業(yè),對于有效開發(fā)分析高通量和異質(zhì)數(shù)據(jù)的前沿方法是必不可少的。精準(zhǔn)動物農(nóng)業(yè)領(lǐng)域內(nèi),養(yǎng)殖人員定制管理實(shí)踐,采用具有預(yù)測用途的機(jī)器學(xué)習(xí)方法將驅(qū)動動物養(yǎng)殖大數(shù)據(jù)實(shí)現(xiàn)精準(zhǔn)動物養(yǎng)殖。