盧 鵬,金靜靜,曹培健,許亞龍,李澤鋒
中國煙草總公司鄭州煙草研究院,鄭州高新技術產業(yè)開發(fā)區(qū)楓楊街2 號 450001
近年來,隨著高通量植物表型數(shù)據(jù)獲取技術的廣泛應用和植物表型數(shù)據(jù)的快速積累,逐步形成了以植物表型組學數(shù)據(jù)為基礎、以多學科交叉分析技術為手段的大數(shù)據(jù)體系,并在植物表型大數(shù)據(jù)的數(shù)據(jù)獲取、數(shù)據(jù)存儲管理以及數(shù)據(jù)分析應用等方面取得了較快的研究進展,利用表型大數(shù)據(jù)開展植物育種尤其是為作物進行智能輔助育種已逐漸成為研究熱點。為及時了解植物表型大數(shù)據(jù)相關技術的發(fā)展,跟蹤植物表型大數(shù)據(jù)的研究前沿與熱點,回顧了植物表型組學的相關概念,并對植物表型組學大數(shù)據(jù)的研究進展,尤其是對其在育種方面的應用進行了梳理,同時關注了煙草表型大數(shù)據(jù)的產生和發(fā)展過程,并對該領域今后的發(fā)展作了展望。
在植物學和遺傳學研究領域,特別是在作物育種領域,表型(Phenotype)是一個使用非常廣泛的術語,該術語來源于希臘詞語Phainein 和Typos的組合。在1911 年“表型”這一術語被Johannsen首次定義為“可通過直接觀察或精細測量進行描述區(qū)分的生物屬性”[1]。表型組(Phenome)則在1949 年被Davis 首次定義為“細胞中所有非遺傳性、非自復制部分的總和,是所有表型的集合”[2]。20 世紀90 年代,人類基因組、轉錄組以及遺傳疾病關聯(lián)分析等各類研究的開展促進了相關理論的不斷發(fā)展,1997 年,Schork 等[3]首次在疾病研究中提出了表型組學概念。此后,隨著表型組學研究的不斷深入和發(fā)展,表型組學的定義也在不斷地完善。2010 年,Houle 等[4]定義表型組學為“在整個組織范圍內獲取多維表型數(shù)據(jù)”。2013年,F(xiàn)iorani 等[5]提出將植物表型組學定義為“作為一套方法學,在不同尺度上精確測量植物的生長、結構和組成”?,F(xiàn)在植物表型組學更傾向于被定義為“在植物發(fā)育過程中,對整個生物體進行高通量數(shù)據(jù)準確采集和多維表型分析的多學科研究”[6]。表型組學自20 世紀90 年代被提出,經歷多年的研究和發(fā)展,現(xiàn)已逐漸成為生命科學領域的一個重要分支。
系統(tǒng)的植物表型組學研究正式開始于20 世紀末,主要收集質量較高、可重復獲取的植物表型數(shù)據(jù),在該數(shù)據(jù)的基礎上分析基因型和環(huán)境因素的互作效應,研究該數(shù)據(jù)對產量、質量和抗性等主要植物性狀的影響[7]。進入21 世紀以后,隨著下一代測序技術的廣泛應用和基因組學研究的不斷深入,表型組學的理論基礎和研究方法也得到了快速的發(fā)展[8]。2011 年,澳大利亞植物學家Furbank等[9]指出,高通量表型數(shù)據(jù)采集技術在田間的應用、全球表型組學信息數(shù)據(jù)庫的元數(shù)據(jù)標準化缺失、植物非生物脅迫的高通量表型數(shù)據(jù)分析等問題已經成為植物表型組學研究的瓶頸。為有效解決這些問題,打破植物表型研究的發(fā)展瓶頸,大量優(yōu)秀的商業(yè)機構和科研機構進行了相關技術的開發(fā),促進了高通量、高精度表型數(shù)據(jù)采集工具的快速發(fā)展。隨著表型獲取技術精度的不斷提升、通量的不斷提高、成本的逐漸降低,越來越多的植物進行了高精度高通量的表型數(shù)據(jù)獲取,如擬南芥[10]、大麥[11]、玉米[12]等。
科學大數(shù)據(jù)的形成依賴于海量數(shù)據(jù)的獲取和積累,隨著各類高通量表型數(shù)據(jù)采集設備的使用,植物表型數(shù)據(jù)量也呈現(xiàn)出快速增長的態(tài)勢。隨著數(shù)據(jù)體量不斷增大,各類植物表型數(shù)據(jù)庫和相關數(shù)據(jù)管理分析平臺紛紛建立,期間多種學科領域數(shù)據(jù)分析和挖掘技術也開始研發(fā)與應用,逐漸形成了數(shù)據(jù)體量大、增長速度快、多學科技術交叉、數(shù)據(jù)多樣的植物表型組學大數(shù)據(jù)體系,該體系涵蓋了從植物細胞到植物群體的多個尺度、多種生長環(huán)境下植物性狀的遺傳與變異,以及植物對生物和非生物脅迫的響應等各類信息[13]。
植物表型組學大數(shù)據(jù)的研究主要集中在大數(shù)據(jù)的獲取、存儲管理、分析和應用4 個方面。其中數(shù)據(jù)獲取主要是利用各類成像技術、設備平臺獲取表型數(shù)據(jù);數(shù)據(jù)存儲管理是將數(shù)以Tb 計的表型數(shù)據(jù)進行存儲、管理,以便進行后續(xù)的數(shù)據(jù)檢索、分析和應用;數(shù)據(jù)分析是通過各種技術手段分析表型數(shù)據(jù),以獲得可用的生物學、農學知識;數(shù)據(jù)應用主要集中在育種方面,包括鑒定各類候選基因和分子標記,將表型組數(shù)據(jù)與其他組學數(shù)據(jù)整合,建立各類育種輔助模型等。
植物表型數(shù)據(jù)的獲取是指利用包括多光譜成像、高光譜成像、紅外成像、光合熒光成像、CT 掃描和MRI 掃描等技術在內的數(shù)據(jù)采集設備,從細胞、器官、植株、群體等不同尺度對表型數(shù)據(jù)進行獲取的過程。數(shù)據(jù)采集設備所搭載的平臺涵蓋了從室內到大田,從便攜式表型采集設備到各類型航空飛行器等多個層面。利用這些方法進行數(shù)據(jù)采集的植物主要包括:擬南芥[10]、大麥[11]、玉米[12]、小麥[14]、大豆[15]、水稻[16]等。表1 列舉了高通量植物表型數(shù)據(jù)獲取的平臺、支持的采集技術、應用場景以及優(yōu)缺點等信息。
目前,植物表型數(shù)據(jù)獲取的研究熱點仍然集中于開發(fā)高通量、高精度、應用場景廣泛、使用成本低的大型平臺,此類平臺主要包括能夠應用于溫室內和田間的傳送帶式和軌道式兩種。田間和溫室傳送帶主要針對能夠在傳送帶上培養(yǎng)的盆栽植物,通過動力傳送至成像區(qū)域進行成像,分別以澳大利亞植物表型加速器和德國尤利希植物表型研究中心溫室表型系統(tǒng)為代表。田間和溫室的軌道式平臺用于固定區(qū)域內植株群體性狀的采集,應用較為廣泛的主要有德國LemnaTec 公司的Field Scanalyzer 采集平臺,主要用于檢測可控環(huán)境中的植物形態(tài)特征,可進行高通量植物表型成像分析測量、植物脅迫響應成像分析測量、植物生長分析測量、性狀識別及植物生理生態(tài)分析研究等[27]。
我國在大型表型數(shù)據(jù)采集平臺方面的自主研發(fā)起步相對較晚,開發(fā)出的表型平臺主要針對單一植物或者固定性狀進行采集,整體平臺研發(fā)水平與國際先進水平仍有一定差距。國內使用較為廣泛的自主研發(fā)平臺主要有2014 年華中農業(yè)大學和華中科技大學聯(lián)合研制的全生育期高通量水稻表型數(shù)據(jù)測量平臺,用于自動采集水稻株高、葉面積、分蘗數(shù)、生物量、產量等15 個參數(shù)的數(shù)據(jù)[30],以及2017 年中國科學院遺傳與發(fā)育生物學研究所研制的植物表型組學研究平臺PPAP[31]。
表1 高通量植物表型數(shù)據(jù)采集平臺Tab.1 High-throughput plant phenotypic data collection platforms
高通量植物表型數(shù)據(jù)主要分為結構化數(shù)據(jù)和非結構化數(shù)據(jù)兩大類,結構化數(shù)據(jù)主要是指傳統(tǒng)農藝性狀、植物抗病抗逆信息、品質性狀等數(shù)值型和字符型數(shù)據(jù);非結構化數(shù)據(jù)或半結構化數(shù)據(jù)主要來源于各類圖像、光譜、文件等。根據(jù)表型數(shù)據(jù)的特點,在進行數(shù)據(jù)存儲利用之前,會依據(jù)最小信息、本體術語和數(shù)據(jù)格式等3 個原則對數(shù)據(jù)進行標準化處理,之后通過文件服務器存儲數(shù)據(jù)、數(shù)據(jù)庫系統(tǒng)發(fā)布數(shù)據(jù)和提供服務的方式對表型數(shù)據(jù)進行存儲管理。
目前單一的植物表型組學數(shù)據(jù)庫較少,大部分數(shù)據(jù)庫都涵蓋了包括基因組數(shù)據(jù)在內的多個組學的數(shù)據(jù)。表2 匯總了2015 年以來具有代表性的植物及煙草表型組學數(shù)據(jù)平臺,包括平臺的簡單介紹、數(shù)據(jù)內容和發(fā)布年份等信息。
應用較為廣泛且影響力較大的綜合類表型數(shù)據(jù)有Planteome 數(shù)據(jù)庫和PGP 知識庫。Planteome數(shù)據(jù)庫采用本體術語(Ontology Terms)作為表型數(shù)據(jù)的唯一和可重復性注釋,本體術語主要包括植物本體、植物性狀本體、植物實驗條件本體、表型和屬性本體等。數(shù)據(jù)庫提供了95 個植物分類群的表型數(shù)據(jù),主要包括植物表型、植物性狀、基因功能和表達數(shù)據(jù)及其本體術語注釋等,憑借著其較為全面的數(shù)據(jù)和標準的作物本體,其對性狀和表型評分的標準已經被多個國際作物育種項目采用[34]。PGP 知識庫是一個用于存儲、分享植物基因組學和表型組學研究數(shù)據(jù)的平臺,數(shù)據(jù)庫擁有21 157 個數(shù)據(jù)實體,主要包括來自高通量植物表型的數(shù)據(jù)圖像、未完成的基因型數(shù)據(jù)、用于可視化的形態(tài)植物模型數(shù)據(jù)、質譜數(shù)據(jù)以及各類軟件文檔等未正式發(fā)布的跨域實驗數(shù)據(jù)集,并提供所有數(shù)據(jù)的發(fā)布和下載功能[38]。
表2 植物表型組學數(shù)據(jù)平臺Tab.2 Plant phenomics data platforms
高通量采集設備獲取的表型數(shù)據(jù)中大部分是非結構化數(shù)據(jù)。植物表型分析和研究主要是通過計算機科學技術進行分析,例如視覺算法、深度學習、數(shù)字圖像處理、數(shù)據(jù)挖掘等技術,提取出數(shù)據(jù)中具有使用價值的生物學信息,利用這些信息或結合其他組學、環(huán)境數(shù)據(jù)再進行植物生長發(fā)育的研究。表3 匯總了在表型圖像數(shù)據(jù)分析中主要使用的理論方法、應用技術和已成功應用的案例等。
表3 表型數(shù)據(jù)分析方法分類Tab.3 Classification of phenotypic data analysis methods
盡管傳統(tǒng)的機器學習和圖像處理技術在特定場景下仍然發(fā)揮著作用,但隨著高通量表型數(shù)據(jù)采集技術的快速發(fā)展和表型數(shù)據(jù)量的爆炸式增長,利用包括卷積神經網(wǎng)絡、深度神經網(wǎng)絡、轉移學習等在內的深度學習算法開發(fā)算法架構,如ResNet[46],VGGNet[46],AlexNet[47],GoogLeNet[47],SegNet[48],SqueezeNet[49],ARIGAN[50]等,以及自動識別及分析圖像數(shù)據(jù)已經成為表型數(shù)據(jù)分析一個主要的研究方向,在植物表型尤其在植物脅迫和病害表型的大數(shù)據(jù)圖像處理方面開始廣泛應用[44]并且表現(xiàn)出色,如植物表型信息預測方面的基于葉脈模式的植物識別[51]、植物秸稈數(shù)量和秸稈寬度測量[52]、根和芽的定位和特征檢測[14],植物抗逆抗病檢測分析方面的木薯褐斑病和花葉病檢測[53]、橄欖快速衰退綜合征檢測[54]以及甜瓜黃斑病、黃瓜花葉病等多種作物病害分析[55]等。這些方法能夠利用多類型表型數(shù)據(jù)建立植物組織模型、研究植物表型地域差異、預測植物表型信息和揭示植物演化規(guī)律等,可為植物表型組的持續(xù)深入研究提供重要的技術支持。
育種是植物表型研究,尤其是作物表型研究的重要應用目的之一。作物育種經歷了以人工篩選為主要方法的第一代、以雜交為主要方法的第二代和以分子標記和全基因組關聯(lián)分析為主要輔助方法的第三代的逐步發(fā)展,目前正在開啟多學科交叉、多組學數(shù)據(jù)支持的第四代大數(shù)據(jù)智能輔助育種階段[56]。實現(xiàn)智能化輔助育種需要整合表型組和基因組、轉錄組、代謝組等多組學數(shù)據(jù),通過全基因組關聯(lián)研究(Genome-Wide Association Studies,GWAS)、數(shù)量性狀位點(Quantitative Trait Loci,QTL)分析等多種技術手段生成大量候選基因、候選分子標記等數(shù)據(jù),建立育種信息模擬、親本選配推薦、育種路徑推薦、育成品種預測等一批模型,形成最終的智能育種決策體系(圖1)。
圖1 植物大數(shù)據(jù)智能輔助育種體系Fig.1 Intelligent breeding system assisted by plant big data
近年來,很多植物都完成了全基因組測序,隨著大規(guī)模植物表型數(shù)據(jù)采集和處理技術的發(fā)展,植物表型組學數(shù)據(jù)的持續(xù)積累和完善,利用表型組數(shù)據(jù)進行植物基因型選擇鑒定研究的應用也日益廣泛。2014 年,Honsdorf 等[57]通過高通量表型平臺Scanalyzer3D,在一組野生大麥滲入系中分別鑒定出了44 個和21 個干旱脅迫QTLs。2015 年,Yang 等[58]使用自行設計的高通量葉片評分系統(tǒng)(High-throughput Leaf Scoring,HLS)對3 個生長階段的533 份水稻材料進行了檢測,對其29 個葉片性狀進行了GWAS 分析,從中檢測出了9 個與葉片性狀相關的基因位點。2019 年,Yano 等[59]對大量水稻表型性狀數(shù)據(jù)進行主成分分析,提取具有特定表型性狀的主成分,并將主成分得分與GWAS 結合起來,鑒定出能夠激活赤霉素(GA)信號的SPINDLY(OsSPY)基因,并證實了GA 信號對水稻結構調控的影響。將高通量表型數(shù)據(jù)與大規(guī)模QTL 或GWAS 分析技術相結合,為植物基因挖掘、基因表征提供了新的方法,為分子育種和智能輔助育種提供了技術支持。
相比其他育種方法,第四代智能輔助育種體系有著無可比擬的優(yōu)勢,是育種發(fā)展的必然趨勢。一些擁有較為完善組學數(shù)據(jù)的作物研究機構和高校,已經開始將表型組學大數(shù)據(jù)應用于智能育種的方案設計,提出了初步的智能育種商業(yè)模式[60]。相信在不久的將來,智能輔助育種的各種模型和決策體系將會快速建立起來,推動植物育種進入新的時代。
煙草作為茄科植物的一個重要模式物種,憑借著較高的科研價值和經濟價值,在宿主與病原體的相互作用以及瞬時蛋白表達、蛋白功能檢測、亞細胞蛋白定位研究[61-63]、植物與非生物脅迫響應、植物發(fā)育和代謝的功能基因研究[64-65]等多方面必將有著廣泛的應用前景。
早期煙草表型研究的發(fā)展和表型數(shù)據(jù)的積累往往在煙草育種研究的推動下進行。20 世紀70年代,美、日、俄等國家相繼開始收集作物種質資源,構建相關的種質資源庫,在世界各國煙草品種和種質資源的收集整理過程產生了早期的煙草表型數(shù)據(jù),如美國國家植物種質資源系統(tǒng),日本的作物種質資源信息系統(tǒng),前蘇聯(lián)的農作物種質資源數(shù)據(jù)庫等。其中,截止到2019 年底,美國國家植物種質資源系統(tǒng)共收錄了2 300 余條煙草表型數(shù)據(jù)[66],涵蓋煙草形態(tài)和生物學特征、化學成分等兩大類共28 個屬性。
煙草作為我國農業(yè)生產中重要的經濟作物之一,科研人員對于煙草表型的研究很關注,尤其是煙葉的產量質量、煙草的抗性、遺傳育種等方面。在傳統(tǒng)農業(yè)研究領域中,我國主要的煙草表型相關數(shù)據(jù)庫有兩個,一個是中國作物種質資源信息系統(tǒng),該系統(tǒng)于1986 年我國啟動國家種質資源的收集工作時開始構建,涵蓋180 種作物,包括38 萬余份種質信息,其中收錄了約1 160 余份煙草種質的表型數(shù)據(jù)[67];另一個是煙草專業(yè)的種質資源數(shù)據(jù)庫“中國煙草種質資源信息系統(tǒng)”,該系統(tǒng)在兩次全國大范圍收集煙草種質資源數(shù)據(jù)的基礎上,于2010 年開始構建,收集了約5 200 份煙草種質資源信息,共收錄4 000 余條表型數(shù)據(jù)[68],涵蓋煙草形態(tài)與生物學特征、品質特征及抗逆性三大類的73 個屬性,目前該數(shù)據(jù)庫是我國煙草表型數(shù)據(jù)收錄較全的專業(yè)數(shù)據(jù)庫之一。此外,近年來在地方煙草種質資源鑒定和煙草品種培育的過程中,如云南、貴州、湖北等地都持續(xù)有煙草表型數(shù)據(jù)的產出,但這些數(shù)據(jù)多以紙質書籍的形式進行記錄和發(fā)表[69-71],未能建立有效的電子數(shù)據(jù)庫進行數(shù)據(jù)交流和共享,在一定程度上限制了數(shù)據(jù)的高效利用。
隨著煙草基因組相關研究的快速發(fā)展,尤其是多個煙草基因組數(shù)據(jù)的發(fā)布,推動了煙草表型性狀相關功能基因的研究,新基因挖掘和基礎研究取得了明顯進展。近年來,一批重要性狀的功能基因,尤其是在煙草優(yōu)質、多抗、低害方面的相關基因被分析鑒定,例如蔗糖合酶基因家族在煙草系統(tǒng)發(fā)育中的表達模式分析[72],煙草CAMTA基因家族的進化和表達分析研究[73],本氏煙病毒誘導基因沉默研究[35],LcPDS,LcZDS和LcCRTISO基因過表達對煙草耐鹽性的影響[74],煙草CchGLP基因過表達對表型和microRNAs 表達變化的研究[75],烤煙產量相關性狀的QTL 定位分析[76],不同發(fā)育時期煙草葉數(shù)和葉面積的QTL 動態(tài)分析[77]等。在功能基因研究鑒定的過程中產生了一批煙草表型數(shù)據(jù),部分研究專門建立了煙草基因組和表型組的數(shù)據(jù)庫[35]。
隨著植物高通量表型數(shù)據(jù)獲取技術的日益成熟,部分高通量數(shù)據(jù)采集技術和數(shù)據(jù)分析技術開始應用于煙草,其中應用較為廣泛的是小型無人機采集平臺。目前該技術在煙草上的應用領域主要為煙草的生產管理,如煙株數(shù)量統(tǒng)計[78]、烤煙生長狀態(tài)檢測[79]、煙草種植面積評估[80]、煙草含氮化合物估測[81]等;另外在煙草病蟲害檢測方面也有應用,如煙草花葉病害高光譜特征研究[82]等。
通過傳統(tǒng)農業(yè)研究、現(xiàn)代育種技術和高通量技術等產生的煙草表型數(shù)據(jù)正在日益增長,這些數(shù)據(jù)將逐漸成為煙草表型組學研究的基礎。
為推進煙草科學大數(shù)據(jù)的發(fā)展,2018 年國家煙草專賣局“煙草科研大數(shù)據(jù)”重大專項正式啟動實施,開始進行煙草科學大數(shù)據(jù)平臺的硬件搭建和項目部署,也為煙草表型組學大數(shù)據(jù)提供了有利的軟、硬件環(huán)境。項目初期進行了煙草科學大數(shù)據(jù)資源體系和標準體系的構建,體系中規(guī)劃了現(xiàn)代煙草農業(yè)數(shù)據(jù)和生態(tài)基礎數(shù)據(jù)等內容,規(guī)范了相關的數(shù)據(jù)元標準[83-84]。目前首批重大專項項目已經有部分數(shù)據(jù)和成果產出,如煙葉質量大數(shù)據(jù)構建及應用研究項目產出煙葉相關的表型數(shù)據(jù),將降維技術應用到煙葉質量可視化[85];煙草近紅外大數(shù)據(jù)構建及應用項目利用近紅外設備進行煙草化學成分高通量檢測分析;煙草育種大數(shù)據(jù)構建及應用項目開始建立專業(yè)平臺進行煙草表型組、基因組、轉錄組等數(shù)據(jù)的收集整理。以上項目的實施,能夠為煙草科學大數(shù)據(jù)尤其是煙草表型組學大數(shù)據(jù)提供統(tǒng)一的數(shù)據(jù)存儲管理平臺,解決煙草表型數(shù)據(jù)較為分散的問題。
目前已有高通量數(shù)據(jù)采集設備應用于煙草表型研究,如采用無人機對群體表型數(shù)據(jù)進行采集的方式,高通量數(shù)據(jù)處理分析算法的研究也取得了一定進展[78-82]。同時煙草科研大數(shù)據(jù)項目站在大數(shù)據(jù)的角度,開始將三維建模、機器學習、人工智能等計算機技術和生物技術引入到煙草科學大數(shù)據(jù)分析中,為煙草表型組學大數(shù)據(jù)研究打下基礎。但煙草高通量數(shù)據(jù)采集主要集中在群體表型方面,缺乏溫室傳送帶或者軌道式平臺在溫室或田間對煙草整株、局部組織器官和種子等進行高通量多光譜的測量。該類數(shù)據(jù)的缺乏將限制相關數(shù)據(jù)分析算法在煙草上的應用,遲滯煙草生長發(fā)育過程監(jiān)測、植株三維模型構建等研究的開展。
分子育種技術目前是世界煙草育種使用的主要手段[86],我國煙草也處于分子育種的階段,擁有一套較為成熟的分子育種技術體系[87]。該體系由煙草分子標記輔助育種、基因克隆與基因轉化等多種技術組成。煙草方面開展了抗多種病毒?。?8]以及糖酯[89]相關的分子標記開發(fā)、品種創(chuàng)制以及表型驗證等工作,獲取了一批與抗病和品質性狀相關的分子標記和基因。雖然有很多煙草基因和分子標記被鑒定發(fā)布,但由于缺乏高通量的表型采集設備和分析軟件,尤其是針對煙草組織、器官和單株等表型的專業(yè)數(shù)據(jù)采集設備,導致煙草暫未開展高通量表型數(shù)據(jù)與大規(guī)模QTL 或GWAS 分析技術相結合的研究工作,也未能開展大規(guī)模、更深入的基因挖掘和基因表征的研究工作。煙草表型數(shù)據(jù)在育種研究中的應用也多以分子標記和基因的驗證為主,應用范圍較為有限。
煙草表型組學研究進展較為遲緩,高通量數(shù)據(jù)積累較少,已有的數(shù)據(jù)分布零散,多項數(shù)據(jù)標準仍在制定過程中,距推廣應用還有一定距離。煙草分子標記和基因的數(shù)量相較其他作物仍然較少,仍未能形成統(tǒng)一的煙草表型組學大數(shù)據(jù)體系,而煙草智能育種體系的構建需要煙草表型組大數(shù)據(jù)和煙草基因型大數(shù)據(jù)作為核心驅動源,在缺少該部分核心大數(shù)據(jù)的前提下,煙草的各類智能化輔助育種模型的構建也鮮有報道,煙草表型組學大數(shù)據(jù)在智能輔助育種方面仍有較長的路要走。
綜上,相比其他植物的表型研究,煙草高通量表型數(shù)據(jù)采集技術的應用仍然較少,煙草表型組學相關大數(shù)據(jù)平臺的建設也較為遲緩,植物學、自動化、圖形圖像和計算機科學等其他科學領域先進的數(shù)據(jù)分析技術也鮮有使用,使得煙草表型缺少形成大數(shù)據(jù)的基礎條件,無法形成一個有效的科學系統(tǒng),難以為煙草大數(shù)據(jù)智能化輔助育種提供支持。針對我國煙草表型組學大數(shù)據(jù)發(fā)展的問題,為快速推進我國煙草表型組學大數(shù)據(jù)的構建和發(fā)展,提出以下建議:
(1)強化高通量表型數(shù)據(jù)采集技術在煙草上的應用
目前部分煙草抗逆性、基礎農藝性狀等表型數(shù)據(jù)的獲取仍然是以人工采集的方式為主,該方法雖然便于實施,但是大規(guī)模數(shù)據(jù)采集的難度較大,準確性較難保障。高通量的表型數(shù)據(jù)采集設備和技術已經在煙草上開始應用,但相較其他作物仍然不成熟,缺乏高通量的表型數(shù)據(jù)采集設備和數(shù)據(jù)分析技術,限制了煙草產量預測、群體性狀檢測、大面積病蟲害監(jiān)測預警、三維模型構建、表型鑒定和分類、整合表型組學的多組學研究等多個方面的研究進展。高通量表型數(shù)據(jù)采集設備是獲取高通量植物表型數(shù)據(jù)最有效、最快速的技術手段,其應用水平直接影響到煙草表型組學大數(shù)據(jù)的發(fā)展。因此,建議加強高通量表型數(shù)據(jù)采集技術在煙草上的推廣應用,加快數(shù)據(jù)采集方式由機器代替人工的轉變,為煙草表型組學大數(shù)據(jù)的發(fā)展奠定數(shù)據(jù)基礎。
(2)構建煙草高通量表型數(shù)據(jù)標準和高通量數(shù)據(jù)庫
我國的煙草表型研究機構較多,但目前尚未制定出煙草高通量表型數(shù)據(jù)標準,雖然煙草行業(yè)已經開始了煙草科學大數(shù)據(jù)資源體系和標準體系的構建,但在數(shù)據(jù)采集的設備信息、數(shù)據(jù)采集方法、數(shù)據(jù)圖像格式等一系列元數(shù)據(jù)采集上仍然缺少統(tǒng)一的命名、標注和約束條件等數(shù)據(jù)采集標準和規(guī)范。在沒有數(shù)據(jù)采集標準和規(guī)范的前提下采集的表型數(shù)據(jù)往往會造成采集數(shù)據(jù)差異大、數(shù)據(jù)信息不完整、數(shù)據(jù)無法共享通用等一系列問題,最終會遲滯煙草表型組學大數(shù)據(jù)的快速發(fā)展?,F(xiàn)階段煙草高通量表型數(shù)據(jù)尚未形成規(guī)模,可優(yōu)先建立相關數(shù)據(jù)標準,并在此基礎上,整合開發(fā)適用于煙草表型數(shù)據(jù)的數(shù)據(jù)庫,為煙草表型研究提供統(tǒng)一、通用和共享的資源平臺,促進煙草表型組學大數(shù)據(jù)的發(fā)展。
(3)加強煙草表型數(shù)據(jù)在煙草育種應用方面的研究
目前煙草高通量表型數(shù)據(jù)主要集中在煙葉生產管理方面,對于煙草育種的應用價值有限。有關煙草育種相關高通量表型數(shù)據(jù)的采集力度有待進一步加強,并在現(xiàn)有高通量數(shù)據(jù)分析技術的基礎上,結合生物學、人工智能和機器學習等多個學科領域的先進技術,開發(fā)出適用煙草育種表型大數(shù)據(jù)的數(shù)據(jù)分析挖掘方法。此外,以精準育種和智能決策為目標,整合煙草基因型數(shù)據(jù)和表型組大數(shù)據(jù),建立包括煙草親本選配、育成品種預測等各類模型,構建基因型-表型-環(huán)境多位數(shù)據(jù)驅動的智能育種決策體系,提升煙草表型組學大數(shù)據(jù)的研究應用水平,推動煙草育種技術的快速發(fā)展。