張領(lǐng)先 韓夢瑤 丁俊琦 李凱雨
(1.中國農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院, 北京 100083;2.農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)信息化標(biāo)準(zhǔn)化重點(diǎn)實(shí)驗(yàn)室, 北京 100083)
作物病害是制約農(nóng)業(yè)可持續(xù)發(fā)展的主要因素之一。在種植過程中,作物會受到其他生物的侵害或不適宜環(huán)境的影響而引發(fā)病害,造成作物品質(zhì)下降和產(chǎn)量減損,進(jìn)而影響生產(chǎn)者的效益。研究和掌握不同品種作物多種病害發(fā)生的規(guī)律和特點(diǎn),及時(shí)幫助生產(chǎn)者對病害及時(shí)診斷、對癥防治、科學(xué)用藥和輔助決策,在未來農(nóng)業(yè)生產(chǎn)中具有重要意義[1]。
傳統(tǒng)的作物病害防治方案主要依賴于人工經(jīng)驗(yàn),基本處于定性階段,受人為主觀性判斷影響較大。隨著計(jì)算機(jī)技術(shù)發(fā)展,專家系統(tǒng)實(shí)現(xiàn)了自動(dòng)推薦作物病害防治方案。主要是利用計(jì)算機(jī)技術(shù)和人工智能技術(shù),根據(jù)作物病害領(lǐng)域的專家知識和經(jīng)驗(yàn),進(jìn)行推理和判斷,模擬人類專家的決策過程,能夠根據(jù)受害作物的癥狀等信息逐步推斷,最終得到包含診斷結(jié)果以及農(nóng)藥的防治方案,即病害處方。但是專家系統(tǒng)存在不足:①系統(tǒng)構(gòu)建成本較高,需要收集并整理作物病害領(lǐng)域的專家知識和經(jīng)驗(yàn),并據(jù)此編寫推理程序。由于受害作物屬性包括作物種類、發(fā)育階段、受害部位等,編寫詳細(xì)的推理程序費(fèi)時(shí)費(fèi)力。②普適性不足,大多數(shù)專家系統(tǒng)只能對個(gè)別種類的作物進(jìn)行推理和判斷,對于不同種類的作物往往需要多個(gè)系統(tǒng),在實(shí)際應(yīng)用中受到限制[2]。
由“植物診所”形成的電子病歷(Plant electronic medical records,PEMRs)為作物病害處方推薦提供了新的思路[3]。現(xiàn)有的作物處方數(shù)據(jù)包括作物、環(huán)境和病害信息以及診斷知識,為作物病害診斷提供了新的分析視角:通過已有的處方數(shù)據(jù)挖掘出有效信息,輔助植物醫(yī)生開具作物病害處方,緩解當(dāng)前作物病害處方的困境。在生物醫(yī)學(xué)研究領(lǐng)域,多項(xiàng)研究證明電子病歷數(shù)據(jù)具有回溯性和可預(yù)測性,以及輔助構(gòu)建臨床決策支持系統(tǒng)的能力[4-5]。基于此,本文對作物病害診斷與處方推薦技術(shù)國內(nèi)外的研究進(jìn)展進(jìn)行綜述,分析作物病害診斷與處方推薦研究中面臨的關(guān)鍵問題,并對作物病害診斷與處方推薦技術(shù)的未來發(fā)展加以展望。
作物病害的產(chǎn)生原因可以由植物病理學(xué)中的病害三角原理解釋為環(huán)境、病原物和作物三者相互作用[6]。病害大多數(shù)是由真菌、病毒、細(xì)菌等病原物引起的,加之合適的土壤環(huán)境、氣候環(huán)境和栽培條件等。病原體的毒力、宿主的遺傳易感性和有利于感染的非生物環(huán)境決定了作物病害的表現(xiàn)形式[7]。對于侵染性病害,當(dāng)條件有利于病原物生長時(shí),病原物就會侵染寄主植物。病原物侵入寄主植物到表現(xiàn)病癥的連續(xù)過程稱為病程,具體分為接觸期、侵入期、潛育期和發(fā)病期4個(gè)時(shí)期。病菌孢子發(fā)育過程能夠表示病原物侵染過程,通過作物病菌孢子侵染特征識別與行為分析,能夠?yàn)樽魑锊『υ缙陬A(yù)警和防控提供理論支撐。
作物在遭受病害侵襲時(shí),外部形態(tài)特征和內(nèi)部生理特征均會發(fā)生細(xì)微的變化。外部表現(xiàn)出諸如退綠、變色、變形、卷曲、枯萎等特征,而作物內(nèi)部的水分、色素含量、光合作用、呼吸作用、防御酶系統(tǒng)等也會發(fā)生多種生理變化[8]。通過檢測病害發(fā)生后作物的外部形態(tài)特征和內(nèi)部生理特征變化,可以獲取作物的染病情況。傳統(tǒng)的病害癥狀觀察法,結(jié)合病原菌的形態(tài)特征以及過往經(jīng)驗(yàn)進(jìn)行識別,這種方法主觀性強(qiáng),且對專家的依賴性較大;20世紀(jì) 70 年代興起的酶聯(lián)免疫法,可以靈敏地檢測作物中病毒蛋白的含量,但價(jià)格昂貴,在細(xì)菌和真菌病害檢測方面應(yīng)用較少。隨著信息技術(shù)的快速發(fā)展以及各種儀器設(shè)備的不斷出現(xiàn),多種傳感器應(yīng)用于作物病害的識別診斷中。
從病原物侵染過程和病害診斷數(shù)據(jù)獲取的角度可以將作物病害診斷方法歸納為:基于顯微圖像的作物病害病菌孢子識別和基于光譜成像的作物病害診斷,前者主要是病原物侵染過程接觸期、侵入期和潛育期前3個(gè)階段對病菌孢子的個(gè)體和群體特征識別及其定量表達(dá),后者是發(fā)病期對作物內(nèi)外部表現(xiàn)的病癥進(jìn)行識別、定量表達(dá)與診斷。
1.2.1基于顯微圖像的作物病害病菌孢子識別
借助顯微設(shè)備獲取顯微圖像,實(shí)現(xiàn)作物病害病菌孢子的識別。可以搭建病菌孢子顯微圖像采集平臺,平臺一般由體視顯微鏡、光源、CCD彩色相機(jī)和計(jì)算機(jī)組成(圖1)。平臺能夠?qū)崟r(shí)采集病菌孢子侵染過程圖像,并通過數(shù)據(jù)轉(zhuǎn)換傳到計(jì)算機(jī)中,通過計(jì)算機(jī)來保存孢子圖像并用于實(shí)時(shí)查驗(yàn),進(jìn)一步通過軟件系統(tǒng)進(jìn)行病菌孢子形態(tài)特征識別和動(dòng)態(tài)特征定量表征分析。
圖1 病菌孢子顯微圖像采集平臺Fig.1 Pathogen spore microscopic image acquisition platform1.光源 2.CCD相機(jī) 3.相機(jī)固定桿 4.計(jì)算機(jī) 5.顯微鏡 6.載物臺
1.2.2基于光譜成像的作物病害診斷
作物在遭受病菌侵襲后,作物色素、水分等內(nèi)部物質(zhì)的濃度或分布發(fā)生了改變,表現(xiàn)出不同的病斑[9]。研究表明,作物內(nèi)部特性改變后,對于光譜的反射特性亦會隨之改變,從而為作物病害的光譜特性定量分析提供了理論基礎(chǔ)[10],如多光譜和高光譜傳感器、熱成像或葉綠素?zé)晒獬上衲軌驒z測到內(nèi)部生理變化,已被應(yīng)用于病害的早期檢測和定量識別中,RGB傳感器能夠根據(jù)病斑圖像的顏色、形狀和紋理等特征,結(jié)合機(jī)器視覺方法進(jìn)行病害識別和定量診斷,基于光譜成像的作物病害診斷基本步驟如圖2所示。
圖2 光譜成像檢測植物病害流程圖Fig.2 Flowchart for detection of plant diseases using an imaging technique
機(jī)器視覺技術(shù)是在數(shù)字圖像處理、人工智能、模式識別等技術(shù)基礎(chǔ)上逐漸發(fā)展形成的一種新的技術(shù),為作物病害識別與診斷提供一種快速且有效的方法。可以利用數(shù)字圖像處理技術(shù),分析葉片的這些癥狀來診斷作物病害并進(jìn)一步估算病害發(fā)生的嚴(yán)重度?;跈C(jī)器視覺的設(shè)施蔬菜診斷系統(tǒng)流程如圖3所示。
圖3 系統(tǒng)流程圖Fig.3 System flowchart
1.3.1“植物診所”形成的電子病歷
針對生產(chǎn)中面臨的病害識別診斷預(yù)警相對滯后,綠色植保技術(shù)落地難,公共植保服務(wù)難以全覆蓋等問題,北京市植物保護(hù)站聯(lián)合中國農(nóng)業(yè)大學(xué)等4家單位,開展了基于生產(chǎn)實(shí)際需求的綠色智慧關(guān)鍵植保技術(shù)研究及應(yīng)用。2012年北京市首次引入國際先進(jìn)的植物診所理念,開始在全市范圍內(nèi)建立市區(qū)鄉(xiāng)(村)三級植物健康服務(wù)體系。先后建立植物診所115個(gè),區(qū)級二級植物醫(yī)院4個(gè),北京市植物總醫(yī)院1個(gè),植物醫(yī)生及培訓(xùn)師665名,服務(wù)范圍覆蓋全市13個(gè)區(qū),161個(gè)鄉(xiāng)鎮(zhèn),1 744個(gè)村,還輻射到河北省廊坊市、張家口市、邢臺市以及天津市武清區(qū)等地區(qū)[11]。
植物醫(yī)生遵循有害生物綜合防治(Integrated pest management, IPM)原則,以開處方的形式,為農(nóng)民提供病害診斷和防治技術(shù)咨詢[12],問診完成后的電子病歷都被備份在系統(tǒng)中(圖4),具體包括農(nóng)戶、植物醫(yī)院、作物、病害性狀、診斷結(jié)果、處方等信息[13]。
圖4 植物診所病歷填寫流程圖[13]Fig.4 Plant clinic medical record filling process
1.3.2處方數(shù)據(jù)預(yù)處理與擴(kuò)充
處方數(shù)據(jù)預(yù)處理是將原始數(shù)據(jù)轉(zhuǎn)換為可理解的格式的過程,這也是數(shù)據(jù)挖掘的重要一步。處方數(shù)據(jù)預(yù)處理的一般步驟是:對源數(shù)據(jù)文件整理、轉(zhuǎn)換,數(shù)據(jù)清洗(刪除重復(fù)值、缺失值處理、一致化處理和異常值處理),數(shù)據(jù)統(tǒng)計(jì),最后對輸出數(shù)據(jù)進(jìn)行編碼(標(biāo)簽編碼和One-hot編碼)(圖5)。
圖5 處方數(shù)據(jù)預(yù)處理流程圖Fig.5 Prescription data preprocessing process
處方數(shù)據(jù)擴(kuò)充是在原有數(shù)據(jù)的基礎(chǔ)上進(jìn)行修改,最終獲得相似但不相同的數(shù)據(jù)的方法,被廣泛應(yīng)用于機(jī)器學(xué)習(xí)中[14-15]。對于作物病害處方數(shù)據(jù),可以使用簡單數(shù)據(jù)增強(qiáng)(Easy data augmentation, EDA)[16],包括以下4種數(shù)據(jù)擴(kuò)充方法:
(1)同義詞替換(Synonyms replace, SR):設(shè)句長為l個(gè)單詞,替換比例為α。不考慮停用詞,在句子中隨機(jī)選擇l×α個(gè)詞,然后在同義詞詞典中找到對應(yīng)的同義詞,最后隨機(jī)選擇同義詞將原本的詞匯替換。
(2)隨機(jī)插入(Randomly insert, RI):將隨機(jī)抽取的某個(gè)單詞的同義詞插入到句子中任意位置,重復(fù)l×α次。
(3)隨機(jī)交換(Randomly swap, RS):將句子中l(wèi)×α個(gè)單詞位置互換。
(4)隨機(jī)刪除(Randomly delete, RD):剔除句子中l(wèi)×α個(gè)單詞。
此外,變分自動(dòng)編碼器(Variational autoencoder, VAE)等文本生成模型[17]也可用于處方數(shù)據(jù)擴(kuò)充,以學(xué)習(xí)文本中的潛在性解釋,生成具有特定語義的文本。
1.3.3電子病歷挖掘與處方推薦
作為最重要的臨床數(shù)據(jù)類型, 電子病歷以結(jié)構(gòu)化和非結(jié)構(gòu)化結(jié)合的形式記錄了大量關(guān)于疾病癥狀、統(tǒng)計(jì)數(shù)據(jù)、診療決策、藥物處方以及環(huán)境特征的信息,能夠提供完整準(zhǔn)確的診療數(shù)據(jù)以及具備構(gòu)建臨床輔助決策支持系統(tǒng)的能力[18-19]。國內(nèi)外相關(guān)研究表明,對電子病歷數(shù)據(jù)進(jìn)行相關(guān)分析具有一定的合理性和必要性,從而可以進(jìn)一步揭示特征與病害間的深層聯(lián)系[20]。
通過處方數(shù)據(jù)分析可以獲取處方數(shù)據(jù)中有價(jià)值的信息,輔助人們開展處方推薦相關(guān)研究,實(shí)現(xiàn)智能化診療。有關(guān)處方數(shù)據(jù)挖掘的研究主要有病害診斷、數(shù)據(jù)檢索與管理,以及智能化處方推薦3個(gè)角度。其中處方推薦是解決信息超載問題的有效工具[21],即通過對歷史數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)處方數(shù)據(jù)中的規(guī)律,從而預(yù)測問診對象可能需要的處方。
處方推薦的思路比較如表1所示。
表1 不同處方推薦思路特點(diǎn)Tab.1 Comparison of different prescription recommendation ideas
基于顯微圖像的作物病害病菌孢子識別涉及的關(guān)鍵技術(shù)包括作物病菌孢子個(gè)體目標(biāo)識別技術(shù)、作物病害病菌孢子群體目標(biāo)識別技術(shù)和作物病害病菌侵染行為分析技術(shù)。
2.1.1作物病菌孢子個(gè)體目標(biāo)識別技術(shù)
作物病害病菌多以有序的狀態(tài)進(jìn)行生長繁殖,不同時(shí)期孢子形態(tài)特點(diǎn)明顯,但也可能受外界因素的影響發(fā)生形態(tài)變異和部分殘缺[22]。通過檢測病菌孢子,提取病菌孢子動(dòng)態(tài)特征是病害早期診斷的重要環(huán)節(jié)。傳統(tǒng)的顯微鏡觀察主要依賴于人眼觀察識別,效率低下,耗時(shí)費(fèi)力,且要求專業(yè)人員持續(xù)觀察。隨著計(jì)算機(jī)技術(shù)、圖像處理技術(shù)、模式識別技術(shù)的發(fā)展,將機(jī)器視覺技術(shù)引入到病菌孢子的識別中,提高了病菌孢子檢測效率?;跈C(jī)器視覺技術(shù)的病菌孢子識別算法主要通過對病菌孢子圖像進(jìn)行圖像分割、特征提取與構(gòu)建分類器模型完成對病菌孢子的識別[23]。其中在病菌孢子圖像分割中,學(xué)者常用基于閾值、邊緣檢測[24]、區(qū)域生長和聚類分析等圖像分割方法,獲得病菌孢子圖像,進(jìn)而提取病菌孢子的周長、面積、圓形度、半徑和弧長等形態(tài)特征[25],紋理特征,HOG特征,SIFT特征[26-27],Haar算子,Harris角點(diǎn)等特征,并結(jié)合決策樹、支持向量機(jī)(SVM)、基于規(guī)則的粗糙集、LDA(Latent dirichlet allocation)主題模型、K-means、貝葉斯分類以及人工神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)方法進(jìn)行病菌孢子的識別,均取得了良好的識別效果[28-29]。但是,隨著數(shù)據(jù)量的劇增,上述方法在特征提取方面存在計(jì)算復(fù)雜和特征不可遷移性等不足,并且需要人為提取特征和普適性不強(qiáng)等問題。近年來,深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn)已經(jīng)徹底改變了圖像識別在相關(guān)領(lǐng)域的應(yīng)用,陸續(xù)實(shí)現(xiàn)了病菌孢子識別,識別率也有很大提高[30-31]。LI等[32]提出使用多頭注意力優(yōu)化YOLO v5檢測黃瓜灰霉病菌孢子,對模糊、多形態(tài)的孢子有較好的檢測效果。但是實(shí)際采集的顯微圖像中也存在復(fù)雜噪聲,且病原目標(biāo)物比較小等系列問題給實(shí)際應(yīng)用帶來巨大挑戰(zhàn)。而且病菌孢子是一種生物,本身發(fā)育過程中存在形態(tài)變異,且由于外界因子的影響,也會發(fā)生形態(tài)變異和部分殘缺,因此有必要結(jié)合病菌孢子發(fā)育過程,對不同侵染期狀態(tài)的病菌孢子展開深入研究,為病害早期預(yù)警提供理論支撐。
2.1.2作物病害病菌孢子群體目標(biāo)識別技術(shù)
在病菌孢子計(jì)數(shù)的研究中,目前大多采用顯微鏡觀察法、分子生物學(xué)方法和基于顯微圖像處理法等。通過孢子捕捉儀捕捉到病菌孢子之后,光學(xué)顯微鏡下通過肉眼觀測以確定孢子個(gè)數(shù),存在工作量大、效率低且隨工作時(shí)間延長而準(zhǔn)確性降低等缺點(diǎn)[33-34]。利用分子生物學(xué)檢測方法(PCR)鑒定DNA序列來定量檢測具有客觀、準(zhǔn)確和高通量等優(yōu)點(diǎn)[35-37],但是,基于PCR 技術(shù)的孢子計(jì)數(shù)方法操作復(fù)雜,成本較高,也耗費(fèi)時(shí)間[38-40]?;陲@微圖像處理的孢子計(jì)數(shù)方法是在傳統(tǒng)顯微鏡計(jì)數(shù)方法的基礎(chǔ)上,利用計(jì)算機(jī)技術(shù)實(shí)現(xiàn)孢子的自動(dòng)計(jì)數(shù)。圖像處理方法首先對孢子顯微圖像進(jìn)行灰度化、中值濾波去噪等預(yù)處理;其次使用閾值分割、邊緣檢測、分水嶺分割和K-means 聚類等分割處理獲取孢子目標(biāo)區(qū)域[41],然后常用形態(tài)學(xué)處理消除孢子區(qū)域的背景噪聲和孔洞;最后通過標(biāo)記計(jì)數(shù)法、平均面積法和角點(diǎn)檢測法等實(shí)現(xiàn)孢子的自動(dòng)計(jì)數(shù)。上述方法對未粘連的孢子能很好的計(jì)數(shù),具有快捷、高效等特點(diǎn)。對于粘連孢子的情況,也有相關(guān)改進(jìn)研究,如基于符號對數(shù)高斯混合模型相似度(SLGS)的水平集法、基于距離變換的改進(jìn)分水嶺算法、改進(jìn)Harris角點(diǎn)檢測法和循環(huán)標(biāo)記腐蝕法[42],但對復(fù)雜的多粘連情況下的魯棒性和準(zhǔn)確性不高,導(dǎo)致計(jì)數(shù)不準(zhǔn)確是一個(gè)亟待解決的問題。研究表明深度學(xué)習(xí)方法相比于傳統(tǒng)的手工提取特征的方法在圖像識別領(lǐng)域具有巨大優(yōu)勢,逐漸應(yīng)用到病菌孢子定量分析[43],但是現(xiàn)有的通用深度學(xué)習(xí)模型在多形態(tài)、粘連和小目標(biāo)孢子顯微圖像中并不能取得很好的識別效果,需要構(gòu)建一個(gè)適合孢子顯微圖像的深度學(xué)習(xí)模型。作物病害致病過程與葉片上病菌孢子密度相關(guān)[44],而上述開展的研究大多是針對孢子捕捉儀捕捉到的病菌孢子進(jìn)行定量計(jì)數(shù),文獻(xiàn)少有探究病菌孢子侵染過程各個(gè)時(shí)期動(dòng)態(tài)變化和時(shí)序演化規(guī)律。
2.1.3作物病害病菌侵染行為分析技術(shù)
作物病害是病菌、環(huán)境和寄主作物3方面的統(tǒng)一體,當(dāng)環(huán)境條件有利于病菌生長時(shí),病菌進(jìn)入細(xì)胞,通過病菌分泌的毒素和細(xì)胞壁降解酶致病[45],進(jìn)而引起葉綠素含量、氣孔導(dǎo)度、葉表溫度和孔隙結(jié)構(gòu)等發(fā)生變化[46],作物病菌的相關(guān)研究主要集中在生物學(xué)特性[47-48]、抗病機(jī)制[49]以及侵染特性[50]等方面。遵循病害三角關(guān)系,在研究作物病害發(fā)病的預(yù)測過程中,應(yīng)該利用環(huán)境條件與致病真菌生長發(fā)育的關(guān)系,綜合考慮影響病害的主導(dǎo)因素(溫度、濕度和結(jié)露時(shí)間),其次還有一些其他的因子(病情指數(shù)、作物是否具有抗病性、菌源數(shù)或病菌孢子濃度和栽培條件等)[51]。分析病情指數(shù)等病情預(yù)測模型大致可分為3類:①經(jīng)驗(yàn)?zāi)P汀;谏a(chǎn)經(jīng)驗(yàn)、多點(diǎn)多年觀察或從已有文獻(xiàn)中歸納總結(jié)適宜的發(fā)病條件,通過定性、定量或數(shù)理統(tǒng)計(jì)構(gòu)建模型表達(dá)式。使用最大空氣濕度、最大空氣溫度、活動(dòng)積溫、活動(dòng)積濕、累積相對濕度與氣溫的比值、晝夜溫差等因子[52-53]。②機(jī)理模型。能夠詳細(xì)地描述病害發(fā)展的各個(gè)階段,從而更好地了解寄主與病原物之間的關(guān)系。③數(shù)理統(tǒng)計(jì)模型。通過與現(xiàn)代信息技術(shù)相結(jié)合,提高模型的準(zhǔn)確率,并嘗試自我學(xué)習(xí)來對病害進(jìn)行模擬,如構(gòu)建多元線性回歸、Logistic回歸等模型。近年來,BP 神經(jīng)網(wǎng)絡(luò)、決策樹和馬爾科夫鏈等機(jī)器學(xué)習(xí)方法在病害預(yù)測的應(yīng)用中也取得了階段性研究成果。但是缺乏綜合考慮作物病害三角關(guān)系及病菌孢子侵染過程動(dòng)態(tài)演化規(guī)律的研究,無法滿足當(dāng)前作物綠色生產(chǎn)對病害時(shí)序化、數(shù)字化、精準(zhǔn)化早期預(yù)警和防控的需求。
基于光譜成像的作物病害診斷涉及關(guān)鍵技術(shù)包括:基于熱紅外成像的作物病害檢測技術(shù)、基于多光譜成像的作物病害檢測技術(shù)、基于病癥可見光圖像的作物病害識別技術(shù)和基于病癥可見光圖像的作物病害嚴(yán)重度估算技術(shù)。
2.2.1基于熱紅外成像的作物病害檢測技術(shù)
熱紅外成像技術(shù)利用作物染病后的溫度變化差異來對病害進(jìn)行識別區(qū)分,該技術(shù)已開始應(yīng)用于農(nóng)作物病害的檢測中,并取得了良好的效果。KIM等[54]利用數(shù)字紅外熱像儀研究了紫薇感染煙煤病后葉片溫度場的空間分布規(guī)律,發(fā)現(xiàn)在熱紅外圖像中,健康區(qū)域和染病區(qū)的平均溫度分別為26.98℃和28.44℃,表明染病區(qū)的平均溫度明顯高于健康區(qū)域。LPEZ-LPEZ 等[55]通過熱成像和高光譜成像計(jì)算得出冠層溫度和植被指數(shù),并分析了它們在早期發(fā)現(xiàn)疾病的能力。結(jié)果顯示,線性模型顯示出更高的區(qū)分無癥狀樹和紅葉斑塊發(fā)展后期樹的能力,而非線性模型則更好地將無癥狀植物與紅葉斑塊發(fā)展的早期植物區(qū)分開。MASTRODIMOS等[56]為了評估空間溫度的異質(zhì)性,該研究利用熱紅外成像技術(shù),計(jì)算了漿果表面的平均溫度以及漿果表面受感染區(qū)域和未感染區(qū)域之間的最大溫度差。研究發(fā)現(xiàn),漿果中的真菌菌絲體發(fā)育期間的葡萄葉片平均溫度明顯低于健康的葡萄,而在真菌定殖過程中的最大溫度差卻增加了。最后將熱成像的溫度數(shù)據(jù)分部進(jìn)行擬合得出病害感染估計(jì)因子,實(shí)現(xiàn)了葡萄生理狀態(tài)的無損監(jiān)測。FAROKHZAD等[57]使用熱像儀和加熱箱獲取熱圖像,研究處于不同階段(感染后1~7 d)的健康馬鈴薯塊莖和被真菌污染的塊莖溫度,通過線性和二次判別分析方法提取并分類了一些溫度統(tǒng)計(jì)特征。最終建立了一種基于主動(dòng)熱成像的可靠、無損、快速的方法來檢測馬鈴薯塊莖中的真菌。
由于歐美國家對我國的技術(shù)進(jìn)出口限制,我國的紅外熱成像技術(shù)起步較晚。李小龍等[58]通過連續(xù)采集小麥不同生理健康狀態(tài)的植株熱紅外圖像,分析葉片溫度隨銹病病害接種天數(shù)的變化趨勢,實(shí)現(xiàn)了對小麥條銹病潛伏期葉片的檢測與識別。朱文靜等[59]以感染葉銹病的小麥葉片為研究對象,分別采集健康組、潛伏期組和發(fā)病組的紅外熱圖像,并利用邊緣檢測算法提取病斑的區(qū)域,根據(jù)病斑面積占比實(shí)現(xiàn)對小麥葉銹病的病害嚴(yán)重度分級。陳欣欣等[60]利用熱紅外成像技術(shù)檢測受菌核病侵染的油菜,發(fā)現(xiàn)利用熱紅外圖像可在接種病害24 h后,觀察到微小的病斑,且隨著侵染時(shí)間的增加,病斑面積逐漸變大;但直到第3天肉眼才可以清晰地識別出病斑,表明熱紅外圖像可以更早、更直觀、更清晰地識別出作物染病早期的病害情況。溫冬梅等[61]通過熱紅外成像技術(shù),記錄了不同濕潤持續(xù)時(shí)間下黃瓜霜霉病顯癥后葉片溫度的變化,并分析了其溫度變化規(guī)律,建立了黃瓜霜霉病流行趨勢模型。姚志鳳等[62]進(jìn)行了將熱紅外成像技術(shù)用于小麥條銹病早期檢測的可行性研究。實(shí)驗(yàn)發(fā)現(xiàn),隨著接種時(shí)間的增加,接種病害的小麥植株冠層的平均溫度會逐漸降低,葉片間的最大溫差會不斷加大。結(jié)果顯示,熱紅外成像技術(shù)可觀測到小麥條銹病病斑,較肉眼觀察時(shí)間提前,可實(shí)現(xiàn)基于熱紅外成像技術(shù)的小麥條銹病早期檢測。
熱紅外成像能更容易地觀察到被病害侵染葉片的溫度變化,將其作用于農(nóng)作物病害檢測,有著廣闊的應(yīng)用前景。但由于熱紅外成像受到光照、環(huán)境干擾較大,且由于熱紅外圖像的像素質(zhì)量限制,圖像存在邊緣模糊、信噪比較低等缺點(diǎn),因此,基于熱紅外圖像技術(shù)的作物病害診斷研究還需要進(jìn)一步深入展開。
光譜成像技術(shù)是基于成像學(xué)和光譜學(xué)發(fā)展起來的一種技術(shù),光譜成像技術(shù)可以同時(shí)從光譜維和空間維獲取被測目標(biāo)的信息等。一幅多光譜圖像是由一系列灰度圖像組成的三維數(shù)據(jù)立方體,二維圖像記錄了樣本的形態(tài)信息,三維坐標(biāo)則記錄光譜信息,映射出葉片每個(gè)像素點(diǎn)的組分含量和內(nèi)部特性,有利于病害的精準(zhǔn)定位以及早期診斷。
劉鑫等[63]用波段指數(shù)法提取多光譜圖像的特征波段進(jìn)行彩色合成,能快速獲取馬鈴薯葉片的最佳波段。近年來更多的學(xué)者將多光譜相機(jī)與無人機(jī)結(jié)合[64-65],大面積診斷病害,相關(guān)文獻(xiàn)表明將該技術(shù)應(yīng)用在病害檢測方面取得了較好的效果(表2)。
表2 基于多光譜成像的作物病害檢測研究成果Tab.2 Research results of crop disease detection based on multispectral imaging
2.2.3基于病癥可見光圖像的作物病害識別技術(shù)
按照特征提取的方法可以將以往的基于病癥可見光圖像的作物病害識別技術(shù)研究劃分為機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法。
基于機(jī)器學(xué)習(xí)方法的研究多是分割病斑、提取病斑特征、構(gòu)建病害識別分類器的一個(gè)流程,目前文獻(xiàn)研宄已表明此類方法己經(jīng)取得了較好的識別效果(表3)。首先通過條件隨機(jī)場[76]、Otsu分割[77]等分割方法獲得病斑圖像,進(jìn)而提取病斑圖像的顏色、紋理、形狀等特征[70-71,78],基于支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)、決策樹等分類模型識別病害類別[72,76-77]。所有上述用于病害識別的方法都是基于從病斑圖像中提取的手工設(shè)計(jì)的特征,而人工設(shè)計(jì)的病斑特征難以完整的描述病害類別間的差異,容易出現(xiàn)圖像語義鴻溝問題。這些局限性直接導(dǎo)致了該方法很難滿足實(shí)際場景中病害識別的要求。
表3 基于機(jī)器學(xué)習(xí)的病害識別研究成果Tab.3 Research on disease recognition based on machine learning
深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的主要思想是通過深度神經(jīng)網(wǎng)絡(luò)的層層映射,來自主學(xué)習(xí)圖像像素特征、底層特征、高層抽象特征直至最終類別間的隱式表達(dá)關(guān)系,更加有利于捕獲數(shù)據(jù)本身的豐富內(nèi)涵信息,同時(shí)也避免了復(fù)雜的人工設(shè)計(jì)過程。卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展為圖像處理技術(shù)提供了新的契機(jī)。現(xiàn)今,卷積神經(jīng)網(wǎng)絡(luò)已在農(nóng)業(yè)各領(lǐng)域得到了廣泛應(yīng)用[73],如植物病蟲害識別分類[74-75,79]、植物器官計(jì)數(shù)[75,80]、雜草識別[81]等農(nóng)業(yè)領(lǐng)域,并取得了令人欣喜的成果。在病害識別問題中,基于AlexNet、VGGNet、GoogleNet和ResNet等架構(gòu),結(jié)合遷移學(xué)習(xí)方法訓(xùn)練病害識別模型[82-86],實(shí)驗(yàn)證明,遷移學(xué)習(xí)能夠提高模型的準(zhǔn)確率。除了現(xiàn)有CNN架構(gòu)的應(yīng)用之外,還提出了幾種定制架構(gòu)用于作物葉部病害檢測,如三重?fù)p失的FSL網(wǎng)絡(luò)[87]、多尺度特征融合網(wǎng)絡(luò)[88]、無監(jiān)督卷積自動(dòng)編碼器[89]、注意力機(jī)制優(yōu)化的網(wǎng)絡(luò)[90],在簡單背景下的病害圖像中均取得了較高的識別準(zhǔn)確率。采集自建的數(shù)據(jù)集應(yīng)用于特定作物類型病害的研究也很常見,翟肇裕等[91]也做了相關(guān)研究和綜述。但是實(shí)際環(huán)境下的圖像背景復(fù)雜、光照條件多樣、病斑小且不明顯、病斑與背景對比度不大,兩者很難區(qū)分?,F(xiàn)有方法在面向?qū)嶋H場景復(fù)雜背景和噪聲條件下的作物病害識別時(shí),識別準(zhǔn)確率往往會大大降低,識別速度也會變慢,難以滿足實(shí)際應(yīng)用需求。
2.2.4基于病癥可見光圖像的作物病害嚴(yán)重度估算技術(shù)
一般在衡量病害發(fā)生程度時(shí)主要有兩個(gè)指標(biāo):發(fā)病率和嚴(yán)重度,發(fā)病率是指同類被侵染的單位(葉片、植株、莖、果實(shí))占同類總測量單位的百分比(0~100%),嚴(yán)重度則指病害的嚴(yán)重程度,對葉部病害來說,通常使用定性量表和定量量表進(jìn)行評估。其中,定性量表使用描述性術(shù)語將病害嚴(yán)重程度描述為幾種類別,如輕度、中度和重度。定量量表通常以百分比表示,即病斑面積與整個(gè)葉片面積的比值來表示。
更進(jìn)一步,則是20世紀(jì)下半葉到21世紀(jì)初期,高科技、新材料的大量涌現(xiàn),加上信息爆炸和傳播的全球化,藝術(shù)對社會生活各個(gè)領(lǐng)域的介入成為勢不可擋的趨勢。早期與綜合材料藝術(shù)發(fā)展軌跡重合的現(xiàn)成品藝術(shù)在此一階段發(fā)展成獨(dú)立的裝置藝術(shù)。而另一個(gè)值得注意的現(xiàn)象是,綜合材料作為教學(xué)科目普遍進(jìn)入藝術(shù)院校,成為必修和主修課程。這些都說明綜合材料藝術(shù)在當(dāng)代藝術(shù)創(chuàng)作中的作用,是非常值得關(guān)注。
隨著計(jì)算機(jī)視覺技術(shù)的發(fā)展,許多研究者通過圖像處理和機(jī)器學(xué)習(xí)方法進(jìn)行作物病害的嚴(yán)重度評估,該方法具有相同的評估程序[92]。李井祝等[93]利用掃描儀掃描黃瓜霜霉病葉片得到掃描圖像,采用線性運(yùn)算得到病情指數(shù),平均識別正確率達(dá)到98.3%。鮑文霞等[94]提出一種滑窗最大值特征提取方法,對分割后的感染小麥白粉病的葉片圖像采用滑窗法提取HSV顏色特征和LBP紋理特征,以此來識別葉部病害的嚴(yán)重度,準(zhǔn)確度顯著高于傳統(tǒng)方法。GALLEGO-SANCHEZ等[95]開發(fā)了一個(gè)開源且用戶友好型的腳本工具RUST,基于顏色特征半自動(dòng)評估葉銹病。通過以上研究可以發(fā)現(xiàn),嚴(yán)重程度的計(jì)算結(jié)果依賴于圖像分割技術(shù),且已有的研究中大多基于簡單背景的葉片,有的方法只能適用于單一的病害種類,難以應(yīng)用到實(shí)際農(nóng)業(yè)場景下采集的多噪聲、復(fù)雜背景的病害葉片中。
深度學(xué)習(xí)在病害識別方面已經(jīng)取得重大進(jìn)展,在病害嚴(yán)重度估算方面也有應(yīng)用。將定性量表和定量量表估算嚴(yán)重度轉(zhuǎn)化為計(jì)算機(jī)學(xué)科問題,可以將嚴(yán)重度估算方法劃分為基于分類、基于回歸和基于深度分割的嚴(yán)重度估算方法,嚴(yán)重度估算研究成果如表4所示?;诜诸惖姆椒ㄊ侵竿ㄟ^定義嚴(yán)重度的類別或區(qū)間將其轉(zhuǎn)化為分類問題,采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)建立輸入圖像與嚴(yán)重度類別的關(guān)聯(lián)關(guān)系。文獻(xiàn)[96-100]將病害嚴(yán)重程度劃分為不同等級進(jìn)行識別,取得了準(zhǔn)確的結(jié)果,但是病害的分級難以具體量化病害嚴(yán)重度。基于回歸和深度分割的嚴(yán)重度估算方法可以得到百分比的病害嚴(yán)重度,更具有說服力?;诨貧w的嚴(yán)重度估算方法是將輸入的病害圖像直接與嚴(yán)重度百分比對應(yīng)起來。張領(lǐng)先等[101]構(gòu)建一個(gè)CNN模型估計(jì)黃瓜霜霉病的嚴(yán)重度,以手動(dòng)去除背景的病害圖像作為輸入,證明了CNN的準(zhǔn)確性優(yōu)于淺層機(jī)器學(xué)習(xí)模型,決定系數(shù)R2達(dá)到0.919 0。然而,這種方法對背景噪聲比較敏感?;谏疃确指畹膰?yán)重度估算方法是指通過語義分割或?qū)嵗指罘椒槊總€(gè)像素分配適當(dāng)?shù)臉?biāo)簽,實(shí)現(xiàn)病斑、健康葉片的自動(dòng)化分割,以獲得百分比的嚴(yán)重度。常用的分割網(wǎng)絡(luò)包括DeepLab V3+[102]、U-Net[103]、PSPNet和Mask R-CNN。相關(guān)研究表明語義分割模型在病害嚴(yán)重度估算中的應(yīng)用是可行的,然而當(dāng)數(shù)據(jù)量較小、圖像存在大量復(fù)雜背景干擾時(shí),這仍然是一個(gè)挑戰(zhàn)。
表4 基于深度學(xué)習(xí)的嚴(yán)重度估算研究成果Tab.4 Research on severity estimation based on deep learning
基于深度學(xué)習(xí)嚴(yán)重度估算的思路比較如表5所示。
表5 基于深度學(xué)習(xí)的嚴(yán)重度估算思路特點(diǎn)Tab.5 Characteristics of severity estimation based on deep learning
作物病害處方推薦涉及的關(guān)鍵技術(shù)包括基于實(shí)體關(guān)聯(lián)的病害機(jī)理解析、基于診斷推理的作物病害處方推薦、基于交互式語義匹配的作物病害處方推薦以及面向農(nóng)戶的作物病害在線問診。
2.3.1基于實(shí)體關(guān)聯(lián)的病害機(jī)理解析
作物病害積累的基礎(chǔ)數(shù)據(jù)可以提供病害的發(fā)病癥狀、發(fā)病階段、用藥方案等重要信息。作物病害處方數(shù)據(jù)包含的作物信息、環(huán)境信息、病害信息對于作物病害機(jī)理解析間接提供了全方位真實(shí)數(shù)據(jù)源,同時(shí)基于宿主、病原體和環(huán)境的傳統(tǒng)流行病學(xué)和植物病理學(xué)知識為處方數(shù)據(jù)分析提供了新的研究視角。
近年來,知識圖譜作為一種語義網(wǎng)絡(luò),具有可擴(kuò)展性強(qiáng)、支持智能應(yīng)用等優(yōu)點(diǎn),因此在自然語言處理、智能問答系統(tǒng)、智能推薦系統(tǒng)等領(lǐng)域得到了廣泛的應(yīng)用。知識圖譜(Knowledge graph)的本質(zhì)是一個(gè)由大量實(shí)體及其之間的關(guān)系組成的大規(guī)模知識庫。知識圖譜包含了豐富的語義信息,作為一個(gè)龐大的基于知識系統(tǒng),它相比于結(jié)構(gòu)化數(shù)據(jù)庫可以敏銳地獲取領(lǐng)域?qū)嶓w間的復(fù)雜關(guān)聯(lián)關(guān)系,并將其可視化展示,同時(shí)還可將分布于不同信息系統(tǒng)中的零碎知識連接起來。知識圖譜基于圖模型將知識抽象,可以為各領(lǐng)域提供簡潔和直觀的知識展示,其中邊和路徑可以捕獲實(shí)體之間不同的、潛在的復(fù)雜關(guān)系[104],解決了碎片化數(shù)據(jù)存儲和關(guān)聯(lián)關(guān)系挖掘的問題。
現(xiàn)有的研究已經(jīng)從各種數(shù)據(jù)源中確定了藥物和疾病之間的實(shí)體[105-107]和關(guān)系[108-109],如圖6所示。在下游任務(wù)中,知識圖譜可以與機(jī)器學(xué)習(xí)等算法相結(jié)合,實(shí)現(xiàn)處方推薦[110-112]。同時(shí),基于知識圖譜的推薦面臨著高計(jì)算復(fù)雜性、缺乏長尾實(shí)體、規(guī)則沖突、擴(kuò)展困難和在非結(jié)構(gòu)化EMR中應(yīng)用的局限性等挑戰(zhàn)[113]。
圖6 作物病害知識圖譜部分展示Fig.6 Part of crop disease knowledge map
2.3.2基于診斷推理的作物病害處方推薦
處方推薦與作物病害的診斷息息相關(guān),一些研究通過機(jī)器學(xué)習(xí)、深度學(xué)習(xí)或者基于特征融合的多輸入多輸出方法挖掘電子病歷信息,實(shí)現(xiàn)作物病害的準(zhǔn)確診斷,最后結(jié)合規(guī)范的病害治療方案來實(shí)現(xiàn)有效的作物病害處方推薦。
(1)機(jī)器學(xué)習(xí)方法
機(jī)器學(xué)習(xí)可以從大量數(shù)據(jù)中挖掘出能夠代表一類事物的規(guī)律,從而對事物進(jìn)行預(yù)測、分類和推薦,是挖掘處方數(shù)據(jù)中有效信息的有力工具。機(jī)器學(xué)習(xí)算法具有計(jì)算時(shí)間短、精度高、可移植性強(qiáng)的優(yōu)點(diǎn),各種有監(jiān)督和無監(jiān)督的機(jī)器學(xué)習(xí)方法已經(jīng)被應(yīng)用于疾病診斷的研究。例如,VENKATESH等[114]使用大數(shù)據(jù)預(yù)測分析模型,基于樸素貝葉斯(BPA-NB),對不同的診斷結(jié)果概率分類,進(jìn)而給出治療建議,對于UCI機(jī)器學(xué)習(xí)庫中的疾病數(shù)據(jù)預(yù)測準(zhǔn)確率為97.12%。WANG等[115]基于處方數(shù)據(jù)開發(fā)的智能處方系統(tǒng)能夠從藥物信息中提取特征,根據(jù)問診對象的癥狀預(yù)測藥劑,對于同時(shí)確診多種病的問診對象減少重復(fù)藥劑,給出適當(dāng)?shù)奶幏?能夠減少14%潛在的重復(fù)處方。GALVEIA等[116]提出了基于隨機(jī)森林的分類器模型,用于推薦診療建議。
但是隨著現(xiàn)實(shí)應(yīng)用場景中數(shù)據(jù)量的激增和多元化,尤其是面對作物處方等具有復(fù)雜性和專業(yè)性的數(shù)據(jù),傳統(tǒng)的分類算法已經(jīng)不能契合現(xiàn)存實(shí)際問題的需求。集成方法被認(rèn)為是增強(qiáng)機(jī)器學(xué)習(xí)效果的高級解決方案[117],尤其對于分類問題具有較強(qiáng)的優(yōu)勢[118]。集成學(xué)習(xí)通過利用基礎(chǔ)算法的多樣性提高模型的分類準(zhǔn)確度、泛化能力和魯棒性[119]。機(jī)器學(xué)習(xí)中提出了各種集成學(xué)習(xí)算法,其中最具代表性的方法是Bagging、Boosting和Stacking。Bagging算法生成并行基學(xué)習(xí)器,并使用隨機(jī)抽樣(bootstrapping)訓(xùn)練模型[120-121]。Boosting方法依次訓(xùn)練一系列分類器,將弱分類器提升為強(qiáng)分類器,使錯(cuò)分的樣本得到更多的關(guān)注。其代表性算法有Adaboost、梯度上升決策樹(GDBT)、極限梯度提升(XGBoost)和輕量級梯度提升機(jī)(LightGBM)。在以上集成方法中,Stacking模型在分類問題上表現(xiàn)良好,特別是對不平衡數(shù)據(jù)分類。Stacking模型主要目的是減少泛化誤差。由于單一分類器種類復(fù)雜且各具優(yōu)勢[122],基于不同分類器的Stacking集成備受國內(nèi)外學(xué)者的關(guān)注,經(jīng)研究證明它能夠在不同的應(yīng)用場景下提高模型分類精度[117-123]。但是機(jī)器學(xué)習(xí)模型仍然沒有解決EMR中的自由文本語義理解問題。
(2)深度學(xué)習(xí)方法
一些研究將疾病診斷問題轉(zhuǎn)化為病歷文本的分類問題,通過自然語言處理(NLP)方法挖掘電子病歷信息,實(shí)現(xiàn)對疾病的診斷或風(fēng)險(xiǎn)評級。許多研究使用了深度學(xué)習(xí)方法,如神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和自動(dòng)編碼器(AE),幫助計(jì)算機(jī)更好地理解電子醫(yī)療記錄的語義[124-126]。例如,ZHANG等[127]提出的無監(jiān)督深度學(xué)習(xí)框架能夠注釋電子病歷中的表型異常數(shù)據(jù),并使用不同的先驗(yàn)分布學(xué)習(xí)文本數(shù)據(jù)的語義潛在表示,預(yù)測診斷結(jié)果與處方內(nèi)容。程銘等[128]基于電子病歷數(shù)據(jù),構(gòu)建混合注意力機(jī)制模型,分析病歷文本之間的語義關(guān)系,展開處方推薦,同時(shí)采用自注意力機(jī)制從病歷文本中識別特定病種的病歷表示,將二者進(jìn)行有機(jī)地融合,生成最終的病歷表示,最后構(gòu)建多標(biāo)簽分類器進(jìn)行處方推薦。
深度學(xué)習(xí)方法通過訓(xùn)練大量帶有標(biāo)簽的電子病歷數(shù)據(jù),在醫(yī)學(xué)領(lǐng)域取得了良好的效果。但是在基于植物電子病歷的作物疾病診斷中使用深度學(xué)習(xí)方法的缺點(diǎn)是缺乏足夠的訓(xùn)練數(shù)據(jù)。原因在于CEMRs需要由專業(yè)的植物醫(yī)生進(jìn)行標(biāo)注和記錄,導(dǎo)致樣本量小。變換器和預(yù)訓(xùn)練語言模型[129]的提出為解決訓(xùn)練數(shù)據(jù)的局限性提供了一個(gè)突破口。預(yù)訓(xùn)練語言模型可以從大量的語料庫中學(xué)習(xí)通用的語言表征,而不需要人工標(biāo)注[130]。一些研究在任務(wù)領(lǐng)域的數(shù)據(jù)集上對語言表示模型進(jìn)行了領(lǐng)域適應(yīng)性預(yù)訓(xùn)練[131]。例如,DING等[132]提出基于作物疾病領(lǐng)域BERT和RCNN(CdsBERT-RCNN)的作物疾病診斷模型,為進(jìn)一步實(shí)現(xiàn)基于診斷推理的作物病害處方推薦打下基礎(chǔ)。
(3)多輸入多輸出模型
植物電子病歷不是簡單的文本描述,而是經(jīng)過科學(xué)設(shè)計(jì)的、符合植物病理學(xué)中病害診斷基本原理的規(guī)范結(jié)構(gòu),包含結(jié)構(gòu)化的地理、時(shí)間、環(huán)境、分布等特征。研究證明,病害發(fā)生的環(huán)境特征、時(shí)空分布等信息對病害的準(zhǔn)確識別意義重大,但是這些信息在病害智能診斷的研究中尚未得到有效利用[133-134]。如果僅聚焦于植物電子病歷中的單一類型數(shù)據(jù),僅對問診記錄文本或者結(jié)構(gòu)化數(shù)據(jù)進(jìn)行特征抽取,將會造成大量的信息損失。丁俊琦等[13]提出基于多類型數(shù)據(jù)融合的病害診斷模型用于解決這個(gè)問題。
得到診斷結(jié)果后,可以進(jìn)一步實(shí)現(xiàn)處方的推薦,即用藥名稱和數(shù)量的確定,一些研究使用多輸出(Multi-output)方法結(jié)合機(jī)器學(xué)習(xí)模型實(shí)現(xiàn)此功能。以多輸出結(jié)合機(jī)器學(xué)習(xí)進(jìn)行預(yù)測的方法在聲學(xué)、力學(xué)以及通信領(lǐng)域被廣泛應(yīng)用。ZHOU等[135]將多輸出支持向量機(jī)(M-SVM)和多任務(wù)學(xué)習(xí)(MTL)算法相結(jié)合,通過解決區(qū)域預(yù)測中常見的誤差積累問題,有效提高區(qū)域多步提前預(yù)測的準(zhǔn)確性。應(yīng)啟帆等[136]通過對單種粒徑預(yù)測的梯度提升決策樹算法進(jìn)行組合構(gòu)建多輸出回歸算法對粒徑分布進(jìn)行預(yù)測。
2.3.3基于語義匹配的作物病害處方推薦
語義匹配是NLP領(lǐng)域的基礎(chǔ)問題之一,被廣泛應(yīng)用于信息檢索、推薦系統(tǒng)和問答系統(tǒng)等下游任務(wù)?;谔幏絻?nèi)容語義匹配的處方推薦方法是通過對處方文本展開分析,根據(jù)歷史處方數(shù)據(jù)生成推薦列表,推薦結(jié)果更具多樣性,可擴(kuò)展性更強(qiáng)。語義匹配包括交互型和表示型兩種匹配方式。
(1)交互型語義匹配
基于文本相似度的處方推薦方法是通過分析處方文本中的語義信息,計(jì)算向量得到語義相似度,生成推薦列表。ZHANG等[137]提出的電子病歷相似度計(jì)算方法,根據(jù)檢查項(xiàng)目將電子病歷劃分為不同部分,篩選有效部分后運(yùn)用詞向量與詞移距離(Word mover’s distance,WMD)計(jì)算相似度,最后利用KNN聚類對電子病歷間的相似性進(jìn)行評價(jià),與LDA和LSI等傳統(tǒng)的疾病分類方法相比,該方法具有較高的召回值,能夠改進(jìn)處方推薦效果。趙明等[138]基于雙向門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)(BiGRU)構(gòu)建病蟲害問句分類模型,利用問句的語義信息,輔助實(shí)現(xiàn)番茄病蟲害智能診療。YE等[139]使用詞嵌入將處方文本語義上相似的詞投射到向量空間中的鄰近點(diǎn),提升了診療系統(tǒng)的檢索與決策支持功能,證明使用語義相似的術(shù)語,可以更快速地檢索和推薦診療建議。邱碩等[140]使用聚類的方法挖掘電子病歷中的處方關(guān)聯(lián),依據(jù)問診對象相似度實(shí)現(xiàn)處方推薦的多樣化,同時(shí)程序執(zhí)行時(shí)間有所提升。對于文本相似度計(jì)算,深度語義匹配模型(DSSM)通過多層次的語義分析表現(xiàn)更好。XIE等[141]提出的主題增強(qiáng)的語義匹配模型在有關(guān)語義匹配的問答庫任務(wù)中獲得了21個(gè)系統(tǒng)中的第3名,表現(xiàn)出較強(qiáng)的語義分析能力。LARIONOVA等[142]基于推薦系統(tǒng)構(gòu)建DSSM,學(xué)習(xí)推薦目標(biāo)之間的相似性,對不同類別內(nèi)的推薦對象進(jìn)行排序,結(jié)果表明,DSSM相比傳統(tǒng)相似度推薦方法顯著提高了推薦的總體質(zhì)量。交互計(jì)算更好地把握了語義焦點(diǎn)和上下文重要性,但是計(jì)算成本很高。
(2)表示型語義匹配
基于表示型語義匹配的作物病害處方推薦方法核心是句嵌入,在表示層將文本轉(zhuǎn)換成整體的表示向量之后再進(jìn)行匹配。在推薦系統(tǒng)中,基于表示的模型可以通過句子嵌入對文本預(yù)處理,構(gòu)建索引,大幅度降低在線計(jì)算耗時(shí)?;贐ERT,REIMERS提出了Sentence-BERT[143],它是目前最常用的BERT式雙塔模型,效果較好,提供方便的開源工具,可以有效緩解處方推薦中的在線計(jì)算耗時(shí)問題。GAO等[144]提出了一個(gè)簡單的句子嵌入的對比學(xué)習(xí)框架(SimCSE),包括無監(jiān)督和有監(jiān)督的版本,實(shí)現(xiàn)了基于對比學(xué)習(xí)和輟學(xué)數(shù)據(jù)增強(qiáng)的句子級語義表示的SOTA性能。
2.3.4面向農(nóng)戶的作物病害在線問診
問答系統(tǒng)的應(yīng)用涉及諸多領(lǐng)域,如醫(yī)藥、電力、交通等各方面[145]。問答系統(tǒng)技術(shù)在農(nóng)業(yè)領(lǐng)域發(fā)展迅速,并已經(jīng)形成了一些相對完整的體系。傳統(tǒng)的農(nóng)業(yè)信息服務(wù)多為上網(wǎng)搜索、電話咨詢和專家現(xiàn)場指導(dǎo)等方式,張博凱等[146]基于網(wǎng)絡(luò)爬蟲得到的大量農(nóng)業(yè)問答知識數(shù)據(jù)形成的語料庫,結(jié)合命名體識別和知識圖譜查詢推薦算法,設(shè)計(jì)實(shí)現(xiàn)Android端的智能問答機(jī)器人,為農(nóng)業(yè)領(lǐng)域智能信息服務(wù)提供了一種新的解決方案。張領(lǐng)先等[147]開發(fā)了面向移動(dòng)終端的作物病害處方推薦系統(tǒng)。用戶輸入受害作物的癥狀描述后,系統(tǒng)輸出診斷結(jié)果及相應(yīng)處方,實(shí)現(xiàn)了面向?qū)嶋H應(yīng)用場景的作物病害處方推薦。
國內(nèi)外學(xué)者在作物病害診斷與處方推薦方面開展了廣泛的研究,既取得了較多的研究成果,也面臨著一些亟需解決的難點(diǎn)。
(1)目前,計(jì)算機(jī)視覺技術(shù)可以實(shí)現(xiàn)病原物的持續(xù)監(jiān)測。但是在實(shí)際應(yīng)用中,病菌侵染作物是一個(gè)動(dòng)態(tài)的過程,病菌孢子形態(tài)和數(shù)量在侵染過程中會受到作物抗病性以及環(huán)境溫度和濕度等因素影響,使得基于機(jī)器視覺技術(shù)準(zhǔn)確提取與分析病菌孢子形態(tài)特征、動(dòng)態(tài)變化規(guī)律及其病害三角關(guān)系等成為研究的關(guān)鍵科學(xué)問題和難點(diǎn)。尤其是病菌孢子交叉、遮擋、動(dòng)態(tài)變化等特點(diǎn)導(dǎo)致病菌孢子定量化識別困難等。
(2)熱成像和多光譜成像技術(shù)能夠根據(jù)內(nèi)部生理變化檢測發(fā)病期之前的早期侵染。但是熱成像受環(huán)境影響較大,檢測植物病害時(shí)需要嚴(yán)格控制環(huán)境溫濕度,而對于多光譜成像,許多學(xué)者采用光譜指數(shù)或者需要選取感興趣區(qū)域、圖像分割等處理,過程復(fù)雜且受限于人工選取特征。文獻(xiàn)[148-149]證明通過結(jié)合各種傳感器系統(tǒng)中包含的豐富光譜,空間、結(jié)構(gòu)和熱信息的優(yōu)勢來改善植物性狀估計(jì)。因此,研究基于多源圖像的病害早期檢測方法,提高病害侵入期的檢測效果。
(3)卷積網(wǎng)絡(luò)有強(qiáng)大的特征學(xué)習(xí)能力,基于卷積神經(jīng)網(wǎng)絡(luò)的作物病害識別方法可以快速、準(zhǔn)確地識別病害種類。但是現(xiàn)有研究大都針對公開數(shù)據(jù)集,部分自己采集的數(shù)據(jù)也都是簡單背景,在實(shí)際應(yīng)用時(shí)受環(huán)境等因素影響導(dǎo)致識別精度不夠,因此,針對農(nóng)業(yè)領(lǐng)域復(fù)雜背景,高精度、泛化性強(qiáng)的病害識別方法有待于進(jìn)一步研究。
(4)作物病害嚴(yán)重度定量估算效果受病斑分割和特征提取的影響,分割操作繁瑣,易受光照影響,提取特征又有一定的主觀性,會影響模型的泛化能力。因此,研究基于深度學(xué)習(xí)的自動(dòng)化作物病害分割方法,可以提高分割精度并計(jì)算作物病害嚴(yán)重度。
(5)目前關(guān)于作物病害的研究大多以設(shè)施溫室(小氣候)環(huán)境為基礎(chǔ),多停留在單一數(shù)據(jù)源的獲取或基于單一作物的小尺度分析,而缺乏從宏觀角度基于數(shù)據(jù)挖掘解析病害三角原理的研究。而作物病害處方數(shù)據(jù)幾乎未被應(yīng)用于輔助處方推薦,其中包含了大量區(qū)域性作物信息、環(huán)境信息和病害信息及其防治知識,可以解決多源數(shù)據(jù)采集難的問題。
(6)基于診斷推理的作物病害處方推薦鮮有研究。與常規(guī)推薦算法使用的場景不同,處方數(shù)據(jù)大多為結(jié)構(gòu)化數(shù)據(jù),且為多變量數(shù)據(jù)。Multi-output 結(jié)合機(jī)器學(xué)習(xí)模型已廣泛應(yīng)用于聲學(xué)、力學(xué)以及通信領(lǐng)域,但是在作物病害治療方案推薦方面鮮有研究。深度學(xué)習(xí)算法可以根據(jù)采集的環(huán)境信息及作物生長信息輔助病害診斷,即對應(yīng)計(jì)算機(jī)領(lǐng)域的多分類問題,其中集成學(xué)習(xí)算法對于不平衡數(shù)據(jù)集的處理具有一定的優(yōu)勢。同時(shí),還未有研究從多尺度角度利用數(shù)據(jù)和深度學(xué)習(xí)算法根據(jù)病害發(fā)生機(jī)理進(jìn)行病害診斷的研究。
(7)基于語義匹配的處方推薦方法的推薦結(jié)果更具多樣性,可擴(kuò)展性更強(qiáng)。但是,目前相關(guān)研究大多是生物醫(yī)學(xué)領(lǐng)域,農(nóng)業(yè)領(lǐng)域的應(yīng)用偏少,實(shí)現(xiàn)深度語義匹配在農(nóng)業(yè)領(lǐng)域的處方推薦應(yīng)用將有助于提高病害治理效果。因此,基于語義匹配,尤其是表示型語義匹配的處方推薦是重要的研究方向。
(8)對于我國區(qū)域作物生產(chǎn)和小農(nóng)戶分散種植國情,由于受到數(shù)據(jù)獲取困難和物聯(lián)網(wǎng)技術(shù)實(shí)施成本高以及作物病害發(fā)生態(tài)勢復(fù)雜和傳播途徑多樣等因素的限制,多應(yīng)用場景、時(shí)空遷移和多目標(biāo)決策的作物病害早期診斷、預(yù)測與主動(dòng)防控成為難點(diǎn)。因此,基于電子病歷多模態(tài)數(shù)據(jù)的作物病害關(guān)聯(lián)挖掘與多目標(biāo)決策研究,將對農(nóng)業(yè)病害防治領(lǐng)域具有更大的實(shí)際意義,為實(shí)際應(yīng)用復(fù)雜生產(chǎn)場景作物病害早期預(yù)警與主動(dòng)防控提供決策支持和參考。
(1)開展作物病害早期檢測以及定量識別診斷方法的研究是必要的。在病害發(fā)病之前,深入挖掘可見光、熱成像、多光譜圖像數(shù)據(jù)對病害早期特征的解析能力,同時(shí)探索多源圖像對侵入期病害檢測的新思路;在病害發(fā)病期,提高復(fù)雜背景下病害的識別精度,準(zhǔn)確量化病害嚴(yán)重度,為精準(zhǔn)施藥提供依據(jù),對提高作物病害精細(xì)化管理水平,提升作物品質(zhì)有重要意義。
(2)針對作物病害處方推薦過程中,存在由于作物病害致病機(jī)理復(fù)雜、作物品種及病害種類多、病害病癥動(dòng)態(tài)變化等特點(diǎn)導(dǎo)致缺乏可行的數(shù)據(jù)挖掘技術(shù)等問題,以作物病害處方為研究對象,針對電子病歷數(shù)據(jù)特點(diǎn),開展基于機(jī)器學(xué)習(xí)和知識圖譜的作物病害致病機(jī)理解析、診斷推理、處方智能化推薦及其應(yīng)用策略研究;攻克基于知識圖譜分析、大數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法推理等關(guān)鍵技術(shù)在作物病害處方數(shù)據(jù)挖掘分析研究;可視化分析作物病害病癥形態(tài)特征、時(shí)空變化及其與種植環(huán)境和作物品種的病害三角關(guān)系,從區(qū)域宏觀視角解析作物病害致病機(jī)理及其與特征間的關(guān)聯(lián)關(guān)系,面向不同實(shí)際應(yīng)用場景需求實(shí)現(xiàn)作物病害精準(zhǔn)診斷與處方推薦。研究成果可為作物種植智能診斷提供科學(xué)依據(jù)和方法支撐,推進(jìn)農(nóng)業(yè)科技服務(wù)新模式、新業(yè)態(tài)。