崔曉暉,陳 民,陳志泊,許 福,王新陽(yáng)
(北京林業(yè)大學(xué) a.信息學(xué)院;b.林業(yè)智能信息處理工程技術(shù)研究中心,北京 100083)
林木的物候變化反應(yīng)了其生長(zhǎng)、發(fā)育規(guī)律,同時(shí)也是氣候變化的重要指示器[1]。精準(zhǔn)的進(jìn)行林木物候期識(shí)別對(duì)林木病蟲(chóng)害防治、林區(qū)管理、林木培育及研究氣候變化對(duì)森林生態(tài)系統(tǒng)結(jié)構(gòu)和功能的影響均具有重要意義[2-3]。
傳統(tǒng)的林木物候期識(shí)別主要是人工實(shí)地對(duì)觀察點(diǎn)的林木物候進(jìn)行記錄[4]。該方法較為準(zhǔn)確,但占用大量人力物力,相對(duì)低效,較難適用于長(zhǎng)期物候監(jiān)測(cè)。隨著數(shù)碼照相技術(shù)的發(fā)展及配套設(shè)施的完善,架設(shè)相機(jī)定時(shí)拍攝成為物候觀測(cè)的新興手段[5-7]。Lei等[8]以長(zhǎng)白山闊葉紅松林為研究對(duì)象,探討了數(shù)字相機(jī)圖像在物種尺度物候模擬及群落尺度物候模型改進(jìn)方面的作用,研究表明,數(shù)字相機(jī)可提供精確地基于物種尺度的物候數(shù)據(jù)[9]。Gulac 等[10]采用方向梯度直方圖(Histograms of oriented gradients,HOG)算法與支持向量機(jī)(Support vector machine,SVM)相結(jié)合的方法對(duì)玉米等植物像片的物候期進(jìn)行分類,得出了最高100%分類正確率的分類模型。Yalcin 等[11]對(duì)土耳其物候觀測(cè)網(wǎng)絡(luò)圖像數(shù)據(jù)集中6 種植物的物候期進(jìn)行識(shí)別,選用預(yù)先訓(xùn)練的AlexNet 卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)進(jìn)行微調(diào),取得了最高86.54%的識(shí)別準(zhǔn)確度。Yang 等[12]設(shè)計(jì)CNN 模型處理無(wú)人機(jī)圖像,對(duì)水稻物候進(jìn)行識(shí)別,準(zhǔn)確率達(dá)83.9%。
Gulac 等選用的機(jī)器學(xué)習(xí)方法雖取得了較好的分類效果,但其HOG 算法著重于圖像的紋理特征,忽略了圖像的色彩等特征,特征選取較為單一,特征對(duì)圖像的描述能力有限,分類效果依賴于人工選取特征的優(yōu)劣,方法的泛化能力較差[13]。深度學(xué)習(xí)的發(fā)展為圖像分類提供了新手段,在林業(yè)領(lǐng)域已取得了一定成果[14]。CNN 是當(dāng)前主流的深度學(xué)習(xí)圖像分類方法,卷積網(wǎng)絡(luò)可根據(jù)具體的分類識(shí)別任務(wù)對(duì)圖像特征進(jìn)行自學(xué)習(xí)的選取,提取的特征相較人工選取的特征具有更強(qiáng)的描述能力[15],但其卷積后得到的特征信息沒(méi)有得到區(qū)分,影響細(xì)粒度圖像識(shí)別的精度[16]。
當(dāng)前,植物像片物候期的識(shí)別研究多集中在生命周期較短的農(nóng)作物,模型在林木物候期識(shí)別的精度、跨年份泛化能力尚未得到驗(yàn)證。鑒于林木各個(gè)物候期外形差異較小,其包含區(qū)分度的信息多集中在枝、葉等局部區(qū)域,本研究引入了在細(xì)粒度圖像識(shí)別表現(xiàn)優(yōu)異的注意力機(jī)制[17],以提升模型對(duì)細(xì)微差異的感知能力。
本研究選取具有較高經(jīng)濟(jì)價(jià)值的的櫟林[18-19](Quercus)與槭林(Acer)作為研究對(duì)象,將深度學(xué)習(xí)與基于數(shù)字照相的林木物候觀測(cè)方式相結(jié)合,針對(duì)傳統(tǒng)模型的缺陷引入注意力機(jī)制,設(shè)計(jì)殘差注意力網(wǎng)絡(luò)模型,對(duì)像片中林木的物候期進(jìn)行識(shí)別。本研究提出了具有較高的分類精度和較好的泛化能力的林木物候期識(shí)別方法,可為林木物候的長(zhǎng)期觀測(cè)提供借鑒。
研究選用的數(shù)據(jù)來(lái)自于PhenoCam 數(shù)據(jù)集,該數(shù)據(jù)集源于生態(tài)系統(tǒng)物候相機(jī)觀測(cè)網(wǎng)絡(luò)(https://phenocam.sr.unh.edu)。該項(xiàng)目是一個(gè)大范圍的物候觀測(cè)網(wǎng)絡(luò),通過(guò)在各個(gè)觀測(cè)點(diǎn)布設(shè)高分辨率塔式相機(jī)進(jìn)行長(zhǎng)期的物候觀測(cè),在不同生態(tài)系統(tǒng)和氣候區(qū)域內(nèi)提供連續(xù)、實(shí)時(shí)的植被物候監(jiān)測(cè)[20-22]。
本研究選取2017—2019年P(guān)henoCam 數(shù)據(jù)集的櫟林與槭林圖像作為數(shù)據(jù)集。該數(shù)據(jù)集的圖像采集設(shè)備為Star Dot Net Cam SC 型網(wǎng)絡(luò)數(shù)碼相機(jī)。該相機(jī)覆蓋范圍廣,拍攝圖像大小為1 296 像素×960 像素,櫟林研究區(qū)的優(yōu)勢(shì)植物為馬里蘭得櫟Quercus marilandica,槭林研究區(qū)的主要樹(shù)種為糖槭Acer saccharum與美國(guó)紅楓Acer rubrum。為減少背景及觀測(cè)區(qū)內(nèi)其他植物對(duì)識(shí)別效果的干擾,將圖像中的林木區(qū)域作為感興趣區(qū)(Regions of interest,ROI)劃出,如圖1所示,切除圖像中的非ROI 部分,供下一步研究。
圖1 林地像片感興趣區(qū)示例Fig.1 Forest pictrues ROI examples
為更精細(xì)地描述林木物候的變化,本研究參照相關(guān)資料[23],將櫟林物候期分為芽爆期、展葉初期、展葉末期、葉成熟期、落葉期與休眠期6 類,將槭林物候期分為芽爆期、展葉初期、展葉末期、葉成熟期、葉轉(zhuǎn)色期、落葉期與休眠期7 類,樣例如圖2所示,物候期劃分方式見(jiàn)表1。
圖2 研究區(qū)各物候期像片示例Fig.2 Examples of research areas phenological photo
表1 林地物候期劃分Table 1 Forest phenological stage division
1.4.1 數(shù)據(jù)集的劃分與標(biāo)注
本研究將觀測(cè)站點(diǎn)2017—2019年的圖像選取為實(shí)驗(yàn)數(shù)據(jù)。2017—2018年數(shù)據(jù)用于對(duì)模型進(jìn)行訓(xùn)練,訓(xùn)練集∶驗(yàn)證集∶測(cè)試集按8∶1∶1 的比例進(jìn)行劃分。2019年數(shù)據(jù)全部作為測(cè)試集,用于測(cè)試方法的泛化能力,不參與模型訓(xùn)練。
數(shù)碼相機(jī)采集的林地圖像分辨率較高,葉、芽等細(xì)節(jié)清晰,便于觀察候應(yīng)現(xiàn)象。因此,本研究采用人工視覺(jué)評(píng)估結(jié)合實(shí)地觀測(cè)結(jié)果的方式對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注。研究區(qū)的實(shí)地觀測(cè)隔7 天進(jìn)行1 次,對(duì)樣本植株的物候期及候應(yīng)現(xiàn)象進(jìn)行記錄。
1.4.2 數(shù)據(jù)增強(qiáng)
綜合考慮數(shù)據(jù)集特點(diǎn)及訓(xùn)練時(shí)間因素,實(shí)驗(yàn)選擇224×224 像素大小的圖像作為模型輸入。為獲得指定輸入格式的圖像,實(shí)驗(yàn)將原像片的ROI進(jìn)行隨機(jī)裁剪,在修正數(shù)據(jù)格式的同時(shí)擴(kuò)大了數(shù)據(jù)集。由于各物候期的時(shí)間長(zhǎng)短差異明顯,各類別數(shù)據(jù)的不均衡現(xiàn)象較為嚴(yán)重,如圖3a 所示,影響模型的訓(xùn)練效果。為調(diào)整數(shù)據(jù)比例,本研究設(shè)計(jì)了隨機(jī)裁剪公式,裁剪的次數(shù)與其物候期長(zhǎng)短成反比,公式定義為
式中:mi為當(dāng)前類別數(shù)據(jù)數(shù)量;ni為裁剪次數(shù);Max為取最大值操作。
隨機(jī)裁剪后,各類別訓(xùn)練數(shù)據(jù)集均放大至原最大類別圖片數(shù)量的4 倍,此時(shí)各類數(shù)據(jù)比例如圖3b 所示,數(shù)據(jù)不均衡問(wèn)題得到了解決。
圖3 櫟林?jǐn)?shù)據(jù)的分布Fig.3 Distribution of Quercus data
本研究設(shè)計(jì)的識(shí)別模型以卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)。卷積神經(jīng)網(wǎng)絡(luò)由卷積層、池化層、全連接層組成,卷積層是網(wǎng)絡(luò)的核心,通過(guò)對(duì)訓(xùn)練數(shù)據(jù)的學(xué)習(xí)可自動(dòng)對(duì)圖像特征進(jìn)行提取,池化層則是對(duì)卷積層結(jié)果進(jìn)行壓縮,減少網(wǎng)絡(luò)運(yùn)算量,同時(shí)控制過(guò)擬合現(xiàn)象,全連接層可對(duì)之前經(jīng)卷積池化后圖像的特征進(jìn)行整合,從而輸出分類識(shí)別的結(jié)果。
當(dāng)傳統(tǒng)CNN 達(dá)到一定深度時(shí),再增加網(wǎng)絡(luò)層數(shù)并不能進(jìn)一步提高模型效果,反而會(huì)降低模型收斂的速度,同時(shí),過(guò)深的網(wǎng)絡(luò)還會(huì)使得分類準(zhǔn)確率下降[24-25]。ResNet 提出了殘差學(xué)習(xí)的機(jī)制[26],通過(guò)在權(quán)重層間增添短路連接與恒等映射機(jī)制解決網(wǎng)絡(luò)因深度增加退化的問(wèn)題,其基本組成單元如圖4所示。殘差網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)映射與輸入x之間的殘差,引入ReLu 作為激活函數(shù),較好地緩解了模型隨深度增加退化的問(wèn)題。
圖4 殘差單元Fig.4 Residual block
綜合考慮分類效果及訓(xùn)練難度,實(shí)驗(yàn)選取優(yōu)化結(jié)構(gòu)的ResNet50 作為主干網(wǎng)絡(luò),其詳細(xì)網(wǎng)絡(luò)結(jié)構(gòu)如表2所示。網(wǎng)絡(luò)在預(yù)處理卷積層的最大池化后面增加了平均池化操作,對(duì)特征進(jìn)行充分處理。為解決反向傳播過(guò)程中梯度消失和爆炸問(wèn)題,引入批規(guī)范化(Batch normalization,BN),在每個(gè)殘差單元中的卷積操作后增添BN 操作,將數(shù)據(jù)調(diào)整至均值為0,方差為1 的正態(tài)分布。最后的全連接層依照分類類別數(shù)進(jìn)行調(diào)整,
表2 ResNet50 網(wǎng)絡(luò)結(jié)構(gòu)Table 2 Network structure of ResNet50
為進(jìn)一步提升模型對(duì)物候期的分類識(shí)別效果,本研究結(jié)合相關(guān)資料將卷積注意力模塊引入ResNet[27-28],深度學(xué)習(xí)中的注意力機(jī)制借鑒了人眼視覺(jué)的注意力機(jī)制,可提升高價(jià)值信息對(duì)分類任務(wù)的影響權(quán)重,其引入可對(duì)ResNet 中殘差單元輸出的特征進(jìn)一步區(qū)分,關(guān)注重要的特征并抑制無(wú)用的特征。卷積注意力模塊由通道注意力模塊和空間注意力模塊組成,該模塊對(duì)卷積特征進(jìn)行再處理,從不同的維度提升模型的效果。
通道注意力模塊將經(jīng)平均池化和最大池化后的信息送入權(quán)值共享的多層感知機(jī)(Multilayer perceptron,MLP)內(nèi),F(xiàn)為原由殘差網(wǎng)絡(luò)輸出的圖像特征,具有多個(gè)通道維度。通道注意力模塊將F在空間維度進(jìn)行壓縮,從而分析F各個(gè)通道間的關(guān)系,如圖5所示。模塊對(duì)F的各個(gè)通道按信息傳遞效果進(jìn)行再賦權(quán),提升有效通道權(quán)重,抑制無(wú)用通道,其權(quán)重參數(shù)MC計(jì)算方式如下:
圖5 通道注意力模塊Fig.5 Channel attention module
式中:AvgPool 表示平均池化;MaxPool 表示最大池化;σ表示Sigmod 函數(shù);MLP 表示多層感知機(jī)。
空間注意力模塊著重于分析特征矩陣內(nèi)的空間關(guān)系,將原特征F在通道維度上進(jìn)行了平均池化與最大池化,并將兩種池化的結(jié)果矩陣進(jìn)行拼接,使用7×7 的壓縮卷積核對(duì)結(jié)果矩陣進(jìn)行卷積處理,經(jīng)Sigmod 激活函數(shù)后得出空間注意力權(quán)重系數(shù)MS,以對(duì)F的空間按重要性進(jìn)行區(qū)分,如圖6所示。
圖6 空間注意力模塊Fig.6 Spatial attention module
卷積注意力模塊由通道注意力模塊與空間注意力模塊以先后串行的方式構(gòu)成,在每個(gè)殘差單元的后面均放置此模塊,如圖7所示。殘差網(wǎng)絡(luò)經(jīng)卷積操作后得到特征F,由通道注意力模塊處理后得到特征F′,最終經(jīng)空間注意力模塊得特征F′′,F(xiàn)′′代替原有特征F進(jìn)行殘差運(yùn)算,其公式為:
圖7 卷積注意力模塊引入后的殘差單元Fig.7 Convolutional attention module integrated with a residual block
式中:?表示矩陣的對(duì)應(yīng)元素逐個(gè)相乘;MC為通道注意力模塊權(quán)重系數(shù);MS為空間注意力模塊權(quán)重系數(shù)。
研究選取有無(wú)引入注意力機(jī)制的ResNet50 神經(jīng)網(wǎng)絡(luò)與他人研究中取得良好效果的物候期識(shí)別方法作為實(shí)驗(yàn)?zāi)P?。為?yàn)證方法跨年份的通用性,2019年的像片不參與訓(xùn)練,僅用于測(cè)試效果,完整實(shí)驗(yàn)流程如圖8所示。
圖8 實(shí)驗(yàn)流程圖Fig.8 Experiment flow chart
本實(shí)驗(yàn)采用Pytorch 深度學(xué)習(xí)框架,版本號(hào)為1.5.0,選用RTX 2080GPU 加速訓(xùn)練。實(shí)驗(yàn)測(cè)試模型為HOG-SVM、AlexNet[29]與ResNet50 與引入注意力機(jī)制的ResNet50-Attention。神經(jīng)網(wǎng)絡(luò)訓(xùn)練迭代次數(shù)設(shè)置為120,每個(gè)批次訓(xùn)練的圖像張數(shù)為25,采用隨機(jī)梯度下降優(yōu)化算法(stochastic gradient descent,SGD)訓(xùn)練模型,提升模型的訓(xùn)練速度,并引入動(dòng)量進(jìn)行優(yōu)化。經(jīng)實(shí)驗(yàn)調(diào)整優(yōu)化,最終動(dòng)量設(shè)置為0.9,權(quán)值衰減系數(shù)為1×10-4。為降低模型在全局最優(yōu)點(diǎn)附近的擺動(dòng),網(wǎng)絡(luò)的初始學(xué)習(xí)率設(shè)置為0.1,在完成30 輪迭代后進(jìn)行學(xué)習(xí)率衰減操作,將學(xué)習(xí)率變?yōu)橹暗氖种?。網(wǎng)絡(luò)的損失函數(shù)為交叉熵,衡量網(wǎng)絡(luò)的預(yù)測(cè)值與實(shí)際值的差異。
本研究采用圖像分類領(lǐng)域常用的準(zhǔn)確率評(píng)估各個(gè)模型的識(shí)別精度,通過(guò)各個(gè)模型在2019年未經(jīng)訓(xùn)練集的識(shí)別準(zhǔn)確率比較模型的泛化能力。準(zhǔn)確率公式定義為:
式中:TP為識(shí)別正確圖像的數(shù)量;samples為總樣本數(shù);Acc為準(zhǔn)確率。
研究選取在迭代中驗(yàn)證集上取得最高分類效果的網(wǎng)絡(luò)作為定型模型進(jìn)行測(cè)試,測(cè)試分別在2017—2018年測(cè)試集與2019年測(cè)試集展開(kāi),從不同角度對(duì)比各個(gè)方法的效果。
由表3可知,各模型在2017—2018年測(cè)試集上均取得了較好的識(shí)別效果,引入注意力機(jī)制的ResNet50-Attention 略微優(yōu)于ResNet50、HOGSVM 兩種方法。AlexNet 由于網(wǎng)絡(luò)層級(jí)較少,模型較簡(jiǎn)單,網(wǎng)絡(luò)表達(dá)能力較差,識(shí)別精度較低。
表3 各方法在2017—2018年測(cè)試集的整體準(zhǔn)確率Table 3 Overall accuracy of each method on test dataset from 2017 to 2018
2019年數(shù)據(jù)未參與各模型的訓(xùn)練,在該測(cè)試集上的實(shí)驗(yàn)測(cè)試模型的泛化能力。由表4可知,ResNet50-Attention 的準(zhǔn)確率明顯優(yōu)于其他模型,在櫟林研究區(qū)準(zhǔn)確率達(dá)到90.58%,在槭林研究區(qū)準(zhǔn)確率為89.27%,顯著高于ResNet50、AlexNet與HOG-SVM 3 種模型。
表4 各方法在2019年測(cè)試集的整體準(zhǔn)確率Table 4 Overall accuracy of each method on test dataset in 2019
2017—2018 測(cè)試集及草本植物物候期表現(xiàn)效果較好的機(jī)器學(xué)習(xí)方法HOG-SVM 在2019年測(cè)試集精度較低,僅為76.12%與68.72%。HOG-SVM方法提取的圖像特征描述了林木像片各個(gè)物候期的形狀與紋理,而對(duì)圖像的色彩體現(xiàn)不足,草本植物的各個(gè)物候期形態(tài)差異明顯,成年林木在各個(gè)物候期階段軀干形態(tài)變化不大,變化多集中在樹(shù)葉、芽等局部區(qū)域,對(duì)方法的精細(xì)識(shí)別能力要求較高,HOG 算法提取的單一特征較易被不同年份變化的干擾因素影響。ResNet50 網(wǎng)絡(luò)在2017—2018年測(cè)試集的性能優(yōu)異,但遷移應(yīng)用至2019年測(cè)試集精度下降較大,在兩個(gè)研究區(qū)分別下降17.08%與28.56%。ResNet50 網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)圖像特征的充分提取,但并未對(duì)特征進(jìn)行有效的再賦權(quán),影響了ResNet50 的識(shí)別精度。注意力機(jī)制的加入使得模型可在訓(xùn)練中自學(xué)習(xí)信息,對(duì)關(guān)鍵信息區(qū)域賦予較高的權(quán)重,降低干擾因素的影響,提升了模型在特征細(xì)微時(shí)的識(shí)別能力,較好地解決了ResNet50 遷移應(yīng)用精度較差的問(wèn)題,兩個(gè)研究區(qū)較未引入注意力機(jī)制的ResNet50 準(zhǔn)確率提升13.15%與21.86%。
為進(jìn)一步分析模型表現(xiàn),本研究將ResNet50與ResNet50-Attention 進(jìn)一步比對(duì)。圖9為兩種模型在2019年測(cè)試集上的歸一化混淆矩陣。圖中的每列代表模型預(yù)測(cè)類別,行數(shù)為圖像的真實(shí)類別;行列交點(diǎn)表示數(shù)據(jù)被歸類為對(duì)應(yīng)列類別占行類別數(shù)據(jù)總數(shù)的百分比,對(duì)角線結(jié)果為歸類正確的數(shù)據(jù)占該類別數(shù)據(jù)總數(shù)的百分比。由圖9可知,引入注意力前后模型在形態(tài)差異較大的物候期上識(shí)別均較為準(zhǔn)確,均能較好地識(shí)別研究林區(qū)的休眠期。在芽爆期、展葉末期兩類物候期的識(shí)別上,ResNet50 易發(fā)生錯(cuò)分現(xiàn)象,而ResNet50-Attention在該兩類識(shí)別上效果均較優(yōu)。展葉末期、落葉期兩類物候期與其他物候期在圖像特征上相接近,ResNet50-Attention 可更好地對(duì)細(xì)微的圖像差別進(jìn)行區(qū)分。ResNet50-Attention 在芽爆期、展葉初期、展葉末期、葉成熟期與落葉期易混淆的物候期的識(shí)別效果明顯更優(yōu),同時(shí)在休眠期識(shí)別上與ResNet50 相差不大,整體上更適用于林木的物候期識(shí)別。
圖9 兩種模型在2019年測(cè)試集的歸一化混淆矩陣Fig.9 Normalized confusion matrix of two models on test dataset in 2019
本研究提出基于注意力機(jī)制的林木物候識(shí)別方法,對(duì)像片中林木的物候期進(jìn)行識(shí)別,并與傳統(tǒng)圖像識(shí)別方法的效果進(jìn)行了對(duì)比。實(shí)驗(yàn)結(jié)果表明,注意力機(jī)制的引入有效提升了模型在跨年份數(shù)據(jù)集的識(shí)別精度,增強(qiáng)了模型的遷移應(yīng)用能力。該方法準(zhǔn)確率高,泛化性強(qiáng),改善了傳統(tǒng)方法細(xì)粒度識(shí)別能力、遷移應(yīng)用能力較差的缺點(diǎn),能對(duì)易混淆的林木物候期進(jìn)行較為精準(zhǔn)的區(qū)分,可對(duì)林木物候進(jìn)行實(shí)時(shí)精準(zhǔn)識(shí)別。
1)當(dāng)前,基于數(shù)字照相的物候觀測(cè)方式在國(guó)內(nèi)的森林生態(tài)定位觀測(cè)站尚處于推廣階段,相關(guān)研究相對(duì)較少[30],本研究的林地林分組成相對(duì)簡(jiǎn)單。本研究后續(xù)將在更多的林區(qū)展開(kāi)實(shí)驗(yàn),測(cè)試模型在樹(shù)種較多、林分組成復(fù)雜林地的識(shí)別效果。
2)本文對(duì)研究區(qū)林木物候期的劃分不夠精細(xì),模型在更細(xì)化的林木物候期劃分的識(shí)別效果有待進(jìn)一步研究。未來(lái)將對(duì)研究區(qū)林木的物候區(qū)進(jìn)一步細(xì)分,繼續(xù)探索林木像片物候信息的提取,從而進(jìn)一步為林木物候研究提供數(shù)據(jù)支持,為精準(zhǔn)林業(yè)提供技術(shù)支撐。