何少芳, 沈陸明, 謝紅霞
1. 湖南農(nóng)業(yè)大學(xué)信息與智能科學(xué)技術(shù)學(xué)院, 湖南 長沙 410128 2. 湖南農(nóng)業(yè)大學(xué)資源環(huán)境學(xué)院, 湖南 長沙 410128
土壤中含碳有機物總稱為有機質(zhì), 它是診斷和評價土壤肥力的核心指標(biāo)。 傳統(tǒng)的土壤有機質(zhì)含量測定方法為室內(nèi)化學(xué)測定法, 該方法具有精度高的優(yōu)點, 但具有測定周期長且費時費力的缺點。 目前用于估測土壤性狀指標(biāo)的主要技術(shù)手段是高光譜遙感, 它具有分辨率高、 波段多且連續(xù)的特點, 能夠?qū)σ欢ǚ秶鷥?nèi)的地物進行準(zhǔn)確識別。 近年來, 對土壤有機質(zhì)高光譜估算模型的研究, 已經(jīng)由簡單的一元線性模型逐漸發(fā)展成多元線性模型和非線性模型, 以及多種建模方法的耦合使用。 線性方法主要包括多元逐步回歸(stepwise multiple linear regression, SMLR)、 主成分回歸(principal component regression, PCR)和偏最小二乘回歸(partial least squares regression, PLSR)。 徐夕博等[1]在主成分變換的基礎(chǔ)上提取光譜特征, 對光譜信息的來源分類進行差別分析, 建立了基于主成分分析的多元逐步回歸和神經(jīng)網(wǎng)絡(luò)預(yù)測模型。 李陽等[2]以新疆南部地區(qū)的荒漠土壤為研究對象, 使用主成分回歸分析、 偏最小二乘回歸分析和支持向量機回歸分析方法建立并篩選出最佳反演模型。 由于土壤高光譜數(shù)據(jù)信息錯綜復(fù)雜且彼此關(guān)聯(lián), SMLR并不適合于變量間存在共線性問題, 而PCR較好地解決了自變量間存在的信息重疊問題, 能避免估測模型的過度擬合, 但忽略了因變量的作用。 非線性方法主要有神經(jīng)網(wǎng)絡(luò)(artificial neural network, ANN)、 隨機森林(random forest regression, RFR)、 支持向量機(support vector machines, SVM)和局部加權(quán)回歸(locally weighted regression, LWR)等。 包青嶺等[3]采用小波變換與數(shù)學(xué)變換進行光譜數(shù)據(jù)預(yù)處理, 結(jié)合灰色關(guān)聯(lián)分析與隨機森林預(yù)測分類模型對各小波分解特征光譜進行重要性分析, 最后基于最優(yōu)特征光譜建立多元線性預(yù)測模型并進行分析。 為探討分?jǐn)?shù)階微分聯(lián)合支持向量機分類-隨機森林模型改善高光譜監(jiān)測荒漠土壤有機質(zhì)含量的效果, 張智韜等[4]建立不同分?jǐn)?shù)階微分的隨機森林模型, 并以不同土質(zhì)中的最佳模型進行組合, 構(gòu)建新的聯(lián)合支持向量機分類-隨機森林模型。 國佳欣等[5]對土壤光譜進行了包含分?jǐn)?shù)階導(dǎo)數(shù)在內(nèi)的3種數(shù)學(xué)變換方法, 將經(jīng)過P=0.01顯著性檢驗的波段用于模型的構(gòu)建, 選用偏最小二乘回歸和BP神經(jīng)網(wǎng)絡(luò)(back propagation neural network, BPNN)建立土壤有機質(zhì)含量預(yù)測模型, 結(jié)果表明PLSR-BP復(fù)合模型預(yù)測精度優(yōu)于單一模型。 LWR是從光譜庫中選取光譜特征相近的樣本建立局部模型, 土壤光譜數(shù)據(jù)越全面, 基于大樣本土壤光譜數(shù)據(jù)的局部模型預(yù)測效果就越好。 從LWR的應(yīng)用研究可看出, 在大樣本和大尺度區(qū)域上它能發(fā)揮更好的作用, 但建模的重要前提是構(gòu)建大樣本土壤光譜數(shù)據(jù)庫。 為了更準(zhǔn)確地監(jiān)測大面積土壤的有機質(zhì)含量, 在已有的估測模型基礎(chǔ)上, 從拓展樣本數(shù)據(jù)集的角度探索提高土壤有機質(zhì)高光譜估測模型預(yù)測能力的方法很有必要。
在機器學(xué)習(xí)領(lǐng)域, 高質(zhì)量數(shù)據(jù)集的合成一直以來是一個非常重要且充滿挑戰(zhàn)性的問題, 合成的高質(zhì)量數(shù)據(jù)可用于改善模型, 尤其是深度學(xué)習(xí)模型的訓(xùn)練過程[6]。 Goodfellow等[7]提出一種新型生成模型-生成式對抗網(wǎng)絡(luò)(generative adversarial network, GAN), 開創(chuàng)性地使用對抗訓(xùn)練機制對2個神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練, 并利用隨機梯度下降(stochastic gradient descent, SGD)實現(xiàn)優(yōu)化。 深度卷積GAN[8](deep convolutional generative adversarial networks, DCGAN)是對GAN的第一個重要改進, 它將深度卷積和批標(biāo)準(zhǔn)化層引入GAN網(wǎng)絡(luò)結(jié)構(gòu)中, 在幾種不同的數(shù)據(jù)集上都取得了令人信服的實驗結(jié)果。 GAN自提出后立即受到人工智能學(xué)術(shù)界和工業(yè)界的高度關(guān)注和廣泛研究[9-11]。 基于零和博弈的GAN可通過無監(jiān)督學(xué)習(xí)獲得數(shù)據(jù)分布, 并生成較逼真的數(shù)據(jù), 在圖像生成、 視頻生成等領(lǐng)域都獲得了成功的應(yīng)用。
已有的土壤有機質(zhì)含量估測模型, 大多通過優(yōu)選有機質(zhì)敏感波段并結(jié)合線性或非線性回歸算法提高模型穩(wěn)健性[12-13], 較少涉及從拓展建模樣本空間角度提升模型性能。 本工作以湖南省長沙市稻田土樣為研究對象, 探索精度和穩(wěn)定性更優(yōu)的土壤有機質(zhì)高光譜估測模型。 考慮到有限的標(biāo)簽數(shù)據(jù)僅能反饋有限的信息, 在少量帶標(biāo)簽樣本環(huán)境下訓(xùn)練出來的回歸模型往往難以得到理想的預(yù)測性能, 在LWR的應(yīng)用原理和GAN在圖像生成等領(lǐng)域成功應(yīng)用的啟發(fā)下, 以239份樣本數(shù)據(jù)作為GAN的輸入, 生成與輸入數(shù)據(jù)真?zhèn)坞y辨的等量偽數(shù)據(jù), 并將其與原始數(shù)據(jù)建模集合并構(gòu)成增強建模集。 為了充分評價基于GAN的土壤有機質(zhì)高光譜估測模型對精度提升效果的顯著性, 在增強建模集上設(shè)置4個觀測點(對應(yīng)增強建模集中含隨機選擇的50, 100, 150和239個生成樣本), 動態(tài)構(gòu)建交叉驗證嶺回歸(ridge cross validation, RCV)、 偏最小二乘回歸和BP神經(jīng)網(wǎng)絡(luò)土壤有機質(zhì)含量估測模型, 并在同一測試集上實施模型評估。
選取湖南省長沙市和株洲市及周邊(東經(jīng)112.608—114.067, 北緯27.536—28.514)的大田水稻種植土壤作為研究對象, 研究區(qū)域地勢平坦, 土壤排水良好, pH值在4.5與9.0之間, 研究區(qū)域概況如表1所示(CS代表長沙, ZZ代表株洲)。 每個采樣點的土壤剖面(深度為0~130 cm)分為5~7個發(fā)生層, 每個發(fā)生層對應(yīng)不同的土壤層次深度并命名區(qū)分。
表1 研究區(qū)域概況
在研究區(qū)域內(nèi)選擇51個剖面對應(yīng)的水稻田中隨機、 均勻采集土壤樣本, 同步使用手持GPS定位儀進行定位, 共采集239份土壤樣本。 經(jīng)過實驗室風(fēng)干、 磨細(xì)處理后, 每份土壤樣本分為2份, 一份用于光譜數(shù)據(jù)采集, 一份用于理化性質(zhì)分析。
光譜數(shù)據(jù)采集使用可見光-近紅外光譜儀(ASD Vis-NIR), 波長范圍350~2 500 nm, 采樣間隔350~1 000 nm內(nèi)為1.4 nm和1 000~2 500 nm內(nèi)為2.0 nm, 重采樣間隔為1 nm。 239份土樣高光譜均在室內(nèi)測定。
土壤樣本的有機質(zhì)含量測定使用重鉻酸鉀-外加熱法, 每份樣本均經(jīng)過2次測定后取平均值。 239份土樣中, 完成有機質(zhì)含量測定的土樣79份, 另160份土樣的有機質(zhì)含量通過預(yù)測獲得, 所使用的預(yù)測模型為79份土樣的高光譜和有機質(zhì)含量擬合的交叉驗證嶺回歸。 從79份土樣中隨機劃分出25%(20個樣本)作為測試集, 不參與后續(xù)模型擬合, 僅用于模型評估的獨立實驗; 余下59份樣本與160份樣本合并構(gòu)成建模集。 土樣的有機質(zhì)含量統(tǒng)計特征如表2所示。
表2 土壤有機質(zhì)含量統(tǒng)計特征
生成式對抗網(wǎng)絡(luò)(GAN)的思想來源于博弈論中二元零和博弈, 其基本框架(如圖1所示)主要包括兩個重要組成部分: 判別器和生成器。 生成器以一個來自常見概率分布的隨機噪聲矢量z為輸入, 生成的偽數(shù)據(jù)G(z)為輸出; 判別器的輸入有兩種: 真實數(shù)據(jù)x和生成器生成的數(shù)據(jù)G(z), 輸出為判別結(jié)果, 可以是一個標(biāo)量, 用于表示輸入是真實數(shù)據(jù)的概率, 也可以是1或0(若判別器認(rèn)為輸入的是真實數(shù)據(jù), 則輸出判別結(jié)果1, 反之為0)。 判別器與生成器是一對互相對抗訓(xùn)練的模型, 由于判別器是一個二分類模型, 在給定生成器的情況下, 用于判斷和監(jiān)視判別器學(xué)習(xí)效果的目標(biāo)函數(shù)J(D)可用交叉熵。 判別器與生成器進行二元零和博弈, 因而生成器的目標(biāo)函數(shù)J(G)滿足J(G)=-J(D)。 利用隨機梯度下降法SGD對GAN進行優(yōu)化, 優(yōu)化問題可描述為式(1)中的極大極小博弈問題, 其中,E表示求期望,G和D分別表示生成器與判別器的可微函數(shù),x是真實數(shù)據(jù)樣本,z是隨機噪聲矢量,G(z)為生成器生成的數(shù)據(jù)。 當(dāng)判別器無法正確區(qū)分輸入數(shù)據(jù)來源于真實數(shù)據(jù)x還是生成數(shù)據(jù)G(z)時, 模型達到最優(yōu)。
minGmaxDV(D,G)=Ex~pdata(x)[log(x)]+
Ez~pz(z)[log(1-D(G(z)))]
(1)
圖1 GAN網(wǎng)絡(luò)模型基本框架
針對GAN訓(xùn)練過程中容易出現(xiàn)的梯度消失、 模式崩潰和過擬合等影響模型性能的問題, 已有相關(guān)研究工作提出了針對具體訓(xùn)練問題的技巧和解決方案[8-11, 14]。 GAN生成樣本的質(zhì)量評價主要依賴于主觀判斷, 而常用的客觀評價指標(biāo)(如平均對數(shù)似然、 核密度估計等)互不依賴且分別適用于不同類型的生成模型[9], 統(tǒng)一、 公認(rèn)的生成數(shù)據(jù)質(zhì)量客觀評價標(biāo)準(zhǔn)仍然缺乏。
基于GAN的土壤有機質(zhì)含量估測模型是回歸算法與GAN的結(jié)合, 模型流程見圖2。
圖2 基于GAN的土壤有機質(zhì)估測模型流程
模型的輸入(GAN的輸入)是含239個樣本的原始數(shù)據(jù)。 測試集中含20個樣本, 建模集含有219個樣本。 首先, 通過GAN訓(xùn)練生成等量偽數(shù)據(jù), 它們與建模集合并構(gòu)成增強建模集; 然后, 在增強建模集上構(gòu)建回歸模型; 最后, 利用測試集評估模型。 該模型流程有三點需說明: (1)針對GAN訓(xùn)練過程不穩(wěn)定問題, 設(shè)置前150輪為預(yù)訓(xùn)練; (2)由于生成數(shù)據(jù)質(zhì)量沒有公認(rèn)評價標(biāo)準(zhǔn), 采取即時評估策略, 即在每輪GAN正式訓(xùn)練中, 以本輪獲得的增強建模集的光譜數(shù)據(jù)為自變量、 歸一化的有機質(zhì)含量為因變量擬合回歸模型, 然后在測試集上計算該模型的精度, 以分析生成數(shù)據(jù)的有效性; (3)為探討生成數(shù)據(jù)數(shù)量與估測模型精度提升效果之間的關(guān)系, 在各輪正式訓(xùn)練中設(shè)置增強建模集的4個觀測點(分別對應(yīng)增強建模集中含隨機選擇的50, 100, 150和239個生成樣本), 分別評估回歸模型的決定系數(shù)和均方根誤差。 總的來說, 提出的模型與一般估測模型的區(qū)別主要體現(xiàn)在兩方面: 一方面, 用于擬合回歸模型的數(shù)據(jù)集不同, 一般估測模型在建模集上訓(xùn)練, 而本模型是在由建模集與GAN生成數(shù)據(jù)構(gòu)成的增強建模集上訓(xùn)練; 另一方面, 不同于一般估測模型的靜態(tài)性, 本模型具有動態(tài)特征, 隨著GAN多輪正式訓(xùn)練, 它將依據(jù)正式訓(xùn)練輪次和增強建模集的觀測點數(shù), 動態(tài)構(gòu)建(輪次數(shù)×觀測點數(shù))個估測模型。
光譜波長范圍是350~2 500 nm, 波段長度為2 151, 將土壤有機質(zhì)含量進行標(biāo)準(zhǔn)化處理后, 輸入GAN的參考數(shù)據(jù)大小為239行2 152列。 由于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)比MLP具有更好的抽象能力, 參考深度卷積GAN (DCGAN)在Fashion MNIST數(shù)據(jù)集上的實現(xiàn)來構(gòu)建GAN的判別器和生成器, 結(jié)合輸入數(shù)據(jù)及硬件實現(xiàn)條件設(shè)置網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)和參數(shù), 軟件中的建模操作可通過Tensorflow2.0平臺keras庫的序列模型(Sequential)實現(xiàn)。 考慮到內(nèi)存僅有16GB, 無GPU加速, 生成器的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置3個反卷積層, 判別器含2個卷積層。 生成器的輸入是一個長度為2 152的隨機矢量(注意8×269=2 152), 序列模型中添加的各層依次是: 神經(jīng)元個數(shù)為8×264×64=137 728的密集層、 批標(biāo)準(zhǔn)化層、 激活層、 重塑型層(使原長度為137 728的數(shù)據(jù)轉(zhuǎn)換為8行269列64個通道的數(shù)據(jù))、 32個神經(jīng)元的反卷積層、 批標(biāo)準(zhǔn)化層、 激活層、 16個神經(jīng)元的反卷積層、 批標(biāo)準(zhǔn)化層、 激活層、 只含一個神經(jīng)元的反卷積層, 輸出為8行269列1個通道的數(shù)據(jù)。 判別器的輸入數(shù)據(jù)大小與生成器的輸出一致, 序列模型中添加的各層依次是: 64個神經(jīng)元的卷積層、 激活層、 丟棄層、 128個神經(jīng)元的卷積層、 激活層、 丟棄層、 平坦層、 1個神經(jīng)元的密集層, 輸出為判別結(jié)果。 反卷積與卷積所使用的卷積核都為(5, 5), 激活函數(shù)選擇“LeakyReLU”。
模型訓(xùn)練前, 需設(shè)置的超參數(shù)有訓(xùn)練輪次、 用于驗證GAN訓(xùn)練效果的隨機矢量長度和個數(shù), 其值分別是300, 2 152和239; 前150輪視為預(yù)訓(xùn)練, 后150輪為正式訓(xùn)練。 由于構(gòu)建的判別器相當(dāng)于一個卷積神經(jīng)網(wǎng)絡(luò)分類器, 損失函數(shù)選擇二分類交叉熵。 生成器和判別器的優(yōu)化器都選擇“Adam”。 在每一輪訓(xùn)練中, 將依據(jù)批次大小(本文設(shè)置為10)完成輸入數(shù)據(jù)集(參考數(shù)據(jù))上若干次對抗訓(xùn)練; 在每一次對抗訓(xùn)練中, 依據(jù)判別器對參考樣本和生成樣本的判別結(jié)果, 計算生成器損失和判別器損失, 并獲得生成器梯度和判別器梯度, 進而應(yīng)用梯度優(yōu)化生成器和判別器。 生成器中增加了批標(biāo)準(zhǔn)化層改善網(wǎng)絡(luò), 避免生成數(shù)據(jù)與參照數(shù)據(jù)過于相似。 由于本文的GAN網(wǎng)絡(luò)結(jié)構(gòu)參考DCGAN在Fashion MNIST數(shù)據(jù)集上的訓(xùn)練來構(gòu)建, 實質(zhì)上是DCGAN的精簡版, 因而, GAN模型性能可參考文獻[8]。
圖2中的回歸模型選擇交叉驗證嶺回歸RCV、 偏最小二乘回歸PLSR和BP神經(jīng)網(wǎng)絡(luò), 兼顧線性方法和非線性方法。 嶺回歸是一種用于共線性數(shù)據(jù)分析的有偏估計回歸法, 是改良的最小二乘估計法, 通過在代價函數(shù)后加上一個參數(shù)的約束項防止過擬合, 而帶內(nèi)置參數(shù)交叉驗證嶺回歸類似網(wǎng)格搜索, 結(jié)合交叉驗證對模型評分, 在指定范圍內(nèi)自動搜索和確定約束項的最佳系數(shù)。 BP神經(jīng)網(wǎng)絡(luò)[15]是一種多層前饋神經(jīng)網(wǎng)絡(luò), 具有自學(xué)習(xí)能力, 在訓(xùn)練時, 數(shù)據(jù)依次經(jīng)過輸入層、 隱含層和輸出層, 比較輸出值與期望值之間的誤差, 并通過誤差反向傳播來調(diào)整優(yōu)化網(wǎng)絡(luò)層之間的權(quán)值。 依據(jù)選擇的回歸方法, 提出的模型對應(yīng)簡稱為GAN-RCV, GAN-PLSR和GAN-BPNN。
采用Python3.7編程實現(xiàn)基于GAN生成數(shù)據(jù)的土壤有機質(zhì)高光譜估測模型, 實驗平臺為PyCharm社區(qū)版和Tensorflow 2.0, Windows10 Pro操作系統(tǒng), 處理器為Intel(R) Core(TM) i3-4170 CPU ? 3.7 GHz(64位操作系統(tǒng), 基于x64的處理器), 安裝內(nèi)存16.0GB, 無GPU。
模型穩(wěn)定性與預(yù)測精度評價指標(biāo)采用決定系數(shù)(determination coefficient,R2)和均方根誤差(root mean square error, RMSE),R2越大、 RMSE越小, 模型預(yù)測精度越高穩(wěn)定性越好。
本工作側(cè)重于研究GAN生成數(shù)據(jù)對土壤有機質(zhì)含量估測模型精度和穩(wěn)定性提升的有效性, 因而, 回歸算法中參數(shù)的選擇和設(shè)置不失一般性, 交叉驗證嶺回歸中參數(shù)取值的范圍設(shè)置為0.1~10, 步長為0.2; BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練300輪次, 隱含層中含3個全連接層(即64-32-16), 激活函數(shù)都選擇“relu”, 優(yōu)化器是“Adam”, 損失函數(shù)為均方差, 驗證集占比20%。 GAN訓(xùn)練300輪, 在后150輪正式訓(xùn)練中, 每輪對抗訓(xùn)練完成后都對GAN生成數(shù)據(jù)質(zhì)量加以評估。 以第3個觀測點(從生成樣本中隨機選擇150個樣本與建模集合并構(gòu)成增強建模集)為例, 將提出的模型與建模集上擬合的模型在相同測試集上進行評估和對比。 建模集上擬合的模型分別記為Ori-RCV, Ori-PLSR和Ori-BPNN, 它們與第3觀測點上構(gòu)建的GAN-RCV, GAN-PLSR和GAN-BPNN在測試集上的精度如表3所示。 由表3可知, 建模集上擬合的3個回歸模型中, Ori-RCV表現(xiàn)最佳, 然而, GAN-RCV, GAN-PLSR和GAN-BPNN獲得了更高的決定系數(shù)和更低的均方根誤差, 具有更佳的精度和穩(wěn)定性, 表現(xiàn)為: GAN-RCV的最大R2比Ori-RCV提高了7.2%, 對應(yīng)RMSE值降低了18.9%, 對比Ori-PLSR, GAN-PLSR的最大R2提高了20.6%, 對應(yīng)RMSE降低了29.5%, 與Ori-BPNN相比, GAN-BPNN的最大R2提高了30.8%, 相應(yīng)RMSE降低了44.50%。 提出的模型中, GAN-BPNN表現(xiàn)最佳, 且模型性能提升效果最顯著, 它在正式訓(xùn)練過程中的模型精度如圖3所示, 其中, 紅色與藍色分別代表擬合于建模集與增強建模集第3觀測點的回歸模型評估結(jié)果。 從圖3中容易看出, 盡管GAN訓(xùn)練過程不穩(wěn)定, 每輪訓(xùn)練中動態(tài)構(gòu)建的模型精度上下波動, 但提升效果異常顯著。
圖3 GAN-BPNN訓(xùn)練過程中的R2和RMSE
表3 估測模型性能對比
平均決定系數(shù)(均方根誤差)是模型正式訓(xùn)練中各輪決定系數(shù)(均方根誤差)之和除以輪數(shù)。 估測模型在每輪正式訓(xùn)練的4個觀測點(對應(yīng)增強建模集中含隨機選擇的50, 100, 150和239個生成樣本)上擬合, 并在測試集上評估, 獲得的平均決定系數(shù)和均方根誤差如表4所示。 從表中可看出, 4個觀測點上構(gòu)建的估測模型性能均優(yōu)于建模集上擬合的估測模型, 其中, GAN-RCV性能最穩(wěn)定, 不同觀測點上模型精度差異不大, 相對地, GAN-PLSR和GAN-BPNN對加入的生成樣本數(shù)量更敏感。 總的來說, 隨著生成樣本數(shù)量增加, 平均決定系數(shù)呈先升后降趨勢(平均均方根誤差先降后升), 這表明加入生成數(shù)據(jù)拓展樣本建模集有益于提高估測模型的預(yù)測能力, 且當(dāng)生成樣本數(shù)量增多并達到一定值時, 提升效果顯著增強并達到最大, 而增加更多生成數(shù)據(jù)時, 模型提升效果顯著性減小。 造成這種現(xiàn)象的主要原因在于過多的生成樣本會稀釋因變量的全部變異通過回歸模型由自變量解釋的能力, 從而降低了估測模型在測試集上的精度。
表4 各觀測點上模型的平均決定系數(shù)與均方根誤差
以改善土壤有機質(zhì)高光譜估測模型精度和穩(wěn)定性為目的, 從拓展樣本數(shù)據(jù)建模集的角度出發(fā), 利用深度學(xué)習(xí)算法中GAN具有合成高質(zhì)量數(shù)據(jù)的能力, 提出基于GAN的土壤有機質(zhì)高光譜估測模型GAN-RCV, GAN-PLSR和GAN-BPNN。 模型以少量樣本數(shù)據(jù)為輸入, 經(jīng)過預(yù)訓(xùn)練后每輪都生成了與輸入數(shù)據(jù)集等量的新數(shù)據(jù)。
雖然GAN的學(xué)習(xí)能力與可塑性強, 但突出的問題是訓(xùn)練過程不穩(wěn)定, 且缺乏公認(rèn)的生成數(shù)據(jù)質(zhì)量的客觀評價標(biāo)準(zhǔn), 因此, 本文采用即時評估方式評價生成數(shù)據(jù)質(zhì)量, 即在GAN正式訓(xùn)練中, 每輪訓(xùn)練完成后都通過評估模型GAN-RCV, GAN-PLSR和GAN-BPNN在相同測試集上的精度和穩(wěn)定性來驗證生成數(shù)據(jù)的質(zhì)量, 相對來說, 就是利用GAN生成高質(zhì)量數(shù)據(jù)的能力拓展樣本數(shù)據(jù)建模集, 以提高土壤有機質(zhì)高光譜估測模型的預(yù)測性能。 參考建模集上估測模型的精度, 對比分析GAN-RCV, GAN-PLSR和GAN-BPNN在訓(xùn)練過程中的R2和RMSE, 不難得到: 提出的模型具有更優(yōu)的精度和穩(wěn)定性, 其中, GAN-BPNN表現(xiàn)最佳; GAN-RCV的模型提升效果受增強建模集中生成樣本的數(shù)量影響較小, 而GAN-PLSR和GAN-BPNN受影響較大; 增強建模集上設(shè)置的4個觀測點中, 第3個觀測點構(gòu)建的模型性能改善效果最顯著。 值得一提的是本模型是全譜模型, 并未涉及光譜數(shù)據(jù)預(yù)處理和特征波段選擇, 這意味著模型精度和穩(wěn)定性還有一定的提升空間。 此外, GAN屬于深度學(xué)習(xí)范疇, 模型訓(xùn)練對硬件要求較高, 對比建模集上構(gòu)建的土壤有機質(zhì)估測模型Ori-RCV, Ori-PLSR和Ori-BPNN, 提出的模型因GAN訓(xùn)練耗時相對較長, 然而, 在有限數(shù)據(jù)樣本條件下, 以犧牲計算效率為代價獲取更高的模型性能亦是可取的。