任永泰,王如意
(1. 東北農業(yè)大學理學院,黑龍江 哈爾濱 150030;2. 東北農業(yè)大學工程學院,黑龍江 哈爾濱 150030)
水資源是工業(yè)、農業(yè)以及畜牧業(yè)等多個領域發(fā)展的前提要求[1],但全球水資源分配不均使多個國家水資源較匱乏,且我國南北水資源分配嚴重不均。隨著國家不斷發(fā)展,人們生活水平提高,各個方面的需水量大大增高,而地球的水資源有限,其中農業(yè)是用水量較大的一個行業(yè),若不合理運用極可能導致附近水資源枯竭[2],預測農業(yè)用水量,則可均勻分配且提前解決水源枯竭的問題,進而推動農業(yè)持續(xù)發(fā)展[3]。
喬俊飛等人[4]提出基于尖峰自組織模糊神經網(wǎng)絡的農業(yè)種植區(qū)域用水量數(shù)據(jù)化預測算法,該算法將用水量數(shù)據(jù)通過主成分分析進行降維處理,同時計算出線性無關的用水量數(shù)據(jù)主成分變量,將其視為用水量預測模型的輸入數(shù)據(jù),其次構建用水量預測模型,在尖峰強度和誤差指標的要求下對隱含層神經元進行訓練,并融合Leveberg-Marquardt算法將預測算法簡化,進而實現(xiàn)農業(yè)種植區(qū)域用水量數(shù)據(jù)化預測。但是該算法在進行農業(yè)用水量預測前沒有對數(shù)據(jù)進行預處理,導致其中冗余數(shù)據(jù)以及缺失數(shù)據(jù)過多,因此在預測用水量過程中需要用大量時間篩選無用數(shù)據(jù),無法貼合實際值且極可能將缺失數(shù)據(jù)錯誤預測,進而降低預測擬合度。鄧權龍等人[5]提出基于小波分析以及灰色預測模型的農業(yè)種植區(qū)域用水量數(shù)據(jù)化預測算法,該算法首先利用小波分析方法在不同尺度下將農業(yè)種植區(qū)域用水量時間序列進行分解,在此基礎上通過灰色預測模型對農業(yè)種植區(qū)域用水量進行預測,實現(xiàn)了農業(yè)種植區(qū)域用水量數(shù)據(jù)化預測。但是,該算法沒有提前對數(shù)據(jù)進行清洗以及歸一處理,無法生成較為簡單且干凈完整的數(shù)據(jù),致使數(shù)據(jù)利用率較低,因此需要更多的數(shù)據(jù)進行計算,不僅加大計算量,也過于浪費時間,進而升高預測復雜度。王亦斌等人[6]提出基于EMD-LSTM模型的農業(yè)種植區(qū)域用水量數(shù)據(jù)化預測算法。該算法首先運用中值濾波方法對用水量數(shù)據(jù)序列進行濾波的預處理,其次利用EMD方法分解用水量數(shù)據(jù)序列,同時將分解后的特征序列利用LSTM模型預測農業(yè)種植區(qū)域用水量,最終將所有數(shù)據(jù)序列的預測值進行疊加,獲取完整的農業(yè)用水預測值,實現(xiàn)農業(yè)種植區(qū)域用水量數(shù)據(jù)化預測。但是,由于該算法沒有歸一化處理數(shù)據(jù)后再進行用水量預測,而是對數(shù)據(jù)進行濾波處理后進行預測,雖減少了部分數(shù)據(jù),但數(shù)據(jù)量仍較大,生成大量的計算極有可能出現(xiàn)不必要的錯誤,進而升高相對誤差,從而降低預測可靠度。
為解決上述方法中存在的問題,提出農業(yè)種植區(qū)域用水量數(shù)據(jù)化預測算法。
為保證農業(yè)用水量預測值足夠準確,需要提前對原始數(shù)據(jù)進行數(shù)據(jù)清洗等預處理,保證數(shù)據(jù)中無錯誤數(shù)據(jù),同時確保數(shù)據(jù)完整,進而提高預測精度[7]。
通常情況下對數(shù)據(jù)的簡單篩選無法獲取簡單且干凈完整的數(shù)據(jù),當數(shù)據(jù)過于復雜,極容易將用水量極小的流量數(shù)值視為0,這時就可能將這種異常缺失數(shù)據(jù)忽略,進而使得最終數(shù)據(jù)不完整,導致預測值準確性大大降低,因此需要清洗數(shù)據(jù),清洗數(shù)據(jù)指的是刪除錯誤數(shù)據(jù)以及缺失數(shù)據(jù)或者填補缺失數(shù)據(jù)[8],防止刪除了有用數(shù)據(jù),因此選用填補缺失數(shù)據(jù)的方式對數(shù)據(jù)進行清洗,填補缺失數(shù)據(jù)即將全部完整的用水量數(shù)據(jù)的算數(shù)平均值當成缺失數(shù)據(jù)的缺失值進行填補,但直接進行填充大概率會對缺失數(shù)據(jù)以及其它數(shù)據(jù)的關系造成影響,其中尖峰部位的用水量數(shù)據(jù)極易出現(xiàn)誤差,因此需要對相鄰兩天內的用水量數(shù)據(jù)均值進行填補,同時填補每個時間段相鄰兩個時間點的用水量數(shù)據(jù)的均值,則在K-最近鄰法性質的基礎上根據(jù)水資源的周期特性得出的填補公式為
Xi=α1[(Xi-24*60/5+Xi+24*60/5)/2]+α2[(Xi-1+Xi+1)/2]
(1)
式中,Xi代表目前時間段內用水量流量的代替值,Xi-1代表目前時間的前5分鐘用水量數(shù)據(jù),Xi-24*60/5代表頭一天同時刻的用水量數(shù)據(jù),Xi+24*60/5代表后一天同時刻的用水量數(shù)據(jù),α1和α2均代表填補公式的加權系數(shù),且兩個系數(shù)之和為1。
利用此公式即可將用水量數(shù)據(jù)中的缺失數(shù)據(jù)進行填充,進而獲取完整的用水量數(shù)據(jù)。
獲取到完整全面的數(shù)據(jù)后為簡化用水量預測步驟需對數(shù)據(jù)進行歸一化處理,數(shù)據(jù)的歸一化實質是一種線性變換數(shù)據(jù),簡化計算過程的同時提高數(shù)據(jù)訓練速度,加強用水量預測效率[9]。首先在極值歸一化的基礎上將清洗后的數(shù)據(jù)壓縮至區(qū)間[0,1]內,在用水量序列中提取每段時間內的用水量最大值和最小值,分別將其記為xmax和xmin,根據(jù)歸一化公式對用水量序列進行處理后得到新的用水量序列表達式為
x′=(x-xmin)/(xmax-xmin)
(2)
式中,x表示原始用水量序列,x′表示歸一化處理后的用水量序列。
為準確預測農業(yè)種植區(qū)域用水量,利用灰色預測模型以及三次指數(shù)平滑預測模型疊加形式進行預測[10]。
灰色預測是利用歷史信息和對未來信息的估計描述目前用水情況,灰色預測模型的優(yōu)點是可利用較少數(shù)量的數(shù)據(jù)進行計算即可得出相關性極強、而離散性較小、且預測數(shù)值擬合程度高的用水量。
假設農業(yè)初始用水量序列以及疊加一次后的序列分別為
(3)
其中,x0代表原始農業(yè)種植區(qū)域用水量序列,x1代表經過疊加后的農業(yè)種植區(qū)域用水量序列,t表示常數(shù),且t=1,2,…,n。
根據(jù)x0和x1構建出關于灰色預測模型的白化微分表達式為
dx1/dt+ax1=u
(4)
式中,u代表方程式的灰色作用量,a代表方程式的發(fā)展系數(shù)。
通過最小二乘法對灰色作用量和發(fā)展系數(shù)進行求解,同時利用Laplace轉換法獲取時間回應,且將時間回應進行離散后得出的表達式為
(5)
消除式(5)中的疊加得到的表達式為
(6)
將時間回應表達式進行還原后即為構建了灰色預測模型。
在預測農業(yè)種植區(qū)域用水量時會出現(xiàn)用水量偏低情況,此時的用水量容易被忽略,而指數(shù)平滑預測算法就可預測用水量較少的情況,指數(shù)平滑預測算法包含一次、二次以及三次平滑預測,由于農業(yè)種植區(qū)域用水量處于一直下降的趨勢,因此選用三次平滑預測模型進行預測[11]。
假設目前用水量的時間序列是由n個歷史用水量數(shù)據(jù)構成的,其表達式為
X={X(1),X(2),…,X(n)}
(7)
則根據(jù)時間序列X即可得出三次指數(shù)平滑預測模型表達式為
(8)
其中,S1(t)代表預測用水量的第t期中第一次指數(shù)平滑預測數(shù)值,S2(t)代表預測用水量第t期中的第二次指數(shù)平滑預測數(shù)值,S3(t)代表預測用水量第t期中的第三次指數(shù)平滑預測數(shù)值,α代表三次指數(shù)平滑預測模型中的權數(shù),且α在區(qū)間[0,1]之間,X(t)代表預測用水量第t期內的實時用水數(shù)值,Y(T+t)代表預測過程中第(T+t)期中的農業(yè)用水量預測值,a(t)、b(t)以及c(t)均代表預測模型中的平滑系數(shù)。
假設{xt,t=1,2,…,N}是農業(yè)種植區(qū)域用水量評價指標序列的實時數(shù)值,令預測模型數(shù)量為m,則將m個預測模型中的同一時間t的預測值進行組合后得到的預測值為xit,在加權算法平均組合預測原理的基礎上得出農業(yè)種植區(qū)域用水量預測模型組合模型的表達式為
(9)
用水量的不確定性處理即在貝葉斯定理的基礎上修改農業(yè)種植區(qū)域用水量預測值的先驗概率密度[12]。
假設農業(yè)種植區(qū)域用水量從開始到結束的過程是k階馬爾科夫過程,且w0為前k天實際農業(yè)種植區(qū)域用水量,令預見期為n,則n的預測變量wn的先驗概率密度為g(wn|w0)。
當預測用水量的時間是固定不變的,則利用組合預測模型得出的關于預測變量wn的預測值似然函數(shù)是f(sn|wn,w0),而似然函數(shù)雖可表示組合模型的用水量預測性能,但先驗概率密度以及似然函數(shù)都不能對用水量最終的預測值進行修改,因此關于w0得出最終用水量預測值的期望密度表達式為
(10)
則預測變量wn的后驗密度表達式為
(11)
其中,φ代表預測變量wn農業(yè)種植區(qū)域用水量不確定性的固定描述,k代表經過歸一化后的常數(shù)。
最終利用式(11)即可求出最準確的農業(yè)種植區(qū)域用水量預測值,同時將預測值進行還原即可實現(xiàn)農業(yè)種植區(qū)域用水量數(shù)據(jù)化預測。
由于簡化了預測過程,將訓練樣本數(shù)據(jù)進行了歸一化處理,因此最后訓練出的結果也具有歸一特性,不是真正的農業(yè)種植區(qū)域用水量,需要對其進行反歸一化處理,則反歸一化處理的數(shù)據(jù)公式為
x=xmin+y·(xmax-xmin)
(12)
式中,y代表所要預測的用水量的時間,x代表經過反歸一化處理后的真實用水量預測值。
為驗證所提方法的整體有效性,需要對農業(yè)種植區(qū)域用水量數(shù)據(jù)化預測算法(所提算法)、基于尖峰自組織模糊神經網(wǎng)絡的農業(yè)種植區(qū)域用水量數(shù)據(jù)化預測算法(文獻[4]算法)和基于小波分析以及灰色預測模型的農業(yè)種植區(qū)域用水量數(shù)據(jù)化預測算法(文獻[5]算法)進行預測擬合度、預測復雜度和預測可靠度的測試。
利用三種不同的農業(yè)種植區(qū)域用水量預測算法在不同時間段內進行用水量的預測,比較三種算法的擬合度,擬合度是檢驗預測模型的重要指標,其實質即為預測值與實際值的吻合程度,實驗結果如圖1所示。
圖1 不同算法的預測擬合度
根據(jù)圖1可知,所提算法的擬合度最高,基本與實際用水量相同,文獻[4]算法的擬合程度過高,即過擬合,導致分配給農業(yè)種植區(qū)域的水量過多,其它區(qū)域水量過少,進而出現(xiàn)分類不均的問題,而文獻[5]算法的擬合程度過低,極可能出現(xiàn)用水量不夠的問題,只有所提算法最適合用水量的預測,這是因為所提算法在進行農業(yè)種植區(qū)域用水量預測前先對數(shù)據(jù)進行預處理,消除冗余數(shù)據(jù),填補缺失數(shù)據(jù),使得預測過程中不需要一邊運算一邊篩選數(shù)據(jù),直接將所有有用數(shù)據(jù)進行填充,因此更加貼合實際值,進而提高預測擬合度。
利用農業(yè)種植區(qū)域用水量預測模型進行預測時必須與數(shù)據(jù)量為基礎進行計算,但大多預測模型要求的數(shù)據(jù)量過高,導致運算量過大,造成預測過于復雜,在多次迭代下比較三種算法預測出準確結果后所需的數(shù)據(jù)量。如圖2,每種算法中的不規(guī)則五邊形面積即為迭代后所需的所有數(shù)據(jù)量,
圖2 三種算法的預測復雜度
根據(jù)圖2的實驗結果可知,所提算法的面積最小,文獻[5]算法的面積最大,文獻[4]算法的面積次之,說明所提算法的復雜度最低,即最容易預測出農業(yè)種植區(qū)域用水量,所提算法的復雜度如此低是因為所提算法首先對數(shù)據(jù)進行清洗以及歸一化處理,提前生成較為簡單且干凈完整的數(shù)據(jù),進而將數(shù)據(jù)利用率發(fā)揮到極致,不僅節(jié)約時間,同時降低計算量,且利用較少數(shù)據(jù)即可預測出農業(yè)種植區(qū)域用水量,因此降低預測復雜度。
相對誤差就是預測值與實際值中的絕對誤差與實際值之間的比值,根據(jù)相對誤差可直接反映出預測結果的可靠度,即偏離真實值的大小,三種算法的預測可靠度如圖3所示。
圖3 三種預測算法的預測可靠度
根據(jù)圖3的實驗結果可知,所提算法在任何預測結果下的相對誤差都是最小的,其它兩種算法相對于所提算法其相對誤差都過高,尤其是文獻[5]算法的相對誤差,進而證明所提算法的可靠度最高,因為所提算法將數(shù)據(jù)提前進行歸一化處理,利用歸一化處理后的數(shù)據(jù)進行農業(yè)種植區(qū)域用水量的預測,不僅會降低計算量,也可簡化計算過程,避免出現(xiàn)不必要的錯誤,進而降低相對誤差,從而提高預測可靠度。
由于南北方蓄水量差異過大,因此需要控制農業(yè)種植區(qū)域的用水量,但農業(yè)中變化因素過多,導致農業(yè)用水情況波動較大,很多時候會出現(xiàn)蓄水量不夠或蓄水過多的問題,為解決目前算法存在的問題,提出農業(yè)種植區(qū)域用水量數(shù)據(jù)化預測算法。該算法首先對數(shù)據(jù)進行預處理,其次構建兩種農業(yè)種植區(qū)域的用水量預測模型,并將兩種模型進行組合,計算出用水量預測值,從而實現(xiàn)農業(yè)種植區(qū)域的用水量預測,解決預測擬合度低、復雜度高和可靠度低的問題。但此算法還需進一步加強,消除模型本身局限性的影響,進一步降低預測偏差,使得預測模型趨近完美。