王文川 劉惠敏 雷冠軍 劉寬 邱林
摘要:年最大洪峰流量預測,受較多的復雜因素的影響,不確定性較強,用常規(guī)統(tǒng)計方法做出準確預報具有較大困難。從水文序列本身出發(fā),提出將投影回歸模型應用于年最大洪峰流量預測,為了更好獲得投影尋蹤模型參數和預測精度,提出了運用延遲相關系數法確定回歸預測因子、群居蜘蛛算法優(yōu)化投影尋蹤模型最佳投影方向參數n、利用最小二乘法確定多項式的權系數c、嶺函數個數M的群居蜘蛛優(yōu)化投影尋蹤年最大洪峰流量預測模型,結合長江宜昌站(1882年-2004年)的年最大洪峰流量資料進行實例預測,訓練階段平均絕對相對誤差為8.61%,預測階段平均絕對相對誤差為10.5 1%,該模型預測效果較好,模型結果穩(wěn)定,可有效應用于年最大洪峰流量預測。
關鍵詞:SSO算法;參數投影尋蹤;混合智能;年最大洪峰流量;預測
中圖分類號:TV 124 文獻標識碼:A 文章編號:1672-1683(2017)02-0009-06
鑒于年最大洪峰流量在防洪渡汛工作中具有重要作用,所以其預測是中長期水文預報的重點。但由于其涉及較大的時空尺度范圍,并受到大氣運。王渺林在趨勢分析與周期分析的基礎上對年最大洪峰流量的演變規(guī)律進行研究。金鑫家運用小波分析對水文序列進行由粗到細的分析,分析了年最大洪峰流量的周期和預報:王文圣等人在小波變換序列的基礎上提出了最近鄰抽樣回歸組合預報,結果表明提出的方法好于諧波預報法:宋荷花等利用模糊模式識別模型對湘江湘潭站年最大洪峰流量進行預報:李紅霞等探討了基于貝葉斯正則化方法的神經網絡年最大洪峰流量預測模型:孫樹青等將統(tǒng)計相關性分析與模糊方法相結合,建立了基于BP神經網絡的最大洪峰流量進行預報模型,這些工作作為對最大洪峰流量預測建模的有益嘗試,促進了其發(fā)展,但人工神經網絡在解決預報問題方面仍存在網絡結構選擇困難、全局搜索能力差、易陷入局部最優(yōu)值點且模擬結果不穩(wěn)定等問題,在一定程度上限制了其在實際生產中的推廣應用。趙璀將灰色系統(tǒng)理論運用到中長期水文預報中,取得了較好的結果。張漢雄認為年最大洪峰流量序列是一個純隨機現象,因而選擇采用馬爾科夫鏈給出預測值的大致范圍,但該方法的結果受序列長度的影響較明顯。胡致強在自適應控制理論發(fā)展的基礎上,運用Kalman濾波對年最大洪峰流量進行預報,如果模型和水文系統(tǒng)不匹配,則會使預報誤差較大。
投影尋蹤將應用數學、現代統(tǒng)計與計算機技術相結合進行數據處理,在解決樣本數量少和維數較大等問題時,具有明顯的優(yōu)勢,在評估、聚類分析、洪水預報等領域得到了很好的應用。
投影尋蹤建模過程是利用線性投影的多個多元回歸的線性組合,優(yōu)選投影方向a、多項式系數c和嶺函數個數M的最優(yōu)組合。根據niedman和Stu-etzle提出的投影尋蹤技術多重平滑實現法,核心是采用多層分組迭代交替優(yōu)化方法,選取m組參數以及嶺函數的最優(yōu)項數目。把參數分為若干組,選擇其中一組作為參數尋優(yōu)的對象,其他組都給定一初值。求得結果后,把尋優(yōu)所得的參數極值點作初值,另選一組參數在這一初值下尋優(yōu),多次反復尋優(yōu)直到最后的一組參數使得目標函數達到最小。
傳統(tǒng)的投影尋蹤方法尋優(yōu)速度較慢,且尋優(yōu)結果與初始值的設定有關。為了更好地尋找模型的參數,文獻分別采用不同的尋優(yōu)算法與投影尋蹤算法相結合,確定最優(yōu)的參數組合,以此來進行預測。本文提出了通過延遲相關系數法確定回歸預測因子、群居蜘蛛算法f Social Spider Optimization,SSO)優(yōu)化投影尋蹤(Projeetion pursuit regres-sion,PPR)模型最佳投影方向參數a,最小二乘法確定多項式權系數c,合格率控制參數M個數相結合的混合智能投影尋蹤年最大洪峰流量預測模型,結合長江宜昌站(1882年-2004年)的年最大洪峰流量資料進行了實例分析。
1基于參數投影尋蹤回歸的年最大洪峰流量建模原理
投影尋蹤回歸法是Friedman和Stuetzle思想是尋找能反映高維數據的結構特征的若干個投影方向,將高維數據投影到一維空間,通過優(yōu)選出的嶺函數的代數和去逼近回歸函數,以此構造模型。其回歸預測建模的原理主要如下。
設x為p維的預測因子,a為p維投影向量,f(x)為預測的年最大洪峰流量,為了解決多元線性回歸不能有效反映實際非線性的問題,投影尋蹤回歸模型用一系列的嶺函數g(aTx)的代數和去逼近回歸函數f(x),因此,預測量與預測因子的投影回歸關系能被表達為
(1)式中:M為嶺函數的個數;g為嶺函數。當M,g等于1時,式(l)就變?yōu)槌R?guī)的多元函數。
在Friedman和Stuetzle最初的研究中提出的采用龐大的簡單函數集合,通過分層組迭代交替優(yōu)化技術去光滑逼近,實現難度較大,在很大程度上限制了該模型的推廣與應用。Hwang等人研究表明Hermite多項式具有較強的光滑、趨勢、動態(tài)、非線性擬合能力,且多項式次數的增加會增強起擬合復雜程度的能力,因此,可采用可變階遞推的正交Hermite多項式擬合一維嶺函數。則投影回歸關系式就變?yōu)?/p>
(2)式中:n表示輸入樣本的個數;zi表示第i個輸入樣本在投影方向。上的投影,其表示達式為
(3)
j為多項式的階數;c為多項式的系數;h為正交Hermite多項式,h的數學表達式如下:
(4)式中;j!代表多項式階數i的階乘;φ(z)=
(5)
由此回歸預測建模就可轉化為求解式(6)的最小化問題。
(6)
(7)
(8)
根據水文情報預報規(guī)范(GB/T 22482-2008),合格預報次數與預報總次數之比的百分數為合格率QR,其計算公式為:
(9)式中QR為合格率(%);nh為合格預報的次數:n為預報的總次數。
所以,投影尋蹤回歸預測的關鍵就轉化為優(yōu)選投影回歸模型的投影方向參數a、多項式權系數c和嶺函數的個數M,參數優(yōu)選的結果直接影響模型的泛化能力、模擬及預測精度。
2群居蜘蛛優(yōu)化算法
群居蜘蛛優(yōu)化算法(SSO)是由Cuevas等人基于對群居蜘蛛的協作行為,提出的一種新的隨機全局優(yōu)化技術。群居型蜘蛛是群居性昆蟲的典型例子,是群體成員能夠完成一系列復雜的協同行為的蜘蛛。在群居蜘蛛群落中,每一個個體,由于性別的差異,完成一系列任務如:捕食、交配、織網和相互交流的任務。蜘蛛的網是群落重要的一部分,它不僅是全體成員生存環(huán)境的一部分,而且是它們之間的交流渠道。因此重要的信息(例如捕食或者是交配)由網通過震動的形式傳播。這些信息,被當作局部的知識,每個成員利用這些知識來指導它們各自的協作行為,同時影響了群落的社會規(guī)范。
群居蜘蛛生物群落有兩個基本的組成部分:群落成員和公共的網。群落成員被分為兩類:雌蜘蛛、雄蜘蛛。群居蜘蛛是高度的母系氏種群。一些研究表明雄蜘蛛的數量差不多達到全部群落成員數目的30%。群落成員之間有直接和間接的交流。直接的交流意味著身體接觸或者是體液的交換諸如交配。對于間接的交流,公共的網作為一個交流媒介用來傳達重要的信息,這些信息每一個群落成員都能夠感受得到。這些被編碼成震動的信息是成員之間集體協作的一個關鍵的方面。群落成員將震動解碼成幾條信息諸如被捕獲的動物的大小,鄰居成員的特征等等。這種震動的強度依賴于激發(fā)他們的蜘蛛的重量和距離。
它們相互作用的方式是依賴于蜘蛛的性別的。雌蜘蛛展示了群居式的主要傾向,由于震動依賴于激發(fā)他們的蜘蛛的重量和距離,很強有力的震動或者是大蜘蛛激發(fā)的,或者是距離較近的蜘蛛發(fā)出的。與雌蜘蛛不同的是,雄蜘蛛的行為是生殖導向的。雄性蜘蛛將他們自己視為雄性組織的領袖,他們控制著群落的資源。因此,雄性個體被分為兩類:優(yōu)勢者和劣勢者。優(yōu)勢的雄性蜘蛛和劣勢的雄性蜘蛛比起來有更好的適應度。在一個典型的行為中,優(yōu)勢蜘蛛被公共網上的最近的雌性蜘蛛所吸引。相反,劣勢雄性蜘蛛圍繞在優(yōu)勢雄性群體的周圍利用優(yōu)勢雄性種群浪費的資源。
交配是一個重要的生理行為,該行為不僅保證了種群的延續(xù),而且能夠使信息在種群之間交流。群居蜘蛛的交配發(fā)生在優(yōu)勢雄性蜘蛛和雌性蜘蛛之間。在這種情況下,當一個優(yōu)勢蜘蛛在一只或是更多的雌性蜘蛛的特定的范圍內,它們和所有的蜘蛛交配為了產生后代。
作為優(yōu)化技術其求解優(yōu)化問題最小值的步驟可參考文獻,在此不再贅述。
3年最大洪峰流量混合智能預測建模步驟
根據前面介紹投影尋蹤回歸建模的原理和群居蜘蛛優(yōu)化算法求解最小值優(yōu)化問題的步驟,年最大洪峰流量混合智能預測建模的具體步驟如下。
(1)數據歸一化。為消除數據在量綱和標準差數值水平上的差異,利用下式對數據進行標準化處理:
(10)式中:qi表示年最大洪峰流量序列;xi表示歸一化后的流量序列;n表示序列的容量。
(2)確定預測因子。利用相關技術確定徑流序列的預測因子。時序xi延遲k步的自相關系數Rk可通過下式獲得:
(11)
(12)
(13)則推斷時序xi延遲k步相依性顯著,將xi-k作為xi的預測因子。μα12從正態(tài)分布表中查得,在本文研究中取80%的置信水平。
(3)生成初始投影方向。設定蜘蛛的種群規(guī)模Ⅳ,按約束條件式(7)生成N組PP模型投影方向a的初始值。
(4)計算多項式權系數c。根據生成的投影方向,利用式(3)計算投影值z,利用式(4)計算r階Hermite多項式hr(z),然后最小二乘法計算多項式權系數c。
(5)計算相應的適應度值,評價蜘蛛個體。根據第4步得到權系數c,利用式(2)計算回歸值,利用式(6)計算適應度值,進入群居蜘蛛優(yōu)化算法的步驟2。經過群居蜘蛛優(yōu)化算法一系列的機制,更新個體,進行迭代計算,獲得最優(yōu)的投影方向參數。和多項式權系數c,第一個嶺函數優(yōu)化結束。
(6)模型優(yōu)化終止和結果輸出。根據優(yōu)選得到的投影方向參數a和多項式權系數c,計算擬合殘差和合格率,如果滿足合格率終止準則,輸出預測值和相應的參數,用εi代替yi,轉入(3)進行下一個嶺函數的優(yōu)化。為了避免程序進入死循環(huán),模型優(yōu)化終止準則采用合格率和最大嶺函數個數相結合的方式。
4實例驗證
選取長江宜昌站1882年-2004年共123年的年最大洪峰流量序列{q1|i=1,2.…,123},應用前113年(1882年-1994年)訓練投影尋蹤混合智能預測模型確定模型參數,用后10年(1995年-2004年)的年最大洪峰流量進行檢驗。通過計算計算該序列前30階自相關系數Rk和與之相應的上、下限R1k,R2k值,其中置信水平取80%,計算結果表明R1,R2,R3,R20,R21,R22,R25,R28,R30的相依性在置信水平80%的條件下是顯著的。所以,對qi預測的因子取為qi-1,qi-2,qi-3,qi-20,qi-21,qi-22,qq-25,qqi-28,qqi-30,則前113年(1882年-1994年)可得到83組訓練數據。訓練過程,a的取值范圍為[-l,1],Hermite多項式階數為r=6,群居蜘蛛優(yōu)化算法的種群規(guī)模N=50,最大迭代次數Gmax為500;嶺函數的最大個數Mmax=3。經群居蜘蛛算法和最小二乘方法混合優(yōu)化,得到長江宜昌站年最大洪峰流量的預測模型為
(14)
根據得到的混合智能投影尋蹤年最大洪峰流量預測模型,計算1995年-2004年的年最大洪峰流量預測值。圖1給出了本文提出模型的(1912年-1994年)訓練模擬值和(1995年-2004年)預測值與宜昌站年最大洪峰流量觀測值的對比圖。訓練階段和預測階段相關誤差統(tǒng)計分析結果見表1。根據水文情報預報規(guī)范(GB/T 22482-2008),合格率超過85%的為預報等級為甲等。根據表1中統(tǒng)計分析結果可以看出,在訓練階段的合格率為94.0%,在檢驗階段的合格率為90%,預報等級為甲等。同時也可以看出,在訓練階段相對誤差絕對值在[0,15]區(qū)間內的百分比達84 30%,在[0,10]區(qū)間內的百分比達67.5%:在檢驗階段相對誤差絕對值在[0,15]區(qū)間內的百分比達70.0%,在[0,10]區(qū)間內的百分比達60%:訓練階段的平均絕對相對誤差僅有8.61;檢驗階段的最大相對誤差絕對值為22.44%,最小相對誤差絕對值為1.76%,平均絕對相對誤差僅有10.51。所以提出混合智能投影尋蹤年最大洪峰流量預測模型宜昌站的年最大洪峰流量的模擬預測獲得了非常好的效果。
為了測試預報結果的穩(wěn)定性,在相同的計算機系統(tǒng)和環(huán)境下,不改變種群規(guī)模和迭代次數條件下,運行10次,優(yōu)選出的模型參數沒有變化,說明提出的混合智能投影尋蹤預測模型穩(wěn)定性強。
5結論
對于年最大洪峰流量預測,傳統(tǒng)的統(tǒng)計分析方法很難取得滿意的效果,這從對其預測的文獻檢索也可以印證,其研究成果明顯少于其他中長期水文預報(如年、月徑流量)的預報。為此,本文嘗試性地將參數投影尋蹤模型引入年最大洪峰流量預報,提出了運用延遲相關系數法確定回歸預測因子、群居蜘蛛算法優(yōu)化投影尋蹤模型參數的混合智能投影尋蹤年最大洪峰流量預測模型。以長江宜昌站(1882年-2004年)的年最大洪峰流量資料為依據進行了實例分析,結果表明,建立模型能獲得很好的精度,檢驗階段預報合格率達到90%,明顯高于文獻中用諧波預報法所得的檢驗階段合格率68.2%以及基于小波變換序列的最近鄰抽樣回歸組合預報所得的檢驗階段合格率81.8%。同時提出模型智能化程度高,預測因子,模型參數可以完全有計算機完成,且結果穩(wěn)定性好,可有效應用于年最大洪峰流量預測,值得在實際中推廣應用。